吉林大学学报(理学版) ›› 2024, Vol. 62 ›› Issue (5): 1179-1187.
吴量, 张方方, 程超, 宋诗楠
WU Liang, ZHANG Fangfang, CHENG Chao, SONG Shinan
摘要: 针对DoubleMix算法在数据增强时的非选择性扩充及训练方式的不足, 提出一种基于双层数据增强的监督对比学习文本分类模型, 有效提高了在训练数据稀缺时文本分类的准确率. 首先, 对原始数据在输入层进行基于关键词的数据增强, 不考虑句子结构的同时对数据进行有选择增强; 其次, 在BERT隐藏层对原始数据与增强后的数据进行插值, 然后送入TextCNN进一步提取特征; 最后, 使用Wasserstein距离和双重对比损失对模型进行训练, 进而提高文本分类的准确率. 对比实验结果表明, 该方法在数据集SST-2,CR,TREC和PC上分类准确率分别达93.41%,93.55%,97.61%和95.27%, 优于经典算法.
中图分类号: