吉林大学学报(信息科学版) ›› 2021, Vol. 39 ›› Issue (5): 553-561.
王得强, 吴 军, 王立平
WANG Deqiang, WU Jun, WANG Liping
摘要: 为提高文本分类的准确性和效率, 构建了一种基于 Attention 的 CNN-BiLSTM/ BiGRU(简称 CBLGA)混联 文本分类模型。 首先通过并联不同卷积窗口大小的 CNN(Convolutional Neural Networks)网络同时提取多种局部 特征, 之后将数据输入至 BiLSTM 和 BiGRU 并联组合模型中, 利用 BiLSTM 和 BiGRU 组合提取了与文本中的上 下文有密切关系的全局特征, 最后对两个模型所得到的特征值进行了融合并在其中引入了注意力机制。 构建 基于 Attention 的 CNN-BiLSTM/ CNN(简称 CBLCA) 混联文本分类模型, 特点是将 CNN 的输出分为两部分, 其中一部分输入 BiLSTM 网络中, 另一部分则直接和 BiLSTM 网络的输出进行融合, 既保留了 CNN 提取的文字 序列局部特征, 又利用了 BiLSTM 网络提取出的全局特征。 实验表明 CBLGA 模型和 CBLCA 模型在准确率和效 率方面均实现了有效提升。 最后, 建立了一套针对不同长度的文本进行相应预处理和后续分类工作的分类的 流程, 使模型无论面对长文本还是短文本数据, 均实现了同时提高文本分类的准确率和效率的目标。
中图分类号: