吉林大学学报(信息科学版) ›› 2025, Vol. 43 ›› Issue (2): 384-393.
龙星全, 李 佳
LONG Xingquan, LI Jia
摘要: 针对现有的中文命名实体识别算法没有充分考虑实体识别任务的数据特征, 存在中文样本数据的类别不平衡、 训练数据中的噪声太大和每次模型生成数据的分布差异较大的问题, 提出了一种以 BERT-BiLSTM-CRF(Bidirectional Encoder Representations from Transformers-Bidirectional Long Short-Term Memory-Conditional Random Field)为基线改进的中文命名实体识别模型。 首先在 BERT-BiLSTM-CRF 模型上结合P-Tuning v2 技术, 精确提取数据特征, 然后使用 3 个损失函数包括聚焦损失( Focal Loss)、 标签平滑( Label Smoothing) 和 KL Loss(Kullback-Leibler divergence loss)作为正则项参与损失计算。 实验结果表明, 改进的模型在 Weibo、Resume 和MSRA(Microsoft Research Asia)数据集上的 F1 得分分别为 71. 13% 、96. 31% 、95. 90% , 验证了所提算法具有更好的性能, 并且在不同的下游任务中, 所提算法易于与其他的神经网络结合与扩展。
中图分类号: