吉林大学学报(理学版) ›› 2026, Vol. 64 ›› Issue (2): 370-0376.
廉雄杰, 董振
LIAN Xiongjie, DONG Zhen
摘要: 针对中文中词与词之间无明显的空格分隔, 导致词汇边界不明确, 难以准确捕捉实体与周围词的关系, 从而使中文命名实体识别准确率较低的问题, 提出一种基于XLM-RoBERTa-Large-Finetuned-Conll03-English模型并结合条件随机场(CRF)的中文命名实体识别微调优化方法. 首先, 建立中文命名实体指示词库, 确定命名实体范围并对实体排序, 利用概率计算获取命名实体的最优特征; 其次, 将CRF获取的特征引入到XLM-RoBERTa-Large-Finetune-Conll03-English模型中, 捕捉命名实体特征序列及序列的依赖关系; 最后, 通过在多语言模型上添加CRF层实现对中文命名实体识别的微调优化. 实验结果表明, 该微调优化方法显著提升了中文命名实体识别性能, 使模型有更高的准确率和更低的损失值, 在中文命名实体识别任务中适用性更好.
中图分类号: