吉林大学学报(信息科学版) ›› 2025, Vol. 43 ›› Issue (2): 401-411.
袁 满1, 赵兴雨1, 袁靖舒1, 马茁然2
YUAN Man1, ZHAO Xingyu1, YUAN Jingshu1, MA Zhuoran2
摘要: 针对现有命名实体识别方法在识别油气勘探文本中涉及多元素组合的实体以及嵌套实体时存在一定局限性的问题, 提出了一种多特征融合的 BERT-CNN-BiGRU-Attention-CRF(Bidirectional Encoder Representations from Transformers-Convolutional Neural Network-Bidirectional Gated Recurrent Unit-Attention-Conditional Random Field)命名实体识别方法。 模型利用 BERT 的语义提取能力获取句子具有全局特征的字向量; 并利用 CNN 局部特征捕获能力消除了 BERT 字向量的局限性得到词语字符级向量; 通过自建油气勘探领域词典, 使用双向最大长度匹配方法获取了词典特征向量。 将这 3 种向量拼接作为 BiGRU-Attention-CRF 模型的输入。 实验结果表明, 在自主构建的小规模油气勘探领域数据集上, 模型的 F1值为 91. 10% , 相较于其他主流的命名实体识别方法, 该模型具有更好的识别性能, 并为油气勘探领域知识图谱构建提供了有利帮助。
中图分类号: