吉林大学学报(信息科学版) ›› 2023, Vol. 41 ›› Issue (4): 608-620.
张 璐1 , 马子睿2 , 王 岳3 , 马翠玲4
ZHANG Lu 1 , MA Zirui 2 , WANG Yue 3 , MA Cuiling 4
摘要: 中文化学命名实体结构没有严格的构词规律可循, 识别实体中包含字母、 数字、 特殊符号等多种形式, 传统字向量模型无法有效区分化学术语中存在的嵌套实体和歧义实体。 为此, 将高中化学试题资源的命名实 体划分为物质、 性质、 量值、 实验四大类, 并构建化学学科实体词汇表辅助人工标注。 通过 ALBERT 预训练模 型提取文本特征并生成动态字向量, 结合 BILSTM-CRF( Bidirectional Long Short-Term Memory with Conditional Random Field)模型对高中化学试题文本进行命名实体识别。 实验结果表明, 该模型的精确率、 召回率和 F1 值 分别达到了 95. 24% 、95. 26% 、95. 25% 。
中图分类号: