吉林大学学报(工学版) ›› 2016, Vol. 46 ›› Issue (4): 1209-1215.doi: 10.13229/j.cnki.jdxbgxb201604029

• 论文 • 上一篇    下一篇

基于层次过滤模型的中文指代消解

周炫余1, 刘娟1, 邵鹏1, 2, 罗飞1, 刘洋1   

  1. 1.武汉大学 计算机学院,武汉 430072;
    2.武汉大学 软件工程国家重点实验室,武汉 430072
  • 收稿日期:2015-03-11 出版日期:2016-07-20 发布日期:2016-07-20
  • 通讯作者: 刘娟(1970-),女,教授,博士生导师.研究方向:数据挖掘,自然语言处理.E-mail:liujuan@whu.edu.cn
  • 作者简介:周炫余(1987-),男,博士研究生.研究方向:指代消解,自然语言处理.E-mail:zhouxuanyu@whu.edu.cn
  • 基金资助:
    国家自然科学基金项目(61272274); 国家自然科学青年基金项目(61402340); 湖北省自然科学青年基金项目(2014CFB194)

Chinese anaphora resolution based on multi-pass sieve model

ZHOU Xuan-yu1, LIU Juan1, SHAO Peng1, 2, LUO Fei1, LIU Yang1   

  1. 1.School of Computer Science, Wuhan University, Wuhan 430072, China;
    2.State Key Laboratory of Software Engineering, Wuhan University, Wuhan 430072, China
  • Received:2015-03-11 Online:2016-07-20 Published:2016-07-20

摘要: 针对现有的中文指代消解研究大多采用二元分类模型,容易出现消解正确率低的特征覆盖消解正确率高的特征以致模型指代划分错误的问题,提出了一种改进的层次过滤模型用于中文指代消解。该模型结合中文语义知识,在原模型中加入语义匹配层,该层通过引入Web语义知识很好地弥补了中文语义知识库较小的不足,并针对中文的特点对原模型的待消解项识别层进行相应的修改使之更加适合中文指代消解。将上述模型与两类基准系统在ACE2005中文语料上进行5种测评,结果表明,所提出模型的F平均值分别高于两类基准系统约4%和9%。

关键词: 人工智能, 层次过滤模型, 语义知识, 指代消解, 自然语言处理

Abstract: Most existing Chinese anaphora resolution models determine whether two mentions are coreferent by a binary classifier. This approach can lead to incorrect decisions as lower precision features often overwhelm the precision features. We propose a modified multi-pass sieve model for Chinese anaphora resolution to adapt to Chinese. We add a new semantic-based sieve to the original model for incorporating word sense information. The Web word sense information is imported to solve resource constraints. Furthermore, we modify the mention detection sieve based on the Chinese characters. The proposed model is evaluated on five different testing methods on the ACE2005 corpus. Results show that the proposed model outperforms two other baseline models by 4% and 9% respectively.

Key words: artificial intelligence, multi-pass sieve model, semantic information, anaphora resolution, natural language processing

中图分类号: 

  • TP391
[1] Hardmeier C,Federico M. Modelling pronominal anaphora in statistical machine translation[C]∥Proceedings of the International Workshop on Spoken Language Translation,Paris,2010:283-289.
[2] Doddington G, Mitchell A, Przybocki M. The automatic content extraction (ACE) program-tasks, data,and evaluation[DB/OL].http:∥www.comp.nus.edu.sg/rpnlpir/proceedings/lrec-2004/pdf/.pdf, 2012-05-11.
[3] Witte R, Krestel R, Bergler S. Context based mult- idocument summarization using fuzzy coreference cluster graphs[DB/OL].http:∥www. nlpir.nist.gov/projects/duc/pubs/2006.papers/20.final.pdf, 2012-05-06.
[4] ning approach to coreference resolution of noun phr- ases[J].Computational Linguistics,2001(4): 521-544.
[5] Raghunathan K, Lee H, Rangarajan S. A multipass sieve for coreference resolution[C]∥Massa-chusetts, MIT, 2010:492-501.
[6] Lee H, Peirsman Y, Chang A, et al. Stanford's multi-pass sieve coreference resolution system at the CoNLL-2011 shared task[C]∥In Proceedings of the Fifteenth Conference on Computational Natural Language Learning:Shared Task,Oregon,2011:28-34.
[7] Zhang Xiao-tian, Wu Chun-yang, Zhao Hai. Chinese coreference resolution via ordered filtering[C]∥In Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning: Shared Task, Jeju,2012:95-99.
[8] 孔芳,朱巧明,周国栋,等.中英文指代消解中待消解项识别的研究[J].计算机研究与发展, 2012,49(5):1072-1085.
Kong Fang, Zhu Qiao-ming, Zhou Guo-dong,et al.Anap-horicity determination for coreference resolution in English and Chinese[J]. Journal of Computer Research and Development, 2012,49(5):1072-1085.
[9] 刘群,李素建.基于《知网》的词汇语义相似度计算[EB/OL].[2015-02-14]http:∥www.keenage.com,2013.
[10] Cilibrasi R L, Vitanyi P M. The google similarity distance[J].IEEE Transactions on Knowledge and Data Engineering,2007, 19(3): 370-383.
[11] Marc Vilain, John Burger, John Aberdeen,et al. A model theoretic coreference scoring scheme[C]∥In Proceedings of the 6th Message Understanding Conference,Stroudsburg,1995:45-52.
[12] Amit Bagga, Breck Baldwin. Algorithms for scoring coreference chains[C]∥In Proceedings of LREC,Granada,1998:563-566.
[13] Luo Xiao-qiang. On coreference resolution performance metrics[C]∥In Proceedings of HLT- EMNLP,Stroudsburg,2005:25-32.
[14] Ghosh.Handbook of Data Mining[M].Cleveland CRC Press,2001:247-277.
[15] Marta Recasens,Eduard Hovy.BLANC: Implementing the Rand Index for coreference evalu-ation[J].Natural Language Engineering,2011,17(4):485-510.
[1] 董飒, 刘大有, 欧阳若川, 朱允刚, 李丽娜. 引入二阶马尔可夫假设的逻辑回归异质性网络分类方法[J]. 吉林大学学报(工学版), 2018, 48(5): 1571-1577.
[2] 顾海军, 田雅倩, 崔莹. 基于行为语言的智能交互代理[J]. 吉林大学学报(工学版), 2018, 48(5): 1578-1585.
[3] 王旭, 欧阳继红, 陈桂芬. 基于垂直维序列动态时间规整方法的图相似度度量[J]. 吉林大学学报(工学版), 2018, 48(4): 1199-1205.
[4] 张浩, 占萌苹, 郭刘香, 李誌, 刘元宁, 张春鹤, 常浩武, 王志强. 基于高通量数据的人体外源性植物miRNA跨界调控建模[J]. 吉林大学学报(工学版), 2018, 48(4): 1206-1213.
[5] 黄岚, 纪林影, 姚刚, 翟睿峰, 白天. 面向误诊提示的疾病-症状语义网构建[J]. 吉林大学学报(工学版), 2018, 48(3): 859-865.
[6] 李雄飞, 冯婷婷, 骆实, 张小利. 基于递归神经网络的自动作曲算法[J]. 吉林大学学报(工学版), 2018, 48(3): 866-873.
[7] 刘杰, 张平, 高万夫. 基于条件相关的特征选择方法[J]. 吉林大学学报(工学版), 2018, 48(3): 874-881.
[8] 王旭, 欧阳继红, 陈桂芬. 基于多重序列所有公共子序列的启发式算法度量多图的相似度[J]. 吉林大学学报(工学版), 2018, 48(2): 526-532.
[9] 杨欣, 夏斯军, 刘冬雪, 费树岷, 胡银记. 跟踪-学习-检测框架下改进加速梯度的目标跟踪[J]. 吉林大学学报(工学版), 2018, 48(2): 533-538.
[10] 刘雪娟, 袁家斌, 许娟, 段博佳. 量子k-means算法[J]. 吉林大学学报(工学版), 2018, 48(2): 539-544.
[11] 曲慧雁, 赵伟, 秦爱红. 基于优化算子的快速碰撞检测算法[J]. 吉林大学学报(工学版), 2017, 47(5): 1598-1603.
[12] 李嘉菲, 孙小玉. 基于谱分解的不确定数据聚类方法[J]. 吉林大学学报(工学版), 2017, 47(5): 1604-1611.
[13] 邵克勇, 陈丰, 王婷婷, 王季驰, 周立朋. 无平衡点分数阶混沌系统全状态自适应控制[J]. 吉林大学学报(工学版), 2017, 47(4): 1225-1230.
[14] 王生生, 王创峰, 谷方明. OPRA方向关系网络的时空推理[J]. 吉林大学学报(工学版), 2017, 47(4): 1238-1243.
[15] 马淼, 李贻斌. 基于多级图像序列和卷积神经网络的人体行为识别[J]. 吉林大学学报(工学版), 2017, 47(4): 1244-1252.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
[1] 刘松山, 王庆年, 王伟华, 林鑫. 惯性质量对馈能悬架阻尼特性和幅频特性的影响[J]. 吉林大学学报(工学版), 2013, 43(03): 557 -563 .
[2] 王同建, 陈晋市, 赵锋, 赵庆波, 刘昕晖, 袁华山. 全液压转向系统机液联合仿真及试验[J]. 吉林大学学报(工学版), 2013, 43(03): 607 -612 .
[3] 张春勤, 姜桂艳, 吴正言. 机动车出行者出发时间选择的影响因素[J]. 吉林大学学报(工学版), 2013, 43(03): 626 -632 .
[4] 肖锐, 邓宗才, 兰明章, 申臣良. 不掺硅粉的活性粉末混凝土配合比试验[J]. 吉林大学学报(工学版), 2013, 43(03): 671 -676 .
[5] 陈思国, 姜旭, 王健, 刘衍珩, 邓伟文, 邓钧忆. 车载自组网与通用移动通信系统混杂网络技术[J]. 吉林大学学报(工学版), 2013, 43(03): 706 -710 .
[6] 孟超, 孙知信, 刘三民. 基于云计算的病毒多执行路径[J]. 吉林大学学报(工学版), 2013, 43(03): 718 -726 .
[7] 仙树, 郑锦, 路兴, 张世鹏. 基于内容转发模型的P2P流量识别算法[J]. 吉林大学学报(工学版), 2013, 43(03): 727 -733 .
[8] 吕源治, 王世刚, 俞珏琼, 王小雨, 李雪松. 基于柱透镜光栅的虚模式下一维集成成像显示特性[J]. 吉林大学学报(工学版), 2013, 43(03): 753 -757 .
[9] 王丹, 李阳, 年桂君, 王珂. 非均质度量掩蔽函数在空域水印中的应用[J]. 吉林大学学报(工学版), 2013, 43(03): 771 -775 .
[10] 冯琳函, 钱志鸿, 尚克诚, 朱爽. 基于IEEE802.15.4标准的改进型隐藏节点冲突避免策略[J]. 吉林大学学报(工学版), 2013, 43(03): 776 -780 .