吉林大学学报(工学版) ›› 2018, Vol. 48 ›› Issue (5): 1563-1570.doi: 10.13229/j.cnki.jdxbgxb20170744

• • 上一篇    下一篇

子句级别语境感知的开放信息抽取方法

欧阳丹彤1,2, 范琪1,2   

  1. 1.吉林大学 计算机科学与技术学院,长春130012;
    2.吉林大学 符号计算与知识工程教育部重点实验室,长春 130012
  • 收稿日期:2017-07-13 出版日期:2018-09-20 发布日期:2018-12-11
  • 作者简介:欧阳丹彤(1968-),女,教授,博士生导师.研究方向:基于模型诊断、语义网.E-mail:ouyd@jlu.edu.cn
  • 基金资助:
    国家自然科学基金项目(61672261,61502199,61402196,61373052);浙江省自然科学基金项目(LY16F020004)

Clause-level context-aware open information extraction

OUYANG Dan-tong1,2, FAN Qi1,2   

  1. 1.College of Computer Science and Technology, Jilin University, Changchun 130012, China;
    2.Key Laboratory of Symbolic Computation and Knowledge Engineering, Ministry of Education, Jilin University, Changchun 130012, China
  • Received:2017-07-13 Online:2018-09-20 Published:2018-12-11

摘要: 针对开放信息抽取文本中与事实相关的语境信息,本文首先从原有语境标识中提取特征进行训练分类,扩展了可识别的语境标识;其次,利用文本中依存关系,自顶向下逐层将识别出的语境信息与被限定子句构造成层次结构图,并最终根据层次图为被限定子句中抽取出的关系元组自底向上地分配对应语境域,从而一方面避免了语境信息被错误的抽取为关系元组,另一方面在保证关系元组正确的基础上,正确地将语境域分配给被限定的关系元组。实验结果验证了子句级别语境感知的抽取方法ClauseContextIE,在随机数据与含语境信息的文本中,实现了较高的召回率和精确度。

关键词: 计算机应用, 开放信息抽取, 语境感知, 子句级别, 依存解析

Abstract: In order to address the issue that sentences may contain context-information with reference to the facts, this paper presents a Clause-Level Context-aware Open Information Extraction approach (ClauseContextIE). ClauseContextIE extends the scale of context-information that can be identified, and takes advantage of the dependency-parsing to extract the context-information and general clauses in a top-down way, so that it can construct a graph that expresses the hierarchical structure. Finally, ClauseContextIE assigns the corresponding context-information to each tuple extracted from general clauses in a bottom-up approach. ClauseContextIE avoids extracting context-information as a relation tuple, and assigns context-information to correct relation tuples accurately. Experiments were conducted to compare ClauseContextIE with ReVerb, OLLIE and ClausIE on three datasets, ReVerb dataset, Wiki dataset and NYT dataset. Experimental results show that ClauseContextIE achieves significantly higher accuracy and recall than the other extractors.

Key words: computer application, open information extraction, context-aware, clause-level, dependency parsing

中图分类号: 

  • TP391
[1] Banko M, Cafarella M J, Soderland S, et al.Open information extraction from the web[C]∥Proceeding of the 20th IJCAI. Hyderabad: Morgan Kaufmann Publishers, 2007:2670-2676.
[2] Wu F, Weld D S.Open information extraction using Wikipedia[C]∥Proceedings of the 48th ACL. Uppsala:ACL, 2010:118-127.
[3] Fader A, Soderland S, Etzioni O.Identifying relations for open information extraction[C]∥Proceedings of the 2011 Conference on EMNLP. Edinburgh: ACL, 2011:1535-1545.
[4] Schmitz M, Bart R, Soderland S, et al.Open language learning for information extraction[C]∥Proceedings of the 2012 Conference on EMNLP. Jeju Island: ACL, 2012:523-534.
[5] Akbik A, Ser A.KrakeN: N-ary facts in open information extraction[C]∥Proceedings of the Joint Workshop on Automatic Knowledge Base Construction and Web-Scale Knowledge Extraction. Montreal: ACL, 2012:52-56.
[6] del Corro L, Gemulla R. Clausie: clause-based open information extraction[C]∥Proceedings of the 22nd International Conference on World Wide Web.Rio de Janeiro: ACM, 2013:355-366.
[7] Hoffart J, Suchanek F M, Berberich K, et al.Yago2:a spatially and temporally enhanced knowledge base from Wikipedia[J]. Artificial Intelligence, 2013, 194: 28-61.
[8] Tseng Y H, Lee L H, Lin S Y,et al.Chinese open relation extraction for knowledge acquisition[C]∥Proceedings of the 14th Conference of the European Chapter of the ACL. Gothenburg: ACL, 2014:12-16.
[9] Qiu L, Zhang Y.ZORE:a syntax-based system for Chinese open relation extraction[C]∥Proceedings of the 2014 Conference on EMNLP. Doha: ACL, 2014:1870-1880.
[10] 秦兵, 刘安安, 刘挺. 无指导的中文开放式实体关系抽取[J]. 计算机研究与发展, 2015, 52(5): 1029-1035.
Qin Bing, Liu An-an, Liu Ting.Unsupervised Chinese open entity relation extraction[J].Journal of Computer Research and Development, 2015, 52(5): 1029-1035.
[11] 邹博伟, 钱忠, 陈站成, 等. 面向自然语言文本的否定性与不确定性信息抽取[J]. 软件学报, 2016, 27(2): 309-328.
Zou Bo-wei, Qian Zhong, Chen Zhan-cheng, et al.Negation and uncertainty information extraction oriented to natural language text[J].Journal of Software, 2016, 27(2):309-328.
[12] 周炫余, 刘娟, 邵鹏, 等. 基于层次过滤模型的中文指代消解[J]. 吉林大学学报:工学版, 2016, 46(4): 1209-1215.
Zhou Xuan-yu, Liu Juan, Shao Peng, et al.Chinese anaphora resolution based on multi-pass sieve model[J]. Journal of Jilin University (Engineering and Technology Edition), 2016, 46(4): 1209-1215.
[13] Klein D, Manning C D.Accurate unlexicalized parsing[C]∥Proceedings of the 41st ACL. Sapporo: ACL, 2003:423-430.
[14] Quirk R, Greenbaum S, Leech G, et al.A Comprehensive Grammar of the English Language[M]. London: Longman, 1985:13-16.
[15] Schuler K K.Verbnet: a broad-coverage, comprehensive verb lexicon[D]. Philadelphia: University of Pennsylvania, 2005.
[16] Pennington J, Socher R, Manning C.Glove: Global vectors for word representation[C]∥Proceedings of the 2014 Conference on EMNLP. Doha: ACL, 2014: 1532-1543.
[17] Sandhaus E.The New York Times annotated corpus[R]. Philadelphia: Linguistic Data Consortium, 2008.
[1] 刘富,宗宇轩,康冰,张益萌,林彩霞,赵宏伟. 基于优化纹理特征的手背静脉识别系统[J]. 吉林大学学报(工学版), 2018, 48(6): 1844-1850.
[2] 王利民,刘洋,孙铭会,李美慧. 基于Markov blanket的无约束型K阶贝叶斯集成分类模型[J]. 吉林大学学报(工学版), 2018, 48(6): 1851-1858.
[3] 金顺福,王宝帅,郝闪闪,贾晓光,霍占强. 基于备用虚拟机同步休眠的云数据中心节能策略及性能[J]. 吉林大学学报(工学版), 2018, 48(6): 1859-1866.
[4] 赵东,孙明玉,朱金龙,于繁华,刘光洁,陈慧灵. 结合粒子群和单纯形的改进飞蛾优化算法[J]. 吉林大学学报(工学版), 2018, 48(6): 1867-1872.
[5] 刘恩泽,吴文福. 基于机器视觉的农作物表面多特征决策融合病变判断算法[J]. 吉林大学学报(工学版), 2018, 48(6): 1873-1878.
[6] 刘富, 兰旭腾, 侯涛, 康冰, 刘云, 林彩霞. 基于优化k-mer频率的宏基因组聚类方法[J]. 吉林大学学报(工学版), 2018, 48(5): 1593-1599.
[7] 桂春, 黄旺星. 基于改进的标签传播算法的网络聚类方法[J]. 吉林大学学报(工学版), 2018, 48(5): 1600-1605.
[8] 刘元宁, 刘帅, 朱晓冬, 陈一浩, 郑少阁, 沈椿壮. 基于高斯拉普拉斯算子与自适应优化伽柏滤波的虹膜识别[J]. 吉林大学学报(工学版), 2018, 48(5): 1606-1613.
[9] 车翔玖, 王利, 郭晓新. 基于多尺度特征融合的边界检测算法[J]. 吉林大学学报(工学版), 2018, 48(5): 1621-1628.
[10] 赵宏伟, 刘宇琦, 董立岩, 王玉, 刘陪. 智能交通混合动态路径优化算法[J]. 吉林大学学报(工学版), 2018, 48(4): 1214-1223.
[11] 黄辉, 冯西安, 魏燕, 许驰, 陈慧灵. 基于增强核极限学习机的专业选择智能系统[J]. 吉林大学学报(工学版), 2018, 48(4): 1224-1230.
[12] 傅文博, 张杰, 陈永乐. 物联网环境下抵抗路由欺骗攻击的网络拓扑发现算法[J]. 吉林大学学报(工学版), 2018, 48(4): 1231-1236.
[13] 曹洁, 苏哲, 李晓旭. 基于Corr-LDA模型的图像标注方法[J]. 吉林大学学报(工学版), 2018, 48(4): 1237-1243.
[14] 侯永宏, 王利伟, 邢家明. 基于HTTP的动态自适应流媒体传输算法[J]. 吉林大学学报(工学版), 2018, 48(4): 1244-1253.
[15] 赵宏伟, 刘宇琦, 特日根, 陈长征, 臧雪柏. 基于有限序列的压缩新算法[J]. 吉林大学学报(工学版), 2018, 48(3): 882-886.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
[1] 刘松山, 王庆年, 王伟华, 林鑫. 惯性质量对馈能悬架阻尼特性和幅频特性的影响[J]. 吉林大学学报(工学版), 2013, 43(03): 557 -563 .
[2] 王同建, 陈晋市, 赵锋, 赵庆波, 刘昕晖, 袁华山. 全液压转向系统机液联合仿真及试验[J]. 吉林大学学报(工学版), 2013, 43(03): 607 -612 .
[3] 张春勤, 姜桂艳, 吴正言. 机动车出行者出发时间选择的影响因素[J]. 吉林大学学报(工学版), 2013, 43(03): 626 -632 .
[4] 肖锐, 邓宗才, 兰明章, 申臣良. 不掺硅粉的活性粉末混凝土配合比试验[J]. 吉林大学学报(工学版), 2013, 43(03): 671 -676 .
[5] 陈思国, 姜旭, 王健, 刘衍珩, 邓伟文, 邓钧忆. 车载自组网与通用移动通信系统混杂网络技术[J]. 吉林大学学报(工学版), 2013, 43(03): 706 -710 .
[6] 孟超, 孙知信, 刘三民. 基于云计算的病毒多执行路径[J]. 吉林大学学报(工学版), 2013, 43(03): 718 -726 .
[7] 仙树, 郑锦, 路兴, 张世鹏. 基于内容转发模型的P2P流量识别算法[J]. 吉林大学学报(工学版), 2013, 43(03): 727 -733 .
[8] 吕源治, 王世刚, 俞珏琼, 王小雨, 李雪松. 基于柱透镜光栅的虚模式下一维集成成像显示特性[J]. 吉林大学学报(工学版), 2013, 43(03): 753 -757 .
[9] 王丹, 李阳, 年桂君, 王珂. 非均质度量掩蔽函数在空域水印中的应用[J]. 吉林大学学报(工学版), 2013, 43(03): 771 -775 .
[10] 冯琳函, 钱志鸿, 尚克诚, 朱爽. 基于IEEE802.15.4标准的改进型隐藏节点冲突避免策略[J]. 吉林大学学报(工学版), 2013, 43(03): 776 -780 .