吉林大学学报(工学版)

• • 上一篇    下一篇

基于模式学习的中文问答系统答案抽取方法

余正涛1,2,毛存礼1,2,邓锦辉1,章程1,郭剑毅1,2

  

  1. 1.昆明理工大学 信息工程与自动化学院,昆明 650051; 2.云南省计算机技术应用重点实验室 智能信息处理研究所,昆明 650051
  • 收稿日期:2006-10-24 修回日期:2007-04-26 出版日期:2008-01-01 发布日期:2008-01-01
  • 通讯作者: 余正涛

Answer extraction scheme for Chinese question answering system based on pattern learning

Yu Zheng-tao1,2,Mao Cun-li1,2,Deng Jin-hui1,Zhang Cheng1,Guo Jianyi1,2

  

  1. 1.School of Information Engineering and Automation, Kunming University of Science and Technology, Kunming 650051 China; 2.Institute of Intelligent Information Processing, Computer Technology Application Key Laboratory of Yunnan Province, Kunming 650051, China
  • Received:2006-10-24 Revised:2007-04-26 Online:2008-01-01 Published:2008-01-01
  • Contact: Yu Zheng-tao

摘要:

答案抽取是中文问答系统的关键,而通常答案是借助于问题的答案句子模式抽取得到,由于答案句子模式是语言专家根据语言规则提炼获得,因此非常依赖于专家经验。针对这一局限性,提出了一种利用模式学习来获得中文答案句子模式的方法,该方法利用搜索引擎从互连网上检索相关问题文本,人工提取包含答案的句子段,并标注问题类型及答案,形成各种问题类型的问答训练语料。通过统计学习,提取候选答案句子模式,计算候选句子模式权重,并根据权重获得相应问题类型的答案句子模式。基于事实的问题答案抽取结果表明,提出的基于模式学习的方法有很好的效果,实验答案提取准确率值达到了0.28,学习方法获得的模式基本上覆盖了常规答案句子模式。

关键词: 计算机软件, 问答系统, 答案抽取, 模式学习, 模式匹配

Abstract: Answer extraction is the key of the Chinese questioning system. Normally answer extraction mainly depends on the pattern of the answer sentence. Since the pattern of the answer sentence is obtained by experts based on the language rules, so it strongly relies on the experts' language knowledge. To overcome this limit, a scheme is proposed to gain the pattern of the answer sentence by pattern learning. The scheme takes the advantage of searching engine to retrieve related documents of question. From these documents the sentences that include the answers are extracted. Then the types of the questions and answers are marked to form questionanswer training corpus to the questions of different types. Then by statistic learning method, the candidates of sentence patterns are abstracted and the weights of the patterns are calculated. Thus, based on the weights the patterns of the answer sentences to the questions of different types are obtained. Answer extraction result of the factoid question shows that the experimental MRAR is up to 0.28, which indicates the effectiveness of the proposed pattern learning scheme. The patterns gained by pattern learning cover the normal answer sentences.

Key words: computer software, question answering system, answer extracting, pattern learning, pattern matching

中图分类号: 

  • TP311
[1] 马健, 樊建平, 刘峰, 李红辉. 面向对象软件系统演化模型[J]. 吉林大学学报(工学版), 2018, 48(2): 545-550.
[2] 罗养霞, 郭晔. 基于数据依赖特征的软件识别[J]. 吉林大学学报(工学版), 2017, 47(6): 1894-1902.
[3] 应欢, 王东辉, 武成岗, 王喆, 唐博文, 李建军. 适用于商用系统环境的低开销确定性重放技术[J]. 吉林大学学报(工学版), 2017, 47(1): 208-217.
[4] 李勇, 黄志球, 王勇, 房丙午. 基于多源数据的跨项目软件缺陷预测[J]. 吉林大学学报(工学版), 2016, 46(6): 2034-2041.
[5] 王念滨, 祝官文, 周连科, 王红卫. 支持高效路径查询的数据空间索引方法[J]. 吉林大学学报(工学版), 2016, 46(3): 911-916.
[6] 特日跟, 江晟, 李雄飞, 李军. 基于整数数据的文档压缩编码方案[J]. 吉林大学学报(工学版), 2016, 46(1): 228-234.
[7] 康辉, 王家琦, 梅芳. 基于Pi演算的并行编程语言[J]. 吉林大学学报(工学版), 2016, 46(1): 235-241.
[8] 陈鹏飞, 田地, 杨光. 基于MVC架构的LIBS软件设计与实现[J]. 吉林大学学报(工学版), 2016, 46(1): 242-245.
[9] 刘磊, 王燕燕, 申春, 李玉祥, 刘雷. Bellman-Ford算法性能可移植的GPU并行优化[J]. 吉林大学学报(工学版), 2015, 45(5): 1559-1564.
[10] 冯晓宁, 王卓, 张旭. 基于L-π演算的WSN路由协议形式化方法[J]. 吉林大学学报(工学版), 2015, 45(5): 1565-1571.
[11] 李明哲, 王劲林, 陈晓, 陈君. 基于网络处理器的流媒体应用架构模型(VPL)[J]. 吉林大学学报(工学版), 2015, 45(5): 1572-1580.
[12] 王克朝, 王甜甜, 苏小红, 马培军. 基于频繁闭合序列模式挖掘的学生程序雷同检测[J]. 吉林大学学报(工学版), 2015, 45(4): 1260-1265.
[13] 王俊华,左万利,彭涛. 面向文本的本体学习方法[J]. 吉林大学学报(工学版), 2015, 45(1): 236-244.
[14] 黄宏涛,王静,叶海智,黄少滨. 基于惰性切片的线性时态逻辑性质验证[J]. 吉林大学学报(工学版), 2015, 45(1): 245-251.
[15] 范大娟1, 2, 黄志球1, 肖芳雄1, 祝义1, 王进1. 面向多服务交互的相容性分析与适配器生成[J]. 吉林大学学报(工学版), 2014, 44(4): 1094-1103.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
No Suggested Reading articles found!