吴瑞红1, 吕学强1, 李卓1, 舒燕2
WU Ruihong1, LV Xueqiang1, LI Zhuo1, SHU Yan2
摘要:
基于互动问答社区问句中多字词表达和问句理解的关系, 提出针对互动问答社区问句进行多字词表达抽取, 并基于互动问答社区问句中多字词表达的特点, 提出适用于互动问答社区的多字词表达提取方法. 该方法在利用互信息和停用词表的方法从问句中抽取候选多字词表达的基础上, 将候选多字词表达分为正确串、 残缺串、 冗余串和错误串4类, 借助搜索引擎对查询串的优化和候选多字词表达在互联网上的检索结果, 设计候选多字词表达校正方法, 实现对多字词表达的提取. 以新浪爱问知识人问题库中的问句进行实验, 结果表明, 多字词表达抽取的准确率、 召回率和F值分别达到84%,52%和0.64, 验证了该方法的有效性.
中图分类号: