吉林大学学报(理学版) ›› 2018, Vol. 56 ›› Issue (6): 1447-1452.

• 计算机科学 • 上一篇    下一篇

基于隐喻词扩展的短文本聚类算法

王烨, 左万利, 王英   

  1. 吉林大学 计算机科学与技术学院, 符号计算与知识工程教育部重点实验室, 长春 130012
  • 收稿日期:2017-06-30 出版日期:2018-11-26 发布日期:2018-11-26
  • 通讯作者: 左万利 E-mail:zuowl@jlu.edu.cn

ShortText Clustering Algorithm Based on Extension of Metaphorical Words#br#

WANG Ye, ZUO Wanli, WANG Ying   

  1. Symbol Computation and Knowledge Engineer of Ministry of Education,College of Computer Science and Technology, Jilin University, Changchun 130012, China
  • Received:2017-06-30 Online:2018-11-26 Published:2018-11-26

摘要: 针对目前短文本词汇量少、 表达形式多样, 导致同种类文本聚类方法无效的问题, 提出一种利用中文维基百科的丰富词汇间关系对短文本的隐喻词进行扩充的方法, 以解决短文本包含信息少、 词汇表达形式多样的不足. 实验结果表明, 该算法可有效提升短文本的聚类效果.

关键词: 文本聚类, 短文本, 维基百科, 文本扩展

Abstract: Aiming at the problem that short text contained small words and various expressions, which led to ineffective clustering of the same category of text, we proposed a method to extend metaphorical words in short texts by using the rich lexical relationships in Chinese Wikipedia, which solved the shortages of the short text with less information and various lexical expressions. Experimental results show that the algorithm can effectively enhance the clustering effect of short text.

Key words: text clustering, short text, Wikipedia, text extension

中图分类号: 

  • TP393