吉林大学学报(信息科学版) ›› 2018, Vol. 36 ›› Issue (6): 674-680.

• • 上一篇    下一篇

基于改进型VSM-HowNet融合相似度算法研究

肖尚1,房至一2,董洪良3,赵帅2,王涵瑜4   

  1. 1. 天池传媒股份有限公司产品创新中心,北京100020; 2. 吉林大学计算机科学与技术学院,长春130012; 3. 吉林省竹玖信息技术有限公司数据与信息实验室,长春130012; 4. 东北师范大学信息科学与技术学院,长春130017
  • 收稿日期:2018-06-21 出版日期:2018-11-23 发布日期:2019-02-25
  • 作者简介:肖尚( 1986— ) ,女,长春人,天池传媒股份有限公司产品设计师,硕士,主要从事新媒体产品开发研究,( Tel) 86-15843095755 ( E-mail) 1506417650@ qq. com; 房至一( 1957— ) ,男,长春人,吉林大学教授,博士生导师,主要从事分布/并行计算系统研究,( Tel) 86-13843118180( E-mail) fangzy@ jlu. edu. cn。
  • 基金资助:
    依托广电网络的互动媒体应用聚合云服务系统研发基金资助项目(2014BAH02F00)

Research on Improved VSM-HowNet Fusion Similarity Algorithm

XIAO Shang1,FANG Zhiyi2,DONG Hongliang3,ZHAO Shuai2,WANG Hanyu4   

  1. 1. Product Innovation Center,Tianchi Media Company Limited,Beijing 100020,China; 2. College of Computer Science and Technology,Jilin University,Changchun 130012,China; 3. Information and Data Research Lab,Banine Technologies Ltd,Changchun 130012,China; 4. College of Information Science and Technology,Northeast Normal University,Changchun,130017,China
  • Received:2018-06-21 Online:2018-11-23 Published:2019-02-25

摘要: 随着信息科学技术的发展和互联网技术的普及,社会上出现了越来越多的以博取观众的眼球为目的的“标题党”现象。为了识别“标题党”新闻,给出了一种基于改进型的VSM 结合余弦相似度的文本相似度计算方法和《知网》( HowNet) 文本相似度计算方法,并研究了基于改进型VSM-HowNet 融合相似度算法,用这些文本相似度的计算方法分别和已有研究中的王氏主题-词形文本相似度计算方法做对比。此方法对“标题党”新闻识别的总准确率、总召回率及总F1值均高于其他文本相似度计算方法,对于识别一篇未知类型的新闻,改进型VSM-HowNet 融合相似度算法相比于其他文本相似度计算方法更有优势。

关键词: “标题党”新闻, 改进型VSM 结合余弦相似度方法, 《知网》( HowNet) 方法, 改进型VSM-HowNet 融合相似度算法

Abstract: With the development of society,more and more“Sensational Headline”which does not match the text for the purpose of attracting the audiences attention phenomena has appeared. In order to identify the “Sensational Headline”news,methods of text similarity calculation based on an Improved VSM Combined with Cosine Similarity Method,the HowNet Method and an Improved VSM-HowNet Fusion Similarity Algorithm are introduced. These methods have higher total accuracy,total recall rate and total F1 value for the“Sensational Headline”news recognition than other text similarity calculation methods. For identifying an unknown type of news,the improved VSM-HowNet fusion similarity algorithm is more advantageous than other text similarity calculation methods.

Key words: “Sensational Headline”news, improved VSM combined cosine similarity method, HowNet method, improved VSM-HowNet fusion similarity algorithm

中图分类号: 

  • TP37