吉林大学学报(信息科学版) ›› 2018, Vol. 36 ›› Issue (6): 674-680.
肖尚1,房至一2,董洪良3,赵帅2,王涵瑜4
XIAO Shang1,FANG Zhiyi2,DONG Hongliang3,ZHAO Shuai2,WANG Hanyu4
摘要: 随着信息科学技术的发展和互联网技术的普及,社会上出现了越来越多的以博取观众的眼球为目的的“标题党”现象。为了识别“标题党”新闻,给出了一种基于改进型的VSM 结合余弦相似度的文本相似度计算方法和《知网》( HowNet) 文本相似度计算方法,并研究了基于改进型VSM-HowNet 融合相似度算法,用这些文本相似度的计算方法分别和已有研究中的王氏主题-词形文本相似度计算方法做对比。此方法对“标题党”新闻识别的总准确率、总召回率及总F1值均高于其他文本相似度计算方法,对于识别一篇未知类型的新闻,改进型VSM-HowNet 融合相似度算法相比于其他文本相似度计算方法更有优势。
中图分类号: