孙红光1,2, 高星3, 孙铁利1,2, 杨凤芹1, 彭杨1, 冯国忠1
SUN Hongguang1,2, GAO Xing3, SUN Tieli1,2, YANG Fengqin1, PENG Yang1, FENG Guozhong1
摘要: 通过改进的SinglePass增量文本聚类算法, 以话题为粒度对新闻信息进行组织, 实现网络新闻话题的发现. 该方法考虑了新闻的动态性和时间特性, 在特征词项权重计算中从词项在标题和正文中的位置信息及词项的增量文档频率两方面进行优化, 同时在相似度的计算中添加了时间因素及聚类中动态更新话题的质心向量. 应用
基于主题的网络爬虫构建的新闻等语料作为测试数据集, 实验结果表明, 改进算法较传统算法在耗费代价和错检率上分别降低0.34%和1.57%, 验证了改进算法的有效性和准确性.
中图分类号: