摘要: 为提高Web 搜索精度和检准率, 在后缀树聚类算法基本模型的基础上, 提出了一种改进的基于后缀树的搜索结果聚类算法。将向量空间模型与后缀树聚类相结合, 改善了基类合并的效果, 综合基类节点对应文本数、短语包含词语长度、短语权重及是否包含查询词作为聚类标签的筛选条件, 改进了聚类标签的合理性和可读性。以搜狗语料库中的文本分类语料库为数据源进行的实验结果表明, 该方法在一定程度上提高了聚类结果的准确率。
中图分类号:
董亚则, 李万龙, 李航, 郑山红. 改进的基于后缀树的Web 搜索结果聚类算法[J]. 吉林大学学报(信息科学版), 2016, 34(4): 543-549.
DONG Yaze, LI Wanlong, LI Hang, ZHENG Shanhong. Improved Algorithm of Web Retrieve Results Clustering Based on Suffix Tree[J]. Journal of Jilin University(Information Science Ed, 2016, 34(4): 543-549.