吉林大学学报(理学版) ›› 2023, Vol. 61 ›› Issue (5): 1147-1158.
陈可嘉1, 夏瑞东1, 林鸿熙2
CHEN Kejia1, XIA Ruidong1, LIN Hongxi2
摘要: 针对原始深度嵌入聚类(DEC)算法中聚类层得出的初始聚类数目和聚类中心有很强的随机性, 从而影响DEC算法效果的问题, 提出一种基于改进DEC的评论文本聚类算法, 对无类别标注的电商评论数据进行无监督聚类. 首先获得融合句子嵌入向量和主题分布向量的BERT-LDA数据集向量化表示; 然后改进DEC算法, 通过自动编码器进行降维处理, 在编码器后堆叠聚类层, 其中聚类层的聚类数目基于主题连贯性选择, 同时使用主题特征向量作为自定义聚类中心, 再进行编码器和聚类层的联合训练以提高聚类的准确度; 最后利用可视化工具直观展示聚类效果. 为验证算法的有效性, 将该算法与6个对比算法在无标注的产品评论数据集上进行无监督聚类训练, 结果表明, 该算法在轮廓系数和Calinski-Harabaz(CH)指标上取得了0.213 5和2 958.18的最佳效果, 说明其可有效处理电商评论数据, 反映用户对产品的关注情况.
中图分类号: