摘要: 针对文本冗余特征导致聚类精度较低的问题, 提出一种基于二进制蜉蝣优化的特征选择及文本聚类算法. 首先, 对传统蜉蝣算法的位置更新、 交配与变异策略进行改进; 然后, 将其与特征选择模型相结合, 以逆文档频率为目标函数对文本特征进行选择; 最后, 在新特征子集的基础上, 利用K-means++算法对文本进行聚类, 得到最优文本聚类结果. 在多个数据集上进行实验的结果表明, 该算法能有效缩短特征维数, 提高文本聚类效率.
中图分类号:
高新成, 周中雨, 王莉利, 邵国铭, 张强. 基于二进制蜉蝣优化的特征选择及文本聚类算法[J]. 吉林大学学报(理学版), 2023, 61(3): 631-640.
GAO Xincheng, ZHOU Zhongyu, WANG Lili, SHAO Guoming, ZHANG Qiang. Feature Selection and Text Clustering Algorithm Based on Binary Mayfly Optimization[J]. Journal of Jilin University Science Edition, 2023, 61(3): 631-640.