吉林大学学报(信息科学版) ›› 2024, Vol. 42 ›› Issue (3): 430-437.
蒋大锐, 徐胜超
JIANG Darui, XU Shengchao
摘要: 针对大数据聚类处理存在不同类型数据聚类效果差、 聚类耗时长的问题, 提出了基于改进 PSO-Means (Particle Swarm Optimization Means)算法的大数据聚类处理方法。 该方法采用粒子群算法确定一次聚类过程中单位粒子的飞行时间和飞行方向, 预先设定初始聚类中心的选择范围, 并适当调整单位粒子的惯性权重, 以消除粒子振荡造成的聚类缺陷, 成功获取基于大规模数据的聚类中心。 结合生成树算法, 通过从样本偏差和质心偏度两个方面对 PSO 算法进行优化, 并将优化后的聚类中心输入到 k-means 聚类算法中, 实现大数据聚类处理。 实验结果表明, 改进的 PSO-Means 方法可以有效地聚类不同类型的数据, 并且聚类耗时仅为0. 3 s, 验证了该方法具备较好的聚类性能和聚类效率。
中图分类号: