摘要: 提出一种MapReduce框架下基于抽样的分布式K-Means聚类算法, 解决海量数据环境下并行执行K-Means算法时, 时间开销较大的问题. 该算法使用抽
样方法, 在保证数据分布不变的前提下, 对数据集的规模进行约减, 并在MapReduce框架下对聚类算法进行优化. 实验结果表明, 该算法在保持良好聚类效果的同时, 能有效缩短聚类时间, 对大规模数据集具有较高的执行效率和较好的可扩展性.
中图分类号:
杨杰明, 吴启龙, 曲朝阳, 杨烁, 阚中峰, 高冶. MapReduce框架下基于抽样的分布式K-Means聚类算法[J]. 吉林大学学报(理学版), 2017, 55(01): 109-115.
YANG Jieming, WU Qilong, QU Zhaoyang, YANG Shuo, KAN Zhongfeng, GAO Ye. Distributed K-Means Clustering Algorithm Based onSampling under MapReduce Framework[J]. Journal of Jilin University Science Edition, 2017, 55(01): 109-115.