一种局部概率引导的优化K-means++算法

吉林大学学报(理学版) ›› 2019, Vol. 57 ›› Issue (06): 1431-1436.

一种局部概率引导的优化K-means++算法

王海燕^1,2, 崔文超³, 许佩迪³, 李闯^3

1. 长春大学计算机科学技术学院, 长春 130022； 2. 吉林大学理论化学研究所, 长春 130021;3. 吉林师范大学计算机学院, 吉林四平 136000

收稿日期:2019-04-28 出版日期:2019-11-26 发布日期:2019-11-21
通讯作者: 王海燕 E-mail:jlsdwhy_0820@sina.cn

An Optimized K-means++ Algorithm Guided by Local Probability

WANG Haiyan^1,2, CUI Wenchao³, XU Peidi³, LI Chuang³

1. College of Computer Science and Technology, Changchun University, Changchun 130022, China;2. Institute of Theoretical Chemistry, Jilin University, Changchun 130021, China; 3. College of Computer, Jilin Normal University, Siping 136000, Jilin Province, China

Received:2019-04-28 Online:2019-11-26 Published:2019-11-21
Contact: WANG Haiyan E-mail:jlsdwhy_0820@sina.cn

摘要/Abstract

摘要： 针对K-means++算法选取初始聚类中心计算误差平方和时, 实验次数对误差平方影响不准确的问题，提出一种PK-means++算法. 结果表明, 该算法在进行分散数据聚类时, 在同一K值情形下, 聚类后的误差平方和较原K-means++算法更稳定, 从而更好地保证了随机实验取值的稳定性.

关键词: 聚类分析, K-means++算法, 概率, 误差平方和

Abstract: Aiming at the problem that the number of experiment had an inaccurate effect on the square of errors when the K-
means++ algorithm was used to select the initial clustering center to calculate the sum squared error, we proposed a PK-means++ algorithm. The results show that the sum squared error after clustering is more stable than the original K-means++ algorithm under the same K-value when the algorithm clusters the scattered data, so the stability of random experiment value is better guaranteed.

Key words: clustering analysis, K-means++ algorithm, probability, sum squared error

中图分类号:

TP39

王海燕, 崔文超, 许佩迪, 李闯. 一种局部概率引导的优化K-means++算法[J]. 吉林大学学报(理学版), 2019, 57(06): 1431-1436.

WANG Haiyan, CUI Wenchao, XU Peidi, LI Chuang. An Optimized K-means++ Algorithm Guided by Local Probability[J]. Journal of Jilin University Science Edition, 2019, 57(06): 1431-1436.

[1]	李长明, 张红臣, 王超, 李晓光, 陆洋, 钱超越. 一种高效的阴阳k-Means聚类算法[J]. 吉林大学学报(理学版), 2021, 59(6): 1455-1460.
[2]	朱豪, 彭艺, 张申, 李启骞. 高速铁路场景中基于MAB模型的多信道选择算法[J]. 吉林大学学报(理学版), 2021, 59(2): 365-371.
[3]	朱豪, 彭艺, 张申, 李启骞. 基于改进遗传算法的自适应越区切换方案[J]. 吉林大学学报(理学版), 2020, 58(1): 133-139.
[4]	齐向明, 孙煦骄. 基于语义簇的中文文本聚类算法[J]. 吉林大学学报(理学版), 2019, 57(5): 1193-1199.
[5]	刘轩, 郭勇, 景士伟, 李明非, 郑彦, 高亚东, 年瑞雪. 基于序贯概率比检验的爆炸物检测系统[J]. 吉林大学学报(理学版), 2019, 57(3): 653-657.
[6]	朱超平, 任继平. 基于智能优化算法的物联网异构数据融合方法[J]. 吉林大学学报(理学版), 2019, 57(3): 627-632.
[7]	曹桂兰, 佟昕叶. CEV跳-扩散模型下期权的定价[J]. 吉林大学学报(理学版), 2019, 57(1): 72-76.
[8]	李鸿雁, 唐娴. 聚类分析和活动轮廓模型相融合的图像分割算法[J]. 吉林大学学报(理学版), 2019, 57(04): 896-902.
[9]	姜建华, 吴迪, 郝德浩, 王丽敏, 张永刚, 李克勤. 基于CDbw和人工蜂群优化的密度峰值聚类算法[J]. 吉林大学学报(理学版), 2018, 56(6): 1469-1475.
[10]	高彦伟, 申川, 程建华. 具有投资收益的随机保费风险模型破产概率的非指数型上界[J]. 吉林大学学报(理学版), 2017, 55(06): 1345-1351.
[11]	王晓天, 赵莹莹, 韩啸. VANET信息广播模型定量验证方法[J]. 吉林大学学报(理学版), 2017, 55(05): 1255-1260.
[12]	刘琮敏, 张硕, 李琦，王德辉. 具有变点理赔过程的风险模型[J]. 吉林大学学报(理学版), 2017, 55(03): 594-598.
[13]	江南, 马娜娜. 基于双曲IFSP的概率测度和Dirac测度[J]. 吉林大学学报(理学版), 2017, 55(03): 581-586.
[14]	袁晓惠, 鞠婷婷. 协变量缺失下变系数模型基于经验似然的加权分位数回归[J]. 吉林大学学报(理学版), 2017, 55(02): 281-288.
[15]	叶昕. 非自治随机微分方程依概率分布几乎自守解的存在性[J]. 吉林大学学报(理学版), 2016, 54(06): 1333-1337.