吉林大学学报(工学版) ›› 2024, Vol. 54 ›› Issue (5): 1401-1406.doi: 10.13229/j.cnki.jdxbgxb.20230120

• 计算机科学与技术 • 上一篇    

基于密度峰值的海量云数据模糊聚类算法设计

张西广1(),张龙飞2,马钰锡3,樊银亭1   

  1. 1.中原工学院 中原彼得堡航空学院,郑州 450007
    2.北京理工大学 计算机学院,北京 100081
    3.中国科学院 软件研究所集成创新中心,北京 100080
  • 收稿日期:2023-02-09 出版日期:2024-05-01 发布日期:2024-06-11
  • 作者简介:张西广(1977-),男,副教授,硕士.研究方向:云计算,虚拟现实,数据分析与可视化.E-mail:zxguang1977@163.com
  • 基金资助:
    国家重点研发计划项目(2018YFB1403905)

Design of fuzzy clustering algorithm for massive cloud data based on density peak

Xi-guang ZHANG1(),Long-fei ZHANG2,Yu-xi MA3,Yin-ting FAN1   

  1. 1.Zhongyuan-Petersburg Aviation College,Zhongyuan University of Technology,Zhengzhou 450007,China
    2.School of Computer Science & Technology,Beijing Institute of Technology,Beijing 100081,China
    3.Integration & Innovation Center,Institute of Software Chinese Academy of Sciences,Beijing 100080,China
  • Received:2023-02-09 Online:2024-05-01 Published:2024-06-11

摘要:

为准确聚类海量云数据,提出一种基于密度峰值的海量云数据模糊聚类算法。将含有噪声的云数据采用BP神经网络分离,将输出的噪声利用奇异值分解重构,获取联合算法输出的噪声,将带有噪声的云数据和输出噪声相减,得到去噪后的云数据。将密度峰值和优化后的模糊聚类算法相结合,自适应形成初始聚类中心,确定聚类数量,最终实现海量云数据模糊聚类。实验结果表明:本文算法获取的聚类效果和聚类效率明显优于其他算法。

关键词: 密度峰值, 海量云数据, 模糊聚类, 蝙蝠算法, 神经网络, 奇异值

Abstract:

In order to cluster massive cloud data accurately, a fuzzy clustering algorithm for massive cloud data based on peak density is proposed. The cloud data with noise is separated by BP neural network, and the output noise is reconstructed by singular value decomposition to obtain the noise output by the joint algorithm. The cloud data with noise is subtracted from the output noise to obtain the cloud data after noise removal. The density peak is combined with the optimized fuzzy clustering algorithm to adaptively form the initial clustering center, determine the number of clusters, and finally realize the fuzzy clustering of massive cloud data. Experimental results show that the clustering effect and efficiency of the proposed algorithm are significantly better than other algorithms.

Key words: peak density, massive cloud data, fuzzy clustering, bat algorithm, neural network, singular value

中图分类号: 

  • TP391

图1

BP神经网络结构图"

图2

基于密度峰值的海量云数据模糊聚类算法操作流程图"

图3

测试数据集分布情况"

图4

不同算法的云数据模糊聚类结果对比分析"

图5

不同算法的聚类纯度测试结果对比分析"

图6

不同数据集下各算法的聚类效率结果对比"

1 潘文标, 元文浩. 基于密度划分的云数据分块存储方法仿真[J]. 计算机仿真, 2022, 39(8): 456-459.
Pan Wen-biao, Yuan Wen-hao. Simulation of cloud data block storage method based on density division[J]. Computer Simulation, 2022, 39(8): 456-459.
2 Pan H, Lei Y, Yin S. K-means clustering algorithm for data distribution in cloud computing environment[J]. International Journal of Grid and Utility Computing, 2021, 12(3): 322-331.
3 杜秀丽, 姜晓虎, 孙晨瞳, 等. 基于方向性多重假设检验和信息熵的函数型数据聚类新方法[J]. 南京师大学报: 自然科学版, 2022, 45(4): 1-9.
Du Xiu-li, Jiang Xiao-hu, Sun Chen-tong, et al. A new functional data clustering method based on directional multiple hypothesis test and information entropy[J]. Journal of Nanjing Normal University (Natural Science Edition), 2022, 45 (4): 1-9.
4 王哲昀, 胡文军, 徐剑豪,等. 标签分布熵正则的模糊C均值平衡聚类方法[J]. 控制与决策, 2022, 37(9): 2274-2280.
Wang Zhe-yun, Hu Wen-jun, Xu Jian-hao, et al. Label distribution entropy regularized fuzzy C-means algorithm for balanced clustering[J]. Control and Decision, 2022, 37(9): 2274-2280.
5 景慎艳, 刘松迪. 分块自适应加权改进大规模概率模糊聚类[J]. 火力与指挥控制, 2021, 46(12): 88-93.
Jing Shen-yan, Liu Song-di. Block adaptive weighted improved large-scale probabilistic fuzzy clustering[J]. Fire Control & Command Control, 2021, 46(12): 88-93.
6 Motaki S, Yahyaouy A, Gualous H, et al. A new weighted fuzzy C-means clustering for workload monitoring in cloud datacenter platforms[J]. Cluster Computing, 2021, 24(4): 3367-3379.
7 滕文龙, 丛炳虎, 商云坤, 等. 基于MEA-BP神经网络的建筑能耗预测模型[J]. 吉林大学学报: 工学版, 2021, 51(5): 1857-1865.
Teng Wen-long, Cong Bing-hu, Shang Yun-kun, et al. Modeling of building energy consumption prediction based on MEA-BP neural network[J]. Journal of Jilin University (Engineering and Technology Edition), 2021, 51(5): 1857-1865.
8 王民顿, 尚俊娜. 基于CEEMD和改进小波阈值法的钢架结构沉降数据去噪方法[J]. 大地测量与地球动力学, 2022, 42(11): 1191-1195.
Wang Min-dun, Shang Jun-na. Denoising method of steel frame structure settlement data based on CEEMD and improved wavelet threshold method[J]. Journal of Geodesy and Geodynamics, 2022, 42(11): 1191-1195.
9 许承权, 范千. 基于ICEEMD-ICA与MDP准则的变形监测数据去噪方法[J]. 武汉大学学报: 信息科学版, 2021, 46(11): 1658-1665.
Xu Cheng-quan, Fan Qian. Denoising method for deformation monitoring data based on ICEEMD-ICA and MDP principle[J]. Geomatics and Information Science of Wuhan University, 2021, 46 (11): 1658-1665.
10 孙林, 秦小营, 徐久成, 等. 基于K近邻和优化分配策略的密度峰值聚类算法[J]. 软件学报, 2022, 33(4): 1390-1411.
Sun Lin, Qin Xiao-ying, Xu Jiu-cheng, et al. Density peak clustering algorithm based on K-nearest neighbors and optimized allocation strategy[J]. Journal of Software, 2022, 33(4): 1390-1411.
11 魏路, 高磊, 李晋宏, 等. 基于密度峰值聚类的交通控制子区划分方法[J]. 吉林大学学报: 工学版, 2023, 53(1): 124-131.
Wei Lu, Gao Lei, Li Jin-hong, et al. Traffic sub-area division method based on density peak clustering[J]. Journal of Jilin University (Engineering and Technology Edition), 2023, 53(1): 124-131.
12 李志军. 基于Sobol序列和间歇Lévy跳跃的改进蝙蝠算法[J]. 数学的实践与认识, 2021, 51(8): 313-320.
Li Zhi-jun. Improved bat algorithm based on sobol sequence and intermittent lévy jumping[J]. Mathematics in Practice and Theory, 2021, 51(8): 313-320.
[1] 黄玲,崔躜,游峰,洪佩鑫,钟浩川,曾译萱. 适用于多车交互场景的车辆轨迹预测模型[J]. 吉林大学学报(工学版), 2024, 54(5): 1188-1195.
[2] 夏超,王梦佳,朱剑月,杨志刚. 基于分层卷积自编码器的钝体湍流流场降阶分析[J]. 吉林大学学报(工学版), 2024, 54(4): 874-882.
[3] 杨国俊,齐亚辉,石秀名. 基于数字图像技术的桥梁裂缝检测综述[J]. 吉林大学学报(工学版), 2024, 54(2): 313-332.
[4] 高海龙,徐一博,刘坤,李春阳,卢晓煜. 基于多源数据融合的高速公路路网短时交通流参数实时预测[J]. 吉林大学学报(工学版), 2024, 54(1): 155-161.
[5] 李爽,林子瑞,叶松,刘旭,赵吉松. 运载火箭推力下降时入轨能力评估与轨迹重构方法[J]. 吉林大学学报(工学版), 2023, 53(8): 2245-2253.
[6] 车翔玖,徐欢,潘明阳,刘全乐. 生物医学命名实体识别的两阶段学习算法[J]. 吉林大学学报(工学版), 2023, 53(8): 2380-2387.
[7] 吕锋,李念,冯壮壮,张杨航. 面向用户的个性化产品服务系统协同过滤推介方法[J]. 吉林大学学报(工学版), 2023, 53(7): 1935-1942.
[8] 刘鹏举. 基于深度神经网络的物联网安全态势自动辨识算法设计[J]. 吉林大学学报(工学版), 2023, 53(7): 2121-2126.
[9] 刘培勇,董洁,谢罗峰,朱杨洋,殷国富. 基于多支路卷积神经网络的磁瓦表面缺陷检测算法[J]. 吉林大学学报(工学版), 2023, 53(5): 1449-1457.
[10] 张振海,季坤,党建武. 基于桥梁裂缝识别模型的桥梁裂缝病害识别方法[J]. 吉林大学学报(工学版), 2023, 53(5): 1418-1426.
[11] 冀汶莉,田忠,柴敬,张丁丁,王斌. 多属性融合分布式光纤导水裂隙带高度预测方法[J]. 吉林大学学报(工学版), 2023, 53(4): 1200-1210.
[12] 田彦涛,许富强,王凯歌,郝子绪. 考虑周车信息的自车期望轨迹预测[J]. 吉林大学学报(工学版), 2023, 53(3): 674-681.
[13] 于雅静,郭健,王荣浩,秦伟,宋明武,向峥嵘. 基于状态观测器的多四旋翼无人机时变编队控制[J]. 吉林大学学报(工学版), 2023, 53(3): 871-882.
[14] 张帅帅,尹燕芳,肖林京,姜帅. 基于门控循环神经网络的四足机器人静步态规划方法[J]. 吉林大学学报(工学版), 2023, 53(3): 902-912.
[15] 姚荣涵,徐文韬,郭伟伟. 基于因子长短期记忆的驾驶人接管行为及意图识别[J]. 吉林大学学报(工学版), 2023, 53(3): 758-771.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
No Suggested Reading articles found!