吉林大学学报(工学版) ›› 2017, Vol. 47 ›› Issue (5): 1604-1611.doi: 10.13229/j.cnki.jdxbgxb201705037

• • 上一篇    下一篇

基于谱分解的不确定数据聚类方法

李嘉菲1, 2, 孙小玉1, 2   

  1. 1.吉林大学 符号计算与知识工程教育部重点实验室,长春 130012;
    2.吉林大学 计算机科学与技术学院,长春130012
  • 收稿日期:2016-07-05 出版日期:2017-09-20 发布日期:2017-09-20
  • 作者简介:李嘉菲 (1976-),女,副教授,博士.研究方向:信息融合.E-mail:jiafei@jlu.edu.cn
  • 基金资助:
    吉林省科技厅发展计划项目(20130206046GX, 20140101201JC); 国家自然科学基金项目(61133011, 61472161,61170092, 60973088, 61202308)

Clustering method for uncertain data based on spectral decomposition

LI Jia-fei1, 2, SUN Xiao-yu1, 2   

  1. 1.Key Laboratory of Symbolic Computation and Knowledge Engineering of Ministry of Education, Jilin University, Changchun 130012, China;
    2.College of Computer Science and Technology, Jilin University, Changchun 130012, China
  • Received:2016-07-05 Online:2017-09-20 Published:2017-09-20

摘要: 提出了一种基于谱分解的不确定数据聚类方法,利用数据本身的潜在关联,探寻不确定表象下底层数据记录的真实协方差结构。根据协方差结构,使用基于谱分解的数据分析方法,获取锐化降噪后的数据,再将此数据进行聚类分析。对比实验结果表明:本方法得到的聚类质量显著提高,RMS均方根误差以及CH指标结果均优于传统方法。

关键词: 人工智能, 不确定数据, 谱分解, 聚类, 数据降噪, 协方差结构

Abstract: A clustering method for uncertain data based on spectral decomposition was proposed. The method was applied to explore the true covariance structure of data records behind the uncertain representation under the natural potential association of the data. The data analysis method based on spectral decomposition can get the sharpening data according to the covariance structure. Then, clustering analysis of the sharpening data is carried out. The comparison experiment results show that, using the proposed method, the clustering quality improves significantly; the results of root mean square error and CH index are all better than that obtained using the traditional method.

Key words: artificial intelligence, uncertain data, spectral decomposition, clustering, data sharpening, covariance structure

中图分类号: 

  • TP391
[1] 孟小峰, 慈祥. 大数据管理:概念、技术与挑战[J]. 计算机研究与发展, 2013, 50(1):146-169.
Meng Xiao-feng, Ci Xiang. Big data management:concepts,techniques and challenges[J]. Journal of Computer Research and Development, 2013, 50(1):146-169.
[2] Aggarwal C C. On density based transforms for uncertain data mining[C]∥Proceedings of the 23rd IEEE International Conference on Data Engineering.NJ: IEEE, 2007: 841-850.
[3] Aggarwal C C. On unifying privacy and uncertain data models[C]∥Proceedings of the 24th IEEE International Conference on Data Engineering. NJ: IEEE, 2008: 386-395.
[4] Jin C, Yu J X,Zhou A,et al. Efficient clustering of uncertain data streams[J]. Knowledge and Information Systems, 2014, 40(3):509-539.
[5] Aggarwal C C, Yu P S. A survey of uncertain data algorithms[J]. IEEE Transactions on Knowledge and Data Engineering,2009, 21(5):609-623.
[6] Kriegel H P, Pfeifle M. Density-based clustering of uncertain data[C]∥Proceedings of the 11th ACM SIGKDD International Conference on Knowledge Discovery in Data Mining. New York: ACM, 2005:672-677.
[7] 张海龙, 王仁彪, 聂俊,等. 海量数据的网格启发信息密度聚类算法[J]. 吉林大学学报:工学版, 2011, 41(增刊2):254-258.
Zhang Hai-long, Wang Ren-biao, Nie Jun, et al. Grid heuristic information density clustering algorithm based on mass data[J].Jounal of Jillin University(Engineering and Technology Edition),2011,41(Sup.2): 254-258.
[8] Kriegel H P, Pfeifle M. Hierarchical density based clustering of uncertain data[C]∥Proceedings of the 5th IEEE International Conference on Data Mining. NJ: IEEE, 2005:689-692.
[9] Ngai W K, Kao B, Chui C K,et al. Efficient clustering of uncertain data[C]∥Proceedings of the 6th IEEE Internatiaonal Conference on Data Mining. NJ: IEEE, 2006:436-445.
[10] Lee S D, Kao Ben, Cheng Reynold. Reducing UK-means to K-means[C]∥IEEE 13th International Conference on Data Mining Workshops,Omaha, Nebraska, USA,2007:483-488.
[11] 李云飞, 王丽珍, 周丽华. 不确定数据的高效聚类方法[D]. 广西师范大学学报:自然科学版, 2011, 29(2):21-27.
Li Yun-fei, Wang Li-zhen, Zhou Li-hua. Efficient clustering algorithm of uncertain data[D]. Journal of Guangxi Normal University (Natural Science Edition), 2011, 29(2):21-27.
[12] Aggarwal C C. A framework for clustering uncertain data streams[C]∥Proceedings of the 24th IEEE International Conference on Data Engineering. NJ: IEEE, 2008:150-159.
[13] Aggarwal C C. On high dimensioal projected clustering of uncertain data streams[C]∥Proceedings of 25th International Conference on Data Engineering. NJ: IEEE, 2009:1152-1154.
[14] 曹振丽, 孙瑞志, 李勐. 一种基于高斯混合模型的不确定数据流聚类方法[J]. 计算机研究与发展, 2014, 51(增刊2):102-109.
Cao Zhen-li, Sun Rui-zhi, Li Meng. A method for clustering uncertain data streams based on GMM[J]. Journal of Computer Research and Development, 2014, 51(Sup.2):102-109.
[15] Aggarwal C C. On multidimensional sharpening of uncertain data[C]∥Proceedings of the SIAM International Conference on Data Mining.PA:SIAM, 2010:136-148.
[1] 刘仲民,王阳,李战明,胡文瑾. 基于简单线性迭代聚类和快速最近邻区域合并的图像分割算法[J]. 吉林大学学报(工学版), 2018, 48(6): 1931-1937.
[2] 董飒, 刘大有, 欧阳若川, 朱允刚, 李丽娜. 引入二阶马尔可夫假设的逻辑回归异质性网络分类方法[J]. 吉林大学学报(工学版), 2018, 48(5): 1571-1577.
[3] 顾海军, 田雅倩, 崔莹. 基于行为语言的智能交互代理[J]. 吉林大学学报(工学版), 2018, 48(5): 1578-1585.
[4] 桂春, 黄旺星. 基于改进的标签传播算法的网络聚类方法[J]. 吉林大学学报(工学版), 2018, 48(5): 1600-1605.
[5] 张曼, 施树明. 典型汽车运行工况的状态转移特征分析[J]. 吉林大学学报(工学版), 2018, 48(4): 1008-1015.
[6] 王旭, 欧阳继红, 陈桂芬. 基于垂直维序列动态时间规整方法的图相似度度量[J]. 吉林大学学报(工学版), 2018, 48(4): 1199-1205.
[7] 张浩, 占萌苹, 郭刘香, 李誌, 刘元宁, 张春鹤, 常浩武, 王志强. 基于高通量数据的人体外源性植物miRNA跨界调控建模[J]. 吉林大学学报(工学版), 2018, 48(4): 1206-1213.
[8] 黄岚, 纪林影, 姚刚, 翟睿峰, 白天. 面向误诊提示的疾病-症状语义网构建[J]. 吉林大学学报(工学版), 2018, 48(3): 859-865.
[9] 李雄飞, 冯婷婷, 骆实, 张小利. 基于递归神经网络的自动作曲算法[J]. 吉林大学学报(工学版), 2018, 48(3): 866-873.
[10] 刘杰, 张平, 高万夫. 基于条件相关的特征选择方法[J]. 吉林大学学报(工学版), 2018, 48(3): 874-881.
[11] 邓剑勋, 熊忠阳, 邓欣. 基于谱聚类矩阵的改进DNALA算法[J]. 吉林大学学报(工学版), 2018, 48(3): 903-908.
[12] 王旭, 欧阳继红, 陈桂芬. 基于多重序列所有公共子序列的启发式算法度量多图的相似度[J]. 吉林大学学报(工学版), 2018, 48(2): 526-532.
[13] 杨欣, 夏斯军, 刘冬雪, 费树岷, 胡银记. 跟踪-学习-检测框架下改进加速梯度的目标跟踪[J]. 吉林大学学报(工学版), 2018, 48(2): 533-538.
[14] 刘雪娟, 袁家斌, 许娟, 段博佳. 量子k-means算法[J]. 吉林大学学报(工学版), 2018, 48(2): 539-544.
[15] 侯现耀, 陈学武. 基于态度的公交出行信息使用市场细分[J]. 吉林大学学报(工学版), 2018, 48(1): 98-104.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
[1] 张维维, 何家峰, 高国旺, 任丽莉, 申铉京. 基于博弈论的无线Mesh网络路由与信道分配联合优化算法[J]. 吉林大学学报(工学版), 2018, 48(3): 887 -892 .