吉林大学学报(工学版) ›› 2017, Vol. 47 ›› Issue (5): 1604-1611.doi: 10.13229/j.cnki.jdxbgxb201705037
李嘉菲1, 2, 孙小玉1, 2
LI Jia-fei1, 2, SUN Xiao-yu1, 2
摘要: 提出了一种基于谱分解的不确定数据聚类方法,利用数据本身的潜在关联,探寻不确定表象下底层数据记录的真实协方差结构。根据协方差结构,使用基于谱分解的数据分析方法,获取锐化降噪后的数据,再将此数据进行聚类分析。对比实验结果表明:本方法得到的聚类质量显著提高,RMS均方根误差以及CH指标结果均优于传统方法。
中图分类号:
[1] 孟小峰, 慈祥. 大数据管理:概念、技术与挑战[J]. 计算机研究与发展, 2013, 50(1):146-169. Meng Xiao-feng, Ci Xiang. Big data management:concepts,techniques and challenges[J]. Journal of Computer Research and Development, 2013, 50(1):146-169. [2] Aggarwal C C. On density based transforms for uncertain data mining[C]∥Proceedings of the 23rd IEEE International Conference on Data Engineering.NJ: IEEE, 2007: 841-850. [3] Aggarwal C C. On unifying privacy and uncertain data models[C]∥Proceedings of the 24th IEEE International Conference on Data Engineering. NJ: IEEE, 2008: 386-395. [4] Jin C, Yu J X,Zhou A,et al. Efficient clustering of uncertain data streams[J]. Knowledge and Information Systems, 2014, 40(3):509-539. [5] Aggarwal C C, Yu P S. A survey of uncertain data algorithms[J]. IEEE Transactions on Knowledge and Data Engineering,2009, 21(5):609-623. [6] Kriegel H P, Pfeifle M. Density-based clustering of uncertain data[C]∥Proceedings of the 11th ACM SIGKDD International Conference on Knowledge Discovery in Data Mining. New York: ACM, 2005:672-677. [7] 张海龙, 王仁彪, 聂俊,等. 海量数据的网格启发信息密度聚类算法[J]. 吉林大学学报:工学版, 2011, 41(增刊2):254-258. Zhang Hai-long, Wang Ren-biao, Nie Jun, et al. Grid heuristic information density clustering algorithm based on mass data[J].Jounal of Jillin University(Engineering and Technology Edition),2011,41(Sup.2): 254-258. [8] Kriegel H P, Pfeifle M. Hierarchical density based clustering of uncertain data[C]∥Proceedings of the 5th IEEE International Conference on Data Mining. NJ: IEEE, 2005:689-692. [9] Ngai W K, Kao B, Chui C K,et al. Efficient clustering of uncertain data[C]∥Proceedings of the 6th IEEE Internatiaonal Conference on Data Mining. NJ: IEEE, 2006:436-445. [10] Lee S D, Kao Ben, Cheng Reynold. Reducing UK-means to K-means[C]∥IEEE 13th International Conference on Data Mining Workshops,Omaha, Nebraska, USA,2007:483-488. [11] 李云飞, 王丽珍, 周丽华. 不确定数据的高效聚类方法[D]. 广西师范大学学报:自然科学版, 2011, 29(2):21-27. Li Yun-fei, Wang Li-zhen, Zhou Li-hua. Efficient clustering algorithm of uncertain data[D]. Journal of Guangxi Normal University (Natural Science Edition), 2011, 29(2):21-27. [12] Aggarwal C C. A framework for clustering uncertain data streams[C]∥Proceedings of the 24th IEEE International Conference on Data Engineering. NJ: IEEE, 2008:150-159. [13] Aggarwal C C. On high dimensioal projected clustering of uncertain data streams[C]∥Proceedings of 25th International Conference on Data Engineering. NJ: IEEE, 2009:1152-1154. [14] 曹振丽, 孙瑞志, 李勐. 一种基于高斯混合模型的不确定数据流聚类方法[J]. 计算机研究与发展, 2014, 51(增刊2):102-109. Cao Zhen-li, Sun Rui-zhi, Li Meng. A method for clustering uncertain data streams based on GMM[J]. Journal of Computer Research and Development, 2014, 51(Sup.2):102-109. [15] Aggarwal C C. On multidimensional sharpening of uncertain data[C]∥Proceedings of the SIAM International Conference on Data Mining.PA:SIAM, 2010:136-148. |
[1] | 刘仲民,王阳,李战明,胡文瑾. 基于简单线性迭代聚类和快速最近邻区域合并的图像分割算法[J]. 吉林大学学报(工学版), 2018, 48(6): 1931-1937. |
[2] | 董飒, 刘大有, 欧阳若川, 朱允刚, 李丽娜. 引入二阶马尔可夫假设的逻辑回归异质性网络分类方法[J]. 吉林大学学报(工学版), 2018, 48(5): 1571-1577. |
[3] | 顾海军, 田雅倩, 崔莹. 基于行为语言的智能交互代理[J]. 吉林大学学报(工学版), 2018, 48(5): 1578-1585. |
[4] | 桂春, 黄旺星. 基于改进的标签传播算法的网络聚类方法[J]. 吉林大学学报(工学版), 2018, 48(5): 1600-1605. |
[5] | 张曼, 施树明. 典型汽车运行工况的状态转移特征分析[J]. 吉林大学学报(工学版), 2018, 48(4): 1008-1015. |
[6] | 王旭, 欧阳继红, 陈桂芬. 基于垂直维序列动态时间规整方法的图相似度度量[J]. 吉林大学学报(工学版), 2018, 48(4): 1199-1205. |
[7] | 张浩, 占萌苹, 郭刘香, 李誌, 刘元宁, 张春鹤, 常浩武, 王志强. 基于高通量数据的人体外源性植物miRNA跨界调控建模[J]. 吉林大学学报(工学版), 2018, 48(4): 1206-1213. |
[8] | 黄岚, 纪林影, 姚刚, 翟睿峰, 白天. 面向误诊提示的疾病-症状语义网构建[J]. 吉林大学学报(工学版), 2018, 48(3): 859-865. |
[9] | 李雄飞, 冯婷婷, 骆实, 张小利. 基于递归神经网络的自动作曲算法[J]. 吉林大学学报(工学版), 2018, 48(3): 866-873. |
[10] | 刘杰, 张平, 高万夫. 基于条件相关的特征选择方法[J]. 吉林大学学报(工学版), 2018, 48(3): 874-881. |
[11] | 邓剑勋, 熊忠阳, 邓欣. 基于谱聚类矩阵的改进DNALA算法[J]. 吉林大学学报(工学版), 2018, 48(3): 903-908. |
[12] | 王旭, 欧阳继红, 陈桂芬. 基于多重序列所有公共子序列的启发式算法度量多图的相似度[J]. 吉林大学学报(工学版), 2018, 48(2): 526-532. |
[13] | 杨欣, 夏斯军, 刘冬雪, 费树岷, 胡银记. 跟踪-学习-检测框架下改进加速梯度的目标跟踪[J]. 吉林大学学报(工学版), 2018, 48(2): 533-538. |
[14] | 刘雪娟, 袁家斌, 许娟, 段博佳. 量子k-means算法[J]. 吉林大学学报(工学版), 2018, 48(2): 539-544. |
[15] | 侯现耀, 陈学武. 基于态度的公交出行信息使用市场细分[J]. 吉林大学学报(工学版), 2018, 48(1): 98-104. |
|