吉林大学学报(工学版) ›› 2011, Vol. 41 ›› Issue (4): 1077-1082.

• 论文 • 上一篇    下一篇

结合K均值和非负矩阵分解集成文本聚类算法

徐森1,2,卢志茂2,顾国昌2   

  1. 1.盐城工学院 信息工程学院|江苏 盐城 224051;2.哈尔滨工程大学 模式识别与自然计算研究室|哈尔滨 150001
  • 收稿日期:2009-07-18 出版日期:2011-07-01 发布日期:2011-07-01
  • 通讯作者: 卢志茂(1972-),男,教授,博士生导师.研究方向:智能信息处理,文本挖掘. E-mail:lzm@hrbeu.edu.cn
  • 作者简介:徐森(1983-),男,博士|副教授.研究方向:机器学习,模式识别,文本挖掘.E-mail:xusen@hrbeu.edu.cn
  • 基金资助:

    国家自然科学基金项目(60603092,60975042);高等学校博士学科点专项科研基金项目(20070217043);盐城工学院人才引进专项基金项目(XKR2011019).

Integrating K-means and non-negative matrix factorization to ensemble document clustering

XU Sen1,2, LU Zhi-mao2, GU Guo-chang2   

  1. 1.School of Information Engineering, Yancheng Institute of Technology,Yancheng 224051,China;2.Pattern Recognition and Natural Computation Laboratory, Harbin Engineering University, Harbin 150001, China
  • Received:2009-07-18 Online:2011-07-01 Published:2011-07-01

摘要:

将非负矩阵分解(NMF)引入到文本聚类集成问题中,为解决NMF随机初始化所引起的不稳定性问题,首先采用最小最大原则确定K均值算法的初始质心,并获得稳定的聚类结果;其次,将K均值算法的聚类结果作为NMF的初始因子矩阵,并对超图的邻接矩阵进行NMF,获得基矩阵和系数矩阵;最后根据系数矩阵获得最终的聚类结果,由此设计了NMFK算法。在多组真实文本集上进行了实验,结果表明:NMFK算法运行高效,并且获得了比其他常见的聚类集成算法更加优越的结果。

关键词: 计算机应用, 聚类分析, 文本聚类集成, 非负矩阵分解, K均值

Abstract:

Non-negative Matrix Factorization (NMF) is brought forth into document cluster ensemble problem. In order to get a stable result, K-means algorithm using minimum and maximum principle is performed. Then the result of K-means is provided to NMF algorithm as the initial factor matrix. NMF is further performed on adjacent matrix of hypergraph to attain the basis matrix and efficient matrix. The final clustering result is obtained according to the coefficient matrix. Whereupon, a NMFK algorithm is proposed and tested on real-world document sets. Results show that NMFK outperforms other cluster ensemble techniques and is very efficient.

Key words: computer application, clustering analysis, document cluster ensemble, non-negative matrix factorization, K-means

中图分类号: 

  • TP391
[1] 刘富,宗宇轩,康冰,张益萌,林彩霞,赵宏伟. 基于优化纹理特征的手背静脉识别系统[J]. 吉林大学学报(工学版), 2018, 48(6): 1844-1850.
[2] 王利民,刘洋,孙铭会,李美慧. 基于Markov blanket的无约束型K阶贝叶斯集成分类模型[J]. 吉林大学学报(工学版), 2018, 48(6): 1851-1858.
[3] 金顺福,王宝帅,郝闪闪,贾晓光,霍占强. 基于备用虚拟机同步休眠的云数据中心节能策略及性能[J]. 吉林大学学报(工学版), 2018, 48(6): 1859-1866.
[4] 赵东,孙明玉,朱金龙,于繁华,刘光洁,陈慧灵. 结合粒子群和单纯形的改进飞蛾优化算法[J]. 吉林大学学报(工学版), 2018, 48(6): 1867-1872.
[5] 刘恩泽,吴文福. 基于机器视觉的农作物表面多特征决策融合病变判断算法[J]. 吉林大学学报(工学版), 2018, 48(6): 1873-1878.
[6] 欧阳丹彤, 范琪. 子句级别语境感知的开放信息抽取方法[J]. 吉林大学学报(工学版), 2018, 48(5): 1563-1570.
[7] 刘富, 兰旭腾, 侯涛, 康冰, 刘云, 林彩霞. 基于优化k-mer频率的宏基因组聚类方法[J]. 吉林大学学报(工学版), 2018, 48(5): 1593-1599.
[8] 桂春, 黄旺星. 基于改进的标签传播算法的网络聚类方法[J]. 吉林大学学报(工学版), 2018, 48(5): 1600-1605.
[9] 刘元宁, 刘帅, 朱晓冬, 陈一浩, 郑少阁, 沈椿壮. 基于高斯拉普拉斯算子与自适应优化伽柏滤波的虹膜识别[J]. 吉林大学学报(工学版), 2018, 48(5): 1606-1613.
[10] 车翔玖, 王利, 郭晓新. 基于多尺度特征融合的边界检测算法[J]. 吉林大学学报(工学版), 2018, 48(5): 1621-1628.
[11] 赵宏伟, 刘宇琦, 董立岩, 王玉, 刘陪. 智能交通混合动态路径优化算法[J]. 吉林大学学报(工学版), 2018, 48(4): 1214-1223.
[12] 黄辉, 冯西安, 魏燕, 许驰, 陈慧灵. 基于增强核极限学习机的专业选择智能系统[J]. 吉林大学学报(工学版), 2018, 48(4): 1224-1230.
[13] 傅文博, 张杰, 陈永乐. 物联网环境下抵抗路由欺骗攻击的网络拓扑发现算法[J]. 吉林大学学报(工学版), 2018, 48(4): 1231-1236.
[14] 曹洁, 苏哲, 李晓旭. 基于Corr-LDA模型的图像标注方法[J]. 吉林大学学报(工学版), 2018, 48(4): 1237-1243.
[15] 侯永宏, 王利伟, 邢家明. 基于HTTP的动态自适应流媒体传输算法[J]. 吉林大学学报(工学版), 2018, 48(4): 1244-1253.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
No Suggested Reading articles found!