吉林大学学报(工学版) ›› 2016, Vol. 46 ›› Issue (3): 884-889.doi: 10.13229/j.cnki.jdxbgxb201603031

• 论文 • 上一篇    下一篇

基于半监督学习的朴素贝叶斯分类新算法

董立岩1, 隋鹏1, 孙鹏1, 李永丽2   

  1. 1.吉林大学 计算机科学与技术学院, 长春 130012;
    2.东北师范大学 计算机科学与信息技术学院,长春 130117
  • 收稿日期:2013-08-01 出版日期:2016-06-20 发布日期:2016-06-20
  • 作者简介:董立岩(1966),男,教授,博士生导师.研究方向:数据挖掘.E-mail:dongly@jlu.edu.cn
  • 基金资助:
    国家自然科学基金项目(61272209).

Novel naive Bayes classification algorithm based on semi-supervised learning

DONG Li-yan1, SUI Peng1, SUN Peng1, LI Yong-li2   

  1. 1.College of Computer Science and Technology , Jilin University , Changchun 130012, China;
    2.School of Computer Science and Technology, Northeast Normal University, Changchun 130117,China
  • Received:2013-08-01 Online:2016-06-20 Published:2016-06-20

摘要: 为了在有标签的训练集中保留高质量的样本,首先利用无标签训练集得出置信度高的k个样本,再结合有标签训练样本,不断迭代直至训练完成。实验结果表明:随着无标记样本比例的不断增加,本文算法预测准确性明显高于朴素贝叶斯分类算法,而且其性能比传统半监督学习方法有所改善。

关键词: 计算机应用, 半监督学习, 朴素贝叶斯, 无类标签分类

Abstract: A novel naive Bayes classification algorithm based on semi-supervised learning is proposed. First, to retain high quality samples in the training sect with class label, the unlabeled training set is sued to obtain k samples of high confidence. Then, these high confidence samples are combined with the labeled-training samples to iterate until the training is complete. The experimental results show that with the increasing proportion of unlabeled samples, the predictive accuracy of the proposed algorithm is significant higher than that of the Na?ve Bayesian classification. In addition, the effectiveness and performance of the algorithm are improved compared with the traditional semi-supervised learning algorithm.

Key words: computer application, semi-supervised study, Naive Bayes, unknown label classification

中图分类号: 

  • TP301.6
[1] Zhang H, Sheng S. Learning weighted naive Bayes with accurate ranking[C]∥Proceedings of the Fourth IEEE International Conference on Data Mining, Brighton, 2004: 567-570.
[2] Zheng Z, Webb G I. Lazy learning of bayesian rules[J]. Machine Learning, 2000,41(1):53-84.
[3] Wang Z H, Webb G I,Zheng F. Adjusting Dependence Relations for Semi-lazy TAN Classfier[M]. Berlin:Springer,2003:453-456.
[4] Yager R R. An extension of the naive Bayesian classifier[J]. Information Sciences, 2006,176(5): 577-588.
[5] 江凯,高阳. 并行化的半监督朴素贝叶斯分类算法[J]. 计算机科学与探索,2012, 6(10):912-918.
Jiang Kai,Gao Yang. A parallelized semi-supervised na?ve bayes classifier[J]. Journal of Frontiers of Computer Science and Technology,2012, 6(10):912-918.
[6] Shahshahani B M, Landgrebe D A. The effect of unlabeled samples in reducing the small sample size problem and mitigating the Hughes phenomenon[J].IEEE Transactions on Geoscience and Remote Sensing, 1994, 32(5): 1087-1095.
[7] Kulis B, Basu S, Dhillon I, et al. Semi-supervised graph clustering: a kernel approach[J]. Machine learning, 2009, 74(1): 1-22.
[8] 彭兴媛. 朴素贝叶斯分类改进算法的研究[D].重庆:重庆大学数学与统计学院,2012.
Peng Xin-yuan. Research on naive Bayesian classifier algorithm[D].Chongqing: School of Mathematics and Statistics, Chongqing University,2012.
[9] Su J, Shirab J S, Matwin S. Large scale text classification using semi-supervised multinomial naive bayes[C]∥Proceedings of the 28th International Conference on Machine Learning,Bellevue, WA, USA,2011: 97-104.
[10] 孔怡青. 半监督学习及其应用研究[D]. 无锡:江南大学信息工程学院,2009.
Kong Yi-qing. Studies on semi-supervised learning and its applications[D]. Wuxi: School of Information Engineering, Jiangnan University,2009.
[11] Mann G S, McCallum A. Generalized expectation criteria for semi-supervised learning with weakly labeled data[J]. The Journal of Machine Learning Research, 2010, 11: 955-984.
[12] Hall M, Frank E, Holmes G, et al. The WEKA data mining software: an update[J]. ACM SIGKDD Explorations Newsletter,2009,11(1): 10-18.
[13] Zhu X J,Goldberg A B.Introduction to semi-supervised learning[J].Synthesis Lectures on Artificial Intelligence and Machine Learning,2009,3(1):1-130.
[14] Kveton B, Valko M, Rahimi A, et al. Semi-supervised learning with max-margin graph cuts[C]∥Thirteenth International Conference on Artificial Intelligence and Statistics, Sardinia, Italy, 2010:421-428.
[15] UCI machine learning repository[DB/OL]. [2013-05-20].http://archive.ics.uci.edu/ml/index.html
[16] Modha D S, Spangler W S. Feature weighting in k-means clustering[J]. Machine Learning, 2003, 52(3): 217-237.
[1] 刘富,宗宇轩,康冰,张益萌,林彩霞,赵宏伟. 基于优化纹理特征的手背静脉识别系统[J]. 吉林大学学报(工学版), 2018, 48(6): 1844-1850.
[2] 王利民,刘洋,孙铭会,李美慧. 基于Markov blanket的无约束型K阶贝叶斯集成分类模型[J]. 吉林大学学报(工学版), 2018, 48(6): 1851-1858.
[3] 金顺福,王宝帅,郝闪闪,贾晓光,霍占强. 基于备用虚拟机同步休眠的云数据中心节能策略及性能[J]. 吉林大学学报(工学版), 2018, 48(6): 1859-1866.
[4] 赵东,孙明玉,朱金龙,于繁华,刘光洁,陈慧灵. 结合粒子群和单纯形的改进飞蛾优化算法[J]. 吉林大学学报(工学版), 2018, 48(6): 1867-1872.
[5] 刘恩泽,吴文福. 基于机器视觉的农作物表面多特征决策融合病变判断算法[J]. 吉林大学学报(工学版), 2018, 48(6): 1873-1878.
[6] 欧阳丹彤, 范琪. 子句级别语境感知的开放信息抽取方法[J]. 吉林大学学报(工学版), 2018, 48(5): 1563-1570.
[7] 刘富, 兰旭腾, 侯涛, 康冰, 刘云, 林彩霞. 基于优化k-mer频率的宏基因组聚类方法[J]. 吉林大学学报(工学版), 2018, 48(5): 1593-1599.
[8] 桂春, 黄旺星. 基于改进的标签传播算法的网络聚类方法[J]. 吉林大学学报(工学版), 2018, 48(5): 1600-1605.
[9] 刘元宁, 刘帅, 朱晓冬, 陈一浩, 郑少阁, 沈椿壮. 基于高斯拉普拉斯算子与自适应优化伽柏滤波的虹膜识别[J]. 吉林大学学报(工学版), 2018, 48(5): 1606-1613.
[10] 车翔玖, 王利, 郭晓新. 基于多尺度特征融合的边界检测算法[J]. 吉林大学学报(工学版), 2018, 48(5): 1621-1628.
[11] 赵宏伟, 刘宇琦, 董立岩, 王玉, 刘陪. 智能交通混合动态路径优化算法[J]. 吉林大学学报(工学版), 2018, 48(4): 1214-1223.
[12] 黄辉, 冯西安, 魏燕, 许驰, 陈慧灵. 基于增强核极限学习机的专业选择智能系统[J]. 吉林大学学报(工学版), 2018, 48(4): 1224-1230.
[13] 傅文博, 张杰, 陈永乐. 物联网环境下抵抗路由欺骗攻击的网络拓扑发现算法[J]. 吉林大学学报(工学版), 2018, 48(4): 1231-1236.
[14] 曹洁, 苏哲, 李晓旭. 基于Corr-LDA模型的图像标注方法[J]. 吉林大学学报(工学版), 2018, 48(4): 1237-1243.
[15] 侯永宏, 王利伟, 邢家明. 基于HTTP的动态自适应流媒体传输算法[J]. 吉林大学学报(工学版), 2018, 48(4): 1244-1253.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
[1] 刘松山, 王庆年, 王伟华, 林鑫. 惯性质量对馈能悬架阻尼特性和幅频特性的影响[J]. 吉林大学学报(工学版), 2013, 43(03): 557 -563 .
[2] 初亮, 王彦波, 祁富伟, 张永生. 用于制动压力精确控制的进液阀控制方法[J]. 吉林大学学报(工学版), 2013, 43(03): 564 -570 .
[3] 李静, 王子涵, 余春贤, 韩佐悦, 孙博华. 硬件在环试验台整车状态跟随控制系统设计[J]. 吉林大学学报(工学版), 2013, 43(03): 577 -583 .
[4] 胡兴军, 李腾飞, 王靖宇, 杨博, 郭鹏, 廖磊. 尾板对重型载货汽车尾部流场的影响[J]. 吉林大学学报(工学版), 2013, 43(03): 595 -601 .
[5] 王同建, 陈晋市, 赵锋, 赵庆波, 刘昕晖, 袁华山. 全液压转向系统机液联合仿真及试验[J]. 吉林大学学报(工学版), 2013, 43(03): 607 -612 .
[6] 张春勤, 姜桂艳, 吴正言. 机动车出行者出发时间选择的影响因素[J]. 吉林大学学报(工学版), 2013, 43(03): 626 -632 .
[7] 马万经, 谢涵洲. 双停车线进口道主、预信号配时协调控制模型[J]. 吉林大学学报(工学版), 2013, 43(03): 633 -639 .
[8] 于德新, 仝倩, 杨兆升, 高鹏. 重大灾害条件下应急交通疏散时间预测模型[J]. 吉林大学学报(工学版), 2013, 43(03): 654 -658 .
[9] 王国林, 傅乃霁, 张建, 裴紫嵘. 基于K-R动力学模型的子午线轮胎硫化过程仿真[J]. 吉林大学学报(工学版), 2013, 43(03): 659 -664 .
[10] 肖赟, 雷俊卿, 张坤, 李忠三. 多级变幅疲劳荷载下预应力混凝土梁刚度退化[J]. 吉林大学学报(工学版), 2013, 43(03): 665 -670 .