吉林大学学报(工学版) ›› 2016, Vol. 46 ›› Issue (3): 884-889.doi: 10.13229/j.cnki.jdxbgxb201603031
董立岩1, 隋鹏1, 孙鹏1, 李永丽2
DONG Li-yan1, SUI Peng1, SUN Peng1, LI Yong-li2
摘要: 为了在有标签的训练集中保留高质量的样本,首先利用无标签训练集得出置信度高的k个样本,再结合有标签训练样本,不断迭代直至训练完成。实验结果表明:随着无标记样本比例的不断增加,本文算法预测准确性明显高于朴素贝叶斯分类算法,而且其性能比传统半监督学习方法有所改善。
中图分类号:
[1] Zhang H, Sheng S. Learning weighted naive Bayes with accurate ranking[C]∥Proceedings of the Fourth IEEE International Conference on Data Mining, Brighton, 2004: 567-570. [2] Zheng Z, Webb G I. Lazy learning of bayesian rules[J]. Machine Learning, 2000,41(1):53-84. [3] Wang Z H, Webb G I,Zheng F. Adjusting Dependence Relations for Semi-lazy TAN Classfier[M]. Berlin:Springer,2003:453-456. [4] Yager R R. An extension of the naive Bayesian classifier[J]. Information Sciences, 2006,176(5): 577-588. [5] 江凯,高阳. 并行化的半监督朴素贝叶斯分类算法[J]. 计算机科学与探索,2012, 6(10):912-918. Jiang Kai,Gao Yang. A parallelized semi-supervised na?ve bayes classifier[J]. Journal of Frontiers of Computer Science and Technology,2012, 6(10):912-918. [6] Shahshahani B M, Landgrebe D A. The effect of unlabeled samples in reducing the small sample size problem and mitigating the Hughes phenomenon[J].IEEE Transactions on Geoscience and Remote Sensing, 1994, 32(5): 1087-1095. [7] Kulis B, Basu S, Dhillon I, et al. Semi-supervised graph clustering: a kernel approach[J]. Machine learning, 2009, 74(1): 1-22. [8] 彭兴媛. 朴素贝叶斯分类改进算法的研究[D].重庆:重庆大学数学与统计学院,2012. Peng Xin-yuan. Research on naive Bayesian classifier algorithm[D].Chongqing: School of Mathematics and Statistics, Chongqing University,2012. [9] Su J, Shirab J S, Matwin S. Large scale text classification using semi-supervised multinomial naive bayes[C]∥Proceedings of the 28th International Conference on Machine Learning,Bellevue, WA, USA,2011: 97-104. [10] 孔怡青. 半监督学习及其应用研究[D]. 无锡:江南大学信息工程学院,2009. Kong Yi-qing. Studies on semi-supervised learning and its applications[D]. Wuxi: School of Information Engineering, Jiangnan University,2009. [11] Mann G S, McCallum A. Generalized expectation criteria for semi-supervised learning with weakly labeled data[J]. The Journal of Machine Learning Research, 2010, 11: 955-984. [12] Hall M, Frank E, Holmes G, et al. The WEKA data mining software: an update[J]. ACM SIGKDD Explorations Newsletter,2009,11(1): 10-18. [13] Zhu X J,Goldberg A B.Introduction to semi-supervised learning[J].Synthesis Lectures on Artificial Intelligence and Machine Learning,2009,3(1):1-130. [14] Kveton B, Valko M, Rahimi A, et al. Semi-supervised learning with max-margin graph cuts[C]∥Thirteenth International Conference on Artificial Intelligence and Statistics, Sardinia, Italy, 2010:421-428. [15] UCI machine learning repository[DB/OL]. [2013-05-20].http://archive.ics.uci.edu/ml/index.html [16] Modha D S, Spangler W S. Feature weighting in k-means clustering[J]. Machine Learning, 2003, 52(3): 217-237. |
[1] | 刘富,宗宇轩,康冰,张益萌,林彩霞,赵宏伟. 基于优化纹理特征的手背静脉识别系统[J]. 吉林大学学报(工学版), 2018, 48(6): 1844-1850. |
[2] | 王利民,刘洋,孙铭会,李美慧. 基于Markov blanket的无约束型K阶贝叶斯集成分类模型[J]. 吉林大学学报(工学版), 2018, 48(6): 1851-1858. |
[3] | 金顺福,王宝帅,郝闪闪,贾晓光,霍占强. 基于备用虚拟机同步休眠的云数据中心节能策略及性能[J]. 吉林大学学报(工学版), 2018, 48(6): 1859-1866. |
[4] | 赵东,孙明玉,朱金龙,于繁华,刘光洁,陈慧灵. 结合粒子群和单纯形的改进飞蛾优化算法[J]. 吉林大学学报(工学版), 2018, 48(6): 1867-1872. |
[5] | 刘恩泽,吴文福. 基于机器视觉的农作物表面多特征决策融合病变判断算法[J]. 吉林大学学报(工学版), 2018, 48(6): 1873-1878. |
[6] | 欧阳丹彤, 范琪. 子句级别语境感知的开放信息抽取方法[J]. 吉林大学学报(工学版), 2018, 48(5): 1563-1570. |
[7] | 刘富, 兰旭腾, 侯涛, 康冰, 刘云, 林彩霞. 基于优化k-mer频率的宏基因组聚类方法[J]. 吉林大学学报(工学版), 2018, 48(5): 1593-1599. |
[8] | 桂春, 黄旺星. 基于改进的标签传播算法的网络聚类方法[J]. 吉林大学学报(工学版), 2018, 48(5): 1600-1605. |
[9] | 刘元宁, 刘帅, 朱晓冬, 陈一浩, 郑少阁, 沈椿壮. 基于高斯拉普拉斯算子与自适应优化伽柏滤波的虹膜识别[J]. 吉林大学学报(工学版), 2018, 48(5): 1606-1613. |
[10] | 车翔玖, 王利, 郭晓新. 基于多尺度特征融合的边界检测算法[J]. 吉林大学学报(工学版), 2018, 48(5): 1621-1628. |
[11] | 赵宏伟, 刘宇琦, 董立岩, 王玉, 刘陪. 智能交通混合动态路径优化算法[J]. 吉林大学学报(工学版), 2018, 48(4): 1214-1223. |
[12] | 黄辉, 冯西安, 魏燕, 许驰, 陈慧灵. 基于增强核极限学习机的专业选择智能系统[J]. 吉林大学学报(工学版), 2018, 48(4): 1224-1230. |
[13] | 傅文博, 张杰, 陈永乐. 物联网环境下抵抗路由欺骗攻击的网络拓扑发现算法[J]. 吉林大学学报(工学版), 2018, 48(4): 1231-1236. |
[14] | 曹洁, 苏哲, 李晓旭. 基于Corr-LDA模型的图像标注方法[J]. 吉林大学学报(工学版), 2018, 48(4): 1237-1243. |
[15] | 侯永宏, 王利伟, 邢家明. 基于HTTP的动态自适应流媒体传输算法[J]. 吉林大学学报(工学版), 2018, 48(4): 1244-1253. |
|