吉林大学学报(工学版) ›› 2018, Vol. 48 ›› Issue (3): 874-881.doi: 10.13229/j.cnki.jdxbgxb20170231
刘杰1,2, 张平2,3, 高万夫1
LIU Jie1,2, ZHANG Ping2,3, GAO Wan-fu1
摘要: 在特征选择中候选特征与类标签的相关性是随着已选特征的加入而动态变化的,本文提出了一种新的相关性定义——条件相关性,即基于每一个已选特征给出候选特征和类标签新的相关性定义。利用条件相关性,提出了一种新颖的基于信息论的条件相关特征选择算法(CRFS)。首先,在理论上证明了条件相关性的优越性;然后,将新的特征选择算法在2个不同的分类器和10个真实数据集上与7种特征选择算法进行比较。实验结果表明,新的算法能有效提高分类性能。
中图分类号:
[1] Bennasar M,Hicks Y,Setchi R.Feature selection using joint mutual information maximisation[J]. Expert Systems with Applications,2015,42(22):8520-8532. [2] Zhao Z,Morstatter F,Sharma S,et al.Advancing feature selection research-ASU feature selection repository[J/OL]. [2017-03-02].http:∥eprints.kku.edu.sa/65/1/ZhaoEtAl.pdf. [3] Bolón-Canedo V,Sánchez-Maroño N,Alonso-Betanzos A, et al.A review of microarray datasets and applied feature selection methods[J]. Information Sciences,2014,282(5):111-135. [4] 刘元宁,王刚,朱晓冬,等. 基于自适应多种群遗传算法的特征选择[J]. 吉林大学学报:工学版,2011,41(6):1690-1693. Liu Yuan-ning,Wang Gang,Zhu Xiao-dong,et al.Feature selection based on adaptive multi-population genetic algorithm[J]. Journal of Jilin University(Engineering and Technology Edition),2011,41(6):1690-1693. [5] 姚登举,杨静,詹晓娟. 基于随机森林的特征选择算法[J]. 吉林大学学报:工学版,2014,44(1):137-141. Yao Deng-ju,Yang Jing,Zhan Xiao-juan.Feature selection algorithm based on random forest[J]. Journal of Jilin University(Engineering and Technology Edition),2014,44(1):137-141. [6] Peng H C,Long F H,Ding C.Feature selection based on mutual information criteria of max-dependency, max-relevance, and min-redundancy[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2005,27(8):1226-1238. [7] Yang H H, Moody J.Data visualization and feature selection: new algorithms for nongaussian data[J]. Advances in Neural Information Processing Systems,1999,12:687-693. [8] Lin D,Tang X.Conditional infomax learning: an integrated framework for feature extraction and fusion[C]∥European Conference on Computer Vision,Graz,Austria,2006:68-82. [9] Meyer P E,Schretter C,Bontempi G.Information-theoretic feature selection in microarray data using variable complementarity[J]. IEEE Journal of Selected Topics in Signal Processing,2008,2(3):261-274. [10] Akadi A E,Ouardighi A E,Aboutajdine D.A powerful feature selection approach based on mutual information[J]. International Journal of Computer Science & Network Security,2008,8(4):116-121. [11] Bennasar M,Setchi R,Hicks Y.Feature interaction maximisation[J]. Pattern Recognition Letters,2013,34(14):1630-1635. [12] Zeng Z,Zhang H,Zhang R,et al.A novel feature selection method considering feature interaction[J]. Pattern Recognition,2015,48(8):2656-2666. [13] 石峰,莫忠息. 信息论基础[M]. 3版. 武汉:武汉大学出版社,2014:14-52. [14] 赵晓群. 信息论基础及应用[M]. 北京:机械工业出版社,2015:27-53. [15] Zhao Juan,Zhou Yi-wei,Zhang Xiu-jun,et al.Part mutual information for quantifying direct associations in networks[J]. Proceedings of the National Academy of Sciences,2016,113(18):5130-5135. [16] Schreiber T. Measuring information transport[J/OL]. [2017-03-06].http:∥citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.35.3215&rep=rep1&type=pdf. [17] Li J D,Cheng K W,Wang S H,et al.Feature selection:a data perspective[J/OL].[2017-03-06].https:∥arxiv.org/pdf/1601.07996.pdf. |
[1] | 董飒, 刘大有, 欧阳若川, 朱允刚, 李丽娜. 引入二阶马尔可夫假设的逻辑回归异质性网络分类方法[J]. 吉林大学学报(工学版), 2018, 48(5): 1571-1577. |
[2] | 顾海军, 田雅倩, 崔莹. 基于行为语言的智能交互代理[J]. 吉林大学学报(工学版), 2018, 48(5): 1578-1585. |
[3] | 王旭, 欧阳继红, 陈桂芬. 基于垂直维序列动态时间规整方法的图相似度度量[J]. 吉林大学学报(工学版), 2018, 48(4): 1199-1205. |
[4] | 张浩, 占萌苹, 郭刘香, 李誌, 刘元宁, 张春鹤, 常浩武, 王志强. 基于高通量数据的人体外源性植物miRNA跨界调控建模[J]. 吉林大学学报(工学版), 2018, 48(4): 1206-1213. |
[5] | 黄岚, 纪林影, 姚刚, 翟睿峰, 白天. 面向误诊提示的疾病-症状语义网构建[J]. 吉林大学学报(工学版), 2018, 48(3): 859-865. |
[6] | 李雄飞, 冯婷婷, 骆实, 张小利. 基于递归神经网络的自动作曲算法[J]. 吉林大学学报(工学版), 2018, 48(3): 866-873. |
[7] | 陈绵书, 苏越, 桑爱军, 李培鹏. 基于空间矢量模型的图像分类方法[J]. 吉林大学学报(工学版), 2018, 48(3): 943-951. |
[8] | 陈涛, 崔岳寒, 郭立民. 适用于单快拍的多重信号分类改进算法[J]. 吉林大学学报(工学版), 2018, 48(3): 952-956. |
[9] | 王旭, 欧阳继红, 陈桂芬. 基于多重序列所有公共子序列的启发式算法度量多图的相似度[J]. 吉林大学学报(工学版), 2018, 48(2): 526-532. |
[10] | 杨欣, 夏斯军, 刘冬雪, 费树岷, 胡银记. 跟踪-学习-检测框架下改进加速梯度的目标跟踪[J]. 吉林大学学报(工学版), 2018, 48(2): 533-538. |
[11] | 刘雪娟, 袁家斌, 许娟, 段博佳. 量子k-means算法[J]. 吉林大学学报(工学版), 2018, 48(2): 539-544. |
[12] | 杨宏宇, 徐晋. Android恶意软件静态检测模型[J]. 吉林大学学报(工学版), 2018, 48(2): 564-570. |
[13] | 范敏, 韩琪, 王芬, 宿晓岚, 徐浩, 吴松麟. 基于多层次特征表示的场景图像分类算法[J]. 吉林大学学报(工学版), 2017, 47(6): 1909-1917. |
[14] | 曲慧雁, 赵伟, 秦爱红. 基于优化算子的快速碰撞检测算法[J]. 吉林大学学报(工学版), 2017, 47(5): 1598-1603. |
[15] | 李嘉菲, 孙小玉. 基于谱分解的不确定数据聚类方法[J]. 吉林大学学报(工学版), 2017, 47(5): 1604-1611. |
|