吉林大学学报(工学版) ›› 2018, Vol. 48 ›› Issue (3): 874-881.doi: 10.13229/j.cnki.jdxbgxb20170231

• 论文 • 上一篇    下一篇

基于条件相关的特征选择方法

刘杰1,2, 张平2,3, 高万夫1   

  1. 1.吉林大学 计算机科学与技术学院,长春 130012;
    2.吉林大学 符号计算与知识工程教育部重点实验室,长春 130012;
    3.吉林大学 软件学院,长春 130012;
  • 收稿日期:2017-03-13 出版日期:2018-05-20 发布日期:2018-05-20
  • 作者简介:刘杰(1973-),女,副教授,博士.研究方向:数据挖掘.E-mail:liu_jie@jlu.edu.cn
  • 基金资助:
    国家自然科学基金项目(61502199).

Feature selection method based on conditional relevance

LIU Jie1,2, ZHANG Ping2,3, GAO Wan-fu1   

  1. 1.College of Computer Science and Technology,Jilin University,Changchun 130012,China;
    2.Symbol Computation and Knowledge Engineering of Ministry of Education,Jilin University,Changchun 130012,China;
    3.College of Software,Jilin University,Changchun 130012,China
  • Received:2017-03-13 Online:2018-05-20 Published:2018-05-20

摘要: 在特征选择中候选特征与类标签的相关性是随着已选特征的加入而动态变化的,本文提出了一种新的相关性定义——条件相关性,即基于每一个已选特征给出候选特征和类标签新的相关性定义。利用条件相关性,提出了一种新颖的基于信息论的条件相关特征选择算法(CRFS)。首先,在理论上证明了条件相关性的优越性;然后,将新的特征选择算法在2个不同的分类器和10个真实数据集上与7种特征选择算法进行比较。实验结果表明,新的算法能有效提高分类性能。

关键词: 人工智能, 特征选择, 信息论, 条件相关性, 分类

Abstract: In feature selection, with the increasing number of selected features, the relevance between candidate features and class labels is dynamically changed. This paper presents a new definition of relevance, called Conditional Relevance (CR). That is, we give a new definition of the relevance between candidate features and class labels when each selected feature is given. Consequently, we propose a novel Conditional Relevance Feature Selection (CRFS) method based on information theory. First, the superiority of the CR is verified in theory. Then, the new feature selection algorithm is compared with seven feature selection algorithms on two different classifies and on 10 real data sets. The results show the highest accuracy and the average highest accuracy of the 10 data sets on two classifiers. Experimental results show that the new algorithm can effectively improve the classification performance.

Key words: artificial intelligence, feature selection, information theory, conditional relevance, classification

中图分类号: 

  • TP301
[1] Bennasar M,Hicks Y,Setchi R.Feature selection using joint mutual information maximisation[J]. Expert Systems with Applications,2015,42(22):8520-8532.
[2] Zhao Z,Morstatter F,Sharma S,et al.Advancing feature selection research-ASU feature selection repository[J/OL]. [2017-03-02].http:∥eprints.kku.edu.sa/65/1/ZhaoEtAl.pdf.
[3] Bolón-Canedo V,Sánchez-Maroño N,Alonso-Betanzos A, et al.A review of microarray datasets and applied feature selection methods[J]. Information Sciences,2014,282(5):111-135.
[4] 刘元宁,王刚,朱晓冬,等. 基于自适应多种群遗传算法的特征选择[J]. 吉林大学学报:工学版,2011,41(6):1690-1693.
Liu Yuan-ning,Wang Gang,Zhu Xiao-dong,et al.Feature selection based on adaptive multi-population genetic algorithm[J]. Journal of Jilin University(Engineering and Technology Edition),2011,41(6):1690-1693.
[5] 姚登举,杨静,詹晓娟. 基于随机森林的特征选择算法[J]. 吉林大学学报:工学版,2014,44(1):137-141.
Yao Deng-ju,Yang Jing,Zhan Xiao-juan.Feature selection algorithm based on random forest[J]. Journal of Jilin University(Engineering and Technology Edition),2014,44(1):137-141.
[6] Peng H C,Long F H,Ding C.Feature selection based on mutual information criteria of max-dependency, max-relevance, and min-redundancy[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2005,27(8):1226-1238.
[7] Yang H H, Moody J.Data visualization and feature selection: new algorithms for nongaussian data[J]. Advances in Neural Information Processing Systems,1999,12:687-693.
[8] Lin D,Tang X.Conditional infomax learning: an integrated framework for feature extraction and fusion[C]∥European Conference on Computer Vision,Graz,Austria,2006:68-82.
[9] Meyer P E,Schretter C,Bontempi G.Information-theoretic feature selection in microarray data using variable complementarity[J]. IEEE Journal of Selected Topics in Signal Processing,2008,2(3):261-274.
[10] Akadi A E,Ouardighi A E,Aboutajdine D.A powerful feature selection approach based on mutual information[J]. International Journal of Computer Science & Network Security,2008,8(4):116-121.
[11] Bennasar M,Setchi R,Hicks Y.Feature interaction maximisation[J]. Pattern Recognition Letters,2013,34(14):1630-1635.
[12] Zeng Z,Zhang H,Zhang R,et al.A novel feature selection method considering feature interaction[J]. Pattern Recognition,2015,48(8):2656-2666.
[13] 石峰,莫忠息. 信息论基础[M]. 3版. 武汉:武汉大学出版社,2014:14-52.
[14] 赵晓群. 信息论基础及应用[M]. 北京:机械工业出版社,2015:27-53.
[15] Zhao Juan,Zhou Yi-wei,Zhang Xiu-jun,et al.Part mutual information for quantifying direct associations in networks[J]. Proceedings of the National Academy of Sciences,2016,113(18):5130-5135.
[16] Schreiber T. Measuring information transport[J/OL]. [2017-03-06].http:∥citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.35.3215&rep=rep1&type=pdf.
[17] Li J D,Cheng K W,Wang S H,et al.Feature selection:a data perspective[J/OL].[2017-03-06].https:∥arxiv.org/pdf/1601.07996.pdf.
[1] 董飒, 刘大有, 欧阳若川, 朱允刚, 李丽娜. 引入二阶马尔可夫假设的逻辑回归异质性网络分类方法[J]. 吉林大学学报(工学版), 2018, 48(5): 1571-1577.
[2] 顾海军, 田雅倩, 崔莹. 基于行为语言的智能交互代理[J]. 吉林大学学报(工学版), 2018, 48(5): 1578-1585.
[3] 王旭, 欧阳继红, 陈桂芬. 基于垂直维序列动态时间规整方法的图相似度度量[J]. 吉林大学学报(工学版), 2018, 48(4): 1199-1205.
[4] 张浩, 占萌苹, 郭刘香, 李誌, 刘元宁, 张春鹤, 常浩武, 王志强. 基于高通量数据的人体外源性植物miRNA跨界调控建模[J]. 吉林大学学报(工学版), 2018, 48(4): 1206-1213.
[5] 黄岚, 纪林影, 姚刚, 翟睿峰, 白天. 面向误诊提示的疾病-症状语义网构建[J]. 吉林大学学报(工学版), 2018, 48(3): 859-865.
[6] 李雄飞, 冯婷婷, 骆实, 张小利. 基于递归神经网络的自动作曲算法[J]. 吉林大学学报(工学版), 2018, 48(3): 866-873.
[7] 陈绵书, 苏越, 桑爱军, 李培鹏. 基于空间矢量模型的图像分类方法[J]. 吉林大学学报(工学版), 2018, 48(3): 943-951.
[8] 陈涛, 崔岳寒, 郭立民. 适用于单快拍的多重信号分类改进算法[J]. 吉林大学学报(工学版), 2018, 48(3): 952-956.
[9] 王旭, 欧阳继红, 陈桂芬. 基于多重序列所有公共子序列的启发式算法度量多图的相似度[J]. 吉林大学学报(工学版), 2018, 48(2): 526-532.
[10] 杨欣, 夏斯军, 刘冬雪, 费树岷, 胡银记. 跟踪-学习-检测框架下改进加速梯度的目标跟踪[J]. 吉林大学学报(工学版), 2018, 48(2): 533-538.
[11] 刘雪娟, 袁家斌, 许娟, 段博佳. 量子k-means算法[J]. 吉林大学学报(工学版), 2018, 48(2): 539-544.
[12] 杨宏宇, 徐晋. Android恶意软件静态检测模型[J]. 吉林大学学报(工学版), 2018, 48(2): 564-570.
[13] 范敏, 韩琪, 王芬, 宿晓岚, 徐浩, 吴松麟. 基于多层次特征表示的场景图像分类算法[J]. 吉林大学学报(工学版), 2017, 47(6): 1909-1917.
[14] 曲慧雁, 赵伟, 秦爱红. 基于优化算子的快速碰撞检测算法[J]. 吉林大学学报(工学版), 2017, 47(5): 1598-1603.
[15] 李嘉菲, 孙小玉. 基于谱分解的不确定数据聚类方法[J]. 吉林大学学报(工学版), 2017, 47(5): 1604-1611.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
[1] 刘松山, 王庆年, 王伟华, 林鑫. 惯性质量对馈能悬架阻尼特性和幅频特性的影响[J]. 吉林大学学报(工学版), 2013, 43(03): 557 -563 .
[2] 初亮, 王彦波, 祁富伟, 张永生. 用于制动压力精确控制的进液阀控制方法[J]. 吉林大学学报(工学版), 2013, 43(03): 564 -570 .
[3] 李静, 王子涵, 余春贤, 韩佐悦, 孙博华. 硬件在环试验台整车状态跟随控制系统设计[J]. 吉林大学学报(工学版), 2013, 43(03): 577 -583 .
[4] 胡兴军, 李腾飞, 王靖宇, 杨博, 郭鹏, 廖磊. 尾板对重型载货汽车尾部流场的影响[J]. 吉林大学学报(工学版), 2013, 43(03): 595 -601 .
[5] 王同建, 陈晋市, 赵锋, 赵庆波, 刘昕晖, 袁华山. 全液压转向系统机液联合仿真及试验[J]. 吉林大学学报(工学版), 2013, 43(03): 607 -612 .
[6] 张春勤, 姜桂艳, 吴正言. 机动车出行者出发时间选择的影响因素[J]. 吉林大学学报(工学版), 2013, 43(03): 626 -632 .
[7] 马万经, 谢涵洲. 双停车线进口道主、预信号配时协调控制模型[J]. 吉林大学学报(工学版), 2013, 43(03): 633 -639 .
[8] 于德新, 仝倩, 杨兆升, 高鹏. 重大灾害条件下应急交通疏散时间预测模型[J]. 吉林大学学报(工学版), 2013, 43(03): 654 -658 .
[9] 肖赟, 雷俊卿, 张坤, 李忠三. 多级变幅疲劳荷载下预应力混凝土梁刚度退化[J]. 吉林大学学报(工学版), 2013, 43(03): 665 -670 .
[10] 肖锐, 邓宗才, 兰明章, 申臣良. 不掺硅粉的活性粉末混凝土配合比试验[J]. 吉林大学学报(工学版), 2013, 43(03): 671 -676 .