吉林大学学报(工学版) ›› 2014, Vol. 44 ›› Issue (01): 137-141.doi: 10.13229/j.cnki.jdxbgxb201401024

• 论文 • 上一篇    下一篇

基于随机森林的特征选择算法

姚登举1,2, 杨静1, 詹晓娟3   

  1. 1. 哈尔滨工程大学 计算机科学与技术学院, 哈尔滨 150001;
    2. 哈尔滨理工大学 软件学院, 哈尔滨 150040;
    3. 黑龙江工程学院 计算机科学与技术学院, 哈尔滨 150050
  • 收稿日期:2012-08-21 出版日期:2014-01-01 发布日期:2014-01-01
  • 作者简介:姚登举(1980-),男,博士研究生,讲师.研究方向:人工智能,数据挖掘,模式识别.E-mail:ydkvictory@163.com
  • 基金资助:

    国家自然科学基金项目(61073043,61073041);黑龙江省自然科学基金项目(F200901,F201313);哈尔滨市科技创新人才研究专项项目(2011RFXXG015,2010RFXXG002,2013RFQXJ114);高等学校博士学科点专项科研基金项目(20112304110011).

Feature selection algorithm based on random forest

YAO Deng-ju1,2, YANG Jing1, ZHAN Xiao-juan3   

  1. 1. College of Computer Science and Technology, Harbin Engineering University, Harbin 150001, China;
    2. School of Software, Harbin University of Science and Technology, Harbin 150040, China;
    3. College of Computer Science and Technology, Heilongjiang Institute of Technology, Harbin 150050, China
  • Received:2012-08-21 Online:2014-01-01 Published:2014-01-01

摘要:

提出了一种基于随机森林的封装式特征选择算法RFFS,以随机森林算法为基本工具,以分类精度作为准则函数,采用序列后向选择和广义序列后向选择方法进行特征选择。在UCI数据集上的对比实验结果表明,RFFS算法在分类性能和特征子集选择两方面具有较好的性能。

关键词: 人工智能, 随机森林, 特征选择, 封装式

Abstract:

A feature selection algorithm based on random forest (RFFS) is proposed. This algorithm adopts random forest algorithm as the basic tool, the classification accuracy as the criterion function. The sequential backward selection and generalized sequential backward selection methods are employed for feature selection. The experimental results on UCI datasets show that the RFFS algorithm has better performance in classification accuracy and feature selection subset than the other methods in literatures.

Key words: artificial intelligence, random forest, feature selection, wrapper

中图分类号: 

  • TP18

[1] 蒋胜利. 高维数据的特征选择与特征提取研究[D]. 西安:西安电子科技大学计算机学院, 2011. Jiang Sheng-li. Research on feature selection and feature extraction for high-dimensional data[D]. Xi'an: School of Computer Science and Engineering, Xidian University, 2011.

[2] Davies S, Russl S. NP-completeness of searches for smallest possible feature sets[C]//Proceedings of the AAAI Fall Symposiums on Relevance, Menlo Park, 1994: 37-39.

[3] Breiman L. Random forests[J]. Machine Learning, 2001, 45(1): 5-32.

[4] Strobl Carolin, Boulesteix Anne-Laure, Kneib Thomas, et al. Conditional variable importance for random forests[J]. BMC Bioinformatics, 2008, 9(1): 1-11.

[5] Reif David M, Motsinger Alison A, McKinney Brett A, et al. Feature selection using a random forests classifier for the integrated analysis of multiple data types[C]//IEEE Symposium on Computational Intelligence and Bioinformatics and Computational Biology, 2006: 171-178.

[6] Mohammed Khalilia, Sounak Chakraborty, Mihail Popescu. Predicting disease risks from highly imbalanced data using random forest[J]. BMC Medical Informatics and Decision Making, 2011, 11(7): 51-58.

[7] Verikas A, Gelzinis A, Bacauskiene M. Mining data with random forests: a survey and results of new tests[J]. Pattern Recognition, 2011, 44(2): 330-349.

[8] Inza I, Larranaga P, Blanco R. Filter versus wrapper gene selection approaches in DNA microarray domains[J]. Artificial Intelligence in Medicine, 2004, 31(2): 91-103.

[9] 蒋盛益, 郑琪, 张倩生. 基于聚类的特征选择方法[J]. 电子学报, 2008, 36(12):157-160. Jiang Sheng-yi, Zheng Qi, Zhang Qian-sheng. Clustering-based feature selection[J]. Acta Electronica Sinica, 2008, 36(12):157-160.

[10] 刘元宁, 王刚, 朱晓冬, 等. 基于自适应多种群遗传算法的特征选择[J]. 吉林大学学报:工学版, 2011, 41(6): 1690-1693. Liu Yuan-ning, Wang Gang, Zhu Xiao-dong, et al.Feature selection based on adaptive multi-population genetic algorithm[J].Journal of Jilin University(Engineering and Technology Edition), 2011, 41(6):1690-1693.

[1] 董飒, 刘大有, 欧阳若川, 朱允刚, 李丽娜. 引入二阶马尔可夫假设的逻辑回归异质性网络分类方法[J]. 吉林大学学报(工学版), 2018, 48(5): 1571-1577.
[2] 顾海军, 田雅倩, 崔莹. 基于行为语言的智能交互代理[J]. 吉林大学学报(工学版), 2018, 48(5): 1578-1585.
[3] 王旭, 欧阳继红, 陈桂芬. 基于垂直维序列动态时间规整方法的图相似度度量[J]. 吉林大学学报(工学版), 2018, 48(4): 1199-1205.
[4] 张浩, 占萌苹, 郭刘香, 李誌, 刘元宁, 张春鹤, 常浩武, 王志强. 基于高通量数据的人体外源性植物miRNA跨界调控建模[J]. 吉林大学学报(工学版), 2018, 48(4): 1206-1213.
[5] 黄岚, 纪林影, 姚刚, 翟睿峰, 白天. 面向误诊提示的疾病-症状语义网构建[J]. 吉林大学学报(工学版), 2018, 48(3): 859-865.
[6] 李雄飞, 冯婷婷, 骆实, 张小利. 基于递归神经网络的自动作曲算法[J]. 吉林大学学报(工学版), 2018, 48(3): 866-873.
[7] 刘杰, 张平, 高万夫. 基于条件相关的特征选择方法[J]. 吉林大学学报(工学版), 2018, 48(3): 874-881.
[8] 王旭, 欧阳继红, 陈桂芬. 基于多重序列所有公共子序列的启发式算法度量多图的相似度[J]. 吉林大学学报(工学版), 2018, 48(2): 526-532.
[9] 杨欣, 夏斯军, 刘冬雪, 费树岷, 胡银记. 跟踪-学习-检测框架下改进加速梯度的目标跟踪[J]. 吉林大学学报(工学版), 2018, 48(2): 533-538.
[10] 刘雪娟, 袁家斌, 许娟, 段博佳. 量子k-means算法[J]. 吉林大学学报(工学版), 2018, 48(2): 539-544.
[11] 曲慧雁, 赵伟, 秦爱红. 基于优化算子的快速碰撞检测算法[J]. 吉林大学学报(工学版), 2017, 47(5): 1598-1603.
[12] 李嘉菲, 孙小玉. 基于谱分解的不确定数据聚类方法[J]. 吉林大学学报(工学版), 2017, 47(5): 1604-1611.
[13] 邵克勇, 陈丰, 王婷婷, 王季驰, 周立朋. 无平衡点分数阶混沌系统全状态自适应控制[J]. 吉林大学学报(工学版), 2017, 47(4): 1225-1230.
[14] 王生生, 王创峰, 谷方明. OPRA方向关系网络的时空推理[J]. 吉林大学学报(工学版), 2017, 47(4): 1238-1243.
[15] 马淼, 李贻斌. 基于多级图像序列和卷积神经网络的人体行为识别[J]. 吉林大学学报(工学版), 2017, 47(4): 1244-1252.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
No Suggested Reading articles found!