吉林大学学报(工学版) ›› 2010, Vol. 40 ›› Issue (01): 155-0158.

• 论文 • 上一篇    下一篇

基于广义信息论的决策森林数据挖掘模型

王利民1,臧雪柏1,曹春红2   

  1. 1.吉林大学 计算机科学与技术学院| 长春 130012|2.东北大学 信息科学与工程学院|沈阳 110004
  • 收稿日期:2008-06-25 出版日期:2010-01-01 发布日期:2010-01-01
  • 通讯作者: 王利民(1974-),副教授,博士.研究方向:数据挖掘, 贝叶斯网络,决策树.E-mail:wanglim@jlu.edu.cn E-mail:wanglim@jlu.edu.cn
  • 作者简介:王利民(1974-),副教授,博士.研究方向:数据挖掘, 贝叶斯网络|决策树.E-mail:wanglim@jlu.edu.cn
  • 基金资助:

    国家自然科学基金项目(60275026,60803055)

Data mining model of decision forest based on generalized informaion theory

WANG Li-min1,ZANG Xue-bai1,CAO Chun-hong2   

  1. 1.College of Computer Science and Technology, Jilin University, Changchun 130012, China;2.College of Information Science and Engineering,Northeastern University,Shenyang 110004, China
  • Received:2008-06-25 Online:2010-01-01 Published:2010-01-01

摘要:

针对模式识别中的多分类器集成,通过挖掘测试样本特征属性的相关性,结合训练集的条件独立性分析对每个样本赋予分类规则, 构造分类森林(而非单个决策树)进行模型集成。整个学习过程能够自适应确定各决策树结构和数量, 并充分发挥集成模型的伸缩性和扩展性。在UCI机器学习数据集上的实验结果验证了本方法的有效性。

关键词: 人工智能, 模式识别, 决策森林, 条件独立性假设, 数据挖掘模型

Abstract:

For the multiple classifier integration in the pattern recognition, a decision forest rather than a decision tree was built to realize the submodel integration by mining the relevance  in the predictive attributes in the test sample and giving the distinct classification rule to each sample based on the conditional independence analysis of the training set. The structure and the number of the decision trees can be defined adaptively during the learning process. Experiments on UCI learning data sets proved the feasibility and effectiveness of the proposed method.

Key words: artificial intelligence, pattern recognition, decision forest, conditional independence assumption, data mining model

中图分类号: 

  • TP182
[1] 董飒, 刘大有, 欧阳若川, 朱允刚, 李丽娜. 引入二阶马尔可夫假设的逻辑回归异质性网络分类方法[J]. 吉林大学学报(工学版), 2018, 48(5): 1571-1577.
[2] 顾海军, 田雅倩, 崔莹. 基于行为语言的智能交互代理[J]. 吉林大学学报(工学版), 2018, 48(5): 1578-1585.
[3] 刘富, 兰旭腾, 侯涛, 康冰, 刘云, 林彩霞. 基于优化k-mer频率的宏基因组聚类方法[J]. 吉林大学学报(工学版), 2018, 48(5): 1593-1599.
[4] 王旭, 欧阳继红, 陈桂芬. 基于垂直维序列动态时间规整方法的图相似度度量[J]. 吉林大学学报(工学版), 2018, 48(4): 1199-1205.
[5] 张浩, 占萌苹, 郭刘香, 李誌, 刘元宁, 张春鹤, 常浩武, 王志强. 基于高通量数据的人体外源性植物miRNA跨界调控建模[J]. 吉林大学学报(工学版), 2018, 48(4): 1206-1213.
[6] 黄岚, 纪林影, 姚刚, 翟睿峰, 白天. 面向误诊提示的疾病-症状语义网构建[J]. 吉林大学学报(工学版), 2018, 48(3): 859-865.
[7] 李雄飞, 冯婷婷, 骆实, 张小利. 基于递归神经网络的自动作曲算法[J]. 吉林大学学报(工学版), 2018, 48(3): 866-873.
[8] 刘杰, 张平, 高万夫. 基于条件相关的特征选择方法[J]. 吉林大学学报(工学版), 2018, 48(3): 874-881.
[9] 王旭, 欧阳继红, 陈桂芬. 基于多重序列所有公共子序列的启发式算法度量多图的相似度[J]. 吉林大学学报(工学版), 2018, 48(2): 526-532.
[10] 杨欣, 夏斯军, 刘冬雪, 费树岷, 胡银记. 跟踪-学习-检测框架下改进加速梯度的目标跟踪[J]. 吉林大学学报(工学版), 2018, 48(2): 533-538.
[11] 刘雪娟, 袁家斌, 许娟, 段博佳. 量子k-means算法[J]. 吉林大学学报(工学版), 2018, 48(2): 539-544.
[12] 曲慧雁, 赵伟, 秦爱红. 基于优化算子的快速碰撞检测算法[J]. 吉林大学学报(工学版), 2017, 47(5): 1598-1603.
[13] 李嘉菲, 孙小玉. 基于谱分解的不确定数据聚类方法[J]. 吉林大学学报(工学版), 2017, 47(5): 1604-1611.
[14] 邵克勇, 陈丰, 王婷婷, 王季驰, 周立朋. 无平衡点分数阶混沌系统全状态自适应控制[J]. 吉林大学学报(工学版), 2017, 47(4): 1225-1230.
[15] 王生生, 王创峰, 谷方明. OPRA方向关系网络的时空推理[J]. 吉林大学学报(工学版), 2017, 47(4): 1238-1243.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
No Suggested Reading articles found!