吉林大学学报(工学版) ›› 2009, Vol. 39 ›› Issue (06): 1607-1611.

• 论文 • 上一篇    下一篇

数据分布不敏感的决策树算法

孙涛,李雄飞,刘丽娟   

  1. 吉林大学 计算机科学与技术学院|长春 130012
  • 收稿日期:2008-03-17 出版日期:2009-11-01 发布日期:2009-11-01
  • 通讯作者: 李雄飞(1963-),男,教授,博士生导师.研究方向:数据挖掘.E-mail:lxf@jlu.edu.cn E-mail:lxf@jlu.edu.cn
  • 作者简介:孙涛(1980-)|男|博士研究生.研究方向:数据挖掘|并行计算.E-mail:st_23@sohu.com
  • 基金资助:

    国家科技支撑计划项目(2006BAK01A33);吉林省科技发展计划项目(20090704)

Algorithm of decision trees insensitive to data distribution

SUN Tao,LI Xiong-fei,LIU Li-juan   

  1. College of Computer Science and Technology,Jilin University,Changchun 130012,China
  • Received:2008-03-17 Online:2009-11-01 Published:2009-11-01

摘要:

传统的决策树算法是数据分布敏感的,面对数据分布偏斜的样本集时,常导致少数类别样本的分类精度很低。已有的可以处理偏斜样本集的决策树算法只针对两种类别样本的集合。由此提出了一种新的数据分布不敏感的决策树算法——DTID。该算法通过构造各种新的少数类别样本,调整样本集合的数据分布,提高少数类别样本的分类精度。DTID算法采用样本取模运算减少了算法的运行时间。实验结果表明,与C4.5等算法相比,DTID的分类精度明显提高,即使样本集中包含多种少数类别样本也能获得较好的分类效果。

关键词: 人工智能, 决策树算法, 偏斜样本集, 调整数据分布, 样例的模

Abstract:

Traditional decision tree algorithms are sensitive to data distribution. The predictive accuracy of minority class is often decreased when the algorithm deals with skewed datasets. There exist some algorithms which can only handle the skewed datasets with only two kinds of classes. A new decision tree algorithm called DTID is proposed, which is insensitive to data distribution. Using this algorithm new cases of each minority class are generated to adjust the data distribution of the sample set, and the predictive accuracy of each minority class is improved. By adopting the modulus of each case previously, the running time of the algorithm is reduced. Experimental results show that, compared with C4.5 algorithm, the accuracy of DTID is obviously improved and it can obtain much better result even though there are many minority classes in the sample set.

Key words: artiftcial inteleigence, decision tree, skewed datasets, adjust the data distribution, modulusof sample

中图分类号: 

  • TP911 
[1] 董飒, 刘大有, 欧阳若川, 朱允刚, 李丽娜. 引入二阶马尔可夫假设的逻辑回归异质性网络分类方法[J]. 吉林大学学报(工学版), 2018, 48(5): 1571-1577.
[2] 顾海军, 田雅倩, 崔莹. 基于行为语言的智能交互代理[J]. 吉林大学学报(工学版), 2018, 48(5): 1578-1585.
[3] 王旭, 欧阳继红, 陈桂芬. 基于垂直维序列动态时间规整方法的图相似度度量[J]. 吉林大学学报(工学版), 2018, 48(4): 1199-1205.
[4] 张浩, 占萌苹, 郭刘香, 李誌, 刘元宁, 张春鹤, 常浩武, 王志强. 基于高通量数据的人体外源性植物miRNA跨界调控建模[J]. 吉林大学学报(工学版), 2018, 48(4): 1206-1213.
[5] 黄岚, 纪林影, 姚刚, 翟睿峰, 白天. 面向误诊提示的疾病-症状语义网构建[J]. 吉林大学学报(工学版), 2018, 48(3): 859-865.
[6] 李雄飞, 冯婷婷, 骆实, 张小利. 基于递归神经网络的自动作曲算法[J]. 吉林大学学报(工学版), 2018, 48(3): 866-873.
[7] 刘杰, 张平, 高万夫. 基于条件相关的特征选择方法[J]. 吉林大学学报(工学版), 2018, 48(3): 874-881.
[8] 王旭, 欧阳继红, 陈桂芬. 基于多重序列所有公共子序列的启发式算法度量多图的相似度[J]. 吉林大学学报(工学版), 2018, 48(2): 526-532.
[9] 杨欣, 夏斯军, 刘冬雪, 费树岷, 胡银记. 跟踪-学习-检测框架下改进加速梯度的目标跟踪[J]. 吉林大学学报(工学版), 2018, 48(2): 533-538.
[10] 刘雪娟, 袁家斌, 许娟, 段博佳. 量子k-means算法[J]. 吉林大学学报(工学版), 2018, 48(2): 539-544.
[11] 曲慧雁, 赵伟, 秦爱红. 基于优化算子的快速碰撞检测算法[J]. 吉林大学学报(工学版), 2017, 47(5): 1598-1603.
[12] 李嘉菲, 孙小玉. 基于谱分解的不确定数据聚类方法[J]. 吉林大学学报(工学版), 2017, 47(5): 1604-1611.
[13] 邵克勇, 陈丰, 王婷婷, 王季驰, 周立朋. 无平衡点分数阶混沌系统全状态自适应控制[J]. 吉林大学学报(工学版), 2017, 47(4): 1225-1230.
[14] 王生生, 王创峰, 谷方明. OPRA方向关系网络的时空推理[J]. 吉林大学学报(工学版), 2017, 47(4): 1238-1243.
[15] 马淼, 李贻斌. 基于多级图像序列和卷积神经网络的人体行为识别[J]. 吉林大学学报(工学版), 2017, 47(4): 1244-1252.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
No Suggested Reading articles found!