吉林大学学报(工学版) ›› 2016, Vol. 46 ›› Issue (4): 1216-1221.doi: 10.13229/j.cnki.jdxbgxb201604030

• 论文 • 上一篇    下一篇

基于排序树的频繁项集挖掘算法

王红梅1, 2, 党源源1, 胡明1, 刘大有2, 3   

  1. 1.长春工业大学 计算机科学与工程学院,长春 130012;
    2.吉林大学 计算机科学与技术学院, 长春 130012;
    3.吉林大学 符号计算与知识工程教育部重点实验室,长春 130012
  • 收稿日期:2015-05-05 出版日期:2016-07-20 发布日期:2016-07-20
  • 通讯作者: 党源源(1980-),女,副教授.研究方向:数据挖掘,知识管理.E-mail:dang.yuanyuan@gmail.com
  • 作者简介:王红梅(1968-),女,教授,博士研究生.研究方向:数据挖掘,智能计算.E-mail:wanghm@ccut.edu.cn
  • 基金资助:
    国家自然科学基金项目(61133011); 吉林省自然科学基金项目(20101525)

Frequent itemsets mining algorithm based on sort tree

WANG Hong-mei1, 2, DANG Yuan-yuan1, HU Ming1, LIU Da-you2, 3   

  1. 1.School of Computer Science and Engineering, Changchun University of Technology, Changchun 130012,China;
    2.College of Computer Science and Technology, Jilin University, Changchun 130012,China;
    3.Key Laboratory of Symbolic Computation and Knowledge Engineering of Ministry of Education,Jilin University,Changchun 130012, China
  • Received:2015-05-05 Online:2016-07-20 Published:2016-07-20

摘要: 提出了排序树的概念以及用排序树存储频繁项集的思想,证明了末项剪枝性质,以O(1)的时间实现了与Apriori算法同样的连接和剪枝操作,采用祖先兄弟表示法存储排序树,在某事务不包含祖先时跳过具有共同祖先的所有兄弟结点,提高了计算支持度的时间性能。理论分析和实验结果均表明,在时间性能方面本文算法与Apriori算法相比有较大提高。

关键词: 人工智能, 频繁项集, 末项剪枝, 排序树, 祖先兄弟表示

Abstract: In this paper, the concept of sort tree is proposed, and the sort tree is used to store frequent itemsets, which proves the property of the last item pruning. Joining and pruning operations a re implemented as Apriori algorithm with O(1) time complexity. Ancestor-brother express is used to store the sort tree. If an ancestor does not exist in a transaction, all the brother nodes with the same ancestor will be skipped. So the time performance of counting support can be improved. Theoretical analysis and experimental results show that the proposed algorithm can improve the time performance greatly compared with Apriori algorithm.

Key words: artifical intelligence, frequent itemsets, last term pruning, sort tree, ancestor-brother express

中图分类号: 

  • TP311
[1] Schonberger V M, Cukier K. Big Data[M]. Eamon Dolan/Houghton Mifflin Harcourt,2013.
[2] Agrawal R, Srikant R. Fast algorithms for mining association rules[C]∥Proc of the Int'l Conf on Very Large Data Bases,Santiago, Chile, 1994:487-499.
[3] Han J, Pei J, Yin Y. Mining frequent patterns without candidate generation[C]∥Proc of the Int'l Conf on Management of Data, Dallas, TX, 2000: 1-12.
[4] Park J S, Chen M S, Yu P S. An effective hash-based algorithm for mining association rules[C]∥Proc of the Int'l Conf on Management of data,San Jose,1995:175-186.
[5] Brin S, Motwani R, Ullman J D, et al. Dynamic itemset counting and implication rules for market basket analysis[C]∥Proc of the Int'l Conf on Management of Data, Tucson, AZ, 1997:255-264.
[6] Geerts F, Goethals B, Bussche J. A tight upper bound on the number of candidate patterns[C]∥Proc of the Int'l Conf on Data mining, San Jose, CA,2001: 155-162.
[7] 李雄飞, 苑森淼, 董立岩, 等. 多段支持度数据挖掘算法研究[J]. 计算机学报,2001,24(6): 661-665.
Li Xiong-fei, Yuan Sen-miao, Dong Li-yan, et al. A data mining algorithm based on calculating multi-segment support[J]. Chinese Journal of Computers, 2001,24(6):661-665.
[8] 王红梅, 胡明. 基于散列的频繁项集分组算法[J]. 计算机应用, 2013, 33(11): 47-51.
Wang Hong-mei, Hu Ming. Frequent itemsets grouping algorithm based on hash[J]. Journal of Computer Applications, 2013, 33(11): 47-51.
[9] Pei J, Han J, Lakshmanan L V S. Mining frequent itemsets with convertible constraints[C]∥Proc of the Int'l Conf on Data Engineering, Heidelberg, Germany, 2001:324-332.
[10] Liu J,Pan Y,Wang K,et al.Mining frequent item sets by opportunistic projection[C]∥Proc of the Int'l Conf on Knowledge Discovery in Databases,Edmonton, Canada, 2002: 23-32.
[11] 颜跃进,李舟军,陈火旺. 基于FP-Tree有效挖掘最大频繁项集[J]. 软件学报, 2005, 16(2): 215-222.
Yan Yue-jin, Li Zhou-jun, Chen Huo-wang. Efficiently mining of maximal frequent item sets based on FP-tree[J]. Journal of Software, 2005, 16(2):215-222.
[12] 杨君锐,杨莉. 分布式全局最大频繁项集更新挖掘算法[J]. 华中科技大学学报:自然科学版, 2011, 39(12):85-88.
Yang Jun-rui, Yang Li. Algorithm of updating mining for distributed global maximal frequent itemsets[J]. Journal of Huazhong University of Science and Technology(Natural Science Edition), 2011, 39(12):85-88.
[13] 毛宇星,陈彤兵,施伯乐. 一种高效的多层和概化关联规则挖掘方法[J]. 软件学报, 2010, 22(12): 2965-2980.
Mao Yu-xing, Chen Tong-bing, Shi Bo-le. Efficient method for mining multiple-level and generalized association rules[J]. Journal of Software, 2010, 22(12):2965-2980.
[14] Han J, Cheng H, Xin D, et al. Frequent pattern mining: current status and future directions[J]. Data Mining and Knowledge Discovery, 2007, 15(1): 55-86.
[1] 董飒, 刘大有, 欧阳若川, 朱允刚, 李丽娜. 引入二阶马尔可夫假设的逻辑回归异质性网络分类方法[J]. 吉林大学学报(工学版), 2018, 48(5): 1571-1577.
[2] 顾海军, 田雅倩, 崔莹. 基于行为语言的智能交互代理[J]. 吉林大学学报(工学版), 2018, 48(5): 1578-1585.
[3] 王旭, 欧阳继红, 陈桂芬. 基于垂直维序列动态时间规整方法的图相似度度量[J]. 吉林大学学报(工学版), 2018, 48(4): 1199-1205.
[4] 张浩, 占萌苹, 郭刘香, 李誌, 刘元宁, 张春鹤, 常浩武, 王志强. 基于高通量数据的人体外源性植物miRNA跨界调控建模[J]. 吉林大学学报(工学版), 2018, 48(4): 1206-1213.
[5] 黄岚, 纪林影, 姚刚, 翟睿峰, 白天. 面向误诊提示的疾病-症状语义网构建[J]. 吉林大学学报(工学版), 2018, 48(3): 859-865.
[6] 李雄飞, 冯婷婷, 骆实, 张小利. 基于递归神经网络的自动作曲算法[J]. 吉林大学学报(工学版), 2018, 48(3): 866-873.
[7] 刘杰, 张平, 高万夫. 基于条件相关的特征选择方法[J]. 吉林大学学报(工学版), 2018, 48(3): 874-881.
[8] 王旭, 欧阳继红, 陈桂芬. 基于多重序列所有公共子序列的启发式算法度量多图的相似度[J]. 吉林大学学报(工学版), 2018, 48(2): 526-532.
[9] 杨欣, 夏斯军, 刘冬雪, 费树岷, 胡银记. 跟踪-学习-检测框架下改进加速梯度的目标跟踪[J]. 吉林大学学报(工学版), 2018, 48(2): 533-538.
[10] 刘雪娟, 袁家斌, 许娟, 段博佳. 量子k-means算法[J]. 吉林大学学报(工学版), 2018, 48(2): 539-544.
[11] 曲慧雁, 赵伟, 秦爱红. 基于优化算子的快速碰撞检测算法[J]. 吉林大学学报(工学版), 2017, 47(5): 1598-1603.
[12] 李嘉菲, 孙小玉. 基于谱分解的不确定数据聚类方法[J]. 吉林大学学报(工学版), 2017, 47(5): 1604-1611.
[13] 邵克勇, 陈丰, 王婷婷, 王季驰, 周立朋. 无平衡点分数阶混沌系统全状态自适应控制[J]. 吉林大学学报(工学版), 2017, 47(4): 1225-1230.
[14] 王生生, 王创峰, 谷方明. OPRA方向关系网络的时空推理[J]. 吉林大学学报(工学版), 2017, 47(4): 1238-1243.
[15] 马淼, 李贻斌. 基于多级图像序列和卷积神经网络的人体行为识别[J]. 吉林大学学报(工学版), 2017, 47(4): 1244-1252.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
[1] 刘松山, 王庆年, 王伟华, 林鑫. 惯性质量对馈能悬架阻尼特性和幅频特性的影响[J]. 吉林大学学报(工学版), 2013, 43(03): 557 -563 .
[2] 初亮, 王彦波, 祁富伟, 张永生. 用于制动压力精确控制的进液阀控制方法[J]. 吉林大学学报(工学版), 2013, 43(03): 564 -570 .
[3] 李静, 王子涵, 余春贤, 韩佐悦, 孙博华. 硬件在环试验台整车状态跟随控制系统设计[J]. 吉林大学学报(工学版), 2013, 43(03): 577 -583 .
[4] 胡兴军, 李腾飞, 王靖宇, 杨博, 郭鹏, 廖磊. 尾板对重型载货汽车尾部流场的影响[J]. 吉林大学学报(工学版), 2013, 43(03): 595 -601 .
[5] 王同建, 陈晋市, 赵锋, 赵庆波, 刘昕晖, 袁华山. 全液压转向系统机液联合仿真及试验[J]. 吉林大学学报(工学版), 2013, 43(03): 607 -612 .
[6] 张春勤, 姜桂艳, 吴正言. 机动车出行者出发时间选择的影响因素[J]. 吉林大学学报(工学版), 2013, 43(03): 626 -632 .
[7] 马万经, 谢涵洲. 双停车线进口道主、预信号配时协调控制模型[J]. 吉林大学学报(工学版), 2013, 43(03): 633 -639 .
[8] 于德新, 仝倩, 杨兆升, 高鹏. 重大灾害条件下应急交通疏散时间预测模型[J]. 吉林大学学报(工学版), 2013, 43(03): 654 -658 .
[9] 肖赟, 雷俊卿, 张坤, 李忠三. 多级变幅疲劳荷载下预应力混凝土梁刚度退化[J]. 吉林大学学报(工学版), 2013, 43(03): 665 -670 .
[10] 肖锐, 邓宗才, 兰明章, 申臣良. 不掺硅粉的活性粉末混凝土配合比试验[J]. 吉林大学学报(工学版), 2013, 43(03): 671 -676 .