快速频繁序列模式挖掘算法

快速频繁序列模式挖掘算法

管恩政, 常晓宇, 王喆, 周春光

(吉林大学计算机科学与技术学院, 长春 130012)

收稿日期:2005-03-07 修回日期:1900-01-01 出版日期:2005-11-26 发布日期:2005-11-26
通讯作者: 周春光

Fast Frequent Sequential Pattern Mining Algorithm

GUAN En-zheng, CHANG Xiao-yu, WANG Zhe, ZHOU Chun-guang

(College of Computer Science and Technology, Jilin University, Changchun 130012, China)

Received:2005-03-07 Revised:1900-01-01 Online:2005-11-26 Published:2005-11-26
Contact: ZHOU Chun-guang

摘要/Abstract

摘要： 为解决从数据库中挖掘长模式可能遇到较高的计算复杂度问题, 提出一种新的算法FFSPAN. 传统上，要判断一个序列是否频繁, 需要在原数据库中判断整个序列是否频繁；而算法FFSPAN是通过在序列数据库中寻找一个频繁项或一个频繁项集来代替寻找一个完整的频繁序列，而且FFSPAN算法每次扫描的数据库都是迅速减小的, 这使得算法在挖掘的序列模式越长时越有效. 在标准测试数据集上的实验结果表明， FFSPAN算法非常有效.

关键词: 序列模式, 长模式, 深度优先, 数据挖掘

Abstract: A novel algorithm FFSPAN (fast frequent sequential pattern mining algorithm) is proposed to solve the problem that the computational complexity may become very high when mining long patterns in a sequence database. Traditionally, to judge whether a sub-sequence is frequent in a database, one need to compare the whole sub-sequence with every sequence in the original database, however the algorithm FFSPAN succeeds in solving the problem that in a sequence database, instead of searching a whole frequent sequence, we only need to search a frequent item or a frequent itemset. Moreover, the databases scanned via FFSPAN keep shrinking, which makes the algorithm more efficient when the sequential patterns are longer. Experiments on standard test data show that FFSPAN is very effective.

Key words: sequential pattern, long pattern, depthfirst, data mining

中图分类号:

TP31

管恩政, 常晓宇, 王喆, 周春光. 快速频繁序列模式挖掘算法[J]. J4, 2005, 43(06): 768-772.

GUAN En-zheng, CHANG Xiao-yu, WANG Zhe, ZHOU Chun-guang. Fast Frequent Sequential Pattern Mining Algorithm[J]. J4, 2005, 43(06): 768-772.

[1]	金晓民, 张丽萍. 基于最小生成树的多层次k-Means聚类算法及其在数据挖掘中的应用[J]. 吉林大学学报(理学版), 2018, 56(5): 1187-1192.
[2]	冯锋, 张珑耀, 张青. 基于软集上逻辑公式的极大关联规则描述与挖掘方法[J]. 吉林大学学报(理学版), 2018, 56(4): 901-908.
[3]	匡珍春, 冼远清. 基于XML配置框架下多维度扩展贪心算法[J]. 吉林大学学报(理学版), 2018, 56(3): 688-691.
[4]	尚靖博, 左万利. 基于清晰有理数均值的新匹配聚类算法[J]. 吉林大学学报(理学版), 2018, 56(2): 399-401.
[5]	周鹏, 熊运余. 基于数据挖掘的网络状态异常检测[J]. 吉林大学学报(理学版), 2017, 55(05): 1269-1273.
[6]	王文霞. 数据挖掘中改进的C4.5决策树分类算法[J]. 吉林大学学报(理学版), 2017, 55(05): 1274-1277.
[7]	曹莹, 苗志刚. 基于向量矩阵优化频繁项的改进Apriori算法[J]. 吉林大学学报(理学版), 2016, 54(02): 349-353.
[8]	孙金岭, 庞娟. 基于残差修正的灰色神经网络在数据挖掘中的应用[J]. 吉林大学学报(理学版), 2015, 53(06): 1263-1268.
[9]	郭其标, 李秉键. 基于最小信息准则和BP算法的网络入侵检测[J]. 吉林大学学报(理学版), 2015, 53(04): 715-719.
[10]	于潇菂, 努尔布力, 胡亮, 解男男. 一种基于数据挖掘的多步入侵警报关联模型[J]. 吉林大学学报(理学版), 2013, 51(05): 881-886.
[11]	徐淑坦, 王朝勇, 孙延风. 一种不均衡数据的改进蚁群分类算法[J]. J4, 2011, 49(04): 733-739.
[12]	胡亮, 金刚, 于漫, 任斐, 任维武. 基于异常检测的入侵检测技术[J]. J4, 2009, 47(6): 1264-1270.
[13]	董立岩, 李真, 阎鹏飞. 基于贝叶斯分类器的重大危险源辨识[J]. J4, 2009, 47(4): 795-799.
[14]	张强, 李永丽, 董立岩, 李威，张晓辉. 基于有权重超图的离群点检测[J]. J4, 2007, 45(04): 611-616.
[15]	李永丽,, 任辉明, 董立岩, 李威, 陈思国, 赵宇. 基于数据模式聚类算法的离群点检测[J]. J4, 2007, 45(03): 435-437.