J4 ›› 2012, Vol. 30 ›› Issue (5): 540-.

• 论文 • 上一篇    下一篇

基于频繁模式半结构化数据的模式抽取

李颖1, 张晓贤2, 孙佳慧3   

  1. 1. 吉林师范大学 计算机学院, 吉林 四平 136000; 2. 长春工程学院 软件学院, 长春130012;3. 空军航空大学 基础部, 长春 130022
  • 出版日期:2012-09-28 发布日期:2012-11-01
  • 作者简介:李颖(1975—), 女, 吉林蛟河人, 吉林师范大学讲师, 主要从事数据库、 数据挖掘研究, (Tel)86-13596604003(E-mail)sp_ly@126.com。

Semi-Structured Data Model Extraction Based on Frequent Patterns

LI Ying1, ZHANG Xiao-xian2, SUN Jia-hui3   

  1. 1. College of Computer Science, Jilin Normal University, Siping 136000, China;2. College of Software, Changchun Institute of Technology, Changchun 130012, China;3. Department of Basic, Aviation University of Air Force, Changchun 130022, China
  • Online:2012-09-28 Published:2012-11-01

摘要:

为克服半结构化数据存储复杂的缺点, 提出一种基于动态树的半结构化的存储模型。对该模型进行模式抽取, 并将其引入到Apriori算法。通过设置最小支持度阀值过滤掉不必要的信息, 输出最长频繁路径的集合, 以实现半结构化数据的提取。实验结果表明, 该算法能同时有效地处理分支及环路问题, 避免了死循环的出现。

关键词: 半结构化数据, 数据挖掘, 频繁模式, 模式抽取

Abstract:

In order to overcome the complex characteristics of semi-structured data storage, we propose a semi-structured storage model based on dynamic tree. We extract mode by introducing the mode into the Apriori algorithm, and setting the minimum support threshold filter unnecessary information to output the longest frequent path collection. Experimental results show that this algorithm deal effectively with the branch and loop part at the same time, and also it can avoid infinite loop.

Key words: semi-structured data, data mining, frequent patterns mining, extracting schema

中图分类号: 

  • TP31