吉林大学学报(工学版) ›› 2014, Vol. 44 ›› Issue (01): 124-128.doi: 10.13229/j.cnki.jdxbgxb201401022

• 论文 • 上一篇    下一篇

考虑层数信息的XML文档聚类方法

刘兆军1,2, 赵浩宇3, 王婧1,2, 李雄飞1,2, 李巍1,2   

  1. 1. 符号计算与知识工程教育部重点实验室, 长春 130012;
    2. 吉林大学 计算机科学与技术学院, 长春 130012;
    3. 吉林大学 软件学院, 长春 130012
  • 收稿日期:2012-11-23 出版日期:2014-01-01 发布日期:2014-01-01
  • 通讯作者: 李雄飞(1963-),男,教授,博士生导师.研究方向:数据挖掘,信息融合技术.E-mail:lxf@jlu.edu.cn E-mail:lxf@jlu.edu.cn
  • 作者简介:刘兆军(1973-),男,讲师,博士研究生.研究方向:数据挖掘,信息融合技术.E-mail:zhaojun@jlu.edu.cn
  • 基金资助:

    吉林省科技发展计划项目(20090704);吉林省自然科学基金项目(201115020).

Clustering XML documents by layer information

LIU Zhao-jun1,2, ZHAO Hao-yu3, WANG Jing1,2, LI Xiong-fei1,2, LI Wei1,2   

  1. 1. Key Laboratory of Symbol Computation and Knowledge Engineering, Ministry of Education, Changchun 130012, China;
    2. College of Computer Science and Technology, Jilin University, Changchun 130012, China;
    3. College of Software, Jilin University, Changchun 130012, China
  • Received:2012-11-23 Online:2014-01-01 Published:2014-01-01

摘要:

提出了一种层数敏感的XML文档数据集聚类方法CXLI。首先提出结构表概念,消除XML文档的重复和嵌套结构。然后提出考虑层数信息的XML文档基本编辑操作约束。进一步给出考虑层数信息的XML文档间相似性度量方法。最后使用凝聚型层次聚类方法对XML文档数据集进行聚类。在ACM SIGMOD数据集和人工生成的数据集上进行了实验验证,结果表明:在计算时间基本相同的情况下,CXLI方法具有更好的精确度。

关键词: 人工智能, 数据挖掘, 可扩展标记语言, 相似性度量, 聚类, 层数

Abstract:

A layer-sensitive XML document collection clustering method CXLI is proposed in this paper. First, a concept of structural table is put forward to clear up the duplication structures in XML documents. Second, the constraints of editing operations are established. Third, a testing method of the similarity between XML documents is presented. Finally, the XML documents are clustered using agglomerative hierarchical clustering method. ACM SIMOD data set and synthetic data set are used to test the proposed method. Results show that the proposed CXLI has better precision under similar time cost.

Key words: artificient intelligence, data mining, XML, similarity detection, clustering, layer

中图分类号: 

  • TP18

[1] Abiteboul S, Buneman P, Suciu D. Data on the Web[M]. San Francisco: Morgan Kaufmann, 2000.

[2] Wilde E, Glushko R J. XML fever[J]. Communications of the ACM, 2008, 51(7): 40-46.

[3] Selkow S M. The tree-to-tree editing problem[J]. Information Processing Letters, 1977, 6(6): 184-186.

[4] Zhang K, Shasha D. Simple fast algorithms for the editing distance between trees and related problems[J]. SIAM Journal on Computing, 1989, 18(6):1245-1262.

[5] Chawathe S. Comparing hierarchical data in external memory[C]//Proc of the 25th International Conference on Very Large Data Bases, San Francisco: Morgan Kaufmann, 1999: 90-101.

[6] Chawathe S, Rajaraman A, Garcia-Molina H, et al. Change detection in hierarchically structured information[C]//ACM SIGMOD International Conference on Management of Data, ACM: Montreal, Canada, 1996:493-504.

[7] Nierman A, Jagadish H. Evaluating structural similarity in XML documents[C]//Proc of the 5th International Workshop on the Web and Databases, Wisconsin: Madison, 2002:61-66.

[8] Dalamagas T, Cheng T, Winkel K J, et al. A methodology for clustering XML documents by structure[J]. Information Systems, 2006, 31(3): 187-228.

[9] Flesca S, Manco G, Masciari E, et al. Fast detection of XML structural similarity[J]. IEEE Transactions on Knowledge and Data Engineering, 2005, 17(2): 160-175.

[10] Tekli J, Chbeir R, Yetongnon K. An overview on XML similarity: background, current trends and future directions[J]. Computer Science Review, 2009, 3(3): 151-173.

[11] Li W, Li X, Te R. Cluster dynamic XML documents based on frequently changing structures[J]. Advances in Information Sciences and Service Sciences, 2012, 4(6):70-76.

[12] Li W, Li X, Zhao Y. XML documents clustering research based on weighted cosine measure[C]//Proc of the 5th International Conference on Frontier of Computer Science and Technology, Washington: IEEE, 2010: 95-100.

[13] Tagarelli A, Greco S. Semantic clustering of XML documents[J]. ACM Transactions on Information Systems, 2010, 28(1):1-56.

[14] Algergawy A, Mesiti M, Nayak R, et al. XML data clustering: an overview[DB/OL]. http://dl.acm.org/citation.cfm?id=1978804.

[15] Wang W, Zhou H, Yuan Q, et al.Mining frequent patterns based on graph theory[J].Journal of Computer Research and Development, 2005, 42(2):230-235.

[1] 刘仲民,王阳,李战明,胡文瑾. 基于简单线性迭代聚类和快速最近邻区域合并的图像分割算法[J]. 吉林大学学报(工学版), 2018, 48(6): 1931-1937.
[2] 董飒, 刘大有, 欧阳若川, 朱允刚, 李丽娜. 引入二阶马尔可夫假设的逻辑回归异质性网络分类方法[J]. 吉林大学学报(工学版), 2018, 48(5): 1571-1577.
[3] 顾海军, 田雅倩, 崔莹. 基于行为语言的智能交互代理[J]. 吉林大学学报(工学版), 2018, 48(5): 1578-1585.
[4] 桂春, 黄旺星. 基于改进的标签传播算法的网络聚类方法[J]. 吉林大学学报(工学版), 2018, 48(5): 1600-1605.
[5] 张曼, 施树明. 典型汽车运行工况的状态转移特征分析[J]. 吉林大学学报(工学版), 2018, 48(4): 1008-1015.
[6] 王旭, 欧阳继红, 陈桂芬. 基于垂直维序列动态时间规整方法的图相似度度量[J]. 吉林大学学报(工学版), 2018, 48(4): 1199-1205.
[7] 张浩, 占萌苹, 郭刘香, 李誌, 刘元宁, 张春鹤, 常浩武, 王志强. 基于高通量数据的人体外源性植物miRNA跨界调控建模[J]. 吉林大学学报(工学版), 2018, 48(4): 1206-1213.
[8] 黄岚, 纪林影, 姚刚, 翟睿峰, 白天. 面向误诊提示的疾病-症状语义网构建[J]. 吉林大学学报(工学版), 2018, 48(3): 859-865.
[9] 李雄飞, 冯婷婷, 骆实, 张小利. 基于递归神经网络的自动作曲算法[J]. 吉林大学学报(工学版), 2018, 48(3): 866-873.
[10] 刘杰, 张平, 高万夫. 基于条件相关的特征选择方法[J]. 吉林大学学报(工学版), 2018, 48(3): 874-881.
[11] 邓剑勋, 熊忠阳, 邓欣. 基于谱聚类矩阵的改进DNALA算法[J]. 吉林大学学报(工学版), 2018, 48(3): 903-908.
[12] 王旭, 欧阳继红, 陈桂芬. 基于多重序列所有公共子序列的启发式算法度量多图的相似度[J]. 吉林大学学报(工学版), 2018, 48(2): 526-532.
[13] 杨欣, 夏斯军, 刘冬雪, 费树岷, 胡银记. 跟踪-学习-检测框架下改进加速梯度的目标跟踪[J]. 吉林大学学报(工学版), 2018, 48(2): 533-538.
[14] 刘雪娟, 袁家斌, 许娟, 段博佳. 量子k-means算法[J]. 吉林大学学报(工学版), 2018, 48(2): 539-544.
[15] 侯现耀, 陈学武. 基于态度的公交出行信息使用市场细分[J]. 吉林大学学报(工学版), 2018, 48(1): 98-104.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
No Suggested Reading articles found!