• •    

考虑层数信息的XML文档聚类方法

李巍1,李雄飞1,2,杜钦生1   

  1. 1. 吉林大学计算机科学与技术学院
    2.
  • 收稿日期:2012-12-03 修回日期:2013-06-08 发布日期:2013-06-20
  • 通讯作者: 李巍

Clustering XML Documents by Layer Information

  • Received:2012-12-03 Revised:2013-06-08 Published:2013-06-20
  • Contact: Wei LI

摘要: 以XML为代表的半结构化数据的处理与管理是比较热门的研究课题。目前关于XML文档数据集聚类的方法大多忽略XML层数特性,认为不同层数操作是等费用的。本文提出一种层数敏感的XML文档数据集聚类方法CXLI。首先提出结构表概念,消除XML文档的重复和嵌套结构。然后提出考虑层数信息的XML文档基本编辑操作约束。进一步给出考虑层数信息的XML文档间相似性度量方法。最后使用凝聚型层次聚类方法对XML文档数据集进行聚类。实验在ACM SIGMOD数据集和人工生成的数据集上进行,实验结果表明,在基本相同的时间消耗情况下,CXLI方法具有更好的精确度。

关键词: 数据挖掘, XML, 相似性度量, 聚类, 层数

Abstract: Processing and managerment of semi-structured data is a hot research topic. However, Previous similarity detecting methods on XML ignored the characteristics of XML layer layer, that layer does not affect the similarity of XML data. This paper proposes a layer-sensitive XML documents collection clustering method CXLI. We first proposed structural tabel to clear up duplication structures, and then proposed the constraints of editing operations. Finally, we proposed a XML clustering method by using agglomerative hierarchical clustering method. Experiment executes on ACM SIGMOD data set and synthetic data set, experimental results show that CXLI has better precision under the similar time cost.

Key words: Data mining, XML, Similarity detection, Clustering, Layer

中图分类号: 

  • TP18
[1] 张曼, 施树明. 典型汽车运行工况的状态转移特征分析[J]. 吉林大学学报(工学版), 2018, 48(4): 1008-1015.
[2] 邓剑勋, 熊忠阳, 邓欣. 基于谱聚类矩阵的改进DNALA算法[J]. 吉林大学学报(工学版), 2018, 48(3): 903-908.
[3] 刘雪娟, 袁家斌, 许娟, 段博佳. 量子k-means算法[J]. 吉林大学学报(工学版), 2018, 48(2): 539-544.
[4] 侯现耀, 陈学武. 基于态度的公交出行信息使用市场细分[J]. 吉林大学学报(工学版), 2018, 48(1): 98-104.
[5] 孙宗元, 方守恩. 高速公路出入口运动车辆轨迹分层聚类算法[J]. 吉林大学学报(工学版), 2017, 47(6): 1696-1702.
[6] 李显生, 孟凡淞, 郑雪莲, 任园园, 严佳晖. 基于应激响应的驾驶人视觉特性[J]. 吉林大学学报(工学版), 2017, 47(5): 1403-1410.
[7] 李嘉菲, 孙小玉. 基于谱分解的不确定数据聚类方法[J]. 吉林大学学报(工学版), 2017, 47(5): 1604-1611.
[8] 刘仲民, 李战明, 李博皓, 胡文瑾. 基于稀疏矩阵的谱聚类图像分割算法[J]. 吉林大学学报(工学版), 2017, 47(4): 1308-1313.
[9] 黄岚, 李玉, 王贵参, 王岩. 基于点距离和密度峰值聚类的社区发现方法[J]. 吉林大学学报(工学版), 2016, 46(6): 2042-2051.
[10] 王贵参, 黄岚, 王岩, 宋立明, 欧歌. 引入极值非相邻连接的连接聚类方法[J]. 吉林大学学报(工学版), 2016, 46(5): 1616-1621.
[11] 郭玉泉, 李雄飞. 复杂网络社区的分形聚类检测方法[J]. 吉林大学学报(工学版), 2016, 46(5): 1633-1638.
[12] 秦大同, 詹森, 漆正刚, 陈淑江. 基于K-均值聚类算法的行驶工况构建方法[J]. 吉林大学学报(工学版), 2016, 46(2): 383-389.
[13] 王喆, 杨柏婷, 刘昕, 刘群, 宋现敏. 基于模糊聚类的驾驶决策判别[J]. 吉林大学学报(工学版), 2015, 45(5): 1414-1419.
[14] 任维武, 胡亮, 赵阔. 基于数据挖掘和本体的入侵警报关联模型[J]. 吉林大学学报(工学版), 2015, 45(3): 899-906.
[15] 王亮, 胡琨元, 库涛, 吴俊伟. 随机采样移动轨迹时空热点区域发现及模式挖掘[J]. 吉林大学学报(工学版), 2015, 45(3): 913-920.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
No Suggested Reading articles found!