吉林大学学报(工学版) ›› 2014, Vol. 44 ›› Issue (01): 124-128.doi: 10.13229/j.cnki.jdxbgxb201401022
刘兆军1,2, 赵浩宇3, 王婧1,2, 李雄飞1,2, 李巍1,2
LIU Zhao-jun1,2, ZHAO Hao-yu3, WANG Jing1,2, LI Xiong-fei1,2, LI Wei1,2
摘要:
提出了一种层数敏感的XML文档数据集聚类方法CXLI。首先提出结构表概念,消除XML文档的重复和嵌套结构。然后提出考虑层数信息的XML文档基本编辑操作约束。进一步给出考虑层数信息的XML文档间相似性度量方法。最后使用凝聚型层次聚类方法对XML文档数据集进行聚类。在ACM SIGMOD数据集和人工生成的数据集上进行了实验验证,结果表明:在计算时间基本相同的情况下,CXLI方法具有更好的精确度。
中图分类号:
[1] Abiteboul S, Buneman P, Suciu D. Data on the Web[M]. San Francisco: Morgan Kaufmann, 2000.[2] Wilde E, Glushko R J. XML fever[J]. Communications of the ACM, 2008, 51(7): 40-46.[3] Selkow S M. The tree-to-tree editing problem[J]. Information Processing Letters, 1977, 6(6): 184-186.[4] Zhang K, Shasha D. Simple fast algorithms for the editing distance between trees and related problems[J]. SIAM Journal on Computing, 1989, 18(6):1245-1262.[5] Chawathe S. Comparing hierarchical data in external memory[C]//Proc of the 25th International Conference on Very Large Data Bases, San Francisco: Morgan Kaufmann, 1999: 90-101.[6] Chawathe S, Rajaraman A, Garcia-Molina H, et al. Change detection in hierarchically structured information[C]//ACM SIGMOD International Conference on Management of Data, ACM: Montreal, Canada, 1996:493-504.[7] Nierman A, Jagadish H. Evaluating structural similarity in XML documents[C]//Proc of the 5th International Workshop on the Web and Databases, Wisconsin: Madison, 2002:61-66.[8] Dalamagas T, Cheng T, Winkel K J, et al. A methodology for clustering XML documents by structure[J]. Information Systems, 2006, 31(3): 187-228.[9] Flesca S, Manco G, Masciari E, et al. Fast detection of XML structural similarity[J]. IEEE Transactions on Knowledge and Data Engineering, 2005, 17(2): 160-175.[10] Tekli J, Chbeir R, Yetongnon K. An overview on XML similarity: background, current trends and future directions[J]. Computer Science Review, 2009, 3(3): 151-173.[11] Li W, Li X, Te R. Cluster dynamic XML documents based on frequently changing structures[J]. Advances in Information Sciences and Service Sciences, 2012, 4(6):70-76.[12] Li W, Li X, Zhao Y. XML documents clustering research based on weighted cosine measure[C]//Proc of the 5th International Conference on Frontier of Computer Science and Technology, Washington: IEEE, 2010: 95-100.[13] Tagarelli A, Greco S. Semantic clustering of XML documents[J]. ACM Transactions on Information Systems, 2010, 28(1):1-56.[14] Algergawy A, Mesiti M, Nayak R, et al. XML data clustering: an overview[DB/OL]. http://dl.acm.org/citation.cfm?id=1978804.[15] Wang W, Zhou H, Yuan Q, et al.Mining frequent patterns based on graph theory[J].Journal of Computer Research and Development, 2005, 42(2):230-235. |
[1] | 刘仲民,王阳,李战明,胡文瑾. 基于简单线性迭代聚类和快速最近邻区域合并的图像分割算法[J]. 吉林大学学报(工学版), 2018, 48(6): 1931-1937. |
[2] | 董飒, 刘大有, 欧阳若川, 朱允刚, 李丽娜. 引入二阶马尔可夫假设的逻辑回归异质性网络分类方法[J]. 吉林大学学报(工学版), 2018, 48(5): 1571-1577. |
[3] | 顾海军, 田雅倩, 崔莹. 基于行为语言的智能交互代理[J]. 吉林大学学报(工学版), 2018, 48(5): 1578-1585. |
[4] | 桂春, 黄旺星. 基于改进的标签传播算法的网络聚类方法[J]. 吉林大学学报(工学版), 2018, 48(5): 1600-1605. |
[5] | 张曼, 施树明. 典型汽车运行工况的状态转移特征分析[J]. 吉林大学学报(工学版), 2018, 48(4): 1008-1015. |
[6] | 王旭, 欧阳继红, 陈桂芬. 基于垂直维序列动态时间规整方法的图相似度度量[J]. 吉林大学学报(工学版), 2018, 48(4): 1199-1205. |
[7] | 张浩, 占萌苹, 郭刘香, 李誌, 刘元宁, 张春鹤, 常浩武, 王志强. 基于高通量数据的人体外源性植物miRNA跨界调控建模[J]. 吉林大学学报(工学版), 2018, 48(4): 1206-1213. |
[8] | 黄岚, 纪林影, 姚刚, 翟睿峰, 白天. 面向误诊提示的疾病-症状语义网构建[J]. 吉林大学学报(工学版), 2018, 48(3): 859-865. |
[9] | 李雄飞, 冯婷婷, 骆实, 张小利. 基于递归神经网络的自动作曲算法[J]. 吉林大学学报(工学版), 2018, 48(3): 866-873. |
[10] | 刘杰, 张平, 高万夫. 基于条件相关的特征选择方法[J]. 吉林大学学报(工学版), 2018, 48(3): 874-881. |
[11] | 邓剑勋, 熊忠阳, 邓欣. 基于谱聚类矩阵的改进DNALA算法[J]. 吉林大学学报(工学版), 2018, 48(3): 903-908. |
[12] | 王旭, 欧阳继红, 陈桂芬. 基于多重序列所有公共子序列的启发式算法度量多图的相似度[J]. 吉林大学学报(工学版), 2018, 48(2): 526-532. |
[13] | 杨欣, 夏斯军, 刘冬雪, 费树岷, 胡银记. 跟踪-学习-检测框架下改进加速梯度的目标跟踪[J]. 吉林大学学报(工学版), 2018, 48(2): 533-538. |
[14] | 刘雪娟, 袁家斌, 许娟, 段博佳. 量子k-means算法[J]. 吉林大学学报(工学版), 2018, 48(2): 539-544. |
[15] | 侯现耀, 陈学武. 基于态度的公交出行信息使用市场细分[J]. 吉林大学学报(工学版), 2018, 48(1): 98-104. |
|