基于加权余弦相似度的XML文档聚类研究

J4 ›› 2010, Vol. 28 ›› Issue (01): 68-.

基于加权余弦相似度的XML文档聚类研究

李巍¹,孙涛¹,陈建孝², 罗梓恒¹,李雄飞¹

1吉林大学计算机科学与技术学院,长春 130012；2韩山师范学院数学与信息技术系|广东潮州 521041

出版日期:2010-01-20 发布日期:2010-04-06
通讯作者: 陈建孝（1963— ），男，广东登海人，韩山师范学院副教授，主要从事计算机教育、计算机软件与理论研究，（Tel)86-763-2396196 E-mail:cjxldl@126.com
作者简介:李巍(1983— ),男,吉林四平人,吉林大学硕士研究生,主要从事数据库技术与XML数据挖掘研究,(Tel)86-13504475893(E-mail)autumnal_mood@163.com;李雄飞(1963— ),男,长春人,吉林大学教授,博士生导师,主要从事数据挖掘与知识发现、网格计算和信息融合研究,(Tel)86-13943095868(E-mail)lxf@jlu.edu.cn；通信作者：陈建孝（1963— ）|男|广东登海人|韩山师范学院副教授|主要从事计算机教育、计算机软件与理论研究|（Tel)86-763-2396196(E-mail)cjxldl@126.com。
基金资助:
吉林省科技发展计划基金资助项目(20090704)

XML Domument Clustering Research Based on Weighted Cosine Similarity

LI Wei^1|SUN Tao¹,CHEN Jian-xiao²,LUO Zi-heng¹|LI Xiong-fei^1

1College of Computer Science and Technology,Jilin University, Changchun 130012, China;
2Department of Mathematics and Information Technology,Hanshan Teachers College,Chaozhou 521041,China

Online:2010-01-20 Published:2010-04-06

摘要/Abstract

摘要：

在实际应用中,XML（eXtensible Markup Language）文档中的一些结构经常被改变。为了挖掘XML文档在历史变化过程中经常改变的结构所蕴含的知识,提出了发现频繁变化结构的方法。该方法用一组频繁变化结构组成的文档向量模型代表一个XML文档,将频繁变化结构在簇中的出现比例作为权值,使用加权余弦相似度对XML文档进行聚类。经过实验分析,根据XML文档历史变化过程中的频繁变化结构能较好地将XML文档进行聚类。用加权余弦相似度对XML文档进行聚类,其聚类结果的正确率、召回率和簇内部距离均优于使用非加权余弦相似度对XML文档进行聚类得到的结果。

关键词: XML文档聚类, 加权余弦相似度, 频繁变化结构

Abstract:

In practical applications, some structures of an XML（eXtensible Markup Language） document are often changed. In order to mining knowledge hiden in the freduently changing structures in the XML document history changes, a method to found the frequently changing structures is proposed, then uses a document-vector model which composition by a set of frequently changing structures to represent an XML document, to proportion that frequently changing structures appearance in the cluster as weight, and cluster XML documents use weighted cosine similarity. After experimental analysis, according to frequently changing structures which found in the XML document historical change process will be better able to cluster XML documents. Cluster XML document using the weighted cosine similarity, the precision rate, recall rate and cluster internal distance of cluster result are all better than the results obtained by use non-weighted cosine similarity.

Key words: XML document clustering, weighted cosine similarity, frequently changing structures

中图分类号:

TP391.1

李巍,孙涛,陈建孝, 罗梓恒,李雄飞. 基于加权余弦相似度的XML文档聚类研究[J]. J4, 2010, 28(01): 68-.

LI Wei|SUN Tao,CHEN Jian-xiao,LUO Zi-heng|LI Xiong-fei. XML Domument Clustering Research Based on Weighted Cosine Similarity[J]. J4, 2010, 28(01): 68-.