J4 ›› 2010, Vol. 28 ›› Issue (01): 68-.
李 巍1,孙 涛1,陈建孝2, 罗梓恒1,李雄飞1
LI Wei1|SUN Tao1,CHEN Jian-xiao2,LUO Zi-heng1|LI Xiong-fei1
摘要:
在实际应用中,XML(eXtensible Markup Language)文档中的一些结构经常被改变。为了挖掘XML文档在历史变化过程中经常改变的结构所蕴含的知识,提出了发现频繁变化结构的方法。该方法用一组频繁变化结构组成的文档向量模型代表一个XML文档,将频繁变化结构在簇中的出现比例作为权值,使用加权余弦相似度对XML文档进行聚类。经过实验分析,根据XML文档历史变化过程中的频繁变化结构能较好地将XML文档进行聚类。用加权余弦相似度对XML文档进行聚类,其聚类结果的正确率、召回率和簇内部距离均优于使用非加权余弦相似度对XML文档进行聚类得到的结果。
中图分类号: