相似重复记录,SNM算法,中文分词 ," /> 相似重复记录,SNM算法,中文分词 ,"/>
吉林大学学报(信息科学版) ›› 2021, Vol. 39 ›› Issue (3): 348-356.
袁 满1 , 穆永豪1 , 王贵友2 ,于再富1
YUAN Man1 , MU Yonghao1 , WANG Guiyou2 , YU Zaifu1
摘要: 为解决中文数据的重复检测问题, 在 SNM( Sorted-Neighborhood Method) 算法的基础上提出了一种融合《同义词词林扩展版》和中文分词于一体的重复记录检测算法, 通过利用《同义词词林扩展版》和 Jaccard 算法计算词语相似度, 同时采用 Python 中 Jieba 中文分词的方式对语句进行分词, 从而达到优化余弦相似度算法计算语句相似度。 改进后的算法能有效的对记录为中文的字段和语句进行重复记录检测。 并通过对某辅导机构学生测验信息数据集进行实验, 实验结果表明, 该算法的查全率及查准率比传统 SNM 算法有了很大提高。
中图分类号: