相似重复记录,SNM算法,中文分词 ," /> 相似重复记录,SNM算法,中文分词 ,"/> 改进的 SNM 中文语义重复记录检测算法

吉林大学学报(信息科学版) ›› 2021, Vol. 39 ›› Issue (3): 348-356.

• • 上一篇    下一篇

改进的 SNM 中文语义重复记录检测算法

袁 满1 , 穆永豪1 , 王贵友2 ,于再富1   

  1. 1. 东北石油大学 计算机与信息技术学院, 黑龙江 大庆 163318; 2. 黑龙江省大庆市第十采油厂肇东分公司 信息中心, 黑龙江 大庆 163000
  • 收稿日期:2020-11-16 出版日期:2021-05-24 发布日期:2021-05-25
  • 通讯作者: 袁满(1965— ), 男, 吉林农安人, 东北石油大学教授, 博士生导师, 主要从事数据科学与知识工程、 数据标准化与数据质量等研究, (Tel)86-15765959186(E-mail)yuanman@nepu.edu.cn
  • 基金资助:
    黑龙江省哲学社会科学研究规划基金资助项目(19EDE334)

Improved SNM Chinese Semantic Duplicate Record Detection Algorithm

YUAN Man1 , MU Yonghao1 , WANG Guiyou2 , YU Zaifu1   

  1. 1. School of Computer and Information Technology, Northeast Petroleum University, Daqing 163318, China; 2. Information Center, Zhaodong Branch of the Tenth Oil Production Plant of Daqing, Heilongjiang Province, Daqing 163000, China
  • Received:2020-11-16 Online:2021-05-24 Published:2021-05-25

摘要: 为解决中文数据的重复检测问题, 在 SNM( Sorted-Neighborhood Method) 算法的基础上提出了一种融合《同义词词林扩展版》和中文分词于一体的重复记录检测算法, 通过利用《同义词词林扩展版》和 Jaccard 算法计算词语相似度, 同时采用 Python 中 Jieba 中文分词的方式对语句进行分词, 从而达到优化余弦相似度算法计算语句相似度。 改进后的算法能有效的对记录为中文的字段和语句进行重复记录检测。 并通过对某辅导机构学生测验信息数据集进行实验, 实验结果表明, 该算法的查全率及查准率比传统 SNM 算法有了很大提高。

关键词: font-family:FZSSK--GBK1-0, color:#000000, 相似重复记录">相似重复记录font-family:E-BZ, color:#000000, ')">">, SNMfont-family:FZSSK--GBK1-0, color:#000000, 算法">算法font-family:E-BZ, color:#000000, ')">">, font-family:FZSSK--GBK1-0, color:#000000, 中文分词 ')">">中文分词

Abstract: In order to detect the duplicate of Chinese data, we propose a duplicate record detection algorithm based on SNM (Sorted-Neighborhood Method) algorithm, which integrates the extended version of synonym word forest and Chinese word segmentation. Using the extended version of synonym word forest and Jaccard algorithm to calculate the similarity of words, the Chinese word segmentation in Python is used to segment sentences, to optimize cosine similarity algorithm and to calculate the similarity of sentences. The improved algorithm can effectively detect duplicate records of fields and sentences recorded in Chinese. The experiment on the test data set of students in a counseling institution shows that the recall ratio of the new algorithm is much higher than that of the traditional SNM algorithm.

Key words: similar duplicate records, sorted-neighborhood method ( SNM ) algorithm, chinese word segmentation

中图分类号: 

  • TP311