改进的 SNM 中文语义重复记录检测算法

吉林大学学报(信息科学版) ›› 2021, Vol. 39 ›› Issue (3): 348-356.

改进的 SNM 中文语义重复记录检测算法

袁满¹ , 穆永豪¹ , 王贵友² ,于再富¹

1. 东北石油大学计算机与信息技术学院, 黑龙江大庆 163318; 2. 黑龙江省大庆市第十采油厂肇东分公司信息中心, 黑龙江大庆 163000

收稿日期:2020-11-16 出版日期:2021-05-24 发布日期:2021-05-25
通讯作者: 袁满(1965— ), 男, 吉林农安人, 东北石油大学教授, 博士生导师, 主要从事数据科学与知识工程、数据标准化与数据质量等研究, (Tel)86-15765959186(E-mail)yuanman@nepu.edu.cn
基金资助:
黑龙江省哲学社会科学研究规划基金资助项目(19EDE334)

Improved SNM Chinese Semantic Duplicate Record Detection Algorithm

YUAN Man¹ , MU Yonghao¹ , WANG Guiyou² , YU Zaifu¹

1. School of Computer and Information Technology, Northeast Petroleum University, Daqing 163318, China; 2. Information Center, Zhaodong Branch of the Tenth Oil Production Plant of Daqing, Heilongjiang Province, Daqing 163000, China

Received:2020-11-16 Online:2021-05-24 Published:2021-05-25

摘要/Abstract

摘要： 为解决中文数据的重复检测问题, 在 SNM( Sorted-Neighborhood Method) 算法的基础上提出了一种融合《同义词词林扩展版》和中文分词于一体的重复记录检测算法, 通过利用《同义词词林扩展版》和 Jaccard 算法计算词语相似度, 同时采用 Python 中 Jieba 中文分词的方式对语句进行分词, 从而达到优化余弦相似度算法计算语句相似度。改进后的算法能有效的对记录为中文的字段和语句进行重复记录检测。并通过对某辅导机构学生测验信息数据集进行实验, 实验结果表明, 该算法的查全率及查准率比传统 SNM 算法有了很大提高。

关键词: font-family:FZSSK--GBK1-0, color:#000000, 相似重复记录">相似重复记录font-family:E-BZ, color:#000000, ')">">, SNMfont-family:FZSSK--GBK1-0, color:#000000, 算法">算法font-family:E-BZ, color:#000000, ')">">, font-family:FZSSK--GBK1-0, color:#000000, 中文分词 ')">">中文分词

Abstract: In order to detect the duplicate of Chinese data, we propose a duplicate record detection algorithm based on SNM (Sorted-Neighborhood Method) algorithm, which integrates the extended version of synonym word forest and Chinese word segmentation. Using the extended version of synonym word forest and Jaccard algorithm to calculate the similarity of words, the Chinese word segmentation in Python is used to segment sentences, to optimize cosine similarity algorithm and to calculate the similarity of sentences. The improved algorithm can effectively detect duplicate records of fields and sentences recorded in Chinese. The experiment on the test data set of students in a counseling institution shows that the recall ratio of the new algorithm is much higher than that of the traditional SNM algorithm.

中图分类号:

TP311

袁满, 穆永豪, 王贵友, 于再富. 改进的 SNM 中文语义重复记录检测算法[J]. 吉林大学学报(信息科学版), 2021, 39(3): 348-356.

YUAN Man , MU Yonghao , WANG Guiyou , YU Zaifu. Improved SNM Chinese Semantic Duplicate Record Detection Algorithm[J]. Journal of Jilin University (Information Science Edition), 2021, 39(3): 348-356.

[1]	孙铁刚, 陈建, 李志军. 基于无源光网络的发动机性能监测系统研究[J]. 吉林大学学报(信息科学版), 2021, 39(3): 246-251.
[2]	刘超, 马天池, 王海生. 改进一阶鞍点近似的概率潮流[J]. 吉林大学学报(信息科学版), 2021, 39(3): 267-275.
[3]	陈松, 王西泉, 陈俊彪. 基于仿生视觉机制的红外与可见光图像融合[J]. 吉林大学学报(信息科学版), 2021, 39(3): 276-281.
[4]	段志伟, 苏皓, 刘冬冬, 丛至诚, 徐开传. 基于法布里-珀罗干涉的全光纤振动检测仪[J]. 吉林大学学报(信息科学版), 2021, 39(3): 282-287.
[5]	王秀芳, 郭淞赫, 崔翔宇, 杨丹迪. 基于改进经验模态分解的语音信号特征提取法[J]. 吉林大学学报(信息科学版), 2021, 39(3): 288-294.
[6]	袁梦顺, 陈谋, 吴庆宪. 基于 NSGA-Ⅲ算法的多无人机协同航迹规划[J]. 吉林大学学报(信息科学版), 2021, 39(3): 295-302.
[7]	吴雨浩, 王从庆. 基于多路卷积神经网络的手势识别方法[J]. 吉林大学学报(信息科学版), 2021, 39(3): 303-309.
[8]	任娇. CACA 优化的滑模观测器在 IPMSM 调速中的应用[J]. 吉林大学学报(信息科学版), 2021, 39(3): 310-317.
[9]	徐翔, 靳菁. 基于 Word2vec 的信息窄化测度及影响因素研究[J]. 吉林大学学报(信息科学版), 2021, 39(3): 339-347.
[10]	宋奎勇 , 周连科 , 王红滨. 面向水下多源数据特征级融合方法[J]. 吉林大学学报(信息科学版), 2021, 39(3): 331-338.
[11]	陈晓玲, 李剑锋 , 付强. 基于数据挖掘的文献平台用户行为分析[J]. 吉林大学学报(信息科学版), 2021, 39(3): 357-361.
[12]	李佳, 马海涛, 李月. 自适应秩收敛低秩算法压制沙漠地震随机噪声[J]. 吉林大学学报(信息科学版), 2021, 39(3): 237-245.