吉林大学学报(信息科学版) ›› 2025, Vol. 43 ›› Issue (4): 844-850.
张灵运
ZHANG Lingyun
摘要: 由于资源过滤去重是保证数字化图书馆高效运行中不可缺少的环节,但其过程易受冗余数据、资源类型和客户群体差异等问题的干扰,为此,提出基于GRNN(General Regression Neural Network)算法的数字化信息资 源过滤去重方法。首先采用GRNN算法检测数字化信息资源中的异常值, 并通过PSO-LSSVM(Purticle Swarm Optimization-Least Squares Support Vector Machine)过滤异常值, 避免异常数据对去重过程产生干扰。然后采用局部敏感哈希算法将资源数据转换成二进制哈希码,通过检测哈希码之间的汉明距离相似度完成数字化信息资源的过滤去重。实验结果表明,该方法用时短,并且去重精度和去重率较高。
中图分类号: