吉林大学学报(信息科学版) ›› 2021, Vol. 39 ›› Issue (5): 583-588.
李 根1 , 王科峰1 , 贲卫国1 , 宋 微1 , 刘鸿儒2 , 徐亦晋2
LI Gen 1 , WANG Kefeng 1 , BEN Weiguo 1 , SONG Wei 1 , LIU Hongru 2 , XU Yijin 2
摘要: 垃圾短信发送者会不断尝试修改垃圾短信内容以欺骗过滤系统, 导致识别准确率降低, 为此提出一种基于 自分簇自学习算法的识别方法。 首先以最小编辑距离的方式构建垃圾短信关系链, 使用 MeanShift 算法对其进行 聚类实现自分簇功能。 之后计算每个簇核心, 并以与核心的距离确定每个样本的权值, 以权值样本训练分类器, 当新垃圾短信样本被分类器识别后, 会被归类到某个簇并重新计算该簇的核心和各个样本的权值, 并更新分类 器, 重复此过程实现自学习功能。 实验结果表明, 新方法准确率提高约 2. 51% ~ 5. 14% , 且能长时间保持。
中图分类号: