|
基于自分簇自学习算法的垃圾短信识别
李 根 , 王科峰 , 贲卫国 , 宋 微 , 刘鸿儒 , 徐亦晋
吉林大学学报(信息科学版). 2021 (5):
583-588.
摘要
(
273 )
PDF(1453KB)
(
463
)
垃圾短信发送者会不断尝试修改垃圾短信内容以欺骗过滤系统, 导致识别准确率降低, 为此提出一种基于
自分簇自学习算法的识别方法。 首先以最小编辑距离的方式构建垃圾短信关系链, 使用 MeanShift 算法对其进行
聚类实现自分簇功能。 之后计算每个簇核心, 并以与核心的距离确定每个样本的权值, 以权值样本训练分类器,
当新垃圾短信样本被分类器识别后, 会被归类到某个簇并重新计算该簇的核心和各个样本的权值, 并更新分类
器, 重复此过程实现自学习功能。 实验结果表明, 新方法准确率提高约 2. 51% ~ 5. 14% , 且能长时间保持。
相关文章 |
计量指标
|