吉林大学学报(工学版) ›› 2011, Vol. 41 ›› Issue (03): 716-720.

• 论文 • 上一篇    下一篇

基于模糊自适应粒子群的垃圾邮件过滤新方法

王刚1,2,刘元宁1,2,张晓旭1,2,赵正东3,朱晓冬1,2,刘震1,4   

  1. 1.吉林大学 计算机科学与技术学院,长春130012;2.吉林大学 符号计算与知识工程教育部重点实验室,长春130012;3.长春理工大学 网络中心|长春130022;4.长崎综合科学大学 研究生院,日本 长崎 8510193
  • 收稿日期:2010-08-11 出版日期:2011-05-01 发布日期:2011-05-01
  • 通讯作者: 朱晓冬(1964-),男,教授,研究方向:模式识别,网络安全. E-mail:E-mail:zhuxd@jlu.edu.cn
  • 作者简介:王刚(1981-),男,博士研究生.研究方向:数据挖掘,分布式计算.E-mail:wanggang.jlu@gmail.com
  • 基金资助:

    国家自然科学基金项目(60971089);国家电子发展基金项目(财建[2009]537号);吉林省科技厅项目(20090502)

Novel spam filtering method based on fuzzy adaptive particle swarm optimization

WANG Gang1,2,LIU Yuan-ning1,2,ZHANG Xiao-xu1,2,ZHAO Zheng-dong3,ZHU Xiao-dong1,2,LIU Zhen1,4   

  1. 1.College of Computer Science and Technology,Jilin University,Changchun 130012,China|2.Ministry Key Laboratory of Symbol Computation and Knowledge Engineering,Jilin University,Changchun 130012,China;3Network Center,Changchun University of Science and Technology,Changchun 130022,China;4.Graduate School of Engineering,Nagasaki Institute of Applied Science,Nagasaki |851-0193,Japan
  • Received:2010-08-11 Online:2011-05-01 Published:2011-05-01

摘要:

提出了一种新的垃圾邮件过滤方法(NSFM),从高维的文本特征中删除冗余的特征,选择对分类精度提高有贡献的特征,从而提高了垃圾邮件过滤的分类准确率。提出了一种模糊自适应粒子群(IFAPSO),通过模糊控制,动态的调控粒子群的惯性权重、学习因子和粒子数量比。NSFM包含核心特征选择、特征选择、垃圾邮件过滤3个阶段,第一阶段利用信息增益求取每个特征的信息值,构建核心特征集合,生成一定数量的核心特征子集;第二阶段根据核心特征子集对IFAPSO进行初始化,利用模糊控制器对粒子群进行自适应的调节,完成特征选择;第三阶段使用支持向量机对最优的特征子集分类,完成垃圾邮件过滤。本文采用PU1、LingSpam、SpamAssassin数据集数,通过多种对比实验证明:本方法自适应性强,可选择到较优的特征子集,有效地提高了分类精度,提升了垃圾邮件过滤的性能,具有较高的实用价值。

关键词: 人工智能, 特征选择, 粒子群, 模糊控制, 垃圾邮件过滤, 支持向量机

Abstract:

A Novel Spam Filtering Method (NSFM) is proposed, which removes redundant attributes from the high dimensional attributes, and selects the attributes, which contribute to the classification accuracy, thus, to improve the classification rate of spam filtering. A fuzzy adaptive particle swarm algorithm is developed, which can dynamically control the inertia weight, learning factor and particle number factor using fuzzy control. The NSFM consists of three stages, kernel feature selection, feature selection and spam filtering. In the first stage, information gain is employed to calculate the information value of each feature, and construct a kernel feature set, thereby obtaining a number of kernel feature subsets. In the second stage, according to the kernel feature subset, IFAPSO is initialized and adjusted adaptively using the fuzzy controller, thus finishing spam filtering. In the final stage, support vector machine is used to classify the optimal feature subset and finish spam filtering. In this paper, PUl, LingSpam and SpamAssassin data sets are utilized. Through many comparative experiments, it is confirmed that the proposed method is adaptable and can select better feature subsets, thereby enhancing the classification accuracy rate effectively, and building up the performance of spam filtering. The NSFM has important practical value.

Key words: artificial intelligence, feature selection, particle swarm optimization, fuzzy control, spam filtering, support vector machines

中图分类号: 

  • TP18
[1] 赵东,孙明玉,朱金龙,于繁华,刘光洁,陈慧灵. 结合粒子群和单纯形的改进飞蛾优化算法[J]. 吉林大学学报(工学版), 2018, 48(6): 1867-1872.
[2] 隗海林, 包翠竹, 李洪雪, 李明达. 基于最小二乘支持向量机的怠速时间预测[J]. 吉林大学学报(工学版), 2018, 48(5): 1360-1365.
[3] 董飒, 刘大有, 欧阳若川, 朱允刚, 李丽娜. 引入二阶马尔可夫假设的逻辑回归异质性网络分类方法[J]. 吉林大学学报(工学版), 2018, 48(5): 1571-1577.
[4] 顾海军, 田雅倩, 崔莹. 基于行为语言的智能交互代理[J]. 吉林大学学报(工学版), 2018, 48(5): 1578-1585.
[5] 刘元宁, 刘帅, 朱晓冬, 陈一浩, 郑少阁, 沈椿壮. 基于高斯拉普拉斯算子与自适应优化伽柏滤波的虹膜识别[J]. 吉林大学学报(工学版), 2018, 48(5): 1606-1613.
[6] 臧国帅, 孙立军. 基于惰性弯沉点的刚性下卧层深度设置方法[J]. 吉林大学学报(工学版), 2018, 48(4): 1037-1044.
[7] 王旭, 欧阳继红, 陈桂芬. 基于垂直维序列动态时间规整方法的图相似度度量[J]. 吉林大学学报(工学版), 2018, 48(4): 1199-1205.
[8] 张浩, 占萌苹, 郭刘香, 李誌, 刘元宁, 张春鹤, 常浩武, 王志强. 基于高通量数据的人体外源性植物miRNA跨界调控建模[J]. 吉林大学学报(工学版), 2018, 48(4): 1206-1213.
[9] 黄辉, 冯西安, 魏燕, 许驰, 陈慧灵. 基于增强核极限学习机的专业选择智能系统[J]. 吉林大学学报(工学版), 2018, 48(4): 1224-1230.
[10] 黄岚, 纪林影, 姚刚, 翟睿峰, 白天. 面向误诊提示的疾病-症状语义网构建[J]. 吉林大学学报(工学版), 2018, 48(3): 859-865.
[11] 李雄飞, 冯婷婷, 骆实, 张小利. 基于递归神经网络的自动作曲算法[J]. 吉林大学学报(工学版), 2018, 48(3): 866-873.
[12] 刘杰, 张平, 高万夫. 基于条件相关的特征选择方法[J]. 吉林大学学报(工学版), 2018, 48(3): 874-881.
[13] 耿庆田, 于繁华, 王宇婷, 高琦坤. 基于特征融合的车型检测新算法[J]. 吉林大学学报(工学版), 2018, 48(3): 929-935.
[14] 蔡振闹, 吕信恩, 陈慧灵. 基于反向细菌优化支持向量机的躯体化障碍预测模型[J]. 吉林大学学报(工学版), 2018, 48(3): 936-942.
[15] 王旭, 欧阳继红, 陈桂芬. 基于多重序列所有公共子序列的启发式算法度量多图的相似度[J]. 吉林大学学报(工学版), 2018, 48(2): 526-532.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
No Suggested Reading articles found!