吉林大学学报(信息科学版) ›› 2023, Vol. 41 ›› Issue (6): 1112-1119.
徐忠原1 , 杨秀华2a , 王 业2b , 李 玲2b
XU Zhongyuan 1 , YANG Xiuhua 2a , WANG Ye 2b , LI Ling 2b
摘要: 针对入侵检测数据集存在类别不平衡问题, 提出了系统化数据预处理与混合采样相结合的网络入侵检测 算法。 根据入侵检测数据集的特征分布, 对特征值进行系统化处理。 首先对 Proto、Service 和 State 3 个类别 特征, 合并每类特征中样本数较少的取值, 以降低独热编码的维度; 然后依据数值分布将其中 18 个极端分布 的数值特征进行对数处理后再执行 Z-score 标准化。 设计了 Nearmiss-1 欠采样与 SMOTE(Synthetic Minority Over- sampling Technique)过采样相结合的类别不平衡处理技术, 将训练集中每类样本按照 Proto、Service 和 State 类别 特征分成子类, 对每个子类进行等比例欠采样或过采样。 建立了入侵检测模型 PSSNS-RF(Nearmiss and SMOTE based on Proto, Service, State-Random Forest), 在 UNSW-NB15 数据集上的多分类检出率达到 97. 02% , 解决了 数据不平衡问题, 显著提高了少数类的检出率。
中图分类号: