作者简介:葛琳(1978-),女,博士研究生.研究方向:网络信息安全.E-mail:lingesnow@126.com
针对网络中信息内容安全事件的态势评估问题,通过对网络信息内容安全事件的多维特征分析,提出了一种层次化的信息内容安全事件态势评估模型及参数计算方法.该模型采用层次式结构,分别对事件级,区域级和系统级的态势评估值进行计算.其中,事件级态势利用事件特征中的行为特征和内容特征进行计算;区域级态势则依据关系特征和位置特征;系统级态势整合所涉及的各区域级态势.对各级态势评估值参数的计算方法进行了定义.仿真实验结果表明:该模型及计算方法具有可行性和可靠性,在对信息内容安全事件的态势评估过程中能够有效反映事件的影响程度并把握其变化规律.
To solve the problem of situation evaluation for network information content security incidents, a hierarchical situation evaluation model parameter calculation method are proposed, through the analysis on the multi-dimension characteristics of network information content security incidents. The model uses hierarchical structure and calculates the situation assessment values of incident level, area level and system level respectively. Among these levels, the incident level is based on the behavioral characteristics and content characteristics of the incident characteristics; the area level is according to the relationship characteristics and location characteristics, and system level integrates the involved area levels. The method to calculate the parameters is defined. Simulation results show that the model and method is feasible and reliable. It can reflect the impaction of incidents effectively and grasp the change rules of the incidents in situation evaluation of information content security incidents.
信息内容安全事件(Information content security incidents, ICSI)指利用信息网络发布, 传播危害国家安全, 社会稳定和公共利益内容的安全事件[1, 2].目前, 信息内容安全领域的研究主要有:针对以传输特定信息为目的的信息渗透的检测技术研究[3], 针对网络信息内容安全的控制模型及其评估的研究[4], 基于文本内容的事件分类技术[5]以及通过对多媒体内容的识别, 发现其中隐藏的安全事件[6]等.
现有的态势评估技术主要针对攻击类的网络安全事件, 对具有合法网络用户身份却发送不良信息内容所构成的安全事件进行态势评估的研究极少.近年来的态势评估技术主要有:Roesch[7]根据攻击的破坏程度和目标漏洞的风险级别来对报警数据划分威胁等级, 实现对安全态势的评估; Porras等[8]提出了基于受系统任务影响的预警优先级评估方法; Hariri等[9]针对通信协议和网络设备的脆弱性, 提出了数据传输速率, 缓冲区占用率等网络性能指标, 通过大量分布在网络中的agent获取与脆弱性相关的信息, 对网络的安全状况进行评估; 文献[10]提出了一种基于IDS海量预警信息和网络性能指标的, 并结合服务, 主机本身的重要性及网络系统的组织结构的层次化网络安全威胁态势量化的评估方法; 文献[11]使用隐马尔可夫模型描述主机的各种安全状态和转换关系, 通过安全状态之间的转换概率评估主机受到的威胁, 而网络所处的威胁等级则由各主机的威胁等级综合决定; 文献[12]提出基于信息融合的网络安全态势评估模型, 包含数据源融合, 态势要素融合和节点态势融合3种算法; 文献[13]针对网络安全中涉及的动态性因素, 如安全漏洞和安全威胁等, 提出了一个安全指标框架, 对各安全风险因素进行量化.
相较于攻击类事件, ICSI以传播不良信息内容为目的, 强度小, 信息繁杂, 具有隐蔽性, 不会像攻击类事件一样破坏网络中硬件设备导致故障和瘫痪等, 也不存在类似IDS日志的告警信息.因此, 对该类事件进行态势评估的难度较大.如何通过对攻击类网络安全事件的态势评估技术的学习和借鉴, 实现对信息安全事件的态势评估, 是本文要解决的主要问题.通过对已有相关研究的分析可以看出, 对网络中ICSI进行评估需要考虑以下几点:① 评估网络或系统的组织架构; ② 涉及节点的重要性程度或等级的先验知识; ③ 事件的特征及其对态势评估值的影响.通过上述分析, 本文对ICSI的特征进行了分析, 提取其所具有的多维特征, 提出了一种层次化评估模型和参数计算方法, 对ICSI进行态势评估.该模型采用层次式结构, 将复杂的问题进行分步解决.首先, 将各组成维度特征按照一定的关系进行分组; 然后, 按照关系构成层次化的评估结构体系; 最后, 计算各层的评估结果, 并整合汇总.实验结果表明, 本文提出的模型和方法具有可行性和可靠性, 在对ICSI的态势评估中切实有效.
数据集的主要来源为VAST 2008中的Cell Phone Social Network数据集[14]和Enron公司2009年邮件数据集[15].其中, Cell Phone Social Network数据集包含了400人10天共计9834条通信记录.如表1所示, From和To分别表示通信双方的号码编号, Date time表示按照需求划分出的时间段编号, Duration为通信时长, Type为通信类型, Cell Tower为主叫用户所属的基站编号.Enron公司邮件数据集中, 采用87 448个用户的255 636封邮件数据.如表2所示, Domain Name-i和Domain Name-j分别表示邮件双方的地址域名, Time为邮件发送时间, Subject为邮件的主题.
网络通信数据集可以反映网络中用户的多个通信特征, 通过对通信特征的分析可以找到其中蕴含的规律, 对其进行归纳可折射出网络中各类安全事件的状况.通过对上述两个数据集的分析可以得到:
(1)行为特征(Behavioral character)
表1中, 大部分用户的通信时长在一个常规的阈值范围之内, 而极少数用户的通信时长超过或低于该阈值, 累积超长或超短通信次数较多的地址或号码具有一定的非常规性.表2中, 大部分用户的邮件内容不具有重复性, 即具有不同的主题, 那些同一通信类型且具有相同内容类似广播的通信通常具有非常规性.同时, 大部分用户某时段内的通信次数通常保持在一个常规的阈值范围之内, 而极少数用户的通信次数超过了该阈值, 表明该号码或地址具有特殊用途, 例如, 作为商业联络或者为ICSI的发送源, 前者属于合法通信行为, 后者则需结合通信内容做出判别.
(2)关系特征(Relation character)
表1和表2中, 大多数用户的通信对象较为固定, 即仅与一定范围内的人进行联络, 符合人类社交的群体性特征, 而那些通信对象数目过多的用户可能具有特殊的用途.
(3)位置特征(Location character)
表1中, 大部分用户在一段时间内通信所涉及的基站数目较少, 符合用户活动范围的有限区域性特征.极少数用户涉及的基站范围较多, 表明该用户具有一定的特殊性.同理, 表2中, 大部分用户在一定时间段内的IP地址是较为固定的, 极少数用户的位置变化频繁, 表明了该用户具有特殊性.
(4)内容特征(Content character)
对表1和表2中用户的行为特征, 关系特征和位置特征进行关联分析, 可以得到网络中特殊用户的地址或号码, 但如果需要进一步明确ICSI事件的具体内容, 则需有针对性地对此类用户的具体通信内容进行分析.
通过上述分析可知, ICSI具有多维特征, 如图1所示.同时, 时间(When), 地点(Where), 人物(Who)和内容(What)是能够清楚描述一个事件的四要素, 在对ICSI的态势评估中, 需要充分考虑到这4个因素.其中, When是事件的发生区间即通信时间, Where可在用户的位置特征中得到反映, Who可在表示用户的通信关系特征信息中获取, What则由用户的行为特征和通信内容特征决定.从图中可以看出, 在网络多维通信数据集中, 隐含了各类安全事件发生的要素, 如何充分利用此类信息, 整合ICSI所涉及的各维数据, 是实现对ICSI全面的态势评估的基础.下面将针对此问题, 提出一种层次化的评估模型, 并对其各指数的量化方法进行论述.
通过前文的分析可知, 网络ICSI的态势通过多维通信信息展示.首先, 对通信数据分析得到ICSI的事件的自身信息.例如, 通过对通联关系的分析可确定事件的影响(发送次数, 涉及人数); 通过对通信类型的分析可确定事件的类型(语音, 视频, 邮件等); 通过对主题, 关键词等内容的分析可以确定内容类别(政治类, 经济类, 军事类等); 通过对涉及的通信地址的分析可得出事件的目标(目标人群, 地区).其次, 通过对各个区域内涉及ICSI的地址或号码的分析可得出不同地区的态势指数; 最后, 综合各个区域的ICSI态势指数得出全网的ICSI态势值.
根据对事件的分析过程, 本文提出了一个层次化ICSI态势评估模型, 如图2所示.该模型分为数据层, 事件层, 区域层和系统层4个层次, 采用自下而上, 先局部后整体, 先判别事件后根据事件关联的方法对网络中ICSI的态势进行评估.图2中, 在数据层输入相关的ICSI通信记录; 在事件层利用行为特征中的通信时长, 通信次数, 通信类型和内容特征中的内容类别进行事件级态势指数的评估; 根据位置特征和关系特征中涉及到的用户位置和地址/号码等相关信息确定事件所属的区域, 结合事件层得出的事件级态势指数, 计算区域层态势指数; 系统层整合各个区域的态势指数给出整个网络的态势值.
定义1 通信记录R(Record).引发ICSI的网络通信记录, 表示为:R={Time, Duration, Times, Type, Class, SIP/ID, DIP/ID, Area}.其中, Time为研究的时间区间, Duration为通信时长, Times为通信次数, Type为通信类型, Class为内容类别, SIP/ID为源地址/号码, DIP/ID为目标地址/号码, Area为用户所属的基站/域名位置.
定义2 事件级态势指数IF(Incident factor).表示ICSI发生时对整个网络ICSI的影响程度.通过ICSI中的通信类型和内容类别结合通信时长, 通信次数对ICSI的影响, 在事件层做出判断.
定义3 区域级态势指数AF(Area factor).表示ICSI事件所涉及区域的态势指数.综合本区域中用户及其涉及事件的态势指数给出AF.
定义4 系统级态势指数SF(System factor).表示整个通信系统中ICSI的态势总指数.整合各个区域的AF, 给出整个系统的SF.
2.2.1 事件级
事件级态势指数的计算包括了对事件通信次数, 通信时长, 通信类型和内容类别的综合衡量,
(1)
(2)
(3)
(4)
(5)定义运算
2.2.2 区域级和系统级
本文对区域级和系统级态势指数的设计采用相同的原理.t时刻区域n的区域级态势指数AFn越大, 说明该区域的ICSI事件态势状态越严重.
(1)
(2)
与区域级态势指数的计算方法类似,
(3)
(4)
为全面验证层次化ICSI态势评估模型的有效性和可靠性, 本文实验分为两部分进行.实验一, 利用开源数据集, 采用较大的时间窗口, 进行事件低维度特征的粗粒度态势评估; 实验二, 建立局域网仿真环境, 采用较小的事件窗口, 结合事件多维度特征进行细粒度的态势评估.
本节实验采用VAST 2008中的Cell Phone Social Network数据集和Enron公司2009年邮件数据集作为实验数据.其中, 采用VAST 2008的数据集中的2006年6月1日至5日的数据进行态势评估, 将超长通话(Long duration), 超短通话(Short duration)和频繁通信(Frequent communication)作为事件的行为特征, 如图3所示.根据数据集的具体数据和实验需求, 图3中选取基站编号为10的基站下用户作为研究对象, 在选取的5天时间段内, 最长通信时长为1732 s, 最短通信时长为166 s, 平均通信时长为1030 s, 平均通信次数为5.根据先验知识和实验数据的选取便利, 将大于
设定
利用前文介绍的层次式ICSI态势评估模型的计算方法, 对图3和图4中的模型进行分析, 结合表4和表5中的数据, 对纵坐标做归一化处理, 可得到如下实验结果:
(1)VAST 2008和Enron 2009数据集下的ICSI事件级态势(分别以ID335和IP4967为例).
图5中, 6月1日和6月4日分别出现了两个特征的峰值, 图6中, 在6月6日出现态势的最高峰点, 6月20日出现态势的较小峰值点, 其他时间段基本处于零值点.以Enron 2009数据集中用户IP4967为例进行说明:在提取的时间段内, 通过与数据集中的数据对照发现, 其邮件发送数目在6月6日为413, 6月20日为120, 均超过了设定的阈值, 且6日的次数远大于20日的次数, 而在5月29日至6月27日的其他时间均没有出现超过阈值的通信, 这一行为特征从图中得到了良好的反映.同时, 从图6中还可以看出, 通信类型和内容类别特征权重的赋值对于用户IP4967来说是不变的, 但是随着频繁通信特征的态势变化, 二者也随之发生了变化.实际中, 当某用户采用固定的通信类型进行频繁通信时, 即使其传递的消息内容权重值始终不高, 如固定内容的垃圾邮件, 仍应引起网络管理员的重视.由此, ICSI的各个维度特征之间可以产生相互影响, 且本文中对事件级态势评估定义的计算方法是有效的.
(2)VAST 2008和Enron 2009数据集下的ICSI区域级态势(分别以ID161, 285, 323和335; IP253, 801, 1654和4967为例).
图7和图8为区域内各ID和IP的态势评估变化.以图7中的VAST 2008为例进行说明:ID335的事件级态势如图5所示, 在区域级态势计算时加入了该用户的重要性权重0.145, 如图7所示, 其态势评估值的大小较事件级态势下降了一些, 原因为与区域内的其他用户分配了权重(即对整体态势的影响程度), 但没有对该用户个体的态势变化趋势产生影响.因此, 加入用户重要性权重之后, 可以更加突出定义的重要用户的ICSI态势变化.对于其中重要性赋值较低的用户, 其变化仍为研究的对象, 但不会对整体态势产生大的影响, 符合网络中的实际运行状况和信息安全管理的需求.
(3)VAST 2008和Enron 2009数据集下的ICSI系统级态势
整合系统中所涉及的各区域级态势评估值即可得到系统整体的态势评估值变化.本节实验中, VAST 2008只涉及一个基站, Enron 2009涉及两个域名.将图9和图10与前文中的事件级, 区域级态势图进行对比可以看出, 二者的系统级态势图中均包含了个体和区域的态势走势特点.其中, VAST 2008基站10下的ICSI态势变化趋势较为连续, 平缓处较多; Enron 2009两域名下的ICSI态势变化趋势起伏较大.结合数据库中的数据分析可知, 电信网络中ICSI各特征的变化较为显著, 在不同时段虽然表现的特征维度不同, 但均具有一定的特征变化.在互联网络中, ICSI各特征的变化则具有一定的突发性.由此可以看出, 本文提出的模型和参数计算方法, 结合了着手, 对ICSI的态势变化具有敏感性, 能够有效把握其变化趋势.
网络构成的各元素, 从最基本的各用户行为特征等处着手,对ICSI的态势变化具有敏感性,能够有效把握其变化趋势。
实验一中的数据来源为开源数据集, 可供选择的特征维度较低, 选择的时间窗口较大.本节将通过自建局域网仿真环境模拟产生ICSI事件, 对涵盖5个特征维度的ICSI进行细粒度的态势评估.该局域网网段为192.168.1.0~24, 其中192.168.0.21, 192.168.0.22和192.168.0.23分别为3个区域地址, 系统地址为192.168.0.24, 三个区域的重要性权重赋值分别为0.3, 0.4和0.3.实验中通过计算机终端通信软件模拟产生超长通话, 超短通话和频繁通信, 涉及的通信类型为视频, 音频和信息, 内容类别设定为军事, 政治, 经济和特殊类.基于层次化的ICSI态势评估模型如图11所示, 各事件特征重要性和用户个体权重信息的设置方法与实验一中相同, 由于涉及终端用户数目较多, 在此不再赘述.
实验中, 产生的通信数据总数目为166条/min, 其中, 出现超长通话, 超短通话和频繁通信的条数/分钟, 出现的比例分别为0.5%, 0.5%和0.5%.将超过600 s的通信时长记为超长通信, 低于10 s的通信时长记为超短通信, 超过6次/min的通信次数记为频繁通信.各通信类型占总通信类型的比例设置为:视频10%, 音频50%和信息40%, 按照通信类型对用户的影响程度从大到小设置为, 视频类> 语音类> 短信类> 邮件类等.同时, 为了凸显态势评估模型对特殊类事件的有效感知能力, 将各内容类别占总通信类别的百分比设定为:军事30%, 政治30%, 经济30%和特殊10%, 按照通信内容对用户的影响程度从大到小设置为, 特殊类> 政治类> 军事类> 经济类.各通信类型和内容类别的权重设置原则按照表3所示进行.实验中, 为更好反映用户通信特点和模型对事件态势变化的把握能力, 对各通信维度特征的重要性权重赋值均等, 设定
(1)局域网仿真环境下的ICSI事件级态势(以IP192.168.0.3中的超长通话, 频繁通信, 通信类型和内容类别特征为例)
图12为IP192.168.0.3的超长通话, 频繁通信, 通信类型和内容类别特征在时间段18:00-19:00间的变化趋势.如图中所示, 在18:15左右, 内容类别特征达到接近1的态势值, 而此时的频繁通信特征也保持在一个较高的水平, 通信类型特征的归一化态势值则在零点附近.这说明此时该IP用户的通信过程中发生了具有较高权值的内容类型的事件, 其采用的通信类型不具有较高的权值, 且在此时段进行了多次通信, 应引起网络管理员的重视, 对应如图13所示, 此时的事件级态势值为整个观测时段中的最高点.图12中, 18:25左右出现了内容类别特征的另一较高峰值点, 但此时其他各维度特征归一化值均为零点附近.这说明此时发生的通信中出现了具有一定权值的内容类型的事件, 但其不具有其他诸如多次通信等的特征, 因此, 可看作单次事件, 对整个态势的影响力度不大, 故此点的事件级态势值并不高, 如图13所示.通过上述分析可知, 本文模型和参数的计算方法结合了ICSI事件的多个维度特征, 吻合用户和网络通信的实际状况, 对ICSI事件的态势把握客观, 清晰, 便于网络管理员将关注点聚焦在那些尤为重要, 影响度较大的事件上.同时, 在实际应用中, 可以根据网络信息安全管理的需求, 对各个特征赋予不同的重要性权值, 使其可以在多维特征的态势变化中得以重点显现, 引起特别关注.
(2)局域网仿真环境下的ICSI区域级态势
图14为ICSI的区域级态势.仿真环境下, 建立了3个区域分别为192.168.21, 192.168.22和192.168.23, 并分别赋予了不同的重要性权重.如图14所示, 将区域内所属用户的多维特征综合, 并根据赋予的各用户重要性权值形成的区域级态势可知, 与实验一中的含有较少维度特征的态势相比较, 实验二变化趋势的波动较多, 图形较为复杂.由此可以看出, ICSI事件本身具有多维特征, 对其态势评估时结合的特征维度越多, 越能更好, 更完整地表达该事件的变化趋势和影响程度.
(3)局域网仿真环境下的ICSI系统级态势
图15为局域网仿真环境下的ICSI系统级态势图.从图中可以看出, 局域网系统级态势的变化较实验一中两个开源数据集下的系统级态势变化曲线更为连续.这说明采用较小的时间窗口可以细粒度地反映网络中ICSI的变化, 为信息安全管理提供有效的数据支持.
上述两个实验测试表明:
(1)本文提出的层次化ICSI态势评估模型具有有效性, 可靠性和可行性.各个级别的态势评估结果与所涉及事件的多维特征及其重要性程度紧密相关, 是一个全面, 综合, 系统的评估.
(2)对VAST 2008和Enron 2009数据集的测试结果说明, 采用较大的统计分析时间窗口(以天为计量单位)可以提供较为宏观的事件态势评估走势图; 同时, 对于低维度数据集的态势评估的整体把握性强, 可以从长时期的态势变化曲线中发现其中的安全规律.
(3)对局域网仿真数据集的测试结果说明:采用较小的统计分析时间窗口(以分钟为计量单位)可以提供较为微观的事件态势评估走势图; 同时, 对于高维度数据集的态势评估的特征敏感度强, 能够从短时期的态势变化曲线中聚焦当前ICSI事件中的突出影响因素.
为解决网络信息内容安全事件的态势评估问题, 本文提出了一种层次化的态势评估模型及参数计算方法.根据信息内容安全事件所具有的行为特征, 内容特征, 关系特征和位置特征, 采用层次式结构模型.利用各特征内维度间的关系, 对事件级, 区域级和系统级态势评估值分别进行计算.为更好说明模型和方法的有效性和可行性, 分别采用开源数据集VAST 2008, Enron 2009和局域网仿真环境下的数据集进行实验, 结果表明:该模型和参数计算方法可以实现对网络信息内容安全事件的态势评估, 体现了事件的强度和变化趋势, 能够使网络管理员及时了解系统内的网络信息安全动态.下一步工作的重点是, 将模型和方法应用于多网段局域网和大规模网络系统的信息内容安全事件的态势评估.
The authors have declared that no competing interests exist.
[1] |
|
[2] |
|
[3] |
|
[4] |
|
[5] |
|
[6] |
|
[7] |
|
[8] |
|
[9] |
|
[10] |
|
[11] |
|
[12] |
|
[13] |
|
[14] |
|
[15] |
|