




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、基于统计分析建立流量动态临界线的蠕虫检测机制研究 摘 要:提出了一种基于正态分布进行异常流量检测,从而判断当前内网中是否存在蠕虫感染的方法。该方法根据历史流量的正态分布统计特性,计算出网络内数据流量的一般行为的可信区间,如果监控的流量超出该可信区间,则判断为异常流量并作出蠕虫威胁的报警。结合该方法,进一步分析了如何以双因素模型分析网络中蠕虫的数量。 关键词:正态分布; 异常流量; 可信区间; 蠕虫 中图分类号:TP393 文献标志码:A 文章编号:1001-3695(2010)03-1032-03 Worm detection technology
2、 research of net-flow dynamic critical line established based on statistical analytic method WANG Yong-chao?a, XIE Yong-kai?a, ZHU Zhi-ping?a, LIN Huai-zhong?b (a.Center of Network & Information, b.Institute of Artificial Intelligence, Zhejiang University, Hangzhou 310027, China) Abstract:This p
3、aper raised a method detect the abnormal net-flow based on normal distribution, then estimated the existence of Internet worm in internal network. According to the normal distribution character of the history flow, this method computed the normal behavior trusted zone of data flow in network, judged
4、 the inspected flow abnormal flow if it went beyond the trusted zone, and alarmed the threat of Internet worm. Combined with this method, further analyzed how to use two-factor model ana-?lysis? of the number of Internet worms in network. Key words:normal distribution; traffic statistic; trusted zon
5、e; worm 随着互联网的迅速发展及广泛普及,网络蠕虫的危害日益加剧。网络蠕虫的攻击一般都具有相似的攻击模式,即主要针对计算机操作系统或应用系统的特定安全漏洞,通过各种方式的端口扫描从而发现目标节点,进而发起攻击。针对这些特点,如果在蠕虫爆发时进行防治则显得滞后许多。所以,建立一个优先的蠕虫预警机制,对于可能发生的异常行为作出有效的预警,从而能够较早地对于蠕虫的爆发进行预警及防范,这不失为一个好的策略。蠕虫检测的目的在于发现网络中的计算机是否感染蠕虫,而蠕虫预警的主要功能是在蠕虫尤其是未知的蠕虫大规模探测、渗透和自我复制之前及时发现其感染痕迹进行预警1。由于现阶段蠕虫产生的速度过快,对统计出
6、的流量使用传统加以比对的方式只能针对已有的蠕虫类型作出较好的预警,而对于未知的蠕虫行为则会出现较多的误判。又由于蠕虫的扫描行为种类繁多,对于流量异常情况很难确定其是蠕虫行为还是其他非恶意行为造成的,在正常流量基线的基础上建立动态的临界线应该成为本文的首选。 对于一般的网络行为,由于其各异性而形成不同的流量大小,通过使用正态分布模型对其随机行为的模拟,可以大致确定网络中的一般行为以及流量产生的概率。使用过去的正常流量作为样本观测值,进而确定其统计概率,这在一定程度上符合实际流量情况。对于采集的正常流量数据,以一定的概率方法设置正常流量可能出现的临界线,若某一时刻的流量超越该临界值,则可以怀疑当前
7、网内有恶意行为。 由于大部分蠕虫感染是针对某一端口进行传播,当网络内出现异常流量后,使用net-flow统计出具有异常流量的端口信息,结合使用双因素模型计算网络内感染的主机状态,主要计算感染的主机数量,从而达到蠕虫大规模爆发预警的目的。 1 流量分析检测 流量分析检测也称做异常检测法,是当前最常见也是最有效的检测方法,主要是建立正常情况下的流量模型。通过将当前流量与正常行为下的流量加以比对,计算当前流量的偏移值,从而确定网络内部是否有蠕虫爆发。流量分析检测法也是无线传感网络(wireless sensor network, WSN)中主要的检测方法。 1.1 基线分析法与动态临界线 基线分析(
8、baseline analysis)是基于正常流量统计的。首先将一天划分成多个时间段,对各个时间区间内的正常流量进行统计并做出平均值,然后将当前网络中的流量与正常流量加以比较,若与统计的基线吻合情况较好,则判断其为正常流量;偏离较大时则有可能为蠕虫攻击2。 由于网络内流量产生因素复杂,而且不同的蠕虫对于流量的影响也不尽相同,只判断当前流量与基线流量的偏离值很难说明是否有蠕虫爆发。基于这种情况,对统计的基线做出一个较为可信的动态临界线,若当前流量的偏离不超过基线和动态临界线时,则说明此时的流量是可信的流量。首先依据不同时段正常的网络平均流量建立动态基线,然后以动态基线值为基础提升?K倍(K>
9、;1?)固定比率位置建立动态临界线,当某一时段的流量超过临界线 ,即可判定此时段为流量异常时段3。 以上方法所取?K?值具有一定的主观性,所以其可信度不能确定,但这种动态建立临界线的思想能大大降低对流量的误判。本文结合这种思想,以一定的随机概率来确定动态临界线。 1.2 基于正态分布的动态基线和动态临界线 在某一时刻?t,假设当前网络正常的最大流量为F?max?,则正常情况下超过最大流量的概率分布为?P(?tF?max?)。其中?t为当前时刻t的流量。对于连续性的概率分布,一个变量如果受到大量微小独立的随机因素影响,那么这个变量一般满足正态分布N(,?2)?。由于网络内存在大量独立用户,其行为
10、相互独立且不同,本文也选择正态分布来描述单个时刻内网中发生流量的正常行为。通过对浙江大学某宿舍楼主交换机一周的正常情况作样本统计检验,其单个时刻流量分布概率情况如图1所示(?x轴为流量情况,单位为K;y?轴为概率情况)。 从图1中可以看出,在多次固定时刻样本抽样过程中,大量的样本抽象表明,抽样点流量的分布概率基本接近正态分布函数特性,尤其是对于抽样点概率密度相对较大的区域(图中反映的抽样点集中区域实现区域)与正态分布函数特性极为吻合。因此可以说单时刻交换机流量整体服从正态分布情况是比较好的。这里以此选定动态基线和动态临界值。 对于流量?t ,过去m次正常流量的观测值为F?t?i(i=1,?2,
11、m)?,取其平均值作为子样观测的均值,有?t=(mi=1F?t?i)/m,并令其方差为子样观测方差,有D?t=(mi=1(F?t?i-?t)?2)/m。而对于符合正态分布普通网络行为,?t?1=?t,?t?1=D?t=(mi=1(F?t-?t)?2)/m?,基于正态分布的性质以及Chebyshev定理,本文引入正态分布的?3原则。 正态分布的3?原则:当随机变量?满足正态分布时 ?P(|3)?=1-12?+3?-3?e?-?(x-)?22?2?d?x0.003即在一般情况下|3。? 根据以上定义,在一个正常网络内,?P(?t(?1+3?1)0.003,笔者认为这个概率是足够小的,于
12、是取动态基线为?t?1,可信范围为3?t?1。如果?t?1-3?t?1>0。则动态临界线的范围为?t?1-3?t?1,?t?1+3?t?1;否则为0,?t?1+3?t?1。?这个区间为可信区间,即一般的网络内活动满足区间内的规律。 1.3 异常流量的检测 假定当前?t时刻的实际观测值为F?t?D,当前的正常流量均由正常的主机发出。对以往统计出的单个时刻主交换机的连接数b?t?i(i=1,2,m)使用统计均值,得到?t=(mi=1b?t?i)/m,则此刻数据流量的平均长度为?t=(?t?i)/?t。由于网络中蠕虫传播的前期宿主机总是发送探测包用于寻找能够攻击的其他主机,此时网络内的流量会比
13、正常流量时有所增加,即F?t?D>?t×b?t?D。其中b?t?D为当前交换机的连接数。 取=F?t?D-(?t?1+3?t?1),若>0,则可以判断当前网络内出现异常流量。当0时,当前的连接数为b?t?D,则一般可信的流量应为F?t?N=?t×b?t?D,令F?t?U=|F?t?D-F?t?N|。同样,由于当前时刻网络内正常行为满足正态分布,在这种情况下置信范围仍然取3?t?1,即当F?t?U>3?t?1?时,判断此时出现的流量为异常流量。通过对浙江大学某宿舍楼服务器建立流量检测方法,得到的结果如图2所示。其中采样时间为下午13:0018:00,采样间隔
14、为5min。 图中蓝线为在通常正常流量情况下的动态基线流量的预测分布,红线与深绿色线为可信流量区间的下界与上界,草绿色线为学校蠕虫异动情况下的流量检测分布情况。对图中超过临界线的流量进行危险报警,并在此时段作出网络内有蠕虫感染的判断。 2 传播模型 2.1 双因素模型(two-factor model)4 在简单传染病模型的基础上,人们考虑到主机会因为网络的不稳定以及主机会产生自我保护,从而导致感染率?的变化,并且随着时间的变化感染率可以表达为时间t的函数?(t)?。双因素模型考虑到感染状态的转移过程有两个,分别是:易感染感染免疫;易感染隔离。 当蠕虫传播开始时,由于主机的保护强度不够,使得受
15、感染的主机增多,则整个网络对于未感染的主机加强重视,对于还未感染的易受染主机进行隔离保护,使得网络中隔离主机的数量增加。其次,对于已感染的主机恢复后对其加以免疫。 对于整个传播过程来说,蠕虫传播的初期,由于大部分的主机未被保护,使得大量主机被感染,网络中引起对未感染主机的重视而对其进行隔离;传播的中期,隔离中的主机未被感染,而受感染主机开始逐步恢复,部分受染主机进入免疫状态,未被感染的主机依旧加强隔离;蠕虫传播的末期,由于大量主机进入了确定的状态,隔离和免疫的主机数量趋于平缓,直至不再增长5。感染主机恢复的同时也进入免疫状态,所以本文所提到的恢复状态和免疫状态为同一时刻的状态。 双因素模型中受
16、感染主机的数量随时间的变化为 d?I(t)?d?t=(t)N-R(t)-I(t)-Q(t)I(t)-?d?R(t)?d?t?(1) 其中:?I(t)为t时刻被感染的主机数量,不包括已恢复的主机;N是网络中总的主机数量;S(t)是t时刻易感染的主机数量;?(t)?表示感染率随蠕虫传播的变化; Q(t)和R(t)分别表示已隔离和已恢复(免疫)状态的主机数量。它们的状态转移表达式为N=S(t)+I(t)+R(t)+Q(t)。?d?S(t)?d?t=-(t)S(t)I(t)?-d?Q(t)?d?t;?d?R(t)?d?t=I(t);?d?Q(t)?d?t=S(t)J(t)?(2) ?(t)=?01-I
17、(t)N?(3)其中:?J(t)表示所有感染过和正在感染的主机数量,有 J(t)=I(t)+R(t)=N-S(t)-Q(t)? 对于初始时刻?I(0)=I?0<2.2 主机的抵抗强度 根据双因素模型中所提出的主机免疫和隔离两种状态下,当前爆发的蠕虫很难对其进行感染这一线索6,本文作如下表述:易感染但出现隔离状态,或者已感染但出现免疫状态的主机称做抵抗度强的主机,否则称做抵抗度弱的主机。所以本文将传播过程描述成如图3所示的形式。 主机最终转移到强抵抗状态,此时已有的蠕虫种类将无法感染网络内的主机。设抵抗强的主机数量为?K(t),所有正常的主机数量为Z(t),则有Z(t)=K(t)+S(t)
18、。? d?K(t)?d?t=I(t)+S(t)J(t)?(4) 最后得出:d?Z(t)?d?t=-(t)S(t)I(t)?(5) 其中?Z(0)=N。很显然,?式(5)表现了正常主机在单位时间内的变化率。 本文对浙江大学某宿舍楼主交换机上的端口流量进行某时间段的net-flow流量检测,通过在net-flow服务端中的flow-cat /Date-collect-directory/ |flow-filter-Pport |flow-print >filename等命令脚本,结合more filename |awk print $1|sort|uniq-c |sort-n |awk if
19、($1>100)print $2等awk统计命令(其中100为经验性蠕虫感染阈值),从而对该端口流量各类蠕虫可能感染的服务port进行TCP session 数量统计,最终统计估出各个时间点的正常主机数量。图4为该交换机的联合流量统计结果。其中?Z(t)为主机数,t?为时间,单位时间间隔为5min,?F(t)?为流量,单位为千字节。从图中不难看出,初始时刻该交换机所辖网段正常主机数量与流量均较大;随着时间的变化,部分主机进入感染状态,正常主机数量明显下降,流量也相对降低;最终随着感染主机逐步进入免疫状态,正常主机数量与流量又逐步恢复正常。该统计图表较好地说明了主机抵抗强度的转移模型。 3
20、 蠕虫预警 监测当前整个网络内的流量,如果出现流量异常,本文将使用双因素模型对网络内可能的蠕虫感染状态作出粗略判断,通过对发出异常流量的主机屏蔽等手段做到整个内网内的蠕虫预警。 3.1 对网络内蠕虫情况的监测 由于大部分的蠕虫都是通过固定的通信端口进行传播,当网络内有蠕虫感染时,受感染的主机会留下一些端口流量的记录7。 Net-flow工具会对网络中节点发送数据包的目的地址端口进行统计,所以如果出现异常流量,并且大量的异常流量是针对于固定的端口进行传播,则可以增加网络中蠕虫发生感染的概率。令?F?t?d为节点针对固定端口发生的流量,则对于不可信的流量F?t?U,?t=F?t?d/F
21、?t?U?。 3.2 网络内蠕虫感染数判断 前面提出的强抵抗主机数?K(t),网络中由这部分主机产生必然可信流量F?t?E=?t×K(t)?,由于本文对流量的统计是基于时间和正常主机进行的统计,由前面的式(4)和(5)可以得到d?F?t?E?d?t=(?t-?t-1?)I(t)+S(t)J(t)?以及d?F?t?N?d?t=(?t-?t-1?)?-(t)?S(t)I(t)?。 通过异常流量检测,分别会出现?>0和0F?t?U>3?1两种异常情况。首先,当>0时,令F?t?E=?1,则K(t)=?t为必然可信的流量,于是有I(t)=(?t-?t-1?-S(t)J(t)
22、/, I(t)为感染数。其中S(t)=(3?t?1)/?t,感染主机的扫描包发送速率v?根据当前网络内截获的数据包增长速度决定。 其次,当出现?0F?t?U>3?1情况时,I(t)=(?t-?t-1?)(b?t?D-b?t-1?D)-(t)S(t), I(t)为感染数。其中S(t)=|b?t?D-?t|。 如果计算出的I(t)?值较大,网管人员可以根据网络状况及时发出蠕虫爆发的预警。 4 结束语 由于网络的变化日新月异,产生的网络威胁也快速变化,网络蠕虫的产生和变种较之以往速度和威胁都大大增加。本文使用基于正常网络行为的统计规律,以此加以辨别非正常的网络行为,不仅能够适应快速变化的网络威胁,而且由于方法单一化以及网络数据易检测的特点,使得该方法具有一定的实用性。不足之处在于,由于该方法基于以往的经验得出,需要网络管理人员具有较高的网络安全管理能力,使得该方法具有一些主观性。但是对于其后的研究
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 迈出成功第一步的计算机基础考试试题及答案
- 汽车美容师全球市场动态试题及答案
- 2024小学语文试题及答案大集合
- 第2讲 磁场对运动电荷的作用-2026版大一轮高考物理复习
- 语文书写技巧掌握六年级题试题及答案
- 归纳2024古代文学史的试题及答案
- 皮肤测试的科学依据试题及答案
- 提升汽车美容师能力的考试重点与试题答案
- 2024汽车美容师应急处理能力试题及答案
- 计算机基础考试试题及答案分析
- 油气储存企业安全风险智能化管控平台建设指南20220214
- 社会文化因素与健康课件
- 中华医学会杂志社作者贡献声明.
- 口腔科诊断证明书模板
- 蓄水池工程工程安全管理措施和方案
- 机壳类2D图纸标注参考规范
- 起重吊装及指挥安全风险告知书
- 《远离浮躁,静心学习》ppt课件
- 二维数控精密工作台设计说明书
- 项目研究助力区域教学改进
- 初中化学优质课评分表.
评论
0/150
提交评论