




下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、网络流量分析概述摘要Internet自60年代出现以来发展迅猛,网络规模飞速膨胀,网络流量越来越大,网络信息对人们生活的影响也越来越深远,然而网络中P2P等应用正在大量的消耗网络的带宽资源从而影响了关键业务的正常展开。因此,通过对网络中的各种业务流量进行分析,建立合适的预测模型就成为网络发展的必要。通过分析,能及时的发现网络中的异常,从而使得网络管理更主动,为网络的持续高性能运行提供主要的保障,为规划、设计网络提供科学依据。本文首先介绍网络流量数据采集方法,通过分析他们的优缺点让读者对网络数据采集技术有一个初步的了解。然后本文介绍了两种基于不同技术的网络流分类方法:深度数据包检测技术(DPI)
2、和深度/动态流检测技术(DFI)。在DPI中,主要介绍AC状态机模式匹配算法实现多关键字的快速匹配。而DFI是基于流特征向量的分类方法,本文主要介绍分析了朴素贝叶斯方法。在特征选择方面,介绍了运用相关度和快速的过滤器选择方法(FCBF来对特征进行筛选,得出有利于分类的特征子集,同时还可以去掉不相关或冗余特征,增加分类的准确性。最后,本文介绍了如何把网络流量分析的结果应用到入侵检测中,以发现网络中的异常。目录摘要1一、网络流量分析概述31.1 网络流量分析背景31.2 网络流量分析定义31.3 网络流量分析目的41.4 网络流量分析意义5二、网络流量采集61.1.0 网络流61.2.0 网络流的
3、特性61.3.0 网络流量采集介绍61.4.0 主流网络流量采集技术71 基于网络流量全镜像的采集技术71 基于SNMP勺流量采集技术。71 基于Netflow/sFlow的流量采集技术。81 基于干路中桥接设备的采集技术92.4网络流量采集技术的对比10三、网络流量分析112.4 基于DPI的网络流量分析技术112.4.1 DPI提出的背景112.4.2 DPI技术研究112.4.3 AC自动机算法132.4.4 DPI总结152.5 基于DFI的网络流量分析技术162.5.1 DFI的提出162.5.2 基于DFI技术的方法的基本原理162.5.3 朴素贝叶斯分类器162.5.4 改进贝叶
4、斯一FCBF(AFastCorrelation-BasedFliter):172.5.5 其他应用DFI技术的模型182.6 DPI和DFI的对比:19四、网络流量分析之应用:入侵检测202 入侵检测的基本定义以及方法202 网络流量在异常检测系统中的应用212.4 特征参数的选取212.4 特征参数变化的提取212.4 .网络流量异常的判断22五、全文总结23参考文献24、网络流量分析概述网络流量分析背景随着网络应用日趋复杂化,网络流量不断增长并且呈现多样化,如何更好的满足用户对各类Internet业务服务质量越来越精细的要求,这是目前面临的关键问题。因此,通过对网络中的各种业务流量进行分析
5、,建立合适的预测模型就成为网络发展的必要1。网络流量是记录和反映网络及其用户活动的重要载体。通过对网络流量的统计分析,可以间接掌握网络的使用情况,从而为做出决策提供有力依据。网络流量分析定义网络流量是单位时间内通过网络设备或传输介质的信息量(报文数、数据包数或字节数)。网络流量分析指的就是根据不同的方法从不同的侧面对网络流量展开的分析。网络的作用是传输应用数据,应用数据在网络中传输过程在OSI协议模型中的描述如下图:5Session4Transport2DataUnk1Physical发送图1-1OSI传输模型在OSI传输模型中,发送方的应用数据由下层协议逐层处理,最后通过物理层传输,接收方则
6、逐层向上处理从物理链路上接收的信号,最后还原成应用层数据。一个Web应用数据在OSI模型中的网络数据传处理过程如下图:5$essk)r4Transput1PhysicalDLC图1-2Web应用的数据处理从上图我们可以看出,应用数据在应用层采用HTTP协议,在传输层被分段,在网络层封包,在数据链路层封帧,由物理层传输,由每一层进行处理,按照相应的协议进行封装。网络流量的分析就是对在网络中传输的实际数据流进行分析,网络数据流的分析包括从底层的数据流一直到应用层的数据的分析,有的时候也称之为网络协议分析。1.3网络流量分析目的简单的说,对网络流量进行分析的目的是了解、发现和证明。了解,管理好一个网
7、络最重要的就是对网络的了解,了解网络拓扑、设备、配置等是必须的,但要保证网络的服务质量,那是远远不够的,对网络流量的分析能使网络技术人员更深入地了解网络。.网络运行规律的了解。每个网络都有自身的运行规律,这和网络的结构、应用特点等紧密相关,通过流量的长期分析,能够了解网络系统运行的规律。.网络应用运行规律的了解。网络上重要的应用在运行时,每一个访问,每一个交易处理,数据都由网络来传输,通过分析应用的流量,能够清楚的了解应用运行的规律,访问量、交易处理数量、响应性能等数据,都可以通过流量分析手段获取。.网络用户的网络行为。每个网络用户的网络行为都是相互影响的,同时会对网络的运行产生影响,伴随每个
8、用户在网络中的每个网络行为都有网络流量产生,通过对网络用户的网络流量进行分析,能够直观地了解网络用户的网络行为。发现,主要是异常地发现是建立在了解的基础之上的,如果能做到及时地发现网络中的异常,将使网络管理更主动,将为网络的持续高性能运行提供重要的保障(异常流量丢包严重)。.网络运行异常的发现。网络中流量的异常,包括利用率、数据包数的异常。.网络应用运行的异常发现。连接数量、应用响应、应用流量的异常,都可以通过长期主动分析来及时发现。.网络用户的异常网络行为。异常的网络行为也都有明显的流量特征,如感染的蠕虫病毒、安装了后门程序等,长期流量分析能及时的发现网络用户的这些异常网络行为,及时发现网络
9、用户的异常网络行为是避免其影响网络运行的关键。证明,网络流量的分析可以为网络和应用问题的分析提供依据,特别是数据包级的分析,而这些依据是真实的,因为它们是实实在在的在网络中传输的数据包,这也是流量分析能够大大提高网络和应用问题分析效率的原因。1.4网络流量分析意义网络流量分析是有助于维护网络持续、高效和安全运行的一种手段,网络流量分析的意义在于取得对网络运行管理、应用运行管理和网络应用问题分析有意义的数据。这些数据多种多样,像是利用率、bps、pps还是延迟、重传、连接数量等这些流量分析的数据,都要和我们实际的网络应用运行情况结合起来才有意义,因为不同的网络和不同的应用都有完全不同的流量数据。
10、网络流量分析的数据的意义是建立在了解的基础上的,只有对网络和应用的深入了解,才能使这些数据的价值得到真正的体现。、网络流量采集网络流网络流就是一组具有相同特性的ip包,这些特性包括源/目的ip,源/目的端口,传输层协议,TOS字段等。通常把前面5个特性成为5元组2。网络流故名思议有一个持续的时间,网络流可以持续很长,也可以很短,而且同一个数据包可以属于不同的网络流。网络流的特性网络流的五大特性,分别是自相似性,长相关性,周期性,混沌性和多分形性。自相似是指局部的结构与总体的结构相比具有某种程度的一致性,举个例子,有个人篮球打的很厉害,那么他打其他球应该也不错。长相关性意味着未来的统计信息蕴含在
11、过去和现在的信息之中,它反映了自相似过程中的持续现像。比如通过流量监控发现,一个人星期1,2,3都是晚上8点-10点上网,那么通过长相关性可以推断他星期4也是这个时间段上网。周期性反映网络流量时间序列随时间变化而表现出来的一种季节性变化规律,它可能是由于流量数据的周期采集引起的,也可能是人们上网的行为习惯引起的。比如有个人每周1-4都是晚上8-10点上网,但周末都是9点上到12点,这可能就是这个人上网的习惯引起了网络流的周期性。混沌性是指确定的、宏观的非线性系统在一定条件下所呈现出的不确定的或者不可预测的随机现象。比如小明每天都是8-10点上网,但也有时也会9点才上网,这就是确定中的不确定现象
12、。在预测研究中只要能恢复出流量时间序列的混沌吸引子,就可以通过寻找预测状态点的邻域状态点与其后续状态点的函数关系,作为预测函数,实现流量预测。最后是多分形性,又称为多重分形测度。多分形还没有一个明确的定义。笼统的说,分形是大小碎片聚集的状态,是没有特征长度的图形构造以及现象的总称。我们的理解是:网络流往往是纷繁复杂的,我们很难单一用泊松或者正态函数来精确地描述这过程,多分形延伸了网络流量中的自相似(自相似即单分形)行为,多分形性质解释网络流许多令人困惑且杂乱无章的现象。描述局部时间内网络流量的不规则现象时更加灵活。由于网络流具有上面的特性,我们进行网络流采集时要注意考虑网络流的特性,才能保证采
13、集的正确性以及完整性。网络流量采集介绍网络流量的采集是网络研究的重要部分,它是网络流量分析的必要前提;同时,网络流量的采集使得网络管理员能够监控网络负载,发现网络故障的位置,从而制定网络管理策略。理想的数据采集方式应该具备以下一些特点:.不影响数据流转发的速度在整个数据流的采集过程中,不能有明显影响数据流转发速度的状况发生。如果在数据采集白过程中,数据流转发的速度明显下降,不能真实地反映网络流量状况,这违背数据采集的根本目的。.占用资源小对数据流进行采集的过程中,可能需要在路由器(交换机)中进行流量统计,并且储存所采集数据。这会给路由器(交换机)带来额外的资源开销。理想的流量采集方法应该尽可能
14、少占用资源,在采集效果和资源占用之间寻求一个平衡点。.完整的数据流监控一个理想的数据采集方法应该具备完整的数据流监控能力。在网络发生拥塞的时候能不能采集到完整的流量信息,是考察数据采集方法的一个重要标准。.分布式的数据采集分布式的数据采集有利于实现校园网内部的数据流量监控和管理。2.4主流网络流量采集技术现在的网络流采集方式主要分为四种:基于网络流量全镜像的采集技术、基于SNMP的采集技术和基于Netnow/sFlow等通过采样减少分析数据的采集技术以及基于干路中桥接设备的采集技术基于网络流量全镜像的采集技术网络流量全镜像采集是目前主要采用的网络流量采集模式,大部分的IDS(Intrusion
15、DetectionSystems入侵检测系统)就是如此。其原理是通过交换机等网络设备的端口镜像或者通过分光器、网络探针等附加设备,实现网络流量的无损复制和镜像采集。和其它的采集方式相比,流量镜像采集的最大特点是能够提供丰富的应用层信息。此方法的优点是实施最为简单,几乎不会对网络中数据传输的延时造成任何影响.缺点是由于数据采集机要捕获所有的数据流信息并对之加以分析,因此这种方法对数据采集机的处理能力要求很高。此外,由于这种方式是对整个IP数据包进行抓取后再进行处理,必然导致数据量过于庞大,对于后续的数据处理工作带来不便。基于SNMP勺流量采集技术。基于SNMP的流量信息采集,实质上是通过提取网络
16、设备Agent提供的MIB(管理对象信息库)中收集的一些具体设备及流量信息有关的变量。在路由器中启动流量统计功能,使其记录下所有流量的源地址、目标地址、数据包数量和字节数。另外一台采集数据的机器通过SNMP协议定期到路由器上去将流量统计信息读取回来,从而获得详细数据。此方法的优点是流量信息准确,信息获取方便。同时,由于使用SNMP协议进行数据获取具有很好的通用性和可移植性。因此这种方法的应用非常广泛。缺点是在路由器上运行流量统计功能,会影响路由器对数据包处理的效率,增加路由器的CPU和内存负载,不可避免的对网络性能带来一定的影响。因此,这种方法并不适合在网络和核心层部署,适合在网络的边界处进行
17、流量采集。MRTG是基于SNMP的免费软件,可以通过Web实时向用户提供多种统计时长的统计图表及关键节点性能状况。图中就是MRTG统计的每个设备的流量情况(以报表形式输出)图2-1基于SNMP的开源软件MRTG可以看到基于SNMP的流量采集技术主要是在宏观的角度对网络流进行统计,使网络管理员可以掌握整个网络的运行状况。基于Netflow/sFlow的流量采集技术。NetFlow是思科公司提出的一种数据交换标准,而sFlow是对NetFlow的改进,是基于标准的最新网络导出协议(RFC3176)。他们的原理是:路由器和交换机中实现的基于流统计的方法。流量信息在路由器或交换机内部通过专门的模块生产
18、流一记录,再将流一记录上报到设备外部的统计系统进行进一步统计和分析。Netflow和sFlow一般在实际应用时都进行采样统计。优点:在进行数据交换的同时对数据流信息进行统计,并将统计信息以特定的格式输出。缺点:必须进行一定的采样,否则对路由器和交换机设备的处理能力有较大压力。NetFlowAnalyzer是一款专业的带宽监控与流量协议分析软件,帮助用户了解网络流量构成、协议分布以及用户的行为。图1显示了各设备的速率的排行。叩A*W9IWII-r031UUEPHvni'nati1t甘*«t13»w«i!/h1M-4W+IJi-w上FTBiK£Qn|
19、im!«*»<M.ptrEE£33H*hwBELH-调:坳4WbK»bont<JHTT*llWjj4MV>buw«!*"IIMVftVnHti图2-2基于Netflow的流量监控软件NetFlowAnalyzer基于干路中桥接设备的采集技术基于干路中桥接设备的采集技术是在网络的出口链路中,串联具有数据过滤/转发功能的设备,例如:网关计费服务器、防火墙等优点:对数据的捕获能力强并具有控制能力,可以捕获不同网段的数据,不需要主干交换设备支持缺点:对设备的处理能力要求高,容易造成网络瓶颈,价格昂贵,不能用于底层网络内部数据
20、流量的采集。图1:IP5000是In-line(桥接)模式的专用硬件产品,以DPI(DeepPacketInspect,深度包检测)技术为核心,提供了基于七层应用的带宽管理和应用优化功能。图中是它的管理界面。m.,uT!5UllARBrl立鼻BlMg>Siip亚31JL暂+KFU*UuKI<*.HW*wm*UMJ!m4日!I1.J回口-i*npita1*IT.4*1”市rWr"W口打m*图2-2IP5000MaxNet管理界面2.4网络流量采集技术的对比卜面我们对以上讲的4种技术做一个总结,列表如下:SNMPNetflow/sFlow干路中桥接设备网络流全镜像成本相对低低
21、高高跨越子网可以可以可以设备相关X别主机不能可以可以可以区别协议不能可以可以可以瓶颈风险低低高低届捕数据NA是否是表2-1几种主流采集方式对比.由于SNMP和netflow主要通过协议以及软件来实现,因此他们的成本比较低。.SNMP由于协议本身的限制,因此不能区别主机以及协议。.基于干路中桥接设备的采集技术由于直接把采集设备直接串联在链路中,一旦出故障,容易影响整个网络。.NetFlow和网络流量镜像都采用了采样的方式,因此都有漏捕数码的可能。三、网络流量分析网络流量分析根据不同的方法可以从不同的侧面展开,目前,主要的分析方法可以分为两类:基于包内容的分析方法(DPI)和基于流量特征的分析方法
22、(DPI)。基于DPI的网络流量分析技术DPI提出的背景传统的端口检测技术是根据TCP数据包或UDP数据包首部的源端口或目的端口号识别一些常见协议的流量。这种识别流量的方法最大的优点就是简单易行。端口检测是基于IANA注册的知名的端口,例如,HTTP的端口是80,SSH的端口是22,Telnet的端口是23等。在传统的模式下,重要的端口一般是端口号小于1024的或者是在IANA注册的端口号。通过这些知名的端口,我们可以很轻易的检测出他们相应的应用程序名称。但是这种技术有一定的局限性。单一使用端口检测己经远远不能满足检测大多数应用程序的需要。因为现今的很多Intemet流量出现了新的特征,例如端
23、口检测技术对使用动态端口的应用程序就无能为力,而且这种方法同样不能分辨两种应用程序同时使用相同的端口号的情况,例如,现在的很多软件白非HTTP数据流连接端口也会使用端口80,仅依靠端口识别HTTP协议已经不再可靠3IPHeacerTCPHeader(Port80)HTTPPanornGET/songi.mp3HTTP/1.1User-AgentKazaaIPPoyioadTCPPayloadKazuPalterri图3-1Kazaa数据包分析例如,在上图中,显示了一个数据包的结构,如果只是通过常见的HTTP应用签名特征进行判断,就很容易将它误判为一个Web访问的应用。因为如果只观察第一个签名特
24、征样本(例如HTTP/1.1),那么它看上去很像是一个标准的HTTP协议。然而通过对数据包的负载部分的进一步深入考察,发现该数据包具有的第二个代码样本签名特征,即KaZaa,这样我们就能够了解这个数据包的真实身份和目的。DPI技术研究DPI是目前通过IP来识别和鉴定协议及应用(IP流)的最重要的技术。所谓“深度数据包检测”,“深度”是和标准数据包分析层次相比较而言的,“标准数据包检测”仅分析IP包的4层以下的基础信息,包括源IP地址、目的IP地址、源端口、目的端口以及连接状态,这些信息保存在数据包的4层以下的包头内。如下图:P2P应用岫包头信息弱小厂通讯的运图图3-2传统端口检测DPI除了对4
25、层以下的基础信息进行分析外,还增加了应用层分析,识别各种应用及其内容。这是通过对一系列数据包的包头以及负载中的签名特征(Signature)进行分析,同时DPI提供了对网络的利用率的分析,为网络性能优化提供了手段。如下图:图3-3深度数据包检测不同的应用层协议有不同的协议信息,这些信息可以作为应用层协议的检测特征。例如以下是常见的P2P应用的特征值4:特征值BitTorrent0x13BitTorrentProtocolGnutella“GNUT,“GIV”,“GN。基J连接状态的L总从几个数据包中发现的签名(Signature)eDonkey2000QQLive0xe319010000,0x
26、c53f0100000xfe290404表3-1常用P2P协议特征值AC自动机算法知道了各种应用的协议信息的特征值后,下一步要解决的问题就是如何从报文中匹配出特征值。这里介绍一个比较常用的多模式匹配算法:AC自动机算法。AC自动机算法的输入是多个关键字集,输出是关键字的匹配情况。自动机分3个阶段执行搜索:根据关键字建立状态转移图,然后对每个状态建立失败指针,最后根据这幅包含失败指针的完整的状态转移图进行匹配5。第一阶段:根据关键字建立状态转移图,又叫状态转移指针。构造的思路是:开始时这个图只包含一个根状态R。然后,通过添加一条从起始状态出发的路径的方式,依次向图中输入每个关键字p。新的顶点和边
27、被加入到图表中,以致于产生了一条能拼写出关键字p的路径。关键字p会被添加到这条路径的终止状态的输出函数中。当然只有必要时才会在图表中增加新的边。比如关键字she,he,say,shr,her,ayd构造过程如下:1、向图中添加一个关键字“she",结果下图所示,从状态R到状态e的路径拼写出了关键字“she”,我们把输出“she”和状态e相关联,图中用绿色圈表示。2、添加第二个关键字“he”,状态转移图变为下图:R3、添加第三个关键字“say”,因为图中已存在一条从R状态到s状态的边了,所以不必在R状态处另外添加一条边,而是从s状态开始建立,状态转移图变为下图:其他关键字如以上规则所述
28、继续加到图中,最后构造的状态转移图为:第二阶段:构造失败指针。失败指针的作用是用于指示当某个状态匹配失败时,应该指向哪个状态。构造失败指针的过程为:R状态的失败指针指向自己,其余状态节点的失败指针为:设这个节点上的字母为C,沿着他父亲的失败指针走,直到走到一个节点,他的儿子中也有字母为C的节点。然后把当前节点的失败指针指向那个字母也为C的儿子。如果一直走到了root都没找到,那就把失败指针指向root。比如第一层的s状态、h状态和a状态,因为父节点都是R状态,而R状态的失败指针指向R状态本身,所以s状态、h状态和a状态的失败指针都指向R状态。再考察第二层的状态。h状态的父节点是s状态,沿着s状
29、态的失败指针走到R状态,而R状态有儿子节点是与h状态同一个字母,所以h状态的失败指针指向第一层的h状态。接着是a状态,同理,其失败指针指向第一层的a状态。接着考察e状态,沿着父状态的失败指针走到R,因为R状态下的儿子节点没有与e状态是相同的字母,所以第二层的e状态的失败指针指向R状态。按照这一规则,最后得出包含失败指针的完整状态转移图为:图中没有用红色箭头标注的状态,其失败指针均指向R状态。第三阶段:搜索。如果搜索指针路过了一个红色圈的点,那么以这个点结尾的单词就算出现过了。或者如果搜索指针所在的点可以顺着失败指针走到一个红色圈的点,那么以这个点结尾的单词就算出现过了。如待匹配字符串ysher
30、sayd首先匹配首字母y,因为R状态下没有y状态,所以按照R状态的失败指针,返回R状态;接着匹配字母s,因为R状态下有s状态,所以跳到s状态继续匹配;接着匹配字母h,因为s状态下有hs状态,所以跳到h状态继续匹配;接着匹配字母e,因为h状态下有e状态,所以跳到e状态继续匹配,因为e状态是用绿色圈标注,代表she关键字匹配成功,所以输出she;接着匹配字母r,因为e状态下没有节点,所以按照其失败指针,跳到第二层的e状态,由于这个e状态也是用绿色圈标注,所以代表关键字he匹配成功,所以输出he,然后这个e状态下匹配字母r成功,所以输出her。按此规则匹配,最后输出成功匹配的关键字为she,her,
31、say,ayd。DPI总结DPI检测技术白优点是:1、检测准确率比较高。2、原理简单,分析起来也相对容易,并且能应付大多数的识别要求。3、实现速度快,使用DPI技术不需要建立太多的关联表,也不需要在系统中缓存大量的数据,对系统性能的影响相对较低,匹配起来速度比较快。DPI的缺点是:1、各种协议软件都在不断的发展,因此协议特征信息也在不断的变化,当发生变化的时候,检测特征也要随之变化,比较被动。2.、要采用特征检测技术,其特征必须足够复杂以便在概率上达到不可能误判的目的,虽然经过实践发现大多数的网络协议/应用都具有足够复杂的特征,但仍然有部分的协议不能够提取出足够复杂的特征来,特别是加密的协议,
32、在面对这种情况时,DPI技术显得无能为力。基于DFI的网络流量分析技术DFI的提出目前DPI技术的有效性正在逐步下降,这是因为DPI技术基于两个假设:IP包的有效载荷可见性。(谁都能知道ip包里面装的是什么)IP包能够被解释,分类器知道每个应用程序相应IP包的特征。但是这两个假设成立的情况现在正在减弱,一个是由于应用程序对IP包有效载荷的加密(如skype),政府法规会保护用户的隐私权;另一个是运营的负担,设备需要频繁的更新特征库来应对应用程序IP包格式等的变化。鉴于基于知名端口和有效载荷内容的方法的局限性,现阶段学术研究方面主要偏向于通过利用网络流的统计特征(DFI)来实现业务识别。基于DF
33、I技术的方法的基本原理DFI主要是利用前面所说的流的一些特性,比如自相似性,周期性等。不同类型的应用一般来说在统计特征上也会有比较明显的差异,比如网上IP语音流量体现在流状态上的特征就非常明显:RTP流的包长相对固定,一般在130220byte,连接速率较低,为2084kbit/s,同时会话持续时间也相对较长;而基于P2P下载应用的流量模型的特点为平均包长都在450byte以上、下载时间长、连接速率高、首选传输层协议为TCP等。在DFI方法中流是采用五元组定义,对与这种五元组定义的流常用分类方法的一般过程是选取流的适当参数,使用一个人工标注已知类别的数据作为输入,通过不同的机器学习方法进行训练
34、得到分类器参数,从而实现对未知流的识别。现阶段,采用DFI技术的分类方法大多是基于机器学习的:无指导学习(聚类方法),指导学习以及混合方法。朴素贝叶斯分类器朴素贝叶斯分类器在网络流分类中的应用:网络流量分类是一种典型的多元分类问题。在机器学习方法中,流量分类问题可以抽象为:已知流量类型集合C=c1,c2,ck和网络流集合T=t1,t2,tn,其中,网络流ti是一个由网络流属性集合构成的属性向量(Ai1,Ai2,Aim),如何在类型已知的网络流集合上,利用机器学习算法构建流量分类模型f:T-C,并以此模型对类型未知的网络集合进行分类6。贝叶斯方法:用F=Fi,F2,Fi一,Fn表示流集合,n表示
35、样本流的个数,Fi=fii,必,而,fim表示第i条样本流,其中m表示样本流的属性个数,而表示第i条流第j个属性。设C=G,C2,0.,&表示流所属的类别标签集合,其中k表示类别白数量,Ck表示第k类。定有k个类G,C2,&,0匕k表示流量的应用类型的个数,给定一个未知的数据样本Fi,分类法将预测Fi属于具有最高后验概率(条件Fi下)的类,即朴素贝叶斯分类将未知的数据样本分配给类Ch,当且仅当P(Ch|Fi)>P(Cg|Fi),1<g<k,gwh由此得到朴素贝叶斯分类的公式如下7:VNBC=argmax(P(Ch|Fi)其中:P(G|Fi)=P(F|Ch)P(
36、Ch)/P(Fi)由于P(F)对于所有类为常数,只需计算最大P(Fi|Ch)P(Ch)即可。计算P(Ch)可以通过公式P(Ch)=Sh/S计算,其中,Sh是类Ch中的训练样本数,S是训练样本总数。但是在实际应用中,对于给定具有许多条件属性的数据集,计算最大后验概率P(Fi|Ch)P(Ch),计算的开销可能非常大。为了降低计算的开销,朴素贝叶斯分类器作了条件独立假设,假定各属性相互条件独立,即在属性间不存在依赖关系,假定各属性相互条件独立,即在属性间不存在依赖关系,因此:P(F|Ch)=nP(fik|Ch)(k=1.n)概率P(fik|Ch)可以由训练样本计算,即:SP(fik|Ch)=2Sh其
37、中Sk是在属性fik上具有值i类Ch的训练样本数,而Si是Ch中的训练样本数,即比如是样本中属于ppstream的流数量。为测试未知样本x的分类,对于每个类Ch,计算每个P(Fi|Ch)P(Ch),样本F则被指派到P(F|Ch)P(Ch)最大的类Ch,即:VMAP=P(F|Ch)P(G)>P(C|Fi)P(Cg)改进贝叶斯一FCBF(AFastCorrelation-BasedFliter):特征的选取过程中的两个问题:(1)怎样决定一个特征是否和类别相关(2)怎样决定这样一个与类别相关的特征是否与其它特征冗余8。FCBF的主要思想基于特定的相关性定义,逐个度量单个特征与类别标签的相关性
38、,即单个特征的各自的分类能力,然后根据各特征的分类能力对特征进行降序排序,选出分类能力高的特征子集,从而在一定程度上消除与分类弱相关甚至无关的特征,实现降维。通过对称的不确定性SU(symmetricuncertainly)理论来帮助找出主要相关属性9。对称不确定理论是基于信息概念论,首先我们先了解一下信息理论念,变量X的嫡为:H(x)=4Rxjoggi)i在给定Y的情况下X的嫡为H(x|y)二P(yj广P(xi|Vj)log4Rxi|y)P(Xi)表示对与X中所有值的先验概率,P(X|yi)是给定丫值X的后验概率,而信息增益IG(X|丫)被表示为:IG(X|Y)=H(X)-H(X|Y),这些
39、值都需要被分类化来保证可比性和具有同样的效果,因此使用SU,定义SU(x,y)IG(x|y)4H(x)Hy)第一个问题通过设置一个阈值是SU(特征,类别)>阈值来解决。第二个问题所有通过第一个问题阈值选出的特征,按SU降序排列,然后通过循环计算F-correlation来解决。一个特征fij与类别G的相关是主要的相关性:SUj,h>8并且不存在这样的特征幻使得SLj,>SU,h其他应用DFI技术的模型聚类里面有一种采用K-means来识别基于TCP协议应用的方法:主要思想应用TCP流的前几个包,这个方法允许较早的识别网络流。为什么只采用前几个包,是基于这样子的事实,应用程序的
40、协商信息往往包含在一个流的前几个包中,这些信息通常是应用预先定义好的消息序列,而且一般不同应用也不同。例如取前P个包,那么可以设想有一个P维空间,每一个流可以用前P个包表示,P维坐标分别对应于前P个包的大小(或者其他特征),采用欧式距离来计算流之间的相似度。至于K值的选择主要是通过使用不同的K值实验。分类就是通过计算比较流与每个聚类中心的距离。(比较早期关于机器学习在流分类的应用,大概流分类准确率80%左右)10为了进一步提高流量分类模型的实时性,2006年澳大利亚斯温伯恩大学的Nguyen等人提出了多子流模型(multiplesub-flowsmodel).该方法首先将网络流根据协议通信的不
41、同阶段划分为若干条子流,然后分别为每条子流构造属性向量,并以此作为基本单元构造训练数据集.该方法通过子流属性提取摆脱了对网络流进行处理时必须等待网络流结束的限制,极大地提高了分类模型的实时性.但子流持续时间相对较短,其属性特征容易受到网络运行状态的影响而发生变化11这个一个与上一个K-means不同的摆脱必须要捕捉流前几个包的限制,只需要附近的N个包。训练过程采用一个分类滑动窗口(大小为Npacket),从每一个流中抽出2段或者更多的子流(比如抽取流的前端和中间部分)尽量抽取不同时间,使得子流统计特性能够尽可能的覆盖原始流的统计特性。然后通过从子流的前N个包抽取出特征值,用这些子流去训练分类器
42、。同样也可以采用上述贝叶斯的改进方法。(实验中是25个包,对一个UDP网游的识别率达到了98%)另外一个基于行为的模型:BLINC,这个模型与前面不同主要是通过分析传输层主机行为来进行业务识别。它分三个行为层次分析,社会层(sociallevel),功能层(functionlevel),应用层(applicationlevel)。比如分析社会层主要是从主机连接行为分析,在通信中,使用相同服务端口的相邻的ip也许是提供相同的服务,有偏的通信可能是p2p或者一个在线游戏。大多数客户端的IP都只有少数的通信目的地址,这样可以通过识别那些产生大流里的服务器的类型来帮助识别客户端。12DPI和DFI的对
43、比:DFI与DPI两种技术的设计基本目标都是为了实现业务识别,但是两者在实现的着眼点和技术细节方面还是存在着较大区别的。从两种技术的对比情况看,两者互有优势,也都有短处,DPI技术适用于需要精细和准确识别、精细管理的环境,而DFI技术适用于需要高效识别、粗放管理的环境。从处理速度来看:DFI处理速度相对快,而采用DPI技术由于要逐包进行拆包操作,并与后台数据库进行匹配对比,处理速度会慢些。由于采用DFI技术进行流量分析仅需将流量特征与后台流量模型比较即可。从维护成本来看:DFI维护成本相对较低,而基于DPI技术的带宽管理系统总是滞后新应用,需要紧跟新协议和新型应用的产生而不断升级后台应用数据库
44、,否则就不能有效识别、管理新技术下的带宽,影响模式匹配效率;而基于DFI技术的系统在管理维护上的工作量要少于DPI系统,因为同一类型的新应用与旧应用的流量特征不会出现大的变化,因此不需要频繁升级流量行为模型。从识别准确率来看:两种技术各有所长。由于DPI采用逐包分析、模式匹配技术,因此,可以对流量中的具体应用类型和协议做到比较准确的识别;而DFI仅对流量行为分析,因此只能对应用类型进行笼统分类,如对满足P2P流量模型的应用统一识别为P2P流量,对符合网络语音流量模型的类型统一归类为VoIP流量,但是无法判断该流量是否采用H.323或其他协议。如果数据包是经过加密传输的,采用DPI方式的流控技术
45、则不能识别其具体应用,而DFI方式的流控技术不受影响,因为应用流的状态行为特征不会因加密而根本改变。四、网络流量分析之应用:入侵检测入侵检测的基本定义以及方法入侵是指通过对计算机网络和计算机系统的关键结点的信息进行收集分析,检测其中是否有违反安全策略的事件发生或攻击迹象,并通知系统安全管理员。根据检测方法来区分,目前常用的入侵检测技术主要有两种:误用检测和异常检测13。误用检测系统一般采用的分析方法是DPI它将已知的攻击特征和系统弱点进行编码,存入知识库中,入侵检测系统(OS1)将所监视的事件与知识库中的攻击模式进行匹配,当发现有匹配时,认为有入侵发生,从而触发相应机制,过程如图4.1所示。例
46、如,存在以下一条rule:alerttcpanyany->/2411l(content:"7272656e742070726f746f636f6e"msg:"btservice"),其中content中的字符串是bt服务的特征值"19BitTorrentprotoco",整条规则的含义是当存在流向网络的bt流量时,想系统管理员发出信息,告知有btservice服务开启。这种技术的优点是可以有针对性地建立高效的入侵检测系统,虚警率低;缺点是对未知的入侵活动或已知入
47、侵活动的变异无能为力,攻击特征提取困难,需要不断更新知识库。pattern图4-1误用检测技术过程异常检测基于DP技术,并假定正常工作模式相对稳定,有入侵发生时,用户或系统的行为模式会发生一定程度的改变。通常是建立一个对应正常活动”的系统或用户的正常轮廓,检测入侵活动时,异常检测程序产生当前的活动轮廓并同正常轮廓比较,当活动轮廓与正常轮廓发生显著偏离时即认为是入侵,从而触发相应机制,过程如图所示。异常检测与系统相对无关,通用性较强。它最大的优点是有可能检测出以前从未出现过的攻击方法,不像误用检测那样受已知脆弱性的限制.因此这种方法格外引起人们的兴趣.,下面主要以一个简单的实例说明网络流量方法在
48、异常检测系统中的应用。网络流量在异常检测系统中的应用特征参数的选取传统的流量分析方法通常将流量大小等作为参考标准,而与之相比,利用流量特性参数分布上的变化发现网络中异常情况的方法具有如下优点:(1)使流量监测不再完全依靠流量的大小变化。一些异常诸如扫描或小型DoS攻击可能只会对骨干链路上的流量有较小影响,因此,更易被监测特征分布变化而不是流量大小变化的系统所发现。(2)异常的分布展示了关于异常模式的有用信息,而这些信息并不存在于针对流量大小的测量中。对异常分布进行分析,有助于从另一个角度提取异常流量模式,因此,该方法更适用于检测新的、未知的异常情况14。图4-2显示了常用的三种网络中常见的异常
49、,而每种异常都对流量特征参数的分布产生一定影响,也在图中标出,例如,在一些情况下,当源地址在DoS攻击中被利用时,其特征分布会变得较分散。而在另一些情况下,当发生一个单源到单目的的异常大数据流时,特征参数的分布会趋于集中。针对这三种异常,所以我们选取的特征参数为目的地址、目的端口、源地址,通过监测这三个特征参数的变化来判断网络是否产生了这三种异常情况:异常定义受影响的蜡流量端口扫描对小范围目的地址的大量目的端口进行探测目的地址、目的端口网络扫描对小范围目的端口的大量目的地址进行探测目的地址、目的端口DDos拒绝服务攻击源地址、目的地址图4-23种常见异常及其特征特征参数变化的提取选取了特征值,
50、剩下问题的关键在于如何表示出特征分布的变化。这个系统中将利用嫡来衡量各个特征值的集中或分散的程度。嫡可以获取流量特征在分布变化上的有效信息,观察多特征嫡的时间序列可以发现异常流量行为。嫡是香农于1948年提出的、用以表示所测量事件不确定度的一种数学工具。设集合X=nii=1,2,N表示事件i在总的事件集中发生了歆,则嫡的定义如下:,一、XNnix(znixH(x)=-()log2()NUSS其中,S=Eni代表所有事件总的发生次数。嫡的取值范围在0,lbN之间,当所有事件为同i+一事件时,分布最大化集中,此时嫡的值为0,即为最小值。当n1=n2=,=nk,即等概分布的情况出现时,分布最大化分散,此时嫡的值为logN,即为最大值。所以我们可以嫡的这一特性,观察出流量中目的地址、目的端口、源地址的分布变化。根据嫡值的定义,可以得到以下的特征参数嫡的计算式14.m,.ns;ns;H(srcaddress)=-Z()log2()一yS1S1r%;%;H(destaddress)-()log2()i4S2S2npinpiH(dest_port)=-%噌)log2(丁)i=4S3S3mrt其中,S1=Znsi,S2=£ndi,S3=Znpi,分别表示观测时间段内(例如5mins)采集的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 空调器自动调节风速技术考核试卷
- 灯具生命周期评价与环境影响考核试卷
- 真空电子器件在核工业中的应用考核试卷
- 化学清洁剂的常见类型与用途考核试卷
- 电气设备与控制系统安全考核试卷
- 洗涤剂在空调制冷设备维护中的应用考核试卷
- 电热电饼铛烤饼时间考核试卷
- 河北省公务员试题及答案
- 职校地理考试试题及答案
- 仓管考试试题及答案
- 公司面谈表模板
- 广场舞安全免责协议书 自愿参加广场舞免责书
- GB∕T 5019.8-2009 以云母为基的绝缘材料 第8部分:玻璃布补强B阶环氧树脂粘合云母带
- OSN9800光传输网络解决方案
- 水电站生产安全事故应急救援预案(参考版本)
- DB21∕T 3117-2019 水利工程单元工程施工质量检验与评定标准-输水管道工程
- 婚介会员登记表
- 玛丽艳--美的观念(课堂PPT)
- 特殊减员申请表(职工个人申请减员)
- QC七大工具培训课件(共95页).ppt
- 商业发票模板(INVOICE)
评论
0/150
提交评论