(计算机应用技术专业论文)入侵检测系统中基于神经网络的数据检测方法的研究与实现.pdf_第1页
(计算机应用技术专业论文)入侵检测系统中基于神经网络的数据检测方法的研究与实现.pdf_第2页
(计算机应用技术专业论文)入侵检测系统中基于神经网络的数据检测方法的研究与实现.pdf_第3页
(计算机应用技术专业论文)入侵检测系统中基于神经网络的数据检测方法的研究与实现.pdf_第4页
(计算机应用技术专业论文)入侵检测系统中基于神经网络的数据检测方法的研究与实现.pdf_第5页
已阅读5页,还剩54页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 随着网络技术的发展和i n t e m e t 在全球的推广,网络在给人类社会带来便利 的同时,网络安全问题也困扰着网络技术的发展和应用,信息安全问题也成为 社会关注的热点。在信息技术发展过程中,信息安全系统也经历了几个重要阶 段,起初是通信保密,到后来发展为信息安全,面将来则会是信息保障。加密 技术和防火墙等传统的安全技术已经无法满足网络安全的需求,入侵检测技术 应运而生。 对捕获的数据包进行分析的方法是入侵检测的主体技术。而寻找恰当、高 效的数据包分析方法和算法是入侵检测系统面临的首要问题。本文建议使用的 是基于神经网络的数据检测方法。文中详细阐述了基于神经网络的数据检测的 方法及相关知识,使用b p 算法设计完成了一个神经网络,用于对数据的检测, 并通过增加冲量项等措施来改造b p 网络,以使网络学习效果更好,输出更加准 确合理。利用本文所设计的人工神经网络能够对正常数据包和带有几类攻击数 据包做出较好的分类。 关键字:入侵检测,特征选择,人工神经网络,b p 算法 a b s t r a c t a b s t r a c t w i t ht h ed e v e l o p m e n to fn e t w o r kt e c h n o l o g ya n dt h es p r e a do fi n t e r n e ti nt h e w o r l d ,n e t w o r k sb r i n gg r e a tb e n e f i tt oo u rs o c i e t y , n e t w o r ks e c u r i t yh a sc o m ea l o n g w i t hn e t w o r k s ,w h i c hh i n d e r e dt h ea p p l i c a t i o na n dd e v e l o p m e n to fs u c ht e c h n o l o g y s oi n f o r m a t i o ns e c u r i t yh a sb e e nt h ef o c u so ft h es o c i e t y d u r i n gtt h ed e v e l o p m e n to f i n f o r m a t i o nt e c h n o l o g y , i n f o r m a t i o n s e c u r i t ys y s t e mh a sg o n et h r o u g hs e v e r a l i m p o r t a n tp h a s e s a tf i r s t ,i ti sc o m m u n i c a t i o ns e c u r i t y , t h e ni n f o r m a t i o ns e c u d ty ,a n d i nt h ef u t u r e ,i tw i l lb ei n f o r m a t i o na s s u r a n c e t h et r a n d i t i o n a lm e a n ss u c ha s e n c r p y t i o nt e c h n i q u e sa n df i r e w a l lt a c h n i q u e sa r e n ta d a p t i v et ot h en e e d so fn e t w o r k s e c u r i t y ,a n di n t r u s i o nd e t e c t i o nt e c h n o l o g ye m e r g e sa st h et i m e sr e q u i r e t h em e t h o do fa n a l y z i n gt h ed a t ap a c k a g e sc a p t u r e di st h ep r i n c i p a lp a r to ft h e i n t r u s i o nd e t e c t i o n ,h o w e v e r , s e a r c h i n gf o rt h ea p ta n dh i g he f f i c i e n c ym e t h o da n d a r i t h m e t i co fa n a l y z i n ga n dd e t e c t i n gt h ed a t ap a c k a g e sc a p t u r e di st h ea l l i m p o r t a n t p r o b l e mt h a ti n t r u s i o nd e t e c t i o ns y s t e mi s c o n f r o n t e dw i t h i nt h i sp a p e r , is u g g e s t u s i n g t h ed a t ad e t e c t i o n m e t h o db a s e do na r t i f i c i a ln e u r a ln e t w o r k t h i s p a p e r d i s s e r t a t et h ed a t ad e t e c t i o n m e t h o db a s e do na r t i f i c i a ln e u r a ln e t w o r ka n d i n t e r r e l a t e dk n o w l e d g ed e t a i l e d t y iu s eb p a l g o r i t h mt od e s i g na n dc r e a tan e u r a l n e t w o r k m o r e o v e l it r a i nt h i sb pn e u r a ln e t w o r kw i t hs t a r d a r dt r a i n i n gd a t as e t p r o v i e db y t h el a bo fl i n k e n ,u s w h e nt r a i n e dc o m p l e t e l y , t h i sb pn e u r a ln e t w o r k i st e s t e dw i t ht e s t i n gd a t as e t ( a l s of r o ml a bo fl i n k e n ) ir e c o n s t r u c tt h i sb pn e u r a l n e t w o r kt h r o u 曲a d d i n gi m p u l s ei t e ms ot h a tt h en e t w o r k ss t u d yi sb e t t e ra n dt h e o u t p u ti sm o r ee x a c ta n dl o g i c a lt o o t h en o r m a lp a c k e t sa n dt h ep a c k e t sw i t ha t t a c k f e a t u r e sc a nb ec l a s s i f i e dw i t hs a t i s t a c t o r i l yp r e c i s i o nb yt h en e u r a ln e t w o r k k e yw o r d s :m c h a r a c t e rs e l e c t ,a r t i f i c i a ln e u r a ln e t w o r k ,b p a l g o r i t h m $ , a g m l ? md t 觑如 1 1 南开大学学位论文版权使用授权书 本人完全了解南开大学关于收集、保存、使用学位论文的规定, 同意如下各项内容:按照学校要求提交学位论文的印刷本和电子版 本;学校有权保存学位论文的印刷本和电子版,并采用影印、缩印、 扫描、数字化或其它手段保存论文;学校有权提供目录检索以及提供 本学位论文全文或者部分的阅览服务;学校有权按有关规定向国家有 关部门或者机构送交论文的复印件和电子版;在不以赢利为目的的前 提下,学校可以适当复制论文的部分或全部内容用于学术活动。 学位论文作者签名:寝高欺 功心年s 月蜴日 经指导教师同意,本学位论文属于保密,在年解密后适用 本授权书。 指导教师签名:学位论文作者签名: 解密时间:年 月日 各密级的最长保密年限及书写格式规定如下 4 一 1 1 薯一一曩麓? 。焉? 一| j 篓翟一曩。一_ l ,:研少手5 弹) | 量譬i 。i _ = i ij 意一j 譬i 一。薯参誊巍叠_ w 一曩! l 一一- :i 簪一曩少重- q 簪) 曩一叠薯一i 重量j l ”_ _ _ !曩一一,_ = : 军,。| ! 苛生摹2 酾枣f j 誊27 曩i 一叠 j 一; 曩j j 蓦曩鼍囊蔓一叠曩誓:u :一董 臻jl 南开大学学位论文原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师指导下,进行研究工作 所取得的成果。除文中已经注明引用的内容外,本学位论文的研究成果不包含 任何他人创作的、已公开发表或者没有公开发表的作品的内容。对本论文所涉 及的研究工作做出贡献的其他个人和集体,均已在文中以明确方式标明。本学 位论文原创性声明的法律责任由本人承担。 学位论文作者签名:藤考殷 勋町年f 月2 8 日 第一章入侵检测技术概述 第一章入侵检测技术概述 入侵检测( i n t r u s i o nd e t e c t i o n ) 顾名思义,便是对入侵行为的发觉。它通过 对计算机网络或计算机系统中的若干关键点收集信息并对其进行分析,从中发 现网络或系统中是否有违反安全策略的行为和被攻击的迹象。进行入侵检测的 软件与硬件的组合便是入侵检测系统( i n t r u s i o nd e t e c t i o ns y s t e m ,简称i d s ) 。与 其他安全产品不同的是,入侵检测系统需要更多的智能,它必须可以将得到的 数据进行分析,并得出有用的结果。一个合格的入侵检测系统能大大的简化管 理员的工作,保证网络安全的运行。 入侵检测作为一种积极主动地安全防护技术,提供了对内部攻击、外部攻 击和误操作的实时保护,在网络系统受到危害之前拦截和响应入侵。从网络安 全立体纵深多层次防御的角度出发,入侵检测理应受到人们的高度重视。这从 国外入侵检测产品市场的蓬勃发展就可以看出,在国内随着上网的关键部门、 关键业务越来越多,迫切需要具有自主版权的入侵检测产品。但现状是入侵检 测还不够成熟,信息系统的安全问题是一个十分复杂的问题。可以说信息系统 有多复杂,信息系统安全问题就有多复杂,信息系统有什么样的特性,信息系 统安全就同样具有类似的特性。 信息安全是一种很难量化的概念,针对网络吞吐量、主机的运算速度、数 - 据库的t p c 指标等这类性能问题,用户可以根据自己的业务要求、资金条件等 方面考虑取舍,系统性能的高低在一定程度上可以通过量化指标来表现,换句 话说系统性能的提高用户虽然摸不到但却是可以看到的 而安全”是一个非常难于量化的指标,真正是一个看不见摸不着的东西,因 此安全问题很容易表面上受到重视,而实际上没有真正得到重视,实际上安全 就是防范潜在的危机。 第一节t c s e c 难以适应新的网络环境 在信息安全的发展史上有一个里程碑,这就是1 9 8 5 年美国国防部d o d 国家 计算机安全中心n c s c 发布的可信计算机安全评估准则t c s e c ,这个准则的发 布,对操作系统数据库等方面的安全发展起到了很大的推动作用,但是随着网 络的深入发展,这个标准已经不能完全适应当前的技术需要。因为这个主要基 第一章入侵检测技术概述 于h o s t t e r m i n a l 环境的静态安全模型和标准,无法完全反应分布式动态变化发 展迅速的i n t e m e t 安全问题。 传统的信息安全技术都集中在系统自身的加固和防护上,比如采用b 级操 作系统和数据库在网络出i s t 配置防火墙,在信息传输和存储中采用加密技术, 使用集中的身份认证产品等,然而单纯的防护技术有许多方面的问题。 首先,单纯的防护技术容易导致系统的盲目建设,这种盲目包括两方面: 一方面是不了解安全威胁的严峻和当前的安全现状,另一方面是安全投入 过大而又没有真正抓住安全的关键环节,导致不必要的浪费。 其次,防火墙策略对于防范黑客有其明显的局限性。防火墙技术是内部网 最重要的安全技术之一,其主要功能就是控制对受保护网络的非法访问。它通 过监视限制更改通过网络的数据流,一方面尽可能屏蔽内部网的拓扑结构,另 一方面对内屏蔽外部危险站点,用以防范外对内、内对外的非法访问,但也有 其明显的局限性。比如: 防火墙难于防内。防火墙的安全控制只能作用于外对内或内对外,即对外 可屏蔽内部网的拓扑结构,封锁外部网上的用户连接内部网上的重要站点或某 些端口,对内可屏蔽外部危险站点。但它很难解决内部网控制、内部人员的安 全问题,即防外不防内。而据权威部门统计结果表明,网络上的安全攻击事件 有7 0 以上来自内部攻击。 防火墙难于管理和配置易造成安全漏洞。防火墙的管理及配置相当复杂, 要想成功的维护防火墙,要求防火墙管理员对网络安全攻击的手段及其与系统 配置的关系有相当深刻的了解。防火墙的安全策略无法进行集中管理,一般来 说由多个系统路由器、过滤器代理服务器、网关堡垒、主机组成的防火墙管理 上,有所疏忽是在所难免的。根据美国财经杂志统计资料表明,3 0 的入侵发生 在有防火墙的情况下。 防火墙的安全控制主要是基于i p 地址的难于为用户在防火墙内外提供一致 的安全策略。许多防火墙对用户的安全控制,主要是基于用户所用机器的i p 地 址,而不是用户身份。这样就很难为同一用户在防火墙内外,提供一致的安全 控制策略,限制了企业网的物理范围。 防火墙只实现了粗粒度的访问控制。防火墙只实现了粗粒度的访问控制, 且不能与企业内部使用的其它安全机制,如访问控制集成使用。这样企业就必 须为内部的身份验证和访问控制,管理维护单独的数据库。 第一章入侵检测技术概述 再次,保证信息系统安全的经典手段是“存取控制”或“访问控制”,这种 手段在经典的以及现代的安全理论中,都是实行系统安全策略的最重要的手段, 但迄今为止软件工程技术还没有达到a 2 级所要求的形式,生成或证明一个系统 的安全体系的程度,所以不可能百分之百地保证任何一个系统尤其是底层系统 中,不存在安全漏洞。而且无论在理论上还是在实践中,试图彻底填补一个系 统的安全漏洞都是不可能的,也还没有一种切实可行的办法,解决合法用户在 通过“身份鉴别”或“身份认证”后滥用特权的问题。 第二节p 2 d r 动态安全模型 针对日益严重的网络安全问题和越来越突出的安全需求,“可适应网络安全 模型”和“动态安全模型”应运而生。 图1 1p 2 d r 模型示意图 p 2 d r 模型包含4 个主要部分: p o l i c y ( 安全策略) :安全策略是p 2 d r 安全模型的核心,所有的防护、 检测、响应都是依据安全策略实施的,企业安全策略为安全管理提供管 理方向和支持手段。策略体系的建立包括:安全策略的制订、评估执行 等。制订可行的安全策略取决于对网络信息系统的了解程度。 p r o t e c t i o n ( 防护) :保护通常是通过采用一些传统的静态安全技术及方 法来实现的,主要有防火墙、加密、认证等方法。 第一章入侵检测技术概述 d e t e c t i o n ( 检测) :在p 2 d r 模型,检测是非常重要的一个环节,检测是 动态响应和加强防护的依据,它也是强制落实安全策略的有力工具,通 过不断地检测和监控网络和系统,来发现新的威胁和弱点,通过循环反 馈来及时做出有效的响应。 r e s p o n s e ( 响应) :紧急响应在安全系统中占有最重要得地位,是解决安 全潜在性威胁最有效的办法。从某种意义上讲,安全问题就是要解决紧 急响应和异常处理问题。要解决好紧急响应问题,就要制订好紧急响应 的方案,做好紧急响应方案中的一切准备工作。 第三节d e n n j n g 的通用入侵检测系统模型 d o r o t h yd e n n i n g 于1 9 8 7 年提出了一个通用的入侵检测系统模型,如图1 2 所示。该模型由以下六个主要部分组成:主体( s u b j e c t s ) 、对象( o b j e c t s ) 、审 计记录( a u d i tr e c o r d s ) 、行为轮廓( p r o f i l e s ) 、异常记录( a n o m a l yr e c o r d s ) 及活动规则( a c t i v i t yr u l e s ) 。 规则设计 图1 2 通用入侵检测系统模型 在该模型中,主体是指目标系统上活动的实体,通常指的是用户,也可能 是代表用户行为的系统进程,或者是系统自身。主体的所有行为都是通过命令 第一章入侵检测技术概述 来实现的。对象是指系统资源,如文件、命令、设备等。它是主体行为的接受 者。对于主体和对象没有明显的界限,往往是某一环境下的主体在另一环境下 则成为对象。审计记录是指主体对对象进行操作而在目标系统上产生的记录, 如用户的登录、命令的执行、文件的访问等都会在系统中产生相应的记录。它 是由 构成的六元组。 其中活动是指主体对对象的操作,如登录、退出、读、写等;异常条件是指主 体活动出现异常情况时系统的报告;资源使用状况是指系统的资源消耗情况; 时间戳是指活动发生的时间。行为轮廓是描述主体对对象实施正常行为的模型, 它包含有系统正常活动的各种相关信息。异常记录是指当系统检测到异常行为 时而产生的记录,由事件、时间戳、行为轮廓组成。活动规则是指系统判断是 否是入侵的准则,以及当满足入侵条件时,系统所采取的相应的对策。 这个模型是一个典型异常检测系统的实现原型。对于入侵检测的研究起着 相当重要的推动作用。像s r i 公司的x i d e s 的异常检测器就是基于该模型的。 该模型的最大缺点在于它没有包含已知系统漏洞或攻击方法的知识,而这些知 识在许多情况下是非常有用的信息。 第四节通用入侵检测框架( c l d f ) c o m m o ni n t r u s i o nd e t e c t i o nf r a m e w o r k ( c i d f ) 工作组是由t e r e s al u n t 发起 的,专门从事对入侵检测系统进行标准化的研究机构,主要是对入侵检测系统 的通用结构、入侵检测系统各组件间的通信接口问题、通用入侵描述语言( c i s l : c o m m o ni n t r u s i o nl a n g u a g e ) 以及不同入侵检测系统间通信问题等关于入侵检测 的规范化问题进行研究。c i d f 提出了一个入侵检测系统的通用模型,如图1 _ 3 所示:它将一个入侵检测系统分为以下几个单元: 事件产生器( e v e n tg e n e r a t o r s ) 事件分析器( e v e n ta n a l y z e r s ) 响应单元( r e s p o n s eu n i t s ) 事件数据库( e v e n td a t a b a s e s ) c i d f 将入侵检测系统需要分析的数据统称为事件( e v e n t ) ,它可以是网络中 的数据包,也可以是从系统日志等审计记录中得到的信息。 事件产生器即监测器,它是从整个计算环境中获得事件,并向系统的其它 部分提供此事件;事件分析器分析得到的数据,并产生分析结果;响应单元则 第一章入侵检测技术概述 是对分析结果做出反应的功能单元,它可以是切断连接、改变文件属性等强烈 反应,甚至发动对攻击者的反击也可以只是简单的报警;事件数据库是存放 各种中间和最终数据的地方的总称,它可以是复杂的数据库,也可以是简单的 文本文件。各功能单元间的数据交换采用的是c i s l 语言, 原始数据源 图1 3c i i ) f 模型示意图 在现有的入侵检测系统中,经常用数据采集部分、分析部分和响应部分来 分别代替事件产生器、事件分析器和响应单元这些术语。且常用日志来简单的 指代事件数据库。 c i d f 标准还没有正式确立,也没有一个入侵检测商业产品完全所用该标准, 但因为入侵检测系统的特殊性,其实各种入侵检测系统的模型都有很大的相似 性。各种入侵检测系统各自为阵,系统之间的互操作性很差,因此各厂商都在 按照c i d f 进行信息交换的标准化工作。 第五节入侵检测系统的分类 按获得原始数据的方法可以将入侵检测系统分为基于网络的入侵检测系统 和基于主机的入侵检测系统。 1 5 1 基于主机的入侵检测系统 基于主机的入侵检测出现在8 0 年代初期,那时网络还没有今天这样普遍、 第一章入侵检测技术概述 复杂,且网络之间也没有完全连通。在这一较为简单的环境里,检查可疑行为 的检验记录是很常见的操作。由于入侵在当时是相当少见的,在对攻击的事后 分析就可以防止今后的攻击。 现在的基于主机的入侵检测系统保留了一种有力的工具,以理解以前的攻 击形式,并选择合适的方法去抵御未来的攻击。基于主机的i d s 仍使用验证记 录,但自动化程度大大提高,并发展了精密的可迅速做出响应的检测技术。通 常,基于主机的i d s 可监测系统事件,如w i n d o wn t 下的安全记录以及u n i x 环境下的系统记录。当有文件发生变化时,i d s 将新的记录条目与攻击标记相比 较,看它们是否匹配。如果匹配,系统就会向管理员报警并向别的目标报告, 以采取措施。 基于主机的i d s 在发展过程中融入了其它技术。对关键系统文件和可执行 文件的入侵检测的一个常用方法,是通过定期检查校验和来进行的,以便发现 意外的变化。反应的快慢与轮询问隔的频率有直接的关系。最后,许多产品都 是监听端口的活动,并在特定端口被访问时向管理员报警。这类检测方法将基 于网络的入侵检测的基本方法融入到基于主机的检测环境中。 尽管基于主机的入侵检查系统不如基于网络的入侵检查系统快捷,但它确 实具有基于网络的系统无法比拟的优点。这些优点包括: 性能价格比高。在主机数量较少的情况下,这种方法的性能价格比可能更高。 尽管基于网络的入侵检测系统能很容易地提供广泛覆盖,但其价格通常是昂 贵的。配置一个入侵监测系统要花费$ 1 0 ,0 0 0 以上,而基于主机的入侵检测 系统对于单独一代理标价仅几百美元,并且客户只需很少的费用用于最初的 安装。 更加细腻。这种方法可以很容易地监测一些活动,如对敏感文件、目录、程 序或端口的存取,而这些活动很难在基于网络的系统中被发现。基于主机的 i d s 监视用户和文件访问活动,包括文件访问、改变文件权限、试图建立新 的可执行文件并且或者试图访问特许服务。例如,基于主机的i d s 可以监 督所有用户登录及退出登录的情况,以及每位用户在联接到网络以后的行 为。基于网络的系统要做到这个程度是非常困难的。基于主机技术还可监视 通常只有管理员才能实施的非正常行为。操作系统记录了任何有关用户帐号 的添加、删除、更改的情况。一旦发生了更改,基于主机的i d s 就能检测到 这种不适当的更改。基于主机的i d s 还可审计能影响系统记录的校验措施的 第一章入侵检测技术概述 改变。最后,基于主机的系统可以监视关键系统文件和可执行文件的更改。 系统能够检测到那些欲重写关键系统文件或者安装特洛伊木马或后门的尝 试并将它们中断。而基于网络的系统有时会检测不到这些行为。 视野集中。一旦入侵者得到了一个主机的用户名和口令,基于主机的代理是 最有可能区分正常的活动和非法的活动的。 易于用户剪裁。每一个主机有其自己的代理,当然用户剪裁更方便了。 较少的主机。基于主机的方法有时不需要增加专门的硬件平台。基于主机的 入侵检测系统存在于现有的网络结构之中,包括文件服务器、w e b 服务器及 其它共享资源。这些使得基于主机的系统效率很高。因为它们不需要在网络 上另外安装登记、维护及管理的硬件设备。 对网络流量不敏感。用代理的方式一般不会因为网络流量的增加而丢掉对网 络行为的监视。 适用于被加密的以及切换的环境。由于基于主机的系统安装在遍布企业的各 种主机上。它们比基于网络的入侵检测系统更加适于交换的以及加密的环 境。交换设备可将大型网络分成许多的小型网络段加以管理。所以从覆盖足 够大的网络范围的角度出发,很难确定配置基于网络的i d s 的最佳位置。业 务镜像和交换机上的管理端口对此有帮助,但这些技术有时并不适用。基于 主机的入侵检测系统可安装在所需的重要主机上,在交换的环境中具有更高 的能见度。某些加密方式也向基于网络的入侵检测发出了挑战。根据加密方 式在协议堆栈中的位置的不同,基于网络的系统可能对某些攻击没有反应。 基于主机的i d s 没有这方面的限制。当操作系统及基于主机的系统发现即将 到来的业务时,数据流已经被解密了 确定攻击是否成功。由于基于主机的i d s 使用含有已发生事件信息,它们可 以比基于网络的i d s 更加准确地判断攻击是否成功。在这方面,基于主机的 i d s 是基于网络的i d s 完美补充,网络部分可以尽早提供警告,主机部分可 以确定攻击成功与否 1 5 2 基于网络的入侵检测系统 基于网络的入侵检测系统使用原始网络包作为数据源。基于网络的i d s 通 常利用一个运行在随机模式下网络的适配器来实时监视并分析通过网络的所有 通信业务。它的攻击辩识模块通常使用四种常用技术来识别攻击标志:模式、 表达式或字节匹配;频率或穿越阀值;次要事件的相关性;统计学意义上的非 8 第一章入侵检测技术概述 常规现象检测。 一旦检测到了攻击行为,i d s 的响应模块就提供多种选项以通知、报警并对 攻击采取相_ :j 立的反应。反应因产品而异,但通常都包括通知管理员、中断连接 并且或为法庭分析和证据收集而做的会话记录。 基于网络的i d s 有许多仅靠基于主机的入侵检测法无法提供的功能。实际 上,许多客户在最初使用i d s 时,都配置了基于网络的入侵检测。基于网络的 检测有以下优点: 检测速度快。基于网络的监测器通常能在微秒或秒级发现问题。而大多数基 于主机的产品则要依靠对最近几分钟内审计记录的分析。 隐蔽性好。一个网络上的监测器不像一个主机那样显眼和易被存取,因而也 不那么容易遭受攻击。基于网络的监视器不运行其他的应用程序,不提供网 络服务,可以不响应其他计算机。因此可以做得比较安全。 视野更宽。基于网络的入侵检测甚至可以在网络的边缘上,即攻击者还没能 接入网络时就被发现并制止。 较少的监测器。由于使用一个监测器就可以保护一个共享的网段,所以你不 需要很多的监测器。相反地,如果基于主机,则在每个主机上都需要一个代 理,这样的话,花费昂贵,而且难于管理。但是,如果在一个交换环境下, 就需要特殊的配置。 攻击者不易转移证据。基于网络的l d s 使用正在发生的网络通讯进行实时攻 击的检测。所以攻击者无法转移证据。被捕获的数据不仅包括的攻击的方法, 而且还包括可识别黑客身份和对其进行起诉的信息。许多黑客都熟知审记记 录,他们知道如何操纵这些文件掩盖他们的作案痕迹,如何阻止需要这些信 息的基于主机的系统去检测入侵。 操作系统无关性。基于网络的i d s 作为安全监测资源,与主机的操作系统无 关。与之相比,基于主机的系统必须在特定的、没有遭到破坏的操作系统中 才能正常工作,生成有用的结果。 占资源少。在被保护的设备上不用占用任何资源。 第六节入侵检测系统的发展趋势 基于主机的入侵检测系统可以精确地判断入侵事件,并可对入侵事件立即 进行反应,还可针对不同操作系统的特点判断应用层的入侵事件,其缺点是与 第一章入侵检测技术概述 操作系统和应用层软件结合过于紧密。通用性可能会较差,并且i d s 的分析过 程会占用主机宝贵的资源。基于网络的入侵检测系统只能监视经过本网段的活 动,并且精确度较差,在交换式网络环境下难于配置,防入侵欺骗的能力也比 较差。 早在1 9 9 1 年,加州大学戴维斯分校的研究人员就提出了分布式入侵检测系 统的概念,并给出了一种分布式入侵检测系统的体系结构,如图1 4 所示。 图t 4 分布式入侵检测系统体系结构 该种体系结构将以往基于主机和基于网络的入侵检测系统结合起来。整个 系统包括三个部分,位于每台监控主机上的传感器,局域网上的局域网管理器, 和中央数据处理器。主机上的传感器和局域网管理器分别从主机和局域网上采 集有用数据,然后将数据送至中央数据处理器作全局的入侵检测。这个体系结 构侧重于网络一用户识别问题的解决,也就是通过跟踪用户在网络上的移动情 况,计算用户操作的相关性来判断是否有入侵行为发生。这个体系结构运用范 围较小,而且由于模型过于简单,无法检测复杂的入侵行为。要使系统具有更 强的检测能力,需要进一步完善系统体系结构和检测模型。 在这种分布式模型的基础上,国内外学者又提出了很多基于a g e n t 的分布式 入侵检测系统。如p u r d u e 大学提出了a a f i d ( a u t o n o m o u sa g e n tf o ri n t r u s i o n d e t e c t i o n ) 模型,这是一个最早的基于a g e n t 的分布式入侵检测系统模型。日本 i p a 也设计了一个i d a s ( i n t r u s i o nd e t e c t i o na g e n ts y s t e m ) ,它是基于移动代理 的多主机检测系统。中国科学院软件技术研究所的卿斯汉、马恒太等也提出了 1 0 第一章入侵检测技术概述 一种基于a g e n t 的分布式入侵检测系统模型,与a a f i d 模型不同的是,这种模 型中的a g e n t 是完全对等的,没有一个中央主控节点。现在,分布式入侵检测系 统已成为入侵检测系统的发展方向之一 此外,9 9 年后半年以来,分布式拒绝服务攻击( d i s t r i b u t e dd e n i a lo fs e r v i c e a t t a c k ) 也开始成为网络黑客们越来越青睐的攻击手段。进入2 0 0 0 年以来,网 络遭受这类d d o s 攻击的事件不断发生,全球许多著名网站如y a h o o 、c n n 、b u y 、 e b a y 、f b i ,包括中国的新浪网都相继遭到不名身份的黑客攻击。在这些攻击行 为中,黑客摈弃了以往常常采用的更改主页这一对网站实际破坏性有限的做法, 取而代之的就是这种在一定时间内使被攻击的网络彻底丧失正常服务功能的 d d o s 手法:网络攻击不再像以往来自单一的主机,而是来自不同子网的数目巨 大的主机群。由此反映出,入侵活动可以具有很大的时间跨度和空间跨度,入 侵的手段也越来越复杂和先进。为了应对这种形式,分布式入侵检测系统成为 网络安全领域研究的热点。 第二章特征选择 第二章特征选择 第一章介绍了入侵检测的相关知识,其中包括:t c s e c 难以适应新的网络 环境,p 2 d r 动态安全模型,d e n n i n g 的通用入侵检测系统模型,通用入侵检测 框架,入侵检测系统的分类及发展趋势,本章将对特征选择加以介绍,这也是 本文提出的一个新观点,即在进行基于神经网络的入侵检测前可对数据做相应 的预处理一一特征选择,这样可以大大降低数据的维度,使得计算更快完成, 同时也剔除了不必要属性的干扰作用。 第一节特征选取的必要性 在数据挖掘中我们面对的往往是海量的数据( 记录) ,而且每个记录的属性 值特别多,属性太多( 维度太大) 使计算几乎难以进行,有必要减少属性的个 数,只选取一部分属性作为特征属性参与后面的计算。同时各属性本身也有下 面一种或多种特点使得我们特征选取也是可行的: 1 ) 对于求解目标无关性,当然无关的属性可以剔除出去。 2 ) 几个属性之间的相关性,重复性,只需选取其中一个属性。 3 ) 属性对于求解目标的重要程度不同,尽量选取对求解目标重要性大的属 一陛。 第二节特征选择常用方法 设有n 个可用作分类的测量值,为在不降低( 或尽量不降低) 分类精度的 前提下,减少特征空间的维数以减少计算量,需从直接选出m 个作为分类特征。 那么在n 个测量值中选出哪一些作为分类特征,使其具有最小的分类错误呢? 从n 个测量值中先出m 个特征,一共有c ? 种可能的选法。判定哪一种选法 最好,有一种“穷”办法,就是对每种选法都用训练样本试分类一下,测出它 们正确分类率,然后作出性能最好的选择。实现这种特征选择方法倒也干脆彻 t 底,只是需要试探的特征子集的种类c ? 一- - 兰l = 种。例如在提供8 个测量 ! 一m 】! 特征中选出最好的4 个,需要计算分类错误概率达7 0 次,太费时。采用这种穷 举法不能减少试探的次数,但可找一种简便的可分性准则间接判断每一种子集 第二章特征选择 的优劣,而不必用直接试分类来判别,这样就简便得多。 ( 1 ) 对于独立特征的选择准则 类别可分性准则应用有这样的特点,即不同类别模式特征的均值向量之间 的距离应最大,而属于同一类的模式特征,其方差和应最小。假设各原始特征 测量值是统计的,用这一准则就很简单,只要对训练样本的n 个测量值逐个独 立地作分析,从中选出i t l 个最好的作为分类特征即可。例如对于w i 和z ,两类训 练样本,其均值向量为m ;和m ,其k 维方向的分量为m 。和m 其k 维方向的 方差为2 和盯:。定义可分性准则函数为 g 。;垫掣,尼,1 , 2 z ,n( 2 1 )” 2 ;_ - ;一k 。,t z - l j + 盯五 显然,g 。为正值。g 。值愈大,表示测度值的第k 分量对分离叮,和万,两类 模式愈是有效。如果将( g 。七= 1 , 2 ,n ) 按大4 , t p 队,选出开头最大的m 个对 应的测度值作为分类特征,就达到特征选择的目的了。 以上纂于距离测度的可分性准则虽然简单,但其适用范围与模式特征的分 布的概率有关。图2 1 所示为三种不同模式分布的情况。图( a ) 中特征工。的分 c “) ( o ( f ) 图2 1可分性准则函数的定义应与类概率密度函数的形状有关 布有很好的可分性,通过它足以分离w i 和n ,两种类别:而图( b ) 中的特征分 布有很大的重叠,单靠也达不到较好的分类,需要增加其它的特征;完全分离 是可能的,但用式( 2 1 ) 计算瓯一0 ,这时再利用上式g 。作为可分性准则就不 再合适。因此,假如类概率密度函数不是或不近似正态,均值和方差就不足以 1 3 第二章特征选择 用来估计类别的可分性。所以基于距离测度的准则函数,并不是什么场合都用。 ( 2 ) 一般特征的选择准则 由于特征分量之间的相关性,各分量单独差别并不能获得最优的选择结果。 这时可采用基于散布矩阵、散度或b a t t a c h a r y y a 距离等三种可分性准则。 ( a ) 矩阵准则 类内、类间和总体的散布矩阵s 。、s b 、s t 分别为: 类内:s 。昌尸( 曰,) e 【o 一州一) o m j ) i 玎。】 ( 2 2 ) 类间:s a = _ p p ,) 咖r 一n o ) ,一m o ) ( 2 - 3 ) 总体:s 。= s 。+ s 6 = e 【o m 。) o m o ) 】 ( 2 4 ) x e v w ,;f = 1 , 2 ,c 显然,s 。的行列式值愈小和咒行列式值愈大,可分性就愈好。因而散布矩 阵准则可采用以下形式: 行列式形式j - 2d e t ( s , - 1 s a ) ; ( 2 5 ) 迹形式 j :一t r ( s , - 1 s 6 ) ; ( 2 6 ) t 式中, 是矩阵s i l s 。的本征值。使,。或j :最大的子集就作为选择的分类特 征。这里计算散布矩阵不受模式分布形式的限制,但需要有足够数量的模式样 本才能获得有效的结果。 ( b ) 散度和变换散度准则 对于类概率密度为正态的两类问题,可用散度准则,即 j d = 吉打 ( c ,一c f - 1 ) ( c c 川+ 音r r ( c i l + c j l ) ( 啊一m ) ( 卅,一川,) 】 _ - ( 2 7 ) = 寺打( c _ 1 c + c j l c i 一2 j 】+ l t r ( m ;- m ) ( c 广+ c 广) ( m - m j ) 使- ,最大的子集,就是最适于分离吼和m ,两类模式的特征。 推广到多类c ,可以计算平均散度作为准则。平均散度的定义为 fc j 2 善磊,p p t ) p p y # ( 2 8 ) 选出平均散度为最大的子集作为c 类的分类特征,这个方法虽然合理,但不 1 4 第二章特征选择 是最优的准则。例如上式中,j 是由多种两类的,。相加,只要其中有一种类对的 散度很大,就使平均散度显著偏离,因而掩盖了对散度小的那些类对的判别, 这时往往仍得考查每一对类别间的散度值。 采用变换散度,;可以改善这一情况,即定义 j :一1 0 0 1 一e x p ( - j 。,8 ) 】 ( 2 9 ) 当t o 。和何;两类模式分离得远时,它们的散度,。也就变得十分大,但其变换 散度j j 最大也只能趋向于1 0 0 处( 即饱和) 。对于散度小的情况,变换散度却 比较敏感。其实式( 2 9 ) 中的,;就是,;f 的指数饱和曲线,如图2 2 所示。 图2 2 j :是,。的指数饱和曲线 用于多类模式差别时,平均变换散度,7 为 ,72 艺1 p 何;) p ,) - ,j ( 2 - 1 0 ) 它比平均散度有更可靠的可分性判别能力。对于两类之间的散度来说,年吖j 的 关系是单调的:但对多类的总散度来说,j 和j t 并不一定是单调的,即它们并不 总是能同时取得极值。 ( c ) b h a t t a c h a r y y a 距离和詹夫利斯一一马特西特( j e f f r i c e s - - m a t u s i t a ) 距 离( 即j m 距离) 对于正态分布模式的b h a t t a c h a r y y a 当c 。= c ,时,距离如式( 2 1 1 ) , 第二章特征选择 = 百1 西一) t c - i i - m j ) ( 2 1 1 ) 它与散度的关系式是对应的。同样,对于多类别的特征选择可用平均 b h a t t a c h a r y y a 距离,即 a 2 善荟,即r ) p p ) ( 2 1 2 ) 与平均散度相似,口值也存在着数大的a 。同掩盖掉数值小的情况,因而采 用j m 距离。它定义为 ,l ;:f ;【2 ( 1 一e x p ( 一口f f ) ) 】7 2 ( 2 1 3 ) 与a 。也成指数关系,同样增大了小距离变化对总准则值的影响。对多类情 况,它是更优的可分准则。多类情况的j m 距离为 a 一菩兰,p p r ) p 扣y ( 2 1 4 ) ( 3 ) 穷举式特征选 以上介绍的散布矩阵迹准则、j m 距离和变换散度都可作为差别类别可分性 的准则函数,而对k = c ? 种特征组合方案进行穷举式的最优选择,即将k 种征 子集的准则函数值从大到小择按顺序排列,可以选出最优的特片子集来。穷举 式特征选择的优点就是它不仅能提供最优的特征子集,而且还可全面了解所有 特征对各类之间的可分性信息。但是当测量特征的维数n 很高时,穷举法的运 算次数相当大。这时可采用以下简化计算的方法。 ( a ) 最大最小类对距离法 采用穷举法对多类问题作特征选择,可采用变换散度或j m 准则,但两者 都需要指数运算。更简单的方法是在c 类中选出最难分离的一对类别,亦即选用 对应于c 类中类对距离最小的数值,来代替变换散度或j m 准则。这时,只须 采用散度或b h a t t a c h a r y y a 距离准则计算出c 类中每一对类别之间的距离j d 再 从多个d 。值中选出最小值,以此来代表多类的准则,即 d k = m i n d q f 1 2 ,。;i + 1 ,# ( 2 1 5 ) 因穷举法中共有k 种特征子集,d ;r 鼍x 砰扣 d 扛吐:,k 吐:,点 。 j q + l ,c 按实验结果,它与采用j m 准则等有很好的一致性,但计算要简单得多。 ( b ) 分支定界搜索法( b r a n c h b o u n d a l g o r i t h m ) 第二章特征选择 穷举法的缺点是需要分析每一种可能的特征选择方案,以便从中选出最优 的。但是如果准则函数满足按特征维数单调变化的性质,即原模式x 如为r l 维, 从中选出m 个特征组成一个r n 维特征,再从该m 维特征选出k 个组成一个七维 特征,其准则函数满足,。j 。j k 的条件,则可采用分支定界搜索法来减少选 择方案的试探次数。 为了说明问题,将所有可能的特征子集组成树结构,n 维的原模式为根。按 特征子集的维数逐个减小,树的子结点维数亦逐级下降,直到规定维数的模式 为终止结点时为止。例如要将五维模式降为二维,要从5 个特征中任选2 个构 成子集,共有c := 1 0 种组合方式,将它的降维过程组成如图2 3 所示的树结构, 它的根部为x = ( 一x ,x ,x 。x ,) ,它的终止结点为1 0 种可能的二维特征的组合。 x lx 2 z 1x 3 x 2 x 3x lx 4x 2 x 4x 3 x 4x lx 5工2 x 5的砖x 4 x 5 图2 3 分支定界搜索示意 采用分支定界算法是先算出树中一种二维模式的准则函数作

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论