（计算机软件与理论专业论文）基于数据挖掘的自适应入侵检测.pdf

上传人：活*** IP属地：宁夏上传时间：2019-12-14 格式：PDF 页数：63 大小：1.65MB 积分：0 举报 版权申诉

已阅读5页，还剩58页未读，继续免费阅读

（计算机软件与理论专业论文）基于数据挖掘的自适应入侵检测.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

浙江大学砸= l 学位论文y 8 2 81 21 摘要随着网络技术的飞速发展，计算机网络被广泛应用到人类活动的各个领域，碉络对社会经济和人们生活的影响越来越大。网络的安全性问题也越来越受到广乏的关注，各种网络安全相关的技术和产品不断涌现。入侵检测技术是其中一个重要的技术。本文针对现有的入侵检测系统的不足，提出了将数据挖掘技术应用 j 二入侵检测以提高其性能的方法。本文首先介绍网络安全现状和入侵检测技术的应用情况，重点分析了现有的陵术和面f 临的挑战。在基础知识介绍中，本文还简要介绍了数据挖掘技术，以及入侵检测系统中可以应用的数据挖掘方法。现有的入侵检测系统普遍具有自适应性差、误报漏报问题严重和数据过载等司题。根据我们的研究，本文引入了一种基于数据挖掘的入侵检测系统，该系统是一种具有自学习、自完善功能的入侵检测系统。采用分类和聚类挖掘相结合，实现了一个基于误用和异常的混合式入侵检测系统，可发现已知和未知的滥用入曼和异常入侵活动。按下来介绍了系统的设计和具体实现，也就是用于数据预处理和分类、聚类范掘的数据挖掘技术。在数据预处理中，我们使用基于属性抽取的方法去除干扰褥性。我们采用c u r e 算法进行聚类模式挖掘，r j p p e r 算法进行分类模式挖掘，以发现入侵检测中的规则和动态增加规则。最后，我们对系统进行了铡试，通过测试结果我们发现，r i p p e r 算法的挖掘的效率和正确率，而系统确实能够有效的检测到已知未知攻击。【关键谒】：入侵检测，数据挖掘，分类，聚类，误用检测，异常检测浙江大学硕士学位论文 a b s t r a c t w i t ht h ed e v e l o p m e n ta tf u l l s p e e do ft h en e t w o r kt e c h n o l o g y ，t h ec o m p u t e rn e t w o r ki s a p p l i e dt oe a c hf i e l do f t h eh u m a na c t i v i t y e x t e n s i v e l y ，t h ei m p a c t0 ns o c i a le c o n o m ya n dp e o p l e s l i f eo ft h e n e t w o r ki s g r e a t e ra n dg r e a t e r t h es e c u r i t yq u e s t i o no ft h en e t w o r kr e c e i v e st h e e x t e n s i v ec o n c e r r tm o r ea n dm o r e t e c h n o l o g ya n dp r o d u c t st h a tv a r i o u sk i n d so fn e t w o r k s e c u r i t y a r ec o r r e l a t e dw i t h a r ee m e r g i n gc o n s t a n t l y i ti sa ni m p o r t a n tt e c h n o l o g ya m o n gt h e mt oi n t r u s i o n d e t e c t i o nt e c h n i q u e t h i st h e s i sh a sp u tf o r w a r du s i n gt h et e c h n o l o g yo ft h ed a t a m i n ei no r d e rt o i m p r o v et h e i rp e r f o r m a n c ef o ri n t r u s i o nd e t e c t i o ns y s t e m t h i st e x ti n t r o d u c e st h ec u r r e n ts i t u a t i o n so ft h en e t w o r ks e c u r i t ya n di n t r u s i o nd e t e c t i o na t f i r s t , a n da n a l y s e se x i s t i n gt e c h n o l o g ya n dc h a l l e n g ee s p e c i a l l y t h i st h e s i sh a sa l s oi n t r o d u c e d t h ek n o w l e d g eo fd a t a m i n ea n dm e t h o dt h a ta n dc a nb eu s e di n i n t r u s i o nd e t e c t i o n e x i s t i n gi n t r u s i o nd e t e c t i o ns y s t e m sg e n e r a l l yh a v eq u e s t i o n s ，s u c ha sb a ds e l f - a d a p t a t i o n ， s e r i o u sd i s t o r ta n df a i lt or e p o r ta n do v e r l o a d i n gd a t a , e t c a c c o r d i n gt oo u rr e s e a r c h ，t h i st h e s i s h a si n t r o d u c e do n ei n t r u s i o nd e t e c t i o ns y s t e mb a s e do nd a t am i n i n gw h i c hc a nt e a c h e si t s e l ft o l e a r n ，i t s e l fp e r f e c t i n gt h ef u n c t i o n w i t ht h ec l a s s i f i n ga n dc l u s t e ra l g o r i t h m ，w ei m p l e m e n ta m i s u s ea n da n o m a l ym i x e di d sv o h i c hc a nd e t e c tt h ek n o w na n du n k n o w na t i a c k n e x t , w ei n t r o d u c et h ed e s i g na n di m p l e m e n t i o no f t h es y s t e mw h i c ha d o p tt h et h ed a t a m i n e t e c h n o l o g yo fd a t ap r e t r e a t m e n t ，c l a s s i f ya n dc l u s t e rp a r e r n sm i n e w eu s et h em e t h o db a s e d o n f e a t u r e ss e l e c t i o nt og e tr i do fn o i s e s w ea p p yt h er i p p e ra l g o r i t h mt oc l a s s i f yp a t t e r nm i n e a n dc u r e a l g o r i t h mt oc l u s t e rp a t t e r nm i n e ，i ti sa b l et of i n dt h er u l e si ni n t r u s i o nd e t e c t i o na n di t i sa l s oa b l et oj n c r e a s et h er u l ed a t a b a s e f i n a l l y ，w eg i v eat e s tt ot h es y s t e m t h r o u g ht h et e s t ，w ef i n dt h a tr i p p e ri se f f i c i e n ta n d e f f i c i e n c y a tt h es a i n et i m e ，o u ri n t r u s i o nd e t e c t i o ns y s t e mi se f f i c i e n tt od e t e c tk n o w na n d u n k n o w na t t a c k k e y w o r d s ：i n t r u s i o nd e t e c t i o n ，d a t am i n i n g ，c l a s s i f y ，c l u s t e r ，m i s u s ed e t e c t i o n ，a n o m a l y d e t e c t i o n 浙江大学硒! 卜学位论文 1 1 引言第一章绪论近十几年i n t e r n e t 的发展和广泛应用正逐步影响着人们的生活和工作方式。在我国，网络互联早已成为人们实现信息共享与交流的有力手段。但由于需要保护国家军政、经济、工商业等情报以及私人数据等敏感信息，信息的安全性越来越引起业内人士的普遍关注。特男u 是2 0 世纪末电子商务的出现，对信息安全的要求也越来越高。信息的安全保护前景不容乐观，各国不断出现网络入侵事件。2 0 0 0 年年初， y a h o o 、亚马逊等八家著名网站受到黑客的攻击，直接造成1 2 亿美元的经济损失。 1 9 9 8 年。计算机紧急响应小组( c e r t ) 的年度报告中指出当年发生了2 5 0 0 0 起有报道的安全事故。据美i 虱f b i 统计，美国每年因网络安全问题所造成的经济损失高达7 5 亿美元，全球平均2 0 秒钟就会发生一起i g t e r n e t 网络a 侵事件 1 】。网络入侵如此猖撅，为了保护信息的安全，人们研究出了诸如防火墙和代理服务器等安全产品进行被动防护。但是这些方法只能将部分入侵拒之f 3 9 - ，使网络失去了配置的灵活性，妨碍了用户的应用。而且他们也无法应付来自于系统内部的攻击。因此，入们提出了入侵检测技术。近年来，作为信息安全的重要支撑技术之一的入侵检测技术获得了显著发展，成为安全保护体系结构中的一个重要的组成部分。入侵检坝j j ( i d s ，i n t r u s i o n d e t e c t i o ns y s m m ) 是用来识别针对计算机系统和网络系统，或者更广泛意义上的信息系统的非法攻击，包括检测外界非法入侵者的恶意攻击或试探，以及内部合法用户超越使用权限的非法行动。使用d s 的晷的各有不同，比如：对入侵者跟踪、定位和起诉，保护自己重要的计算资源，发现和纠正系统安全漏洞。随着网络的发展，计算机系统己经从独立的主机发展至9 复杂的、互联的、开放式的系统，这变化导致了系统入侵的蔓延。同时，计算机操作系统复杂性的增加，不仅导致了入侵的复杂性的增加，而且增加了设计和实现真正可靠安全防御体系的难度。目前的入侵检测系统缺乏有效性、适应性和可扩展性。因此人们引入了数据挖掘技术使得入侵检测系统具有更强的自动化和系统化。浙江大学硕k 学位论文数据挖掘技术是最新的数据库和人工智能领域的技术之一，数据挖掘的作用是从大量的数据中发现隐含的规律性，解决数据的应用质量问题，也就是充分利用有用的数据，废弃虚伪无用的数据。这种作用引起了业界的普遍关注，有着广阔的发展前景。除了数据挖掘本身的诸多优点，考虑到数据挖掘可以从大量的系统安全事件中找出一些相互关联的入侵事件及其规律，从而有效地检测入侵，因此我们对基于数据挖掘的入侵检测系统中的关键技术进行研究。 1 2 目前研究现状目前国外不但有多个实验室从事入侵检测系统的研究和开发，而且己完成一些原型系统和商业产品。但国内的研究现状却相对落后。国外对入侵检测的研究己广泛开展，形成了多个标准，其中主要有美国国防部高级研究计划局 ( d e f e n s e a d v a n c e dr e s e a r c hp r o j e c t sa g e n c y ，d a r p a ) 的公共入侵检测框架 ( c o m m o ni n f u s i o nd e t e c t i o nf r a m e w o r k ，c i d f ) 标准【2 】和i n t e m e ti 程任务组 ( i n t e r n e te n g i n e e r i n gt a s kf o r c e ，i e t f ) 的入侵检测数据交换格式( i n t r u s i o n d e t e c t i o ne x c h a n g ef o r m a t ，i d e f o 这两个标准都从不同方面对i d s 系统进行了比较详细的描述。我国正在积极地制定入侵检测标准如“入侵检测框架”，并己取得一定的成果。入侵检测技术在信息安全强烈需求下得到了不断的发展和完善。现在，入侵检测技术已经形成了较为完善的技术体系和设计模型，比如d o r o t h y e d e n n i n g ，t e r e s al u l l t 等人提出并改进的通用入侵检测系统抽象模型。同时有不少大型入侵检测系统软件出现，并获得了成功的商业化应用。它们中有：s t a n f o r d r e s e a r c h i n s f i t u t e ( s r i ) 开发的i d e s ( i n t r u s i o nd e t e c t i o ne x p e r ts y s t e m ) 系统、 n e t w o r kf l i g h t r e c o r d e r ，i n c ( n f r ) ) 公司开发的i d a ( i n t r u s i o nd e t e c t i o n a p p l i a n c e ) 系统以及c i s c o 公司的n e t r a n g e r 系统。这些商业软件所取得的成功应用，极大地推动了学术界对入侵检测技术的研究热情和入侵检测技术在产业界的推广。目前大多数网络入侵检测系统都是通过手工定制的方式建立起来的，尤其是用于识别判断入侵行为的检测知识，都是由安全领域专家自己总结提供，并将其 i i f 江大学礁：学位论叟编写到网络入侵检测系统中。其中最著名的产品就是c i s c o 公司的n e t r a n g e r 。这类入侵检测系统最大的不足是需要专家不断提供有关入侵检测的最新知识，因此不能发现未知的入侵或攻击行为。为了解决入侵检测系统上述缺陷，c o l u m b i a u n i v e r s i t y 的w e n k e l e e 提出了在入侵检测系统中应用数据挖掘技术【3 】。数据挖掘技术在入侵检测系统中的应用大大减少了手工和经验的成分。基于数据挖掘的网络入侵模型可以进行机器学习和模式扩充，入侵检测效率和可靠性明显得到提高。实验表明，将数据挖掘技术应用到入侵检测系统中具有很强的理论基础，在技术上具有可行性。其技术难题主要在于如何根据具体应用的要求，从关于安全的先验知识出发，提取出可以有效地反映系统特性的特征属性，应用合适的算法进行数据挖掘。技术难点还在于如何将数据挖掘的结果自动地应用到实际的入侵检测系统中。目前国际上在这些方面研究很活跃，其中最活跃的是美国，得到d a r p a 和 n s f 的支持。这些方面的研究，总体上说还处于理论探讨阶段，离实际应用还有相当的距离。总之，入侵检测技术虽然己获得了长足发展，但随着网络入侵技术的不断发展、入侵的行为表现出不确定性、复杂性、多样性等特点，入侵检测面临许多有待解决的关键问题，如高效率的检测算法、入侵模式确认、入侵实时监测、入侵描述语言、检测数据标准化、高速网络中的入侵检测、i d s 评估、i d s 与其他系统的协同工作等一系列问题都有待进步研究和实现。这将不断地推动入侵检测技术得到更深入的发展和更广泛的应用，创造出更多的使用价值。浙江大学硕士学位论文第二章入侵检测技术我们所说的网络上的入侵是指任何企图破坏资源的完整性、保密性和有效性的行为。也指违背系统安全策略的任何事件。入侵行为不仅仅指来自外部的攻击，同时也包括内部用户的未授权行为i 有时内部人员滥用他们特权的攻击是系统安全的虽大隐患。从入侵策略的角度来看，入侵可以分为：企图进入、冒充其他合法用户、成功闯入、合法用户的泄漏、拒绝服务及恶意使用等几个方向。另外各种系统自身的缺陷、系统的不当配置、网络协议在实现上的漏洞、应用软件的缺陷等都会为入侵者提供有利可乘的机会。入侵检测是指通过计算机网络或计算机系统中的若干关键点收集信息并对其进行分析，从中发现网络或系统中是否有违反安全策略的行为和遭到攻击的迹象，同时作出响应。入侵检测系统( i d s ：i n t r u s i o nd e t e c t i o ns y s t e m ) 是实现入侵检测功能的一系列的软件、硬件的组合它是入侵检测的具体实现。作为种安全管理工具，它从不同的系统资源收集信息，分析反映误用或异常行为模式的信息，对检测的行为作出自动的反应，并报告检测过程的结果。 2 1 入侵检测系统分类入侵检测系统按照不同的概念有许多不同的分类标准，下面我们就输入数据来源、采用的检测技术和组成方式这三种分类方式来介绍他的分类。 2 1 。1 按照输入数据来源分类基于主机的入侵检测系统( h i d s ：ho s t b a s e di n t r u s i o nd e t e c t i o ns y s t e m ) 基于主机的入侵检测系统通常以系统日志、应用程序日志等审计记录文件作为数据源。它是通过比较这些审计记录文件的记录与攻击签名( a t t a c ks i g n a t u r e ，指用一种特定的方式来表示己知的攻击模式) 以发现它们是否匹配。如果匹配，检测系统就向系统管理员发出入侵报警并采取相应的行动。基于主机的i d s 可以精确地判断入侵事件，并可对入侵事件作出立即反应。它还可针对不同操作系统浙江大学硕士学位论文的特点判断应用层的入侵事件。基于主机的i d s 有着明显的优点：a 非常适合于加密和交换环境；b 近实时的检测和响应；。c 不需要额外的硬件。同时也存在着一些不足，会占用主机的系统资源，增加系统负荷，而且针对不同的操作平台必须开发出不同的程序，另外所需配置的数量众多。但是对系统内在的结构却没有任何约束，同时可以利用操作系统本身提供的功能，并结合异常检测分析，更能准确的报告攻击行为。基于网络的入侵检测系统( k i d s ：n e t w o r k - b a s e di n t r u s i o nd e t e c t i o ns y s t e m ) 基于网络的入侵检测系统把原始的网络数据包作为数据源。它是利用网络适配器来实时地监视并分析通过网络进行传输的所有通信业务它的攻击识别模块进行攻击签名识别的方法有：模式、表达式或字节码匹配；频率或闽值比较；次要事件的相关性处理；统计异常检测。一旦检测到攻击，d s 的响应模块通过通知、报警以及中断连接等方式来对攻击行为作出反应然而它只能监视通过本网段的活动，并且精确度较差，在交换网络环境中难于配置，防欺骗的能力也比较差。但它也有着一定的优势：a ，成本低；b 攻击者转移证据困难；c 实时的检测和响应：d 靖够检测到未成功的攻击企图；e 与操作系统无关，即基于网络的i d s 并不依赖主机的操作系统作为检测资源。 2 1 2 按照其采用的检测技术分类：夺异常检测( a n o m a l y de t e c t i o n l 异常检测，也被称为基于行为的检测；其基本前提是：假定所有的入侵行为都是异常的。原理：首先建立系统或用户的“正常”行为特征轮廓，通过比较当前的系统或用户的行为是否偏离正常的行为特征轮廓判断是否发生了入侵。而不是依赖于具体行为是否出现来进行检测的，从这个意义上来讲，异常检测是种间接的方法。异常检测的关键问题是特征量的选择和参考阐值的选定。从异常检测的原理我们可以看出，该方法的技术难点在于i 正常”行为特征轮廓的确定：特征量的选取；特征轮廓的更新。由于这几个因素的制约，异常检测的虚警率很高，但对于浙扛大学硕士学位论文的特点判断应用层的入侵事件。基于主机的i d s 有着明显的优点：a 非常适合于加密和交换环境；b 近实时的检测和响应；。c 不需要额外的硬件。同时也存在着一些不足，会占用主机的系统资源，增加系统负荷，而且针对不同的操作平台必须开发出不同的程序，另外所需配置的数量众多。但是对系统内在的结构却没有任何约束，同时i j 以利用操作系统本身提供的功能，并结合异常检测分析，更能准确的报告攻击行为。基于网络的入侵检测系统( k i d s ：n e t w o r k - b a s e di n t r u s i o nd e t e c t i o ns y s t e m ) 基于网络的入侵榆测系统把原始的网络数据包作为数据源。它是利用网络适配器来实时地监视并分析通过网络进行传输的所有通信业务它的攻击识别模块进行攻击签名识别的方法有：模式、表达式或字节码匹配；频率或闽值比较；次要事件的相关性处理；统计异常检测。一旦检测到攻击，i d s 的响应模块通过通知、报警以及中断连接等方式来对攻击行为作出反应然而它只能监视通过本网段的活动，并且精确度较差，在交换网络环境中难于配置，防欺骗的能力也比较差。但它也有着一定的优势：a ，成本低；b 攻击者转移证据困难；c 实时的检测和响应；d 能够检测到未成功的攻击企图：e 与操作系统无关，即基于网络的 d s 并不依赖主机的操作系统作为检测资源。 2 1 2 按照其采用的检测技术分类：夺异常检：测( a n o m a l y de t e c t i o n l 异常检测，也被称为基于行为的检测；其基本前提是：假定所有的入侵行为都是异常的。原理：首先建立系统或用户的“正常”行为特征轮廓，通过比较当前的系统或用户的行为是否偏离正常的行为特征轮廓判断是否发生了入侵。而不是依赖于具体行为是否出现来进行检测的，从这个意义上来讲，异常检测是一种问接的方法。异常检测的关键问题是特征量的选择知参考阐值的选定。从异常检测的原理我们可以看出，该方法的技术难点在于“讵常”行为特征轮廓的确定；特征量的选取：特征轮廓的更新。由于这几个因素的制约，异常检测的虚警率很高，但对于取；特征轮廓的更新。由于这几个因素的制约，异常检删的虚警率很高，但对于浙江大学硕士学位论文未知的入侵行为的检测非常有效。此外，由于需要实时地建立和更新系统或用户的特征轮廓，这样所需的计算量很大，对系统的处理性能要求会更高。呤误用检钡 ( m i s u s ed e t e c t i o n ) 误用检测，也被称为基于知识的检测；其基本前提是：假定所有可能的入侵行为都能被识别和表示。原理：首先对己知的攻击方法进行攻击签名( 攻击签名是指用一种特定的方式来表示己知的攻击模式) 表示，然后根据已经定义的攻击签名，通过判断这些攻击签名是否出现来判断入侵行为的发生与否。这种方法是直接判断攻击签名的出现与否来判断入侵的，从这一点来看，它是一种直接的方法。误用检测是通过将收集到的信息与己知的攻击签名模式库进行比较，从而发现违背安全策略的行为的。那么它就只需收集相关的数据，这样系统的负担明显减少。该方法类似于病毒检测系统，其检测的准确率和效率都比较高。这种技术比较成熟，但是它也存在一些缺点：a ，不能检测未知的入侵行为。由于其检测机理是对己知的入侵方法进行模式提取，对于未知的入侵方法由于缺乏知识就不能进行有效的检测，也就是说漏报率比较高。b 与系统的相关性很强。对于不同的操作系统由于其实现机制不同，对其攻击的方法也不尽相同，很难定义出统一的模式库。另外由于己知知识的局限，难以检测出内部人员的入侵行为，如合法用户的泄漏。 2 1 3 按照组成方式分类夺集中式i d s 系统由一个集中的入侵检测服务器和运行于各个主机的简单的审计程序组成。被监视的各个主机将收集的数据传送到检测服务器，由服务器进行分析。许多现有的系统是建立在这种模式下的，一般运行在规模较小的网络中。这种系统在可衡量性、强壮性和可配置性方面有很大的缺陷。首先随着网络规模的增大，主机和服务器之间要传输的数据流很大，这将降低网络的性能并很难保证可衡量性；其次，如果检测服务器坏了，整个系统就崩溃了；再次，要根据各个主机的不同需要来配置这个服务器。浙江大学硕士学位论文令分层式i d s 为克服单点实现的缺陷，在监视大规模网络时，需将网络分层管理，每层的各个i d s 分析相应网络段监视数据，将分析结果传至临近的上一层。这样高一层的i d s 只用分析下一层的分析结果，而不用将所有收集的数据传至检测服务器。基于图形的i d s 正在实施中。分层实施通过分布地分析数据使系统具有更好的可升级性。不过单点实现的其他缺陷在分层结构中还存在。当网络的拓扑结构改变后，网络分层改变，综合局部分析结果的机制也得到改变。不过较高层次的监视器被攻破了，那些从网络多路发起的进攻将不会被检测到。夺分布式i d s 分布式实现将单个服务器的任务分给多个相互合作的主机i d s 。每个i d s 监视单个主机的一部分，多个i d s 同时运用、相互合作，它们相互参考作出总体决策。它与分层实现的不同是在分布的i d s 中没有分层，这样任何一个i d s 失误不会影响基于网络进攻的检测。在c s m 中采用了这种方法就克服了以上2 种方法的缺点。这些研究正在进行，结果尚未定论，不过又引起其他问题而影响系统的有效性。系统给监视的主机增加了负荷，如通讯机制、审计机制和日志分析，这都是重大的发展障碍。 2 2 入侵检测模型最早的入侵检测模型是由d e n n i n g 在1 9 8 6 年提出的。这个模型与具体系统和具体输出无关，对此后的大部分实用系统都很有借鉴价值。图2 1 表示了这个通用模型的体系结构审诗记录、荆辫数据包苍转蜒菠型新缓划型新图2 一l 入侵检测模型事件产生器可以根据具体应用环境而有所不同，一般情况下可来自审计记录、网络数据包以及其它可视行为，这些事件构成检测的基础。浙江大学删士学位论文行为特征表是整个检测系统的核心，它包含了用于计算用户行为特征的所有变量，这些变量可以根据具体所采纳的统计方法以及事件记录中的具体动作模式而定义，并根据匹配上的记录数据更新变量值。如果有统计变量的值达到了异常程度，则行为特征表产生异常记录并采取一定的措旅。规则模块可以由系统安全策略、入侵模式等组成。它一方面为判断是否入侵提供参考机制，另一方面根据事件记录异常记录以及有效日期等控制更新其它模块的状态。具体实现上，规则的选择与更新可能不尽相同，但一般地，行为特征模块执行基于行为的检测，而规则模块执行基于知识的检测。由于这两种方法具有一定的互补性，实际系统经常将两者结合在一起使用。目前通用的一种入侵检测模型如图2 2 所示口j 图2 2 通用入侵检测模型为了提高检测结果的准确性，数据源在提交数据之前需要预处理，去掉无用的干扰数据，这样可以提高检测效率；对于误用检测，需要为模式匹配机准备好入侵的签名库( 或称模式库) 。目前关于入侵模式的提取和编制还没有一个统一的标准，一般都由有经验的安全技术人员手工完成；对于异常检测，首先利用收集的数据，采取一定的统计方法建立相应的系统剖析模型，作为系统正常运行的参考基准，这个过程由系统的剖析引擎完成。而异常检测器则不断的计算相应统计量的变化情况，一旦系统偏移参考基准超过许可范围就认为系统发生异常。浙江大学硕j h 学位论文 2 3 入侵检测系统原理及构成入侵检测是用于检测任何损害或企图损害系统的保密性、完整性或可用性行为的一种网络安全技术。它通过监视受保护系统的状态和活动，采用误用检测 ( m i s u s ed e t e c t i o n ) 或异常检测( a n o m a l yd e t e c t i o m 的方式，发现非授权的或恶意的系统及网络行为；它提供了用于发现入侵攻击与合法用户滥用权限的一种方法，它所基于的重要前提是：非法行为和合法行为是可区分的，也就是说，可以通过提取行为的模式特征来分析判断该行为的性质。一个基本的入侵检测系统需要解决两个问题：一是如何充分可靠地提取描述行为特征的数据；二是如何根据特征数据，高效并准确地判定行为的性质。入侵检测的基本原理图如图2 3 所示：图2 3 入侵检测的基本原理图从系统构成上看，入侵检测系统至少包括数据提取、入侵分析、响应处理三个部分，另外还可结合安全知识库、数据存储等功能模块提供更为完善的安全检测及数据分析功能。其中数据提取模块在入侵检测系统中居于基础地位，负责提取反映受保护系统运行状态的运行数掘，并完成数据的过滤及其它预处理工作，为入侵分析模块和数据存储模块提供原始的安全审计数据，是入侵检测系统的数据采集器。数据提取模块的功能和效率直接影h i l i d s 系统的性能。如何选择正确的数据源如何进行合适并高效的预处理，是数据提取模块乃至整个入侵检测系统需要首先解决的问题。浙江大学颂士学位论文 2 4 入侵检测系统的实现 2 4 1 信息收集入侵检测的第一步时收集信息，内容包括系统，网络，数据以及用户活动的状态及其行为。而且，需要在计算机网络系统中的若干不同关键点( 不同网段和不同主机) 收集信息，除了尽可能地扩大检测范围的因素外，还有一个重要的因素就是从一个源收集来的信息可能看不出疑点，但是从几个源收集来的信息的不一致性却是可疑行为或者入侵的最好标识。入侵检测利用的信息一般来自以下4 个方面：系统和网络日志文件黑客经常在系统日志文件中留下他们的踪迹，因此，充分利用系统和网络日志文件信息时检测入侵的必要条件。系统目录和文件的异常改变网络环境中的文件系统包含很多软件和数据文件，包含重要信息的文件和私有数据文件经常时黑客修改或者破坏的目标。目录和文件中的异常改变( 包括修改，创建和删除) ，特别是那些正常情况下限制访问的信息，很可能就是一种入侵产生的指示和信号。程序执行中的异常行为网络系统上运行着许多程序，每个运行的程序由一个或多个进程来实现，每个进程执行在不同的权限环境中，这种环境控制着进程可访问的系统资源，程序和数据文件等。一个进程出现了异常行为可能表明黑客正在入侵你的系统。物理形式的入侵信息这包括两个方面的内容，一是未授权的对网络硬件的连接；另一个是对物理资源的未授权的访问。浙江大学硕士学位论文 2 4 2 信号分析对于上述4 类收集到的有关系统，网络数据，用户活动状态和行为等信息，一般通过3 种技术手段进行分析：模式匹配，统计分析和完整性分析。其中前两种方法用于实时的入侵检测，而完整性分析则用于事后分析。模式匹配模式匹配就是将收集到的信息与已知的网络入侵和系统误用模式数据库进行比较，从而发现违背安全策略的行为。该方法的一大优点是只需收集相关的数据集合，从而显著地减轻系统负担，而且技术己经相当成熟。它与病毒防火墙采用的方法一样，检测准确率和效率都相当高。弱点是需要不断地升级以对付不断出现的黑客攻击手法，不能检测到从未出现过的黑客攻击手段。统计分析统计分析方法首先给系统对象( 如用户，文件，目录和设备等) 创建一个系统描述，统计正常使用时的一些测量属性( 如访问次数，操作失败次数和延时等) 。测量属性的平均值将被用来与网络，系统的行为进行比较，当任何观察值正常值范围之外时，就认为有入侵发生。其优点是可检测到未知的入侵和更为复杂的入侵，缺点是误报率高，而且不适应用户正常行为的突然改变。完整性分析完整性分析主要关注某个文件或对象是否被更改，这经常包括文件和目录的内容以及属性，它在发现被更改的，被特洛伊化的应用程序方面特别有效。完整性分析利用强有力的加密机制，称为消息摘要函数( 例如m d 5 ) ，它可识别哪怕是微小的变化。其优点是无论模式匹配方法和统计分析方法能否发现入侵，只要是成功的攻击导致了文件或者其他对象的任何改变，它都能够发现。缺点是一般以批处理方式实现，不用于实时响应。 2 5 入侵检测的新的技术未来i d s 技术的发展将着重于：新江大学硕士学位论文标准化攻击特征模式的提取过程，以提高效率并减少复杂度：检测的层次化。目前的i d s 主要对t c p i p 协议的网络层数据包进行分析和处理，而几乎所有的实际应用都有自己的高层应用协议，未来的i d s 系统应当能够在网络协议的不同层次上对入侵进行检测和报警；夺信息源的关联复用。现今几乎没有任何关于如何生成系统日志、安全记录方面的国际标准和规范，这增加了i d s 系统数据采集工作的难度。从理论上讲，从多个信号源获得的信息量会比单一信号源的多。对于i d s 系统，如果能够充分利用网络中其他设备或应用系统产生的日志和审计记录，必将极大提高自己检测准确性和可靠性；夺支持与其它产品的兼容性。单凭一种安全技术不能解决所有的安全问题，每一种安全产品都有自己的特长和局限性，相互配合、彼此支持才能提高信息系统的安全性能。目前已经有i d s 与防火墙厂商合作的先例( 如i s s 同c h e c k p o i n t ) ，相信今后类似的协作会更多；夺集成各种i d s 。由于网络本身是一个复杂的系统，而不同类型的i d s 是针对不同重点对网络进行监测，各有优缺点，将各类入侵检测系统集成将会更好地维护网络安全夺借鉴其他领域的研究成果。如专家系统、神经网络、基于代理技术的检测、数据挖掘、判定树、混沌分类系统和可能性推理模型等。入侵检测的最终目的是有效地提高系统的脆弱性，而不能仅局限于检测己知脆弱性，规则集需要不断地更新，加入机器学习能力，增强i d s 系统自身发展和提高i d s 系统的智能化和自适应能力。 2 , 6 入侵检测系统面临的挑战与防火墙这样技术高度成熟的产品相比，入侵检测系统还存在相当多的问题。对其提出挑战的主要因素有： ( 1 ) 攻击者的水平不断提高，他们拥有l 二趋成熟的自动化工具，以及越来越复杂细致的攻击手法。相对而言，入侵检测工具应用的技术老化，依据的已有攻击方法陈旧，仍是公开可获得的那些类型，没有跟上“攻击技术”的发展速度。 1 2 浙江大学硕l - 学位论文 ( 2 ) 恶意信息采用加密的方法传输网络入侵检测系统通过匹配网络数据包发现攻击行为，入侵检测工具往往假设攻击信息是通过明文传输的，因此对信息的稍加改变便可能骗过它的检测。 t f n 现在便已经通过加密的方法传输控制信息。还有许多系统通过v p n ( 虚拟专用网) 进行网络之间的互联，如果检测系统不了解其所用的隧道机制，会出现大量的误报和漏报。 ( 3 ) 必须协调、适应多样性的环境中的不同的安全策略网络及其中的设备越来越多样化，既存在关键资源如邮件服务器、企业数据库，也存在众多相对不是很重要的p c 机。不同企业之间这种情况也往往不尽相同。检测系统要能有所定制以更适应多样的环境要求。 ( 4 ) 不断增大的网络流量不断增大的网络流量对入侵检测的实时性提出了挑战，商业产品一般都建议采用当前最好的硬件环境( ? ! n n f r 5 0 要求主频最少7 0 0 m 以上的机器) 。但是对百兆以上的流量，单一的入侵检测系统仍很难应付。这不仅要从系统体系结构上加以改进，从算法上加以改进，还应该考虑采用硬件固化的方法来克服单纯使用软件造成的速度问题。 ( 5 ) 广泛接受的术语和概念框架的缺乏入侵检测系统的厂家基本处于各自为战的情况，标准的缺乏使得其间的互通几乎不可能。就目前而言，入侵检测系统还缺乏相应的标准。目前，试图对入侵检测进行标准化的工作有两个组织：i e t f 的i n t r u s i o nd e t e c t i o nw o r k i n gg r o u p0 d w g ) $ 1 c o m m o ni n t r u s i o nd e t e c t i o nf r a m e w o r k ( c i d f ) ，但进展非常缓慢，尚没有被广泛接收的标准出台。 ( 6 1 采用不恰当的自动反应所造成的风险入侵检测系统可以很容易地与防火墙结合，当发现有攻击行为时，过滤掉所有来自攻击者的i l 数据。但是，不恰当的反应很容易带来新问题，一个典型的例子便是：攻击者假冒大量不同的i p 进行模拟攻击，而i d s 系统自动配置防火墙，将这些实际上并没有进行任何攻击的地址都过滤掉，于是形成了新的拒绝访问攻 i 旨。浙江大学颂士学位论文 ( 7 ) 对i d s 自身的攻击和其他系统一样i d s 本身也往往存在安全漏洞。诸如a x e n t n e t p r o w l e r , n f r ， i s sr e a l s e c u r e 等知名产品都有漏洞被发觉出来。若对i d s 攻击成功，则直接导致其报警失灵，入侵者在其后所作的行为将无法被记录。 ( 8 ) 大量的误报和漏报使得发现问题的真正所在非常困难。 ( 9 ) 交换式局域网造成网络数据流的可见性下降，同时更快的网络使数据的实时分析越发困难。浙江大学硕士学位论文第三章基于数据挖掘的入侵检测技术 3 1 数据挖掘技术概况采用数据挖掘的方法实现入侵检测系统是近年来入侵检测技术的一个方向，下面的一个章节就将介绍数据挖掘技术以及数据挖掘与入侵检测相关的一些技术。 3 1 1 数据挖掘的基本概念所谓数据挖掘，是从海量的数据中，抽取出潜在的、有价值的知识( 模式或规则) 的过程。也就是根据预定义的商业目标，对大量的企业数据进行探索和分析，揭示其中隐含的商业规律，并进一步将其模式化的先进有效技术过程。数据挖掘是一门交叉学科，它集成了许多学科中成熟的工具和技术，包括数据库技术、统计学、机器学习、模式识别、人工智能、神经网络等等。许多人把数据挖掘视为另一个常用的术语：数据库中的知识发现或k d d 的同义词。而另一些人只是把数据挖掘视为数据库中知识发现过程的一个基本步骤。知识发现过程由以下步骤组成：数据清理( 消除噪声或者不一致的数据) 数据集成( 多种数据源可以组合一起) 擞据选择( 从数据库中检索与分析人物相关的数据) 数据变换瞪女据变换或统一成适合挖掘的形势) 数据挖掘f 使用只能方法提取数据模式) 模式评估( 根据某种兴趣度度量，识别表示知识的真正有趣的模式) 知识表示( 使用可视化和知识表示技术，向用户提供挖掘的知识) 广义的数据挖掘是从存放在数据库、数据仓库或者其他信息库中的大量数据中挖掘有趣知识的过程。在这种观点下，数据挖掘系统具有以下主要成分：数据库、数据仓库或其他信息库、数据库或数据仓库服务器、知识库、数据挖掘引擎、模式评估模块和图形用户界面 6 t 。浙江大学硕= l 学位论文可以用下图3 1 清晰表示图3 1 数据挖掘系统结构图 3 1 2 数据挖掘的主要功能和步骤一般来说数据挖掘有以下的主要功能： 1 擞据总结或称之为描述( d e s c r i p t i o n ) 。目的是对数据进行浓缩，给出它的总体的综合描述，实现对原始数据的总体把握。常用的数据描述的方法是统计学的传统方法，如计算数据项的总和、均值、方差等基本描述统计量；或绘制直方图、折线图等统计图形。 2 分类( c l a s s i f i c a t i o n ) 。就是研究己分类资料的特征，分析对象属性，据此建立一个分类函数或分类模型，然后运用该模型计算总结出的数据特征，将其他未经分类或新的数据分派到不同的组中。计算结果通常简化为几个离散值，常用来对资料作筛选工作。浙江大学硕士学位论文 3 聚类( c l u s t e r i n g ) 。当要分析的数据缺乏描述信息，或是无法组成任何分类模式时就采用聚类的方法，将异质母体区隔为较具同构性的群( c l us t e r ) ，即将组之间的差异识别出来，并对个别组内的相似样本进行挑选，实现同组数据相近，不同组数据相异。分类功能和聚类功能是不同的，分类是根据预先定好的一些特征值对对象分组，组或类是预先确定好的，而聚类是事先不知道的条件下根据对象的一些相似特征分组。 4 估计与预测( e s t i m a t i o n a n d pr e d i c t i o n ) 。估计是根据已有的资料，对某一参数或数值进行估计，来获取数据其他未知属性之值。预测是根据对象属性、过去的观察值和有关资料对该属性的未来值进行预测，估计预测使用的技巧主要是回归分析、时间数列分析及人工神经网络方法。 5 。关联和序列发现( c o r r e l a t i o na n ds e q u e n c ed i s c o v e r y ) 。数据库中的数据一般都存在关联关系，即变量之间存在某种规律，关联就是要找出某一件事或某一资料中会同时出现的东西。序列分析的相关关系是在关联中增加了时间属性。因此关联分析就有了简单关联和时序关联之分。如第一次购买电脑的顾客中4 5 的人同时购买电脑应用软件，此为简单关联。前几年股票“深发展”一上涨，则第二天金融股票上涨的可能性为8 5 ，这就是时序关联。由于我们并不知道数据库中数据的关联是否存在精确的关联函数，即使知道也是不确定的，因此关联分析生成的规则带有置信

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（计算机软件与理论专业论文）基于数据挖掘的自适应入侵检测.pdf

文档简介

温馨提示

最新文档

评论

（计算机软件与理论专业论文）基于数据挖掘的自适应入侵检测.pdf

文档简介

温馨提示

最新文档

评论

相关文档