(计算机应用技术专业论文)基于数据挖掘的入侵检测技术的研究(1).pdf_第1页
(计算机应用技术专业论文)基于数据挖掘的入侵检测技术的研究(1).pdf_第2页
(计算机应用技术专业论文)基于数据挖掘的入侵检测技术的研究(1).pdf_第3页
(计算机应用技术专业论文)基于数据挖掘的入侵检测技术的研究(1).pdf_第4页
(计算机应用技术专业论文)基于数据挖掘的入侵检测技术的研究(1).pdf_第5页
已阅读5页,还剩45页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

南京邮电学院学位论文独创性声明 y 7 6 5 0 7 1 本人声明所呈交的学位论文是我个人在导师指导下进行的研究 工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的 地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包 含为获得南京邮电学院或其它教育机构的学位或证书而使用过的材 料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了 明确的说明并表示了谢意。 研究生签名: 日期: 南京邮电学院学位论文使用授权声明 南京邮电学院、中国科学技术信息研究所、国家图书馆有权保留 本人所送交学位论文的复印件和电子文档,可以采用影印、缩印或其 他复制手段保存论文。本人电子文档的内容和纸质论文的内容相一 致。除在保密期内的保密论文外,允许论文被查阅和借阅,可以公布 ( 包括刊登) 论文的全部或部分内容。论文的公布( 包括刊登) 授权 南京邮电学院研究生部办理。 研究生签名:导师签名:日期; 南京邮电学院硕士学位论文 摘要 入侵检测在高速发展的网络信息时代是十分重要的,它根据检测所用分析方法的 不同,可分为滥用检测和异常检测。本论文探讨了利用数据挖掘技术分别实现滥用检 测和异常检测的有效手段和方法。 基于案例的推理c b r 是数据挖掘技术中较新的应用,是对新案例在案例库中检索 出1 日案例,并进行修改,给新案例提供解的推理模式。而现在已有一种广泛应用于滥 用检测的基于规则的、开放源代码的入侵检测软件s n o r t ,但它存在误报或漏报的缺 陷,使得入侵检测的准确率不够高。因此,本文认为研究s n o r t 规则的基于案例推理 的实现,对于最终采用c b r 方法作为s n o r t 规则的有效补充从而提高s n o r t 在滥用检 测方面的能力具有十分重要的意义。 异常检测具有可以检测到未知入侵行为的优点,因此在实际应用中非常有效。为 了对安全审计数据进行全面、高速和正确的分析,发现数据中存在的关联和关系,可 以采用数据挖掘技术中的关联模式挖掘。本文改进了a p r i o r i 算法,提出了一种面向 异常检测的基于频繁树的最大关联模式挖掘算法,并就其增量式更新问题进行了探 讨,实现了一种最大关联模式的增量式更新算法。 本文的主要内容为: ( 1 )s n o r t 规则的基于案例推理的实现:提取部分s n o r t 规则转化为案例: 采用最邻近算法设计和开发了一个离线入侵检测系统,当用户有意识 地输入和s n o r t 规则不完全匹配的攻击时,s n o r t 无法检测,但c b r 系统却可以检测到,并按概率给出各种攻击的排名。 ( 2 )面向异常检测的最大关联模式挖掘算法:改进了a p r i o r i 算法中最耗 时的工作计算项目集的支持数,提出了把发现频繁项目集的问题 转化为发现最大频繁项目集问题的解决方法:同时,由于在现实网络 世界中,安全审计数据是随时间的变化而变化的,用户行为的模式很 可能随时间呈现出某种变化趋势,为了保证最大关联模式始终有效, 本课题提出了基于频繁树的最大关联模式的增量式更新算法。 关键词:入侵检测,s n o r t ,基于案例的推理,关联模式,异常检测,增量式更新 南京邮电学院硕士学位论文 a b s t r a c t i n t r u s i o nd e t e c t i o ni sv e r yi m p o r t a n ti nt h er a p i d l yd e v e l o p e dn e t w o r ki n f o r m a t i o n a g e s a c c o r d i n g t ot h em e t h o do f a n a l y s i s t h e r e a r et w ok i n d so fi n t r u s i o n d e t e c t i o n - - m i s u s ed e t e c t i o na n da n o m a l yd e t e c t i o n t h i sp a d e rr e s e a r c h e st h ee f f i c i e n t m e a n sa n dm e t h o d sb yu s i n gd a t am i n i n gt or e a l i z et h e s et w oi n t r u s i o n d e t e c t i o n t e c h i f i q u e s c a s e - b a s e dr e a s o n i n g ( c b r ) i st h en e wa p p l i c a t i o no fd a t am i n i n gm e t h o d ,w h i c h m e a n ss e a r c h i n gt h eo l dc a s ei nt h ec a s eb a s ea c c o r d i n gt ot h en e wc a s ea n dm o d i 研n gt h e p r o c e e d i n gt op r o v i d et h en e ws o l u t i o nf o rd e wc a s e n o w , s n o r ti sa no p e n i n gs o u r c ec o d e i n t r u s i o nd e t e c t i o ns o r w a r eb a s e do nr u l e sm a i n l yu s e df o rm i s u s ed e t e c t i o n b u ts n o r t e x i s t ss o m el o c a l i z a t i o n ,s u c ha sf a i s ea l a r l r lo rf a l s en e g a t i v e ,w h i c hm a k e st h ea c c u r a t e r a t eo fi n t r u s i o nd e t e c t i o nn o th j i g he n o u g h ,t h e r e f o r e ,s t u d y i n gt h ei m p l e m e n to fc a s e s r e a s o n i n gb a s e do ns n o nr u l e sh a st h ei m p o r t a n tm e a n i n gf o ra d o p t i n gc b r m e t h o da st h e c o m p l e m e n to f s n o r tr u l e st os t r e n g t h e nt h ea b i l i t yo f i n t r u s i o nd e t e c t i o n , b e c a u s ea n o m a l yd e t e c t i o nh a st h em e r i tt h a tc a nd e t e c tt h eu n k n o w ni n t r u s i o n i ti s v e r ye f f e c t i l a l t oe n t i r e l ya n de x a c t l ya n a l y z et h es a f ea u d i td a t aw i t hh i g hs p e e da n df i n d o u tt h er e l a t i o no fd a t a ,a s s o c i a t i o np a t t e r n sm i n i n g ,ak i n do fd a t am i n i n gt e c h n i q u e ,i s u s e d t h i sp a p e ra m e l i o r a t e sa p r i o r ia l g o r i t h m ,r e s e a r c h e sm a x i m u ma s s o c i a t i o np a t t e r n s m i n i n ga l g o r i t h mf o ra n o m a l yd e t e c t i o nb a s e do nf p t r e e ( f r e q u e n t p a t t e mt r e e ) ,d i s c u s s e s h o wt ou p d a t em a x i m u mf r e q u e n ti t e ms e t sa n da c h i e v e si t sa l g o r i t h m t h e1 1 1 a i nc o n t e n t so f t h i sp a d e r : ( 1 ) i m p l e m e n t i n gc a s e b a s e dr e a s o n i n go ns n o nr u l e s :c o n v e r t i n gp a r t so f t h es n o r tr u l e st oc a s e s d e s i g n i n ga n dd e v e l o p i n ga no f f - l i n ei d sw i t l n e a r e s tn e i g h b o ra l g o r i t h m w h c nt h ec u s t o m e rh a si n t e n t i o nt oi n p u t o n ei t e mo fa t t a c kt h a ti n c o m p l e t e l ym a t c h e st h es n o r tr u l e s ,t h es n o r t c a n td e t e c tt h i sa t t a c k ,b u tt h es y s t e mo fc b rc a l ld e t e c ti t ,a n dt h e s y s t e mg i v e st h ep r o b a b l yr a n ko f e v e r yk i n do f a t t a c k ( 2 ) m a x i m u ma s s o c i a t i o np a t t e r n sm i n i n ga l g o r i t h mf o ra n o m a l yd e t e c t i o n : a m e l i o r a t i n gt h ew a s t et i m ep a r to fa p r i o f ia l g o r i t h m - - c a l c u l a t i n g s u p p o r to fi t e ms e t s ,t r a n s f o r m i n gt h ef i n d i n gf r e q u e n ti t e ms e t s t o f i n d i n gm a x i m u mf r e q u e n ti t e r ns e t s ;i nf a c t u a ln e t w o r k b e c a u s et h es a f e a u d i td a t av a r ya l o n gw i t ht i m ec h a n g e ,t h eu s e rp a t t e r n sm a yc h a n g e ,t o e n s u r et h em a x i m u ma s s o c i a t i o np a t t e r n sa v a i l a b l e ,t h i sd e s i g na c h i e v e s t h eu p d a t eg r o w t hm a x i m u ma s s o c i a t i o n p a t t e r n sa l g o r i t h mb a s e do n f p t r e e , k e y w o r d s :i n t r u s i o nd e t e c t i o n ,s n o r t ,c a s e b a s e dr e a s o n i n g ( c b r ) ,a s s o c i a t i o n p a t t e r n s ,a n o m a l yd e t e c t i o n ,u p d a t eg r o w t h 2 南京邮电学院硕士学位论文 1 - 1 课题研究背景 第一章绪论 在网络日益普及的今天,网络安全变得越来越重要。根据美园f b i 的调奄,美国 每年因为网络安全造成的经济损失超过1 7 0 亿美元。7 5 的公司报告财政损失是由于 计算机系统的安全问题造成的。但只有1 7 的公司愿意报告黑客入侵,大部分公司由 于担心负面影响而不愿声张。 对于企业网络来说,入侵的来源可能是企业内部心怀不满的员工、网络入侵者, 甚至是竞争对手。攻击者可以窃听网络上的信息,窃取用户的口令、数据库的信息, 还可以篡改数据库内容,伪造用户身份,否认自己的签名。更有甚者,攻击者可以删 除数据库的内容,摧毁网络节点,释放计算机病毒,致使整个企业网络陷入瘫痪。 当越来越多的公司将其核心业务向互联网转移的时候,网络安全作为一个无法回 避的问题呈现在人们面前。传统上,公司一般采用防火墙作为安全的第一道防线。而 随着攻击者知识的日趋成熟,攻击工具与手法的日趋复杂多样,单纯的防火墙策略已 经无法满足对安全高度敏感的部门的需要,网络的防卫必须采用一种纵深的、多样的 手段。与此同时,当今的网络环境也变得越来越复杂,各式各样复杂的设备和需要不 断升级、补漏的系统使得网络管理员的工作不断加重,不经意的疏忽便有可能造成安 全的重大隐患。 那么,在这种环境下网络在被动保护自己不受侵犯的同时,能否采取某些技术, 主动保护自身的安全呢? 入侵检测技术就是主动保护自己免受攻击的一种网络安全 技术,是网络安全体系的一种防范措施,入侵检测系统( i n t r u s i o nd e t e c t i o ns y s t e m , i d s ) 就是能够实施入侵检测的系统,它作为系统安全的第二道防线,已引起了许多学 者的极大兴趣,成为近几年很多研究人员进行网络安全研究的一个极其重要的课题。 1 2 本课题的研究任务 网络入侵检测系统n i d s ( n e t w o r ki n t r u s i o nd e t e c t i o ns y s t e m ,n i d s ) 可以用 来监视网络数据流动情况,当入侵发生时能够提供报警。现在已经出现了很多商业的 n i d s ,但是它们大多比较复杂,比较昂贵而且难以掌握。不适用于科研。 南京邮电学院硕七学位论文 s n o r t 是一个基于l i b p c a p 的轻量级网络入侵检测系统( n i d s ) 。可以运行在多 种操作系统平台上,与很多商业产品相比,它对操作系统的依赖性比较低。s n o r t 的 现实意义是作为开源软件填补了只有商业入侵检测系统的空白,可以帮助中小网络的 系统管理员有效地监视网络流量和检测入侵行为。 从检测模式而言,s n o r t 属于误用检测( m i s u s ed e t e c t i o n ) ,是基于规则检测的 入侵检测工具,即针对每一种入侵行为,都提炼出它的特征值并按照规范写成检验规 则,从而形成一个规则数据库:s n o r t 采用这种基于规则的网络信息搜索机制,对数 据包与规则库进行内容的模式匹配,若匹配成功,则认为该入侵行为成立。但正因为 它是基于规则的,所以造成特征语言的表达能力有限以及i d s 对协议的分析不够的缺 陷,从而产生漏报和错报。基于案例的推理c b r 是数据挖掘中重要的分类方法,c b r 所使用的样本或者说“案例”是复杂的符号描述,能够最大限度地描述对象的特征。 s n o r t 中的大多数用于入侵检测的规则可以描述为案例,由这些规则转化而成的案例 可以组成案例集,实际上我们也可以把s n o r t 的规则和案例看作是知识的不同表示。 由于c b r 使用的样本空间和特征度量直接影响着最终的推理结果,而s n o r t 是开放源 代码的,其提供的规则集是丰富和庞大的,这就为提高案例推理的准确性提供了基础。 因此,本课题的第个任务即是“s n o r t 规则的基于案例推理的实现”。 异常检测是目前入侵检测系统的主要研究方向,其特点是通过对系统行为的检 测,可以发现未知的攻击行为。异常检测技术实质上可归结为对安全审计数据的处理, 其目的在于建立正常使用模式以及如何利用这些模式对当前的系统或用户行为进行 比较,从而判断出与正常模式的偏离程度。为了发现数据中存在的关联、关系和规则, 我们可以采用数据挖掘技术中的关联分析方法。 作为本课题的第二个任务,本文首先分析了异常检测中入侵者和合法用户的行为 特点,提出了面向异常检测的关联模式挖掘模型,分析了面向异常检测的关联模式挖 掘算法的主要技术难点,然后针对安全审计数据的特点,提出了一种面向异常检测的 基于频繁模式树的最大关联模式挖掘算法,并就其增量式更新问题进行了探讨,实现 了一种最大关联模式的增量式更新算法。 1 。3 本文的主要内容 本文共分6 个部分 南京邮电学院硕士学位论文 ( 2 ) ( 3 ) ( 4 ) ( 5 ) ( 6 ) 第一章绪论:说明了本文所研究课题的背景、意义和目的,简单地介 绍了入侵检测系统所采用的数据挖掘技术。 第二章入侵检测系统概述:详细介绍了入侵检测的概念、作用以及入 侵检测系统的分类和实现机理,通过分析采用先进检测算法的重要性 而引出数据挖掘技术在入侵检测系统中的应用。 第三章数据挖掘技术:介绍了数据挖掘的概念和挖掘的意义,详细介 绍了数据挖掘是如何与入侵检测技术相结合的。 第四章滥用检测中的数据挖掘:首先介绍了基于案例的推理c r r 的 概念以及c b r 中最著名的最邻近算法,详细分析了s n o r t 规则库的结 构,然后详细介绍了根据以上概念所开发的s n o r t 规则的基于案例推 理的应用系统离线入侵检测系统,并给出了主要实现代码和实例 效果图。 第五章异常检测中的数据挖掘:通过分析面向异常检测的关联模式挖 掘模型和a p r i o r i 挖掘算法,发现该算法的不足从而进行改进,提出 了面向异常检测的最大关联模式挖掘及其更新算法。 第六章结束语:对本文工作进行了总结,并提出了进一步开展研究的 主要内容和开发方向。 南京邮电学院硕士学位论文 第二章入侵检测系统概述 2 1 入侵检测的概念 本文中的“入侵”,是指任何试图危及计算机资源的完整性、机密性或可用性的 行为,不仅包括被发起攻击的人取得超出合法范围的系统控制权,也包括收集漏洞信 息,造成拒绝访问等对计算机系统造成危害的行为。而入侵检测是对入侵行为的发觉, 它通过从计算机网络或系统中的若干关键点收集信息,并对这些信息进行分析,从而 发现网络或系统中是否有违反安全策略的行为和遭到攻击的迹象。进行入侵检测的软 件与硬件的组合便是入侵检测系统( i n t r u s i o nd e t e c t i o ns y s t e m ,简称i d s ) 。入侵 检测是防火墙的合理补充,帮助系统对付网络攻击,它扩展了系统管理员的安全管理 能力( 包括安全审计、监视、进攻识别和响应) ,简化了管理员的工作,提高了信息安 全基础结构的完整性。入侵检测被认为是防火墙之后的第二道安全闸门,在不影响网 络性能的情况下能对网络进行监测,从而提供对内部攻击、外部攻击和误操作的实时 保护。 网络入侵检测系统( i d s ) 是一项很新的网络安全技术,目前已经受到各界的广泛 关注,它的出现是对原有安全系统的一个重要补充。入侵检测系统收集计算机系统和 网络的信息,并对这些信息加以分析,对保护的系统进行安全审计、监控、攻击识别 并做出实时的反应。 2 2 入侵检测的作用 形象地说,入侵检测系统就是网络摄像机,能够捕获并记录网络上的所有数据, 同时它也是智能摄像机,能够分析网络数据并提炼出可疑的、异常的网络数据,它还 能够穿透一些巧妙的伪装,抓住实际的内容。此外,它还是保安员,能够对入侵行为 自动地进行反击,如阻断连接。 在网络安全体系中,入侵检测系统是惟一一个通过数据和行为模式判断其是否有 效的系统。防火墙就像一道门可以阻止类人群的进入,但无法阻止同一类人群中 的破坏分子,也不能阻止内部的破坏分子:访问控制系统可以不让低级权限的人做越 权工作,但无法保证高级权限的人做破坏工作,也无法阻止低级权限的人通过非法行 南京邮电学院硕士学位论文 为获得高级权限:漏洞扫描系统可以发现系统和网络存在的漏洞,但无法对系统进行 实时扫描。 入侵检测系统的作用和功能如下: 监控、分析用户和系统的活动。 审计系统的配置和弱点 评估关键系统和数据文件的完整性。 识别攻击的活动模式。 对异常活动进行统计分析。 操作系统审计跟踪管理,识别违反政策的用户活动。 入侵检测系统的优点如下: 提高信息安全构造的其他部分的完整性。 提高系统的监控。 从入口点到出口点跟踪用户的活动: 识别和汇报数据文件的变化。 侦测并纠正系统配置错误。 识别特殊攻击类型,并向管理人员发出警报,进行防御。 对一个成功的入侵检测系统来讲,它不但可以使系统管理员时刻了解网络系统 ( 包括程序、文件和硬件设备等) 的任何变更,还能给网络安全策略的制订提供指南。 更为重要的是,它的管理配置应该简单,从而使非专业人员能够非常容易地获得网络 安全。而且,入侵检测的规模还应根据网络威胁、系统构造和安全需求的改变而改变, 入侵检测系统在发现入侵后,会及时做出响应,包括切断网络连接、记录事件和报警 等: 研究入侵检测的必要性 计算机网络安全应提供保密性、完整性以及抵抗拒绝服务的能力,但是由于联网 用户的增加,越来越多的系统受到攻击:入侵者利用操作系统或者应用程序的缺陷企 图破坏系统,为了对付这些攻击企图,可以要求所有的用户确认并验证自己的身份, 并使用严格的访问控制机制,还可以用各种密码学方法对数据提供保护,但是这些并 不完全可行。另一种对付破坏系统企图的理想方法是建立一个完全安全的系统,但这 样的话,就要求所有的用户能识别和认证自己,还要采用各种各样的加密技术和强访 9 南京邮电学院硕士学位论文 问控制策略来保护数据,而从实际上看,这根本是不可能的。 基于上述几类问题的解决难度,一个实用的方法是建立比较容易实现的安全系 统,同时按照一定的安全策略建立相应的安全辅助系统。入侵检测系统就是这样一类 系统,现在安全软件的开发方式基本上就是按照这个思路进行的。就目前系统安全状 况而言,系统存在被攻击的可能性。但是,如果系统遭到了攻击,只要尽可能地检测 到,甚至是实时地检测到,然后再采取适当的处理措施,就能起到一定的安全保护作 用。入侵检测系统一般不是采取预防的措施以防止入侵事件的发生,入侵检测作为安 全技术其主要目的有:识别入侵者;识别入侵行为;检测和监视已成功的安全突破; 为对抗入侵及时提供重要信息,阻止事件的发生和事态的扩大。从这个角度看待安全 问题,入侵检测非常必要,它将有效弥补传统安全保护措施的不足。 2 3 入侵检测系统的实现 图2 - 1 给出了一个通用的入侵检测系统结构。 图2 - l通用的入侵检测系统结构 入侵检测一般分为3 个步骤,依次为信息收集、数据分析、响应( 被动响应和主 动响应) 。 信息收集的内容包括系统和网络数据以及用户活动的状态和行为等。入侵检测利 用的信息一般来自四个方面:系统同志、目录以及文件中的异常改变、程序执行中的 异常行为及物理形式的入侵信息。 数据分析是入侵检测的核心。它首先构建分析器,把收集到的信息经过预处理, 建立一个行为分析引擎或模型,然后向模型中植入时间数据,在知识库中保存植入数 据的模型。数据分析一般通过模式匹配、统计分析和完整性分析3 种手段进行。前两 种方法用于实时入侵检测,而完整性分析则用于事后分析。数据分析常用的统计模型 包括:操作模型、方差、多元模型、马尔柯夫过程模型、时间序列分析,统计分析 的最大优点是可以学习用户的使用习惯。 0 南京邮电学院硕士学位论文 入侵检测系统在发现入侵后会及时做出响应,包括切断网络连接、记录事件和报 警等。响应一般分为主动响应( 阻止攻击或影响进而改变攻击的进程) 和被动响应( 报 告和记录所检测出的问题) 两种类型。主动响应由用户驱动或系统本身自动执行,可 对入侵者采取行动( 如断开连接) 、修正系统环境或收集有用信息;被动响应则包括 告警和通知、简单网络管理协议( s n m p ) 陷阱和插件等。另外,还可以按策略配霞响 应,可分别采取立即、紧急、适时、本地的长期行动和全局的长期行动。 2 。4 入侵检测系统的分类 1 根据信息源的不同,分为基于主机型、基于网络型和混合型三大类 1 ) 基于主机的入侵检测系统( h o s t - b a s e di n t r u s i o nd e t e c t i o ns y s t e m ,h i d s ) 基于主机的i d s 可监测系统、事件和w i n d o w sn t 下的安全记录以及u n i x 环 境下的系统记录。当有文件被修改时,i d s 将新的记录条目与己知的攻击特征相 比较,看它们是否匹配。如果匹配,就会向系统管理员报警或者做出适当的响应。 基于主机的i d s 在发展过程中融入了其它技术。检测对关键系统文件和可执 行文件入侵的一个常用方法是通过定期检查文件的校验和来进行的,以便发现异 常的变化,反应的快慢取决于轮询间隔时间的长短。许多产品都是监听端口的活 动,并在特定端口被访问时向管理员报警。这类检测方法将基于网络的入侵检测 的基本方法融入到基于主机的检测环境中。 2 ) 基于网络的入侵检测系统( n e t w o r k - b a s e di n t r u s i o nd e t e c t i o ns y s t e m , n i d s ) 基于网络的入侵检测系统以网络包作为分析数据源,它通常利用一个工作在 混杂模式下的网卡来实时监视并分析通过网络的数据流,它的分析模块通常使用 模式匹配、统计分析等技术来识别攻击行为。一旦检测到了攻击行为,i d s 的响 应模块就做出适当的响应,比如报警、切断相关用户的网络连接等。不同入侵检 测系统在实现时采用的响应方式也可能不同,但通常都包括通知管理员、切断连 接、记录相关的信息以提供必要的法律依据等。 3 ) 混合入侵检测系统的集成 许多机构的网络安全解决方案都同时采用了基于主机和基于网络两种混合的 入侵检测系统。因为这两种系统在很大程度上是互补的。实际上,许多客户在使 南京邮电学院硕士学位论文 用i d s 时都配置了基于网络的入侵检测。在防火墙之外的检测器检测来自外部 i n t e r n e t 的攻击。d n s 、e m a i l 和w e b 服务器经常是攻击的目标,但是它们又必 须与外部网络交互,不可能对其进行全部屏蔽,所以应当在各个服务器上安装基 于主机的入侵检测系统,其检测结果也要向分析员控制台报告。因此,即便是小 规模的网络结构也常常需要基于主机和基于网络的两种入侵检测能力。 2 从数据分析手段看,入侵检测通常可以分为两类:滥用( m i s u s e ) 入侵检测和异常 ( a n o m a l y ) 入侵检测。 滥用入侵检测的技术基础是分析各种类型的攻击手段并找出可能的“攻击 特征”集合。滥用入侵检测利用这些特征集合或者是对应的规则集合,对当前的 数据来源进行各种处理后再进行特征匹配或者规则匹配工作,如果发现满足条 件的匹配,则指示发生了一次攻击行为。这里所指的“特征匹配”根据不同的具 体实现手段而各不相同,从最基本的字符串匹配,到基于状态转移的分析模型等。 根据数据来源的不同,“特征”的含义也随之不同。甚至在同种数据来源的入 侵检测系统中,“特征”的含义也是随着不同的实现而不同。 异常入侵检测的假设条件是对攻击行为的检测可以通过观察当前活动与系统 历史正常活动情况之间的差异来实现,异常入侵检测通常都会建立一个关于系统 正常活动的状态模型并不断进行更新,然后将用户当前的活动情况与这个正常模 型进行对比,如果发现了超过设定闽值的差异程度,则指示发现了非法攻击行为。 在异常入侵检测中,最广泛使用的技术是统计分析,i d e s 系统实现了最早的基于 主机的统计模型。另一种主要的异常检测技术是神经网络技术。此外,还有许多其他 异常检测方法出现在各种文献之中,如基于数据挖掘的异常检测方法、基于贝叶斯网 络的异常检测方法、基于模式预测的异常检测方法以及基于计算机免疫学的检测技术 等。对于滥用入侵检测,研究者们已经提出了各种类型的检测方法,如专家系统 ( e x p e r ts y s t e m ) 、特征分析( s i g n a t u r ea n a l y s i s ) 、状态转移分析( s t a t e t r a n s i t i o na n a l y s i s ) 等。此外,还有基于p e t r i 网分析的滥用入侵检测方法、基 于神经网络的滥用入侵检测等。 比较而言,滥用入侵检测比异常入侵检测具备好的确定解释能力,即明确指示当 前发生的攻击手段类型,因而在诸多商用系统中得到广泛应用。另一方面,滥用入侵 检测具备较高的检测率和较低的虚警率,开发规则库和特征集合相对于建立系统正常 南京邮电学院硕士学位论文 模型而言,也更方便、更容易。滥用检测的主要缺点在于一般只能检测到已知的攻击 模式,模式库只有不断更新才能检测到新的攻击方法。而异常检测的优点是可以检测 到未知的入侵行为。尽管可能无法明确指示是何种类型。 从现有的实际商用系统来看,大多数都是基于滥用入侵检测技术,这也反应了市 场和用户的某种对确定性功能的心理需求。不过,在若干种优秀的入侵检测系统中, 也采用了不同形式的异常入侵检测技术和对应的检测模块。在可预见的未来,此种情 况将继续。 2 5 采用先进检测算法的必要性 前面就入侵检测系统按照数据来源划分,对基于主机、基于网络以及混合型的入 侵检测技术进行了介绍。其中,对于每种数据来源的入侵检测技术往往又同时包含了 异常检测方法和滥用入侵检测方法。除了上述两种传统意义上的检测方法之外,自2 0 世纪9 0 年代以来,不少研究人员又提出了许多新的检测算法,这些检测方法从不同 的技术角度来看待入侵检测的基本问题,并利用了许多人工智能或者机器学习的算 法,试图解决传统检测技术中存在的若干问题,例如虚假警报、缺乏检测未知或变形 攻击的能力、扩展性和自适应性等问题。 误报是指被入侵检测系统测出但其实是正常及合法使用受保护网络和计算机的 警报。误报不但令人讨厌,并且降低入侵检测系统的效率。攻击者可以而且往往是利 用包结构伪造无威胁的“正常”假警报,以诱使收受人把入侵检测系统关掉。 没有一个入侵检测系统可以完全克服误报,应用系统总会发生错误,闯题是如何 将这种误报率降到最低水平、提高入侵检测系统的性能,可以考虑的技术包括神经网 络、数据挖掘、计算机免疫和遗传算法。本课题将着重考虑并详细讨论数据挖掘在入 侵检测领域的应用。 南京邮电学院硕士学位论文 第三章数据挖掘技术 3 1 什么是数据挖掘 数据挖掘,顾名思义就是从大量的数据中挖掘出有用的信息,即从大量的、不完 全的、有噪声的、模糊的、随机的实际应用数据中发现隐含的、规律性的、人们事先 未知的,但又是潜在有用的并且最终可理解的信息和知识的非平凡过程。随着计算机 技术的高速发展,特别是i n t e r n e t 技术的不断应用,使i n t r a n e t 、e x t r a n e t 成为企 业构建信息系统的网络计算模式。网络上具有丰富的信息,我们怎样才能对其进行分 析、推理,发现数据间的关系,提取有用的特征,找出有效的、新颖的、有潜在用处 的、易于理解的关系和模型;怎样才能利用一定的方法从数据中挖掘出复杂的模型, 发现能够为人所理解的知识、能够被再利用的先验知识,能够较少或完全不依赖于外 部专家的主观知识;怎样才能做到当目标数据中存在数据丢失、失真等情况时,自然 恢复正确的值;怎样才能结合领域知识来高效地发现知识。要解决上述问题,就需要 数据挖掘。数据挖掘就是从数据当中发现趋势或模式的过程,是从所收集的信息中获 得知识的重要信息分析方法,能够从存在的数据中找出有效的、新颖的、有潜在价值 的、易于理解的关系模型。 数据挖掘是一个利用各种分析工具在海量数据中发现模型和数据间关系的过程, 它帮助决策者寻找数据间潜在的关联,发现被忽略的因素,因而被认为是解决当今时 代所面临的数据爆炸而信息贫乏问题的一种有效方法。数据挖掘通常也称为k d d 一 数据库中的知识发现。精确地说,在k d d ( k n o w l e d g ed i s c o v e r yi nd a t a b a s e ) 中进行 知识学习的阶段称为数据挖掘。数据挖掘是e d d 中一个非常重要的处理步骤,但人们 通常不加区别地使用这两个术语。 数据挖掘是一门交叉学科,融合了数据库、人工智能、机器学习、统计学等多个 领域的理论和技术。数据库、人工智能和数理统计是数据挖掘研究的三根强大的技术 支柱。数据挖掘的方法和数学工具包括统计学、决策树、神经网络、模糊逻辑、线性 规划等。 南京邮电学院硕士学位论文 3 2 为何进行数据挖掘 数据挖掘技术是人们长期对数据库技术进行研究和开发的结果。数据库技术最初 用于联机事务处理,即实现对大量数据的统一存储,并提供对数据的查询、插入、删 除等事务性操作。随着大量历史数据的积累,人们不满足于只是简单地查询和修改数 据,而是希望能够发现数据之间的潜在关系,因此,对数据库技术提出了新的要求, 随着一些相关学科和研究领域的日渐成熟,以及现实世界中商业竞争的压力日渐残 酷,企业急切地希望通过快速处理这些数据获得有利于企业进一步发展的决策依据, 而是否能够最大限度地使用信息资源来管理和影响企业决策流程,将决定企业是否能 拥有最大程度的竞争优势,数据挖掘技术因此产生,并很快得到广泛应用。 数据挖掘可以应用在各个不同的领域。数据挖掘工具能够对未来的趋势和行为进 行预测,从而很好地支持人们的决策,如银行可以使用数据挖掘发现有价值的客户, 保险公司和证券公司可以使用数据挖掘来检测欺诈行为,数据挖掘自动在大量数据中 寻找预测性信息,因此,以往需要领域专家和分析人员进行大量人工分析的问题,如 今可以直接由数据本身迅速得出基于知识的决策。 3 3 数据挖掘的基本过程 数据挖掘是一个利用各种分析工具在海量数据中发现模型和数据间关系的过程, 这些模型和关系可以通过分析已知分类信息的历史数据总结出一个预测模型。 数据挖掘包括:描述数据、建立模型、验证模型等主要步骤,其中: 描述数据计算统计变量,再用图表或图片直观的表示出来,进而可以看出一 些变量之问的相关性。选择币确的数据源对整个数据挖掘项目的成败至关重要。 单单是数据描述并不能为人们制订行动计划提供足够的依据,还必须用这些历史 数据建立一个预言模型,然后再用另外一些数据对这个模型进行测试。一个好的模型 没必要与数据库中的数据1 0 0 的相符,但这个模型在做决策时将会是很好的指南和依 据。 最后一步是验证模型。 图3 1 描述了数据挖掘的基本过程。 南京邮电学院硕十学位论文 图3 - 1 数据挖掘的基本过程 3 4 数据挖掘与入侵检测技术 数据挖掘( d a t am i n i n g ) 提出的背景是解决日益增长的数据量与快速分析数据的 要求之间的矛盾,目标是采用各种特定的算法在海量数据中发现有用的、可理解的数 据模式。 学者们对数据挖掘的各类算法已经进行了大量的研究工作,所涉及的技术领域知 识包括统计学、机器学习、模式识别和数据库技术等。与入侵检测相关的算法类别主 要包括下列3 种类型。 ( 1 ) 分类算法 目标是将特定的数据项归入预先定义好的某个类别。分类算法通常最终生成某种 形式的“分类器”,例如决策树或者分类规则等。对于入侵检测而言,理想的应用情 况应该是,首先能够收集大量的反映用户或进程活动的“f 常”和“异常”状态的审 计数据,然后选用某个特定的分类算法。经过训练学习生成个对应的“分类器”。 之后,对于输入的先前未见过的新审计记录,该分类器应浚能够准确识别该数据项属 于“正常”还是“异常”类别。常用的分类算法包括:r i p p e r 、c 4 5 、n e a r e s tn e i g h b o r 等。 ( 2 ) 关联分析算法 用于确定数据记录中各个字段之问的联系。入侵检测可以采用这些关联分析算法 6 南京邮电学院硕士学位论文 对审计数据中各个系统特征进行关联分析,例如用户审计数据中命令字段和参数字段 之间的关联情况,从而可以用来建立起正常用户行为的档案。举例而言,对于一般的 u n i x 程序员来说,在输入的s h e l l 命令中,文本编辑程序”r m a c s ”命令调用中的参数 通常对应着某个c 文件名称。主流的关联分析算法有a p r i o r i 算法、a p r i o r i t i d 算法 等。 ( 3 ) 序列分析算法 发掘数据集中存在的序列模式,即不同数据记录间的相关性。序列分析算法能够 发现按照时间顺序,在数据集合中经常出现的某些审计事件序列模式。在入侵检铡中, 通过对这些序列模式的发掘和分析,能够提示开发者在检测模型中加入若干反映时间 特性和统计特性方面的特征度量参数。例如,通过对网络拒绝服务攻击的审计数据的 序列模式分析,在检测模型中加入一些基于每个主机或者服务类型的统计特征,将能 够提高检测性能。常见的序列分析算法包括:a p r i o r i a l l 算法、d y n a m i c s o m e 算法和 a p r i o r i s o m e 算法等。 如图3 - 2 所示,建立入侵检测模型的数据挖掘过程主要包括以下4 步: ( 1 ) 把原始审计数据转换成a s c i i 格式的网络分组信息或主机事件数据,其中,原 始审计数据是指从网络或主机上获得的二进制的审计数据; ( 2 ) 把网络分组信息或主机事件数据转换成连接或主机会话记录。每条记录由多个 连接特征组成,如连接建立的时间、连接持续的时间、连接使用的服务器端口、源i p 、 目的i p 、连接的结束状态等; 南京邮电学院硕十学位论文 ( 3 ) 利用数据挖掘技术中的算法挖掘出连接记录数据库中的模式; ( 4 ) 构造入侵检测模型。 上述步骤需要不断地反复和评估。挖掘算法是其中的一个重要组成部分,利用其 所挖掘的模式,为连接记录构造附加特征,从而可以显著地降低误报率和漏报率。下 面的章节会详细讨论将数据挖掘应用于入侵检测系统时所采用的技术和算法。 南京邮电学院硕士学位论文 第四章滥用检测中的数据挖掘 4 1 基于案例的推理 前面已经讨论了从数据分析手段看,入侵检测可分为滥用入侵检测和异常入侵检 测两类。滥用入侵检测的技术基础是分析各种类型的攻击手段并找出可能的“攻击 特征”集合。滥用入侵检测利用这些特征集合或者是对应的规则集合,对当前的数据 来源进行各种处理后再进行特征匹配或者规则匹配工作,如果发现满足条件的匹配, 则指示发生了一次攻击行为。很明显“特征匹配”工作将决定滥用入侵检测的性能。 本课题尝试用数据挖掘中的c b r 技术来增强入侵检测的能力,降低漏报率。 4 1 1 基于案例推理的概念 基于案例( 或称为示例、实例) 的学习是指基于过去求解类似问题的方法处理当前 问题,其实质是一种类比学习方法。类比推理是指,若有一个规律性已在n 个案例中 被证实的事实,则可做出它也将在第n + 1 个案例中被证实的结论。类比推理可分为两 类:属性类比和结论类比。属性类比是指,如果两类案例相似,若一类案例有某一属 性,则另一类也将有此属性。结论类比是指如果两类案例都有相同的属性,则其结论 也应相同。 基于案例的学习把历史的案例作为过去的经验去指导当前问题的求解。在现实生 活中,当人们面临一个新的、较难解决的问题时,往往会到记忆中搜索相似的例子、 类似的经验来帮助解决新问题。解决问题所需的知识是以具体案例的形式,而不是以 抽象的规则或模型的形式存在。心理学研究的许多成果已经证明:重复使用过去的案 例进行推理是人类解决问题的一科t 有力的、广泛使用的方式。 基于案例的学习也可以处理新问题,即搜索和修改相似问题的处理并作为一个新 的案例保存进系统的案例库,以供系统检索并作为处理新的问题的案例,因此该方法 具有学习功能,可以处理与已有的知识不致的新知识。 基于案例的推理( c a s eb a s e dr e a s o n i n g ,简称c b r ) 是基于过去求解类似问题的 经验获得当前问题求解结果的一种推理模式。c b r 是对人类认知过程的仿生,与其他 方法相比,c b r 能够处理不适于形式化为规则的知识,更接近人类决策的实际过程。 南京邮电学院硕十学位论文 因此,基于案例的推理比传统的基于规则推理( r u l e _ b a s e d r e a s o n i n g ,简称r b r ) 更自 然地表现了问题的内在涵义。 c b r 技术是一种兼有推理和学习两种功能的方法。在c b r 中,无论已有的案例与 新样本完全匹配还是近似,案例的信息和知识都可以复用到新样本的处理中。案例的 复用和修f 可以按所定义的规则自动进行,而无需人工调整。 基于案例的推理方法的基本研究内容包括以下几方面。 ( 1 ) 案例的表示:抽取样本的特征来表示样本。 ( 2 ) 案例的索引:抽取案例的特征及特征间的关系。案例索引是对案例的学习和 记忆,案例的检索和存储都涉及到案例索引。 ( 3 ) 案例的检索:从案例库中高效、精确地检索出相关的案例。 ( 4 ) 案例的修正和学习。 概括地说,c b r 就是利用具体案例的特殊知识,通过寻找已有的类似案例来解决 新的问题。 4 。1 2c b r 过程 案例是对以往问题求解的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论