




已阅读5页,还剩67页未读, 继续免费阅读
(控制理论与控制工程专业论文)基于数据挖掘的分布式入侵检测系统研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
西北t a k 大学硕i 学位论文 摘要 摘要 网络入侵检测作为网络防护的重要技术,己经成为网络安全的热门研究 方向。传统的入侵检测系统由安全专家人工构造检测规则,但在网络日益发展 的今天,新的攻击方法不断出现,这种方法已经暴露出很多局限性,如工作量 大、响应速度慢以及正确率与效率低等。 本文在原有的分布式智能入侵检测系统( d i i d s ) 的基础上,提出应用数 据挖掘技术实现入侵模式的自学习方法,有效地解决了该系统在检测规则知识 维护及更新上的问题,使系统具有较好的适应性和扩展性。 入侵检测系统的关键在于模式规则的准确性与概括性。在入侵检测系统 中,本文利用数据挖掘技术实现对海量数据的分析处理,发现信息之间隐藏的 模式,在构造基于时间和统计的特征的基础上,通过机器学习得到新的检测规 则以实现系统知识的自动更新。本文在数据挖掘中采用关联规则和频繁事件模 式实现了数据聚集、特征建立和特征选择的功能。根据网络数据的具体情况, 本文还使用了轴属性、参考属性、相关支持度、层次宽度近似挖掘等方法对挖 掘算法进行扩展,并论述了模式可视化、分析、比较及特征提取等方法。 最后,本文对系统模型应用于网络拒绝服务攻击环境的实例进行了分析, 并提出了一种应用聚类分析对系统的改进方法。 关键词:入侵检测;数据挖掘;特征建立与选择;计算机网络安全 堕i ! 三些查兰堡主兰竺笙茎 些! 塑生 a b s t r a c t n e t w o r ki n t r u s i o nd e t e c t i o n s y s t e m ( 1 0 s ) ,a ne s s e n t i a l i s s u eo fn e t w o r k p r o t e c t i o n ,h a sb e c o m ea ni m p o r t a n tr e s e a r c ha r e ao fi n f o r m a t i o ns e c u r i t y t r a d i t i o n a l 1 d si sb a s e do nd e t e c t i o nr u l e st h a ta r ec o n s t r u c t e d m a n u a l l yb ye x p e r t s o f i n f o r m a t i o n s e c u r i t y w i t ht h er a p i dd e v e l o p m e n to ft h ei n t e r n e t ,t r a d i t i o n a li d s r e v e a l sm a n yl i m i t a t i o n si nt h ef a c eo fn e w a t t a c k s ,s u c ha sl a r g ew o r k l o a d ,s l o w r e s p o n d i n gs p e e d ,l o wa c c u r a c ya n d l o w e f f i c i e n c y , e t c , i nt h i s t h e s i s ,t h e d a t am i n i n g a p p r o a c ht o d i s t r i b u t e d i n t e l l i g e n ti n t r u s i o n d e t e c t i o n s y s t e m ( d i i d s ) f o ru p d a t i n g d e t e c t i o nr u l e l i b r a r ya u t o m a t i c a l l y i s p r e s e n t e d ,w h i c hc a nm a i n t a i na n du p d a t er u l e sf o ri m p r o v i n gt h ea d a p t a b i l i t ya n d e x t e n s i b i l i t yo f d i i d s , t h ea c c u r a c ya n dg e n e r a l i z a t i o no fd e t e c t i o nr u l e sa r et w oc r i t i c a lf a c t o r sf o r i d s i no u rs y s t e m ,d a t am i n i n gi su s e dt oc o n s t r u c tt e m p o r a la n ds t a t i s t i c a lf e a t u r e s f r o mal a r g ea m o u n to fa u d i td a t a a n de v e r yr e c o r dr e p r e s e n t e db yt h e s ef e a t u r e si s a n a l y z e db y m a c h i n e l e a r n i n gt oc r e a t en e w d e t e c t i o nr u l e s t h ed e t e c t i o n k n o w l e d g e i su p d a t e d a u t o m a t i c a l l yb ya d d i n g n e wr u l e st ot h er u l el i b r a r y a s s o c i a t i o nr u l e sa n d f r e q u e n te p i s o d ea l g o r i t h ma r ea p p l i e dt od a t aa g g r e g a t i o n ,f e a t u r ec o n s t r u c t i o na n d f e a t u r es e l e c t i o ni nd a t am i n i n g a x i sa t t r i b u t e ,r e f e r e n c ea t t r i b u t e ,r e l a t i v es u p p o r t a n dl e v e l w i s e a p p r o x i m a t em i n i n ga l g o r i t h m a r eu s e dt oe x t e n dd a t a m i n i n g a l g o r i t h m sf o ro b t a i n i n gb e t t e ra d a p t a b i l i t yi nn e t w o r ke n v i r o n m e n t t h em e t h o d s o f p a t t e mv i s u a l i z a t i o n ,a n a l y s i sa n dc o m p a r i s o n a r ea l s o p r o v i d e d f i n a l l y , o u rs y s t e mi sa n a l y z e da n de v a l u a t e di na “s y nf l o o d ”e n v i r o n m e n t a n dam e t h o do fa p p l y i n gc l u s t e r i n gt o a n o m a l yd e t e c t i o ni sa d d e dt oi m p r o v ei t s p e r f o r m a n c e k e y w o r d s :i n t r u s i o nd e t e c t i o ns y s t e m ( i d s ) ;d a t am i n i n g ;f e a t u r ec o n s t r u c t i o na n ds e l e c t i o n ; n e t w o r ks e c u r i t y 两北工业大学硕上学位论文 第一章绪论 第一章绪论 1 1 课题的研究背景、目的及意义 计算机信息网络已经成为一个国家最为关键的政治、经济和军事资源,也成 为困家实力的象征。网络改变了人们的生活、工作方式,使信息的获取、传递、 处理和利用更加高效、迅捷;但是,也使“黑客”侵犯和操纵一些重要的信息和 数据成为可能,因而引发了网络信息安全与对抗问题。 网络安全涉及到网络的方方面面,是一个系统的知识结构。网络安全的复杂 性还在于网络发展本身的复杂性,可以说绝对安全的系统是不可能做到的。由于 各种网络技术在时间和空间上的延伸使目前的网络发展成为一个非常复杂的环 境,几乎不可能设计出一个绝对安全的系统。不可能做到统一改造庞大的网络系 统,因此各种新的技术和老的技术在很长时间里要共存。关于网络安全问题目前 存在许多专门技术,如口令认证、安全审计、防火墙、加密技术等等,总的来说 这些技术都属于一种静态的防御系统,如同建立了一个有各种防卫措旌的银行, 而没有配置警察等监控系统一样。对于没有一个主动监控和跟踪入侵的入侵检测 系统,这样的网络其安全性是不完整的。 另一方面静态防御中过于严格的安全策略是以牺牲用户的方便性为代价,与 目前网络的开放、共享发展不相容,很难做到一个好的利弊权衡;同时对于安全 系数非常高的加密技术、防火墙技术,却很难防止密码失窃和内部人员攻击:最 后,一个安全的系统也很难保证内部人员的误操作,以及复杂的设置错误等系统 漏洞产生。 入侵检测是一种动态的安全防护手段,它能主动寻找入侵信号,给网络系统 提供对外部攻击、内部攻击和误操作的安全保护。入侵检测分为数据采集、数据 分析和响应三个部分。为了寻找入侵行为和痕迹,数据采集从网络系统的多个点 进行,采集内容包括系统目志、网络数据包、重要文件以及用户活动的状态与行 为等。数据分析则通过模式匹配、异常检测和完整性检测三种技术手段对采集的 蝤北t 业大学硕士学位论文第一章绪论 数据进行分析。入侵检测系统一旦发现入侵行为,立即会进入响应过程,包括日 志、告警和安全控制等。 随着网络高速化发展,分卸式、多元化、多服务、多应用、多用户的环境下, 日前的入侵检测系统缺乏一个有效的检测体系与信息处理能力,在入侵检测系统 设计维护、代码重用等软件结构方面也还存在许多问题。因此基于a g e n t 分布式 的智能网络入侵检测系统的研究是入侵检测系统发展的一个很重要的研究方向。 基于a g e n t 分布式的智能网络入侵检测系统( d i i i ) s ) 利用先进的分布式、基 于a g e n t 的体系结构,以及移动代理技术,专门针对未来高速带宽信息网络,大 型异构网络环境而设计其形式就如同利用智能代理( 俗称网络警察) 构建一 个信息网上的一个安全警戒网。该系统在数据收集、分析与判断上采用了统计分 析、专家系统、神经网络等智能技术,做到一个智能的网络安全卫士。 随着网络范围的不断扩大,技术的不断进步,网络攻击也日益增多,而且危 害程度也越来越大,入侵检测需要采集处理的数据很多,新的攻击手段更加狡诈。 因此,传统的利用模式匹配和异常检柳u 技术来分析某个检测引擎所采集的数据, 以发现一些简单的入侵行为的入侵检测存在严重不足。模式匹配检测是基于已知 的攻击或系统的明显漏洞识别入侵这种方法的缺点在于所有已知的攻击必须手 工编码于系统,这样,对于一些在系统中没有记录的新的攻击无法检测。异常检 测技术利用统计学的方法建立常规状态库,对不满足常规条件的行为判断为异 常。这种方法缺点在于,对于不同的系统有不同的计算环境特征值;一些入侵是 一系列时间序列的事 牛,而单个事件不会引起异常。 i d s 的性能评价是有效性。适用性和扩展性。总结起来,现在i n s 存在以下 几个方面的不足。 1 现存的i d s 缺少有效性。现存的规则库和知识库,以及统计的方法都是基于 专家知识的手工编码,面对复杂的网络环境,专家知识往往不全面不精确。 2 现存的i d s 缺少适用性。专家仅仅集中分析已知的攻击方法和系统漏洞,所 以系统无法检测未知的攻击,需要时间去学习新的攻击方法,因此,对新攻 击的检测延时太大。 2 西北t 业大学硕士学位论文 第一章绪论 3 现存的i d s 缺少扩展性。专家规则和统计方法一般都是针对特点网络环境的, 因此,很难在新的网络环境实现i d s 的再利用。同时,i d s 往往是很庞大的 系统,所以给i d s 中加入新的检测模块很困难。 我们需要找到一种提高i d s 有效性、适用性和扩展性的方法。由此,产生了 在传统入侵检测技术基础上利用数据挖掘技术,分析多个检测引擎提交的审计数 据以发现更为复杂的入侵行为。在本文中,采用数据挖掘技术实现自动数据聚集 及特征建立及选择,从而提高i d s 的质量。 数据挖掘是从大量的数据中,抽取出潜在的、有价值的知识( 模型或规则) 的过程。数据挖掘技术是一个新兴的数据分析技术,在商业、生物、决策等方面 有很多的研究,并且起到了很大的作用。数据挖掘的兴起得益于算法的发展,这 些算法的领域包括:统计、模式识别、机器学习和数据库等。 把数据挖掘应用于入侵检测系统的优点在于系统能够从大量的审计数据中 自动产生精确的适用的检测模型,使入侵检测系统适用于任何计算环境。数据 挖掘中分类、关联、序列、聚类等分析方法已得到验证。该方法有效地提高了入 侵检测的精确性,在选择统计特征时尤其有用。该方向已成为研究的一个热点, 属于网络安全和人工智能的交叉学科。 考核入侵检测系统( i d s ) 数据分析能力可以从准确、效率和可用性三方面 进行。基于数据挖掘的i d s 仅仅在检测率方面高于传统方法是不够的,只有当误 报率也在一个可接受的范围内时,才是可用的。因此,研究目的在于设计一个基 于数据挖掘的入侵检测系统,使其正确率、效率性和可用性在一个比较理想的范 围内,并在个特定环境中实现。 本文结合教研室8 6 3 课题项目“智能分布式入侵检测系统( d i i d s ) ”,提出了 一种基于数据挖掘的智能化入侵检测系统体系结构,并对数据挖掘方法的具体实 现做了详细设计与改进。 1 2 国内外发展动态 近年来,国际学术界对网络信息安全十分重视,已经引起了国际学术与工程 两北t 业人学硕士学位论文 第一章绪论 界,包括计算机科学与工程、数学、控制工程、通信工程等学科领域专家学者的 极大关注。由美国电力研究院( e p r i ) 及国防部资助包括哈佛大学、麻省理工学院、 加州理工学院等美国2 5 所一流大学和2 家企业参加的研究项目一关键基础设施 网络系统( c i n s i ) “1 的研究,于1 9 9 9 年4 月启动,该项目包括6 个子项目,资 助总额达3 千万美元,其主要研究内容是大规模网络系统的安全问题。 入侵检测技术是在8 0 年代提出的。目前国际上采用的网络入侵检测系统大 体可分为两类:基于主机的入侵检测系统和基于网络的入侵检测系统。异常情况 分析一般所采用的技术是从审计记录中抽取入侵检测度量进行统计分析,为用户 建立描述文件。当该描述文件有变化时,则认为有发生入侵攻击的可能性。这种 基于统计分析的入侵检测方法可以自适应地学习用户行为的模式,当用户行为发 生变化时,其描述文件将会被修改。 许多入侵检测系统在应用上已取得重要成果,如美国a t & t 的c o m p u t e rw a t c h “1 ,t r w 的d i s c o v e r y ,h a y s t a c kl a b o r a t o r y 的h a y s t a c k 系统“1 ,规划研究组 织的信息安全指挥助理( i s o a ) ,l o sa l a m o s 国家实验室的教训和经验( w & s ) 和网络异常检测与侵入报告( n a d i r ) 等“1 ,其中最为成功的应用系统是s r i 的 一系列系统i d e s “1 、n i d e s “1 和e m e r a l d ”1 。s r i 一直为美国的f b i 提供先进的 网络安全监控系统解决方案。 我国在入侵检测技术方面也有一定研究,开发出了一些网络安全产品,如西 安信利网络科技公司的“网络巡警”解决方案、华泰网信息技术有限公司的 i n t e r n e t i n t r a n e t 网络安全预警系统、北京启明星辰科技贸易有限公司的黑客 入侵检测与预警系统、北京时代先锋软件有限责任公司的行天黑客攻击检测工具 等多种入侵检测产品;还有上海复旦光华在骨干网监控方面,研究了对特定地址 的信息流量监控与封堵技术;中国科学院软件所在入侵检测关键技术研究上,提 出了+ 种基于a g e n t 的分布式异常入侵检测系统。 把数据挖掘技术应用于入侵检测系统是由哥伦比亚大学计算机系i d s 研究 室w e n k el e e 于1 9 9 9 年提出的一个全新的概念。目前,此项目是美国国防部 d a r p a 项目中的一部分。实验表明,此方法能够提高系统的检测率,而不会降低 两北工业大学硕士学位论文第一章绪论 任何一科,检测模型的其它效能。 目前,国内已有少数一些研究机构及大学正在从事数据挖掘在入侵检测方面 的研究。从研究成果来看,大多处于初始阶段,还没有系统的理论推出。 数据挖掘技术应用于入侵检测系统的基本原理和方法尚未得到充分研究,因 此,本课题研究数据挖掘的理论及用于入侵检测系统中数据分析的理论和方法, 具有一定的理论价值。 1 3 课题研究的主要内容及章节安排 经过对论文课题的分析,研究重点应放在以下几个方面:入侵检测系统,数 据挖掘技术,分类器的设计,特征建立及选取,规则表达及评估。 具体内容有:分析现存入侵检测系统特点及不足,研究数据挖掘算法及各算 法适用场合,设计一种适用于入侵检测系统的规则挖掘算法及规则表达方式,进 行特征建立和选择以及特征表达方法及评价等。 论文内容的安排大致如下: 第一章:绪论。主要介绍本论文研究的背景、目的及意义,相关领域介绍及 课题研究方法及设想。 第二章:基于数据挖掘的分布式智能入侵检测系统。对本课题涉及的相关领 域进行了介绍,然后介绍了“基于a g e n t 的分布式入侵检测系统”( d i i d s ) 的系 统结构,提出了一种基于数据挖掘的d i i d s 系统设计,并对数据挖掘的整个过 程的设计进行了简要的介绍。 第三章:系统详细设计。介绍应用关联规则和频繁事件算法实现数据聚集和 特征建立和选择的自动方法及其具体的实现过程。 第四章:实验结果分析与改进。介绍实验过程及结果分析,提出了一种基于 聚类分析的异常检测方法的设想。 第五章:总结与展望。总结本系统设计实现情况及下一步设想。 西北r 业大学硕1 学位论文 第二章基于数据挖掘的分布式智能入侵检测系统 第二章基于数据挖掘的分布式智能入侵检 测系统捌糸统 作为本文研究的基础,本章对相关领域知识进行介绍。然后介绍了“基于 a g e n t 的分布式入侵检测系统”( d i i d s ) 的系统结构,给出了基于a g e n t 的分布 式入侵检测系统结构以及a g e n t 检测模块结构。在此基础上,提出了一种基于数 据挖掘的d i i d s 系统设计,并对数据挖掘的整个过程的设计进行了简要的介绍。 2 1 入侵检测系统 本节先介绍了入侵检测系统的原理,然后介绍了基于a g e n t 的分布式入侵检 测系统结构以及a g e n t 检测模块结构。 2 1 1 入侵检测技术原理 基于网络的计算机系统的安全问题,解决方案可分为两大类,即安全保护和 入侵检测。 传统的安全保护类技术采用认证、授权、访问控制和加密等机制增强计算机 系统即系统中敏感数据的安全性,但不能阻止利用计算机软硬件系统的缺陷闯入 未授权计算机系统的行为,对授权用户滥用计算机及其资源的情况也无能为力。 而防火墙技术则采用包过滤、应用层网关及虚拟网技术防止诸如协议实现漏洞、 源路由、地址仿冒等多种攻击手段,但它不能对付层出不穷的应用设计缺陷和通 过加密通道的攻击。由此可知,为了保证基于网络的计算机系统的安全性,仅有 访问控制机制和防火墙等技术是远远不够的,还需要有一种能够及时发现并报告 系统非授权使用或异常现象的技术,此即入侵检测。入侵者利用安全漏洞进入计 算机系统。修正所有的设计和程序错误通常是很昂贵,几乎是不可能做到的。因 此,不能完全依靠基于保护的方法,入侵检测作为最后一道防线显得尤为重要。 6 西北t 业大学钡+ 学位论文 第二章基于数据挖掘的分布式智能入侵检测系统 入侵( i n t r u s i o n ) 是指任何企图危及资源的完整性( i n t e g r i t y ) 、机密性 ( c o n f i d e n t i a l i t y ) 和可用性( a v a i l a b i l i t y ) 的活动“1 。入侵检测就是检测入侵 活动并采取对抗措施。入侵检测系统的优点在于:实时报告入侵行为,安全人员 可以采取适当行动,如断开连接,跟踪识别入侵者,收集证据反击入侵者等:呈 现入侵行为,安全人员发现和修正引起入侵的安全漏洞。进行入侵检测的软件与 硬件的组合便是入侵检测系统( i d s ) 。 _ i j 新建活动状况 活动简档卜卜一 、 2 1 通用入侵检溯系统模型 入侵检测系统是通过收集网络中的有关信息和数据,对其进行分析,发现隐 藏在其中的攻击者的足迹,并获取攻击证据和制止攻击者的行为,最后进行数据 恢复。总的来讲,入侵检测系统的功能有以下六种: 1 监视用户和系统的运行状况,查找非法用户和合法用户的越权操作; 2 检测系统配置的正确性和安全漏洞,并提示管理员修补漏洞; 3 对用户的非正常活动进行统计分析,发现入侵行为的规律; 4 检查系统程序和数据的一致性与正确性。如计算比较文件系统校验和; 5 能够实时对检测到的入侵行为进行及时反应; 6 入侵行为的记录和追踪。 入侵检测技术基于以下两个假设: 1 计算机系统中的用户和程序行为可以被监视; 西北t 业大学硕十学位论文第二章基于数据挖掘的分布式智能入侵检测系统 2 入侵行为与合法操作有很大不同。 不同i d s 采取不同的方式识别入侵,总的来说,入侵检测方法主要有两种: 滥用检测和异常检测。 滥用检测 滥用检测( m i s u s ed e t e c t i o n ) 是对利用已知的系统缺陷和已知的入侵方法 进行入侵活动的检测。运用已知攻击方法,根据已定义好的入侵模式,通过判断 这些入侵模式是否出现来检测。因为很大一部分的入侵是利用了系统的脆弱性, 通过分析入侵过程的特征、条件、排列以及事件间关系能具体描述入侵行为的迹 象。 滥用检测由于依据具体特征库进行判断,所以检测准确度很高,并且因为检 测结果有明确的参照,也为系统管理员做出相应措施提供了方便,可以有针对性 的建立高效的入侵检测系统。滥用检测的主要缺陷在于与具体系统依赖性太强, 不但系统移植性不好,维护工作量大,而且将具体入侵手段抽象成知识也很困难, 并且检测范围受已知知识的局限,因为这些入侵行为并没有利用系统脆弱性,尤 其是难以检测出内部人员的入侵行为,如合法用户的泄漏。它不能检测未知的入 侵,也不能检测已知入侵的变种,因此可能发生漏报。 异常检测 异常入侵由用户的异常行为和对计算机资源的异常使用产生。异常检测 ( a n o m a l yd e t e c t i o n ) 需要建立目标系统及其用户的正常活动模型,然后基于 这个模型对系统和用户的实际活动进行审计,以判定用户的行为是否对系统构成 威胁。异常检测的方法有神经网络、机器学习和人工免疫等。 异常检测的优点是它不需要有系统缺陷的知识,且具有较强的适应性和通用 性。缺点:难于提取完整的用户正常行为特征;完善的异常门限值很难确定;用 户行为可能发生巨大变化,由此产生行为的不连贯性;根据统计的方法不能发现 序列相关的入侵行为,因为单个看它的每个行为都是正常行为;入侵者可以利用 基于统计的系统自学习的特点,经过一段时间的训练,系统自动更新用户正常活 动集合把入侵行为视为正常行为。 西北工业大学硕士学位论文 第一章基于数据挖掘的分布式智能入侵检测系统 现有的入侵检测系统可分为基于主机和基于网络的两种。 基于主机的入侵检测系统 即在每个要保护的主机上运行一个代理程序。例如i n t r u s i o nd e t e c t i o n 公司 基于w i n d o w sn t 和n e t w a r e 的k a n e s e c u r i t ym o n i t o r 。,a x e n tt e c h n o l o g i e s 公 司的o m n i g u a r d i n t r u d e r a l e r t “。代理程序会定期给管理员发出信号,当然也包 括报警。 基于主机入侵检测的优点: 1 性价比高:在主机数量较少的情况下,这种方法的性价比可能更高; 2 更加细致:这种方法可以很容易地监测一些活动,如对敏感文件、目录、 程序或端口的存取,而这些活动很难在基于协议的线索中被发现; 3 视野集中:一旦入侵者得到了一个主机的用户名和口令,基于主机的代 理是最有可能区分正常的活动和非法的活动的; 4 易于用户定制:每一个主机有其自己的代理,当然用户定制更方便了: 5 较少的主机:基于主机的方法不需要增加专门的硬件平台i 6 ,对网络流量不敏感:用代理的方式一般不会因为网络流量的增加而丢失 对网络行为的监视。 基于主机入侵检测系统用于保护关键应用的服务器,实时监视可疑的连接、 系统日志检查,防止非法访问的闯入等。 基于网络的入侵检测系统 通过连接网络,捕获网络包,并分析其是否具有已知的攻击模式,以此来判 别是否为入侵者。例如i n t e m e ts e c u r i t ys y s t e m 公司的r e a l s e c u r e 1 s i n e t w o r k a s s o c i a t e s 公司的c y b e r c o p 1 、以及w h e e l g r o u p 公司的n e t r a n g e r “”。软件持 续地监控网络,发现已知的攻击,它通常运行在网络需要控制的要点上,比如 i n t e r n e t 出口的路由器,或者l a n 上重要的数据库。当软件检测到有攻击发生, 它就会按预先定义好的方式响应。监控和反应软件就像防盗报警器,当警报器发 现偷盗,它就会发出声响或打电话给警察。 基于网络入侵检测的优点: 两北t 业大学硕十学位论文第二章基于数据挖掘的分布式智能入侵检测系统 1 检测速度快:基于网络的监控器通常能在微秒或秒级发现问题,而大多 数基于主机的产品则需要依靠对最近几分钟内审计记录的分析: 2 ,隐蔽性好:一个网络上的监控器不像主机明显和易被存取,因而也不像 主机那样容易遭受攻击。由于不是主机,因此一个基于网络的监控器不 用去响应p i n g ,不允许别人存取其本地存储器,不能让其他用户运行程 序,而且不让多个用户使用它; 3 视野更宽:基于网络的方法甚至可以在网络的边缘上,即攻击者还没能 接入网络时就被制止: 4 占资源少:在被保护的设备上不用占用任何资源。 基于网络的入侵检测系统用于实时监控网络关键路径的信息。 基于主机的和基于网络的两种入侵检测技术是互补的。实施基于网络的监 控,同时在特定的敏感主机上增加代理是一个可以考虑的策略。 2 1 2 基于a g e n t 分布式网络系统结构 面对网络技术的高速发展,网络信息量呈指数增长,网络攻击方式不断翻新。 网络入侵检测系统经过了由集中式处理到分布式处理,由简单软件结构到通用功 能模块设计,由数据信息流动到代码移动的变化过程。 由于入侵活动的复杂多样,仅仅依赖入侵方法的研究,还不能有效地完成预 警检测功能,还必须研究适当的检测体系与之配合。对于基于模式识别的入侵检 测系统,预先掌握所有的入侵方法是不可能的,因此不仅需要识别已知的入侵模 式,还要有能力对付未知的入侵模式。基于主机的模型通过分析系统的审计数据 发现可疑活动,基于网络的模型,通过实时监控网络上的数据流,寻找具有攻击 特征的活动。这两种模型具有互补性,基于网络的模型能够客观地反映网络活动, 特别是能够监控到系统审计的盲区;而基于主机的模型能够更加精确地监视系统 中的各种活动。两系统之间可以互补融合,通过引入网络管理技术、智能技术、 a g e n t 技术,形成一个基于智能代理( a g e n t ) 的、智能、自适应分布式入侵检 测系统。 1 0 两北 二业大学硕上学位论文第二章基于数据挖掘的分布式智能入侵检测系统 2 1 2 1 智能检测代理 a g e n t 代理技术具有功能的连续性、自主性、适应性,能够连续不断地感知 外界及自身状态地变化,并自主产生相应的动作。在入侵检测系统中,利用a g e n t 的推理机制及多a g e n t 之间的协同工作方式,可以完成知识库更新,模型过程描 述,动态模型识别等功能,这较传统的专家系统能取得更好的效率与效果;通过 代理技术还可以实现对环境变化的适应,充分利用网络资源,减轻服务器主机的 工作负担。 在基于a g e n t 的分布式入侵检测系统中,每个a g e n t 能单独实现针对宿主主 机的一套检测方法,a g e n t 之间还通过u d p 进行通讯,互相通告发现异常情况 和异常行为报告。在网络安全系数较高的地方通过中心数据处理对各a g e n t 检测 结果收集并进行相关性分析,检测更高一层的网络攻击事件。 每个检测a g e n t 具有相同的结构模块,并且采用标准组件、按规定的数据标 准格式进行通讯,a g e n t 模块结构如图2 2 所示。 图2 2 a g e n t 检测模块结构图 两北工业大学硕士学位论文 第二章基于数据挖掘的分布式智能入侵检测系统 a g e n t 环境为a g e n t 提供本地的支持和认证;而每个a g e n t 从环境中获取所 需的数据,以及系统状态等。为了对移动代理的支持,a g e n t 环境中加入了目录 服务以及a m s 代理管理系统等。每个a g e n t 通过向环境信息注册,通告其存在, 并获取一个全局唯一的标识号,利用这个标识号实现与其它a g e n t 的通讯。 2 1 2 2 分层结构 由于检测大部分工作都转移到各相关主机部分,每个a g e n t 利用数据库保存 自己的状态以及攻击特征知识库,而这些主机上资源的限制,并不能实现复杂的 入侵检测功能,同时由于信息的分布,在针对高层次攻击像协同攻击上,需要有 多个检测进行协同处理。因此在检测体系中往往考虑采用分层的结构,利用多个 a g e n t 组合形成一个高层次的检测结构,信息在该结构中层层检测,层层提炼。 每 图2 3 分层检测结构 在该树形分层体系中,最底层的a g e n t 群体为c o l l e c t i o n n o d e s ,负责收集所 有信息,并对信息进行最基本的处理,完成简单判断与处理任务。其特点是处理 数据量大,速度快,效率高,但只能对一些简单的攻击进行检测。第二类节点是 a g g r e g a t i o nn o d e s ,起一个承上启下的作用,每个节点都维持一个与之相连的下 级节点链表,负责管理子节点,以及接受子节点处理后的数据,再进行高层次的 关联分析、判断,输出判断结果。在c o l l e c t i o n n o d e s 与c o m m a n da n d c o n t r o l n o d e s 一 二m 一 = 二噩司囝 西北t 业大学硕j 二学位论文 第二章基于数据挖掘的分布式智能入侵检测系统 中间加入a g g r e g a t i o nn o d e s 可以减轻中央控制( c o n t r o lp o i n to f a d m i n i s t r a t i o n ) 的 负担,增强系统的可伸缩性。这部分节点还可以按照可预见模式进行主动信息搜 索。系统最高层是c o m m a n d & c o n t r o l ,这部分节点主要负责管理功能,根据环 境的要求可以动态调整节点层次关系图,实现系统的动态重配置。通过灵活地组 合不同的a g e n t 群体模式,产生多种检测结构,实现对各类复杂的攻击检测。 2 2 数据挖掘技术 本节介绍了数据挖掘系统体系结构,简要的介绍了现有的几种数据挖掘算法及 它们适用的场合。 2 2 1 数据挖掘系统体系结构及运行过程 数据挖掘是一个高级的处理过程,它从数据集中识别出以模式来表示的知 识。它的核心技术是人工智能、机器学习、统计等,但一个d m 系统不是多项技 术的简单组合,而是一个完整的整体,它还需要其他辅助技术的支持,才能完成 数据采集、预处理、数据分析、结构表述这一系列的高级处理过程。所谓高级处 理过程是指一个多步骤的处理过程,多步骤之间相互影响、反复调整,形成一种 螺旋式的上升过程。最后将分析结果呈现在用户面前。根据功能,整个d m 系统 可以大致分为三级结构,如图2 2 所示。 d m 的数据分析过程一般由三个主要的阶段组成:数据准备、采掘过程、结 果表达和解释。数据挖掘可以描述成这三个阶段的反复过程。 1 数据准备:该阶段又可进一步分成三个子步骤:数据集成、数据选择、 数据预处理。数据集成将多文件或多数据库运行环境中的数据进行合并 处理,解决语义模糊性、处理数据中的遗漏和清洗脏数据等。数据选择 的目的是辨别出需要分析的数据集合,缩小处理范围,提高数据采掘的 质量。预处理是为了克服目前数据采掘工具的局限性。 西北工业人学硕上学位论文 第二章基于数据挖掘的分布式智能入侵检测系统 l 用户界面 li 结果输出 l t o p e n a p i t l 聚分序关 类类列联 数据挖掘核心 分分分分 析析析析 r 一 0 p e n a p i 知识库 o d b c 或其他专用数据库接口 tt 十 图2 4d m 系统的三级体系结构 2 数据挖掘:这个阶段进行实际的挖掘操作。包括的要点有: ( 1 ) 决定如何产生假设:发现型( d i s c o v e r y d r i v e n ) 的数据采掘是让数据 采掘系统为用户产生假设,而验证型( v e r i f i c a t i o n d r i v e n ) 的数据采 掘则是用户自己对于数据库可能包含的知识提出假设; ( 2 ) 选择合适的工具; ( 3 ) 发掘知识的操作; ( 4 ) 证实发现的知识。 3 结果表述和解释:根据最终用户的决策目的对提取的信息进行分析,把 最优价值的信息区分出来,并且通过决策支持工具提交给决策者。如果 不能令决策者满意,需要重复以上数据挖掘的过程。 1 4 西北工业人学硕上学位论文第二章基十数据挖掘的分布式智能入侵检测系统 2 2 2 数据挖掘在d i i d s 系统中的应用 在基于a g e m 的分布式智能入侵检测系统中,加入数据挖掘模块实现自动数 据聚集和特征提取。通过智能数据聚集可以发现隐藏在数据后面的模式,同时, 采用数据聚集可实现特征量的存取,而舍弃原始数据,从空间和时间两个方面提 高系统性能。对于大量的原始数据,入侵检测系统不可能实时地处理所有数据。 因此必须衡量不同的数据对检测的贡献,提取具有代表性的特征。数据挖掘在 d i i d s 系统中的应用结构如图2 _ 3 所示。 图2 5 数据挖掘在d i i d s 系统中的应用结构图 对系统截取的数据,如网络数据、系统日志等,进行挖掘,实现数据的自动 聚集与特征提取,根据这些特征建立分类规则写入规则库,实现规则库的自动更 新。数据挖掘具体实施过程见图2 5 。 入侵检测使用的数据,如网络数据t c p d u m p 、系统日志等,不是专门为安全 目的设置的,不能把它们直接用于模型建立,必须经过一定的预处理。数据预处 理把数据转化成数据挖掘使用的形式,同时可以统一数据表达、去除数据噪音等。 对预处理的数据首先使用关联分析,挖掘出数据之间关于主属性( 即最重要的特 征) 的关联规则。从这些关联中产生频繁序列模式,产生属性之间的关联和记录 之间的序列模式的规则。这其中,根据网络实际情况,分别采用了轴属性、参考 西北工业大学硕士学位论文第二章基于数据挖掘的分布式智能入侵检测系统 属性、层次宽度近似挖掘及相关支持度等扩展算法。对产生的相似模式进行合并, 以确保模式的概括性。为了更加直观的表达模式,更加方便的比较模式,首先对 得到的模式进行编码。通过分析比较模式,找出纯攻击模式,从这些纯攻击模式 中进行特征提取。在原有的特征中加入基于时间和统计的新的特征值进行机器学 习,从而完成分类规则的自动制定。 图2 6 数据挖掘过程 2 2 3 常见的数据挖掘分析方法 关联分析 关联分析的目的就是为了挖掘出隐藏在数据间的相互关系。关联分析就是给 1 6 两北工业大学硕上学位论文 第二章基于数据挖掘的分布式智能入侵检测系统 定一组i t e m 和一个记录集合,通过分析记录集合,推导出i t e m 问的相关性。例 如,“在购买面包和黄油的顾客中,有9 0 的人同时也买了牛奶”( 面包+ 黄油= 牛奶) 。用于关联规则发现的主要对象是事务数据库( t r a n s a c t i o n a l d a t a b a s e s ) 。一般用四个参数来描述关联规则的属性:可信度( c o n f i d e n c e ) 、 支持度( s u p p o r t ) 、期望可信度( e x p e c t e dc o n f i d e n c e ) 、作用度( l i f t ) 。关 联规则挖掘的任务是:给定一个事务数据库d ,求出所有满足最小支持度和最小 可信度的关联规则。发现关联规则要经过以下三个步骤:连接数据,做数据准备: 给定最小支持度和最小可信度,利用数据挖掘工具提供的算法发现关联规则;可 视化显示、理解、评估关联规则。 设i = i :i 。 是一组物品集,d 是一组事务集( 称之为事务数据库) 。d 中的每个事务t 是一组物品,显然满足t c _ i ;每个事务有一个唯一的标识符, 称作t i d 。我们称事务t 支持( s u p p o r t ) 物品集x ,如果x t ,也称事务t 包 含( c o n t a i n ) 或满足( s a t i s f y ) 物品集x 。关联规则是如下形式的一种蕴含: x = y ,其中x c _ i ,y _ c i ,且x n y = 中。 用p ( x ) 表示事务中物品集x 的概率,p ( yj x ) 表示在出现物品集x 的事务中, 出现物品集y 的概率,则以上四个参数可用公式表示,如下表。 名称描述公式 可信度( c o n f i d e n c e )在物品集x 出现的前提下,y 出p ( y x ) 现的概率 支持度( s u p p o r t )物品集x 、y 同时出现的概率p ( x n y ) 期望可信度物品集v 出现的概率p ( y ) ( e x p e c t e dc o n f i d e n c e ) 作用度( l i f t )可信度对期望可信度的比值p ( y l x ) p ( y ) 表2 1 四个参数的计算公式 可信度是对关联规则准确度的衡量,支持度是对关联规则重要性的衡量。期 望可信度描述了在没有物品集x 的作用下,物品集y 本身的支持度。作用度描述 西北t 业大学硕士学位论文第二章基于数据挖掘的分布式智能入侵检测系统 了物品集x 对物品集y 的影响力的大小。一般情况,有用的关联规则的作用度都 应该大于1 ,只有关联规则的可信度大于期望可信度,才说明x 的出现对y 的出 现有促进作用,也说明了它们之间某种程度的相关性,如果作用度不大于l ,则 此关联规则也就没有意义了。 在关联规则的四个属性中,支持度和可信度能够比较直接形容关联规则的性 质。事实上,人们一般只对满足一定的支持度和可信度的关联规则感兴趣。一般 称满足一定要求的( 如较大的支持度和可信度) 规则为强规则( s t r o n gr u l e s ) 。 因此,为了发现出有意义的关联规则,需要给定两个闽值:最小支持度( m i n i m u m s u p p o r t ) 和最小可信度( m i n i m u mc o n f i d e n c e ) 。前者即用户规定的关联规则必 须满足的最小支持度;后者即用户规定的关联规则必须满足的最小可信度。 分类分析 假定记录集合和一组标记,所谓标记是指一组具有不同特征的类别。分类分 析时首先为每一个记录赋予一个标记,即按标记分类记录,然后检查这些标定的 记录,描述出这些记录的特征。这种描述可能是显式的,例如,一组规则定义; 或者是隐式的,例如一个数学模型或公式,利用它可以分类新记录,实际上它就 是一种模式。分类分析的目的是学会一个分类函数或分类模型( 也常常称作分类 器) ,该模型能把数据库中的数据项映射到给定类别中的某一个。分类器的构造 方法有统计方法、机器学习方法、神经网络方法等等。统计方法包括贝叶斯法和 非参数法,对应的知识表示则为判别函数和原型事例;机器学习方法包括决策树 法和规则归纳法,前者对应的表示为决策树或判别树,后者则一般为产生式规则; 神经网络方法主要是b p 算法,它的模型表示是前向反馈神经网络模型。( 由代表 神经元的节点和代表联接权值的边组成的- - i 十体系结构。) b p 算法本质上是一种 非线性判别函数。另外,最近又兴起了一种新的方法:粗糙集( r o u g hs e t ) ,其 表示是产生式规则。 要构造分类器,需要有一个训练样本数据集作为输入,训练集由一组数据库 记录或元组构成,每个元组是一个由有关字段( 又称属性或特征) 值组成的特征 两北t 业大学硕士学位论文第二章基于数据挖掘的分布式智能入侵检测系统 向量,除了这些外,训练样本还有一个类别标记。一个具体样本的形式可为: ( v ,v 。,v 。:c ) :其中v i 表示字段值,c 表示类别。 不同的分类器有不同的特点。有三种分类器评价或比较尺度:预测准确度、
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 四川省达州开江县联考2025届第二学期期末初三质量检测试题化学试题含解析
- 商丘市重点中学2024-2025学年高三第五次模拟考试(物理试题文)试题含解析
- 无锡太湖学院《语言研究项目》2023-2024学年第二学期期末试卷
- 山东济南市历下区2024-2025学年初三下学期大联考(一)英语试题含答案
- 玉林师范学院《生物化学下》2023-2024学年第二学期期末试卷
- 物业细节决定成败培训
- 离心泵结构培训
- 2025年集装箱水泥运输合同模板
- 2025屋顶广告牌建设合同
- 2025关于货车租赁合同
- Q∕SY 126-2014 油田水处理用缓蚀阻垢剂技术规范
- 环保管理制度(适用于软件企业)
- 全国青少年机器人技术等价考试三级全套课件
- 适老化改造培训课件(PPT 31页)
- DB 33-T 1015-2021居住建筑节能设计标准(高清正版)
- 钢结构门式刚架厂房设计土木工程毕业设计
- 幼儿园儿歌100首
- 光伏并网逆变器调试报告正式版
- 市政道路大中修工程管理指引
- SF_T 0097-2021 医疗损害司法鉴定指南_(高清版)
- 易学书籍大全291本
评论
0/150
提交评论