




已阅读5页,还剩58页未读, 继续免费阅读
(计算机应用技术专业论文)基于聚类的网络入侵检测方法研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于聚类的网络入侵检测方法研究 摘要 随着i n t e m e t 技术的迅猛发展,网络安全问题也显得日益突出。入侵检 测技术作为一种主动的安全保障措施,有效地弥补了传统网络安全防护技 术的缺陷,已经成为网络信息安全的一个重要研究领域。由于数据挖掘技 术能够从海量数据集中挖掘出人们感兴趣的特定模式,所以人们十分重视 将数据挖掘技术应用到入侵检测的研究与开发中。基于聚类的无监督异常 检测方法可以在无标记数据集上发现异常数据,克服了传统数据挖掘方法 的缺陷,使标记数据集和入侵检测建模过程自动化,逐渐发展成为一类重 要的入侵检测技术。 本文将信息熵理论应用于入侵检测的聚类问题,给出在混合属性条件 下数据之间距离、数据与簇之间距离、簇与簇之间距离的定义;采用划分 聚类算法将数据集的数据划分到类中,以整体相似度的聚类质量评价标准 作为聚类合并的策略,通过凝聚层次聚类的方法将聚类进行合并;合并后 清除噪音簇以提高检测效率,并根据划分出的大小簇的边界来标识正常簇 和异常簇,最后给出算法参数选取的方法,进而提出一种基于划分和凝聚 层次聚类的无监督异常检测算法。算法分析和实验结果表明,该算法具有 较好的检测性能并能有效检测出未知入侵行为。 本文引入克隆选择算法对划分聚类进行优化,提出了一种应用于入侵 检测的基于克隆选择的聚类方法。该方法通过比较数据到簇心距离和簇半 径的大小来划分数据,得到初始聚类,并给出簇半径阈值的计算方法;针 t 对入侵检测所处理的数据具有混合属性的特点,改进数据差异度度量,定 义适合混合数据聚类的目标函数,实现具有混合属性的入侵检测数据的聚 类分析;通过引入克隆选择算法优化聚类,得到更好的聚类结果,解决了 聚类算法在入侵检测应用中所遇到的混合属性差异度计算和最终聚类数目 未知以及易陷入局部极值的问题;并在基于克隆选择的聚类基础上进行增 量式聚类,提出了一个可增量更新的聚类模型。算法分析与实验结果表明 所提出的方法具有较好的检测性能,可以获得较高的检测率和较低的误报 率。 关键词:入侵检测聚类分析划分聚类凝聚层次聚类人工免疫克 隆选择 i i s t u d yo nt h ec l u s t e i u n g b a s e dn e t w o r k i n t r u s i o nd e t e c t i o nm e t h o d s a b s t r a c t w i t ht h er a p i dd e v e l o p m e n to f t b ei n t e r n e t , n e t w o r ks e c u r i t yi sb e c o m i n gm o r ea n d m o r ei m p o r t a n t a sa na c t i v ed e f e n s et e c h n o l o g y , i n t r u s i o nd e t e c t i o nc o m p e n s a t e st h e d e f e c t so ft r a d i t i o n a ld e f e n s et e c h n o l o g ya n db e c o m e sa ui m p o r t a n tr e s e a r c hd o m o mo f n e t w o r ks e c u r i t y d a t am i n i n gc a nf i n ds p e c i f i e dp a t t e r n st h a tp e o p l ea r ei n t e r e s t e di n f r o ml a r g ed a t a s e t s ;t h e r e f o r e , d a t am i n i n gt e c h n i q u ei sa p p l i e dt oi n t r u s i o nd e t e c t i o n t h eu n s u p e r v i s e da n o m a l yd e t e c t i o nm e t h o db a s e do l mc l u s t e r i n gc a nd e t e c tt h ea n o m a l y r e c o r d si nt h eu n l a b e l e dd a t a s e t , i tc a no v e r c o m et h es h o r t c o m i n go ft h et r a d i t i o n a ld a t a m i n i n gm e t h o d s ,a n da u t o m a t et h el a b e l i n ga n dc r e a t i n gp r o c e s so ft h ei n t r u s i o n d e t e c t i o nm o d e li th a sb e c o m ea ni m p o r t a n tt e c h n i q u eo fi n t r u s i o nd e t e c t i o n t h i sp a p e rp r o p o s e sa nu n s u p e r v i s e da n o m a l yd e t e c t i o na l g o r i t h mb a s e do l l p a r t i t i o na n da g g l o m e r a t i v eh i e r a r c h i c a lc l u s t e r i n g i n f o r m a t i o ne n t r o p yt h e o r yi 譬 a p p l i e dt ot h ec l u s t e r i n gp r o b l e mf o ri n t r u s i o nd e t e c t i o n ,a n dt h ed i s t a n c e sf o rm i x e d a t t r i b u t e sb e t w e e nt w od a t ai t e m s ,d a t aa n dc l a s t e r s ,a n dt w oc l u s t e r sn r ed e f i n e d r e s p e c t i v e l y p a r t i t i o nc l u s t e r i n gm e t h o di su s e dt od 记ed a t ai n t oc l u s t e r s a n d a g g l o m e r a t i v eh i e r a r c h i c a lc l u s t e r i n gm e t h o di su s e dt om e r g ec l u s t e r sb ya p p l y i n g o v e r a l ls i m i l a r i t yt oe v a l u a t et h ed u s 缸rq u a l i t y a f t e rm e r g i n gc l u s t e r s n o i s ed u s t e r s a g ee l i m i n a t e dt oi m p r o v et h ed e t e c te f f i e i e n e y n o r m a lc l u s t e r sa n di n t r u s i o nd u s t e r s n r el a b e l e db yi n d i c a t i n gt h eb o r d e ro ft h el a r g ea n ds m a l le i n s t e r s f i n a l l y , c h o k eo ft h e a l g o r i t h mp a r a m e t e ri sp r e s e n t e d t h ea l g o r i t h ma n a l y s i sa n de x p e r i m e n t a lr e s u l t ss h o w t h 叠tt h i s p r e s e n t e da l g o r i t h mo b t a i n sg o o dd e t e c t i o np e r f o r m a n c ea n dg a i nd e t e c t e f f i c i e n t l yt h en e wu n k n o w ni n t r u s i o n s ac s a - b a s e dc i n s t e r i n ga l g o r i t h mf o ri n t r u s i o nd e t e c t i o ni s p r o p o s e db yu s i n g e l o n a ls e l e c t i o nt oo p t i m i z et h er e s u l to fc l u s t e r i n g t h ea l g o r i t h mp a r t i t i o n sd a t ai n t o c l u s t e r sb yc o m p a r i n gt h ed i s t a n c e so fd a t aa n dc l u s t e r st oc l u s t e rr a d i a l ,a n dg i v 髑t h e m c o m p u t a t i o n a lm e t h o do f c l u s t e rr a d i a l i no r d e rt oi m p l e m e n t ec l u s t e r i n ga n a l y s i sw i t h m i x e da t t r i b u t e si nt h e 石e ho fi n t r u s i o nd e t e c t i o n t h ed e f m i t i o a so fd i s t a n c em l m i s n c e a n do b j e e tf h n c t i o na r em o d i f i e d b ya p p l y i n ge l o n a is d e c t i o na l g o r i t h mt oo p t i m i z e c l u s t e r i n ga l g o r i t h m ,t h eb e t t e rr e s u l to fc l u s t e r i n gi s o b t a i n e d t h ep r o b l e m so f t r a d i t i o n a lc l u s t e r i n ga l g o r i t h mf o ri n t r u s i o nd e t e c t i o n s u c h 鹤d i s s i m i l a r i t yc o m p u t i n g w i t hm i x e da t t r i b u t e s ,u n k n o w nf m a l l yc l u s t e rn u m b e ra n de a s yt of a l l i n gi n t ol o c a l o p t i m i z a t i o n , l i f er e s o l v e d b a a e do f ft h ec s a - b a s e dd u s t e r i n ga p p r o a c h ,a ni n c r e m e n t a l c l u s t e r i n gm o d e l i se s t a b l i s h e d t h ea l g o r i t h ma n a l y s i sa n de x p e r i m e n tr e s u l t 3s h o w 也a t t h ep r e s e n t e da p p r o a c hf a na c h i e v eg o o dd e t e c t i o np e r f o r m a n c ea n dg e tt h eh i g h d e t e c t i o nr a t ea n dl o wf a l s ep o s i t i v er a t ei nt h en e t w o r kd e t e c t i o ns y s t e m k e yw o r d s :i n t r u s i o nd e t e c t i o n ;c l u s t e r i n ga n a l y s i s ;p a r t i t i o nc l u s t e r i n g ;a g g l o m e r a t i v e h i e r a r c h i c a lc l u s t e r i n g ;a r t i f i c i a li m m u n e ;c l o n a ls e l e c t i o n i v 广西大学硕士学位论文基于聚类的网络入侵检测方法研究 1 i 课题的研究背景 1 1 。l 问题提出 第一章绪论 计算机网络是促进信息化社会发展的最活跃的因素。由于计算机互联网络的国际 化、社会化、开放化和个性化的特点,使得它在向人们提供信息共享、资源共享和技术 共享的同时,也带来了不安全的隐患。计算机网络系统时常受到各种非法( 非授权) 的 访问和攻击,严重威胁我们国家的政治、经济、国防、科研和教育等领域的信息系统的 安全运行。原有的以防火墙隔离技术和操作系统加固技术等静态防御技术为核心的网络 安全技术已经不能够适应网络复杂性的要求,而以入侵检测系统为核心的动态安全技术 则日益发展起来,成为了网络信息安全领域内的一个重要技术和研究方向。 网络入侵检测( n e t w o r ki n t r u s i o nd e t e c t i o n ) 方法和技术通过对计算机网络系统的 若干关键点收集信息并对其进行分析,以检测和发现访问网络系统的操作序列有否违反 安全策略的行为和攻击迹象,及时报警并做出相应的措施。 目前,入侵检测系统的研究存在以下问题: ( 1 ) 检测准确率较低,漏报和误报率较高。由于网络体系结构的开放性特征和计 算机软件本身固有的特性,使得网络入侵仍然非常普遍。 ( 2 ) 对于网络系统运行中不断变化的非法入侵,异常行为的识别和未知模式攻击 的实时检测能力、智能入侵检测能力不强。 ( 3 ) 如何提高入侵检测系统的检测速度,以适应大规模网络通信的要求。 解决以上问题的途径是探索新的智能入侵检测技术。现代大型网络系统的结构日趋 复杂,规模快速增长,单纯地利用传统的基于模糊推理或规则匹配的专家系统进行入侵 检测已不能满足系统的实时性和准确度要求。现有的网络入侵检测方法主要是统计方 法、神经网络、预测模式产生、自然语言网络、序列匹配和学习、状态转移分析、模式 匹配、规则推理和f u z z y 理论【w 】等,近几年也兴起应用数据挖掘和生命科学中的人工免 疫理论研究网络入侵检测方法。 广西大学硕士学位论文基于聚类的网络入侵检测方法研究 1 1 2 国内外研究现状 1 1 2 1 入侵检测技术的研究进展 入侵检测系统( d s ) 最早出自于a n d e r s o n 在1 9 7 2 年的一项报告,其原理是将电 子数据处理、安全审计、模式匹配及统计技术等有机融合在一起,通过分析被检测系统 的审计数据或直接从网络捕获数据,发现违背安全策略或危及系统安全的行为和活动。 i d s 能够帮助网络系统快速发现网络攻击的发生,扩展了系统管理员的安全管理能力( 包 括安全审计、监视、进攻识别和响应) ,提高了信息安全基础结构的完整性。 ( 1 ) i d s 发展的三个阶段嗍 i d s 的发展可归纳为以下三个阶段: 早期阶段。从1 9 8 0 一1 9 8 7 年,入侵检测经历了从无到有的阶段,开始确立为一 个学科分支。 1 9 8 0 年,j a m e sa n d e r s o n 为美国空军做的题为计算机安全威胁监控与监视 ( c o m p u t e rs e c u r i t yt h r e a tm o n i t o r i n ga n ds u r v e i l l a n c e ) ) 的技术报告,第一次详细地阐 述了入侵检测的概念,并首次为入侵检测提出了一个统一的架构。1 9 8 4 1 9 8 6 年之间, 乔治敦大学的d e n n i n g 和s r i 公司计算机科学实验室的n e u m a n n 提出了一个实时入侵 检测系统模型,取名为i d e s ( 入侵检测专家系统) ,i d e s 是i d s 早期研究中最重要的 成就之一。 多样化发展阶段。从1 9 8 8 1 9 9 7 年,这一阶段出现了几个有影响力的入侵检测 模型。 1 9 8 9 年v a c c a r o 和l i e p i n s 提出了一个检测系统w i s d o m - s e n s e ( 简称w & s ) ,该系 统首次提出了异常检测的概念,w i s d o m s e n s e 是一个采用了统计学分析方法的专家系 统。 1 9 9 0 年在分布式系统上开始采用入侵检测技术,网络入侵检测技术诞生。加州大学 戴维斯分校的h e b e r l e i n 等人开发出了n s m ( n e t w o r ks e c u r i t ym o n i t o r ) 。该系统第一次 直接将网络流作为审计数据来源,形成了基于网络的i d s 和基于主机的i d s 两大检测概 念。 1 9 9 2 年由美国空军、国家安全局和能源部共同资助的分布式入侵检测系统( d i d s ) 的研究取得了进展。d i d s 集成了h a y s t a c k 和n s m 两种已有的入侵检测系统,综合了 2 广西大学硕士学位论文 基于聚类的网络入侵检测方法研究 两者的功能,并在系统结构和检测技术上进行了改进。d i d s 由主机监视器、局网监视 器和控制器组成,分析引擎是基于规则的专家系统。d i d s 采用分布的数据采集和分布 的数据分析,但核心数据分析是集中控制的。 1 9 9 4 年,c r o s b i e 和s p a f f o r d 提出利用自治代理( a u t o n o m o u sa g e n t s ) 以便提高i d s 的可扩展性、可维护性、效率和容错性。 1 9 9 6 年s t a n d f o r d - c h e n 为了解决入侵检测系统的可扩展性,提出了o r i d s ( o r a p h - - b a s e di n t r u s i o nd e t e c t i o ns y s t e m ) 系统,该系统对大规模自动或协同攻击的检测非常有 效。g r i d s 使用图形描述大规模网络中网络行为,针对大范围的网络攻击比较有效。其 缺陷在于只给出了网络连接的图形化表示,而具体的入侵判断仍需人工完成。 标准化发展阶段。从1 9 9 8 年至今,这一阶段入侵检测的新理论不多,更偏重于 检测算法的改进。检测算法的改进集中在基于网络的入侵检测、分布式入侵检测、基于 智能代理的入侵检测、神经网络和基因算法等领域。为了提高i d s 产品、组件及与其他 安全产品之间的互操作性,这一阶段人们开始高度重视i d s 的标准化工作。 1 9 9 8 年,美国国防高级研究计划署( d a 耻a ) 制定了通用入侵检测框架( c d f ) , 它最早由加州大学戴维斯分校安全实验室支持起草工作。c i d f 主要介绍了一种通用入 侵说明语言( c i s l ) ,用来表示系统事件、分析结果和响应措施。为了把i d s 从逻辑上 分为面向任务的组件,c i d f 试图规范一种通用的语言格式和编码方式以表示在组件边 界传递的数据。c i d f 所做的工作主要包括4 部分:i d s 的体系结构、通信体制、描述 语言和应用编程接口( a p i ) 。同时,c i d f 定义了通用入侵规范语言( c i s l ) ,以描述 入侵行为。c i d f 在系统扩展性和规范性上比较有优势。 互联网工程任务组( i e t f ) 的入侵检测工作组( i d w o ) 制定了入侵检测信息交换 格式( i d w e f ) 、入侵检测交换协议( i d x p ) 等标准。i d m e f 描述了一种表示入侵检 测系统输出信息的数据模型,并且解释了使用这个模型的基本原理。i d m e f 数据模型 以面向对象的形式表示分析器发送给管理器的警报数据。数据模型的设计目标是用一种 明确的方式提供对警报的标准表示法,并描述简单警报和复杂警报之间的关系。i d x p 是一个用于入侵检测实体之间交换数据的应用层协议,能够实现i d m e f 消息、非结构 文本和二进制数据之间的交换,并提供面向连接协议之上的双方认证、完整性和保密性 等安全特征。 ( 2 )i d s 的发展方向 从d e n n i n g 首次研究入侵检测模型至今,入侵检测领域已经发展了近2 0 年的时间, 3 广西大学硕士学位论文 基于聚类的网络入侵检测方法研究 人们采用了多种方法用于入侵检测。现有的入侵检测系统多数采用代理、概率统计、专 家系统、神经网络、模式匹配、行为分析、遗传算法、生物免疫系统、数据挖掘等来实 现系统的检测机制,以分析事件的审计记录、识别特定的模式、生成检测报告和最终的 分析结果。从最初对单机i d s 的研究到现在对大型网络的i d s 的研究,虽然已经取得了 很大的进展,但是面对网络技术的迅猛发展和攻击行为的日益复杂,还是暴露出许多不 足,仍需进一步研究和深化。 宽带高速实时的检测技术【9 ,姗。大量高速网络技术,如a t m 、千兆以太网等相 继出现,如何实现高速网络环境下的实时入侵检测已经成为当前人们所面i 临的现实问 题。 大规模分布式检测技术【l l 】。为了适应大规模分布式检测需求,美国普渡大学开 发了一个a a f i d 系统,该系统是一种采用树形分层结构的代理群体,根部是监视器代 理,提供全局的控制、管理以及分析由上一层节点提供的信息,在树叶部分的代理专门 用来收集信息。处在中间层的代理成为收发器,这些收发器一方面实现对底层代理的控 制,另一方面可以起到信息的预处理过程,把精炼的信息反馈给上层监视器。这种结构 采用了本地代理处理本地事件,中央代理负责整体分析的模式。与集中式不同,它强调 通过全体智能代理的协同工作来分析入侵策略。这种方法明显优于集中式i d s ,但同时 也带来了一些新的问题,如代理间的协作、代理间的通信等,这些问题仍需进一步研究。 数据挖掘技术【1 2 。1 4 1 。数据挖掘技术是一种通用的知识发现技术,其目的是要从 海量数据中提取对用户有用的数据,将该项技术用于入侵检测的研究,总体上来说还处 于理论探讨阶段,与实际应用还有相当距离,值得进一步研究。 人工免疫技术【司。将人工免疫技术运用到入侵检测当中,是受到生物免疫系 统与计算机安全保护系统之间相似性的提示。免疫系统能够保护生命不受病毒侵害,这 与安全系统保护计算机不受外界入侵的作用是相似的。基于生物免疫系统的入侵检测模 型,其关键问题在于如何构造稳定的、能够充分反映个体之间差异的特征属性以用来描 述自我,使系统具备识别“自我”和“非我”的能力,因此在系统的训练阶段建立反映 用户正常行为的知识库,是免疫系统的关键所在1 1 9 】。利用人工免疫系统具备的模式识 别和优化计算的能力来识别正常行为和入侵行为,在系统可扩展性和可移植性方面具有 先天的优势,检测效率高,可维护性好,因此人工免疫在入侵检测中具有很大的应用潜 力和广阔的前景。 i d s 的标准化 2 0 j 。不同i d s 之间的数据融合,以及i d s 与其他安全产品之间的 4 广西大学硕士学位论文 基于聚类的网络入侵检测方法研究 互操作依赖于i d s 的标准化。除了c i d f ( c o m m o n i n l r u s i o n d e t e c t i o n f r a m e w o r k ) 外,i d s 标准化的另一个主要组织是i e t f 的i d w g ( i n t r u s i o nd e t e c t i o nw o r kg r o u p ) 。i d w g 制 定了入侵检测消息交换格式( i d m e f ) 和入侵检测交换协议( i d x p ) ,旨在解决i d s 之间、 i d s 与其他安全系统的数据交换问题。标准化是未来i d s 发展的必然趋势。 从i d s 向i p s ( 入侵防御系统) 2 1 , 2 2 方向发展。国外从2 0 0 3 年中开始陆续推出 了i p s 产品,而把i d s 功能作为i p s 运行时可选的一种模式,i p s 是对i d s 的包容和覆 盖,同时具备了像防火墙一样的保护能力。i p s 可以有效地解决与防火墙联动时延的问 题,以减少联动产生的副作用。 1 1 2 2 基于聚类的入侵检测技术的研究进展 把数据挖掘技术应用到入侵检测系统的思想是针对安全信息数据量日益增加的问 题而提出的。作为一种混合了误用检测技术和异常检测技术的检测方法,基于数据挖掘 的入侵检测方法是人们研究的热点之一。以数据为中心,把入侵检测看作一个数据分析 的过程,利用数据挖掘的方法从审计数据或数据流提取感兴趣的知识,这些知识是隐含 的、事先未知的潜在的有用的信息,提取的知识表示为概念、规则、规律、模式等形式, 并用这些知识去检测异常和已知的入侵。数据挖掘从存储的大量数据中识别出有效的、 新的、具有潜在用途以及最终可以理解的知识。数据挖掘算法多种多样,来自统计、模 式识别、机器学习和数据库等多个领域。在入侵检测中应用数据挖掘中分类、关联、序 列、聚类等分析方法已经得到验证,数据挖掘的方法有效地提高了入侵检测的精确度。 聚类分析是数据挖掘的一种重要技术。聚类( c l u s t e r i n g ) 就是将一个数据单位的集 合( 数据源) 分割成几个称为簇( c l u s t e r ) 或类的子集,每个簇中的数据都有相似性, 它的划分依据就是“物以类聚”。聚类分析是根据事物本身的特性研究对被聚类的对象 进行划分的方法。聚类分析依据的原则是使同一簇中的对象具有尽可能大的相似性,而 不同簇中的对象具有尽可能大的差异性,聚类分析主要解决的问题就是如何在没有先验 知识的前提下,实现满足这种要求的簇的聚合。 基于聚类的入侵检测方法的最重要的特点就是无监督性,它可以在未标记的审计数 据上进行,将相似的数据划分到同一个簇,不相似的数据划分到不同的簇,这方面它比 有监督的检测方法优越。 基于聚类的入侵检测方法是现阶段入侵检测的主要研究方法之一。2 0 0 1 年,p o r t n o y 广西大学硕士学位论文 基于聚类的网络入侵检涓方法研究 提出了一种基于距离度量的无监督聚类算法田l 来解决无监督条件下的异常检测问题,该 方法设置一个簇半径参数,通过比较样本到簇心距离和簇半径的大小来划分样本。这一 算法具有较好的时间复杂性( 接近线性) ,能够在未标记数据上检测出已知或者未知的 异常,但是它必须预先定义聚类的半径。簇半径参数直接影响到最终的聚类结果,不合 适的参数会造成高的误报率。p 崩孤把优化的k - n n 聚类算法应用到网络入侵检测 2 4 1 , 但其中的k 参数也很难确定。m i n n e s o t a 大学的i 肥a r e 、,i c 等人提出了使用孤立点分析来 检测入侵的方法瞄】,该方法通过检查样本点的点间距离来决定哪些点属于孤立点。其后 不断有专家学者对聚类算法进行改进,文献【2 6 】提出了一种用于入侵检测的聚类启发式 y - m e a n s 算法,这种启发式的算法是基于k o m e a n s 算法和其他相关联的算法的,它克服 了k - m e a n s 算法的两个缺点:聚类个数的依赖性和退化。该算法可以使数据集被划分为 合适的聚类个数,并且可以直接用作训练数据而不需要手动标记。但是像其他的中心聚 类算法一样,它只能处理球形聚类,另外还要预先定义置信区域的阈值。w a n g 等人提 出f c c 算法 2 7 1 来解决上述问题。f c c 算法首先将特征数据映射到高维空间,进而进行 相应操作。e l i z a b e t h 提出了一个基于无监督的小生境聚类算法阅,该算法可以有效地消 除噪声影响并自动确定聚类个数。文献【2 9 】提出一种应用于入侵检测的改进的有监督的 聚类方法,加入了数据重新分配方法,有效增强了算法在训练数据和去除噪音方面的鲁 棒性。清华大学、西安电子科技大学、华中科技大学、武汉大学和重庆大学等国内的学 者也在关注这个领域的研究【3 0 - 3 4 1 。文献【3 3 】通过规范化数据集和建立数据的模糊相似矩 阵,把数据进行聚类,提出了一种应用于入侵检测的模糊聚类方法。文献【3 4 】提出了一 种新的距离定义和基于聚类的有监督入侵检测方法c b s i d ,该方法在带标记的训练集上 进行聚类,以聚类结果作为分类模型对未知数据进行分类,此方法对于参数和数据输入 顺序具有稳健性。 1 2 课题研究的目的和意义 当前的入侵检测系统在检测性能、自适应性、灵活性等多方面远远不能满足实际应 用的需要。现有的系统大多还是实验室环境下的原型系统,具有较高的误报率和漏报率 以及不能适应大规模网络通信要求。 传统的基于数据挖掘的入侵检测模型完全依赖于数据挖掘算法对已标记数据集中 数据样本的学习。数据样本的标记正确性和纯净性,对于建立一个有效的入侵检测系统 6 广西大学硕士学位论文 基于聚类的网络入侵检测方法研究 至关重要。但是在实际应用中,系统地学习收集纯净的数据集往往不太容易,而且代价 较高。如果数据集的数据类型不纯净、不够充足或不具代表性,则会造成入侵检测模型 的检测效率低下。以聚类为代表的无监督异常检测方法的提出解决了传统方法存在的问 题,因此基于聚类的网络入侵检测技术成为近几年兴起的智能入侵检测研究方向。 聚类方法可以在一定程度上解决当前的入侵检测系统在检测新型攻击、检测率、误 报率等方面存在的不足,并且针对聚类算法对初始化敏感和容易陷入局部极值点的问 题,引入人工免疫系统的抗体克隆机制与聚类方法相融合,可以优化无监督聚类。 1 3 主要内容及章节安排 全文的安排如下: 第一章:绪论。主要介绍论文研究的背景,包括入侵检测技术的研究现状以及发展 趋势,基于聚类的入侵检测技术的研究进展,以及论文研究的目的和意义。 第二章:基于聚类的入侵检测。对本课题涉及的相关领域进行介绍,主要包括入侵 检测技术基础、聚类的基本概念、算法以及聚类分析在入侵检测中的应用。 第三章;基于划分和凝聚层次聚类的无监督异常检测算法。采用信息熵度量分类属 性的距离,给出度量混合属性数据的距离的定义。使用划分聚类算法将数据划分到类中, 再根据簇间的差异度,按照一定的准则通过凝聚层次聚类的方法进行合并,合并后清除 噪音簇以提高检测效率,再根据标记算法标记出聚类结果中哪些属于正常簇,哪些属于 异常簇,并用检测算法对测试集数据进行检测,最后给出了算法参数选取的方法。 第四章:入侵检测中基于克隆选择的聚类算法。首先介绍人工免疫原理与克隆选择 算法,然后介绍本文提出的入侵检测中基于克隆选择的聚类算法。通过比较数据到簇心 距离和簇半径的大小来划分数据得到初始聚类,并给出簇半径阈值的计算方法;改进数 据差异度度量,定义适合混合数据聚类的目标函数;通过引入人工免疫克隆选择算法实 现对聚类的优化,清除空簇,标记正常和异常簇,并在此基础上提出一个可增量更新的 聚类模型。 第五章:总结。总结本文研究工作的主要贡献以及给出下一步工作的设想。 7 广西大学硕士学位论文基于聚类的网络入侵检测方法研究 第二章基于聚类的入侵检测 作为本文的研究基础,本章对相关领域的知识进行介绍,主要包括入侵检测技术基 础、聚类技术、以及聚类在入侵检测中的应用。 2 1 入侵检测技术基础 2 1 1 入侵检测的基本概念 入侵检测( i n t r u s i o nd c c t i o n ) 是指通过从计算机网络或系统中的若干关键点收集信 息并对其进行分析,从中发现网络或系统中是否有违反安全策略行为和遭到入侵迹象的 一种安全技术。入侵检测系统( i n t r u s i o nd e t e c t i o ns y s t e m ) 贝l j 是为了完成入侵检测任务的 一个计算机系统( 可以由软件或硬件构成) 。入侵检测是对传统防御技术如防火墙的合理 补充,是防火墙之后的第二道防御体系,它在不影响网络性能的情况下对网络进行监测, 从而提供对内部攻击、外部攻击和误操作的实时保护。它以探测与控制为技术本质,起 着主动防御的作用,是网络安全不可缺少的组成部分。下面是入侵检测的一些概念: ( 1 ) 入侵( i n t r u s i o n ) :任何企图威胁信息资源完整性、机密性和可用性的行为。 ( 2 ) 警报( 舢僦) :当入侵正在发生或者正在尝试进行时,i d s 向系统操作员发出的 消息。 ( 3 ) 漏报( f a l s e n e g a t i v e s ) :指入侵事件没有被i d s 系统检测到或者检测到的入侵事 件未被分析员重视。 ( 4 ) 误报( f a l s ep o s i t i v e s ) :i d s 将正常事件识别为入侵事件并进行报警。 漏报和误报是i d s 研究的一个重要内容,降低漏报率和误报率对提高i d s 安全性和 准确度有着重要的作用。 入侵检测基于一个重要的前提是;入侵行为和合法行为是可以区分的,也就是说可 以通过提取行为模式的特征来判断该行为的性质,为发现入侵攻击和合法用户滥用特权 提供了方法。一个基本的入侵检测系统需要解决两个问题:一是如何充分并且可靠地提 取描述行为特征的数据;二是如何根据特征数据,高效并准确地判断行为的性质。 2 1 2 入侵检测系统的主要功能和主要特征 入侵检测系统的主要功能有: ( 1 ) 监测并分析用户和系统的活动。 ( 2 ) 核查系统配置和漏洞。 ( 3 ) 评估系统关键资源和数据文件的完整性。 广西大学硕士学位论文基于聚类的网络入侵检测方法研究 ( 4 ) 识别已知的攻击行为。 ( 5 ) 统计分析异常行为。 ( 6 ) 操作系统日志管理,识别违反安全策略的用户活动。 一个理想的入侵检测系统一般有以下几个主要特征: ( 1 ) 可在最小的人工干预下连续运行。 ( 2 ) 具有容错功能。入侵检测系统必须能从意外事件或恶意攻击活动导致的系统崩 溃中恢复,系统崩溃后,入侵检测系统必须能恢复到以前的状态,并且不受影响地重新 提供服务。 ( 3 ) 有很强的抗攻击能力。对一个攻击者来说,破坏或使一个入侵检测系统失效是 非常困难的,入侵检测系统应能监视它自身并能检测出是否被攻击者修改。 ( 4 ) 运行开销小,以免影响系统的正常操作运行。 ( 5 ) 可配置性,可通过配置来实现被监测系统的安全政策。 ( 6 ) 易于使用,可在不同的计算机体系结构和操作系统上执行,对操作者来说易于 理解和使用。 ( 7 ) 可适应系统或用户的变化,例如新的应用程序的安装或新的可利用的资源都可 以导致系统使用模式的改变。 ( 8 ) 能检测出攻击。入侵检测系统不能将合法的活动误认为是攻击,不应遗漏任何 真正的攻击,对攻击者来说,隐藏自己的攻击活动而不被检测出来是非常困难的。它应 尽可能迅速及时报告入侵活动,能检测不同类型的攻击活动。 2 1 3 入侵检测系统的组成 典型的i d s 包括四个基本部分:探测器、模式信息数据库、分析与响应器、用户界 面( 控制台) : ( 1 ) 探测器:分布在若干个计算机系统或网络设备上,负责按照一定的要求收集 用户、服务、系统或网络数据流信息,并把它们组织成适当的审计数据发送到分析器进 行处理。 ( 2 ) 模式信息数据库:负责存储并维护分析器所需的各种标准信息,如正常的对 象模型或者攻击者的特征编码等。 ( 3 ) 分析与响应器:又可称为检测引擎。以模式信息数据库中的信息为基准,对 从一个或多个探测器发过来的审计数据进行分析比较来确定是否发生了非法入侵行为, 输出的是标识入侵行为是否发生的指示信号,例如一个报警信息和其他相关的证据信 息,或者还可以提供关于可能的反应措施的相关信息。 ( 4 ) 用户界面;用户与入侵检测系统进行交互的界面,可以通过它对系统进行配 置,控制系统行为,查看系统报告或者报警消息。 除了以上4 个必要组件之外,某些i d s 可能还包括一个所谓的“蜜罐”( h o n e y p o t ) 9 广西大学硕士学位论文 基于聚类的网络入侵检测方法研究 诱饵机。该诱饵机被设计和配置成为具有明显的系统安全漏洞,并对攻击者明显可见。 诱饵机能够作为i d s 中一个专门的提供给供给者进行入侵的探测器来使用,从而提供关 于某次攻击行为发生过程的相关信息。 2 1 4 入侵检测系统的分类 图2 - 1 入侵检测系统 f i g u r e2 - 1i r d n b i o nd e t e c t i o ns y s t e m 原始数据流 根据数据源的不同,可以将入侵检测系统分为3 类阅; ( 1 ) 基于主机的入侵检测系统( m d s ) 基于主机的入侵检测系统将检测模块驻留在被保护系统上,通过提取被保护系统的 运行数据并进行入侵分析来实现入侵检测功能。 基于主机的入侵检测系统可以有若干种实现方法: 检测系统设置以发现不正当的系统设置和系统设置的不正当更改,例如c o p s ( c o m p u t e ro r a c l ea n dp a s s w o r ds y s t e m ) 系统。 对系统安全状态进行定期检查以发现不正常的安全状态,例如t r i p w i r e 系统。 通过替换服务器程序,在服务器程序与远程用户之间增加一个中间层,在该中 间层中实现跟踪和记录远程用户的请求和操作,例如t c p w r a p p e r o 。 基于主机日志的安全审计通过分析主机日志来发现入侵行为。基于主机的入侵检测 系统具有检测效率高、分析代价小、分析速度快的特点,能够迅速并准确定位入侵者, 并可结合操作系统和应用程序的行为特征对入侵进行详细分析。而基于主机的入侵检测 系统存在的问题是: 它在一定程度上依赖于系统的可靠性,要求系统本身应该具备基本的安全功能 并具有合理的设置,然后才能提取入侵信息。 即使进行了正确的设置,对操作系统熟悉的攻击者仍然有可能在入侵行为完成 后及时地将系统日志抹去,从而不被发觉。 主机的日志能够提供的信息有限,有的入侵手段和途径不会在日志中有所反 1 0 广西大学硕士学位论文 基于聚类的网络入侵检测方法研究 映,日志系统对有的入侵行为不能做出正确的响应,例如利用网络协议栈的漏洞进行的 攻击,通过p i n g 命令发送大数据包,造成系统协议栈溢出而死机,或是利用a r p 欺骗 来伪装成其他主机进行通信,这些手段都不会被高层的日志记录下来。 在数据提取的实时性、充分性、可靠性方面,基于主机日志的入侵检测系统不 如基于网络的入侵检测系统。 ( 2 ) 基于网络的入侵检测系统f n i d s ) 在计算机网络系统中,局域网普遍采用的是基于广播机制的以太网( e t h e r n e t ) 协议。 该协议保证传输的数据包能被同一局域网内的所有主机接收。基于网络的入侵检测就是 利用以太网这一特性。以太网卡通常有正常模式( n o r m a lm o d e ) 和杂收模式 ( p r o m i s c u o u sm o d e ) 两种工作模式。在正常模式下,网卡每接收到一个到达的数据包, 就会检查该数据包的目的地址,如果是本机地址或广播地址,则将数据包放入接收缓冲 区;若是其它目的地址的数据,则直接丢弃。因此,在正常模式下,主机仅处理以本机 为目标的数据包。在杂收模式下,网卡可以接收本网段内传输的所有数据包,无论这些 数据包的目的地址是否为本机。基于网络的入侵检测系统必须利用网卡的杂收模式,以 获得经过本网段的所有数据信息,从而实现获取网络数据的功能。另外,因为不同操作 系统的数据链路访问不一样,所以根据不同的操作系统提供不同的数据链路访问的接 口,来获取网络数据包。 网络监视器( s n i f f e r ) 是攻击者常用的收集信息的工具,也被认为是收集网络事件 信息的有效方式。s n i f f e r 的一般工作过程为:打开文件描述字( 打开网络接口、专用 设备或网络套接字,得到一个文件描述字,以后所有的控制和读、写都针对该文件描述 字) ;设置杂收模式( 把以太网网卡设置为p r o m i s c u o u sm o d e ,使之接收所有流经网 络的数据包) ;设置缓冲区、取样时间、抓取数据包的长度等,缓冲区用来存放从内 核缓冲区拷贝过来的数据包,设置它的大小;取样时间的意思是如果内核缓冲区有数据 待读,但没有满,系统等待多长时间才向用户进程发送“就绪”通知,并由用户进程把数 据从内核缓冲区拷贝到用户缓冲区,这样可能造成过于频繁的通知和拷贝,增加系统处 理能力的附加负担,降低效率;抓取长度定义从内核拷贝空间到用户空间的最大网络包 长,超过该长度的包被截断,其目的在于提高处理效率;设置过滤器,过滤器使得内 核只获取我们感兴趣的数据包,而不是所有流经网络的数据包;从文件描述字中读取 数据;过滤、分析、解释、输出,如果内核没有提供过滤功能,就只能把所有网络包 从内核空间拷贝到用户空间,然后由用户进程来分析、过滤,主要是分析以太数据包头 和t c p i p 包头中的信息( 如数据长度、源i p 地址、目的口地址、协议类型、源
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 昆山杜克大学《生理学C》2023-2024学年第二学期期末试卷
- 2025授权借款合同样本
- 重庆工商职业学院《电路设计及综合实训》2023-2024学年第二学期期末试卷
- 吉安职业技术学院《医学遗传学检验》2023-2024学年第二学期期末试卷
- 2025签订租赁合同的注意事项
- 2025至2031年中国子弹项链行业投资前景及策略咨询研究报告
- 2025至2031年中国压滤脱水机行业投资前景及策略咨询研究报告
- 车行道积水施工方案
- 2025至2030年中国集装箱封口栓数据监测研究报告
- 2025至2030年中国轮辗搅拌混料机数据监测研究报告
- 2024年医院依法执业培训课件
- 公司收款委托书模板
- 宏观经济学全套课件(完整)
- 17 他们那时候多有趣啊 教学设计-2023-2024学年语文六年级下册统编版
- 2024年CCAA注册审核员《产品认证基础》(真题卷)
- 2024年高考英语训练动词(谓语、非谓语)单句语法填空50题
- 七年级下册数学平行线中拐点问题
- 2024年杭州市高三二模英语试卷及答案
- 走进歌剧世界智慧树知到期末考试答案2024年
- 20G520-1-2钢吊车梁(6m-9m)2020年合订本
- 介入手术需要的设备
评论
0/150
提交评论