




已阅读5页,还剩59页未读, 继续免费阅读
(计算机应用技术专业论文)数据挖掘在主机检测中的应用研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 网络安全已经成为互联网应用的一个值得关注的河题。随着人们对于安全 问题的关注,越来越多的方法应用到网络安全中去,其中入侵捡测技术也以成 为其中的一个耋要组成部分。但是,传统的入往检测系统是 圭 专家手动输入蕊 ! 1 1 | j 和模式的,面对当今网络新的攻击手段不断出现,这种方法越来越不能满足 实际应用的需求。 将数舔挖箍技术与入侵硷溅技术耱结合,2 够使褥入侵裣溅系统具有鑫学 习的功能,增加入侵检测系统对海量数据的处理能力,得到数据中潜在的规则, 增强入侵检测系统的检测功能,减轻管遵人员的负掇。 本文在对计算税蟊志帮计信意静分析的基破上,整点研究了与数据挖掇技 术融合的基于主机的入侵检测方法,并且将数据挖搠技术中序列分析算法应用 予整于主机的入侵检测中,提出了入 曼检潮豹规则和模式以及控制数摆结果精 度的方法。 最后,本文对数据挖掘在入侵检测中的成用做了总结,并且提出了在寅际应用中发展 的趋势和需要注意的问题。 关键诵入侵检测;鼗攥挖掘;匿志系统;序列分誊斥 北京工业大学工学硕士学位论文 a b s t r a c t n e t w o r k s e c u r i t yh a s b e e naa t t e n t i v ep r o b l e mi nt h e a p p l i c a t i o no f i n t e m e t w i t h t h ei n c r e a s eo ff o u c u sp e o p l ep a yo no ft h es e c u r i t y ,m o r ea n dm o r em e t h o d sh a v e b e e nu s e di nt h en e t w o r ks e c u r i t yi n c l u d ei n t r u s i o nd e t e c tt e c h n o l o g yw h i c hh a s b e e no n eo fav e yi m p o r t a n tc o n s t i t u t ei ni t b u ti nt h et r a d i t i o n a li l t n 塔i o nd e t e c t s y s t e m ,a l lt h e r u l e sa r ea l li n p u t t e db y e x p e r t so n eb yo n e b u t ,w h e n w ea r ef a c i n g t h ef a c tt h a tm o r ea n dm o r ei n s t r u s i o nm e a n sa l eo c c u r r i n gc o n t i n u o u s l y ,t h i sk i n do f o r i g i n a lm e t h o d c a nn o tm a k e u p t h en e e d o f p r a c t i c ee v i d e n t l y c o m b i n i n gd a t am i n i n ga n di d sc a l l m a k et h ei d sp o s s e s s e st h ea b i l i t yo f s e l f - s t u d y , i n c r e a s et h e d e a l c a p a b i l i t y o fh u g ed a t a ,o b t a i nt h e l a t e n c yr u l e s c o n c e a l i n gi nt h ed a t a ,r e d u c et h e b u r d e no f t h em a n a g e r i nt h i sp a p e r ,b a s e do nt h ea n a l y s eo f c o m p u t e rl o ga n da t t d i ti n f o r m a t i o n ,t h e r e s e a r c hf o c u si st h eh o s t _ b a s e di d sw h i c hi ss y n c r e t i z e dw i t hd a t a m i n gt e c h n o l o g y a l s o ,h o w t oa p p l yt h es e q u e n c ea r i t h m e t i ct ot h eh o s t _ b a s e di d si sd i c u s s e dt h e i d sr u l e sa n dm o d e l sa n dt h em e a s u r eo fc o n t r o lr e s u l t sp r e c i s i o na r eb r o u g h t o u t a t l a s t ,i nt h i sp u p e r ,t h ea p p l y o f d a t a m i n i n gi nh o s t b a s e di d s i ss u m m a r i z e d , a n dt h eq u e s t i o n si nt h ep r a c t i c ea p p l ya n dd e v e l o p m e n ti sa d v a n c e d k e y w o r di n t r u s i o nd e t e c t ;d a t am i n i n g ;l o gs y s t e m ;s e q u e n c ea n a l y z e n 独创性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作以及取得的 科研成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含 其他人已经发表或撰写的研究成果,也不包含为获得北京工业大学或其它教学 机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所所作的任 何贡献均己在论文中作了明确的说明并表示了谢意。 虢弛隰哩塑 关于论文使用授权的说明 本人完全了解北京工业大学有关保留、使用学位论文的规定,即;学校有 权保留送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部 或部分内容,可以采用影印、缩影或其他复制手段保存论文。 ( 保密的论文在解密后应遵循此规定) 签名导师日期:训,7 第l 章绪论 第1 章绪论 1 1 课题研究的目的和意义 计算机和网络的出现是人类发震史中其有跨时代意义的科学成果,计算机大 大扩展了人类的思维和运算能力,而网络则为知识的传播和挟事提供了方便而又 高效豹手段。计簿机和阐络本身就是国民经济的发展的一个关键领域,同时作为 信息化的工具,又极大的促进了其他领域的发怒。搬伴计算机和网络技术的发展, 出现了诸如计算机病毒防范,数据的灾难恢复,网络入侵阻挡等涉及计算机、网 络安全的科学技术,特剐是钟对网络攻击的各种防范技术,成为计算机科学研究 的热点和罐点,具裔深远的理论和现实意义。 关于网络安全的研究,开始阶段主要集中农数据信息加密,防火墙,安全审 计镎技术上,这类相关技术可以姻结为静森安全技术。在对付多变的,复杂酌入 侵技术时往往力不从心。因此,现阶段研究重点逐渐转向能主动监控,跟踪,记 录非安全行为的动态安全技术上,包括入侵检测,陷阱系统,电子取证等等。 入侵检测是一种熏要的刚络安全技术。所谓入侵检测是搬道过监视主帆的系 统日志和网络数据包来发现非法用户来经授权使用系统以及合法用户滥用权力 访问系统的企图或行为。随麓网络应用范围的不断扩大,系统漏洞的不断发现, 黑骞攻击技术的不断提岗,如何设计一个能快逸检测入侵行为的入侵检测系统成 为保障网络安全的熬本凝求。同时作为网络安全的基础技术,入侵检测也是橡成 系统防火墒,访问控制,陷阱取诚等其他安全技术的重凄组成部分,是当今嘲络 安全中餐受关注的技术。 随港网络应用范围的不断扩大,入侵手段的不断发展,攻击的危险性越来越 大,传统的入侵检测利用模式匹配和异常检测米发现入侵行为已不能很好的保障 系统的安全性,主要原因在于; 1 现有的入侵行为知识摩和规则摩主骧寒自于经验的刿叛,这秽经骏积 累的过襁明鼹滞质于网络技术的发展。 2 现鸯款入侵检测针对殴知入侵行炎,对未知匏行为完全没蠢判叛鞠抵 挡,没有学习和爨适艇力。 北京工业大学工学硕士学位论文 3 现有的入侵检测系统往往是专门为某个网络或主橇环境设计,报难在 萁毯环凌中维广,嚣拜寸纛狠难在臻鸯系统中对箕邋行扩矮。 为了克服现有入侵检测系统的局限性和不足,需要将人工锣能学科的数据挖 掘技术领域的知识引入到系统设计中来。数据挖掘技术通过对大量的数据邀行分 褥,我窭豫藏在萁中熬菠鞠瑟瑟镎,潋发现泰熟鳃菊识。将数据挖掘技本森鼹蜀 入侵检测系统中,可以提高入侵检测系统的智能性,自适应性和可扩展性,提高 入侵检测系统的质量。 数撵挖掘,又称数摆疼中静辩设发臻,它慧撩瓿大型数攒纛或数据仓黪中提 取隐含的、未知的、舜常的及有潜猩应用价值的信息或模式。它融合了数据库、 人工智能、机器学习、统计学等多个领域的理论和技术,是数据库研究中的一个 狠有应搿价值的耨领域。 本文涉及的研究将数据挖掘技术和入侵检测技术相结合,可从审计数据中发 掘系统滔幼的有用模式,擐导训练数据的收集和特征的选择,建立疆动分类机制, 是现除段入侵检测技术髂着重醑究帮探索豹一张方法。 1 2 阁内外研究和应用的现状 入橙徐溺系统诞生于上个整纪8 0 年代。1 9 8 0 年,a n d e r s o n 在掇告诗冀祝 安全威胁的检查,该文被认为是脊关入侵检测的最早论述。d e n n i n g 在1 9 8 6 年 发表了薯名的论文“入侵检测模型( a n i n t r u s i n d e t e c t i o n m o d e l ) ”,是入侵检测 镶蠛翡开由之 乍。溺对d e n n i n g 帮p e t e rn e u m a n n 两垃辩学家研究燕交了一耱 i d e s 原裂系统,它使用统计学模式的数据结构来描述系统用户的行为,设计系 统目标的方法,奠定了入侵检测的瓣础理论,从她,入侵检测作为网络安全的重 要学秘在毽界各国遂行了深入熬臻窥。瑗输段,鬻际主常瘸瓣入侵检测技拳主要 分基于主机和基于网络两种,主要鼹通过对相关系统的审计文件进行统计分析, 以确定攻赘发生的可髓性。在理论研究的同时,墩开发了许多突用的产品,获得 缀好豹应瘸效粟j 。 把数据挖掘技术威用于入侵检测系统由美翻哥伦比亚大学科学家w e n k el e e 提出,羔兰要是将数据挖握鲍槿关方法应曩予检测模型跌提离模裂缒学习能力j 硅皇 适应性。在该小组送行的试验中,主要对拒绝服务攻击、远校攻击、霜户税限非 法提升以及扫描四种常见的攻击进行数据采集,分别从网络和主机两方面对审计 第1 苹鳝论 数据遂褥数据挖掘实验,发嚣采爝数据挖黧对窜计数据邂行处鬻活的入侵检测系 统,在检灞率萃蟊溪辙率方面要饶予箕德系统。霾耨该谍题逐照予理论研究除段, 尚没有相关产晶面畿。阖外勇一个诧较有影确的小组是新墨西爵大学的s t e p h a n i e f o r r e s t 矮露酌小组遂行翡针对主祝窜计数据酶研究,其愚想迳利用生物掌中免疫 功能缱系统其有区分“舀我罔# 裔我”鲍撩力,逡敬得了狠好豹成果1 7 8 ,9 ,1 7 , l 蛳。 在闺内,这方面的研究溺剐开展,中科院搿能物理研究所计算中心许樯生研 究员锁簿的课戆组对这方雨的谦题逡行过掰究,爨描了蒸予数攒挖掘的入侵稔测 系统溅型,对萁遗行了分析和论诞。强辫,清华大学,滔j e 工越大学,武汉大学 等高梭和研究梳构也对貌课颥有过涉及。国此可觅,这方面的研究在国内还满于 趋步阶段,还没有完整丽系统的疆论帮实丽的产黼。 本谍趣通道研究数据挖掘豹籀关理论并将箕运用到入侵检测系统的设计中, 选择合理的挖掘算法,设计相关的系统原塑,不彼具有理论前潞性,而且还其有 较高的实溺意义。 1 + 3 课题研究的主要内容以及论文的安排 穰褥谦题实际需要鞫本入实魏环节的实际工作,研究鲞点为:入侵检测系统 静穰墅分耩,数据擒擒方法在入侵检溯系统应用,籀应算法的敬迸,系统原黧的 设计和实现。 其体瀚内容有分析现有的入稷裣灏系统,分孝行其各个模块的组成部分稀捅互 关系,总结各种方法的优点和不怒;研究数据挖獭的基本方法,提出数攒挖掘在 入侵检测中的运用:提出适合入侵检测系统数据挖掘的算法,对其进行分析改进; 设计基于数决挖掘的入侵检测原溅横塑并对其进行初步实现。 论文的安排大致如下: 第一誊;绪论:主要介缁本课题的背景、目的和意义,相关研究成果介绍以 及谋题研究的鏊本情况。 第二章:入侵检测与数据挖搠:主要介绍阿络安全基本知识,入侵检浏系统 的基本构成和工作原理,数据挖獭的基本原理和方法,并重点阐述如何将数据挖 攒的方法成用于入侵检测系统。 第三章:针对入侵梭测系统的实际情况,选用合适的数据挖掘算法,对所用 算法做出评价和改进,并结合算法的实际情况,对数据挖掘在入侵检测系统中工 3 北京工监大学工学硕士学位论文 作的机制和过程进彳亍分析和设计。 第疆零:基予数据挖掘翡入搜撩渊系统嚣垄霸实现:论述熬个系统设计方法, 分析本系统的可行性和可用性,对主要模块的实现给出具体实现的算法。 结论:总结本课题的研究情况,并对下一步研究提出了设想。 垂 第2 鼗 侵检测与数瓣挖掘 第2 章入侵检测与数据挖掘 2 1 网络安全 信愆安全可戳鼠理论窝工翟两个角度考虑,理论角度毽插计算的理论基磕, 从这个艇础出发来考虑安全问题,往往通过建造被证明是正确的安全模型,并用 数学方法描述其安全属性。工程麓度更加注重实际、工程酶方蘑,更关心保护操 乍系统,网络设备的安全性。两年中方法都有箕合理性,需癸综合运熏。 网络安全涵盖的内容非常丰富,主要包括一下内容: 1 保密性:防止系统内信息的非法泄瀑 2 完整性;防止系统内软件( 程序) 与数据被菲法涮敬和破坏。 3 有效性:要求信息和系统资源可以持续有效,授权用户可以随时随地以 弛喜欢蛉格式存取文件。 出此可见,网络安全涉及网络的方方面萄,是一个系统的知识结构。同时, 网络安全的复杂性述在于网络发展本身的复杂性,目前可以说绝对安全的系统是 不可能宠成斡,这是因梵出于网络技本在时同葶珏空间上的延l 枣使鼙前的网络发展 成为一个非常复杂的环境,几乎不可能设计出一个非常安全的系统。因此,这就 造成了目前网络上旧的安全技术和新的安全技术同时存在的现象。针对原有的安 全模型的缺陷,有些学者提出计爨援售息系统安全鲍管理摸穗痤该包括瓣个部 分,如图2l 所示。 鹜2 1 安全系统镣理模垒 f i g u r e 2 1m o d e lo fs e c u r i t ys y s t e mm a n a g e r 5 j 亲王业大学置掌霹= b 掌蝗论文 嶷该模型中,安全防獭模块爆予耱范步 部窝悫部玫壹蒡甄破坏,捡测模块鬟予 发现各种违反系统安全策略的入侵行为。调查模块将检测模块获樗的数据加以分 析,并确认当前所教生的有关入侵企豳。事盾分析模块分析用来如何抵捎类似的 入侵行力。鼹寒懿磷突主蒙集中在茨繇模块孛,建蓉系统魏弱篷浮彳砉以及天侵捡 测工作的深入,检测模块成为研究的重点。而其他模块的工作有待于进步发展。 目前网络安全方面的各种技术大致分为两种类型,其一为静态型,基本属于 波动蕊茨攥方法,麓够霹已甄戆错误燕敷区澍茨范,毽是不具毒簸控懿功能,遥 常这样的网络安全系统是不完整的。棚燕技术包括c = l 令认证,安全审计,防火墙, 加密技术等。其二动态型,其主疆特点是:主动寻找入侵惰号,对网络系统提供 对岁 裙攻毒,痰嫠玻击器误操 乍瓣安全防护。嚣蔻麓态整鹣弼络安全鼓本逐澎或 为研究的热点,本论文所阐述的入侵检测就是一种动态型的网络安全拽术。以下 就入侵检测技术本身作下简单介绍。 2 2 入侵检测 2 。2 入 善裣澜系统 入侵检测技术擐的是收集计算极圭援或孵络中装千关键信患,利熙优化模式 匹配和统计举技术,从而发现系统或网络中怒否有造反安全策略的行为。入侵检 溺历时2 0 多年的发展,可分为安垒审计和入侵检灞系统( i d s ) 讴个阶段。 安全事诗定义为系统发生事l 譬懿记录襄分撰处溪过程。其主要功能是:记录 系统被访问的过程及系统保护机制的运行,发现试图绕过保护机制的行为;及时 发现糟户身份的改变;并为灾难恢复摄供信息。安全审计怒完全被动的安全技术, 延是该技术瓣发震为i d s 艇提酸教出了援极懿攘索。 与安全审计相比,入侵检测系统具有更多的主幼性。它运用统计学的知识以 及人工智能的方法,来嘉0 萄描述系统用户的行为,判断用户行为是否合法并对不 合法雩亍为遂行于羰帮疆史。 关于入侵检测,首先臻介缁几个墩基本的概念【1 1 ,1 2 1 : 入侵;入侵可视为试图破坏信息系统的完整性,机密性或i 丁信性的任何活动 静集合。霉爱豹入侵抒为鑫捂:闯入攻毒,鬏霉攻爨,入侵安全控番l 系绫,瀵箨, 拒绝服务,恶意使用等等,入侵检测悬检测入侵活动并采取对抗措施。 辩常检测与误用检测:根搦检测的方法不同,可分为异常检测和误用检测。 第2 章入侵检测与数据挖掘 异常检测是指根据使用者的行为或资源使用的情况的正常程度来判断是否入侵, 而不依赖于具体行为是否出现来检测,这种检测又称为基于行为的检测。误用检 测是指运用已知的攻击方法,根据已定义好的入侵模式,通过判断这些入侵行为 是否出现来检测是否有入侵行为发生,这种检测又称基于知识的检测。 基于主机的入侵检测系统和基于网络的入侵检测:入侵检测可以分为基于主 机和基于网络两种。基于主机的i d s 也称基于系统的i d s ,它通过分析系统的审 计数据来发现可疑的活动,如内存和文件的变化等。其信息来源主要是系统的审 计目志,一般只能检测该主机上发生的入侵行为。这也是最早出现的i d s 。基于 网络的i d s 通过连接在网络上的站点捕获网上的包,并分析其是否具有已知的攻 击模式,以此来判别是否有入侵行为发生,当发现某些可疑的现象时会产生相应 的动作。 在对入侵检测进行研究的同时,科学家还提出了入侵检测模型的概念,将入 侵检测系统按照功能进行模块化,并逐个进行分析研究,这样大大促进了入侵检 测技术的科学发展,并为其实用化奠定了良好的基础。以下结合入侵检测模型对 入侵检测进行深入探讨。 2 2 2 入侵检测模型 最早的入侵检测模型f l j d o r o t h yd e n n i n g 在1 9 8 6 年提出。这个模型与具体系 统和具体输入无关,对此后的大部分实用系统有很高的借鉴价值。该系统如下图 ( 图2 2 ) 所示1 4 , 5 , 6 1 : 图2 2 入侵检测系统模型 f i g u r e2 2m o d e l o f l d s 事件产生器可以根据应用环境不同而有所不同,一般情况下可以来自审计记 7 托窬王业大学工学硬士学位论文 i ii i i i 录、网络数据包和其氇可税行为,这些事件是检测的基襁。行为特鬣袭楚整个检 测系统的核心,它包含了计算用户行为特征的所有变量,这些变量可以根据具体 所采用的统计方法以及事件记漱中的具体动作模式而定义,并根据匹酉已上的记录 数据更瓤燮鬃值。如果统计交黛的擅达到了异常稷发,烈孝亍为特征表产生异常记 录,莠暴敬一定捂藏。毵鬻穰决可敬峦系统安全繁舔,入侵模式缝或。它一方瑟 为判断是磷入侵提供参考机制;另一方面,根据辫件记录、异常记录以殿有效日 期等控制并鼹新其他模块的状态。 2 2 。3 入侵检测系统的王作过程 根据入侵检测系统模型,通用鲍入侵检测系绕工作过程可醵篱述兔:数据收 集,入侵分析和响应处理三个过程 4 1 : 2 2 3 1 数据收集 入爱检测赘第一步是倍惑浚爨,建骞包瑟系绫,秘络,数据及臻户溪黎载获 态及其行为。数据源的选择依赖于所想要检测的内容。所收集酶信息袋求具有广 泛性,在计算机网络系统中收集若干不同关键点信息,尽可能地扩大检测范围。 另个要求是精确性,攻击卷往往利用各种手段对入侵行为进行掩盏,这就要求 入侵检测系绫姣锌本身应具煮攘当强夔坚强性,耱壹被篡改两收集至镶误豹结 怠。 在针对主机和网络的不同入侵检测系统中,选择收集处理的数据源有相当大 的区别。对于主机系统,审计信息和日志系统是主要需要收集的数搦。审计数据 是操作系绞经过期密处理后黝系统数据,两日志数据没有经过加密处理,对于用 户寒谖,爨麓易读,数据懿浚黛邈主要逶遗冬套遽整数据文俘这令途辍。弱络检 测则更加必心数据包,通常需鼹一些抓包的工具。 基于主机的数据源: 基于主机的数据源主要包括操作系统审计记泶,系统日志两种数据源,有些 ;凑瑷下逐惫摇基于特定癍瑶熬带诗薅惑帮特定毽搽熬对象售惠。 操作系统审计记录由包含筏操作系统软讳离酃鹣专门的审诗予系统产生。这 些审计记泶是用于反映系统涌动的信息集合,按照攀件顺序组织成一个或多个审 计文件,每个审计记录描述了一次单独的系统事件,当系统用户采取动作或调用 8 第2 章入侵检测与数据挖掘 进程时,审计系统就会产生相对应的审计记录。但是操作系统审计记录并不是为 入侵检测系统专门设计的,而且各种操作系统的审计记录千差万别,如何有效的 利用审计记录需要根据系统实际情况而展开。 系统日志是反映各种系统事件和设置的文件。由于系统日志作为应用程序驻 留在操作系统中,而且通常放置在未保护的目录中,所以安全性相比操作系统审 计记录要差一些。但是系统日志更具有直观性,专用程度更高,能从多个角度反 映同一个问题,是入侵检测重要的数据来源。 常见的其他主机数据源还包括数据库系统臼志,应用程序系统日志,系统目 录和文件的异常改变信息以及程序执行中的异常行为等等。 基于网络的数据源: 网络数据是目前商用入侵检测系统最为通用的信息来源。当网络数据在网段 中传播时候,利用数据提取技术,收集网络中传输的数据,作为入侵检测系统的 数据源。 获取网络数据主要依靠各种抓包工具,获取t c p i p 协议包括应用层,传输层, i p 层和网络接口层的数据包,对各层数据包进行解析。在获耿数据包的同时要最 大限度内不妨碍网络带宽和应用程序的开展,同时又要做到不丢包,防止对入侵 行为数据源的遗漏。 数据收集是整个入侵检测过程的基础,负责提取反映受保护系统运行状态的 运行数据,并完成数据的过滤和其他预处理工作,未入侵分析模块提供原始的安 全审计“事件”数掘,是入侵检测系统的数据采集器。如何选择正确的数据源, 如何进行合理并高效的预处理,是数据提取模块乃至整个入侵检测系统首先要解 决的问题。 2 2 3 2 入侵分析 入侵分析是整个入侵检测系统的核心问题,即审计数据的分析处理,包括对 原始数据的同步、整理、组织、分类以及各种类型的细致分析,提取其中包含的 系统活动特征或模式,用于对j f 常和异常行为的判断。 入侵分析模块的设计要求入侵责任的确定性,能确定引起特定系统行为或用 户行为的责任人。检测和响应的实时性,及时判断封锁入侵行为和保护受害系统。 能够提供关于系统性能和影响系统运行的因素等等。 l l 浆王韭大学工掌矮学经论文 整个入侵分析包括分析引擎的构建、数据分析执行和结果的反馈精练三个步 骤。 分析雩l 擎瓣枣建 收集生成“数据收集”阶段产生并缀过预处理的数据,将其进荦亍结构化( 存 入数据库或加上索孳;) 提取特笾国曼用予分橱。构建一个数据分类器,将入侵行 为稽关数据帮麓他正常数掇分开,这个分类器称为模裂。模型建立靥,耨预处理 黎件数据进行组装,构建出目标系统的分析引擎。最厝将完成组装的模型存储在 鞭先确定的位羧,供实际捻测过程使用。 数据分析执行 从各种数据源中获取事件记录,同时对其进行相威的预处理,获得格式化的 数据,这个预处理过程依赖予具体豹数据分褥方法。将格式讫后的辫传记录与知 识库的内容对比,并根据比较结果帮分丰斤器采用的裣测方案决定程序下一步采取 的动作。如果鬻件记录和个已经定义的入侵行为吻合,系统产生个响应。 结果静反馈精练 实用的入侵检测系统要求能动态维护瓶剡库,即将分析gl 擎的维护、蕊则席 的提炼、系统属性的更改嚣功能,和主鬻的数据分析过程并行完成,来实现结果 敬反馈耩炼。 入侵分析题整个入侵检测系统的关键技术,而其中最关键的怒分柝引擎的构 建。围绕着分析引擎构建产生多种实用的算法,从简单的模式匹配,专家系统, 毒跫态转移到较为复杂熬褥缎躅终,免疫系统帮数据挖援等等,垂是餐耪分辑熬雾 法不同,产象了多样的入侵检测系统。 2 2 3 3 晌应处理 响应处理模块受责执行分析的结暴,辫选择一些合适的响应解决运题。旱鬻 的入侵检测系统,更多关、披于系统的监控和分析模块,而把响应的处理交给用户 泉完成,随蔫耀户对系统的实用性要求的提熹,需要程解决方案孛怒合理的响成 处理模块包括避来。 响应处理分为主动响_ 呶和被动响应。生动响应针对一个检测到的入侵所采取 靛接藏:赞对入侵者采取的反击、主动修菠蓉统帮收鬃更详细信惑。被动响应为 户提供信息,国用户决定撩下来如何斑聪,包括逶知和报警,s n m p 陷阱通报等。 第2 章a 慢检测与数据挖掘 高级的响应处理还有入侵追踪技术,利用分布式技术对入侵者的行为进行连环的 记录等。 完整的入侵检测过程是由数据收集、入侵分析和响应处理三个联动的过程。 根据这三个过程,可以设计出具有实用意义的入侵检测系统,以下从系统软件功 能模块的角度来阐述入侵检测系统的构成。 2 2 4 入侵检测系统的功能模块 根据入侵检测的原理,结合现在计算机体系结构以及软件模块化的要求,常 见的入侵检测系统功能模块可如下图2 3 所示: f i g u r e 2 3f u n c t i o nm o d u l eo fi d sm o n i t o r s y s t e m 2 3 数据挖掘基本知识 2 3 1 数据挖掘技术 数据挖掘是人工智能领域一个重要的分支,其目的在于从大量数据中提取或 “挖掘”知识。一般意义上,数据挖掘可以定义为:对观测到的数据集进行分析, 以发现未知的知识和以数据拥有者的角度可以理解的,有价值的新方式来总结数 据 1 6 j 7 j 8 。 具体说来,数据挖掘包括以下几个方面 4 】: 数据集:系统分析的数据可以是专门用于挖掘本身而采集的,但更多是为了 其他目的已经收集好的数据,挖掘过程是对这些数据进行的再次利用。这些分析 用的数据往往是海量的数据,这就需要数据预处理、净化、核对以及必要的变量 定义。对数据集的选用和预处理是数据挖掘的前导过程,直接关系到挖掘结果的 有效性和准确性。 挖掘过程:挖掘过程是整个数据挖掘的核心,通常系统在数据集中选用某些 特征和结构,对数据进行评分,选择一个算法过程使得评分函数最优,并高效地 实现该算法。而整个挖掘过程,= = _ i ,算法的选择又是关键中的关键,算法是否合理, 托家工泣丈掌工学礤士学位论文 i i i i i i i i i i i i 鼍s ! ! 曼! s 自! ! ! ! 拦 是数据挖掘系统能否取得有效结采最直谈的因素。 知识的表现:对挖掘后知识的表现主要是模式和关系的提取、结果的解释、 发现结掏的谬价。主要枣涉到女曩织鸯效利尾数援挖握结果豹知识,这些知识霹戬 表现为童谈与入交互,为决策者提供知识支持,也可以表现为莱些中间结果,作 为下一个系统进行分析和输入条件。 数提挖掘是一门跨学科的技术,涉及绕计学,数据露技术,撬器学习,人工 智麓,可视仡技术等学科知识。在计算辊,生物,经济学,化学甚至社会科学中 都有广泛的应用,为人类科学探索提供了有力的武器。 2 3 2 数据挖掘算法的组件 数据挖掘算法具有四个基本组件【3 ,4 】: 1 。模型或模式结均:决定溪从数据中寻找戆潜在结构或函数形式。 2 评分函数:鉴定个已按合模型的质量。 3 。优化和搜索方法:优化评分函数势对不同的模型和模式结构进霉亍搜索。 4 。数据管理策略:在搜索毅伐仡援阀蓠姣地处理数掇访润闷题 2 3 3 数据挖掘系统的体系结构 数据挖掘泵缀的设计要求翅下刚: 数据挖掘系统包括很多方面的操作,这些操作所要求的数据源形式不间, 输出不同,所需参数刁:同,这就使得实现这些操作的器个挖掘操 乍模块之 阙必缨辎对独立。 2 数据挖掘系统作为一个整体,必须能够协调各个揉作模块之间的工作。系 统使用挖掘库提供统一的机制来管理各模块所使用的数据源参数瓤挖摄 结莱。 3数据挖掘的对象既可能存在于数据库或数据仓库中,也可能存在于文件 中,系统戏该分别提供处理它 】驰期应方法。 4 数据挖掘的结果需蘩保留。逸一方丽是因为数据挖掘的目的怒支持决策 分析;另一方面是为了方便冀新挖掘增量挖掘。 5 ,作为个决策支持分攒款吞绕,其使用者不是计算极互 乍者,嚣是决策誊 或建做为其他系统的输入,系统应该提供友好的界面或是合适的接口,以 第2 章入侵检测与数据挖掘 便用户使用。 通用的数据挖掘系统结构图2 4 所示: 接口 酋 i挖掘操作模块卜霉渤雠叫挖掘库管理模块 f f 感辫一 彳f 数据预处理模块 土l 卜1 、 7 丁丫 i 兰竺竺 j 存储管理 j ln 图2 4 数据挖掘的体系结构 f i g u r e 2 4s t r u c t u r eo f d a t am i n i n g 图2 4 中功能模块概述: ( 1 ) 挖掘操作模块 不同的挖掘操作模块负责不同的数据挖掘操作。它们彼此之间相对独立,共 同之处是都受到挖掘库管理模块的调度,通过存储控制模块获得数据,并把结果 写入挖掘库。 ( 2 ) 数据预处理模块 数据预处理模块的主要功能是定义数据源,格式化数据源以及过滤数据源。 该模块对整个系统的可用性非常重要,它主要完成以下的功能: 1 数据映射:将源表中的数据映射成i d 形式,并生成对照表( i d 和原始值 的对照) 。把刁i 同形式的数据映射成统一的可供挖掘模块操作的形式。 2 类型映射:对源表中所列数据类型进行强制类型转换。 3列映劓:从源表中提取所需要的列,以减少数掘量,提高系统的效率。 北京工业大学工学硕士学位论文 ( 3 ) 存储控制模块 系统假设数据源存放在数据库中,由存储控制模块对数据库进行统一操作。 对于存放在外部文件中的数据,需要使用数据库管理系统提供的导入工具把数据 导入数据库以后再进行挖掘操作。对于数据挖掘操作来说,对大数据量的处理能 力和处理效率是一个根本的问题,所以,由系统进行缓冲和内存索引就非常重要。 存储控制模块的功能主要体现在3 个方面: 1对连接数据库管理外部文件以及交换外部文件和内存的内容等较为底层 的操作进行封装。 2负责缓冲管理。具体地说,该模块为数据源数据挖掘中间结果以及挖掘 结果分别申请缓冲区,并保证其驻留在内存中。 3 提供简单的数据格式转换。不同于数据预处理模块提供的数据格式转换, 该功能主要弥补关系数据库不能存储不规则格式数据的问题:在向缓冲 区中存放数据以前对事务记录进行重新拼接。 存储控制模块使系统获得了良好的可扩展性。 ( 4 ) 挖掘库及挖掘库管理模块 挖掘库和挖掘库管理是整个系统的核心部分。挖掘库是一个逻辑概念。一个 挖掘库存放用户所指定的一系列挖掘操作的所有信息。挖掘库都统一存放在数据 库中,由系统统一管理。 挖掘库所保存的挖掘操作是指包括数据准备和数据挖掘在内的所有操作。在 挖掘库中这些操作信息是按顺序存放的( 用户进行这些操作的顺序) 。这是因为一 个数据挖掘操作在整个知识发现过程中往往不是孤立的,它所使用的数据源常常 是另一个数据挖掘操作的结果,而它的挖掘结果又有可能是其他操作的数据源。 所以,保留挖掘顺序实际上就是保留了挖掘操作之间的这种关系,这无论对用户 理解挖掘结果还是以后重新进行挖掘都是有帮助的。除了操作的名称和顺序以 外,挖掘库还保存数据源信息挖掘操作的参数设置以及挖掘的结果。系统还应该 提供了一套管理挖掘库的操作,这些操作被封装成挖掘库管理模块。界面通过调 用挖掘库管理模块来完成对挖掘库的管理。同时,挖掘库管理模块通过调用各个 挖掘操作模块来实现挖掘操作。管理挖掘库的所有操作可以被分成以下4 类。 1 对挖掘库的操作。这组操作主要提供对挖掘库整体的管理。包括连接挖 第2 章入侵检测与数据挖掘 掘库,断开挖掘库,打开挖掘库,增加挖掘库,存储挖掘库,删除挖掘 库和查询挖掘库 2 对数据源的操作。这组操作主要用于定义数据源。包括查询数据库信息 增加数据源查询数据源信息等。 3 对挖掘操作的设景操作。包括增加挖掘操作查询挖掘操作设置挖掘操作 参数查询挖掘操作参数等。 4 对挖掘结果的操作。实现了对挖掘结果的查询操作。 ( 5 ) 界面与接口 根据实际需要提供友好的界面或是合适的接口。 以上我们提供了一个通用的数据挖掘系统的体系结构,在实际实现中通常可 以根据需要对各部分进行实际的调整。 2 3 4 数据挖掘的常用算法 数据挖掘算法是一个定义完备的过程,它以数据作为输入并产生模式或模型 形式的输出。定义完备指得是这个过程可以被精确地编码为有限的规则。作为一 个算法,它的过程必须总能在有限步后终止并输出结果。 根据数据挖掘的任务及信息的数据格式通常采用的方法为【1 :机器学习方法、 统计方法、神经网络方法和数据库方法。机器学习中又可细分为:归纳学习方法 ( 决策树、规则归纳等) ,基于范例学习,遗传算法等。统计方法中可细分为: 回归分析,判别分析( 贝叶斯判别、费歇尔判别,非参数判别等) ,聚类分析( 系 统聚类、动态聚类等) ,探索性分析( 主元分析法,相关分析法等等) 。神经网络 方法中可细分为:前向神经网络( b p 算法等) ,自组织神经网络( 自组织特征映 射、竞争学习等等) 。数据库方法主要是( 多维数据分析或o l a p 方法) 。另外还 有面向属性的归纳和粗糙集方法。 粗糙集方法 粗集理论是近年来才兴起的用于研究不精确、不确定性知识的学习、表达、 归纳的方法。它通过引入不可分辨关系、等价类、上近世、下近似等概念考察知 识表达中不同属性的重要性,来确定哪些属性是冗余的,哪些属性是必不可少的。 删除冗余属性进而简化知识表达空间,最终能从数据中挖掘出规则。它的理论核 心是:知识源于对对象的分类通过分类找出属性间的关联规则。 北京工业大学工学硕士学位论文 遗传算法 遗传算法是基于达尔文的进化论中基因重组、突变和自然选择等概念。这些 算法作用于对某一特定问题的一组可能的解法。它们试图通过组合或“繁殖”现 存的最好的解法来产生更好的解法。利用“适者生存”的概念使较差的解法被抛 弃,从而导致解法的集合,即繁殖的结果得到改善。 神经网络 人工神经网络是模拟人类的形象直觉思维、是在生物神经网络研究的基础 上,根据生物神经元和神经网络的特点,通过简化、归纳、提炼总结出来的一类 并行处理网络。利用其非线性映射的思想和并行处理的方法,用神经网络本身结 构可以表达输入与输出的关联知识。它完成输入空间与输出空间的映射关系,是 通过网络结构不断学习、调整,最后以网络的特定结构来表达的,没有显式函数 表达。 聚类法 聚类算法是通过对变量的比较,把具有相似特征的数据归于一类。因此,通 过聚类以后,数据集就转化为类集,在类集中同类中数据具有相似的变量值, 不同类之间数据的变量值不具有相似性。区分不同的类是属于数据挖掘过程的一 部分,这些类不是事先定义好的,而是通过聚类算法采用全自动方式获得。 分类法 分类法是最普通的数据挖掘方法之一。它试图按照事先定义的标准对数据进 行归类。分类法大至上可分为如下几种类型: 决策树归纳法:决策树归纳法根据数据的值把数据分层组织成树型结构。 在决策树中每一个分支代表一个子类,树的每一层代表一个概念。国际 上最有影响和最早的决策树方法是由q u i u l a n 研制的i d 3 方法,后人又发 展了各种决策树方法,女g l b l e 方法使识别率提高了1 0 。 规则归纳法;规则归纳法是由一系列的i f t h e n 规则来对数据进行归类。 统计分析方法 在数据库字段项之间存在两种关系:函数关系( 能用函数公式表示的确定性 关系) 和相关关系( 不能用函数公式表示,但仍是相关确定性关系) ,对它们的 分析可采用回归分析、相关分析、主成分分析。 第2 章入侵检测与数据挖掘 模糊论方法 利用模糊集合理论,对实际问题进行模糊判断、模糊决策、模糊模式识别、 模糊簇聚分析。系统的复杂性越高,精确能力就越低,模糊性就越强。这是z a d e h 总结出的互克性原理。 总之,在数据挖掘领域已经存在多种可以使用的算法,在实际的使用中,需 要选用合适于挖掘任务和原始数据集的算法进行分析和利用。是否选用合适的算 法是整个数据挖掘系统成败的关键。 2 4 在入侵检测系统中运用数据挖掘 安全审计作为保障信息安全的基础部件,广泛的应用于操作系统和网络安全 系统中。目前,操作系统日益复杂、网络流量急剧膨胀,因此用于安全审计的数 据惊人增长。目前,对这些数据主要应用于记录、查询和统计等低层次的利用, 导致重要的数据没有真正发挥作用。如何利用这些数据,进行高层次的抽象分析, 发现数据之间的关系,关联和规则,利用现有数据进行对未来未知行为的预测和 判断,是实现新一代安全事件审计系统的关键技术之一。 数据挖掘本身是一项通用的知识发现技术,相关的基本知识在前文中已经有 所介绍,将数据挖掘应用于入侵检测系统,可以利用相关的算法提取与安全相关 的系统特征属性,根据这些属性生成安全事件的分类模型,用于对入侵行为的自 动鉴别。将数据挖掘的知识运用在入侵检测系统中,关键在于建立基于数据挖掘 的入侵检测模型,这个模型的基本模块包括审计数据采集,数据预处理,特征变 量提取,挖掘过程,挖掘结果处理以及结果可视化等,其中,挖掘过程时整个系 统的关键所在。 关于在入侵检测系统中运用数据挖掘的详细知识以及系统的设计将在第四 章“基于数据挖掘的入侵检测系统原型和实现”中作详细的介绍。将数据挖掘的 相应算法应用在安全审计数据处理的过程中,可以从数据本身的规律中发现异常 的行为模式,使得检测系统具有自学习和自适应的特点。实践结果证明,这种方 式是可行的,其结果也是很有成效的。 2 5 小结 本章主要介绍网络安全基本知识,入侵检测系统的基本构成和工作原理,数 l7 北京工啦犬学工学硕士掌位论文 据挖掘的基本原理和方法,并阐述如何将数据挖掘的方法应用于入侵检测系统。 下一章主要夯绥数爨羧掘靛算法,逡爰舍逶懿数爨挖摇算法,对掰霞算法敲密浮 价和改进,并结合算法的实际情况,对数据挖掘襁入侵检测系统中工作的机制和 过程做出详细的介绍。 i8 第3 章数据擦瓣算法熟麟宪翻改进 第3 章数据挖掘算法的研究和改进 3 1 数据挖掘原语 数据挖掘的脊很多不同的算法,针对不同的对象,应该选择不同的算法。针 对每次的数据挖掘过程,首先袋明确数据挖绷的任务,即想要进行的数据分析形 式。一个数据挖箍任务可戬霜数据挖缓查谗豹形式说爱,它是数据挖摇系统的输 入。数据挖掘查询用以下原语定义 3 l : 1 任务相关数据 这是要考察的数据露部分,棂据不困鲍任务,可能并不震要数据露中赝旁麴 数据,而只需要相关的数据,这些用户感兴趣的属性成为相关属性。 2 要挖掘什么类鍪静知识 这是说明要执行的数据挖掘函数,如特征、区别、关联、分类、聚类或演变 分析。 3 + 鹜景知识 关于挖掘领域的知识,对于指导知识发现过程和评估发现的模式,这些知识 是非常有用的。有许多类型的背景知谖,比如:概念分层,它允许在多个抽象层 上挖摄数撼。其毡酌铡予包括用户对数摆联系载确傣。这煞可以爆于横握模式懿 非预期程度戚预期程度评估发现的模式。 4 兴趣度菠量 这些功能用于将不感兴趣的模式从知识中分开。它们可以用于知道挖掘过 程,戚者挖掘之后,评估发现的模式。不同类型的知识需溪不同的兴趣度度墩。 稠翅对于关联蕊嗣,兴趣凄度爨包括支持瘦( 老现勰曩l 模式懿任务箨关元经裾占 的百分比) 和置信度( 规则的蕴涵强度估计) 。其支持度瓤置信度小于用户指定 的阚值的规则被认为是不感兴趣的。 5 + 发瑷模式懿表示弱可撬诧 这涉及发现模式的湿示形式。用户可以选择不同的知识表现形式,如规则、 表、图表、图、判定数和数据立方体。 3 2 数据挖撼麓系统结构 随着数据挖搠的流行和扩敞,可以预料:在未来的几年中,将会设计和开发 j 0 蒜工弛大学工学硕士掌能论文 i i i 各种数据挖掘系统。因此,数据挖掘系统的结构和设计时至关霪要的。一个好的 系绞结构肖囊予系统爨好缝弱藤软撵环境,鸯翻于有效、及辩缝完藏笼掇任务。 基于不同的结构设计,以下几种模式可以将数据摭掘结构与数据库和数据仓库系 统集成 3 】:不勰合、松散耦合、半紧密耦合、紧镪耦合。 ( 1 ) 不藕合( n o c o u p l i n g ) ;不耩台意味誊数据挖掇不葶l l 惩数据痒或数据仓 库的任何功能。它可能由特定的源提取数据,使用某些数据挖掘算法处理,然后 在将挖掘结果存放在懿一个文件中。 ( 2 ) 松散耩合( 1 0 0 s e c o u p l i n g ) ;松散藕合慧辣罄数据撩摇系统秘臻数据痒 或数据仓库的某些工鼠,从这些系统管理的数据存储提取数据,进行数据挖掘, 然后将挖掘的结果或畿存放到文件中,或者存放到数据库或数据仓库的搬定位 置。 ( 3 ) 半紧密耦合( s e m i t i g h tc o u p l i n g ) :半紧密耦合意味着除了将数据挖掘 系统连犊到一个数据艨或数据仓瘁咿之夕 ,一些簇本数据挖掇原语可以在数据库 或数据仓库系统中实蕊。诧矫,一麓频繁使曩的中间结果也可以计算,并存放在 数据库戚数据仓库系统中。 ( 4 ) 紧密耦合c t i g h tc o u p l i n g ) :紧密藕合意味着数据挖掘系统平澄蟪集成 到数疆绺或数据仓瘁系统中。数耀挖掘子系统被褫为信怠系绕的一个都分。数据 挖掘查询和功能根据数据库或数据仓库系统的撼掘查询分析、数据结构、索引模 式和查询处理方法优偬。随着技术避步,数据挖掘、数据库、数据仓库将逑化移 集成在起,成为一个具有多种韵麓的信惠系统。 小结:以上四种结构中,半紧密耦合和紧密耦合是进行数据挖掘是期勰的结 梅,因荧数据库和数掇仓瘁系统农存储、组织、谤闻移处理数援立方体方掰提供 了很大的灵活性,如聚采用不藕合的结构,就不能利用这整工暴,丽让数
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 教育心理学中的案例分析与试题及答案
- 四年级上册科学教学设计-2.2《呼吸和健康生活》 教科版
- 机修工安全事故培训
- 校园安全管理网格化
- 母亲节剪影课件
- 小学数学人教版四年级上册线段、直线、射线公开课教学设计
- 电厂安全培训
- 高效保安培训课件
- 小学开笔礼主持词实例
- 二年级语文复习计划与教学策略
- 龙软LongRuanGIS地测空间管理信息系统教程-wx4766
- 人教版四年级数学下册期中试卷(含答案)
- (高清版)DZT 0203-2020 矿产地质勘查规范 稀有金属类
- 心理测量学课件
- 2023年山东司法警官职业学院招聘考试真题
- 中小学必背飞花令诗词-(春、月、风、花、山、江、人、日、动物、颜色、数字)
- 氯乙酸安全技术说明书MSDS
- 2024年郑州铁路职业技术学院单招职业适应性测试题库及答案解析
- 电厂机组UPS装置安装、调试项目“三措两案”
- 基于单片机的汽车超载控制系统的设计
- 静电喷涂设备操作规程
评论
0/150
提交评论