




已阅读5页,还剩49页未读, 继续免费阅读
(模式识别与智能系统专业论文)模糊关联规则挖掘在入侵检测中的应用.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
攘要 摘要 入侵检测系统( i n t r u s i o nd e t e c t i o ns y s t e m ,i d s ) 能够用来实时识别计算机 网络和计算机系统中的入侵行为。入侵检测过程是:首先利用数据采集模块采集 原始数据,如网络流量、程序的异常行为、系统或网络的日志文件、系统目录和 文件的异常变化等;预处理模块对原始数据进行分析处理,转换为样本数据并保 存为数据库;然后处理模块对样本进行判断,用统计分析、模式匹配等方法判断 样本是否存在异常行为;最矗响应模块对异常信息做出处理,例如报警、切断两 络连接等。 本文的主要工作是研究了入侵检测样本数据的特征,设计了基于模糊纯关联 规则挖掘的入侵检测方法。本文主要贡献如下: ( 1 ) 研究了数据挖掘在入侵检测中的应用,针对入侵检测的特点和数据挖 掘的优点和缺点,设计了模糊关联规则挖掘的入侵检测方法。该检测方法豹核心 是模糊关联规则分类引擎,即通过估算待检测样本与备类模糊关联规则集的匹配 度来对样本分类。 ( 2 ) 研究了a p f i o f i 结合模糊化的关联规则挖掘算法( f u z z y a p r i o r i ) ,研究 了f u z z ya p r i o r i 用于入侵检测的方法,并设计了实验,验证其相对于二值化的 a p r i o r i 算法在检测率上有所提高。 ( 3 ) 本文设计了基于模糊化的频繁模式增长( f u z z yf r e q u e n tp a t t e r n g r o w t h ,f u z z yf p g r o w t h ) 算法。针对f u z z ya p r i o r i 算法效率不高的翔题,本 文设计了模糊f p g r o w t h 算法,设计了模糊化的f p 。t r e e 构建和挖掘过程,并设 计新方法对模糊f p 。t r e e 进行剪枝,剔除不包括在规划中的项,加速挖掘过程。 该方法还能在挖掘频繁项的同时推导关联规则,取代了最后扫描数据库推导关联 规则的步骤,加速了整个训练过程。该技术将模糊化理论和频繁模式关联规则挖 掘结合起来,实验结果表骧,该技术有效地提高了学习效率,并降低了漏报率。 关键词:入侵检测数据挖掘模糊关联规则模糊频繁模式增长 a b s t r a c t i n t r u s i o nd e t e c t i o ns y s t e m ( i d s ) c a ni d e n t i f yt h en e t w o r ka n ds y s t e mi n t r u s i o n i 藏r e a lt i m e 。t h ep r o c e s si st h a ti tc o l l e c tr a wd a t ab ym a k i n ga d v a n t a g eo fd a t a c o l l e c 专i o n 热o d u l ef i r s t l y ,l i k en e t w o r kf l o w , a b n o r m a la c t i o no fp r o g r a m ,s y s t e ma n d n e t 、 ,o f kl o 建f i l e sa n ds oo n ;t h o s er a wd a t aw i l lb ea n a l y z e da n dc o n v e n e dt os a m p l e d 撒t os t o r ei nt h es a m p l ed a t a b a s e ;b ys t a t i s f i c na n a l y s i sa n dp a t t e r nm a t c h i n g m e t h o d s w ec a l li d e n t i f yw h e t h e rt h es a m p l e sa len o r m a l ,f o ri n t r u s i o n ,t h er e s p o n d e r t a k ea c t i o ni m m e d i a t e l ns o m el i k ec u to f ft h ec o n n e c t i o no rm a k ea l a r m t h ep a p e rm a i n l ys t u d i e st h ec h a r a c t e ro fi n t r u s i o nd e t e c t i o na n dd e s i g n sa 蘸谳o df o rd e t e c t i n gi n t r u s i o n b a s e do nf u z z ya s s o c i a t i o nr u l e t h em a i n c o n t r i b u t i o n sa l ea sb e l o w : ( 1 ) s t u d yt h ea p p l i c a t i o no fd a t am i n i n gi nt h ei n t r u s i o nd e t e c t i o n ;d e s i g nt h e 娩z va s s o c i a t i o nr u l em e t h o dt od e t e c ti n t r u s i o n ,i t sk e ym o d u l ei s c l a s s i f i c a t i o n e n g i n eo ff u z z ya s s o c i a t i o nr u l e ,w h i c hc l a s s i f ys a m p l e sb ye s t i m a t i n gt h em a t c h r a t m b e t w e e nn e w l ys a m p l e sa n df u z z ya s s o c i a t i o nr u l es e t s - ( 2 ) s t u d yt h ef u z z ya p r i o da l g o r i t h mw h i c h c o m b i n ea p r i o r im e t h o da n df u z z y a s s o c i a t i o nr u l e 。b yd e s i g n i n gi n t r u s i o ne x p e r i m e n t ,w ef m d t h a tt h i sa l g o r i t h mc a l l i m p r o v et h ed e t e c t i o nr a t i o 。 ( 3 ) a i ma tl o we f f i c i e n c yo ff u z z ya p r i o r i ,t h ep a p e rp r o p o s ef u z z yf r e q u e n t p 越把搬g r o w t h ( f u z z yf p g r o w t h ) a l g o r i t h m w ed e s i g nt h ec o n s t r u c t i o no ff u z z y f p t r e ea n dm i n i n gp r o c e s s ;a tt h es a m et i m ew eg i v eo u tan e w t r i mm e t h o dt od e l e t e t h ei t e m 搬a ti sn o ti n c l u d e di nr u l e sf o rf u z z yf p t r e es o a st oa c c e l e r a t em l m n g p r o c e s s i n s t e a do ft h ed a t a b a s es c a n n i n gs t e pt oi n d u c ea s s o c i a t i o nr u l e s ,t h em e t h o d c a ni n d u c et h e md u r i n gm i n i n gh i g hf r e q u e n c ya n da c c e l e r a t e t h ew h o l et r a i n i n g p r o c e s s o u rm e t h o d sc o m b i n ef u z z yt h e o r y a n da s s o c i a t i o nr u l e sm l m n g ,搬e e x p e 矗m e l 谨r e s u l t ss h o wt h a to u rm e t h o d si m p r o v et h ee f f i c i e n c yo fl e a r n i n ga n d r e d u c et h ef a l s en e g a t i v er a t e 。 k e yw o r d s :i n t r u s i o nd e t e c t i o n , f p g r o w t h d a t am i n i n g ,f u z z ya s s o c i a t i o nr u l e s ,f u z z y 中国科学技术大学学位论文原刨性声明 本人声明所星交的学德论文,是本人在导师指导下进行磺究工作所取得的成果。除恐特 别加以标注和致谢的地方外,论文中不包禽任何他人已经发表或撰写过的研究成果。与我一 阕工作的嗣惑对本研究所做的贡献均已在论文中作了明确的说明。 作者签名;盈至邀。 答字f :l 朔zdf0 5 0 签字日期:z ,( :皇。_ ! 三u 中国科学技术大学学位论文授权使用声明 律为申请学位的条件之一,学位论文著作权拥有者授权中国科学技术大学拥有学位论 文的部分使用权,即:学校有权按有关规定向国家有关部门或机构送交论文的复印件和电子 版,允许论文被套阅和借阅,可以将学位论文编入中国学位论文全文数据摩等有关数据 库进行检索,可以采用影印、缩印或摆接等复制手段保存、汇编学位论文。本人提交的电予 文档的内容和纸震论文懿起容楣一致。 保密的学位论文在解密后也遵守此规定。 搬开 心保密( 年) 作者签名:之萋亟 签字日期:, q , o t 0 。多r 3o 导师躲! ! 生幽。 签牢目期: - o r o r 。妇 签字目期:h 汐 第1 章绪论 1 1 选题背景 第1 章绪论 计算机和互联嘲是撅兴豹科学技术,其诞生及发展不过几十年时间。但是计 算机和互联网发展曰新月异,鹅前人类的生活与工作中已经不能离开它们。计算 机和互联网的普及,让社会变得信息化,人们生活变得更加方便和快捷。但与此 同时,也产生了很多安全问题,比如病毒、蠕虫、木马等,给企业和个人造成巨 大的损失。国内外学者纷纷致力于计算机和网络安全的研究,该研究具有重要的 现实意义,成为西前计算橇科学技术发展的热点和难点。 计算机和网络入侵攻击逐渐呈现新的特征和手段,受加多元化、智能化、复 杂化。对于入侵攻蠢,现有的加密和防火墙技术的防御能力有限,作为静态安全 技术,总有漏洞能被攻击者找到并加以利用,且不能阻止走部用户发起的攻击, 也无法主动跟踪入侵者。由于传统安全技术不足以及现有入侵技术日益多变和复 杂,因此安全研究的重点由静态安全技术逐步向动态安全技术转移,如入侵检测, 其目的是能主动检测可疑行为并主动跟踪。 入侵检测是继防火墙、数据加密之后新的安全防范技术之一,通过建立入侵 检测系统,计算机系统和焉户可以发现可疑的入侵攻击行为。对与可疑的行为, 可以采取措施来阻止入侵攻击,并对相应的漏洞进行修复。入侵检测系统能够实 时监控计算机系统,l ;塞够快速识别计算机网络中的可疑行为,因此能够及时对入 侵和攻击行为进行处理,以保证计算机安全。 嗣前大多入侵检测系统难以发现新的入侵,对已知的入侵也无法迅速做崽准 确的判断。现有入侵检测系统大多采用专家系统,由于通过人工设置的规则进行 处理,因此缺芝客观性;由于不能根据已有入侵行为进行动态更新检测知识,因 此不能发现未知的入侵或攻击行为;在数据量非常大时檄难检测如已知的入侵。 如果剩用数据挖掘技术能够从大量数据中提取有用知识的优势,对网络数据加以 分析,总结出正常和异常数据麴模式,将有韵予提嵩入侵检测系统的准确性和完 备性。冒前,应用于入侵检测的数据挖掘主要技术有分类挖掘、聚类挖掘、关联 规则挖掘、神经网络等。 关联规则挖掘应用予入侵检测,相对于专家系统其优点是可以快速、科学地 提取正常行为和入侵行为的规则,提高检测的准确率。目前采用关联规则挖掘技 术建立入侵检测系统是研究的一个热点。关联规则作为数据挖掘的一个重要技 术,它反映的是不阕属性集合之间的关联关系【2 羽,其基本思想是:首先找蹴样 第l 章绪论 本数据库中出现次数较多的属性,鄹满足最小支持度的属。隧集合,称为频繁项集 ( f r e q u e n ti t e ms e t s ) ;之后基于频繁项集,找出成立次数较多的规则,即满足最 小置信度的规英| l 。关联规则挖掘的可以对文件系统、w e b 资源、网络流量等数据 集合进行,通过分析处理,可以挖掘出数据集中各属性之闻有意义的联系。 样本数据库中静数据属性分为两类臻5 】:一类是布尔属性,也称符号、名称、 类别属性,这些瘸性使用少量的无亭离散值表示,如姓名、色彩等;一类是数值 属性,也称实数、有序、连续的属性,这些属性使用段连续区间的取值来表示, 如重量、长度等。现实应用中的数据大多是数值属性,丽嚣前许多入侵检测技术 却要求所处理属性是离散值或是符号值,比如基于关联规则的入侵检测,因此需 要对数值属性进行离散化。数值属性的离散化即由实型向整型空间映射,是数据 挖掘预处理阶段的重要步骤,对整个系统的时空复杂度、系统鲁棒性具有严重静 影响,其离散化结果直接关系到后续的关联规则挖掘的效率和准确1 9 - 生 2 6 1 。将待 处理的数值属性离散化,不但满足了机器学习的要求,还具有以下优点:可以把 逻辑学、统计学、机器学习、模糊数学等学科成果综合到一起,加强对数据整体 特征的认识;有利于数据库自身的增长和管理,大大提高数据库利用率;通过隶 属云和语言原子模型等模糊学和自然语言值知识,将定性分析和定量分析结合起 来,可能成为决策支持系统的基础。 l 。2 国内外研究现状 对入侵检测的研究从7 0 年代就已经开始。1 9 8 0 年4 月,j a m e sa n d e r s o n 在 计算机安全威胁监控与监视( c o m p u t e rs e c u r i t yt h r e a tm o n i t o r i n ga n d s u r v e i l l a n c e ) ) ) 一书中第一次详细定义了入侵检测这一概念。之后人们研究了将 各种方法应用于入侵检测系统,研究成果层出不穷,并在智能化、分布式等方向 继续发展。 1 9 9 9 年,w e n k el e e 首先将数据挖掘技术应用于入侵检测雒】,目前该领域研 究非常活跃。把入侵检测看作一种数据分析过程,将数据挖掘技术应用到入侵检 测,可以智能化处理大量的网络通讯数据,从而使入侵检测系统具有良好的自学 习、自适应、自我扩展的能力,进而能够发现各种异常行为。中国科学院高能物 理研究所计算中心对于基于数据挖掘技术建立入侵检测系统的方法有所研究闭。 中国科学院研究生院信息安全国家重点实验室提出了基于模式挖掘的用户行为 异常检测的方法,利用数据挖掘中的关联分析和序列模式挖掘技术对用户行为进 行模式挖掘的方法f 5 】这些研究主要基于w e n k el e e 的思路。目前国内外没有出现 效率离、准确率高、适应性强的数据挖掘入侵检测方法,关于数据挖掘运用于入 侵检测的研究还在发展之中,还有许多要研究的内容。 2 第1 章绪论 目前应用于入侵检测的数据挖掘方法主要基于聚类挖掘、分类挖掘、关联规 则挖掘和序列模式分析。其中关联规则挖掘技术是广泛应用的技术之一,该领域 的磷究主要集中在挖掘算法的改进、特征的提取和数据颈处理算法的优化设计 上。 关联规则挖掘问题最早由a g r a w a l 等人在1 9 9 3 年提出。目前已提出许多切 实有效的关联规则挖掘算法,如a g r a w a l 等人提出的a i s 、a p r i o r i 和a p r i o r i t i d 等算法【6 】,p a r k 等提出的d h p ( d i r e c th a s h i n ga n dp r u n i n g ) 算法【4 l ,h a nj i a w e i 等提出的f p g r o w t h ( f r e q u e n tp a t t e mg r o w t h ) 等。 随着数据挖掘研究和入侵检测的发展,已经产生了很多处理离散型数据的算 法,如决策树、关联规则等。当使用这些算法时,就需要对连续型输入数据进行 离散化处理。连续属性的离散化是数据挖掘和机器学习中最重要的预处理步骤之 一,它直接关系到挖掘或学习的效果【7 1 。连续属性的最优离散化是一个n p 完全 问题,离散化方法的性能决定了后续数据挖掘结果的效率和准确度,不好的离散 化会带来沉重的挖搌负荷或丢失部分关键信息。基前,已经出现许多离散化算法, 其中主要有n a i v es c a l e r ,信息熵等,还有s l o w i n s k i 方法【8 1 、h u 方法f 9 】、l e n a r c i k 方法【l o 】、等宽方法、等频方法等。这些方法需要人为规定划分维数,或者预先 给定参数,缺乏客观性和灵活性。 m i s s i s s i p p i 州立大学的j i a n x i o n gl u 和s u s a nm 。b r i d g e s 等人将模糊逻辑结合 关联规则挖掘进行入侵检测,采用模糊关联规则挖掘审计数据,以使入侵检测系 统结果准确的同时还具有一定的智能,从而减少误报。该方法有效处理了入侵检 测阏题本身的模糊性问题和连续属性离散化的问题。 虽然将关联规则技术应用于入侵检测无论在理论上还是在技术上都是可行 的,但是也具有不少难点,主要在于:如何从有关入侵的先验知识出发,提取有 效反映系统特性的特征属性;如何根据具体应用要求分析,选用合适的算法进行 挖掘。目前将关联规则方法运用于入侵检测,总体上处于理论研究阶段,需要解 决的问题有: ( 1 ) 样本数据标记 关联规则挖掘首先要对信息系统中舀标记的样本数据库进行学习,对于缺少 标记的对象一般无法归类,或者只能归类为未知类别。或者检查与异常行为相似 的行为,检测系统能够发现已知的入侵行为;通过检查与正常行为相违背的行为, 检测系统能够发现新的未知入侵。但由于其正常行为模型的建立完全依赖于对训 练数据集中正常数据样本的学习,异常行为模型依赖于训练数据集中异常数据样 本的学习,所以要求训练数据集的洁净,即对正常数据和异常数据的正确标记。 实际上要为系统的学习收集这样一个洁净数据集是十分困难的,一旦出现入侵数 3 第1 章绪论 据被误认为正常数据而蠢现在训练数据集中,或者正常数据被诶认为异常数据出 现在训练数据集中,都可能导致该类入侵行为以及其变种被系统漏判或者误判。 如何将对样本正确标记,决定了学习的正确性。 ( 2 ) 数据的麴一化 许多数据集包含复杂的数据类型,如关系数据、半结构化数据、非结构化数 据、超文本数据和多媒体数据等。数据集从不同的数据源而来,具有格式或非格 式数据,并具有不同语义,对数据挖掘提出了新的挑战。如何将不同的数据转换 为相同的格式,并使其对判决结果具有正确的影响权值,这是数据预处理的重要 问题。 ( 3 ) 连续数据的离散化 数据离散化过程需要保证原数据的不可分辨关系。离散取值数量应当尽量 少,但同时要确保分类结果与原结果相同,并使所得到的离散值在符合原数据分 布特征的同时能够体现属性的内在知识。般来说,攒述对象特征的属性集都比 较大,但是对于信息系统分类的知识发现来说,有些属性并不总是必要的,有些 属性有用但是不重要,不需要划分过细。不重要的属性划分过细会产生不必要的 断点,产生过多冗余数据,需要通过知识简约来去除冗余。将知识库中多个连续 的属性进行动态离散化,不仅能简化这些含有连续属性的数据库的数据量,还能 使数据集中各属性对判决结果有正确的影响度。所以,属性的离散化是数据预处 理的一个重要步骤。多值属性关联规则对数据离散化的方法一般是将属性的取值 按照数值大小划分为若干区间,然后将属性值转换为一个 值,每 个值实际上是一个布尔属性,这样就将多值属性关联规则挖掘问题转化为布尔属 性关联规则。 ( 4 ) 关联规则挖掘的不足 a p r i o r i 是关联规则挖掘的基本算法,它为关联规则挖掘提供了一条有效途 径,但存在明显不足:一是尖锐边界问题,即对数值属性的离散化闽值太陡峭, 靠近区闯边界的值离散化之后,要么被过分强调,要么被忽略;二是划分的区间 也许没有实际意义,也许不够简明,给专家理解和信息抽取带来困难;三是关联 规则的最小支持度和最小置信度是人为指定的,并不能确保所挖掘出的关联规则 都是用户所感兴趣的,其中可能包含许多冗余、无意义的关联规则。这些问题的 产生是由于真实数据的多交性和复杂性,难以用精确的定义进行划分。因此可以 用模糊化理论来避免过于直接的划分。对关联规则兴趣度的研究也显得十分必 要,目前文献【l l 】【1 2 】等有一些初步结果,文献【1 3 】提出关联规则挖掘算法的交互 操佟,基本方法是通过扫描数据集找出所有符合用户指定的最小支持度的频繁项 圈集,并根据频繁项目集生成符合用户指定的最小置信度的关联规剐,然后将挖 基 第1 章绪论 掘出的关联规则反馈给用户,如果用户不满意所得到的挖掘结果,则根据用户的 反馈修改最小支持度、最小置信度等参数,并再次运行该算法。如果得到的结果 不能令用户满意,上述过程就需要重复多次,因此可能需要花费较长的时间。关 联规则挖掘算法与用户交互操作的反馈过程是一个值得研究的问题。 ( 5 ) 关联规则挖掘技术与其它技术结合 随着关联规则挖掘技术的发展,众多其它领域的研究者也开始研究该阀题, 使得关联规则挖掘可以结合众多领域研究成果的优点。如关联规则挖掘技术与数 据仓库等数据库技术缕合,可以加快关联规则挖掘技术实用化的进程,关联规则 挖掘与模糊技术、云模型和概念格的进一步融合,可以提高共挖掘性能与挖掘效 东 1 3 1 1 一o ( 6 ) 性能与效率 数据挖掘算法在大型数据库中的运行时间必须是可预计并且可接受的。许多 现有的数据挖掘算法往往适合常驻内存的、小数据集的数据挖掘,丽大型数据库 中存放了t b 级的数据,数据无法同时存入内存。所以从数据库观点,有效性和 伸缩性是实现数据挖掘系统的关键问题。随着数据库的规模不断增大,不仅挖掘 算法的搜索空闻在加大,丽且也增加了盲目挖掘的可能性。因此必须结合领域知 识去提取与我们发现任务有关的数据,删除无用的数据,有效地降低问题的维数, 提高挖掘算法的效率。 l - 3 研究内容与预期结果 本文对入侵检测系统( i d s ) 和数据挖掘的方法做了介绍,详细分析了入侵 检测数据的特点,设计了模糊化的关联规则挖掘算法,并应用于入侵检测。文章 的主要内容如下: ( 1 ) 研究了入侵检测系统的结构、类别和方法。 ( 2 ) 针对入侵检测数据具有数量大、属性多、多为连续量的特点,研究了 数据挖掘应用于入侵检测的优势和不足。一般的分类算法难以从众多属性中找出 真正有效的分类属性和分类界愿。为了找出属性与入侵类别的联系,关联规则挖 掘被应用于入侵检测。 ( 3 ) 针对关联规则只能挖掘布尔属性的特点,研究模糊关联规则,使得关 联规则挖掘可用于数值属性,理论上提高了关联规则挖掘的准确度。 ( 4 ) 结合模糊关联规则的定义,研究了模糊化a p r i o r i 算法,该算法提高了 原a p r i o r i 算法挖掘关联规则的准确率。并设计了模糊a 研o r i 的入侵检测方法, 使用k d d c u p 9 9 入侵检测数据集进行实验。 ( 5 ) 针对a p r i o r i 需要多次扫描样本数据库,固有地具有效率低的缺点,设 5 第1 章绪论 计了模糊化的f p g r o w t h 算法,以保持较高的准确率的同时提高关联规则挖掘的 效率,并用k d d c u p 9 9 入侵检测数据集进行入侵检测实验。 ( 6 ) 比较和分柝实验结果,证明了算法的有效性。 l 。4 本文组织结构 第一章绪论。篱要描述本课题的研究背景,研究现状及研究意义。 第二章介绍入侵检测的定义、特点及结构框架,阐述了国内外流行的入侵 检测技术。介绍了各种数据挖掘技术,阐述了基于数据挖掘的几种入侵检测的原 理,最后总结了基于数据挖掘的入侵检测的特点。 第三章介绍模糊化原理,详述f c m 模糊化聚类方法,并介绍了模糊关联 规则挖掘。 第四章研究了f u z z ya p r i o r i 算法,并设计了f u z z ya p r i o r i 应用于入侵检测 的方法,用k d d c u p 9 9 入侵检测数据进行了实验。 第五章设计了f u z z yf p g r o w t h 算法,并设计了f u z z yf p - g r o w t h 应用于入 侵检测的方法,并用k d d c u p 9 9 入侵检测数据进行了实验。 第六章总结与展望。 6 第2 章入侵检测与数据挖掘 第2 章入侵检测与数据挖掘 2 1 入侵检测概述 防御系统不可避免会受到成功的攻击,没有绝对安全的计算机系统。对 i n t e r a c t 的依赖更是带来了计算机系统被远程攻击的可能,增加了潜在的危险。 入侵检测的目标是检测攻击,识别被入侵系统的脆弱性,保护系统避免受到广泛 的伤害,因此入侵检测成为计算机安全防护措施的重要组成部分。 2 。l 。l 入侵检测概念 入侵检测技术用于实时发现入侵攻击行为,它通过收集计算机系统和计算机 网络中关键点的信息并对其分析,如收集用户行为、审计数据、安全基志、网络 流量等,从而判断网络或系统中是否有危害安全的异常行为和被攻击的迹象。入 侵检测通过分析系统用户信息和网络活动迹象,以检测非法行为和入侵活动,并 可以区分系统外部入侵攻击与系统蠹部合法蘑户滥耀特权,进而提交不同的报警 信号给响应模块,让响应模块来对异常行为进行相应的处理以保护系统安全。 入侵检测所进行的主要工作是: ( 1 ) 评价计算机系统的安全漏洞,并进行修补。 ( 2 ) 审查系统文件数据的完整性和正确性。 ( 3 ) 监控并分析用户和系统行为、网络数据等。 ( 4 ) 实时识别攻击,发现入侵行为,进行跟踪记录并报警。 ( 5 ) 对异常行为进行统计分析,发现危险的活动的规律。 入侵检测的研究历程已经过3 0 多年。1 9 8 0 年4 月,当时的信息安全措施主 要是基于加密和认证,j a m e s a n d e r s o n 第一次详细阐述了入侵检测的概念,并将 入侵威胁定义为:潜在的、有预谋的、未经授权的访问信息、操作信息,致使系 统不可靠或无法使用的企图,并提出耀审计追踪来监视入侵威胁;1 9 8 6 年,c o b o l 在m m 主机上开发了最旱的基于主机的入侵检测系统,称为d i s c o v e r y 系统,用 于识别用户对数据库的异常访问;1 9 8 7 年,d o r o t h yed e n n i n g 和s r i c s l 的 p e t e r 提出了一个经典的入侵检测系统的抽象模型,该系统称为“入侵检测专家 系统”( i n t r u s i o nd e t e c t i o ne x p e r ts y s t e m ,i d e s ) ,由活动主体、对象、审计记录、 轮廓特征、异常记录、活动规则等六部分组成,并首次提出将入侵检测技术作为 一种计算机系统的安全防御措施:1 9 8 8 年,t e r e s al u n t 等人提出了实时监测思 想,与系统平台无关,并结合专家系统对d o r o t h yed e n n i n g 提出的入侵检测模 7 第2 章入侵检测与数撰挖握 型进行改进,创建了实际的入侵检测专家系统,该系统最初用于检测针对单一主 机的入侵;1 9 9 0 年,加州大学的h e b e r l e i n 等提瀣基于网络的入侵检测系统 ( n e t w o r ks e c u r i t ym o n i t o r ,n s m ) ,通过主动地监视局域网上的网络信息流量, 以此来对可疑行为进行追踪。该系统第一次宣接将网络流量作为数据来源,从此 入侵检测分为基于主机的和基于网络的两个基本类型,入侵检测系统进入新的发 展阶段。入侵检测的研究逐渐增多,出现了分布式入侵检测系统( d l d s ) 、基于 免疫的入侵检测、结合信息检索的入侵检测、基于机器学习的异常检测、结合数 据挖掘的入侵检测、基于隐马尔科夫模型的程序行为异常检测等等研究成果。 2 。1 。2 入侵检测系统分类 入侵检测系统( i n t r u s i o nd e t e c t i o ns y s t e m ,i d s ) 通过实时分析和检查特定 的网络和系统行为模式,识别非法的行为。评价入侵检测系统优劣的指标包括: 检测准确率,用误报率和漏报率两个指标来评价;检测效率,用入侵发生到检测 出入侵所用时间来评价;对系统资源的占用,即检测系统占用的网络、内存、 c p u 等资源;自学习能力,即入侵检测系统根据新的入侵行为自动获取新知识 的能力;系统健壮性;对环境的自适应性等等。 入侵检测系统包括三部分。第一部分是数据采集模块,包括数据的预处理。 数据采集模块采集包括主机系统和网络上的数据以及用户活动的状态行为等信 息,主机数据主要来自主机上的审计记录和日志文件,网络数据主要是来自网络 上传感器监听到的网络流量、网络传输数据包。第二部分是数据分析模块,该模 块对采集模块收集到的主机数据和网络数据进行分析,根据审计数据的特点,以 及检测对象和需求的特点,选用合适的算法判别数据为正常或入侵,主要的分析 方法是完整性分析、模式匹配、统计分析等。第三部分是响应模块,根据分析模 块判别的结果进行相应的处理,按照预先定义的警告种类采取相应的措施,例如 自动清除可疑数据、修复文件系统、切断网络连接等,并向系统管理员报警。入 侵检测系统如图2 1 所示。 躁2 1 入侵检测系统结构 2 1 。2 。l 按数据源采集的位置分类 根据数据来源和所监控的对象不同,入侵检测系统可以分为:基于主机的、 基于网络的、以及分布式的入侵检测系统。 ( 1 ) 基于主机的入侵检测系统 8 第2 章入侵检测与数据挖掘 基于主机的入侵检测系统( h o s t ,b a s e di n t r u s i o nd e t e c t i o ns y s t e m ,h i d s ) 一般运行在单个主机上,通过对主机上的审计数据、蜀志文件进行监视与分析, 发现攻击模式或行为异常,该系统用来检测内部的入侵攻击。1 9 9 0 年以前,入 侵检测系统主要是基予主机的,利用操作系统和安全审计系统的目志记录( a u d i t t r a i l s ) 作为主要信息源,通过分析主枧蠹郝的活动情况以及文件系统的正确和完 整,判别入侵行为。 基于主机的入侵检测系统的优点是:效率高,分析代价小,分析速度快;误 报率低;检测主机上运行的命令序列比较简单,系统的实现复杂度低;能够提供 详细的相关信息,为可疑的行为提供准确判断的依据;系统风险较小。 基于主机的入侵检测系统的缺点是:随着主枧数目增加,为所有主槐部署入 侵检测系统的工作量增大,分析处理工作也将加倍;只检测自身主机,不检测网 络上的情况;来安装入侵检测系统的主机可能被入侵者利用,以达到攻击弱标, 带来额外的安全闯题。 ( 2 ) 基于网络的入侵检测系统 基于网络的入侵检测系统( n e t w o r k b a s e di n t r u s i o nd e t e c t i o ns y s t e m , n i d s ) 通常利厢一个网络适配器来实时监视流经网络的数据流,然后依据一定 规则对截获豹嬲络数据包内容进彳亍分析,苁忝识别可能危害安全的行为特征,发 现非法程序的运行企圈,判断出入侵攻击。为了能够捕获入侵攻击的数据流, n i d s 必须麓够获取到所有数据包,网络入侵检测系统最好布置在防火墙之詹、 子网的路由器或网关之后、以及环状网的内部。i n t e r n e t 与内部网络的接入点是 入侵检测的有剩位置,僵由于子嬲瘸部两个节点之间通讯的数据报文不经过该 点,因此i d s 就可能忽略溺络内部的某些攻击。麓前,大部分入侵检测工具都是 基于网络的。 网络入侵检测系统的优点是:能够检测到超过授权的非法访问;能够检测来 自网络的攻击:对主枕资源消耗少;网络入侵检测系统的布置不需要改变已有主 祝的配置,检测系统发生故障也不会影响其他主枕的运行,因此部署网络入侵检 测系统的风险较小。 网络入侵检测系统的缺点是:只能检查某个通讯节点的数据,不能检测其它 网络中的数据包;需要处理的数据量非常大;随着i p v 6 的普及,网络入侵检测 系统对加密会话内容的分析处理较为困难;为提高性能一般采用了特征检测的方 法,只能检测出普通攻击,一些计算量大、分析时间长的检测难以实现。 ( 3 ) 分布式入侵检测系统 分布式入侵检测系统( d i s t r i b u t e di n t r u s i o nd e t e c t i o ns y s t e m ,d i d s ) 是分布 式架构的网络入侵检测系统。d d i s 的思想是安放若干探测节点在网络的不同位 9 第2 章入侵检测与数据挖搠 置,将各处的信息收集整理后,发送给中央处理节点,由中央节点对所有数据统 一分析处理并做出入侵攻击的判断。 d i d s 分为主机分布和网段分布两种类型,早期d i d s 多为主机分布式。目 前的d i d s 多为网段分布式,即在若干网段上收集信息,由中央节点处理信息进 行入侵检测。网络中的不同节点分别同时进行信息的收集整理和预处理功能,可 以同时检测多个节点,入侵检测系统的效率得以提高。 2 。l 。2 2 按检测方法分类 入侵检测分为基于误用检测( m i s u s ed e t e c t i o n ) 和异常检测( a b n o r m a l d e t e c t i o n ) 。 ( 1 ) 误用检测 误用检测又称为基于知识的入侵检测,它是对某类入侵行为的数据提取特 征,建立误用特征库,当检测到与特征库匹配的系统行为时就判定这种行为是入 侵。 误用检测采用特征匹配,能够降低误报率,但是漏报率会增加;攻击特征的 改变对检测结果影响很大。 ( 2 ) 异常检测 异常检测又称为基于行为的入侵检测,对正常的用户行为进行学习建摸,取 得正常情况的概率模型。检测时,将用户行为与正常情况的模型比较,偏差较大 的则判定为入侵行为。 异常检测不需要入侵数据的特征,因此可以检测部分未知的入侵。系统可以 根据用户行为的改变而进行优化,但是随着模型的精确,学习和检测将消耗更多 资源。异常检测的效率取决于用户模型的完备性和监控的频率。 目前实际使用的入侵检测系统大多使用基于模式匹配的误用检测技术,难以 检测未知攻击,因此需要不断补充更新异常模式库。 2 1 2 3 按入侵检测机制分类 为了分析审计记录、识别特定的模式、生成检测结果,可以将模式匹配、概 率统计、专家系统、数据挖掘、人工智能用于入侵检测。 ( 1 ) 模式匹配 模式匹配就是将用户行为数据与已知的网络入侵或误用行为数据库进行比 较,判别数据特征是否在收集的入侵模式库中出现,从而发现异常行为。利用模 式匹配的安全检测需要定义入侵事件的特征,对入侵模式进行学习。模式匹配检 测方法可以通过字符串匹配找到简单的指令,也可以用数学表达式来表示状态的 变化。 o 第2 章入侵检测与数据挖掘 ( 2 ) 概率统计方法 统计是入侵检测中应用最广泛的技术f 1 7 j 。概率统计方法是基于行为检测。 为每个餍户建立一个特征表,记录用户行为,院较当前数据特征与特征表的相似 度,以判断异常行为。用户特征表根据审计结果变化磊更薪。特征类型有:操作 密度,即操作执行的速度,用于检测时间上过短或过长而人们注意不到的行为特 征;审计记录分布,即最新记录中所有操作的分布;范畴尺度,即一定动作范畴 内特定操作的分布情况等等。下一代入侵检测专家系统( d e s ) 是典型的入侵 检测系统,它是基于对暇标长期行为和短期行为相似性测量的统计,进行入侵检 测【1 8 】。 该方法可以利用成熟的概率统计理论,但是对事件先后关系的检测有困难, 而且难以决定判断的闲值,阂值太高则容易漏检,太低则容易误报。 ( 3 ) 专家系统 专家系统是根据专家经验规定的一系列规则库构成的推理系统。规则库由 i f - t h e n 结构的规则组成,状态行为及语意环境由审计记录得到。推理机根据定义 好的规则和行为完成判断,当用户行为满足某一些觏则的时候,就判定为入侵行 为。这类系统的推理规则是由已知的安全漏洞来制定的,而大量威胁来自未知的 安全漏洞和全新的攻击方式,因此基于规则的专家系统和推理系统有其局限性。 基予专家系统的入侵检测,是指专家小组研究现有攻击,发现其特征并开发 出对应的检测工具。这种方法对每种新攻击都要更换系统,代价基大。基于数据 挖掘的入侵检测不会对每一个特别信号单独检测,实时性好,并能检测数据迷惑。 ( 4 ) 神经网络 基于神经网络的攻击检测,其方法是用命令训练神经单元,然后根据输入判 断输出。神经网络能够表达变量间的非线性关系,能够自动学习更新。 神经网络的优点是能够很好处理原始数据的随机特性,具有较好的抗干扰能 力,缺点是露络拓扑结构、元素权重、命令窗口大小都很难确定。 ( 5 ) 模型推理 该方法是结合攻击脚本进行推理,判断入侵行为是否出现。攻击脚本库由一 系列攻击行为构成,检测时将攻击脚本的子集看作系统面临的攻击。初始攻击脚 本子集应该出现频率很高,并且易于在审计记录中识剃,通过预测器产生下一个 需要验证的攻击脚本子集,并将它传给决策器。决策器将收到的信息翻译成与特 定系统匹配的审计记录格式,最后在审计记录中寻找信息来确定是否攻击。模型 推理的优点在于需要处理的数据量少;对不确定的推理有合理的数学理论支持; 攻击脚本可以与审计记录的上下文无关。缺点是创建入侵检测模型工 笔量大;攻 击脚本的产生和翻译系统难以实现。 第2 章入侵检测与数攥挖掘 目前入侵检测技术存在许多不足,相对于成熟的防火墙、加密、认证等安全 技术而言,其检测实时性、检测准确率、自学习能力都有较大差距。 2 1 3 入侵检测研究方向 入侵检测的研究重点将向高效率、高准确率、分布式、智能化方向发展,如 以下方面: ( 1 ) 智能化检测。机器学习、神经网络、数据挖掘等智能化技术应用于入 侵检测,能够降低检测的误报率和漏报率,提高检测的实时性,提高系统自学习 能力。 ( 2 ) 高速报文捕获。减少网卡及内存的资源消耗,提高检测效率。 ( 3 ) 分布式入侵检测。分布式结构能够系统处理多种信息,比单一架构的 入侵检测系统检测能力更强。 ( 舞) 高效模式匹配算法。随着检测系统的模式库逐渐完善,模式匹配算法 对基于误用检测的入侵检测速度的影响会渐渐增大,因此高效的模式匹配算法对 提高检测效率意义重大。 ( 5 ) 入侵检测系统的评估。公正统一的入侵检测系统测试和评价方法,对 于入侵检测技术的选择和应用异常重要。 2 2 数据挖掘结合入侵检测 数据挖掘( d a t am i n i n g ,d m ) 是从大量数据中提取隐含、有效、事先未 知的信息,用便于理解的概念、模式、规则、规律等形式作为决策的依据。它是 一f _ 】交叉学科,汇聚了数据库技术、机器学习、模糊逻辑、人工智能、神经网络、 数理统计、并行计算等方面的工程人员和学者投身于这一新兴研究,使数据的应 用从简单的查询进化为对知识的挖掘。 数据挖掘是知识发现的过程,其步骤大体可分为: ( 1 ) 数据采集。从操作系统日志文件、数据库日志文件、网络曰志文件、 网络数据包中提取待处理的原始数据。 ( 2 ) 预处理。包括数据的集成、清理、变换、约简等方面,作用是解决数 据的语意二义性、去除干扰数据、选择数据子集等。 ( 3 ) 挖掘。分析数据库中的数据,利用各种数据挖掘方法提取感兴趣的知 识。 ( 4 ) 表述。将挖掘的结果用合适的方法反映给用户,并将结果存储于知识 库中,便于进步分析或使用。 1 2 第2 章入侵检测与数据挖掘 2 2 1 数据挖掘常用算法 根据数据挖掘的具体目标,即期望从数据中挖掘出的知识类型,选择不同的 输入数据、数据变换、挖掘算法。数据挖掘按照目标不同分为:数据分类( d a t a c l a s s i f i c a t i o n ) 、聚类分析( c l u s t e r i n ga n a l y s i s ) 、关联规则挖掘( m i n i n ga s s o c i a t i o n r u l e s ) 、序列模式挖掘( m i n i n gs e q u e n t i a lp a t t e r n ) 等。挖掘算法分为:数据分类 算法,如i d 3 、r i p p e r ;聚类分析算法,如c l a r a n s 、b i r c h ;关联分析算 法,如a p r i o r i 、a p r i o r i t i d ;序列分析算法,如a p r i o r i a l l 、s p r i o r i s o m e 、 d y n a m i c s o m e 。 ( 1 ) 分类算法 分类的目的是构造分类函数或分类模型,能够将数据库中的记录样本映射到 某个类别中。构造分类器首先需要一个数据库中的每一个记录都有类别标记,称 为训练集。对渊练集进行学习,发现规则,根据发现的规则便能对未知类别属性 的样本进行分类。由于每个训练样本有类型标识,因此分类器的学习是有监督的 学习过程。数据
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 我的母亲试题及答案老舍
- 育婴师考试中的实习经验总结试题及答案
- 药剂生物药剂学基本知识题及答案
- 激光应用中的环境适应性试题及答案
- 科技行业税务筹划的方法探讨试题及答案
- 申请发明专利需要的条件试题及答案
- 病句测试题目及答案
- 四年级品德与社会下册第三单元交通与生活3从古到今话交通教学设计和课后反思新人教版
- 医学基础知识涵养与能力试题及答案
- 能力资产面试题及答案
- 小学英语牛津上海版5B Unit2 Weather George in four seasons部优课件
- 中央空调(多联机)施工方案
- 建筑工人实名制管理及农名工工资支付有关事项流程图
- 欢迎上级领导莅临检查指导
- 信用修复申请书
- “十四五”生物质能源发展规划
- “育鲲”轮转叶式舵机工作原理和电气控制以及故障分析
- 智力七巧板校本课程开发教案
- 陕旅版四年级下册英语全册教案及各单元知识点总结
- 施工单轨吊起吊锚杆安装单轨吊梁施工安全技术措施方案
- 二年级下册数学半期检测题
评论
0/150
提交评论