(计算机应用技术专业论文)基于数据挖掘技术的入侵检测系统研究.pdf_第1页
(计算机应用技术专业论文)基于数据挖掘技术的入侵检测系统研究.pdf_第2页
(计算机应用技术专业论文)基于数据挖掘技术的入侵检测系统研究.pdf_第3页
(计算机应用技术专业论文)基于数据挖掘技术的入侵检测系统研究.pdf_第4页
(计算机应用技术专业论文)基于数据挖掘技术的入侵检测系统研究.pdf_第5页
已阅读5页,还剩34页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 在如今网络技术发展迅速和网络应用范围越来越扩大的今天,对网络的各 类攻击和对网络的各类破坏也越来越多,人们开始越来越重视对网络的各类攻 击和对网络的各类破坏的防范。我们也渐渐意识到以往使用的入侵检测系统模 型不能满足如今网络新环境的要求,譬如检测率不高、适应性不强的缺点,所 以我们需要试图去寻找到更优良的检测方式,提高以往的入侵检测系统的检测 效能。数据挖掘技术方法具备良好的自适应性和实用性。将数据挖掘技术应用 到入侵检测中,将提升检测系统的智能化和自适应性,提高系统的效率和精度。 本文首先详细讲述了网络入侵检测技术的理论和数据挖掘技术的理论。然 后分析了以往的入侵检测系统存在的不足,随着数据挖掘技术的不断发展,数 据挖掘技术具有挖掘数据之间潜在关系的特点可以补充以往入侵检测系统存在 的缺点,从而提出将数据挖掘技术与入侵检测系统有机结合的理论,提出一种 将数据挖掘技术应用于入侵检测系统的智能模型。用数据挖掘技术与入侵检测 技术相结合的模型与以往入侵检测原理不同的是,这样的模型主要利用数据挖 掘技术可以从大量的数据中自动地挖掘出未知的入侵模型。本文重点研究了挖 掘频繁模式的经典算法a p r i o r i 算法和f p g r o w t h 算法,并在经典的f p g r o w t h 算法上做了改进,研究了一种用矩阵存储,并在矩阵基础上进行频繁模式挖掘 的的m f p - 树挖掘算法,并将此基于关联规则的数据挖掘算法应用到入侵检测系 统中,用实验说明了该算法的有效性,论证了基于数据挖掘技术的入侵检测系 统的有效性,有效解决了入侵检测系统的挖掘速度不高,自适应差的缺点。 本论文的主要特色和创新之处在于: ( 1 ) 对经典的f p g r o w t h 算法上做了改进,研究了一种用矩阵存储,并在 矩阵基础上进行频繁模式挖掘的的m f p - 树挖掘算法,解决挖掘效率不高的问题。 ( 2 ) 把m f p - 树挖掘算法应用于入侵检测中,从而实现了基于数据挖掘的入 侵检测系统,改善了系统检测模块的精确性、智能性和适应性。 关键词:入侵检测;数据挖掘;关联规则;m f p 一树挖掘算法 a b s t r a c t a b s tr a c t w i t ht h ec o n t i n u o u se x p a n s i o no ft h es c o p eo fn e t w o r k a p p l i c a t i o n s ,t h ef a c eo f n e t w o r ke n v i r o n m e n t ,n e t w o r ki n f o r m a t i o ns e c u r i t yi sag r o w i n gc o n c e m i n t r u s i o n d e t e c t i o ns y s t e mf o rt h et r a d i t i o n a lm o d e lo ft h en e we n v i r o n m e n td o e sn o tm e e t t h er e q u i r e m e n t so ft o d a y si n t e m e t ,w en e e dag o o dd e t e c t i o nm e t h o d s ,m a k ei ta v a r i e t yd e t e c t i o nr a t e ,a n dh a v ea u t o m a t i ci d e n t i f i c a t i o no ft h ea b n o r m a lb e h a v i o ro f n e wc a p a b i l i t i e s d a t am i n i n gm e t h o d sh a v eg o o ds e l f - a d a p t a b i l i t ya n dp r a c t i c a l i t y d a t aw i l le n h a n c et h ed e t e c t i o ns y s t e mo fi n t e l l i g e n ta n ds e l f - a d a p t a b i l i t y , t o i m p r o v es y s t e me f f i c i e n c ya n da c c u r a c y t h e r e f o r e ,t h i sa r t i c l e ,t h ee s t a b l i s h m e n to f ad a t am i n i n g b a s e di n t e l l i g e n tt r a d i t i o n a lf p g r o w t ha s s o c i a t i o nr u l ea l g o r i t h m st o b ei m p r o v e di no r d e rt oi m p r o v et h es y s t e md e t e c t i o ne f f i c i e n c y i nt h i s p a p e r , t e c h n i q u e sw e r es t u d i e di nd e t a i l t h e nt h e r ei s t h ee x i s t i n g i n t r u s i o nd e t e c t i o ns y s t e md e t e c t i o ne f f i c i e n c yi sn o th i g h ,e x p e n s i v ea n ds p a c e - t i m e , a d a p t i v ec a p a c i t yi sn o ts t r o n gd i s a d v a n t a g eo fd a t am i n i n gt e c h n o l o g ya n di n t r u s i o n d e t e c t i o ns y s t e m sc o m b i n ep r o p o s e d ,b a s e do nd a t am i n i n gt e c h n o l o g y , i n t e l l i g e n t i n t r u s i o nd e t e c t i o ns y s t e mm o d e l t h i sm o d e lm a i n l yr e l yo nt h er u l eb a s ed e t e c t i o n o fk n o w ni n t r u s i o n s ,w h i l ea b n o r m a la n a l y z e r sr e l yo nd a t am i n i n gt e c h n i q u e st o a u t o m a t i c a l l y , q u i c k l yf i n dt h ed a t af r o mt h em a s s i v ei n v a s i o no fu n k n o w n f o r ma n d a d o p tr u l e sg e n e r a t o rp r o d u c e st h ei n v a s i o nc h a r a c t e r i s t i c so fs t o r e dr u l eb a s e t h e m o d e lg i v e st h ed a t ap r e - p r o c e s s i n gm e t h o d s ,a n df o c u s e so nt h ec l a s s i c a la l g o r i t h m f o rm i n i n gf r e q u e n tp a t t e r n sa p r i o r ia l g o r i t h ma n df p g r o w t ha l g o r i t h m ,a n dt h e f p g r o w t ha l g o r i t h mh a sb e e ni m p r o v e do nt h ep r o p o s e dm a t r i xb a s e ds t o r a g em f p - t r e em i n i n ga l g o r i t h m st of u r t h e re n h a n c et h ep a c eo fi m p l e m e n t a t i o no fd a t a m i n i n gw i t ht h ee x p e r i m e n ts h o w st h ee f f e c t i v e n e s so f t h ea l g o r i t h mi sd e m o n s t r a t e d b a s e do nd a t am i n i n gt e c h n o l o g y , i n t r u s i o nd e t e c t i o ne f f e c t i v e n e s so ft h es y s t e mt o e f f e c t i v e l ya d d r e s st h ee x c a v a t i o no ft h ei n t r u s i o nd e t e c t i o ns y s t e mi sn o th i g hs p e e d , a d a p t i v ed i f f e r e n t i a ls h o r t c o m i n g s i nt h i sp a p e r , t h em a i nc h a r a c t e r i s t i c sa n di n n o v a t i o n sa r c : i i a b s t r a c t ( 1 ) p a i ro fc l a s s i c a lf p - g r o w t hh a sm a d ei m p r o v e m e n to nt h ea l g o r i t h m ,h a s s u g g e s t e dt h a to n ek i n d so ft h em f p - n u m b e rt h a tt h ep e r i o do ft i m es t o r e so w i n gt o t h es p u re x c a v a t ea na l g o r i t h m ,h a si m p r o v e da l g o r i t h m i ci m p l e m e n t a t i o ns p e e d f u r t h e r ( 2 ) e x c a v a t e sa na l g o r i t h m 谢t hm f p n u m b e ra p p l yt oi n v a d eh a v ec o m et r u e t h e r e b yo w i n gt ot h a ti n v a s i o nt h a tt h ed a t ae x c a v a t e sc h e c k ss y s t e m ,h a v e i m p r o v e ds y s t e md e t e c t i n gm o d u l ea c c u r a c y ,i n t e l l i g e n c ea n da d a p t a b i l i t yi n d e t e c t i n g k e yw o r d s :i n t r u s i o nd e t e c t i o n ;d a t am i n i n g ;a s s o c i a t i o nr u l e s ;m f p t r e e m i n i n ga l g o r i t h m 1 1 1 学位论文独创性声明 学位论文独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的 研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含 其他人已经发表或撰写过的研究成果,也不包含为获得直昌态堂或其他教育 机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何 贡献均已在论文中作了明确的说明并表示谢意。 , 学位论文作者签名( 手写) :陌 签字日期: 2 7 年2 月j 。日 学位论文版权使用授权书 本学位论文作者完全了解直昌太堂有关保留、使用学位论文的规定,有权 保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借 阅。本人授权南昌大学可以将学位论文的全部或部分内容编入有关数据库进行 检索,可以采用影印、缩印或扫描等复制手段保存、汇编本学位论文。同时授 权中国科学技术信息研究所将本学位论文收录到中国学位论文全文数据库, 并通过网络向社会公众提供信息服务。 ( 保密的学位论文在解密后适用本授权书) 学位论文作者签名( 手写) : 斫h导师签名( 手写) :段甩报 签字日期:卅年) 月j o 日签字日期:2 年2 月2 。1 7 1 第1 章引言 1 1 背景及意义 第1 章引言 在如今网络技术发展迅速和网络应用范围越来越扩大的今天,对网络的各 类攻击和对网络的各类破坏也越来越多。近几年时间内,威胁互联网安全的事 件【1 1 发生很多,统计结果如图1 1 ,由此可见,网络安全问题嘲已成为如今计算 机领域研究的重要研究课题之一。 i 附l 如髓h p n t - c _ 哪嚏船目n 啊- n 簟 r 姊豫- 伯柚州i n 棚nc e n e o rl c 置朗限礴 w v u 筏o a 一 一| 枷 ,姗 主 2 0 0 l 嘲o - i 一一, o 一- 。 。 _r 。 。 g o9 舷弱9 4弱9 7钓0 1 如图1 1 计算机安全事件统计图 目前,防火墙、身份认证系统等技术手段是对网络进行安全保护所采取的 主要手段,这些技术大多属于静态安全技术,对保护计算机系统免遭非法入侵 起到了一定的作用,但从安全管理角度来说,仅有防御是不够的,还应采用动 态策略。入侵检澳t j ( i n t r u s i o nd e t e c t i o n ) 技术就是一种动态策略,入侵检测主要技 术是探测技术和控制技术,可以对网络进行实时监查、攻击与反攻击等动态保 护措施。入侵检测系统( i d s ) 作为一种动态的信息安全保护措施,对传统安全 技术的不足进行了有效的改进。 传统的入侵检测主要基于简单模式匹配或经验积累方法,使得当前的i d s 可扩展性和自适应性非常有限,只能发现入侵规则库中已存在的入侵模型,难 以发现将为不可测的入侵规则库以前未有入侵模型的入侵行为。 为了解决当前入侵检测系统自适应能力不强的缺点,我们试图在入侵检测 第1 章引言 系统中的检测模块中采用一种自动化更高的技术方法,数据挖掘( d a t a m i n i n g ) 就是这样的一种方法,它具备良好的实用性和自适应性,有效解决现有入侵检 测自适应能力差的难题。数据挖掘( d a t am i n i n g ) 可以从大量的、模糊的、不完 全的、随机的、有噪声的数据中提取出我们事先不知道的却隐含在大量数据中 的,有用的信息知识的过程。为了提升检测系统的智能化和自适应性,我们可 以采取数据挖掘技术应用到入侵检测中的方法。 本课题研究的基于数据挖掘技术的入侵检测系统,对于提高入侵检测的扩 展性、精确性和自适应性有一定的理论价值和实用价值。 1 2 国内外研究现状及存在的问题 随着入侵检测研究的不断发展,入侵检测的所使用技术方法也在不断更新 与发展。虽然入侵检测系统( i d s ) 的发展已经取得了较大的进步,但仍需要探 索如何改善传统安全模型的不足,以适应如今更复杂的网络环境。 目前的入侵检测系统主要的不足【3 】主要存在在下面几个方面: 1 自适应性能力差 现有的检测大多采用特征检测,这是一种基于预先定义的模式。但在如今 随着网络应用的变化而不断变化的数据,用目前基于预先定义模式的检测方式 不能自动更新检测模式,不能满足如今数据不断变化的网络环境,因此需要提 高系统的自适应能力。 2 误报、漏报问题 因为传统入侵模型采用的预先定义模式很难在如今复杂的网络环境下面对 新产生的入侵行为做出及时准确的判断,所以,传统的入侵检测系统的误报率 比较高,并降低对真正报普的敏感度和入侵检测系统的可用性。 3 数据过载 随着网络应用的普及和网络数据流量的增加,入侵检测系统需要处理庞大 的数据,那么入侵检测的处理数据效率对于整个入侵检测系统的性能有很重要 的影响,因此入侵检测系统需要更多研究如何提高处理数据的效率的问题。 4 不能及时更新入侵规则库 以往的入侵检测系统的检测方法是发生行为与入侵规则库中的模式进行匹 配、比对,因此要能准确的判断出新的未知攻击,需要检测模块的攻击特征库 2 第1 章引吉 的特征值应该是最新的然而目i | i 还没有可蛆实时更新攻击特征库的方法,而 不能满足现代新的网络安全需求。 5 检测分析方法单一 传统的入侵检测技术依靠单一的基于模式已难以发现如今复杂的新攻击方 法与手段。因此,完善的入侵检测系统模型应该在系统中使用不同种的分析方 法的结合方式是研究入侵捡测系统模型的趋势。 目静国际上许多公司研究的i d s 技术都朝动态安全模型1 4 刮方向发展。采用 的使用智能的入侵检测方法,如数据挖掘、机器学习等技术,是研究学者们目 前研究的热点。1 9 9 9 年,在哥伦比亚大学,w e n k el e e 首次提出了将数据挖掘 技术与入侵检测技术结合的理论【i ,于是在实验室做将数据挖掘技术应用于入 侵检测中的试验。也用试验结果证明了此方法的台理性同时验证了将数据挖 掘技术应用干入侵检测系统中,不仅不会降低检测系统的效能,还能对大大提 高系统的检测效率。下图12 为基于数据挖掘的入侵检测模型图。 图i2 蘑于致据挖掘的入侵检测模型结构幽 目前,从事数据挖掘应用于入侵检测方面研究的研究机构在国内和国外己 普遍存在,大部分还处于初级阶段,还需要不断的探索。国内的情况有:浙江 大学胡敏l ”等人探讨了实时环境下基于数据挖掘的入侵检测系统;国防科技大 学的胡华平【9 1 等人提出了面向大规模网络的入侵检测和预警系统的体系结构和 构成。国外有:种无监督的异常入侵检测系统理论由e l e a z a re s k i n 学者通过 第1 章引言 对入侵检测模型生成方面作了大量的工作 z o , 1 1 基础上提出来的;2 0 0 2 年, s m u k k a m a l a 等人研究了使用s v m 技术实现入侵检测【1 2 ,1 3 】掣1 4 ,1 5 1 。 1 3 本文所做的工作 在此课题研究过程中,本人完成的主要工作有: 一对入侵检测技术进行了深入地研究,为了改善传统入侵检测系统的不 足,进而对数据挖掘技术进行了深入地研究,并且着重研究了关联分析 挖掘技术与入侵检测技术的结合。 - 对经典的关联规则算法进行了深入地研究,并在经典的f p g r o w t h 算法 上做了改进,研究了一种用矩阵存储,并在矩阵基础上进行频繁模式挖 掘的的m f p 树挖掘算法,进一步提高了算法的挖掘效率。设计了该算 法用到的m f p t r e e 数据结构并编程实现。 _ 在合理的实验环境下进行测试。在虚拟自建的数据库与c o n n e c t - 4 数据 集上做测试。首先进行数据的预处理,再将这些预处理后的数据作为关 联算法的输入数据进行实验测试。 详细客观地分析测试结果,并对基于矩阵存储的m f p 树挖掘算法的性 能进行评价。 1 4 本文组织安排 ( 1 ) 第一章引言,阐述了网络安全的概念,分析了网络安全所面临的威胁 和攻击技术的发展趋势,分析了传统入侵检测系统模型的优缺点,研究了基于 数据挖掘技术的入侵检测系统研究的意义。 ( 2 ) 第二章入侵检测的基本理论,介绍了入侵检测的概念和入侵检测系统 的分类,分析了入侵检测的原理,介绍了入侵检测系统的通用模型。 ( 3 ) 第三章应用于入侵检测中的数据挖掘技术,阐述了数据挖掘概念和数 据挖掘过程,并着重介绍了应用到入侵检测中的常用的几种数据挖掘技术。 ( 4 ) 第四章数据挖掘算法设计及分析,在对入侵检测中的数据挖掘的相关 技术研究的基础上,对传统的关联规则挖掘算法a p d o f i f p g r o w t h 进行了深入 地研究,研究了一种用矩阵存储,并在矩阵基础上进行频繁模式挖掘的的m f p 4 第1 章引言 树挖掘算法,并将此算法与传统的a p r i o r i 算法和f p t r e e 算法进行了性能比较 分析。 ( 5 ) 第五章基于数据挖掘的智能化入侵检测的实现,通过对入侵检测的过 程进行入手,从数据的预处理一直到特征规则的提取及其多种模式挖掘算法的 分析和介绍,介绍了一种基于数据挖掘技术的入侵检测系统模型框架,并分析 了模型的结构及功能,然后详细分析了构建规则库的步骤,研究了数据预处理 的方法,采用了目前比较流行的改进降低存储空间并且提高效率的m f p t r e e 算法,再利用i d s 中的相关挖掘算法有效解决挖掘速度不高的问题。并通过特 征选取构造附加特征,用以提高数据挖掘算法的准确率。 ( 6 ) 第六章结论与展望,对本课题做了最后的总结,并对此课题的未来研究 方向和领域的展望。 第2 章入侵检测的基本理论 第2 章入侵检测的基本理论 2 1 入侵检测概述 入侵检测【1 6 】是指对各种数据源比如来自主机上的审计数据和来自网络数据 的或其它各种形式来源获得的信息进行检测,试图发现对系统构成威胁的行为 的学科。入侵检测是传统安全模型的合理补充,提高了系统的自适应能力和信 息安全基础结构的完整性。它对计算机系统或网络中的若干关键点进行收集并 做预处理,然后进行检测与分析、响应与评估,力图把对不符合正常行为的行 为与事件及时发现并作出决策的技术。入侵检测系统( i n t r u s i o nd e t e c t i o ns y s t e m ) 简称i d s ,是指入侵检测的硬件系统与入侵检测的软件系统的一个完整的系统。 入侵检测的主要可以完成的任务是:检测系统的安全配置,发现系统漏洞进 行识别出攻击行为。监测用户和系统的活动,并统计和分析用户和系统的行为。 对检测出的入侵行为作出及时的响应譬如警告、进程中止等的反应和对数据文 件、关键系统的数据进行评估。 目前国内外对i d s 的研究已越来越深入,如何通过数据源来提取可靠的行 为特征数据,并且根据行为特征数据,准确地判定出此行为是否为入侵行为是 当前学者们研究的重点问题。 入侵检测系统主要包括三部分: 第一部分:信息收集和预处理模块 第二部分:入侵检测分析模块 第三部分:响应与恢复模块 图2 1 入侵检测系统图 6 第2 章入侵检测的基本理论 入侵检测系统中入侵检测分析模块是核心模块,一般应采用多种分析处理 方法,因为每种分析统计方法都有各自的优缺点,所以一个比较完善的入侵检 测系统中应采用多种方式的分析模型算法。 随着网络应用在生活中各方各面的应用,网络安全意识也应得到足够的重 视,入侵检测作为一种动态方式的防御措施,加深了网络安全的纵深层次,受 到了极大的重视。随之,各式各样的入侵检测产品也在市场上出现了,当然因 为入侵检测还处于比较初级的研究阶段,入侵检测产品也不够完善,缺乏更完 善的升级和服务功能。也正因为如此,入侵检测研究也将还有产品更有价值的 研究价值和发展空间。 2 2 入侵检测系统的分类 随着技术的发展,入侵检测系统也出现了很多种类型的系统,按照不同角 度进行划分的不同类型的系统体现出不同的特性【1 7 j 。 根据其采用的技术可以分为异常检测和特征检测。 ( 1 ) 异常检测:异常检测的原理是,建立正常行为的模式,如果行为活动 与正常应为模式库的行为不同,则依据观察情况状态的变化来判断此行为是否 为“入侵力行为。 ( 2 ) 特征检测:特征检测的原理是,把入侵行为构造成入侵模式库,当行 为发生时与构成出来的入侵模式库进行比较、判断。 根据入侵检测系统检测对象不同,可以分为对象来源于主机数据的入侵检 测系统和对象来源于网络数据的入侵检测系统。 ( 1 ) 基于主机数据的入侵检测系统:通过监视与分析主机的审计记录检测 入侵。 ( 2 ) 基于网络数据的入侵检测系统:入侵检测系统对共享网段上的数据进 行分析各种行为,通过分析模块去判断来源于网络上的数据的系统。这类系统 有效的保护了网络,减少了对主机资源的损耗。 ( 3 ) 分布式入侵检测系统:是当前流行的一种入侵检测系统模型,采用在 不同的网络段进行检测,但集中式管理的系统模型。不同网段只监测自己所在 网段上的数据流,各个不同网段检测后的结果最后集中向安全管理中心发送事 件信息状态信息,这样的模型可以加大数据保护范围。 7 第2 章入侵检测的基本理论 根据方式不同分为在线式检测系统和离线式检测系统【1 8 】。 ( 1 ) 在线式检测系统:此系统的特征具有及时和实时性,实时地对数据进 行分析,实时地作出响应,发现了可疑的行为立即阻止其行为与计算机的连接, 并实时进行现场恢复。 ( 2 ) 离线检测系统:与在线式检测系统不同,实时性不是很强,它是事后 分析数据发生的行为,再由人根据已往的经验和历史模型来判断这些行为的合 法性,若发现了不符合经验或历史模型的,就认为为入侵行为。管理员将每隔 一段时间将进行检测、分析,将加大人员的负担,是非实时性的检测系统模型。 2 3 入侵检测原理 入侵检测和其它检测技术基于同样的原理,即从一组数据中,检测出符合某 一特点的数据。攻击者进行攻击的时候会留下痕迹,这些痕迹和系统正常运行 的数据混合在一起。入侵检测系统的任务是从这些混合的数据中找出是否有入 侵的痕迹,并给出相关的提示或警告【1 9 1 。 2 3 1 异常入侵检测原理 异常检测的原理是,建立正常行为的模式,如果行为活动与正常行为模式 库的行为不同,则依据观察情况状态的变化来判断此行为是否为“入侵”行为。 所以基于异常入侵检测原理的入侵检测系统原理的前提是建立描述为正常 行为的模式库,当发生的行为与建立的正常行为模式库进行比对,不属于正常 行为模式库中的任何形式,则表明该行为为为异常行为;反之,该正在发生的 行为与正常行为模式库中的任一行为模式匹配到,则表明该行为为正常行为。 人们将入侵行为看作是异常行为集的子集合,是异常入侵检测的重要前提 之一。理想情况下,异常行为集合可以看做与入侵性活动集合一样,但现实情 况下,异常活动并不一定与入侵性活动等同看待,所以基于异常入侵检测原理 的入侵检测系统在实际检测中很可能出现一些与我们想象相背离的情况,比如 造成检测检结果的遗漏,一个行为确实是非法的,但却不是异常行为,这种情 况会造成检测结果的遗漏。如果预设判断是否异常行为的判断极值不恰当的话, 也会造成很多与我们想象背离的情况。异常检测器的各个测量值和使用的度量 8 第2 章入侵检测的基本理论 值是不断修改更新的,因而不能保证所使用的当前所定义的度量可以表示出所 有的异常行为模式。 2 3 2 误用入侵检测原理 误用入侵检测的原理是,把各种入侵行为构造成入侵模式库,当发生的行 为与构造出来的入侵模式库进行比较、判断,如果与入侵模式库中的某种入侵 行为模式匹配上了,则此行为即为入侵行为。如图2 3 所示 图2 3 误用入侵检测模型 当正在发生的行为与入侵模式库中的行为中的某一种行为记录匹配上的 话,那么代表此行为为入侵行为,反之,正在发生的行为与入侵模式库中的行 为中的任一种行为记录没有匹配上的话,那么代表此行为为正常行为。显然, 如果模式库不能得到及时更新的话,新的攻击是不能被检测到的。而模式库中 的模式是靠专家的经验编写收集下来的,所以不能得到及时更新。由此可看出, 误用入侵检测有其局限性。 2 4 入侵检测系统的通用模型 9 第2 章入侵检测的基本理论 入侵检测系统模型是指对各种主机行为或网络行为进行判断其行为是否是 入侵行为的模型。如何更准确地判断出入侵行为,减少误判断的几率,是提高 入侵检测系统性能的关键。 入侵检测系统常用通用模型如下图2 4 所示f 2 0 】。 图2 4 入侵检测系统通用模型 从上图可知,功能较强大的入侵检测系统应该是具有相对独立性和具有通 用性的入侵检测模型。入侵检测的数据源是指各来自主机上的审计数据或来自 网络数据的或其它各种形式来源获得的各种信息。其检测模块也应由具有各自 优缺点的异常入侵检测模块和误用入侵检测模块,两种不同检测原理的模块共 同合作,相互结合工作。性能良好的响应机制模块和恢复机制模块也是功能比 较强大的入侵检测必须具备的条件之一。现实生活中应用的很多入侵检测系统 模型,也大都都是在此通用模型基础上进行改进和扩展得到的。 1 0 第3 章应用于入侵检测中的数据挖掘技术 第3 章应用于入侵检测中的数据挖掘技术 3 1 数据挖掘概述 3 1 1 数据挖掘的概念 数据挖掘川是从大量杂乱的、多变的、不完全的、非规律性的、具有随机 性较强的信息中,为人们提取出想要的、带的隐藏规律性的、有较大利用价值 的信息和数据的过程。到目前为止,数据挖掘应用在很多领域中,学者们还并 没有对它进行完全统一的定义。 3 1 2 数据挖掘的过程 数据挖掘的整个过程是重复执行以下三个步骤的: 1 把需要挖掘的数据收集好 2 把收集好的数据进行挖掘操作 3 最后得到相应的结果并通过一定的表达方式表达出来 如果挖掘出的结果并没得到我们想要的结果,我们将继续重复顺序执行这 三个步骤,直到挖掘的结果符合我们的意图为止。 图3 1 数据挖掘过程图 数据准备首先需要将在不同数据库的数据进行合并、集成和对脏数据进行 清洗操作;然后在这些处理后的数据集中挑选出需要挖掘的分析的有价值的数 据集合;最后对挑选出的数据结合进行预处理操作,为一步的数据采掘工作做 好准备。 数据挖掘过程中中间的第二个阶段采掘过程是过程中最重要的阶段,要合 第3 章应用于入侵检测中的数据挖掘技术 理地进行挖掘得到我们想得到的数据模型,应具备下列几个条件:选择合适的 挖掘工具,选择不同的假设方式等方面。 3 2 数据挖掘与入侵检测 当网络安全如此需要受重视的今天,入侵检测是网络安全措施中普遍应用 的方式,但以往的入侵检测系统存在不少的局限和缺点,在前面已经分析过, 那么怎么样才能使入侵检测系统应用到检测网络安全中更安全和更有效呢,我 们就需要进一步去完善入侵检测系统的功能,其中提高系统中检测模块的检测 率、增强它的智能性与自适应性是有效提高入侵检测系统检测入侵行为的性能 的重要因素。 那我们分析、观察以往的入侵检测系统的检测模块的工作原理,它主要依 靠专家的经验主义积累的知识而编写出来的入侵行为模式,而不能自动地去更 新存放在规则库中的入侵行为模型,由此可见,以往入侵检测系统缺乏自适应 性、精确性和有效性的缺点不能满足如今入侵种类与入侵方式不断变化的复杂 网络环境的需要。如何提高入侵检测系统中的检测模块的能效呢,我们将正在 不断发展的数据挖掘技术与入侵检测技术相结合起来田】,试图构建一个更有效 的检测模块和更健壮的入侵规则库。 将数据挖掘技术应用于入侵检测系统的主要优点田】是: ( 1 ) 自适应能力强:专家根据现有的攻击从而分析、建立出它们的特征模 型作为传统入浸检测系统规则库,但是如果一种攻击是跨越较长一段时间复杂 的情况时,那么原有的入浸检测系统规则库很难得到及时的更新,并且为了一 种新的攻击去更换整个系统的成本将大大提升。因为应用数据挖掘技术的异常 检测与信号匹配模式是不一样的,它不是对每一个信号一一检测,所以新的攻 击可以得到有效的检测,表现出较强实时性。 ( 2 ) 误警率低:因为现有系统的检测原理主要是依靠单纯的信号匹配,这 种生硬的方式,使得它报警率与实际情况不一致。数据挖掘技术与入侵检测技 术相结合的系统是从等报发生的序列中发现隐含在其中的规律,可以过滤出正 常行为的信号,从而降低了系统的误警率。 ( 3 ) 智能性强:应用了数据挖掘的入侵检测系统可以在人很少参与的情况 下自动地从大量的网络数据中提取人们不易发现的行为模式,也提高了系统检 1 2 第3 章应用于入侵检测中的数据挖掘技术 测的准确性。 ( 4 ) 数据挖掘检测效率高:面对如今网络环境海量数据流的情况,这样的 数据要被入侵检测系统检测,必须经过预处理才可以被入侵检测系统处理,然 而应用了数据挖掘技术的入侵检测系统可以自动地对数据进行预处理,提取出 数据有用的部分,提高了挖掘检测效率。 3 3 用于入侵检测中的数据挖掘算法简介 伴随着对入侵检测技术研究的深入,产生了越来越多的入侵检测算法,也 随着对数据挖掘技术的快速发展,从各种领域中也得到了很多数据挖掘算法, 其中能应用到入侵检测系统中的常用的数据挖掘算法主要有以下几种: 3 3 1 关联分析算法 关联分析算法是要研究大量数据集中的各数据项之间可能存在某种关系和 联系的规则。如果一个事件行为中出现了特征1 ,另一个事件行为中出现了特 征2 ,我们可以思考,那么特征属性l 和特征属性2 同时出现在某一事件行为 的概率是否存在一定的关系昵? 比如,对于一个商店的摆设布局做研究,如果, 一个顾客买了电脑会想去购买打印机,那么我们可以把打印机之类的设备摆在 电脑旁,这样会把电脑的销售和外设设备的销售互相拉动,我们就是在找它们 之间存在的联系的规律。 发现行为事件中不同特征属性之间的相互联系的模式是关联规则挖掘算法 的目的。设m _ - m l ,m e ,m k 是行为记录的数据中包含的所有属性的属性值的 集合,s = s l ,s 2 - s i ) 是行为记录的所有记录集合,s i ( i = 1 ,2 ,) 是一条由包含于 m 属性集合的属性子集合表示的行为记录,即s i m 。行为记录s 包含w ,表 示w 冬s ,w 是m 的一个子集。关联规则的表示形式:“a b ,此规则的支持 度为m ,此规则的置信度为揣”。a 和b 是同包含在同一条行为记录的属性子 集,且a 和b 没有交集,规则支持度n l :指包含属性集a u b 的行为记录在所 有记录集合s 中所占的比例,用s u p ( a u b ) 表示;d 是条行为记录中包含a 的 情况下同时也包含b 的行为记录的情况,公式原理为d = s u p ( a ub ) s u p ( a ) , 规则的置信度d :表示在所有行为记录s 中包含属性集a 的条件下,同时包含 1 3 第3 章应用于入侵检测中的数据挖掘技术 b 的这种行为记录的可能情况是d 。这条规则表示了审计记录内不同属性之间 相互依赖的模式:,这种模式发生的可能性是s 。 3 3 2 序列分析算法 序列分析算法是在关联分析算法的基础上,研究不同记录中的数据项之间 关联性即把数据项之间的联系与时间联系起来了。这样的话,要挖掘出一个序 列模式模型需知道此审计记录行为事件发生的时间。如果假定一审计记录数据 库s ,并且每一条审计行为记录都具有属性t 即审计记录数据库s 中每一条审 计行为记录可表示为: s l ,s 2 ,s k , t 。那么如果a 、b 、c 表示包含在不同 审计行为记录中的3 个关联属性集,则a 与b 进行连接,再与c 进行连接运算, 即表示为a 八b 八c ,( 八一表示连接运算符) ,则a a b 八c 称为一个序列情形。 这里使用基于序列情形最小发生间隔的序列规则发现算法。 序列模式的挖掘通常用四个步骤来完成: ( 1 ) 进行数据库排序:首先要对原始数据库进行排序,主要关键以事务的主 题作为主键,次要关键以事务发生的时间作为次键,这样将原始数据库映射为 以主体序列的数据库。 ( 2 ) 处理大数据项:在主题序列数据库中找出所有的大数据相,然后把它们 组成大数据相集合,将每个大数据项对应成一个整数,那么大数据相集也转化 成了一个整数集合。 ( 3 ) 互相转换:用每个事物包含的大数据项集替换数据库中主体序列的每 个事务。 ( 4 ) 挖掘阶段:将得到的大数据项集合挖掘出序列模式。 序列规则时表达形式为:a ,b c s u p , c o n f , t s u p 表示:序列情形的支持度,那么s u p ( a u b u c ) 表示的是a 八b 八c 的序 列情形的支持度。如果s u s t a i n s u p ,则a 八b 八c 序列情形称为频繁序列情形。 c o r d 表示:序列情形的可能性,那么c o n f = - s u p ( a u b u c ) s u p ( a u b ) 表示 a b 八c 时序模式在t 时间内当发生了a 和b 行为的情况下,发生c 行为的 可能性。 3 3 3 分类算法 1 4 第3 章应用于入侵检测中的数据挖掘技术 分类算法的作用是将大量的数据自动地分成不同类别,进行归类,即提取 出大量的数据库中各个数据的特征属性,根据不同的特征属性所具有的不同的 分类模型,将每个数据进行分i - j 另, j 类化。分类算法挖掘的步骤为:首先要获取 与目标数据库中数据记录具有相同数据项的训练数据集,训练数据集中的数据 中应包括分类属性和其他和分类属性有关系的属性;然后将训练数据集中的数 据用各种类型标识与每个训练数据相对应;接着通过分析训练数据集为不同种 的数据分类类型生成各自的数据模型;最后通过与得到的各类型数据模型进行 对比,将目标数据库中的数据进行分类。 分类算法应用于入侵检测系统中,用来判断此行为是否正常与异常行为, 通过判断分类属性的值,如果值是正常记录的值,那么此行为为正常行为。反 之,如果值是异常记录的值,那么此行为为异常行为。 3 3 4 聚类分析算法 聚类分析算法是指将一组未标记的记录集合,按照相似性和一定的规则, 将它们划分归成若干类别并用恰当的表达方式描述出此类别模型,是一种与分 类分析算法正好相反的一种算法,它使得属于同一类别的记录尽可能的归为一 类,相去甚远的记录差距分的更大。 到目前为止,学者们在对聚类算法的研究上,已经研究出了许多种聚类分 析方法。但是聚类分析方法缺乏线性的计算复杂度,缺乏动态添加新数据的能 力,因此需要研究的数据事先给定,统计量很大,难以适用于数据库非常大的 情况下采用的算法。 第4 章数据挖掘算法设计及分析 第4 章数据挖掘算法设计及分析 4 1 关联规则算法 关联规则挖掘算法f 2 4 】是在1 9 9 3 年,由美国人r a k e s ha g r a w a l 提出的,它 描述了大量数据集中的各属性之间的关系和联系的潜在规则。它是数据挖掘技 术研究中最广泛研究的一种挖掘技术1 2 5 1 ,也是被最早应用于入侵检测系统中的 挖掘技术。 设m = m i ,m 2 ,m k ) 是行为记录的数据中包含的所有属性的属性值的集 合,s = s l ,s 2 s i 是行为记录的所有记录集合,s i ( i = l ,2 ,) 是一条由包含于m 属性集合的属性子集合表示的行为记录,即s i 互m 。行为记录s 包含w ,表示 w s ,w 是m 的一个子集。关联规则的表示形式:“a _ b ,此规则的支持度 为m ,此规则的置信度为d 0 l ! o a 和b 是同包含在同一条行为记录的属性子集, 且a 和b 没有交集,规则支持度m :指包含属性集a u b 的行为记录在所以记 录集合s 中所占的比例,用s u p ( a u b ) 表示;d 是一条行为记录中包含a 的情况 下同时也包含b 的行为记录的情况,公式原理为d = s u p ( a ub ) s u p ( a ) ,规则 的置信度d :表示在所有行为记录s 中包含属性集a 的条件下,同时包含b 的 这种行为记录的可能情况是d 。这条规则表示了审计记录内不同属性之间相互 依赖的模式:这种模式发生的可能性是s 。 关联规则的支持度m ,是表示此关联规则在整个记录集合s 中的统计比重: 关联规则的置信度d :是表示此关联规则的可信度。人们只对有用的关联规则 感兴趣,即对有较高支持度和置信度的关联规则有研究的价值。 关联规则发掘算法到目前为止有很多,最著名的还是属于,1 9 9 4 年 r a g r a w a 提出的a p r i o r i 算法 2 6 1 。之后,有很多学者在其算法基础上进行改进, 产生了譬如a p r i o r i t i d 算法、a p r i o r i h y b r i d 算法等多种改进算法。 1 6 第4 章数据挖掘算法设计及分析 输入:事务数据库d ,最小支持度m i n 8 u p 一 输出:d 中的所有频繁项集u 处理流程。l 1 = ( 1 a r g e1 - i t e m s e t 葛 ;,发现1 项集j c k = a p r i o r i _ g e n m 1 ) ;俪的候选集一 f o re a c ht r a n s a c t i o n st 跏 p ) j o r - - - s u b s e t ( c k , t ) ;事物t 中包含的候选集一 f o re a c hc a n d i d a t e scec t k ( c c k lc c o u n t i d l m i n _ s u p ) ;一 ) j r e t t t r e n = 【弛i k f o re a c hp el k - l a f o re a c hq i k l a i f ( ( p 1 = q 1 l a 斛k - 1 】= q 【k 2 】 斛k 1 4 k -

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论