数据挖掘的网络入侵检测_第1页
数据挖掘的网络入侵检测_第2页
数据挖掘的网络入侵检测_第3页
数据挖掘的网络入侵检测_第4页
数据挖掘的网络入侵检测_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据挖掘的网络入侵检测:如何开始

埃里克Bloedorn,艾伦D·克里斯蒂安森,威廉希尔,

克莱门特Skorupka,莉萨M.塔尔博特,乔纳森Tivel

MITRE公司

1820Dolley麦迪逊大道。

麦克莱恩,弗吉尼亚州22102

(703)983-5274

bloedorn@摘要最近人们对计算机网络入侵检测中利用数据挖掘产生了很大的兴趣。在过去的两年中,MITRE一直在探索如何使数据挖掘在这方面非常有用。本文提供了在这个任务中的经验教训。基于之前的经验我们开始了这种类型的项目,我们建议考虑数据挖掘技术和需要的专业知识和基础设施的类型。本文有两个预期的读者:一是对数据挖掘中的了解甚微的网络安全专业人才,二是对网络入侵检测略懂一二的数据挖掘专家。

关键词:数据挖掘,入侵检测,计算机网络安全1。网络入侵检测:这是什么?入侵检测从对计算机网络数据进行收集的仪器开始。流量模式的软件“传感器”监督网络信息流通量,当流量模式与保存的模式相匹配时它就会“报警”。安全分析师决定这些警报是否指示事件严重足以保证一个响应。一个响应可能是关闭网络的一部分,也许是提示与可疑流量相关的互联网服务提供商,或者简单的做不正常流量的记录以供将来参考。如果网络很小并且特征还很鲜明,人类分析师的解决入侵检测方案效果很好。但是,当组织有一个大而复杂的网络时,这些人类的分析师很快就会被大量的需要他们检查的警报搞疲惫。“例如,MITRE网络上的传感器,目前每天出现超过一百万的警报。并且数量还在不断增加。从不断增加的网络攻击中出现的这种情况,以及传感器模式的倾向选择性不明显(即,增加太多的错误报警)。作为商业工具当然不会提供代表企业整体水平的有多家传感器供应商生产的报警器。商业入侵检测软件包往往是很少或没有保持状态信息的签名导向。这些限制使我们调查的数据挖掘应用到这个问题。2。数据挖掘之前的入侵检测当我们第一次开始做我们网络的入侵检测时,我们没有把重点放在数据

挖掘,而是放在更根本的问题上:如何将传感器执行?我们会得到多少数据?我们将如何展示这些数据?我们希望看到什么样的数据,如何查询才能最好地突出数据?接下来,数据的传送,传感器的调整,事件的调查和系统性能,将是我们关注的重点。分析师团队着手处理负载,培训和团队协调的日常问题。但在互联网上的侦察和攻击的水平不断增加,并伴随着数据量的收集,呈现在我们的分析师面前。我们开始怀疑我们的系统不足以对最危险的攻击进行检测,那些被对手使用的攻击是新的,隐形的,或两者兼而有之的。因此,我们认为有两个关于数据挖掘的问题困惑在心里:

·我们能否发展一种方式以尽量减少分析师需要看的日报?

·数据挖掘能否帮助我们发现那些传感器和分析师不能找到的攻击?

3。数据挖掘:这是什么?数据挖掘其核心在于模式发现。数据挖掘者是在大型数据集用专门的软件找到规律(和违规)的专家。这里有一些特殊的事物使数据挖掘可能有助于入侵检测项目:

·报警数据删除的正常活动,让分析师把重点放在真正的攻击

·识别虚假报警发生器和“坏”的传感器信号

·查找异常活动,揭示了真正的攻击·长期的认证,正在进行的模式(不同的IP地址,同样的活动)为了完成这些任务,数据挖掘者使用以下一个或多个方法:

·数据汇总统计,包括寻找离群

·可视化:呈现出的数据的图形摘要

·把数据聚类成自然类【曼加纳里斯等地2000年的数据】

·联想发现规律:定义正常活动,得到异常发现

[Clifton和Gengo,2000年;芭芭拉等人,2001年。]

·分类:预测其中的一个特殊记录属于哪种类别[李和Stolfo,1998年]4。从使您的需求变为现实开始自动化最令人期待的是,它可以并将要解决你所有的问题,而且不需要人为的参与。这是一个在入侵检测中的海市蜃楼。人类分析师始终需要监测人们所渴望的自动化系统的执行,确定新的攻击类别,分析更复杂的攻击。至于我们,首要关注的是减轻了分析师的一天又一天的负担。实时自动反应在一些入侵检测环境中是令人满意的。但这使得对数据库性能的需求加大。该数据库必须足够快的速度来记录报警,同时产生的查询结果。异常的实时评分,或分类模型是可能的,但是这不应该与建立实时模型混淆。有这方面的研究[多明戈斯和Hulten,2000],但是目前数据挖掘没有从大量的实时,动态变化的数据中学习的能力。它更适合批量处理收集的记录数。因此,我们采取了日处理制度,而不是每小时或每分每分的计划。

5。选择一个广泛而有能力的项目团队您的员工将需要三个方面技能:网络安全,数据挖掘和数据库的应用开发技能·当然,可靠的团队建立在网络和入侵检测的坚固基础上,但他们还需要有处理大而抽象的问题的能力。·数据挖掘者需要学习统计和机器理论基础,他们还需要学习涉及计算机网络的详细的概念。·数据库开发人员将需要高效的数据库设计,调整性能的良好水平,以及数据的储存这个团队将不得做很多交叉的方向的工作来提高效率。最初,安全和网络的概念是必须引入和定义的。这会变得更加困难由于缺乏在这一领域预定义的术语,还会有很多的问题。(什么是攻击?什么是正常?什么是IDS的“报警”?什么构成一个事件?什么是是错误的报警,为什么?)6。适当的基础设施的投资重大基础设施是需要做这样的工作。除此之外,从入侵检测系统中的数据进行处理,你将需要:Σ数据库:因为您将需要存储大量的数据,定期更新数据,复杂的查询,并取得快速反应,我们建议您选择高端品质的数据库管理系统。分类是使用预先定义的类别分配的例子。机器学习软件执行这项任务,从提取或学习的例子的歧视规则正确分类的数据。分类模型可以使用各种各样的算法。Henery[1994]分类算法分为三种类型:Σ扩展线性歧视(例如,多层感知器,后勤歧视),

Σ决策树和规则为基础的方法(如C4.5,AQ,CART),和

Σ密度估计(朴素贝叶斯,k-近邻,LVQ)。在这项工作中,我们有,到目前为止,只用决策树,因为他们和以规则为基础方法熟悉我们,因为他们有能力给人类可以理解的结果。很好的例子。训练数据的“质量”是最重要的因素之一。取得了良好的分类性能。训练数据的质量是数量的函数.。例子,代表性的例子是,用来形容他们的属性。标签的数据。监督分类使用标记的训练样本,建立一个模型。标签通常来自人类专家(或专家)手动审查案件。在我们的分类中的应用到入侵检测中,我们获得了通过建立一个标记的例子基于Web的界面,需要一个标签,被分配到一个新的事件是每次构建一个分析师。使用这种反馈,我们能够收集12900标记的例子七种不同等级,从2000年8月和16885的事件,为2000年9月。类。在得到很好的例子的另一个因素是有一个类的定义。它重要的是要保持一个人,在随着时间的推移分配标签的一致性跨多个人。标签不一致可以使分类非常困难,尤其是如果相同的例子是含糊标示。

11。执行异常检测入侵者的技术和本地网络配置都将发生变化。尽管努力防御更新,新的攻击可能通过防御滑,攻击正常的网络标记或一个过滤的已知的良性的探针。异常检测技术可以帮助人类优先审查潜在的异常记录。依靠目前的分类规则,不能捕捉新的攻击。由于分类假定传入的数据,和完整的数据表和修复不一致,这些都是有益的。如果可能的话,过程应停止,直到错误被纠正。但是,在某些情况下,经营的能力一般不管的错误,然后回滚和正确的统计数据和属性在将匹配看到,在过去,分类可能是不恰当的方法,寻找新的攻击。异常检测的大部分工作已接近从统计学角度查看并主要是与一个或很少的属性关注。然而,由于网络数据有许多方面,我们已经调查使用聚类异常检测。聚类是在许多方面的数据(属性)中寻找未标记的模式无监督的机器学习技术。我们使用k-means聚类发现天然分组类似的报警记录。远离这些集群中的任何记录表明不寻常的活动,可能是一种新的攻击的一部分。可用于入侵检测网络数据主要是明确的(即,属性有少数无序值)。分类数据的聚类分析方法,如[古哈等人,1999年]不是一般的商业化。对于非监督方法大量数据中的离群检测套欺诈或入侵检测的目的是开始在文献中出现,但这些方法主要是基于有序数据。克诺尔和NG[1998]最近开发出一种基于距离的聚类方法,在大型数据的离群检测集。Ramaswarny,等。[2000]定义一个新的离群标准的基础上的一个点的距离日其k近邻。Breunig等人。[2000]定义,这是一个新的局部离群因子在何种程度上的数据点是一个离群。

12。让你的系统的高效有许多实际的考虑,在建立一个有效的入侵检测制度。其中一些来自数据挖掘的使用,但其中许多人将出现在任何入侵检测系统:

Σ必须设计并启用了一个中央资料库。该库必须允许输入从一个潜在的大量不同的网络传感器,最好在一个单一的数据表。任何派生的数据,如数据挖掘属性,也应存放在这个中心位置。它也必须支持创建和跟踪安全事故。

Σ高效的查询是必不可少的饲料安全分析师的日常运作。一在查询数据的瓶颈,将影响系统的其他一切。一些步骤,可以采取提高查询的效率,包括列入数据库的性能大师项目团队,统计/查询性能趋势分析,随着时间的推移,消除耗时的查询,或退休的旧数据从数据库中。

Σ还可以提高效率,选择适当的属性聚合和统计资料。的网络活动的人工分析,就会发现大量的原子网络活动分解成一个有意义的总量小得多。在MITRE,更多有用的集合体(源IP,目的端口),用于捕捉一些IP映射活动,和(源IP,目的IP),用于捕捉端口扫描活动。但是,任何字段或属性的组合也可以被使用,造成的财富选择。无论使用的领域,聚集减少下游的数据量。

Σ虽然大多数属性和聚合用来喂一个自动化的过程,不忘记分析师。分析师必须具备有效的工具,以抽查的自动生成的安全事件,并通过新的传感器原始数据手工梳或恶意活动的复杂图案。MITRE接口集中在一组传感器数据库,事件数据库的浏览器预定义的查询。有了这个工具,分析师可以创建新的安全事故,或更新现有的新地位事件信息。

Σ由于数据输入,高容量和频率和品种都自动人体数据源,都会有一些进程失败。当发生故障确实发生了,必须抓住条件和安全小组的通知。脚本,验证完整的数据表和修复不一致,都是有益的。如果可能的话,过程应停止,直到错误被纠正。但是,在某些情况下,经营的能力一般不管的错误,然后回滚和正确的统计数据和属性在球队的方便,可能会更实用的恢复策略。

Σ调度是经营环境的一个重要方面。每个组织必须自行决定其的入侵检测系统有多少真正需要“真实时间“。实时统计计算,必须在几秒钟内完成,并以这种方式提供的数据量将始终是有限的。但是现在,每天批次在许多情况下,数据处理,可能就足够了。13。摘要我们已经描述了我们的经验与数据挖掘集成到一个网络入侵检测能力。我们认为,开始这样一个项目时,你应该:

Σ仔细选择你的要求和现实。

Σ组装与广泛,相关的功能的团队。

Σ在适当的基础设施投资,以支持数据收集和数据挖掘。

Σ设计,计算,并与您的数据存储适当的属性。

Σ过滤规则的数据量减少。

Σ细分为您的系统的整体架构,考虑到双方的自动化加工和人力分析。

Σ使用数据挖掘技术,如分类,聚类和异常检测,提出新的过滤规则。

Σ确保自动数据处理,可以做到有效。

我们的具体做法,以数据挖掘的更多信息,入侵检测可以发现[Skorupka等,2001]和[Bloedorn等,2001]。参考文献

巴巴拉,D.N.吴,和S.Jajodia[2001]。“检测的新型网络入侵,使用贝叶斯估计的“诉讼第一SIAM诠释。会议上的数据挖掘,SDM(2001年),伊利诺伊州芝加哥。

Bloedorn,大肠杆菌,陶,C.Skorupka,A.克里斯琴森,W.山,和J.Tivel[2001]。“数据挖掘应用到入侵检测:MITRE的经验,“中提出的2001年IEEE国际数据挖掘的会议。

Breunig,MM,HPKriegel,RT吴,和J·桑德[2001]。“LOF:确定基于密度的本地离群“,2000年ACMSIGMOD国际机场。会议对数据的管理,达拉斯,德克萨斯州。

克利夫顿,和GGengo[2000]。“开发自定义入侵检测过滤器使用数据挖掘“,10月22-25日加利福尼亚州,洛杉矶,2000年军事通信国际。

多明戈斯,P.和GHulten[2000]。“采矿高速数据流”,在诉讼第六届ACMSIGKDD会议上的知识发现和数据挖掘,第71-80。威廉希尔是一个高级安全和信息作战的首席安全工程师在MITRE公司。自1990年希尔先生一直从事计算机网络和在网络编程,设计,操作和安全工作,最近在进行漏洞分析,入侵检测和响应,及事故的调查的研究。加入MITRE之前,希尔先生为贝尔大西洋公司合作,为他们管理网络运营的互联网中心。希尔先生获得佛罗里达州立大学的B.S.和乔治梅森大学的计算机科学硕士。克莱姆Skorupka在2000年夏天加入MITRE,他作为一个领先的信息安全工程

科学家在Mitre的企业安全解决方案部。在加入MITRE,克莱姆为AT&T的政府市场工作,在那里他充当防火墙和并为情报界客户进行网络管理操作。克莱姆已经十多年在网络和UNIX系统管理经验,支持各种政府和商业机构。他拥有克莱姆森大学物理

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论