朴素贝叶斯分类在入侵检测中的应用_第1页
朴素贝叶斯分类在入侵检测中的应用_第2页
朴素贝叶斯分类在入侵检测中的应用_第3页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、朴素贝叶斯分类在入侵检测中的应用摘要贝叶斯分类能高效地处理大型数据,本文使用核密度估计的朴素贝叶斯分类来进展入侵检测。由于入侵检测审计数据属性多为连续变量,所以在贝叶斯分类算法中使用核密度估计,有助于进步分类的精度,另引入对称不确定方法有效地删除不相关的检测属性,进一步进步分类效率。关键字贝叶斯;核密度;入侵检测;分类1前言在入侵检测系统中,为了进步系统的性能,包括降低误报率和漏报率,缩短反响时间等,学者们引入了许多方法,如专家系统、神经网络、遗传算法和数据挖掘中的聚类,分类等各种算法。例如:perherkvits提出的一种基于贪心算法的贝叶斯信念网络,而prvansinghprvan,g.s

2、ingh和其他学者报告了这种方法的优点。贝叶斯网络说明结合条件概率分布,为机器学习提供一种因果关系的图形,能有效的处理某些问题,如诊断:贝叶斯网络能正确的处理不确定和有噪声的问题,这类问题在任何检测任务中都很重要。然而,在分类算法的比较研究发现,一种称作朴素贝叶斯分类的简单贝叶斯算法给人印象更为深入。尽管朴素贝叶斯的分类器有个很简单的假定,但从现实数据中的实验反复地说明它可以与决定树和神经网络分类算法相媲美1。在本文中,我们研究朴素贝叶斯分类算法,用来检测入侵审计数据,旨在开发一种更有效的,检验更加准确的算法。2贝叶斯分类器贝叶斯分类是统计学分类方法。它们可以预测类成员关系的可能性,如给定样本

3、属于一个特定类的概率。朴素贝叶斯分类2假定了一个属性值对给定类的影响独立于其它属性的值,这一假定称作类条件独立。设定数据样本用一个n维特征向量x=x1,x2,xn表示,分别描绘对n个属性a1,a2,an样本的n个度量。假定有个类1,2,。给定一个未知的数据样本x即没有类标号,朴素贝叶斯分类分类法将预测x属于具有最高后验概率条件x下的类,当且仅当p(i|x)p(j|x),1j,ji这样,最大化p(i|x)。其中p(i|x)最大类i称为最大后验假定,其原理为贝叶斯定理:公式(1)由于p(x)对于所有类为常数,只需要p(x|i)p(i)最大即可。并据此对p(i|x)最大化。否那么,最大化p(x|i)

4、p(i)。假如给定具有许多属性的数据集,计算p(x|i)p(i)的开销可能非常大。为降低计算p(x|i)的开销,可以做类条件独立的朴素假定。给定样本的类标号,假定属性值互相条件独立,即在属性间,不存在依赖关系,这样,公式(2)概率,可以由训练样本估值:(1)假如ak是分类属性,那么p(xk|i)=sik/si其中sik是ak上具有值xk的类i的训练样本数,而si是i中的训练样本数。(2)假如ak是连续值属性,那么通常假定该属性服从高斯分布。因此公式(3)其中,给定类i的训练样本属性ak的值,是属性ak的高斯密度函数,而分别为平均值和标准差。朴素贝叶斯分类算法(以下称为nb)具有最小的出错率。然

5、而,理论中并非如此,这是由于对其应用假定如类条件独立性的不确定性,以及缺乏可用的概率数据造成的。主要表现为:不同的检测属性之间可能存在依赖关系,如prtl_type,sr_bytes和dst_bytes三种属性之间总会存在一定的联络;当连续值属性分布是多态时,可能产生很明显的问题。在这种情况下,考虑分类问题涉及更加广泛,或者我们在做数据分析时应该考虑另一种数据分析。后一种方法我们将在以下章节详细讨论。3朴素贝叶斯的改进:核密度估计核密度估计是一种普便的朴素贝叶斯方法,主要解决由每个连续值属性设为高斯分布所产生的问题,正如上一节所提到的。在3文中,作者认为连续属性值更多是以核密度估计而不是高斯估

6、计。朴素贝叶斯核密度估计分类算法以下称k-nb非常类似如nb,除了在计算连续属性的概率时:nb是使用高斯密度函数来评估该属性,而k-nb正如它的名字所说得一样,使用高斯核密度函数来评估属性。它的标准核密度公式为公式(4)其中h=称为核密度的带宽,k=gx,0,1,定义为非负函数。这样公式4变形为公式5公式(5)在k-nb中采用高斯核密度为数据分析,这是因为高斯密度有着更理想的曲线特点。图1说明了实际数据的概率分布更接近高斯核密度曲线。图1两种不同的概率密度对事务中数据的评估,其中黑线代表高斯密度,虚线为核估计密度并有两个不同值的带宽朴素贝叶斯算法在计算和时,只需要存储观测值xk的和以及他们的平

7、方和,这对一个正态分布来说是已经足够了。而核密度在训练过程中需要存储每一个连续属性的值在学习过程中,对名词性属性只需要存储它在样本中的频率值,这一点和朴素贝叶斯算法一样。而为事例分类时,在计算连续值属性的概率时,朴素贝叶斯算法只需要评估g一次,而核密度估计算法需要对每个类中属性x每一个观察值进展n次评估,这就增加计算存储空间和时间复杂度,表1中比照了两种方法的时间复杂度和内存需求空间。先检测一组数据中只有同类的入侵的情况,共4组数据ds中的neptune,prble中的satan,u2r中的buffer_verfl,r2l中的guess_passd,再检测一组数据中有各种类型入侵数据的情况。待

8、分类器得到良好的训练后,再从kdd99数据中抽取5组数据作为测试样本,分别代表nral-ds,nral-prbe,nral-u2r,nral-r2l,最后一组为混后型数据,每组数据为1万条。4.2数据的预处理由于朴素贝叶斯有个假定,即假定所有待测属性对给定类的影响独立于其他属性的值,然而现实中的数据不总是如此。因此,本文引入对称不确定理论来对数据进展预处理,删除数据中不相关的属性。对称不确定理论是基于信息概念论,首先我们先理解一下信息理论念,属性x的熵为:公式(6)给定一个观察变量y,变量x的熵为:公式(7)p(xi)是变量x所有值的先验概率,p(xi|yi)是给定观察值y,x的后验概率。这些随着x熵的降低反映在条件y下,x额外的信息,我们称之为信息增益,公式(8)按照这个方法,假如ig(x|y)ig(x|y),那么属性y比起属性z来,与属性x相关性更强。定理:对两个

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论