朴素贝叶斯分类器_第1页
朴素贝叶斯分类器_第2页
朴素贝叶斯分类器_第3页
朴素贝叶斯分类器_第4页
朴素贝叶斯分类器_第5页
已阅读5页,还剩9页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

朴素贝叶斯分类器

学院:汽车学院专业:车辆工程姓名:李振江主要内容朴素贝叶斯分类器理论和计算过程具体实例一、朴素贝叶斯分类器理论和计算过程应用MAP假设分类新实例x的目标是在给定描述实例的属性值X{x1,x2,x3,…,xm}的情况下,得到最可能的类标记c(i)。应用公式得到:现在要做的就是基于训练实例集估计式中的两个概率值。估计每个P(c)值很容易,只要计算每个类标记c出现在训练实例集中的频率就可以。然而,估计每个P(x1,x2,x3,…,xm∣c)值不太可行,原因在于:①完整估计P(x1,x2,x3,…,xm∣c)值的时间复杂度相当于学习一个贝叶斯网络,是一个NP-难问题。②这些P(x1,x2,x3,…,xm∣c)值的数量等于可能实例的数量乘以可能类的数量。因此,为获得合理的估计,实例空间中每个实例必须出现多次,这要求训练实例集非常大。为此,提出了相互条件独立的朴素贝叶斯分类器。一、朴素贝叶斯分类器理论和计算过程

朴素贝叶斯分类器在贝叶斯分类器中结构最简单,它是包含一个根节点、多个叶节点的树状贝叶斯网,其结构如下图所示。其中叶节点A1,A2,...,An是属性变量,描述待分类对象的属性;根节点C是类别变量,描述对象的类别。一、朴素贝叶斯分类器理论和计算过程朴素贝叶斯分类器假定:在给定类标记时属性值之间是相互条件独立的。也就是说,在给定实例的情况下,观察到的联合概率正好是每个属性值概率的乘积。具体的数学表达式如下:将其代入上个式子,可以得到朴素贝叶斯分类器的分类公式:

一、朴素贝叶斯分类器理论和计算过程贝叶斯算法处理流程一、朴素贝叶斯分类器理论和计算过程具体的计算过程:(1)每个数据样本用一个n维特征向量X(x1,x2,x3,…,xn)表示,分别描述对n个属性A1,A2,A3,…,AN样本的N个度量。(2)假定有m个类C1,C2,C3,…,C4,给定一个未知的数据样本X(x1,x2,x3,…,xn)(即没有类标号),朴素贝叶斯分类将未知的样本分配给类Ci,当且仅当根据贝叶斯定理,最大化即可进行分类。其中

最大的类Ci称为最大后验假定。(3)其中P(X)代表属性集A1,A2,A3,…,AN取值为x1,x2,x3,…,xn时的联合概率,为一常数。类的先验概率可以用P(Ci

)=si/s计算,其中si是类Ci中训练样本数,而s是训练样本总数。(4)给定具有许多属性的数据集,计算P(X|Ci)即P(A1=x1,…,An=xn|Ci)的开销可能非常大。为降低计算P(X|Ci)的开销,可以做类条件独立的朴素假定。给定样本的类标号,假定属性值相互条件独立,即在属性间,不存在依赖关系。这样有:一、朴素贝叶斯分类器理论和计算过程概率P(x1|Ci),P(x1|Ci),…,P(x1|Ci)可以由训练样本估值,其中:(a)如果Ak是离散属性,P(xk|Ci)=N(Ak=xk,C=Ci)/N(C=Ci

)。其中N(C=Ci)是样本集中属于类Ci的样本个数。N(Ak=xk,C=Ci

)是样本集中属于类型Ci且属性Ak取值为xk的样本个数。(b)若Ak是连续值属性,常用的处理方法有两种:一种是对其离散化,然后按着离散值处理;另一种就是假定这一属性服从某一分布,常假定服从正态分布。(5〕对末知样本X分类的时候,对每个类Ci.计算P(X|Ci)P(Ci)。样本X被指派到类Ci当且仅当P(X|Ci)P(Ci)>P(X|Ci)P(Ci),1≤j≤m,j≠i。换言之,X被指派到其P(X|Ci)P(Ci)最大的类Ci。二、具体实例根据顾客的基本情况来判断其是否会买电脑。给定下表所示的14个训练实例,其中每一个顾客用属性age,income,student和creditrating来描述,类属性为buycomputer

现有一测试实例x:<age<=30,income=medium,student=yes,creditrating=fair>,问这一顾客是否会买电脑。显然,我们的任务就是要预测此新实例的类属性Buycomputer的取值(yes或no)。为此,我们构建如上图所示的朴素贝叶斯网络分类器。图中的类结点C表示类属性Buycomputer,其他4个结点A1,A2,A3,A4分别代表4个属性age,income,student和creditrating,类结C是所有属性结点的父亲结点,属性结点和属性结点之间没有任何的依赖关系。二、具体实例根据公式有为计算C(x),需要从14个训练实例中估计出概率:P(yes),P(<=30|yes),P(medium|yes),P(yes|yes),P(fair|yes),P(no),P(<=30|no),P(medium|no),P(yes|no),P(fair|no)。具体的计算过程如下:二、具体实例使用以上概率,我们可以得到P(yes)P(<=30|yes)P(medium|yes)P(yes|yes)P(fair|yes)=0.028P(no)P(<=30|no)P(medium|no)P(yes|no)P(fair|no)=0.007可见,朴素贝叶斯分类器将此实例分类为yes。将上述概率归一化,可得到朴素贝叶斯分类器分类此实例为yes的概率是0.028/(0.028+0.007)=0.8。总结朴素贝叶斯算法的优点:a.算法逻辑简单,易于实现;b.分类过程中空开销小;c.算法稳定,对于不同的数据特点其分类性能差别不大,健壮性比较好。那么“朴素贝叶斯分类法的效率如何呢?”该分类法与决策树和神经网络分类法的各种比较试验表明,在某些领域,朴素贝叶斯分类法足以与它们媲美。理论上讲,与其他所有分类算法相比,朴素贝叶斯分类算法最有最小的错误率。然而,实践中并非总是如此,这是因为对其使用的假定(如类条件独立性)的不正确性,以及缺乏可用的概率数据造成的。贝叶斯分类法还可以用来为不直接使用贝叶斯定理的其它分类法提供理论判定。例如,在某些假定下,可以证明:与朴素贝叶斯分类法一样,许多神经网络和曲线拟合算法输出的最大的后验假定。实际使用中,我们有可能遇见两个问题:(1)朴素贝叶斯分类项的特征属性都是离散值,如果是连续值该怎么进行特征属性划分?如果P(aj|yi)=0怎么办?(2)如果特征属性之间是有关联的,而不是相互独立的该怎么解决?扩展针对第一个问题:特征属性是连续值的时候,通常假定其值是服从高斯分布的,即:而P(ak|yi)=g(ak,ηyi

,σyi)。所以只要计算出训练样本中在各个类别中该特征项划分的各个均值和标准差,代入公式即可得到其估计值。对于P(ak|yi)=0的情况可以引入拉普拉斯校准,对每类别下所有划分的计数加一,这样如果训练样本集数量充分大时,并不会对结果产生影响,并且解决了上述频率为0的情况扩展针对第二个问题:朴素贝叶斯算法是在假定各个特征属性相互独立的情况下提出来的,这在现实生活中是很难实现的,所以针对这个问题人们做了大量的工作来解决这一缺点。(1)如果特征属性之间是有联系的,并且是一个有向无环图,可以采用另一个相关的贝叶斯分类算法—

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论