朴素贝叶斯分类器详细介绍_第1页
朴素贝叶斯分类器详细介绍_第2页
朴素贝叶斯分类器详细介绍_第3页
朴素贝叶斯分类器详细介绍_第4页
朴素贝叶斯分类器详细介绍_第5页
已阅读5页,还剩6页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、朴素贝叶斯分类器是一种应用基于独立假设的贝叶斯定理的简单概率分类器更精确的描述这种潜在的概率模型为独立特征模型。目录隐藏1简介2朴素贝叶斯概率模型3贝叶斯分类器特点4参数估计5样本修正6从概率模型中构造分类器7实例o7.1性别分类-7.1.1训练-二1.2测试O7.2文本分类8讨论9参见10参考文献11外部链接简介编辑贝叶斯分类的基础是概率推理,就是在各种条件的存在不确定,仅知其出现概率的情况下,如何完成推理和决策任务。概率推理是与确定性推理相对应的。而朴素贝叶斯分类器是基于独立假设的,即假设样本每个特征与其他特征都不相关。举个例子,如果一种水果其具有红,圆,直径大概4英寸等特征,该水果可以被

2、判定为是苹果。尽管这些特征相互依赖或者有些特征由其他特征决定,然而朴素贝叶斯分类器认为这些属性在判定该水果是否为苹果的概率分布上独立的。朴素贝叶斯分类器依靠精确的自然概率模型,在有监督学习的样本集中能获取得非常好的分类效果。在许多实际应用中,朴素贝叶斯模型参数估计使用最大似然估计方法,换而言之朴素贝叶斯模型能工作并没有用到贝吐斯概峑或者任何贝叶斯模型。尽管是带着这些朴素思想和过于简单化的假设,但朴素贝叶斯分类器在很多复杂的现实情形中仍能够取得相当好的效果。2004年,一篇分析贝叶斯分类器问题的文章揭示了朴素贝叶斯分类器取得看上去不可思议的分类效果的若干理论上的原因。皿尽管如此,2006年有一篇

3、文章详细比较了各种分类方法,发现更新的方法(如boostedtrees和随机森林)的性能超过了贝叶斯分类器。型朴素贝叶斯分类器的一个优势在于只需要根据少量的训练数据估计出必要的参数(变量的均值和方差)。由于变量独立假设,只需要估计各个变量的方法,而不需要确定整个协方差矩阵。朴素贝叶斯概率模型编蚩理论上,概率模型分类器是一个条件概率模型。p(C|Fi,,凡)独立的类别变量C有若干类别,条件依赖于若干特征变量珂,卩2,.,几。但问题在于如果特征数量兀较大或者每个特征能取大量值时,基于概率模型列出概率表变得不现实。所以我们修改这个模型使之变得可行。贝叶斯定理有以下式子:p(C|Fbp(C|Fb.,F

4、n)=讥C)p(几,凡Q)p(rb.,Fn)用朴素的语言可以表达为:posterior=priorxlikelihoodevidenceposterior=实际中,我们只关心分式中的分子部分,因为分母不依赖于C而且特征Fi的值是给定的,于是分母可以认为是一个常数。这样分子就等价于联合分布模型。重复使用链式法则,可将该式写成条件概率的形式,如下所示:p(C|几,凡p(C|几,凡)C)p(码,凡IGFJC)p(耳(码,凡心用应)C)p(F2GFi)p(F3c,f15f2)p(F4?,用G几理F3)C)p(F2C,Fi)p(F3.pFnCyFlyF2,F31.,Fn.cp(C)p(Ficxp(C)p

5、(F1ex(C)p(Fi现在“朴素”的条住独立假设开始发挥作用:假设每个特征列对于其他特征巧,J丰是条件独立的。这就意味着p(FiC,Fj)=pC)对于详久所以联合分布模型可以表达为p(C|几,凡)exp(C)P(F1Q)P(F2|C)XF3|C).nrp(C)Jp(E|C)1=1这意味着上述假设下,类变量C的条件分布可以表达为:i九P几占)=刃(7)HpMG厶1=1其中Z(证据因子)是一个只依赖与F1,,凡等的缩放因子,当特征变量的值己知时是一个常数。由于分解成所谓的类先验概率卩()和独立概率分布(用|),上述概率模型的可掌控性得到很大的提高。如果这是一个斤分类问题,且每个P(FiC=c)可

6、以表达为厂个参数,于是相应的朴素贝叶斯模型有(&-1)+nr个参数。实际应用中,通常取丘=2(二分类问题),厂=1(伯努利分布作为特征),因此模型的参数个数为2厲+1,其中兀是二值分类特征的个数。贝叶斯分类器特点编辑1、需要知道先验概率先验概率是计算后验概率的基础。在传统的概率理论中,先验概率可以由大量的重复实验所获得的各类样本出现的频率來近似获得,其基础是“大数定律”,这一思想称为“频率主义”。而在称为“贝叶斯主义”的数理统计学派中,他们认为时间是单向的,许多事件的发生不具有可重复性,因此先验概率只能根据对置信度的主观判定來给出,也可以说由“信仰”來确定。2、按照获得的信息对先验概率进行修正

7、在没有获得任何信息的时候,如果要进行分类判别,只能依据各类存在的先验概率,将样本划分到先验概率大的一类中。而在获得了更多关于样本特征的信息后,可以依照贝叶斯公式对先验概率进行修正,得到后验概率,提高分类决策的准确性和置信度。3、分类决策存在错误率由于贝叶斯分类是在样本取得某特征值时对它属于各类的概率进行推测,并无法获得样本真实的类别归属情况,所以分类决策一定存在错误率,即使错误率很低,分类错误的情况也可能发生。参数估计编辑只要知道先验概率(G和独立概率分布(尺C),就可以设计出一个贝叶斯分类器。先验概率()不是一个分布函数,仅仅是一个值,它表达了样本空间中各个类的样本所占数量的比例。依据大数定

8、理,当训练集中样本数量足够多且來自于样本空间的随机选取时,可以以训练集中各类样本所占的比例來估计P(C)的值。独立概率分布P(Fic)是以某种形式分布的概率密度函数,需要从训练集中样本特征的分布情况进行估计。估计方法可以分为参数估计和非参数估计。参数估计先假定类条件概率密度具有某种确定的分布形式,如正态分布、二项分布,再用己经具有类别标签的训练集对概率分布的参数进行估计。非参数估计是在不知道或者不假设类条件概率密度的分布形式的基础上,直接用样本集中所包含的信息來估计样本的概率分布情况。所有的模型参数都可以通过训练集的相关频率來估计。常用方法是概率的最大似然估计。类的先验概率可以通过假设各类等概

9、率來计算(先验概率二1/(类的数量),或者通过训练集的各类样本出现的次数來估计(A类先验概率二(A类样本的数量)/(样本总数)o为了估计特征的分布参数,我们要先假设训练集数据满足某种分布或者非参数模型。型如果要处理的是连续数据一种通常的假设是这些连续数值为高斯分布。例如,假设训练集中有一个连续属性,我们首先对数据根据类别分类,然后计算每个类别中的均值和方差。令表示为在c类上的均值,令为在c类上的方差。在给定类中某个值的概率,P(J=7JIC),可以通过将&表示为均值为“匕方差为正态分布计算出來。如下,P(x=l;|c)=ry6臥处理连续数值问题的另一种常用的技术是通过离散化连续数值的方法。通常

10、,当训练样本数量较少或者是精确的分布己知时,通过概率分布的方法是一种更好的选择。在大量样本的情形下离散化的方法表现更优,因为大量的样本可以学习到数据的分布。由于朴素贝叶斯是一种典型的用到大量样本的方法(越大计算量的模型可以产生越高的分类精确度),所以朴素贝叶斯方法都用到离散化方法,而不是概率分布估计的方法。样本修正编辑如果一个给定的类和特征值在训练集中没有一起出现过,那么基于频率的估计下该概率将为0。这将是一个问题。因为与其他概率相乘时将会把其他概率的信息统统去除。所以常常要求要对每个小类样本的概率估计进行修正,以保证不会出现有为0的概率出现。从概率模型中构造分类器编辑讨论至此为止我们导出了独

11、立分布特征模型,也就是朴素贝叶斯概率模型。朴素贝叶斯分迤包括了这种模型和相应的决策规则。根据分类决策规则的不同,贝叶斯分类有多种形式:最小错误率贝叶斯分类器,最大似然比贝叶斯分类器,最小风险贝叶斯分类器。一个普通的规则就是选出最有可能的那个,即将一个待分类样本划归到后验概率最大的那一类中:这就是大家熟知的最大后验概率(MAP)决策准则,真正分类器称为最大后验概率分类器,与最小错误率贝叶斯分类器是等价的。当采取最大后验概率决策时,分类错误概率取得最小值。相应的分类器便是如下定义的classify公式:nclassify(亢=argmaxp(C=c)p(Ft=ftC=c).cf=i独立概率分布也称

12、为类c对特征向量Fi的似然函数,表达了某类中的样本取某个特征值的可能性。PG)bj二P(/l9)称为似然比,它与待识别的特征向量有关;P(5)QU二卩称为判决门限,它仅与两类的先验概率有关。若Lij(QQij,对任意的1,2,.,c,丨不等于j,则属于g。该分类器称为最大似然比贝叶斯分类器。在最小错误率贝叶斯分类器中,仅考虑了样本属于每一类的后验概率就做出了分类决策,而没有考虑每一种分类决策的风险。在获得样本属于每一类的后验概率后,需要综合考虑做出各种分类决策所带來的风险,选择风险最小的分类决策,称为最小风险贝叶斯分类器。决策為:把待识别样本x归类到G类中;损失心久把真实属于匂类的样本x归类到

13、G类中带來的损失;条件风险R偽W):对X釆取决策鸟后可能的风险;则最小风险贝叶斯分类器的分类决策规则为:若/?他|对=minR(oix)t=l?2r.?c,则*属于堆。实例编辑性别分类编辑问题描述:通过一些测量的特征,包括身高、体重、脚的尺寸,判定一个人是男性还是女性。训练编辑训练数据如下:性别身高(英尺)体重(磅)脚的尺寸(英寸)男618012男5.92(5T1)19011男5.58(57)17012男5.92(5T1)16510女51006女556)1508女5.425)130L女5759)1509假设训练集样本的特征满足高斯分布,得到下表:性别均值(身高)性别均值(身高)方差(身高)均值

14、(体重)男性5.8553.5033e-02176.25女性5.41759.7225e-02132.5方差(体均值(脚的尺方差(脚的重)寸)尺寸)1.2292e+0211.259.1667e-0155833e+027.51.6667e+00我们认为两种类别是等概率的,也就是P(male)二P(female)二0.5。在没有做辨识的情况下就做这样的假设并不是一个好的点子。但我们通过数据集中两类样本出现的频率来确定P(C),我们得到的结果也是一样的。测试编辑以下给出一个待分类是男性还是女性的样本。性别身高(英尺)体重(磅)脚的尺寸(英尺)sample61308sample61308我们希望得到的是男

15、性还是女性哪类的后验概率大。男性的后验概率通过下面式子来求取posteriormale)=一:一:evtdence女性的后验概率通过下面式子來求取丄一rP(于巳mol已)p(htight廿巳mak)p(w巳jemQg)p(扛l)QSTCf201JCH2Q.IC):evidence证据因子(通常是常数)用來使各类的后验概率之和为1.evidence=Pmale)pheightmale)pweight|male)pfootsizemale)+P(证据因子是一个常数(在正态分布中通常是正数),所以可以忽略。接下來我们來判定这样样本的性别。P(male)=0.5p(height|male)=exp=5

16、.855卅=3妗磁血是训练集样本的正态分布参数.注意,这里的值大于1也是允许的-这里是概率密度而不是概率,因为身高是一个连续的变量是训练集样本的正态分布参数.注意,这里p(weightmale)=5.9881e-06p(footsizemale)=1.3112e-3posteriornumerator(male)=6.1984eogfemale)=0.5p(heightfemale)2.2346e_1p(weightfemale)=1.6789厂p(footsize|female)=2.8669e_1posteriornumerator(female)=5.3778e04由于女性后验概率的分子

17、比较大,所以我们预计这个样本是女性。文本分类编辑这是一个用朴素贝叶斯分类做的一个文圭分类问题的例子。考虑一个基于内容的文本分类问题,例如判断邮件是否为垃圾邮件。想像文本可以分成若干的类别,首先文本可以被一些单词集标注,而这个单词集是独立分布的,在给定的C类文本中第i个单词出现的概率可以表示为:P(如C)(通过这种处理,我们进一步简化了工作,假设每个单词是在文中是随机分布的-也就是单词不依赖于文本的长度,与其他词出现在文中的位置,或者其他文本内容。)对于一个给定类别G单词的文本Q,概率表示为p(DC=lp(wtC)i我们要回答的问题是文档Q属于类c的概率是多少。换而言之P(C|)是多少?现在定义

18、通过贝叶斯定理将上述概率处理成似然度的形式PD)=p(DC)假设现在只有两个相互独立的类别,s和s(垃圾邮件和非垃圾邮件),这里每个元素(邮件)要么是垃圾邮件,要么就不是。P(DS)=Ypw.iS)P(D-S)=Yp(w.iS)用上述贝叶斯的结果,可以写成讥sid)=黑口卩伽同P(S|D)=鶴口卩伽|伺两者相除:卫(S|D)PSD)_P(讷S)pE)UiPihs)整理得:卫(S|D)p(S|D)_Pnp(w.iS)P(S)戸(吗lS)这样概率比p(s|Z?)/p(s|D)可以表达为似然比。实际的概率p(s|0)可以很容易通过log(p(sIZ?)/p(sIQ)计算出來,基于p(sIZ?)+p(sI0)二1。结合上面所讨论的概率比,可以得到:p(s|d)yp他LS)(这种对数似然比的技术在统计中是一种常用的技术。在这种两个独立的分类情况下(如这个垃圾邮件的例子),把对数似然比转化为sigmoidcurve的形式)。时判定为最后文本可以分类,当”(S|D)Ap(S|D)或者时判定为垃圾邮件,否则为正常邮件。讨论编辑尽管实际上独立

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论