贝叶斯分类器课件_第1页
贝叶斯分类器课件_第2页
贝叶斯分类器课件_第3页
贝叶斯分类器课件_第4页
贝叶斯分类器课件_第5页
已阅读5页,还剩27页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

目录

一、贝叶斯定理

二、贝叶斯分类器

三、举例说明

四、贝叶斯分类器的相关应用目录一、贝叶斯定理二、贝叶斯分类器设x∈Ω是一个类别未知的数据样本,cj为某个类别,若数据样本x属于一个特定的类别cj,那么分类问题就是决定P(cj|x),即在获得数据样本x时,确定x的最佳分类。所谓最佳分类,一种办法是把它定义为在给定数据集D中不同类别cj先验概率的条件下最可能分类。变换后得到:更精确地讲,贝叶斯法则基于假设的先验概率、给定假设下观察到不同数据的概率,提供了一种计算假设概率的方法。一、贝叶斯定理一、贝叶斯定理一、贝叶斯定理先验概率:P(cj)联合概率:P(x|cj)后验概率:P(cj|x)贝叶斯公式一、贝叶斯定理贝叶斯公式贝叶斯公式先验概率P(cj)P(cj)代表还没有训练数据前,cj拥有的初始概率。P(cj)常被称为cj的先验概率(priorprobability),它反映了我们所拥有的关于cj是正确分类机会的背景知识,它应该是独立于样本的。如果没有这一先验知识,那么可以简单地将每一候选类别赋予相同的先验概率。不过通常我们可以用样例中属于cj的样例数|cj|比上总样例数|D|来近似,即贝叶斯公式先验概率P(cj)P(cj)代表还没有训练数据前,贝叶斯公式联合概率P(x|cj)后验概率P(cj|x)联合概率是指当已知类别为cj的条件下,看到样本X出现的概率。若设X=<a1,a2…am>则P(x|cj)=P(a1,a2…am|cj)即给定数据样本x时cj成立的概率,而这正是我们所感兴趣的。P(cj|x

)被称为后验概率(posteriorprobability),因为它反映了在看到数据样本x后cj成立的置信度。贝叶斯公式联合概率P(x|cj)后验概率P(cj|x)联合概我们现在计算:P(cMAP|x)=maxP(cj|x)j∈(1,|C|)则P(cMAP|x)称为最大后验概率。然后我们就把x分到cMAP类中。二、贝叶斯分类二、贝叶斯分类朴素贝叶斯分类一设x=<a1,a2…am>,为一个有m个属性的样例P(cMAP|x)=maxP(cj|x)j∈(1,|C|)

=

max

P(cj|a1,a2…am)

=maxP(a1,a2…am|cj)P(cj) (1)朴素贝叶斯分类一朴素贝叶斯分类二朴素贝叶斯分类器基于一个简单的假定:在给定目标值时属性值之间相互条件独立。换言之,该假定说明给定实例的目标值情况下,观察到联合的a1,a2…am的概率正好是对每个单独属性的概率乘积(2)将(2)式其代入(1)式中,可得到朴素贝叶斯分类器,如下朴素贝叶斯分类二朴素贝叶斯分类三

(3)其中CNB表示朴素贝叶斯分类器输出的目标值。注意在朴素贝叶斯分类器中,须从训练数据中估计的不同P(ai|cj)项的数量只是不同的属性值数量乘以不同目标值数量——这比要估计P(a1,a2…am|cj)项所需的量小得多概括地讲,朴素贝叶斯学习方法需要估计不同的P(cj)和P(ai|cj)项,也就是它们在训练数据上的频率。然后使用公式(3)来分类新实例。朴素贝叶斯分类三三、举例说明目标概念PlayTennis的训练样例DayOutlookTemperatureHumidityWindPlayTennisD1SunnyHotHighWeakNoD2SunnyHotHighStrongNoD3OvercastHotHighWeakYesD4RainMildHighWeakYesD5RainCoolNormalWeakYesD6RainCoolNormalStrongNoD7OvercastCoolNormalStrongYesD8SunnyMildHighWeakNoD9SunnyCoolNormalWeakYesD10RainMildNormalWeakYesD11SunnyMildNormalStrongYesD12OvercastMildHighStrongYesD13OvercastHotNormalWeakYesD14RainMildHighStrongNo三、举例说明目标概念PlayTennis的训练样例DayO三、举例说明假设现在假设有一个样例xx={Sunny,Hot,High,Weak}它应该属于类别:PlayTennis——Yes?OrPlayTennis——No?三、举例说明假设现在假设有一个样例x第一步:统计个数表1类别为cj及在cj条件下Ai取ai的样例数OutlookTemperatureHumidityWindPlayTennisSunnyOvercastRainHotMildCoolHighNormalWeakStrong2432433663Yes93022214123No5第一步:统计个数OutlookTemperatureHumi第二步:估计先验概率和条件概率表2先验概率P(cj)和条件概率P(ai|cj)OutlookTemperatureHumidityWindPlayTennisSunnyOvercastRainHotMildCoolHighNormalWeakStrong2/94/93/92/94/93/93/96/96/93/9Yes9/143/502/52/52/51/54/51/52/53/5No5/14第二步:估计先验概率和条件概率OutlookTemperat第三步:样例判别现在假设有一个样例xx={Sunny,Hot,High,Weak}等于yes的概率P(Yes|x) =p(Yes)*p(Sunny|Yes)*p(Hot|Yes)*p(High|Yes)*p(Weak|Yes)* =9/14*2/9*2/9*3/9*6/9 =0.007039等于No的概率P(No|x) =p(No)*p(Sunny|No)*p(Hot|No)*p(High|No)*p(Weak|No)* =5/14*3/5*2/5*4/5*2/5 =0.027418max(P(Yes|x),P(No|x))=P(No|x),所以我们把x分类为No第三步:样例判别四、贝叶斯分类器的相关应用1、简历筛选2、个人信用预测3、处理垃圾邮件4、可信软件评估5、手机短信过滤四、贝叶斯分类器的相关应用1、简历筛选4、可信软件评估谢谢谢谢目录

一、贝叶斯定理

二、贝叶斯分类器

三、举例说明

四、贝叶斯分类器的相关应用目录一、贝叶斯定理二、贝叶斯分类器设x∈Ω是一个类别未知的数据样本,cj为某个类别,若数据样本x属于一个特定的类别cj,那么分类问题就是决定P(cj|x),即在获得数据样本x时,确定x的最佳分类。所谓最佳分类,一种办法是把它定义为在给定数据集D中不同类别cj先验概率的条件下最可能分类。变换后得到:更精确地讲,贝叶斯法则基于假设的先验概率、给定假设下观察到不同数据的概率,提供了一种计算假设概率的方法。一、贝叶斯定理一、贝叶斯定理一、贝叶斯定理先验概率:P(cj)联合概率:P(x|cj)后验概率:P(cj|x)贝叶斯公式一、贝叶斯定理贝叶斯公式贝叶斯公式先验概率P(cj)P(cj)代表还没有训练数据前,cj拥有的初始概率。P(cj)常被称为cj的先验概率(priorprobability),它反映了我们所拥有的关于cj是正确分类机会的背景知识,它应该是独立于样本的。如果没有这一先验知识,那么可以简单地将每一候选类别赋予相同的先验概率。不过通常我们可以用样例中属于cj的样例数|cj|比上总样例数|D|来近似,即贝叶斯公式先验概率P(cj)P(cj)代表还没有训练数据前,贝叶斯公式联合概率P(x|cj)后验概率P(cj|x)联合概率是指当已知类别为cj的条件下,看到样本X出现的概率。若设X=<a1,a2…am>则P(x|cj)=P(a1,a2…am|cj)即给定数据样本x时cj成立的概率,而这正是我们所感兴趣的。P(cj|x

)被称为后验概率(posteriorprobability),因为它反映了在看到数据样本x后cj成立的置信度。贝叶斯公式联合概率P(x|cj)后验概率P(cj|x)联合概我们现在计算:P(cMAP|x)=maxP(cj|x)j∈(1,|C|)则P(cMAP|x)称为最大后验概率。然后我们就把x分到cMAP类中。二、贝叶斯分类二、贝叶斯分类朴素贝叶斯分类一设x=<a1,a2…am>,为一个有m个属性的样例P(cMAP|x)=maxP(cj|x)j∈(1,|C|)

=

max

P(cj|a1,a2…am)

=maxP(a1,a2…am|cj)P(cj) (1)朴素贝叶斯分类一朴素贝叶斯分类二朴素贝叶斯分类器基于一个简单的假定:在给定目标值时属性值之间相互条件独立。换言之,该假定说明给定实例的目标值情况下,观察到联合的a1,a2…am的概率正好是对每个单独属性的概率乘积(2)将(2)式其代入(1)式中,可得到朴素贝叶斯分类器,如下朴素贝叶斯分类二朴素贝叶斯分类三

(3)其中CNB表示朴素贝叶斯分类器输出的目标值。注意在朴素贝叶斯分类器中,须从训练数据中估计的不同P(ai|cj)项的数量只是不同的属性值数量乘以不同目标值数量——这比要估计P(a1,a2…am|cj)项所需的量小得多概括地讲,朴素贝叶斯学习方法需要估计不同的P(cj)和P(ai|cj)项,也就是它们在训练数据上的频率。然后使用公式(3)来分类新实例。朴素贝叶斯分类三三、举例说明目标概念PlayTennis的训练样例DayOutlookTemperatureHumidityWindPlayTennisD1SunnyHotHighWeakNoD2SunnyHotHighStrongNoD3OvercastHotHighWeakYesD4RainMildHighWeakYesD5RainCoolNormalWeakYesD6RainCoolNormalStrongNoD7OvercastCoolNormalStrongYesD8SunnyMildHighWeakNoD9SunnyCoolNormalWeakYesD10RainMildNormalWeakYesD11SunnyMildNormalStrongYesD12OvercastMildHighStrongYesD13OvercastHotNormalWeakYesD14RainMildHighStrongNo三、举例说明目标概念PlayTennis的训练样例DayO三、举例说明假设现在假设有一个样例xx={Sunny,Hot,High,Weak}它应该属于类别:PlayTennis——Yes?OrPlayTennis——No?三、举例说明假设现在假设有一个样例x第一步:统计个数表1类别为cj及在cj条件下Ai取ai的样例数OutlookTemperatureHumidityWindPlayTennisSunnyOvercastRainHotMildCoolHighNormalWeakStrong2432433663Yes93022214123No5第一步:统计个数OutlookTemperatureHumi第二步:估计先验概率和条件概率表2先验概率P(cj)和条件概率P(ai|cj)Ou

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论