朴素贝叶斯方法处理缺失值PPT学习教案_第1页
朴素贝叶斯方法处理缺失值PPT学习教案_第2页
朴素贝叶斯方法处理缺失值PPT学习教案_第3页
朴素贝叶斯方法处理缺失值PPT学习教案_第4页
朴素贝叶斯方法处理缺失值PPT学习教案_第5页
已阅读5页,还剩15页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、会计学1 朴素贝叶斯方法处理缺失值朴素贝叶斯方法处理缺失值 结 构 u贝叶斯理论 u贝叶斯分类器 第1页/共20页 =A1A2.Am,是由所有未知类别的可能,是由所有未知类别的可能 样本组成的集合;样本组成的集合; c=A1A2.AmC是由所是由所 有已知类别的样本组成的集合。有已知类别的样本组成的集合。D c是训练样例集是训练样例集 合。合。 中的元素中的元素x表示为表示为x = ax = 。 c中的中的 元素元素x表示为表示为x = ax = 。其中。其中a ai i表示第表示第i i个个 属性的某个取值。属性的某个取值。 我们用我们用A Ai i表示第表示第i i个属性,个属性,C C表

2、示决策属性;表示决策属性;a aik ik表 表 示第示第i i个属性的第个属性的第k k个取值,个取值,c cj j表示第表示第j j类;加上绝对值类;加上绝对值 则表示相应的个数,如则表示相应的个数,如|A|Ai i| |表示第表示第i i个属性的取值个数,个属性的取值个数, |c|cj j| |表示第表示第j j类样例个数。类样例个数。 第2页/共20页 设设xx是一个类别未知的数据样本,是一个类别未知的数据样本,c cj j为某个类别,若数为某个类别,若数 据样本据样本x x属于一个特定的类别属于一个特定的类别c cj j,那么分类问题就是决定,那么分类问题就是决定P(cP(cj j|

3、x)|x), 即在获得数据样本即在获得数据样本x x时,确定时,确定x x的最佳分类。所谓最佳分类,一种的最佳分类。所谓最佳分类,一种 办法是把它定义为在给定数据集办法是把它定义为在给定数据集D D中不同类别中不同类别c cj j先验概率的条件先验概率的条件 下最可能(下最可能(most probablemost probable)分类。贝叶斯理论提供了计算这种)分类。贝叶斯理论提供了计算这种 可能性的一种直接方法可能性的一种直接方法 更精确地讲,贝叶斯法则基于假设的先验概率、给定假设下更精确地讲,贝叶斯法则基于假设的先验概率、给定假设下 观察到不同数据的概率,提供了一种计算假设概率的方法观察

4、到不同数据的概率,提供了一种计算假设概率的方法 第3页/共20页 u 先验概率P(cj) P( cj|x) = P(x|cj)P(cj) P(x) u 联合概率P(x|cj) u 后验概率P(cj|x) 第4页/共20页 如果没有这一先验知识,那么可以简单地将每如果没有这一先验知识,那么可以简单地将每 一候选类别赋予相同的先验概率。不过通常我们可一候选类别赋予相同的先验概率。不过通常我们可 以用样例中属于以用样例中属于c cj j的样例数的样例数|c|cj j| |比上总样例数比上总样例数|D|D|来来 近似,即近似,即 P(cj)代表还没有训练数据前,代表还没有训练数据前,c cj j拥有的

5、初始概率。拥有的初始概率。 P(cj)常被称为常被称为c cj j的先验概率的先验概率(prior probability) ,它反,它反 映了我们所拥有的关于映了我们所拥有的关于c cj j是正确分类机会的背景知识是正确分类机会的背景知识, , 它应该是独立于样本的。它应该是独立于样本的。 j j |c | P(c )= |D| 第5页/共20页 联合概率是指当已知类别为联合概率是指当已知类别为c cj j的条件下,看到的条件下,看到 样本样本x x出现的概率。出现的概率。 若设若设x = ax = 则则P(x|cP(x|cj j)= P(a)= P(a1 1,a,a2 2a am m| |

6、 c cj j) ) 第6页/共20页 即给定数据样本即给定数据样本x x时时c cj j成立的概率成立的概率, ,而这正是我们而这正是我们 所感兴趣的所感兴趣的 P P(c(cj j|x|x ) )被称为被称为C C的后验概率(的后验概率(posterior posterior probabilityprobability),因为它反映了在看到数据样本),因为它反映了在看到数据样本x x后后c cj j 成立的置信度成立的置信度 第7页/共20页 第8页/共20页 设设x = ax = ,为一个有,为一个有m m个属性的样例个属性的样例 = max= max P(aP(a1 1,a,a2 2

7、a am m|c|cj j)P(c)P(cj j) ) P(P(a a1 1, ,a a2 2a am m) ) = max= max P(aP(a1 1,a,a2 2a am m|c|cj j)P(c)P(cj j) )(1)(1) P(cP(cMAP MAP|x)= max P(c |x)= max P(cj j|x) |x) = = maxmax P(cP(cj j|a|a1 1,a,a2 2a am m) ) 第9页/共20页 朴素贝叶斯分类器基于一个简单的假定:朴素贝叶斯分类器基于一个简单的假定:在给在给 定目标值时属性值之间相互条件独立定目标值时属性值之间相互条件独立。换言之,该。

8、换言之,该 假定说明给定实例的目标值情况下,观察到联合的假定说明给定实例的目标值情况下,观察到联合的 a a1 1,a,a2 2a am m的概率正好是对每个单独属性的概率乘积的概率正好是对每个单独属性的概率乘积 12mjij 1 P(a ,a ,.,a | c )=P(a | c ) m i (2)(2) 将将(2) (2) 式其代入式其代入(1)(1)式中,可得到朴素贝叶斯式中,可得到朴素贝叶斯 分类器,如下分类器,如下 第10页/共20页 概括地讲,朴素贝叶斯学习方法需要估计不同的概括地讲,朴素贝叶斯学习方法需要估计不同的P(cP(cj j) )和和 P(aP(ai i|c|cj j)

9、)项,也就是它们在训练数据上的频率。然后使用公式项,也就是它们在训练数据上的频率。然后使用公式(3)(3) 来分类新实例。来分类新实例。 ij P(a | c ) 1 m i C CNB NB=argmax =argmax P(cP(cj j) ) j cC (3 3) 其中其中C CNB NB表示朴素贝叶斯分类器输出的目标值。注意在朴素贝 表示朴素贝叶斯分类器输出的目标值。注意在朴素贝 叶斯分类器中,须从训练数据中估计的不同叶斯分类器中,须从训练数据中估计的不同P(aP(ai i|c|cj j) )项的数量只是项的数量只是 不同的属性值数量乘以不同目标值数量不同的属性值数量乘以不同目标值数量

10、这比要估计这比要估计 P(aP(a1 1,a,a2 2a am m|c|cj j) )项所需的量小得多项所需的量小得多 | () | j j c P c D | (|) | iij ij j AaCc P ac Cc 第11页/共20页 目标概念目标概念PlayTennis的训练样例的训练样例 DayOutlookTemperatu re HumidityWindPlayTenni s D1SunnyHotHighWeakNo D2SunnyHotHighStrongNo D3OvercastHotHighWeakYes D4RainMildHighWeakYes D5RainCoolNorm

11、alWeakYes D6RainCoolNormalStrongNo D7OvercastCoolNormalStrongYes D8SunnyMildHighWeakNo D9SunnyCoolNormalWeakYes D10RainMildNormalWeakYes D11SunnyMildNormalStrongYes D12OvercastMildHighStrongYes D13OvercastHotNormalWeakYes D14RainMildHighStrongNo 现在假设有一个样例现在假设有一个样例x x x = Sunny,Hot,High,Weak 第12页/共20

12、页 表表1 1 类别为类别为c cj j及在及在c cj j条件下条件下A Ai i取取ai的样例数的样例数 OutlookTemperatureHumidityWindPlayTennis SunnyOvercastRainHotMildCoolHighNormalWeakStrong 2432433663Yes9 3022214123No5 第13页/共20页 表2 先验概率P(cj) 和条件概率P(ai|cj) OutlookTemperatureHumidityWindPlayTennis SunnyOvercastRainHotMildCoolHighNormalWeakStrong

13、 2/94/93/92/94/93/93/96/96/93/9Yes9/14 3/502/52/52/51/54/51/52/53/5No5/14 OutlookTemperatureHumidityWindPlayTennis SunnyOvercastRainHotMildCoolHighNormalWeakStrong 2432433663Yes9 3022214123No5 第14页/共20页 现在假设有一个样例现在假设有一个样例x x x = Sunny,Hot,High,Weak 等于等于yes的概率的概率 P(Yes|x) = p(Yes)*p(Sunny|Yes)* p(Hot

14、|Yes)* p(High|Yes)* p(Weak|Yes)* =9/14*2/9*2/9*3/9*6/9 =0.007039 等于等于No的概率的概率 P(No|x) = p(No)*p(Sunny| No)* p(Hot| No)* p(High| No)* p(Weak| No)* =5/14*3/5*2/5*4/5*2/5 =0.027418 P(Yes|x), P(No|x) P(No|x) ,所以我们把所以我们把x分类为分类为No 第15页/共20页 在大多数情况下,观察到的比例在大多数情况下,观察到的比例P(aP(ai i|c|cj j) ) 是对其真实概率的一个良好估计,但当

15、是对其真实概率的一个良好估计,但当 |A|Ai i=a=ai iC=cC=cj j| |很小时估计较差。特别是当很小时估计较差。特别是当 |A|Ai i=a=ai iC=cC=cj j| |等于等于0 0时,时,P(aP(ai i|c|cj j) )也等于也等于0 0,如,如 果将来的待估样例中,包含第果将来的待估样例中,包含第i i个属性的取值个属性的取值 a ai i时,此概率项会在分类器中占统治地位。时,此概率项会在分类器中占统治地位。 第16页/共20页 一般采用一般采用m-m-估计来解决这个问题。估计来解决这个问题。 m-m-估计定义如下:估计定义如下: i ji j nm p nm

16、 |,| ijiikjjj nAaCcnCc pi是将要确定的概率是将要确定的概率P(aP(ai i|c|cj j) )的先验概率,而的先验概率,而m m是等是等 效样本大小的常量,它确定了对于观察到的数据如何衡效样本大小的常量,它确定了对于观察到的数据如何衡 量量pi的作用。在缺少其他信息是选择的作用。在缺少其他信息是选择p p的一种典型方法的一种典型方法 是假定是假定pi =1/|A =1/|Ai i| |。也就是将。也就是将n nj j个实际观察扩大,加上个实际观察扩大,加上m m 个按个按pi分布的虚拟样本。分布的虚拟样本。 第17页/共20页 在本次实现中我们采用的不是在本次实现中我

17、们采用的不是m-m-估计,而是下面一种简单的估计,而是下面一种简单的0 0个个 数比较法。即下面的几条规则。在公式(数比较法。即下面的几条规则。在公式(3 3)中,对每一个类别)中,对每一个类别j j, 统计统计P(aP(ai i|c|cj j)=0)=0的个数,记为的个数,记为z zj j。 。然后按以下 然后按以下3 3条规则得到条规则得到C CNB NB。 1.1.如果对任意的如果对任意的j j,z zj j都为都为0 0,则直接按公式(,则直接按公式(3 3)得到)得到C CNB NB 3.3.如果对任意的如果对任意的j j,z zj j不为不为0 0且不相等,则取且不相等,则取z zj j最小者对应的类别作最小者对应的类别作 为为C CNB NB。若 。若z zj j最小者不唯一,则对这些最小值对应的最小者不唯一,则对这些最小值对应的j j采用第二条规采用第

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论