朴素贝叶斯方法处理缺失值ppt课件_第1页
朴素贝叶斯方法处理缺失值ppt课件_第2页
朴素贝叶斯方法处理缺失值ppt课件_第3页
朴素贝叶斯方法处理缺失值ppt课件_第4页
朴素贝叶斯方法处理缺失值ppt课件_第5页
已阅读5页,还剩15页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 结 构u贝叶斯实际u贝叶斯分类器 =A1A2.Am,是由一切未知类别的能够样本组成的集合; c=A1A2.AmC是由一切知类别的样本组成的集合。D c是训练样例集合。 中的元素x表示为x = 。 c中的元素x表示为x = 。其中ai表示第i个属性的某个取值。 我们用Ai表示第i个属性,C表示决策属性;aik表示第i个属性的第k个取值,cj表示第j类;加上绝对值那么表示相应的个数,如|Ai|表示第i个属性的取值个数,|cj|表示第j类样例个数。 设x是一个类别未知的数据样本,cj为某个类别,假设数据样本x属于一个特定的类别cj,那么分类问题就是决议P(cj|x),即在获得数据样本x时,确定x的

2、最正确分类。所谓最正确分类,一种方法是把它定义为在给定数据集D中不同类别cj先验概率的条件下最能够most probable分类。贝叶斯实际提供了计算这种能够性的一种直接方法 更准确地讲,贝叶斯法那么基于假设的先验概率、给定假设下察看到不同数据的概率,提供了一种计算假设概率的方法u 先验概率P(cj)P( cj|x) =P(x|cj)P(cj)P(x)u 结合概率P(x|cj)u 后验概率P(cj|x) 假设没有这一先验知识,那么可以简单地将每一候选类别赋予一样的先验概率。不过通常我们可以用样例中属于cj的样例数|cj|比上总样例数|D|来近似,即 P(cj)代表还没有训练数据前,cj拥有的初

3、始概率。P(cj)常被称为cj的先验概率(prior probability) ,它反映了我们所拥有的关于cj是正确分类时机的背景知识,它应该是独立于样本的。jj|c |P(c )= |D| 结合概率是指当知类别为cj的条件下,看到样本x出现的概率。 假设设假设设x = x = 那么那么P(x|cj)= P(a1,a2am| cj)P(x|cj)= P(a1,a2am| cj) 即给定数据样本x时cj成立的概率,而这正是我们所感兴趣的 P(cj|x ) P(cj|x )被称为被称为C C的后验概率的后验概率posterior posterior probabilityprobability,由

4、于它反映了在看到数据样,由于它反映了在看到数据样本本x x后后cjcj成立的置信度成立的置信度设设x = x = ,为一个有,为一个有m m个属性的样个属性的样例例= max = max P(a1,a2am|cj)P(cj)P(a1,a2am|cj)P(cj)P(a1,a2am)P(a1,a2am)= max P(a1,a2am|cj)P(cj)= max P(a1,a2am|cj)P(cj)(1)(1)P(cMAP|x)= max P(cj|x) j(1,|C|)P(cMAP|x)= max P(cj|x) j(1,|C|)= max P(cj|a1,a2am)= max P(cj|a1,a

5、2am) 朴素贝叶斯分类器基于一个简单的假定:在给朴素贝叶斯分类器基于一个简单的假定:在给定目的值时属性值之间相互条件独立。换言之,该定目的值时属性值之间相互条件独立。换言之,该假定阐明给定实例的目的值情况下,察看到结合的假定阐明给定实例的目的值情况下,察看到结合的a1,a2ama1,a2am的概率正好是对每个单独属性的概率乘的概率正好是对每个单独属性的概率乘积积 12mjij1P(a ,a ,.,a | c )=P(a | c )mi(2)(2) 将将(2) (2) 式其代入式其代入(1)(1)式中,可得到朴素贝叶斯式中,可得到朴素贝叶斯分类器,如下分类器,如下 概括地讲,朴素贝叶斯学习方法

6、需求估计不同的概括地讲,朴素贝叶斯学习方法需求估计不同的P(cj)P(cj)和和P(ai|cj)P(ai|cj)项,也就是它们在训练数据上的频率。然后运用公式项,也就是它们在训练数据上的频率。然后运用公式(3)(3)来分类新实例。来分类新实例。ijP (a | c )1mi CNB=argmax CNB=argmax P(cj)P(cj)jcC3 3 其中其中CNBCNB表示朴素贝叶斯分类器输出的目的值。留意表示朴素贝叶斯分类器输出的目的值。留意在朴素贝叶斯分类器中,须从训练数据中估计的不同在朴素贝叶斯分类器中,须从训练数据中估计的不同P(ai|cj)P(ai|cj)项的数量只是不同的属性值数

7、量乘以不同目的项的数量只是不同的属性值数量乘以不同目的值数量值数量这比要估计这比要估计P(a1,a2am|cj)P(a1,a2am|cj)项所需的量小得项所需的量小得多多|() |jjcP cD|(|)|iijijjAaCcP acCc目的概念目的概念PlayTennisPlayTennis的训练样例的训练样例 DayOutlookTemperatureHumidityWindPlayTennisD1SunnyHotHighWeakNoD2SunnyHotHighStrongNoD3OvercastHotHighWeakYesD4RainMildHighWeakYesD5RainCoolNor

8、malWeakYesD6RainCoolNormalStrongNoD7OvercastCoolNormalStrongYesD8SunnyMildHighWeakNoD9SunnyCoolNormalWeakYesD10RainMildNormalWeakYesD11SunnyMildNormalStrongYesD12OvercastMildHighStrongYesD13OvercastHotNormalWeakYesD14RainMildHighStrongNo如今假设有一个样例如今假设有一个样例x xx = Sunny,Hot,High,Weakx = Sunny,Hot,High,

9、Weak表表1 1 类别为类别为cjcj及在及在cjcj条件下条件下AiAi取取aiai的样例的样例数数OutlookTemperatureHumidityWindPlayTennisSunnyOvercastRainHotMildCoolHighNormalWeakStrong2432433663Yes93022214123No5表2 先验概率P(cj) 和条件概率P(ai|cj)OutlookTemperatureHumidityWindPlayTennisSunnyOvercastRainHotMildCoolHighNormalWeakStrong2/94/93/92/94/93/93

10、/96/96/93/9Yes9/143/502/52/52/51/54/51/52/53/5No5/14OutlookTemperatureHumidityWindPlayTennisSunnyOvercastRainHotMildCoolHighNormalWeakStrong2432433663Yes93022214123No5如今假设有一个样例如今假设有一个样例x xx = Sunny,Hot,High,Weakx = Sunny,Hot,High,Weak等于等于yes的概率的概率 P(Yes|x)= p(Yes)*p(Sunny|Yes)* p(Hot|Yes)* p(High|Ye

11、s)* p(Weak|Yes)*=9/14*2/9*2/9*3/9*6/9=0.007039等于等于No的概率的概率 P(No|x) = p(No)*p(Sunny| No)* p(Hot| No)* p(High| No)* p(Weak| No)*=5/14*3/5*2/5*4/5*2/5=0.027418 在大多数情况下,察看到的比例在大多数情况下,察看到的比例P(ai|cj)P(ai|cj)是对其真实概率的一个良好估计,但当是对其真实概率的一个良好估计,但当|Ai=aiC=cj|Ai=aiC=cj|很小时估计较差。特别是当很小时估计较差。特别是当|Ai=aiC=cj|Ai=aiC=cj

12、|等于等于0 0时,时,P(ai|cj)P(ai|cj)也等于也等于0 0,假设未来的待估样例中,包含第假设未来的待估样例中,包含第i i个属性的取个属性的取值值aiai时,此概率项会在分类器中占统治位置。时,此概率项会在分类器中占统治位置。 普通采用普通采用m-m-估计来处理这个问题。估计来处理这个问题。m-m-估计定义如下:估计定义如下:i jijnm pnm|,|ijiikjjjnAaCcnCc pi是将要确定的概率是将要确定的概率P(ai|cj)的先验概率,而的先验概率,而m是等是等效样本大小的常量,它确定了对于察看到的数据如何衡效样本大小的常量,它确定了对于察看到的数据如何衡量量pi

13、的作用。在短少其他信息是选择的作用。在短少其他信息是选择p的一种典型方法的一种典型方法是假定是假定pi =1/|Ai|。也就是将。也就是将nj个实践察看扩展,加上个实践察看扩展,加上m个按个按pi分布的虚拟样本。分布的虚拟样本。在本次实现中我们采用的不是在本次实现中我们采用的不是m-m-估计,而是下面一种简单的估计,而是下面一种简单的0 0个数个数比较法。即下面的几条规那么。在公式比较法。即下面的几条规那么。在公式3 3中,对每一个类别中,对每一个类别j j,统计统计P(ai|cj)=0P(ai|cj)=0的个数,记为的个数,记为zjzj。然后按以下。然后按以下3 3条规那么得到条规那么得到CNBCNB。1.1.假设对恣意的假设对恣意的j j,zjzj都为都为0 0,那么直接按公式,那么直接按公式3 3得到得到CNBCNB3.3.假设对恣意的假设对恣意的j j,zjzj不为不为0 0且不相等,那么取且不相等,那么取zjzj最小者对应的类别最小者对应的类别作为作为CNBCNB。假设。假设zjzj最小者不独一,那么对这些最小值对应的最小者不独一,那么对这些最小值对应的j j采用第采用第二条规那么进展判别。二条规那么进展判别。2.2.假设对

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论