简单贝叶斯分类课件_第1页
简单贝叶斯分类课件_第2页
简单贝叶斯分类课件_第3页
简单贝叶斯分类课件_第4页
简单贝叶斯分类课件_第5页
已阅读5页,还剩38页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

简单贝叶斯分类监督式的学习方式,因此,在进行分类之前需要先知道分类的类型。通过训练样本的训练学习有效的处理未来要做分类的数据。例:分类垃圾邮件与非垃圾邮件方法:“点击”、“此处”、“取消订阅”出现概率,垃圾邮件各位0.9,正常邮件各为0.2,把信息中所有文字的概率相乘,再利用贝叶斯统计原理,即可估计出该信息为垃圾邮件的概率。概率:概率在实质上就是无知。先验概率:对每种场景的可能性认识就是概率分布P

(Ai)。这样的概率就是先验概率。后验概率:“已知某某事件发生了”情况下某场景的概率,叫做后验概率P(Ai|Y)。概率、先验概率与后验概率定义事件组A1,A2,…,An(n可为),称为样本空间S的一个划分,若满足:A1A2……………AnB贝叶斯定理回顾这一公式最早发表于1763年,当时贝叶斯已经去世,其结果没有受到应有的重视.后来,人们才逐渐认识到了这个著名概率公式的重要性.现在,贝叶斯公式以及根据它发展起来的贝叶斯统计已成为机器学习、人工智能、知识发现等领域的重要工具.

贝叶斯定理回顾贝叶斯公式给出了‘结果’事件B已发生的条件下,‘原因’属于事件Ai的条件概率.

从这个意义上讲,它是一个“执果索因”的条件概率计算公式.相对于事件B而言,概率论中把P(Ai)称为先验概率(PriorProbability),而把P(Ai|B)称为后验概率(PosteriorProbability),这是在已有附加信息(即事件B已发生)之后对事件发生的可能性做出的重新认识,体现了已有信息带来的知识更新.贝叶斯定理回顾分类问题1名称胎生会飞水中生活有腿类别Human是否否是哺乳动物python否否否否非哺乳动物salmon否否是否非哺乳动物whale是否是否哺乳动物frog否否有时是非哺乳动物komodo否否否是非哺乳动物bat是是否是哺乳动物pigeon否是否是非哺乳动物cat是否否是哺乳动物leopard_shark是否是否非哺乳动物turtle否否有时是非哺乳动物penguin否否有时是非哺乳动物porcupine是否否是哺乳动物eel否否是否非哺乳动物salamander否否有时是非哺乳动物gila_monster否否否是非哺乳动物platypus否否否是哺乳动物owl否是否是非哺乳动物dolphin是否是否哺乳动物eagle否是否是非哺乳动物胎生会飞水中生活有腿类别是否是否?分类问题2这个人会不会逃税?税号去年退税婚姻状况可征税收入逃税1是单身125k否2否婚姻中100k否3否单身70k否4是婚姻中120k否5否离婚95k是6否婚姻中60k否7是离婚220k否8否单身85k是9否婚姻中75k否10否单身90k是贝叶斯分类方法方法:使用贝叶斯定理对于分类变量C的所有值计算后验概率P(C|A1,A2,…,An),选择C使得P(C|A1,A2,…,An)最大

等价于选择C使得P(A1,A2,…,An|C)P(C)最大如何估计P(A1,A2,…,An|C)?哪个条件概率更大,这个新观测记录就归到那个类。贝叶斯分类法:二类别问题:在数据集合中,X

表示多维离散随机输入向量,C0

和C1是输出变量的两个类别。对于新观测记录

,它应该属于哪个类别呢?根据贝叶斯定理,1.输入变量为离散时的贝叶斯分类法分类问题1名称胎生会飞水中生活有腿类别Human是否否是哺乳动物python否否否否非哺乳动物salmon否否是否非哺乳动物whale是否是否哺乳动物frog否否有时是非哺乳动物komodo否否否是非哺乳动物bat是是否是哺乳动物pigeon否是否是非哺乳动物cat是否否是哺乳动物leopard_shark是否是否非哺乳动物turtle否否有时是非哺乳动物penguin否否有时是非哺乳动物porcupine是否否是哺乳动物eel否否是否非哺乳动物salamander否否有时是非哺乳动物gila_monster否否否是非哺乳动物platypus否否否是哺乳动物owl否是否是非哺乳动物dolphin是否是否哺乳动物eagle否是否是非哺乳动物胎生会飞水中生活有腿类别是否是否?P(A|M)=P(胎生=是|M)P(会飞=否|M)P(水中生活=是|M)

P(有腿=否|M)

P(A|N)=P(胎生=是|N)P(会飞=否|N)

P(水中生活=是|N)

P(有腿=否|N)

分类问题1A:(胎生=是,会飞=否,水中生活=是,有腿=否)M:哺乳动物N:非哺乳动物P(A|M)P(M)>P(A|N)P(N)=>哺乳动物2.输入变量为连续时的贝叶斯分类法f0(x)和f1(x)

分别是C0

和C1类别上的预测变量(或向量)的概率密度函数

a贝叶斯分类法:二类别问题:在数据集合中,X

表示多维连续随机输入向量,C0

和C1是输出变量的两个类别。对于新观测记录

,它应该属于哪个类别呢?根据贝叶斯定理,2.输入变量为连续时的贝叶斯分类法贝叶斯分类法:二类别哪个条件概率更大,这个新观测记录就归到那个类。贝叶斯分类法:二类别更大(续上页)比较条件概率的方法等价于找

Cj

使得分类问题2税号去年退税婚姻状况可征税收入逃税1是单身125k否2否婚姻中100k否3否单身70k否4是婚姻中120k否5否离婚95k是6否婚姻中60k否7是离婚220k否8否单身85k是9否婚姻中75k否10否单身90k是类别:P(Ck)=Nk/N例如,P(C=否)=7/10,

P(C=是)=3/10Nk

是类别C=Ck.的数量对离散属性:

P(Ai|Ck)=|Aik|/Nk

|Aik|是属性值为Ai

且属于Ck的记录数量例如:

P(婚姻状况=婚姻中|否)=4/7

P(去年退税=是|是)=0对于连续属性:离散化

把属性的范围划分为许多段:

每一段设定一个有序值

这样会违反独立性假设估计概率密度:

假定属性服从正态分布

估计该属性分布的参数

(例如,均值和标准差)

在得到概率密度之后,我们可以使用它估计条件概率P(Ai|c)分类问题2P(X|逃税=否)=P(去年退税=否|逃税=否)

P(婚姻中|逃税=否)

P(收入=120K|逃税=否)

=4/74/70.0072=0.0024P(X|逃税=是)=P(去年退税=否|逃税=是)

P(婚姻中|逃税=是)

P(收入=120K|逃税=是)

=101.210-9=0因为:P(X|否)P(否)>P(X|是)P(是)所以:P(否|X)>P(是|X)

=>逃税=否分类问题2错误分类率的精度定义随机变量Xi

如果第i个记录被错误分类,Xi=1;否则Xi=0.假定Xi独立同分布,且P(Xi=1)=p,P(Xi=0)=q.如果我们认为真正的错误分类率可能在0.05左右,我们希望有99%的信心误差在真实错误分类率的正负0.01以内,我们需要的记录数为:MicrosoftNaiveBayes算法MicrosoftNaiveBayes算法是MicrosoftSQLServer2005AnalysisServices(SSAS)提供的一种分类算法,用于预测性建模。该算法在假定列互不相关的前提下计算输入列和可预测列之间的条件概率。该算法的名称NaiveBayes即由这一无关性假定而来,因为基于这种理想化的假定,该算法未将可能存在的依赖关系考虑在内。与其他Microsoft算法相比,该算法所需的运算量小,因而能够快速生成挖掘模型,以发现输入列和可预测列之间的关系。可以使用该算法进行初始数据探测,然后根据该算法的结果使用其他运算量较大、更加精确的算法创建其他挖掘模型。实验五贝叶斯分类实验内容:生成目标邮件方案,AdventureWorks的市场部希望通过向特定客户发送邮件的方式来提高销售量。公司希望通过调查已知客户的特性来找到可应用于潜在客户的模式。公司希望使用已发现的模式来预测哪些潜在客户最有可能购买自己的产品。公司的数据库AdventureWorksDW包含一个现有客户列表和一个潜在的新客户列表。创建一个目标邮件方案,包含决策树和贝叶斯分类挖掘模型,这些模型能够提供潜在客户列表中最有可能购买产品的客户的建议。ID3方法基本思想当前国际上最有影响的示例学习方法首推J.R.Quinlan的ID3(InterativeDicmiserversions3).

原理:首先找出最有判别力的特征,把数据分成多个子集,每个子集又选择最有判别力的特征进行划分,一直进行到所有子集仅包含同一类型的数据为止。最后得到一棵决策树。J.R.Quinlan的工作主要是引进了信息论中的互信息,他将其称为信息增益(informationgain),作为特征判别能力的度量,并且将建树的方法嵌在一个迭代的外壳之中。平均互信息I(U,V)

=H(U)

H(U|V)

I(U,V)称为U和V之间的平均互信息.它代表接收到符号集V后获得的关于U的信息量。对输入端U只有U1,U2两类,互信息的计算公式为: NO.属性类别天气气温湿度风1晴热高无风N2晴热高有风N3多云热高无风P4雨适中高无风P5雨冷正常无风P6雨冷正常有风N7多云冷正常有风P8晴适中高无风N9晴冷正常无风P10雨适中正常无风P11晴适中正常有风P12多云适中高有风P13多云热正常无风P14雨适中高有风N天

气湿度风晴雨多云高正常有风无风PNNPPID3决策树某天早晨气候描述为:

天气:多云

气温:冷

湿度:正常

风:无风它属于哪类气候呢?实例计算对于气候分类问题进行具体计算有:⒈信息熵的计算信息熵:类别出现概率:|S|表示例子集S的总数,|ui|表示类别ui的例子数。对9个正例和5个反例有:P(u1)=9/14 P(u2)=5/14H(U)=(9/14)log(14/9)+(5/14)log(14/5)=0.94bit⒉条件熵计算条件熵:属性A1取值vj时,类别ui的条件概率:A1=天气取值v1=晴,v2=多云,v3=雨在A1处取值晴的例子5个,取值多云的例子4个,取值雨的例子5个,故:

P(v1)=5/14P(v2)=4/14P(v3)=5/14取值为晴的5个例子中有2个正例、3个反例,故:

P(u1/v1)=2/5,P(u2/v1)=3/5同理有:P(u1/v2)=4/4,P(u2/v2)=0

P(u1/v3)=2/5,P(u2/v3)=3/5H(U/V)=(5/14)((2/5)log(5/2)+(3/5)log(5/3))+(4/14)((4/4)log(4/4)+0)+(5/14)((2/5)log(5/2)+(3/5)log(5/3))=0.694bit⒊互信息计算对A1=天气处有:

I(天气)=H(U)-H(U|V)=0.94-0.694=0.246bit

类似可得:

I(气温)=0.029bitI(湿度)=0.151bitI(风)=0.048bit⒋建决策树的树根和分枝

ID3算法将选择互信息最大的特征天气作为树根,在14个例子中对天气的3个取值进行分枝,3个分枝对应3个子集,分别是:

F1={1,2,8,9,11},F2={3,7,12,13},F3={4,5,6,10,14}

其中F2中的例子全属于P类,因此对应分枝标记为P,其余两个子集既含有正例又含有反例,将递归调用建树算法。⒌递归建树分别对F1和F3子集利用ID3算法,在每个子集中对各特征(仍为四个特征)求互信息.

(1)F1中的天气全取晴值,则H(U)=H(U|V),有I(U|V)=0,在余下三个特征中求出湿度互信息最大,以它为该分枝的根结点,再向下分枝。湿度取高的例子全为N类,该分枝标记N。取值正常的例子全为P类,该分枝标记P。

(2)在F3中,对四个特征求互信息,得到风特征互信息最大,则以它为该分枝根结点。再向下分枝,风取有风时全为N类,该分枝标记N。取无风时全为P类,该分枝标记P。这样就得到下图的决策树。天

气湿度风晴雨多云高正常有风无风PNNPPID3决策树C4.5算法

ID3算法在数据挖掘中占有非常重要的地位。但是,在应用中,ID3算法不能够处理连续属性、计算信息增益时偏向于选择取值较多的属性等

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论