Python机器学习项目化教程(微课视频版)课件 第3章 朴素贝叶斯分类器_第1页
Python机器学习项目化教程(微课视频版)课件 第3章 朴素贝叶斯分类器_第2页
Python机器学习项目化教程(微课视频版)课件 第3章 朴素贝叶斯分类器_第3页
Python机器学习项目化教程(微课视频版)课件 第3章 朴素贝叶斯分类器_第4页
Python机器学习项目化教程(微课视频版)课件 第3章 朴素贝叶斯分类器_第5页
已阅读5页,还剩22页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第3章朴素贝叶斯分类器目录CONTENTS3.1贝叶斯分类器理论基础3.2朴素贝叶斯分类器原理与设计3.3朴素贝叶斯分类器算法实现3.4正态贝叶斯分类器3.5贝叶斯网络3.6本章小结3.1贝叶斯分类器理论基础学习基础学习认知能力信息素养高先验概率(PriorProbability):在没有训练样本数据前,根据以往经验和分析得到的概率,初始时假设样本h的初始概率,用P(h)表示。后验概率(PosteriorProbability):当下事件由因及果发生的概率,求导致该事件发生的原因是由某个因素引起的可能性的大小。由样本属性x导致分类为c的概率P(c|x)就称为后验概率。后验概率(PosteriorProbability):后验概率也是一种条件概率,它是根据事件结果求事件发生原因的概率。例如,上课又迟到了,这是事件的结果,而造成这个结果的原因可能是早上起床晚了,或感冒发烧需要先去看病,P(起床晚了|上课迟到)和P(感冒发烧|上课迟到)就是后验概率。0102033.1贝叶斯分类器理论基础学习基础信息素养高类条件概率(ClassConditionalProbability):当下事件由果及因发生的概率。样本x相对于类标签c的概率,也称为似然,记作P(x|c)。注意区分几个概念:(1)先验概率是不依赖观测数据的概率分布,在朴素贝叶斯中,类别的概率就是先验概率,记为p(c)。(2)事情已经发生,计算这件事情发生的原因是由某个因素引起的可能性的大小,是后验概率。后验概率的计算要以先验概率为基础。(3)“似然”描述的是在给定了特定观测值的条件下,模型参数的合理性。通常用于建模过程中,选取合适的参数使模型更好地拟合数据。043.1贝叶斯分类器理论基础如果A和B是样本空间Ω的两个事件,在给定A条件下B的概率为:推广到一般形式,设A是样本空间Ω上的事件,B是样本空间Ω上的一个划分,3.1贝叶斯分类器理论基础【例3-1】某地区Y病毒的感染率为0.05,在实际检查过程中,可能会由于技术及操作等原因使病毒携带者未必能检查出阳性反应,同样不带病毒也可能会检查出阳性。假设P(阳性|携带病毒)=0.98,P(阳性|不携带病毒)=0.04,假设某人检查出阳性,他带病毒的概率是多少?由于P(阳性|携带病毒)=0.98,P(阳性|不携带病毒)=0.04,则P(阴性|携带病毒)=0.02,P(阴性|不携带病毒)=0.96。根据贝叶斯公式和全概率公式,有3.1贝叶斯分类器理论基础3.1贝叶斯决策理论基础

极大似然估计为了估计类条件概率,可以先假设其服从某种确定的概率分布,再利用训练样本对概率分布的参数进行估计。这就是极大似然估计(MaximumLikelihoodEstimation,MLE)的算法思想,极大似然估计提供了一种给定观察数据来评估模型参数的方法,即:模型已定,参数未知。通过若干次实验,观察其结果,利用实验结果得到某个参数值能够使样本出现的概率为最大,则称为极大似然估计。假设Tc表示训练集T中第c类样本集合,且这些样本是独立同分布的,则参数对于数据集Tc的似然为:3.1贝叶斯决策理论基础找出参数空间中能使取最大参数值的,其实就是求解:假设样本服从均值为、方差为的正态分布,对其求对数:3.1贝叶斯决策理论基础求最大似然估计量的一般步骤如下:(1)写出似然函数(2)对似然函数取对数,并整理(3)对的相应参数求偏导(4)解似然方程,得到参数的值。3.1贝叶斯定理相关概念一个单变量正态分布密度函数为:其正态分布的概率密度函数如图所示。与μ越近的值,其概率越大,反之,其概率值越小。σ描述数据分布的离散程度,σ越大,数据分布越分散,曲线越扁平;σ越小,数据分布越集中,曲线越瘦高。3.1贝叶斯决策理论基础对于多变量的正态分布,假设特征向量是服从均值向量为、协方差矩阵为的n维正态分布,其中,类条件概率密度函数为:3.2朴素贝叶斯分类器原理与设计西瓜数据集如表3-1所示。3.2朴素贝叶斯分类器原理与设计假设我们要判断第3条西瓜数据是否为好瓜,即:根据表3-1的西瓜数据集,有好瓜和坏瓜的先验概率:假设各特征是相互独立的,则有3.2朴素贝叶斯分类器原理与设计dataTrain=np.array(dataTrain)y=dataTrain[:,-1]good=np.sum(y=='好瓜') #好瓜的数量bad=np.sum(y=='坏瓜') #坏瓜的数量#好瓜和坏瓜的先验概率prior_good=good/len(y)prior_bad=bad/len(y)3.2朴素贝叶斯分类器原理与设计3.2朴素贝叶斯分类器原理与设计颜色概率0.3750.333敲声概率0.750.444纹路概率0.8750.222颜色概率0.50.222敲声概率0.250.333纹路概率0.8750.222颜色概率0.50.222敲声概率0.750.444纹路概率0.8750.222准确率88.24%3.2朴素贝叶斯分类器原理与设计为了解决零概率的问题,法国数学家拉普拉斯最早提出用加1的方法估计没有出现过的现象的概率,因此这种平滑(Smoothing)方法也称为拉普拉斯平滑(LaplacianSmoothing)。引入拉普拉斯平滑技术后,修正后的类先验概率和类条件概率可表示为:朴素贝叶斯分类器的优点:(1)对小规模数据表现很好,能处理多分类任务;(2)算法比较简单,常用于文本分类;(3)有稳定的分类效率,对缺失数据不太敏感;(4)适合增量式训练,当数据量超出内存时,可一批一批读取数据进行增量训练。3.3朴素贝叶斯分类器算法实现从fish.xlsx文件中读取鲈鱼和三文鱼的长度、亮度数据,其中,前n/2条数据为鲈鱼,后n/2为三文鱼,分别从鲈鱼和三文鱼数据中随机取出50%作为训练集,其余的50%作为测试集。13.3朴素贝叶斯分类器算法实现2生成三文鱼和鲈鱼的概率密度。根据生成长度和亮度数据,利用均值和方差公式直接计算长度和亮度特征的均值和方差。3.3朴素贝叶斯分类器算法实现3计算三文鱼和鲈鱼的后验概率。根据得到三文鱼和鲈鱼的长度、亮度特征类条件概率,利用朴素贝叶斯公式计算出它们的后验概率。3.3朴素贝叶斯分类器算法实现计算分类正确率。#假设长度和亮度是互相完全独立的,根据朴素贝叶斯公式和联合概率密度公式计算出鲈鱼和三文鱼的类条件概率,计算分类的正确率和错误率count1=0count2=0foriinrange(n//4):#长度特征post_length_pred1=stats.norm(perch_Mean_Length,perch_Variance_Length).pdf(perch_test[i,0])#将鲈鱼分为鲈鱼post_length_pred2=stats.norm(salmon_Mean_Length,salmon_Variance_Length).pdf(perch_test[i,0])#将鲈鱼分为三文鱼

precision_salmon:1.0precision_perch:0.834precision_bayes:0.91743.4正态贝叶斯分类器假设样本的特征向量服从正态分布,则这样的贝叶斯分类器就称为正态贝叶斯分类器或高斯贝叶斯分类器。更一般地,样本的特征并不是相互独立的。根据分类判决规则,在预测时需要寻找具有最大条件概率值的那个类,即最大化后验概率,等价于求每个类中最大的那个。对取对数,公式为:3.5贝叶斯网络贝叶斯网络(BayesianNetwork),又称信念网络(BeliefNetwork),是一种概率图模型(ProbabilisticGraphicalModel,PGD),它是一种模拟人类推理过程中因果关系的不确定性处理模型,可通过有向无环图(DirectedAcyclicGraph,DAG)来表示。3.5贝叶斯网络假设:随机变量w(weather):天气随机变量m(mood):心情随机变量p(play):打羽毛球随机变量r(restaurant):下餐馆吃饭随机变量f(film):看电影变量S对变量L和变量E有因果影响,而变量C对变量E也有因果影响。3.5贝叶斯网络

#验证模型:检查网络结构和CPD,并验证CPD是否正确定义和总和为1model.check_model()#获取结点“w(天气情况)”的概率表:

print(model.get_cpds("w"))#获取整个贝叶斯网络的局部依赖:print(model.local_independencies(['p','r','f']))#推测“f(是否看电影)”的节点概率,在pgmpy中我们只需要省略额外参数即可计算出条件分布概率

infer=VariableElimination(model)print(infer.query(['f'],evidence={'p':1,'p':0}))#变量消除法是精确推断的一种方法

asia_infer=VariableElimination(model)q=asia_infer.query(variables=['r'],evidence={'p':0})print(q)q=asia_infer.qu

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论