机器学习原理与应用课件 第5章 朴素贝叶斯_第1页
机器学习原理与应用课件 第5章 朴素贝叶斯_第2页
机器学习原理与应用课件 第5章 朴素贝叶斯_第3页
机器学习原理与应用课件 第5章 朴素贝叶斯_第4页
机器学习原理与应用课件 第5章 朴素贝叶斯_第5页
已阅读5页,还剩33页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第5章

朴素贝叶斯1学习目标理解朴素贝叶斯的基本原理掌握Scikit-learn库构建不同类型朴素贝叶斯模型的基本方法122目录页35.1基本原理5.2应用实例朴素贝叶斯5.1基本原理朴素贝叶斯算法利用贝叶斯定理构建分类模型,同时通过特征相互独立(即朴素的基本含义)的假设简化模型求解的复杂度。45.1基本原理贝叶斯原理相关概念:1.先验概率:通过经验判断事件发生的概率(如乳腺癌发病率为24.2%且52.9%发生在发展中国家、微博用户男生比例占55%等)2.后验概率:事件发生后推测起因的概率(如已知病人患有“乳腺癌”的情况下推断遗传因素、营养过剩等导致“乳腺癌”起因的概率)3.条件概率:当前事件在另一事件已发生情况下的发生概率(如在已知存在“遗传因素”的情况下“乳腺癌”发病的概率)4.似然函数:用于确定模型参数的函数。概率描述已知参数时变量的输出,而似然则描述已知变量输出时未知参数的可能取值55.1.1基本概念

65.1.1基本概念

75.1.1基本概念

85.1.1基本概念

95.1.1基本概念

105.1.1基本概念表1所示的“学生作息与成绩关系”数据,此处以预测“出勤=早、休息=晚”学生成绩的好或差为例描述其基本过程11序号出勤休息成绩1早晚好2早早好3早晚差4晚早差5晚晚好6早晚好7早早好8晚早差9晚晚差10早晚好表1学生作息与成绩关系数据5.1.1基本概念

125.1.1基本概念

135.1.1基本概念

145.1.2主要类型在Scikit-learn库native_bayes模块中,根据特征的类条件概率可将朴素贝叶斯模型分为:(1)高斯朴素贝叶斯(GaussianNB)GaussianNB假设特征的类条件概率服从正态分布(均值与方差根据训练数据估计)。(2)多项式朴素贝叶斯(MultinomialNB)MultinomialNB假设特征的类条件概率服从多项式分布,与适于连续型特征取值的GaussianNB不同,其更适于离散型特征情况下分类问题的求解。155.1.2主要类型(3)伯努利朴素贝叶斯(BernoulliNB)BernoulliNB假设特征的类条件概率服从伯努利分布,即数据包含多个特征,而每个特征的取值仅有两种;因而,与MultinomialNB不同,BernoulliNB更关注事件是否存在而非发生的次数。165.1.2主要类型(4)补集朴素贝叶斯(ComplementNB)ComplementNB主要用于解决朴素贝叶斯中的“朴素”假设以及样本不均衡等因素产生的各种问题(在计算每个类别的分类概率时,传统的朴素贝叶斯分类器可能会倾向于预测样本数较多的类别)。具体而言,对于指定类别及其补集,ComplementNB首先计算相应特征条件概率的乘积,然后利用两者之商作为指定类别最终的分类概率。175.2应用实例(1)高斯朴素贝叶斯(GaussianNB)导入方法:fromsklearn.naive_bayesimportGaussianNB函数原型:GaussianNB()185.2应用实例(2)多项式朴素贝叶斯(MultinomialNB)导入方法:fromsklearn.naive_bayesimportMultinomialNB函数原型:classsklearn.naive_bayes.MultinomialNB(alpha=1.0,fit_prior=True,class_prior=None)195.2应用实例(3)伯努利朴素贝叶斯(BernoulliNB)导入方法:fromsklearn.naive_bayesimportBernoulliNB函数原型:classsklearn.naive_bayes.BernoulliNB(alpha=1.0,binarize=0.0,fit_prior=True,class_prior=None)205.2应用实例(4)补集朴素贝叶斯(ComplementNB)导入方法:fromsklearn.naive_bayesimportComplementNB函数原型:classsklearn.naive_bayes.ComplementNB(alpha=1.0,fit_prior=True,class_prior=None,norm=False)215.2.1高斯朴素贝叶斯高斯朴素贝叶斯分类器假定每个特征的条件概率均服从高斯分布,进而可根据贝叶斯公式计算新样本属于各个类别的后验概率,最后通过最大化后验概率来确定样本的所属类别。在实际中,若特征分布形态未知或不易确定时,通常可先采用高斯朴素贝叶斯分类器进行初始分类或预测,若相应的精度达不到指定标准,则可尝试其他类型的朴素贝叶斯分类器。案例5-1:成绩预测(1)问题描述如表1所示“学生作息与成绩关系”数据构建高斯朴素贝叶斯分类器以实现新样本的预测(2)编程实现见5-1成绩预测.py225.2.1高斯朴素贝叶斯(3)结果分析成绩为好或差:[[0.98406780.0159322]]成绩类别:[0]预测精度:0.8235.2.1高斯朴素贝叶斯案例5-2:红酒分类(1)问题描述利用高斯朴素贝叶斯分类器对Scikit-learn库中的红酒数据进行分类,具体要求如下:①利用训练样本构建模型,然后利用测试样本测试模型的精度。②对分类结果进行可视化。(2)编程实现见5-2红酒分类.py245.2.1高斯朴素贝叶斯(3)结果分析预测精度:0.981481481481481525高斯朴素贝叶斯分类效果图(方形:训练样本,圆形:测试样本)5.2.2多项式朴素贝叶斯多项式朴素贝叶斯主要适用于离散型特征(如次数、频率、计数等)相关的分类问题的求解。例如,在文本分类问题中判断一段文本是属于教育类别还是军事类别,此时仅需求取两者相应的概率P(教育|文本)与P(军事|文本)的大小即可(其中最大者相应的类别即为文本所属类别);其中,由于文本本身由多个关键词构成,因而概率P(教育|文本)与P(军事|文本)可转化为求取P(教育|关键词1,关键词2,关键词3...)与P(军事|键词1,关键词2,关键词3...),进而可通过贝叶斯公式将概率求取问题转化为不同关键词出现频率统计的问题。265.2.2多项式朴素贝叶斯实例5-3:特征离散化(1)问题描述首先构造包含两个特征的样本集,然后完成以下实验:①对样本集进行归一化处理。②将样本集划分为训练样本与测试样本,然后利用训练样本构建多项式朴素贝叶斯模型并利用测试样本测试其精度。③查看相关先验概率与类条件概率。④对原特征进行离散化处理并重新进行模型训练与测试。(2)编程实现见实例5-3特征离散化.py275.2.2多项式朴素贝叶斯(3)结果分析类先验概率:[0.482857140.51714286]类条件概率:[[0.506365280.49363472][0.466060450.53393955]]预测精度:0.46数据基本结构:(700,20)预测精度:1.0每个特征值离散为10个独热编码值,两个特征相应独热编码值共20个。以离散化后的特征值训练MultinomialNB模型,其精度可提高到1.0285.2.2多项式朴素贝叶斯实例5-4:文本分类。(1)问题描述首先下载Scikit-learn库fetch_20newsgroups数据(包含18846篇新闻文本及20个新闻类别),然后统计文本中的词频并构建多项式朴素贝叶斯分类器对文本进行分类。(2)编程实现见实例5-4:文本分类.py295.2.2多项式朴素贝叶斯(3)结果分析预测精度:0.82本例首先对文本进行分词、词频统计与向量化处理,进而生成多项式朴素贝叶斯分类器构建相应的样本。由于分类器自身性能以及特征取值分布的影响,利用测试样本对多项式朴素贝叶斯分类器进行测试的精度为0.82。305.2.3伯努利朴素贝叶斯伯努利朴素贝叶斯与多项式朴素贝叶斯非常相似,但与多项式朴素贝叶斯不同的是其偏重于解决“是否存在”问题而非次数或频率问题;例如,在文本分类中,伯努利朴素贝叶斯使用标示关键词“是否出现”的0/1值而非关键词出现的次数或频率构建样本以构建分类器。315.2.3伯努利朴素贝叶斯(1)问题描述Scikit-learm库手写数字数据集包含1797个手写数字样本,每个样本为8×8二维数组(元素取值为0-16之间的整数),相应分类标记为0-9之间的整数。利用伯努利朴素贝叶斯分类器实现Scikit-learn库手写数字样本的分类。(2)编程实现见5.2.3伯努利朴素贝叶斯.py325.2.3伯努利朴素贝叶斯(3)结果分析(1797,64)(1797,)测试精度:0.84提高相应的精度。33伯努利朴素贝叶斯分类器5.2.4补集朴素贝叶斯补集朴素贝叶斯通过考虑每个类别的补集解决类别不平衡的问题,在实际中能够更好地适应样本数较少的类别。然而,由于需要计算每个类别及其补集的概率,因而计算复杂度相对较高。(1)问题描述首先构造两类数量不均衡的样本并将其划分为训练样本与测试样本,然后利用训练构建高斯朴素贝叶斯、多项式朴素贝叶斯、伯努利朴素贝叶斯与补集朴素贝叶斯分类器并利用测试样本测试其性能(求取并对比相应的精度、召回率与AUC值)。(2)编程实现见5.2.4补集朴素贝叶斯.py345.2.4补集朴素贝叶斯(3)结果分析Gaussian Accuracy:0.997 Recall:0.463 AUC:0.989Multinomial Accuracy:0.996 Recall:0.000

AUC:0.98035Bernoulli Accuracy:0.989 Recall:0.604 AUC:0.979Complement Accuracy:0.933 Recall:0.963 AUC:0.9805.2.4补集朴素贝叶斯(3)结果分析高斯与多项式朴素贝叶斯对不均衡数据较为敏感,召回率相对较低;相对而言,伯努利与补集朴素贝叶斯可较好地缓解数据不均衡问题,尤其是补集朴素贝叶斯,其虽然精度不高,但对不均衡数据适应性较好。此外,在特征取值连

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论