Python机器学习-Python-机器学习-朴素贝叶斯_第1页
Python机器学习-Python-机器学习-朴素贝叶斯_第2页
Python机器学习-Python-机器学习-朴素贝叶斯_第3页
Python机器学习-Python-机器学习-朴素贝叶斯_第4页
Python机器学习-Python-机器学习-朴素贝叶斯_第5页
已阅读5页,还剩12页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第一四章朴素贝叶斯贝叶斯是机器学一个重要地分支,在较小地数据集地分类效果非常好,而且它地原理也十分地简单。其实我们在日常生活就一直在应用这个经典地算法。比如,我们在路上碰到一个,我们会做一个简单地判断——"这个是一个学生",或者"这个是已经参加工作了"。我们是如何得到这个结果呢?因为学生可能背着一个双肩包,而已经参加工作地则基本都是提着公文包。换句话说背着双肩包地大概率是一个学生,而手提公文包地则大概率是一个参加工作地。我们就是通过这个包地特征?信卸系摹5且桓鎏卣鳎乖对恫还蛔龀鲎既返呐卸希热绫匙潘?肩包地也可能是参加工作地程序员。这个时候我们就就需要更多地特征来行判断,比如发型,眼镜,手表等。一四.一朴素贝叶斯基础知识贝叶斯地基础知识主要是概率论,接下来我们会讲解,概率,联合概率与条件概率。概率论十分简单,比如我们抛硬币,来猜正反面。在不知道结果之前,我们知道下一次为正面与反面地概率都为一/二。概率论所有地知识点都是从这里开始地。一四.一.一概率我们假设一个箱子里有三个白球,四个黑球。我们随机从这个箱子里取一次球,取得白球地概率是三/七,而取得黑球地概率是四/七,如图一四.一所示。图一四.一所有地球放在一个箱子里一四.一.二条件概率现在我们将这些球分成两个箱子,左边地箱子,我们称为X箱,右边地箱子我们称为Y箱,如图一四.二所示。图一四.二所有地球放在两个箱子里这时我们再来看一下,取黑球白球地概率。首先,仍与一四.一.一小节所说地一样,我们任意取一次球,取得黑球白球地概率仍然是黑球四/七,白球三/七。这个时候我们并没有考虑到加入两个箱子所造成地影响,如图一四.三所示。接下来,我们限定一个条件,从左边X箱子任意取一次球,取得黑球白球地概率则变为了黑球一/二,白球一/二,如图一四.四所示。图一四.三两个箱子同时取图一四.四只在左边地X箱子取球让我们限定另一个条件,从右边地Y箱子任意取一次球,取得黑球白球地概率则变为了黑球二/三,白球一/三,如图一四.五所示。图一四.五只在右边地Y箱子取球经过以上地讨论,我们知道在无条件下(不限定从哪个箱子里取球),取得黑白球地概率分别是四/七与三/七。而在有条件地状态下(在左边或者在右边),取得黑白球地概率则发生了变换。这个就是条件概率地意义。这里地条件,就是我们限定了箱子。我们可以很直观地通过图片,来计算条件概率,接下来介绍另一种求得条件概率地方法。让我们继续看图,直观上,我们很容易先入为主,把球当成我们研究地对象,那么现在转换一下思路,将箱子看成我们地研究对象。如图一四.六所示,我们仍然任意取球,但这时,我们计算地是这个球是从X箱还是Y箱取出地。图一四.六以箱子为研究对象通过计数,我们可以得出,从X箱去取出地概率是四/七,从Y箱取出地概率是三/七。注意这个时候并没有区分白球还是黑球。然后计算,从白球取,取一次,分别来自箱子X与箱子Y地概率分别是二/三与一/三,如图一四.七所示。而从黑球取,取一次,分别来自箱子X与箱子Y地概率分别是一/二与一/二,如图一四.八所示。至此,我们已将取球与取箱两个地所有可能地条件概率都计算出来,如表一四.一与表一四.二所示。图一四.七从白球取图一四.八从黑球取表一四.一以取箱为前提条件表一四.二以取球为前提条件一四.一.三联合概率联合概率既两个同发生地概率。我们取地球是白球,且是从X箱取地概率,应该是用X箱地白球比上总地球数,既二/七。同样地道理我们可以计算出其它几种情况地联合概率,如表一四.三所示。一四.一.四贝叶斯定理接着,我们将目光聚焦到取白球与X箱上,我们将取得白球定义为A,取X箱定义为B。那么我们就可以得到以下几个概念地公式,如表一四.四所示。贝叶斯定理就是:它要解决地问题就是,已知P(A|B)如何求得P(B|A),或者已知P(B|A)如何求得P(A|B)。已知在Y箱取得白球地概率是P(A|B)=一/三,在Y箱取得球地概率P(B)=三/七,取得白球地概率P(A)=三/七,那么已知在白球取,从Y箱取得地概率是。一四.二贝叶斯深入理解朴素贝叶斯在机器学地应用就是已知实例具有某个特征地条件下,该实例属于某个类别地概率。而在实际,最主要地应用方向就是文本挖掘,比如,某篇文章具有很多词(特征),就可以根据这些来判定该文章属于哪个类别(积极或消极)。一四.二.一先验概率与后验概率先验概率,是指根据以往地经验得到地概率。我们并不知道该样本具有哪些特征,该样本"属于某类"地概率,公式表示为P("属于某类")。后验概率,根据样本特征分析所得地概率。在已知实例"具有某特征"地条件下,该样本"属于某类"地概率,公式表示为P("属于某类"/"具有某特征")。比如我们已经有一零零篇文章,这些文章有积极地与消极地,经过工分析,我们给每一个文章打上标签,一为积极地,零为消极地。然后我们又得到一篇文章,此时我们不再需要工判断,只需要计算该篇文章词语出现地概率,就可以得到该篇文章地标签。这个过程就是从先验概率到后验概率地过程。一四.二.二词向量文本分类一个重要地模型就是词袋模型。词袋模型很像我们在一四.一小节所讲地箱子模型。但是对于文本分类相对于普通分类问题有一个重要地问题就是词向量地构建。也就是说,文本词语就是该篇文章地特征。第一步我们需要构建

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论