贝叶斯算法完整版本_第1页
贝叶斯算法完整版本_第2页
贝叶斯算法完整版本_第3页
贝叶斯算法完整版本_第4页
贝叶斯算法完整版本_第5页
已阅读5页,还剩21页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

贝叶斯算法

201901贝叶斯定理的含义02朴素贝叶斯分类03贝叶斯算法的应用Contents目录贝叶斯定理的含义01标题文本预设贝叶斯定理贝叶斯(ThomasBayes,1702-1761)出生于伦敦,毕业于爱丁堡大学,英国数学家。贝叶斯做过神甫。1742年成为英国皇家学会会员。1761年4月7日逝世。贝叶斯在数学方面主要研究概率论。他首先将归纳推理法用于概率论基础理论,并创立了贝叶斯统计理论,对于统计决策函数、统计推断、统计的估算等做出了贡献。标题文本预设标题文本预设文本预设标题文本预设文本预设标题文本预设文本预设标题文本预设文本预设文本预设贝叶斯公式的推导Step1Step2Step3Step4标题文本预设标题文本预设标题文本预设文本预设标题文本预设文本预设标题文本预设文本预设文本预设贝叶斯定理

贝叶斯定理实际上就是计算”条件概率“的公式。所谓”条件概率”就是指在事件B发生的情况下,事件A发生的概率,用P(A|B)来表示。Bayes定理可表述为:后验概率=(相似度*先验概率)/标准化常量,也就是说,后验概率与先验概率和相似度的乘积成正比。P(A|B)是在B发生的情况下A发生的可能性。首先,事件B发生之前,我们对事件A的发生有一个基本的概率判断,称为A的先验概率,用P(A)表示;其次,事件B发生之后,我们对事件A的发生概率重新评估,称为A的后验概率,用P(A|B)表示类似的,事件A发生之前,我们对事件B的发生有一个基本的概率判断,称为B的先验概率,用P(B)表示;同样,事件A发生之后,我们对事件B的发生概率重新评估,称为B的后验概率,用P(B|A)表示;全概率公式假定样本空间S,是两个事件A和A’的和。

图中,红色部分是事件A,绿色部分是事件A’,它们共同构成了样本空间S。

这种情况下,事件B可以划分为两个部分。全概率公式由上可以推断出:

在上一节的推导当中,我们已知:所以全概率公式为:条件概率的另一种写法:贝叶斯推断对条件概率公式进行变形,可以得到如下形式:1:如果”可能性函数“P(B|A)/P(B)>1,意味着”先验概率“增强,事件A的发生的可能性变大;2:如果”可能性函数“P(B|A)/P(B)=1,意味着B事件无助于事件A的可能性;3:如果”可能性函数“P(B|A)/P(B)<1,意味着”先验概率“被消弱,事件A发生的可能性变小。

所以,条件概率可以理解为下面的式子:朴素贝叶斯分类02标题文本预设此部分内容作为文字排版占位显示

(建议使用主题字体)朴素贝叶斯算法

朴素贝叶斯分类是一种十分简单的分类算法,叫它朴素贝叶斯分类是因为这种方法的思想真的很朴素,朴素贝叶斯的思想基础是这样的:对于给出的待分类项,求解在此项出现的条件下各个类别出现的概率,哪个最大,就认为此待分类项属于哪个类别。朴素贝叶斯分类器采用了属性条件独立性假设:对已知类别,假设所有属性相互独立。换言之,假设每个属性独立的对分类结果发生影响基于属性独立性假设,贝叶斯公式可重写为:03040102朴素贝叶斯分类朴素贝叶斯分类的正式定义如下:设

为一个待分类项,而每个a为x的一个特征属性。

有类别集合

计算

如果

010203找到一个已知分类的待分类项集合,这个集合叫做训练样本集统计得到在各类别下各个特征属性的条件概率估计。即如果各个特征属性是条件独立的,则根据贝叶斯定理有如下推导:

因为分母对于所有类别为常数,我们只要将分子最大化皆可。又因为各特征属性是条件独立的,所以有:朴素贝叶斯分类流程朴素贝叶斯分类流程第一阶段——准备工作阶段,这个阶段的任务是为朴素贝叶斯分类做必要的准备,主要工作是根据具体情况确定特征属性,并对每个特征属性进行适当划分,然后由人工对一部分待分类项进行分类,形成训练样本集合。

第二阶段——分类器训练阶段,这个阶段的任务就是生成分类器,主要工作是计算每个类别在训练样本中的出现频率及每个特征属性划分对每个类别的条件概率估计,并将结果记录。

第三阶段——应用阶段。这个阶段的任务是使用分类器对待分类项进行分类,其输入是分类器和待分类项,输出是待分类项与类别的映射关系。这一阶段也是机械性阶段,由程序完成。贝叶斯算法的应用03030406贝叶斯公式的应用张某为了解自己患上了X疾病的可能性,去医院作常规血液检查。其结果居然为阳性,他赶忙到网上查询。根据网上的资料,血液检查实验是有误差的,这种实验有“1%的假阳性率和1%的假阴性率”(真的患病者得到阴性结果称为假阴性,未患病的人得到阳性结果称为假阳性)。即在得病的人中做实验,有1%的概率是假阴性,99%是真阳性。而在未得病的人中做实验,有1%的概率是假阳性,99%是真阴性。于是张某根据这种解释,估计他自己得了X疾病的概率为99%。张某的理理是,既然只有1%的假阳性率,那么99%都是真阳性,那我已被感染X病的概率便应该是99%。张某咨询了医生,医生说:“99%?哪有那么大的感染几率啊。99%是测试的准确性,不是你得病的概率。你忘了一件事:这种X疾病的正常比例是不大的,1000个人中只有一个人有X病。”张某不放心,又做了一个尿液检查,进一步检查他患上了X疾病的可能性,其结果仍然为阳性,尿液检查的实验有“5%的假阳性率和5%的假阴性率”贝叶斯公式的应用a)张某初始计算感染X病的概率是99%,问题出在哪?

在这个例子中,张某由于没有认识到X疾病在人群中的患病率对于自己患病率的影响,从而得出了错误的结论。换言之,虽然,真阳性率+假阳性率=100%,反问,难道所有人都是阳性吗?张某错误的结论建立在所有人都是阳性的基础之下。贝叶斯公式的应用由此,根据贝叶斯公式,可以计算张某在血液检查后患病的概率为:

b)那么张某在血液检查之后的患病率是多少呢?画一张图来说明问题。贝叶斯公式的应用c)在血液检查之后,我们算得了张某患病的概率,相对于原来的1/1000,在检验血液阳性的条件下的患病的概率增加为了9%。在这样的前提之下,我们又对张某的尿液进行检查,检验为阳性。那么此时患病的概率计算方式同前,只不过是患病的概率更新为了9%。如图所示:贝叶斯公式的应用d)根据张某的家族患病率,我们知道在没有任何先验信息的前题下张某的患病率为1%而不是1/1000,利用这个数值,重新进行以上的两步计算,即可知根据张某的家族遗传信息,结合血液和尿液检查结果,张某得X病的概率。这就是说,在家族患病率和两次检查这样的前提之下,两次利用贝叶斯公式计算知张某得病的概率高达95%。

贝叶斯公式的应用——贝叶斯过滤技术1贝叶斯过滤器是一种统计学过滤器,建立在已有的统计结果之上。什么是贝叶斯过滤器2

我们必须预先提供两组已经识别好的邮件,一组是正常邮件,另一组是垃圾邮件。

我们用这两组邮件,对过滤器进行“训练”。这两组邮件的规模越大,训练效果就越好。“训练”过程很简单。首先,解析所有的邮件,提取每一个词。然后,计算每个词语在正常邮件和垃圾邮件中出现的频率。

有了这个初步的统计结果,过滤器就可以投入使用了。

贝叶斯过滤器的使用朴素贝叶斯分类的应用数据样本有属性:年龄,收入,是否学生和信用状况。类标号属性:“是否买电脑”有两个不同值{是,否}。

设C1对应于类:买电脑;

C2对应于类:不买电脑;

我们希望分类的未知样本为:

X=

(年龄<=30,收入=中,

是学生,信用一般)

866449朴素贝叶斯分类的应用首先我们需要最大化1:P(X|Ci)*P(Ci),i=1,2。

每个类的先验概率P(Ci)可以根据训练样本计算:P(C1)=P(买电脑)

=

P(C2)=P(不买电脑)

2:计算P(X|Ci):

(1)P

(年龄<=30,收入=中,是学生,信用一般|买电脑)

(2)P

(年龄<=30,收入=中,是学生,信用一般|不买电脑)

朴素贝叶斯分类的应用1:

P(年龄<=30,收入=中,是学生,信用一般|买电脑)=P(年龄<=30|买电脑)*P(收入=中|买电脑)*P(是学生|买电脑)*P(信用一般|买电脑)2:

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论