版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第6章贝叶斯学习贝叶斯法则给定训练数据集D,确定假设空间H中的最佳假设什么是最佳假设?在给定数据集D的基础上,H中不同假设里发生概率最大(最可能发生)的一个贝叶斯法则可以通过直接计算找到这种最可能性贝叶斯公式P(h):h的先验概率(priorprobability),反映了事先拥有的关于h的背景知识P(D):得到的训练数据D的先验概率P(D|h):若h成立,则观察到D的概率P(h|D):给定训练数据D时,h成立的概率公式分析P(h|D)称为后验概率,相对于先验概率如果D独立于h时被观察到的可能性越大,那么D对h的支持度也越小如果h的先验概率越大,则在数据D的条件下出现h的可能性也越大求每一假设h的P(h|D),取其中最大者,为MAP假设(maximumaposteriori)基本概率公式两事件A和B交的概率:两事件A和B并的概率:给定D时h的后验概率:全概率法则: 若事件互斥且则6.1简介贝叶斯学习提供了一种推理的概率手段:即待考查的量遵循某种概率分布且可根据这些概率及已观察到的数据进行推理以作出最优决策贝叶斯学习为直接操作概率的学习算法提供了基础贝叶斯学习也为其他算法的分析提供了理论框架贝叶斯学习与机器学习的关系贝叶斯学习算法能够显式计算假设的概率朴素贝叶斯分类器利用朴素贝叶斯分类器分类进行文本文档分类为理解许多算法提供了有效手段,这些算法不一定直接操纵概率数据在使用神经网络训练收敛判据时,可以选择比误差平方和最小原则更合适的交叉熵原则贝叶斯学习方法的特性观察到的每个训练样例可以增量地降低或增高某假设的估计概率先验知识可以与观察数据一起决定假设的最终概率两类先验知识:候选假设的先验概率;每个可能假设在可观察数据中的概率分布允许假设做出不确定性的预测新实例可以由多个假设的概率加权和确定重要的算法评价理论依据举例医疗诊断问题做决定:(1)得癌症;(2)无癌症诊断依据:某化验测试,测试结果为+或-先验知识:所有人口中此癌症的发生概率为0.008测试有病的准确率为0.98测试无病的准确率为0.97现在,某病人测试结果为+,问是否可以确诊此病人有病?举例假设在某种病症的化学检测中:对有病的病人,检验的阳性率为95%对没病者,检验的阳性率为5%该病的发病率为0.5%现在随便从街上拉一个人做检测,结果阳性,问此人患此病的概率是多少?贝叶斯学习利用贝叶斯法则进行概念学习给定训练数据下求后验概率从先验概率到后验概率的概率改变体现学习效果BRUTE-FORCE贝叶斯概念学习对于H中每个假设h,计算后验概率输出有最高后验概率的假设hMAP贝叶斯最优分类器前面讨论问题:给定训练数据,最可能的假设是什么需讨论的问题:给定训练数据,对新的实例的最可能分类是什么可以直接利用MAP假设来分类新实例也有更好的算法6.7贝叶斯最优分类器MAP假设分类的问题P125新实例的最可能分类应该通过合并所有假设的预测得到即用后验概率来加权贝叶斯最优分类器(BayesOptimalClassifier):分类结果可以对应于H中不存在的假设P1266.8GIBBS算法基于给定训练数据,贝叶斯最优分类器可以给出最好性能但计算开销很大GIBBS算法:按照H上的后验概率分布,从H中随机选取假设h使用h来处理待分类实例误分类率:最多为贝叶斯最优分类器的两倍6.9朴素贝叶斯分类器实用性很高的算法学习任务:每个实例x由属性的合取表示目标函数f(x)从有限集会V中取值学习器根据提供的一系列关于目标函数的训练样例以及新实例(属性值的元组),给出新实例的分类6.9朴素贝叶斯分类器举例:根据天气情况判断某人是否会打网球朴素贝叶斯分类器是否将要打网球?4个天气属性
OutlookTemperatureHumidityWind对新实例进行预测:yesorno举例:学习分类文本朴素贝叶斯分类器问题框架目标:要求计算机学习从大量的在线文本文档中自动过滤出最相关文档给读者目标值:like和dislike每个位置上的每个单词定义为一个属性值简化:每个属性的条件概率相互独立特定单词出现的概率独立于单词所在的位置6.11贝叶斯信念网最优贝叶斯分类器要求考虑每个属性与其他属性的关系,太繁琐,而且不现实朴素贝叶斯分类器要求每个属性的条件概率相互独立,限制太严格折中:贝叶斯信念网比朴素贝叶斯分类器限制少比最优贝叶斯分类器切实可行EM算法用处:变量的值从来没有直接观察到的情况问题:估计k个高斯分布的均值EM算法的一般表述K均值算法的推导6.12.1估计k个高斯分布的均值得到一些数据:来自于k个正态分布首先随机选择一个正态分布然后依概率取到随机变量的值求正态分布的参数难点1:不知道正态分布是如何选取的难点2:通过不确定归属的数据来估计正态分布的参数6.12.1估计k个高斯分布的均值简单情况:只有两个正态分布各个正态分布基于均匀的概率进行选择各个正态分布具有相同的方差σ2,且σ2已知已知:采样得到的数据集{x1,x2,。。。}求正态分布的期望:μ1和μ26.12.1估计k个高斯分布的均值问题解决思路:假设h=<μ1…μk>
然后求能使检测数据集D出现概率最大的假设h即为μ找到极大似然假设即找到使P(D|h)最大的假设h单个的概率分布时:P1376.12.1估计k个高斯分布的均值K个不同正态分布的混合每个实例完整描述为三元组<xi,zi1,zi2>
因为zi1和zi2未知,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 河道管理协议
- 水果购销合同范本版示例
- 三亚市购房协议示例
- 聘请财务顾问协议书样本
- 借款纠纷起诉状范本法律维权攻略
- 书柜购买合约
- 保安服务合同巩固
- 型材安装工程项目招标
- 简化劳务分包协议范本
- 酒店协议价格合同的四大误解
- 苯-乙苯连续精馏塔的设计
- GB/T 7027-2002信息分类和编码的基本原则与方法
- 中考语文非连续性文本阅读10篇专项练习及答案
- GB 25431.1-2010橡胶塑料挤出机和挤出生产线第1部分:挤出机的安全要求
- 防雷接地电阻测试记录表
- 余角补角课件
- 国开作业《建筑制图基础》学习过程表现参考(含答案)533
- 免费施工方案大全
- 幼儿园小班社会:《红绿灯》 课件
- 灭火战术教案(2010版)
- 三副职务行为重点标准
评论
0/150
提交评论