贝叶斯理论完_第1页
贝叶斯理论完_第2页
贝叶斯理论完_第3页
贝叶斯理论完_第4页
贝叶斯理论完_第5页
已阅读5页,还剩35页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

贝叶斯理论简介拉普拉斯说:“概率论只不过是把常识用数学公式表达了出来.”

BayesTheory胡瑞卿一、概率统计下的频率学派与贝叶斯学派二、贝叶斯定理三、实际中的一个问题四、贝叶斯思想下的方法简介Outline区别一:频率论先建立无效模型,然后计算在此无效模型的前提下得到从实际数据中得来的参数的可能性,假如这个可能性很小,我们就认为无效模型不成立,从而选择备择模型;贝叶斯论关注于在当前数据的前提下,某个模型成立的概率,得到的是具体的概率值,而该概率值不用于对某个假说的判断。频率学派的基础是不断重复进行实验,认为模型的参数是客观存在的,不会改变,虽然未知,但是为固定值。贝叶斯学派认为参数是一个随机值,因为没有观测到,那么它和一个随机数没有区别,因此参数也是有分布的,使用一些采样的方法,可以很容易地构建复杂的模型。频率学派最关心的是似然函数。更客观,更无偏。贝叶斯学派最关心的则是后验分布。Bayesian/Frequentist区别二:频率论对概率的解释是:一个事件在一段较长的时间内发生的频率;贝叶斯理论对概率的解释是:人们对某事件是否发生的认可程度。区别三:贝叶斯论善于利用过去的知识和抽样数据,而频率论仅仅利用抽样数据。因此贝叶斯推论中前一次得到的后验概率分布可以作为后一次的先验概率。区别四:对置信区间的不同解释:频率论中95%置信区间解释为:100次抽样计算得到的100个置信区间中有95个包含了总体参数,5个没有,而不能解释成在一次抽样中有95%的可能性包含总体参数。Bayesian/Frequentist1.对初始猜测模型的波阻抗曲线进行方形滤波.2.用块化的波阻抗和已知的地震子波进行褶积形成地震合成记录:3.将得到的合成记录与真实的记录相比较.4.改变方波化波阻抗的振幅和厚度来提高它与真实波阻抗的拟和程度:重复上述步骤直到达到理想的结果.Sparse-SpikeInversion基于模型反演只能根据初始猜测模型输入地震道.能够得到与初始猜测模型最相近的模型,同时与地震数据相符.与只用地震数据相比,基于模型反演能够得到高分辨率的结果.存在非唯一性解.反演结果取决于初始模型.Sparse-SpikeInversion贝叶斯随机反演思想:指出每种模型生成观测数据的可能度,可以根据先验信息进行挑选。一系列模型是满足参数同分布的。BayesInversionBayesInversionBayesInversion看到这么简单的样点空间分布,我们决定用最简单的模型:y=Ax+B现在要根据这些点,确定到a和b是多少!常规的曲线似合方法,使模型参数a,b的输出结果与实际样点值在最小二乘法意义下的误差最小,那么就确定了最优的A,B值。y=ax+bBayesInversion但是贝叶斯慷慨地给出一堆解!这是采用模拟退火方法求解:BayesInversion这是采用MCMC方法求得的反演结果:abBayesInversion同一参数反演解簇满足的概率分布abBayesInversion通过概率分布的情况,还反映参数的取值范围。或者简单地直接取该参数的期望。BayesInversion贝叶斯思想,是指导我们重新认识什么样的解是最优的!(贝叶斯思想下的一系列方法,是指导我们怎么去寻找贝叶斯思想下的最优解集!)它不指定某一个具体的解,说“它就是最佳的”!对于我们的反演问题来说,对于一个欠定的问题来说,最佳解本就不唯一。那么贝叶斯提供给我们一个解簇!它们在具有统一的概率统计规律。提供给我们相差无几的正演结果。各个结果之间的区别,就是我们这个欠定问题中,所欠的成分造成的影响!欠定的成分,可能是误差,可能是忽略的高阶项,也可能是未知的影响因素!二、贝叶斯定理

其中P(A|B)是在B发生的情况下A发生的可能性。在贝叶斯定理中,每个名词都有约定俗成的名称:P(A)是A的先验概率。之所以称为"先验"是因为它不考虑任何B方面的因素。

P(A|B)是已知B发生后A的条件概率,也由于得自B的取值而被称作A的后验概率。

P(B|A)是已知A发生后B的条件概率,也由于得自A的取值而被称作B的后验概率。

P(B)是B的先验概率。BayesTheory例子1:单词纠错看到用户输入了一个“thew”,字典里没有这个词。那我们要猜测:他丫到底想输入什么单词!我们要求这个概率:P(我们猜测他想输入的单词|他实际输入的单词)

并找出那个使得这个概率最大的猜测单词。

BayesTheory猜测的词h1=the概率为P1猜测的词h2=they概率为P2猜测的词h3=thaw概率为P3猜测的词h4=them概率为P4猜测的词h5=then概率为P5…..…..于是:P(我们的猜测1|他实际输入的单词)可以抽象地记为:P(h1|D)类似地,对于我们的猜测2,则是P(h2|D)。不妨统一记为:P(h|D)运用一次贝叶斯公式,我们得到:P(h|D)=P(h)*P(D|h)/P(D)对于不同的具体猜测h1h2h3..,P(D)都是一样的,所以在比较P(h1|D)和P(h2|D)的时候我们可以忽略这个常数。

这个式子的抽象含义是:对于给定观测数据,一个猜测是好是坏,取决于“这个猜测本身独立的可能性大小(先验概率,Prior)”和“这个猜测生成我们观测到的数据的可能性大小”(似然,Likelihood)的乘积。具体到我们的‘thew’例子上,含义就是,用户实际是想输入the的可能性大小取决于the本身在词汇表中被使用的可能性(频繁程度)大小(先验概率)和想打the却打成thew的可能性大小(似然)的乘积。BayesTheoryBayesTheory醉了!奥卡姆剃刀精神如果两个理论具有相似的解释力度,那么优先选择更简单的。http:///wiki/Occam%27s_razor“自然界选择最短的路径”违反这个精神的情况——过配(Overfitting)过分去寻求能够完美解释观测数据的模型,甚至连误差(噪音)都去解释。当观测的结果并不是因为误差而显得“不精确”,而是因为实际情况中,对数据的结果产生贡献的因素太多了,这些偏差是另外一些因素集体贡献的结果,不是单纯的建模所能解释的。一个现实的模型往往只解释几个我们关注的,重要的因素,不要试图通过调整模型来“完美”匹配数据(非Bayes方法,如频率学派下的如稀疏脉冲就是这样做。)。这时,观测数据会倾向于围绕你的有限模型的预测结果呈正态分布,于是你实际观测的结果就是这个正态分布的随机取样,这个取样很可能受到其余因素的影响,而偏离你模型所预测的中心。Occam’sRazor树挡箱子例子:这是一棵树BayesTheory

曲线拟合实例BayesTheory

根据奥卡姆剃刀的精神,越是高阶的多项式越是繁复和不常见的。同时,对于P(D|h)而言,我们注意到越是高阶的多项式,它的轨迹弯曲程度越大,那么一个高阶的多项式在平面上随机生成一堆N个点全都恰好近似构成一条直线的概率P(D|h)又有多少呢?Bayes思想的解释:Bayes观点下认为模型参数的随机性也可由此表现,认为波动情况是观测时的多种因素影响,或认为波动情况是模型参数的随机性影响。对观测结果的两种解释,但结果都是对模型的多解。BayesTheorya):标准真实模型;b),c),d),实际情况下可能会出现的观测结果。模型参数的分布不同!解释一个小问题:最小二乘法误差的平方求和:LS=(ΔY1)^2+(ΔY2)^2+..为什么不是误差的绝对值求和或其它?LeastSquares

LeastSquares所有偏离左图黄线的数据点,都是含有噪音的,是噪音使它们偏离了完美的一条曲线。合理的假设就是偏离黄线越远的概率越小,具体小多少,可以用正态分布曲线来模拟。那么这个曲线给出的预测值是以黄线为中心,实际位置发生的概率正比于exp(-(x-u)2)。正态分布概率密度函数:

LeastSquares正态分布的前世今生上帝的意图:一个公式里,包含了,包含了e,却可以用来解释存在于任何事物中的随机误差!另一个公式是:欧拉公式

LeastSquares认为噪音为平均分布认为噪音为正态分布取误差绝对值的和取误差的平方的和我有一个仪器,可以检测人吸不吸毒!仪器精度还是蛮高的:如果吸毒,仪器检测结果呈阳性的概率为99%;

如果不吸毒,仪器检测结果呈阴性的概率也为99%;也就是说,就是有1%的概率测错!精度这么高的仪器用起来到底怎么样呢?我对一群自愿者进行检测,我提前已经知道了这群自愿者里有0.5%的人是吸毒的!那我的仪器使用效果怎么样呢?来算一下!PrecisionProblem精度99%的仪器三、对小概率事件反演的举例:令“D”为雇员吸毒事件,“N”为雇员不吸毒事件,“+”为检测呈阳性事件。可得:P(D)代表雇员吸毒的概率,不考虑其他情况,该值为0.005。这个值就是D的先验概率。

P(N)代表雇员不吸毒的概率,显然,该值为0.995,也就是1-P(D)。

P(+|D)代表吸毒者被检测出来的概率,这是一个条件概率,由于阳性检测准确性是99%,因此该值为0.99。

P(+|N)代表不吸毒者被误诊为吸毒的概率,也就是出错的概率,该值为0.01。P(+)代表不考虑其他因素的影响的阳性检出率。P(+)=吸毒者被检出(0.5%x99%=0.495%)+不吸毒者被误检(99.5%x1%=0.995%)。P(+)=0.0149是检测呈阳性的先验概率。

PrecisionProblem那么,当我用这个仪器检测完一个人之后,结果呈阳性了!他有多大的可能是真的吸毒呢?有多大的可能是被冤枉的呢?PrecisionProblem

贝叶斯告诉你:当检测结果呈阳性时,这个人只有1/3的可能是吸毒的!大部分情况都是被冤枉的!精度99%的仪器怪我喽?那么问题出在哪里?——吸毒的人太少了!!!那么问题来了:对于高精度的地震仪器或其它高精度的处理方法,对于指定目标,尤其是小概率的目标,我们对于它的结果,能信多少?四:贝叶斯思想下的几种方法简介HMM&MCMC哪些问题要用贝叶斯方法?建立概率模型时,反问题对应的模型中,概率分布不好求,但是正问题的概率好求。哪些问题要用蒙特卡洛?如果反向问题的概率根本求不了,它的正问题中概率用数学推导以非常复杂,那我们直接进行实验好了。让电脑扔10万次骰子,看这个骰子到底是什么规律!其中:MCMC方法可以跳过先验概率,直接进行抽样,提取后验概率!1、隐马尔可夫模型(HMM)HiddenMarkovModel游泳打球跑步雨晴阴显性隐性脚被大胖子踩残了,只能呆在屋里,看不到外面天气!可以观察到的状态序列和隐藏的状态序列是概率相关的。于是我们可以将这种类型的过程建模为有一个隐藏的马尔科夫过程和一个与这个隐藏马尔科夫过程概率相关的并且可以观察到的状态集合。隐马尔可夫模型

(HiddenMarkovModel)是一种统计模型,用来描述一个含有隐含未知参数的马尔可夫过程。其难点是从可观察的参数中确定该过程的隐含参数,然后利用这些参数来作进一步的分析。HiddenMarkovModel显式链运动1运动2运动3……运动n||||隐式链天气1天气2天气3……天气n显式链振幅1振幅2振幅3……振幅n||||隐式链阻抗1阻抗2阻抗3……阻抗nHiddenMarkovModel建立显式链与隐式链之间的概率模型,从而根据观测到的显示链数据,反演出隐式链模型:序贯重要性重采样粒子滤波器首先:假设明天的天气仅依赖今天的天气。如果今天是雨,那么明天是雨、晴、阴的概率分别设为:P(雨|雨)=0.5,P(晴|雨)=0.25,P(阴|雨)=0.25;同理:如果今天是晴,有:P(雨|

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论