![贝叶斯推理课件_第1页](http://file4.renrendoc.com/view/8d653be302ff6aedf93a83dbbb8f919b/8d653be302ff6aedf93a83dbbb8f919b1.gif)
![贝叶斯推理课件_第2页](http://file4.renrendoc.com/view/8d653be302ff6aedf93a83dbbb8f919b/8d653be302ff6aedf93a83dbbb8f919b2.gif)
![贝叶斯推理课件_第3页](http://file4.renrendoc.com/view/8d653be302ff6aedf93a83dbbb8f919b/8d653be302ff6aedf93a83dbbb8f919b3.gif)
![贝叶斯推理课件_第4页](http://file4.renrendoc.com/view/8d653be302ff6aedf93a83dbbb8f919b/8d653be302ff6aedf93a83dbbb8f919b4.gif)
![贝叶斯推理课件_第5页](http://file4.renrendoc.com/view/8d653be302ff6aedf93a83dbbb8f919b/8d653be302ff6aedf93a83dbbb8f919b5.gif)
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
Chp11:贝叶斯推断内容:
贝叶斯观点和贝叶斯方法贝叶斯推断vs.频率推断1Chp11:贝叶斯推断内容:1贝叶斯观点和贝叶斯方法从频率到信念2贝叶斯观点和贝叶斯方法从频率到信念2频率学派的观点到目前为止我们讲述的都是频率(经典的)统计学概率指的是相对频率,是真实世界的客观属性。参数是固定的未知常数。由于参数不会波动,因此不能对其进行概率描述。统计过程应该具有定义良好的频率稳定性。如:一个95%的置信区间应覆盖参数真实值至少95%的频率。统计学更多关注频率推断3频率学派的观点到目前为止我们讲述的都是频率(经典的)统计学统贝叶斯学派的观点贝叶斯推断采取了另外一个不同的立场:概率描述的是主观信念的程度,而不是频率。这样除了对从随机变化产生的数据进行概率描述外,我们还可以对其他事物进行概率描述。可以对各个参数进行概率描述,即使它们是固定的常数。为参数生成一个概率分布来对它们进行推导,点估计和区间估计可以从这些分布得到机器学习和数据挖掘更偏爱贝叶斯推断4贝叶斯学派的观点贝叶斯推断采取了另外一个不同的立场:机器学习贝叶斯方法贝叶斯推断的基本步骤如下:选择一个概率密度函数,用来表示在取得数据之前我们对某个参数的信念。我们称之为先验分布。选择一个模型(在参数推断一章记为)来反映在给定参数情况下我们对x的信念。当得到数据X1,X2,…Xn
后,我们更新我们的信念并且计算后验分布。从后验分布中得到点估计和区间估计。5贝叶斯方法贝叶斯推断的基本步骤如下:5回忆贝叶斯规则亦称贝叶斯定理条件概率利用贝叶斯规则将数据和参数的分布联合起来6回忆贝叶斯规则亦称贝叶斯定理6似然函数假设我们有n个IID观测,记为,产生的数据为,记为,我们用如下公式替代现在似然函数真正解释为给定参数下数据的概率7似然函数假设我们有n个IID观测后验概率因此后验概率为其中被称为归一化常数(normalizingconstant)。该常数经常被忽略,因为我们关心的主要是参数的不同值之间的比较。所以也就是说,后验和似然函数与先验的乘积成正比8后验概率因此后验概率为8贝叶斯点估计后验的均值是一个常用的点估计L2损失下的贝叶斯规则极大后验估计(maximumaposteriori,MAP)是使后验最大的的值:是另一个常用的点估计0-1损失下的贝叶斯规则9贝叶斯点估计后验的均值9贝叶斯置信区间估计为了得到贝叶斯区间估计,我们需找到a和b,使得令因此C称为后验区间。注意:在多次试验中,并不保证θ在(1−α)100%的次数会落在后验区间内。事实上,在复杂的高维模型中,当样本数很少时,覆盖概率可能接近于0。注意:是随机的10贝叶斯置信区间估计为了得到贝叶斯区间估计,我们需找到a和b,例:BernoulliI令,假设先验为均匀分布,根据贝叶斯公式,后验为其中为成功的次数。11例:BernoulliI令例:BernoulliI为了得到后验的均值,我们必须计算在这个例子中可以解析计算。后验恰好为Beta分布其中参数,,均值为12例:BernoulliI为了得到后验的均值,我们必须计算1例:BernoulliIp的极大似然估计为,为无偏估计。贝叶斯估计还可以写成其中为先验的均值,13例:BernoulliIp的极大似然估计为例:BernoulliII现在假设先验不是均匀分布,而是则后验为Beta分布,参数为和,即后验的均值为其中为先验的均值。先验和后验为相同的分布族:共轭如例子中的Beta分布14例:BernoulliII现在假设先验不是均匀分布,而是例:正态分布令,为简单起见,假设已知,并假设先验为
对θ而言为常数对θ而言为常数15例:正态分布令例:正态分布将二者相乘,去掉一些常数项,最后得到一个正态分布形式的核最后,θ的后验为其中为MLE的标准误差。16例:正态分布将二者相乘,去掉一些常数项,最后得到一个正态分布例:正态分布当时,,当n很大时,后验近似为当n固定而时,对应先验趋近于均匀分布,上述结论也成立17例:正态分布当时,例:正态分布计算后验区间,使得所以且因此,由于,所以最后95%的贝叶斯后验区间为由于,,也可用近似,同频率置信区间18例:正态分布计算后验区间参数的函数问题:已知的贝叶斯后验分布为,求的后验分布两种方法:利用CDF的定义,先求的CDF,然后求后验密度,其中CDF为
仿真/模拟方法19参数的函数问题:已知的贝叶斯后验分布为仿真
(Simulation)可以通过仿真而不是解析计算来得到点估计和区间估计。假设我们抽取样本则的直方图可以近似后验密度后验的均值近似为后验的
置信区间为,其中为样本的样本分位数(quantile)一旦从中抽取样本,令则为来自。这样避免了解析计算但仿真可能很复杂/困难20仿真
(Simulation)可以通过仿真而不是解析计算来得例:Bernoullil
抽样:令则为的IID,用直方图方法可以估计21例:Bernoullil
抽样:21MLE和贝叶斯令为的极大似然估计,标准误差为在合适的正则条件下,后验均值的渐近分布为也就是说,另外,若为渐近频率的置信区间,则也是贝叶斯后验的区间:22MLE和贝叶斯令为的极大似然估计,标准误差为2MLE和贝叶斯
定义则分别展开23MLE和贝叶斯分别展开23MLE和贝叶斯将先验也展开I0为先验中θ的信息m0最大化f(θ)24MLE和贝叶斯将先验也展开I0为先验中θ的信息24MLE和贝叶斯定义结合展开,得到25MLE和贝叶斯定义25MLE和贝叶斯后验简化为结论:当n相对参数数目很大时,如果先验符合真正的知识,则贝叶斯区间和频率区间相同。当数据越多时,先验的影响越弱。26MLE和贝叶斯后验简化为26先验知识从哪儿来呢?我们可能在观测数据之前就有一些主观观点或真正的先验知识。但是,通常我们并没有真正的先验知识或者我们在贝叶斯估计时想更客观些,这时可以选择无信息的先验(noninformativeprior)。或者可以从数据估计先验。这被称为经验贝叶斯(empiricalBayes),有时亦称第II类的极大似然(TypeIImaximumlikelihood)。27先验知识从哪儿来呢?我们可能在观测数据之前就有一些主观观点或扁平先验(FlatPriors)考虑一个扁平的先验:其中c>0为常数。但是
,因此这不是一个pdf。我们称之为非正常先验(improperprior)。通常非正常先验不是问题,只要后验为一个定义良好的pdf即可。扁平先验有时为病态定义的,因为一个参数的扁平先验并不意味参数的变换也是扁平先验。请参见书中的例子28扁平先验(FlatPriors)考虑一个扁平的先验:28通用先验一个流行的想法是使用通用先验,或在任何场合下都可用的缺省的先验分布。该先验通常从似然函数推导得到。例子包括最小描述长度(minimumdescriptionlength,MDL)和Jeffrey先验。这些通常是完全无信息的。29通用先验一个流行的想法是使用通用先验,或在任何场合下都可用的Jeffrey先验Jeffrey提出的创建先验的规则:其中为Fisher信息。例:对,则Jeffrey先验为,即,与均匀分布很相近。30Jeffrey先验Jeffrey提出的创建先验的规则:30Jeffrey先验对于多元参数情况,Jeffrey先验为其中表示矩阵A的行列式,为Fisher信息矩阵。31Jeffrey先验对于多元参数情况,Jeffrey先验多元参数问题对于多元参数的情况,原则上同处理单个参数相同。后验密度为:问题:如何对多个参数中的一个进行推断?计算感兴趣参数的后验边缘分布例如的边缘分布为32多元参数问题对于多元参数多元参数问题通常计算是很困难的,可用模拟的方法近似。从后验分布随机采样:上标表示不同的采样,收集每个样本中向量的第一个成分,得到为中的样本,这样可以避免积分运算。33多元参数问题通常计算33贝叶斯假设检验从贝叶斯观点看假设检验时一个很复杂的问题,我们只介绍其基本思想。34贝叶斯假设检验从贝叶斯观点看假设检验时一个很复杂的问题,我们贝叶斯假设检验数据和模型:检验:例:用X表示一个最近被污染区域中n个蛋中被孵出的蛋的数目,则,其中表示被孵出蛋的真正比例检验:其中0为被孵出蛋比例的经验值35贝叶斯假设检验数据和模型:35先验分布令分别表示H0和H1的先验分布通常缺省为:在H1下,用表示关于位置的信息的先验密度对二项分布,通常缺省为:36先验分布令分别表示H给定数据,
H0
为真的后验概率根据贝叶斯公式,37给定数据,H0为真的后验概率根据贝叶斯公式,37给定数据,
H0
为真的后验概率对上例中的二项检验问题,38给定数据,H0为真的后验概率对上例中的二项检验问题,38贝叶斯因子有人更喜欢用H0对H1的贝叶斯因子(Bayesfactor)亦称为加权似然比因为这样不涉及Hi的先验例:假设在上例中则而经典检验给出的p值为0.0539贝叶斯因子有人更喜欢用H0对H1的贝叶斯因子(Bayesf贝叶斯假设检验的优点
反映了真正的期望错误率:但p-values
不是。后验概率允许加入个人观点,如果喜欢的话。后验概率可用于多模型检验中:40贝叶斯假设检验的优点贝叶斯推理vs.频率推理我们应该信仰频率学派还是贝叶斯学派?41贝叶斯推理vs.频率推理我们应该信仰频率学派还是贝叶斯学贝叶斯学派的观点先验信息:可以方便的结合先验信息,而且人们在做推断时也确实利用了先验信息,贝叶斯推断使得这个过程显式化提供了更多的结构:对小样本很有效简练:允许人们对参数进行概率描述,使得似然函数与其逻辑结论一致,减小了数据和参数之间的区别统一:不必对点估计和区间估计各个解析推导42贝叶斯学派的观点先验信息:可以方便的结合先验信息,而且人们在反对贝叶斯学派的观点不方便:后验区间不是真正的置信区间,估计通常都是有偏估计以参数为中心:在很多非参数情况下似然很脆弱计算强度大:积分/仿真或近似很难处理不必要的复杂:即使没有先验信息也要有先验函数假设检验:贝叶斯假设检验对先验的选取很敏感43反对贝叶斯学派的观点不方便:后验区间不是真正的置信区间,估计综上所述在参数模型中,当样本数目很多时,贝叶斯方法和频率方法得到的近似相同的推理。但通常二者的结果不同贝叶斯方法和频率推理是为了解决不同的问题结合先验知识和数据:贝叶斯方法构造长期稳定的性能(如置信区间):频率方法44综上所述在参数模型中,当样本数目很多时,贝叶斯方法和频率方法综上所述当参数空间为高维时,通常采用贝叶斯方法但当参数比数据还多时,没有统计方法能跨越自然的本质约束即使先验知识选择得当,也只能对“过去”预测很好,对将来不一定能预测很好Youcannotgetsomethingfornothing.Alittlebitofdata,willnothelpyoutolearnaboutamilliondimensional,complexproblem.45综上所述当参数空间为高维时,通常采用贝叶斯方法45下节课内容作业:第11章第2、4题第三部分:统计学习基础46下节课内容作业:第11章第2、4题46Chp11:贝叶斯推断内容:
贝叶斯观点和贝叶斯方法贝叶斯推断vs.频率推断47Chp11:贝叶斯推断内容:1贝叶斯观点和贝叶斯方法从频率到信念48贝叶斯观点和贝叶斯方法从频率到信念2频率学派的观点到目前为止我们讲述的都是频率(经典的)统计学概率指的是相对频率,是真实世界的客观属性。参数是固定的未知常数。由于参数不会波动,因此不能对其进行概率描述。统计过程应该具有定义良好的频率稳定性。如:一个95%的置信区间应覆盖参数真实值至少95%的频率。统计学更多关注频率推断49频率学派的观点到目前为止我们讲述的都是频率(经典的)统计学统贝叶斯学派的观点贝叶斯推断采取了另外一个不同的立场:概率描述的是主观信念的程度,而不是频率。这样除了对从随机变化产生的数据进行概率描述外,我们还可以对其他事物进行概率描述。可以对各个参数进行概率描述,即使它们是固定的常数。为参数生成一个概率分布来对它们进行推导,点估计和区间估计可以从这些分布得到机器学习和数据挖掘更偏爱贝叶斯推断50贝叶斯学派的观点贝叶斯推断采取了另外一个不同的立场:机器学习贝叶斯方法贝叶斯推断的基本步骤如下:选择一个概率密度函数,用来表示在取得数据之前我们对某个参数的信念。我们称之为先验分布。选择一个模型(在参数推断一章记为)来反映在给定参数情况下我们对x的信念。当得到数据X1,X2,…Xn
后,我们更新我们的信念并且计算后验分布。从后验分布中得到点估计和区间估计。51贝叶斯方法贝叶斯推断的基本步骤如下:5回忆贝叶斯规则亦称贝叶斯定理条件概率利用贝叶斯规则将数据和参数的分布联合起来52回忆贝叶斯规则亦称贝叶斯定理6似然函数假设我们有n个IID观测,记为,产生的数据为,记为,我们用如下公式替代现在似然函数真正解释为给定参数下数据的概率53似然函数假设我们有n个IID观测后验概率因此后验概率为其中被称为归一化常数(normalizingconstant)。该常数经常被忽略,因为我们关心的主要是参数的不同值之间的比较。所以也就是说,后验和似然函数与先验的乘积成正比54后验概率因此后验概率为8贝叶斯点估计后验的均值是一个常用的点估计L2损失下的贝叶斯规则极大后验估计(maximumaposteriori,MAP)是使后验最大的的值:是另一个常用的点估计0-1损失下的贝叶斯规则55贝叶斯点估计后验的均值9贝叶斯置信区间估计为了得到贝叶斯区间估计,我们需找到a和b,使得令因此C称为后验区间。注意:在多次试验中,并不保证θ在(1−α)100%的次数会落在后验区间内。事实上,在复杂的高维模型中,当样本数很少时,覆盖概率可能接近于0。注意:是随机的56贝叶斯置信区间估计为了得到贝叶斯区间估计,我们需找到a和b,例:BernoulliI令,假设先验为均匀分布,根据贝叶斯公式,后验为其中为成功的次数。57例:BernoulliI令例:BernoulliI为了得到后验的均值,我们必须计算在这个例子中可以解析计算。后验恰好为Beta分布其中参数,,均值为58例:BernoulliI为了得到后验的均值,我们必须计算1例:BernoulliIp的极大似然估计为,为无偏估计。贝叶斯估计还可以写成其中为先验的均值,59例:BernoulliIp的极大似然估计为例:BernoulliII现在假设先验不是均匀分布,而是则后验为Beta分布,参数为和,即后验的均值为其中为先验的均值。先验和后验为相同的分布族:共轭如例子中的Beta分布60例:BernoulliII现在假设先验不是均匀分布,而是例:正态分布令,为简单起见,假设已知,并假设先验为
对θ而言为常数对θ而言为常数61例:正态分布令例:正态分布将二者相乘,去掉一些常数项,最后得到一个正态分布形式的核最后,θ的后验为其中为MLE的标准误差。62例:正态分布将二者相乘,去掉一些常数项,最后得到一个正态分布例:正态分布当时,,当n很大时,后验近似为当n固定而时,对应先验趋近于均匀分布,上述结论也成立63例:正态分布当时,例:正态分布计算后验区间,使得所以且因此,由于,所以最后95%的贝叶斯后验区间为由于,,也可用近似,同频率置信区间64例:正态分布计算后验区间参数的函数问题:已知的贝叶斯后验分布为,求的后验分布两种方法:利用CDF的定义,先求的CDF,然后求后验密度,其中CDF为
仿真/模拟方法65参数的函数问题:已知的贝叶斯后验分布为仿真
(Simulation)可以通过仿真而不是解析计算来得到点估计和区间估计。假设我们抽取样本则的直方图可以近似后验密度后验的均值近似为后验的
置信区间为,其中为样本的样本分位数(quantile)一旦从中抽取样本,令则为来自。这样避免了解析计算但仿真可能很复杂/困难66仿真
(Simulation)可以通过仿真而不是解析计算来得例:Bernoullil
抽样:令则为的IID,用直方图方法可以估计67例:Bernoullil
抽样:21MLE和贝叶斯令为的极大似然估计,标准误差为在合适的正则条件下,后验均值的渐近分布为也就是说,另外,若为渐近频率的置信区间,则也是贝叶斯后验的区间:68MLE和贝叶斯令为的极大似然估计,标准误差为2MLE和贝叶斯
定义则分别展开69MLE和贝叶斯分别展开23MLE和贝叶斯将先验也展开I0为先验中θ的信息m0最大化f(θ)70MLE和贝叶斯将先验也展开I0为先验中θ的信息24MLE和贝叶斯定义结合展开,得到71MLE和贝叶斯定义25MLE和贝叶斯后验简化为结论:当n相对参数数目很大时,如果先验符合真正的知识,则贝叶斯区间和频率区间相同。当数据越多时,先验的影响越弱。72MLE和贝叶斯后验简化为26先验知识从哪儿来呢?我们可能在观测数据之前就有一些主观观点或真正的先验知识。但是,通常我们并没有真正的先验知识或者我们在贝叶斯估计时想更客观些,这时可以选择无信息的先验(noninformativeprior)。或者可以从数据估计先验。这被称为经验贝叶斯(empiricalBayes),有时亦称第II类的极大似然(TypeIImaximumlikelihood)。73先验知识从哪儿来呢?我们可能在观测数据之前就有一些主观观点或扁平先验(FlatPriors)考虑一个扁平的先验:其中c>0为常数。但是
,因此这不是一个pdf。我们称之为非正常先验(improperprior)。通常非正常先验不是问题,只要后验为一个定义良好的pdf即可。扁平先验有时为病态定义的,因为一个参数的扁平先验并不意味参数的变换也是扁平先验。请参见书中的例子74扁平先验(FlatPriors)考虑一个扁平的先验:28通用先验一个流行的想法是使用通用先验,或在任何场合下都可用的缺省的先验分布。该先验通常从似然函数推导得到。例子包括最小描述长度(minimumdescriptionlength,MDL)和Jeffrey先验。这些通常是完全无信息的。75通用先验一个流行的想法是使用通用先验,或在任何场合下都可用的Jeffrey先验Jeffrey提出的创建先验的规则:其中为Fisher信息。例:对,则Jeffrey先验为,即,与均匀分布很相近。76Jeffrey先验Jeffrey提出的创建先验的规则:30Jeffrey先验对于多元参数情况,Jeffrey先验为其中表示矩阵A的行列式,为Fisher信息矩阵。77Jeffrey先验对于多元参数情况,Jeffrey先验多元参数问题对于多元参数的情况,原则上同处理单个参数相同。后验密度为:问题:如何对多个参数中的一个进行推断?计算感兴趣参数的后验边缘分布例如的边缘分布为78多元参数问题对于多元参数多元参数问题通常计算是很困难的,可用模拟的方法近似。从后验分布随机采样:上标表示不同的采样,收集每个样本中向量的第一个成分,得到为中的样本,这样可以避免积分运算。79多元参数问题通常计算33贝叶斯假设检验从贝叶斯观点看假设检验时一个很复杂的问题,我们只介绍其基本思想。80贝叶斯假设检验从贝叶斯观点看假设检验时一个很复杂的问题,我们贝叶斯假设检验数据和模型:检验:例:用X表示一个最近被污染区域中n个蛋中被孵出的蛋的数目,则,其中表示被孵出蛋的真正比例检验:其中0为被孵出蛋比例的经验值81贝叶斯假设检验数据和模型:35先验分布令分别表示H0和H1的先验分布通常缺省为:在H1下,用
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 异地执行申请书
- 变更强制措施的申请书
- 休年假申请书
- 大数据背景下医院行政办公档案电子化管理探讨
- 初中入学的申请书
- 大学生创业项目老年人app
- 护士签合同申请书
- 19年大学生创业项目
- 艺术之门模板
- 创新之家居设计
- 北京故宫作文600字
- 2009数据结构英文试卷A及答案
- FZ/T 51010-2014纤维级聚对苯二甲酸1,3-丙二醇酯切片(PTT)
- 活动板房防风加固专项方案
- 羊水栓塞的应急预案演练脚本
- 餐饮服务保障措施、食品卫生安全保障方案
- 钢筋工工艺与实习(第二版)课件汇总全书电子教案完整版课件最全幻灯片(最新)课件电子教案幻灯片
- 物业保洁及餐饮服务项目方案
- (新版教材)粤教粤科版六年级下册科学全册课时练(同步练习)
- TCETA 001-2021 演艺灯具型号命名规则
- c语言期末机考(大连理工大学题库)
评论
0/150
提交评论