贝叶斯统计学2_第1页
贝叶斯统计学2_第2页
贝叶斯统计学2_第3页
贝叶斯统计学2_第4页
贝叶斯统计学2_第5页
已阅读5页,还剩122页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、28.03.2021,1,第二章 贝叶斯推断,2.1 条件方法 2.2 估计 2.3 区间估计 2.4 假设检验 2.5 预测 2.6 似然原理,28.03.2021,2,2.1 条件方法,未知参数的后验分布是集总体、样本和先验三种信息于一身,是将三种信息进行有效综合的结果,反映了我们所能了解的有关 的全部信息。应该说给统计推断提供了更有利条件。-条件方法正是充分利用这一条件的方法。 后验分布 是在样本x给定下的条件分布,基于后验分布的统计推断就意味着只考虑已经出现的数据(样本观测值),而认为未出现的数据与推断无关,这一重要的观点被称为“条件观点”,基于这种观点提出的统计推断方法被称为条件方法

2、。,28.03.2021,3,经典统计中统计推断的简单回顾,经典统计统计推断过程:,总体,样本,样本数据x,统计量T,统计量分布,已知未知,枢轴统计量,枢轴统计分布,推 断,28.03.2021,4,条件方法统计推断过程,综合总体信息、样本信息和先验信息得到后验分布。 基于后验分布,在已出现的样本基础上推断总体参数。 对统计推断的结果,不认为所谓无偏性是优良估计的评价标准。,28.03.2021,5,2.2 贝叶斯点估计,贝叶斯点估计的含义 最大后验估计 条件期望估计 贝叶斯估计误差,28.03.2021,6,1.贝叶斯估计的含义,定义:设总体分布 中的参数,若事先从该总体中抽得一个样本 ,同

3、时根据的先验信息选择一个先验分布 ,在贝叶斯公式的基础上计算后验分布,这种对的所有推断估计都依据后验分布进行估计方法统称为贝叶斯估计。 贝叶斯估计的分类:首先与经典统计一样,贝叶斯估计也可按照方式分-点估计和区间估计。按照估计的具体方法分-最大后验估计、条件期望估计和后验中位数估计。,28.03.2021,7,2.最大后验估计,若 使得 则称 为的最大后验估计。 显然,最大后验估计的特殊情形是当先验分布 时最大后验分布就是经典统计中的最大似然估计。,28.03.2021,8,一般来说,由于后验分布中,蕴含了抽样信息、先验信息和总体信息,其估计应该比经典统计中的“极大似然估计”要好。在“无信息”

4、的条件下,最大后验估计即为最大似然估计。其他情况下,应该比其更好。,28.03.2021,9,例:设 是来自正态分布 的样本,其中 已知。又设 的先验分布为 求 的最大后验估计。 解:由题意知 其先验分布为,28.03.2021,10,两边取对数得:,28.03.2021,11,为了求上式的最大值,对上式求 的导数,并令导数为0,则:解得:,28.03.2021,12,按照教材的假设,若取 为一儿童智力测验结果的分布, 为先验分布,在n=1时可得X=x的条件下该儿童智商的后验分布是正态布 ,且有当x等于某一具体值时,按此立刻估计出智商水平。此外,在正态分布条件下,中位数、众数和期望相等,因此最

5、大后验估计也就是条件期望估计和后验中位数估计。,28.03.2021,13,例:(1)设 是来自正态总体 的样本,又设 的先验分布为 求 的最大后验估计。 (2)若记 ,设 的先验分布为 , 求 的最大后验估计。解:(1)样本的似然函数为:,28.03.2021,14,当 的先验分布为 时 ,其后验分布为两边去对数有所以,28.03.2021,15,(2)同理,可得样本的似然函数为当 的先验分布为 时 ,其后验分布为,28.03.2021,16,取对数,并对 求导则有所以,有 的最大后验估计为可见 和 的最大后验估计是不同的。,28.03.2021,17,3.条件期望估计(后验期望估计),定义

6、:设后验分布为 ,如果 满足: 则称 为 的条件期望估计。,28.03.2021,18,例:设 服从二项分布 ,又设 的先验分布为 ,求 的最大后验估计,条件期望估计。解:由以上知识知,样本似然函数为取 的先验分布为贝塔分布,28.03.2021,19, 后验分布密度为 的最大后验估计为,28.03.2021,20,当 时, 先验分布为 ,也即均匀分布 因此, 的最大后验分布为此即为经典统计学中的极大似然估计。由以上知,可见,后验密度为 ,其条件期望估计为,28.03.2021,21,例:设 是来自poisson分布总体的样本,又设 的先验分布为 , 求参数 的后验期望估计。解:样本似然函数为

7、 其中 。而其给定的先验分布为,28.03.2021,22, 后验分布为这仍然是伽玛分布 的“核”,所以 的后验期望估计为,28.03.2021,23,4.贝叶斯估计的误差,引子:设 是 的一个贝叶斯估计,在样本给定时, 是一个具体的数。在取得后验分布以后,评价一个估计的好坏,一般计算 对 的后验均方差或后验标准差。这就是贝氏统计评价标准。 说明:在评价一个估计时,经典统计中是利用所谓所谓几个优良标准:即无偏性、一致性和有效性。但贝叶斯统计并不接受这些所谓的标准。因为他们是建立所有样本的基础之上的理论。,28.03.2021,24,定义1:设参数 的后验分布 贝叶斯估计为 ,则 的后验期望称为

8、 的后验均方差。其平方根 称为 的后验标准误差。,定义2:当 为 的后验期望估计 时,则 称为后验方差。其中,其平方根 称为后验标准差。,28.03.2021,25,均方差和后验方差有如下关系:,28.03.2021,26,这表明当 为后验期望估计时,可是后验均方差达到最小,所以实际中常使用后验期望估计作为 的估计。因此后验期望估计一般优于最大后验估计。,28.03.2021,27,例:设一批产品不合格率为,检查是一个接一个地进行,直到发现第一个不合格聘停止检查,若设x为发现第一个不合格品时,已检查的产品数,则x服从几何分布,其概率分布为现假如其中参数只能以相同的概率取1/4,2/4和3/4三

9、个值,现只获得一个样本观察值 x=3,要求的最大后验估计,并计算他的误差。,28.03.2021,28,解:显然,有题设条件有:的先验分布为在给定的条件下,x=3的条件概率分布为于是其联合概率分布为,28.03.2021,29,所以,x=3的边缘概率分布为所以在x=3的条件下,的后验分布为 i=1,2,3,28.03.2021,30,所以,的概率分布表为可见的最大后验估计 。上述后验分布的均值和方差可计算:,28.03.2021,31,所以, 后验均方差为 后验标准误为:,28.03.2021,32,2.3 区间估计,引子 可信区间 最大后验可信区间,28.03.2021,33,1.引子,概述

10、:对于区间估计问题,贝叶斯方法比经典统计方法易于处理,因为参数是一个随机变量,且经过计算后,它的后验分布已知,所以落在某一区间的概率是容易确定的。经典统计将看作常量由此产生了置信概率计算上的困难。如计算在区间(a,b)上的概率,反之也易。,28.03.2021,34,说明:经典统计中对所作的区间估计称作置信区间。其本质是将1-的保证概率(置信概率)放在中间,两边各留出/2的概率作为显著性水平,在大多数统计学中经典统计都回避了这一本质(讨论其他情况太复杂)。因为实际上这样得到的所谓置信区间未必就是可行、可信和最优的估计区间。这样所作的置信区间也实际建立概率密度是单峰、连续和对称条件下的一种估计。

11、由于贝叶斯统计处理上的简化,所以它对区间估计处理和认识要细致一些。,28.03.2021,35,贝叶斯统计中区间估计的分类: 以上无论哪一种可信区间都可以说落在某一区间。而经典统计绝对不能这样说。,28.03.2021,36,2.可信区间,定义:设参数的后验分布为 ,对于给定的样本 和概率1-(01),若存在这样的两个统计量 ,使得 则称区间 为参数的可信水平为1-的贝叶斯可信区间。当将可信水平置于中间所得的可信区间 为同等可信区间(由于大多属于此类,通常将此类简称可信区间)。 为可信上、下限。 当满足 即当( )时,称区间 为(单侧)上侧可信区间。此时称 为(单侧)可信下限。,28.03.2

12、021,37,当满足 即当( )时,称区间 为(单侧)下侧可信区间。此时称 为(单侧)可信上限。,28.03.2021,38,例:对正态分布 作观察,获得三个观察值:2、4、3,若的先验分布为 ,求的0.95的可信区间。解:由以前知识知道,先验分布 是参数 的共轭先验分布,所以其后验分布为 ,且,28.03.2021,39,相应即后验分布为 ,所以显然可查的 所以,28.03.2021,40,即:的0.95的可信区间为如果按经典统计计算,则的0.95的置信区间为,28.03.2021,41,例:经过早期筛选后的彩色电视机的寿命服从指数分布,其密度函数为 ,t0。其中0是彩电的平均寿命。现从一批

13、彩电中随机地抽取n台进行寿命实验,试验到第r(n)台失效为止,其失效时间为 ,另外n-r台直到实验停止时( )还未失效这样的试验称为截尾寿命试验,所得样本 成为截尾样本,请确定彩电平均寿命的贝叶斯估计。,28.03.2021,42,解:样本联合密度(似然函数)为其中, t0,28.03.2021,43,选用倒伽玛分布 作为的先验分布,即假定我们已经从15个彩电厂收集到13142台彩电的寿命试验数据,共计5369812台时,此外还对9240台彩电进行了5547810台时的三年跟踪试验,在此实验中总共不超过250台失效。由这些数据,专家确认我国彩电平均寿命不低于30000小时,10%的分位数大约为

14、11250小时。由此我们可以确定其超参数:,28.03.2021,44,所以, 即先验分布为 故后验分布为 这仍然是一个倒伽玛分布的核取后验分布均值(即作后验期望估计)作为的贝叶斯估计有当代入上式有,28.03.2021,45,作的(单侧)上侧可信区间,如果相对应给出1-=0.9,则有值得注意的是,按照教材: IGa,则 。 则 ,所以 ,这里有 当,28.03.2021,46,例:设 来自正态总体 的样本,其中 已知,求 的 的可信区间。(1)选用共轭先验 。 (2) 选用广义均匀分布 作先验分布。,28.03.2021,47,解:显然的可信区间与选用什么样的先验分布有关。我们来比较两个不同

15、的先验分布给出的可信区间的差异。 1)选用共轭先验分布 作为共轭先验分布。 由以前知识可知, 的后验分布可为 并且有:,28.03.2021,48,因此,给定1-之后从标准正态分布N(0,1)的分布表上可查得1-/2的分位点 ,所以 这样很快就可得到的1-的可信区间为 将 和 代入上式 ,有,28.03.2021,49,显然,如果先验分布非常分散(即对的先验信息作用不大)则可考虑到下式成立 此时,上述区间可为这就是经典统计的结果。,28.03.2021,50,2)选用广义贝叶斯(广义均匀分布)作为的先验分布,即 所以,在样本给定(样本均值是充分统计量),28.03.2021,51,即的后验分布

16、是正态分布 所以 因此,在给定1-以后,28.03.2021,52,相对应的可信区间为 它与经典统计结果一致。 这说明,在没有任何先验信息可利用的条件下,只能靠样本信息来估计时,就是经典统计。,28.03.2021,53,3.最大后验可信区间,1)问题的提出及其含义 2)定义 3)最大后验密度可信区间的计算,28.03.2021,54,问题提出及其含义,首先对于给定的可信水平,事实上当把1-放在不同的地方就会得到不同的区间。最基本的以正态分布为例,显然当把1-放在左边和放在右边所得到的可信区间(经典统计中的置信区间)是不同的。常用的方法是放在中间。 特别当后验分布不是单峰,对称和连续分布时上述

17、区间就不一定是理想估计区间。 理想的估计区间:应该是估计精度高、保证概率大。这就提出一个要求:我们所作的区间应该将密度值大的点包括在可信区间中最大后验可信区间,28.03.2021,55,定义,设参数的后验分布为 ,对于给定的概率1-(01)若在直线上存在这样一个子区间(子集)c,满足下列两个条件: 1. 2.对于任意给定的 ,总有 成立。 则称区间c为的可信水平为1-的最大后验密度可信集 。若c是一个区间,则c又称的1-的最大后验可信区间,简称为HPD可信区间。,28.03.2021,56,最大后验可信区间的实际计算,尽管最大后验可信区间的理论分析是非常清楚,含义也很明确,但是实际计算存在困

18、难。关键是要比较密度值的大小。 对于的后验分布实际上,有可能是离散分布、也可能是连续分布;也有可能是对称分布,或者非对称分布;还有可能是单峰的分布,或者多峰的分布。这些对于计算最大后验可信区间都是由影响的。,28.03.2021,57,当为离散随机变量时,HPD可信区间很难直接找到(实现),操作上需要将所有的取值的相应概率进行比较。 当为连续型随机变量,但后验分布为多峰分布时,最大后验可信区间c可能是几个互不相连的几个区间构成。有人认为这样计算的区间难度也很大,而实用性却不高,因此甚至有人建议在这种情况下放弃计算最大后验可信区间的准则。 当为连续型随机变量,且后验密度函数为单峰分布时,可采用计

19、算机叠代逼近,计算HPD可信区间。特别是当后验分布为对称分布时,HPD 可信区间是已于确定的等尾可信区间。,28.03.2021,58,叠代方法步骤,第一步,计算 第二步,取 ,并计算 由此得到 。 第三步,计算区间 上的概率,即 第四步,若p(*)=1-,则 极为所求。 若p(*)1-,则应减少 并重复上述步骤。 若p(*)1-,则应增加 并重复上述步骤。,28.03.2021,59,例:在前面我们已经确定了彩电平均寿命的后验分布为倒伽码分布 即 求的可信水平为0.9 的PHD可信区间。 解:的后验密度为,28.03.2021,60,为了计算上的方便计算其分布函数 求得 取 ,所以有 代入后

20、验密度函数有,28.03.2021,61,所以, 有区间计算故需增加 的值,取 即 相应地,有 有区间,28.03.2021,62,所以,增加 得到所以所求的最大后验可信区间为,28.03.2021,63,2.4 假设检验,1.概述 2.贝叶斯因子 3.假设检验的具体操作,28.03.2021,64,1.概述,经典统计中假设检验的处理方法 贝叶斯假设检验问题处理的一般步骤 贝叶斯假设检验与经典统计相比存在的优点,28.03.2021,65,经典统计中假设检验的处理方法,1.建立原假设 和备择假设 。 2.选择统计量 ,在原假设为真时,使其概率分布已知。 3.对给定的显著性水平 ,确定拒绝域W,

21、使犯第一类错误的概率不超过 。 4.当由样本所构造的统计量值落入一个非常小的概率 所对应的拒绝域W时,就不能接受原假设。相应只能更加相信备择假设。,28.03.2021,66,贝叶斯假设检验问题处理的一般步骤,1.根据有关理论,确定后验分布 。 2.作假设: 。 3.计算后验概率: 。 4.计算后验机会比 。 5.判断: 当 时,接受 ;当 时, 接受 ;当 时,应增加样本容量,28.03.2021,67,贝叶斯假设检验与经典统计相比存在的优点,1.贝叶斯假设检验,过程简便,含义直观,思路清晰。 2.贝叶斯假设检验无需事先给出显著性水平 。 3.贝叶斯假设检验无需已知统计量及其对应的枢轴统计量

22、的概率密度。,28.03.2021,68,例:设从正态总体 中抽得样本容量为10 的样本 ,并算得样本均值为 ,设 的先验分布是 ,作下列贝叶斯假设检验: 解:由共轭先验分布有关知识知,后验分布为 且有:,28.03.2021,69,所以 故拒绝 ,相应接受 。,28.03.2021,70,例:设 是从二项分布 中抽得的一个样本,现考虑如下二个假设: 其中, 若取均匀分布 作为的先验分布,请据此作假设检验。 解:由题设知,,28.03.2021,71,后验分布为贝塔分布 即:,28.03.2021,72,当n=5时,数据见(mathcad中:贝塔分布计算表) 由此可见,当 x=0,1,2时,应

23、该接受 而当x=3,4,5时,应该拒绝 接受 。,28.03.2021,73,例:如上例类似,现设有一批产品的废品率是,其先验分布是均匀分布 ,从该批产品中有放回地抽取样本容量为100的样本,记其废品数为x作下列贝叶斯假设检验: 使制定一个抽样方案,说明何时接 ,何时拒绝 。 解:因为是有放回抽样,所以总体分布可以看作二项分布即x 当废品数为x时,其样本联合分布为,28.03.2021,74,后验分布也就是贝塔分布 很快就有 依此相应计算出 。将 和 以及它们的比值分别计算出来(mathcad:贝塔分布计算表2),28.03.2021,75,28.03.2021,76,2.贝叶斯因子,定义:设

24、两个假设 和 的先验概率分别为 和 ,后验概率分别为 和 ,则称 为贝叶斯因子。,28.03.2021,77,说明: 后验概率(机会),一般认为它包含了先验信息和样本数据的影响。 从定义来看,贝叶斯因子它也依赖于先验分布和样本数据,但贝叶斯因子将后验机会与先验机会进行对比,很多人认为:这样比较可能会消弱先验分布的影响,突出样本数据对假设检验判断的影响。 所以从这一角度来看,贝叶斯因子实际上是样本数据对 的支持程度。 研究贝叶斯因子的重要性也正是在于它被解释为“数据得出的 与 的机会比”。 根据贝叶斯因子,有时可以将假设检验的判断问题转化为似然比与先验机会比的比较问题。,28.03.2021,7

25、8,贝叶斯假设检验的简单分类,1.假设检验问题的一般表述: 其中 和 分别是的某一区间。,28.03.2021,79,2.假设检验问题的分类,按的取值区间分: 简单对简单假设 复杂对复杂假设 简单对复杂(或复杂对简单)假设,28.03.2021,80,3.假设检验的具体操作,1)简单对简单假设 其中: 。也即: 一定要注意的是 实际上就是先验概率 。 在 发生的条件下x的条件概率为 ,相应地在 发生的条件下x的条件概率为 。,28.03.2021,81,则相对应的后验概率为 在这里实际上贝叶斯因子就是似然比。这种情况下可利用似然比(贝氏因子)来给出判断。,28.03.2021,82,即当 时,

26、接受 拒绝 ;相对应,当 可以看出先验机会比 似乎就是一个所谓临界值。,28.03.2021,83,例:设x ,其中只有两种可能,非0即1,若从该总体中抽取了一个样本容量为n的样本 ,其均值 是充分统计量,要求对 作出判断。 解:作假设 在 和 分别为真时,的似然函数为,28.03.2021,84,值得注意的是,在这里我们忽略了 ,但是我们注意到贝叶斯因子:,28.03.2021,85,理应当 接受 ,拒绝 。 接受 ,拒绝 。 当n=100, 时,贝叶斯因子的取值为 要求 即支持 原假设的机会是很小的。,28.03.2021,86,2.)复杂对复杂假设,此时假设形式为 即 这是我们注意到,2

27、8.03.2021,87,在 成立时,设有一先验分布 同里,在 成立时,设有一先验分布 这时,实质上先验分布表示为,28.03.2021,88,所以后验机会比为 贝叶斯因子为,28.03.2021,89,可见: 就是加权似然比。 它强调了样本的作用。 它部分地消除了先验分布的影响。,28.03.2021,90,例:一产品的长度的误差服从正态分布 ,设 的先验分布Iga(0,0),也即 ,现在取200个做实验,设其长度的误差平方和 。作下列贝叶斯假设检验: 解:似然函数为,28.03.2021,91,28.03.2021,92,其先验分布为Iga(0,0),即: 所以,有后验分布为,28.03.

28、2021,93,显然这仍然是一个倒伽玛分布,即 又由于t=17.24,所以后验分布为 如果你有伽玛分布的概率分布表,由于,28.03.2021,94,所以倒伽玛分布与伽玛分布有 则后验概率,28.03.2021,95,所以,接受 如果直接用mathcad计算:倒伽玛分布概率计算,28.03.2021,96,3)简单对复杂假设,此时假设的基本形式为 其中: 按照惯例,即 为了研究方便,通常还将其看作 其中: 为无穷小量。,28.03.2021,97,对于原假设 ,显然不可能存在一个连续密度函数作为的先验分布。因为对于连续分布而言,当 时的先验概率为0,因此,为了研究的需要作如下处理: 设: 当

29、成立时有一先验分布 ;当 成立时,也有一先验分布,28.03.2021,98,因此,类似地,先验分布可表示为 这时,若似然函数为 ,则利用以上给定的条件可得样本边缘分布,28.03.2021,99,其中: 。 后验分布为 当 成立时,,28.03.2021,100,相应地,当 成立时, 所以 因此 从而相应的贝氏因子为,28.03.2021,101,在这一情况下,贝氏因子较易于计算,所以通常也可先计算贝氏因子,在计算后验概率。,28.03.2021,102,例:设x是从二项分布b(n,)中抽取的一个样本,若设在 上的先验密度 为区间(0,1)上的均匀分布 ,现考察如下假设: 解:似然函数为,2

30、8.03.2021,103,所以 于是,贝叶斯因子为 原假设成立的后验概率,28.03.2021,104,当n=5,x=3, 用mathcad计算:规划计算1,28.03.2021,105,例:设 为来自正态总体 的样本,要求作下列假设检验: 分别为 成立时的先验概率,且 为单点集,若 成立, 。若 成立, 。,28.03.2021,106,解:根据以上条件 所以,,28.03.2021,107,所以 故:,28.03.2021,108,在其他条件不变时,要求 越大,实 际上就是要求 越小。这完全符合实际。 注:,28.03.2021,109,28.03.2021,110,例:投掷一枚钱币,共

31、投掷n=10次,出现正面x次,问能否认为钱币是均匀的? 1) x=3 2) x=8 解:设出现正面的概率为 , 作假设 又设先验分布,28.03.2021,111,所以 又,28.03.2021,112,贝叶斯因子为 当 时, 所以:1)当n=10,x=3, 2)当n=10,x=8,28.03.2021,113,即1)当x=3时,接受 。 2)当x=8时,不能接受 。 事实上,用mathcad计算其结果可见规律:规划计算2,28.03.2021,114,2.5 预测,1.预测的含义 2.预测分布 3.预测的基本原理,28.03.2021,115,1.预测的含义,对随机变量X未来观测值作出统计推

32、断称为预测。 对随机变量未来观测值的预测,无非有两种:已知Xp(x/)(或者来自p(x/) 的一组观测值 ),在参数位置的条件下,对X未来观测值作出推断。 得到来自p(x/) 的一组观测值 后,如何对具有密度函数g(z/)的随机变量Z的观测值作出推断。,28.03.2021,116,2.预测分布,预测问题也是统计推断形式之一,在统计学中有些问题,归结为预测问题。解决预测问题,其基本前提是已知预测分布,预测分布一般可分为先验预测分布和后验预测分布。 设随机变量Xp(x/),在无X的观测数据时,利用先验分布 容易获得未知的、但可观测的数据 的分布:,28.03.2021,117,一般地我们将此分布称为X的边缘分布,也称之为“先验预测分布”。 同理,在随机变量X取得若干观测数据 的前提下,利用后验分布 容易获得未知观测值的分布: 对同一总体未来观测值预测 对

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论