应用数理统计-贝叶斯估计_第1页
应用数理统计-贝叶斯估计_第2页
应用数理统计-贝叶斯估计_第3页
应用数理统计-贝叶斯估计_第4页
应用数理统计-贝叶斯估计_第5页
已阅读5页,还剩71页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

贝叶斯(Bayes)估计

统计学中有两大学派频率学派(又称经典学派)和贝叶斯学派,它们的理论与方法都建立在概率论基础上,应用都相当广泛。前几讲主要介绍经典统计学的基本内容,这一讲以贝叶斯估计为题对贝叶斯统计作一些介绍。

1.统计推断中的三种信息

我们在前面的统计推断(点估计、区间估计等)中用到了两种信息:

(1)总体信息,即总体分布给我们的信息。譬如,“总体是正态分布”这一句话就给我们带来很多信息:它的密度函数是一条钟形曲线;它的一切矩存在;有许多成熟的统计推断方法可供我们选用等。总体信息是很重要的信息,为了获取此种信息往往耗资巨大。我国为确认国产轴承寿命分布为威布尔分布前后花了五年时间,处理了几千个数据后才定下的。这是最“新鲜”的信息,并且越多越好,希望通过样本对总体或总体的某些特征作出较精确的统计推断.没有样本就没有统计学可言.

(2)样本信息,即样本提供给我们的信息,

基于以上两种信息进行统计推断的统计学就称为经典统计学.然而在我们周围还存在着第三种信息―先验信息,它也可用于统计推断.

(3)先验信息,即在抽样之前有关统计问题的一些信息。一般说来,先验信息来源于经验和历史资料。先验信息在日常生活和工作中是很重要的。

例1.英国统计学家Savage,L.J曾考察了如下两个统计试验:(l)一位常饮牛奶加茶的妇女声称,她能辨别先倒进杯子里的是茶还是牛奶.对此做了十次试验,她都正确地说出了答案(2)一位音乐家声称,他能从一页乐谱辨别出是海顿(Haydn)还是莫扎特(Mozart)的作品,在十次这样的试验中.他都辨别正确。

在这两个统计试验中,假如认为被试验者是在猜测,每次成功概率为0.5,那么十次都猜中的概率为210=0.0009766。这是很小的概率,是几乎不可能发生的。所以认为“每次成功概率为0.5”应被拒绝,认为试验者每次成功概率要比0.5大得多,这就不是猜测,而是他们的经验帮了他们的忙。可见经验(先验信息的一种)在推断中不可忽视.

例2.“免检产品”是怎样决定的?某工厂的产品每天要抽检n件,获得不合格品率的估计.经过一段时间后,就可根据历史资料(先验信息的一种)对过去产品的不合格品率构造一个分布

这种对先验信息进行加工获得的分布称为先验分布。有了先验分布,就得到对该厂过去产品的不合格品率的一个全面看法。如果的取值以大概率集中在=0附近,那么认为该产品是“信得过产品”。

假如以后的多次抽检结果与历史资料提供的先验分布是一致的,那就可以对它出“免检产品”的决定,或者每月抽检一次就足够了,这就省去了大量的人与物力.可见,历史资料在统计推断中应该加以应用。

基于上述三种信息进行统计推断的统计学称为贝叶斯统计学。它与经典统计学的差别就在于是否利用先验信息。贝叶斯统计在重视使用总体信息和样本信息的同时,还注意先验信息的收集、挖掘和加工,使它数量化,形成先验分布,参加到统计推断中来,以提高统计推断的质量。忽视先验信息的利用,有时是一种浪费,有时还会导出不合理的结论。

贝叶斯统计起源于英国学者贝叶斯(Bayes.T.R,1702(?)一1761)死后发表的一篇论文“论有关机遇问题的求解”,在此文中提出了著名的贝叶斯公式和一种归纳推理的方法。之后,一些统计学家将其发展成一种系统的统计推断方法。到上世纪30年代已形成贝叶斯学派,到50~60年代已发展成一个有影响的统计学派,其影响还在日益扩大。

贝叶斯学派的最基本的观点是:参数

可看作随机变量,可用一个概率分布去描述,这个分布称为先验分布。因为,参数

具有不确定性,而在表述不确定性的程度时,概率与概率分布是最好的语言。例2中产品的不合格品率

是未知的,但每天都在变化,把它看成随机变量是合理的,用一个概率分布去描述它是恰当的。

例3.

某地区煤的储存量

在几百年内不会有多大变化,可看作是一个常量,但对人们来说,它是未知的、不确定的量。有位专家研究了有关资料、结合他的经验认为:该地区煤的储存量

“大概有5亿吨左右”。若把“左右”理解为4到6亿吨之内,把“大概”理解为80%的把握,还有20%的可能性在此区间之外。这无形中就是用一个概率分布去描述未知量

,而具有概率分布的量当然是随机变量。

14610

关于参数是否可看作随机变量在经典学派与贝叶斯学派间争论了很长时间。如今经典学派已不反对这一观点。著名的美国经典统计学家Lehmann,E.J.在他的《点估计理论》一书中写道:“把统计问题中的参数看作随机变量的实现要比看作未知参数更合理一些”。如今两派的争论焦点是:如何利用各种先验信息合理地确定先验分布。这在有些场合是容易解决的,但在很多场合是相当困难的。这时应加强研究,发展贝叶斯统计,而不宜简单处置,引起非难。

2.贝叶斯公式的密度函数形式若B1,…Bn是一完备事件组,则对任意的事件A(P(A)>0),均有

(1)贝叶斯公式的事件形式:(2)贝叶斯公式的密度函数形式(介绍贝叶斯学派的一些具体想法)

(a)X的密度函数(依赖于参数

)在经典统计中记为f(x;),它表示参数空间中不同的

对应不同的分布。在贝叶斯统计中应将其记为f(x|),它表示在随机变量给定某个值时,X的条件密度函数。

(b)根据参数的先验信息确定先验分布(

)。

(c)从贝叶斯观点看,样本X1,X2,…Xn

的产生要分两步进行:这个联合分布综合了总体信息和样本信息,又称为似然函数。

首先设想从先验分布(

)中产生一个样本*。这一步是“老天爷”做的,人们是看不到的,故用“设想”二字.第二步从f(x|*)

中产生样本X1,X2,…Xn

。这时样本的联合条件密度函数为(d)由于*是设想出来的,仍然是未知的,它是按先验分布(

)产生的.为把先验信息综合进去,不能只考虑*,也要考虑的其它值发生的可能性,故要用(

)进行综合。这个联合分布把三种可用信息都综合进去了。这样一来,样本和参数的联合分布为

(e)我们的任务是要对未知参数

作统计推断。在没有样本信息时,我们只能依据先验分布(

)对作出推断.在有了样本观察值x1,…,xn

之后,我们应依据h(x1,…,xn,)

对作出推断。若把h作如下分解其中m(x1,…,xn)

为样本X1,…,Xn

的边缘密度函数它与无关,或者说m(x1,…,xn)

中不含的任何信息。因此能用来对作出推断的仅是条件分布(|x1,…,xn

)

条件分布(|x1,…,xn

)

的计算公式为

这就是贝叶斯公式的密度函数形式。这个条件分布称为的后验分布,它集中了总体、样本和先验中有关的一切信息.后验分布也是用总体和样本对先验分布(

)作调整的结果,它要比(

)

更接近的实际情况,从而使基于(|x1,…,xn

)

对的推断可以得到改进。

(1)式是在X

和都是连续随机变量场合下的贝叶斯公式。其它场合下的贝叶斯公式容易写出。譬如在X

是离散型随机变量、是连续随机变量时,只要把(1)中的密度函数f(x|)改为条件概率P(X=x|)

即可;而当为离散随机变量时,只要把(1)中先验密度函数(

)改为先验分布列(i

),i=1,2,…,把积分改为求和即可.

例4.设事件A

发生的概率为

,即P(A)=。为了估计,进行了n次独立观察,其中事件A

出现次数为X。显然X~B(n,

),即

这就是似然函数.取(0,1)区间上的均匀分布U(0,l)作为的先验分布.此时,的先验分布为此时,的先验分布为为了综合试验信息和先验信息,可利用贝叶斯公式。为此先计算样本X与参数

的联合分布

的先验分布为U(0,l)从形式上看,此联合分布与X

的条件分布没有差别,可在定义域上有差别。再计算

X

的边缘分布二者相除,即得的后验分布为这就是参数为x+1与n-x+1的贝塔分布Be(x+1,n-x+1).

拉普拉斯在1786年研究了巴黎男婴诞生的比率是否大于0.5。为此他收集了1745年到1770年在巴黎诞生的婴儿数据,其中男婴为251527个,女婴为241945个。他选用U(0,l)作为的先验分布,于是得的后验分布为Be(x+1,n-x+1),其中n=251527+241945=493472,x=251527。利用这一后验分布,拉普拉斯计算了“0.5”的后验概率由于这一概率很小,故他以很大的把握断言男婴诞生的概率大于0.5。这一结果在当时是很有影响的。

3.先验分布----

(1)共轭先验分布从例4看到一个有趣的现象:二项分布B(n,)中的成功概率

的先验分布若取U(0,1),即为贝塔分布Be(1,1),则其后验分布也是贝塔分布Be(x+1,n-x+1)。先验分布与后验分布同属一个贝塔分布族,只不过参数不同。这一现象不是偶然的,如把

的先验分布换成一般的贝塔分布Be(a,b)

,其中a>0,b>0,则经过类似的计算可以看出

的后验分布仍是贝塔分布Be(a+x,b+n-x).此种先验分布称为

的共扼先验分布.

定义设

是某分布中的一个参数,(

)是其先验分布。假如由抽样信息算得的后验分布(

|

x)与(

)同属于一个分布族,则称(

)是

的共轭先验分布。

从这个定义可以看出,共扼先验分布是对某一分布中的参数而言的,离开指定参数及其所在的分布,谈论共扼先验分布是没有意义。常用的共轭先验分布总体分布参数

共轭先验分布二项分布成功概率

贝塔分布泊松分布

均值

伽玛分布指数分布

均值倒数

伽玛分布正态分布(方差已知)均值

正态分布正态分布(均值已知)方差

正态分布注:若则1/X的分布称为倒伽玛分布

从Bayes分析诞生之日起,就伴随一个问题:没有先验信息场合如何确定先验信息,此时的先验分布称为无信息先验分布。(2)使用贝叶斯假设确定先验分布

贝叶斯假设表述为:参数

的先验分布()应在

的取值范围“均匀”分布。用数学公式表示为:

()=c,其中c是常数。

没有的任何信息可理解为:对任何可能值既无偏爱,又同等无知,因此很自然的把的取值范围内的均匀分布取作的先的验分布。即为贝叶斯假设。若仅在有限区间[a,b]上取值,=[a,b],则使用贝叶斯假设是合理的。即选用U(a,b)作为先验分布。若为无限区间时,(

)=c,并不是正常的密度函数,但如果由此确定的后验密度(|x1,…,xn

)仍然是正常的密度函数,则称(

)为的广义先验密度。例5.设X1,X2,…,Xn

是来自N(,

2)的样本,

2已知.假如的先验分布为()=c,R,求

的后验密度。解:X1,X2,…,Xn

的联合密度为又的先验分布为于是的后验密度为即的后验密度为(3)使用杰弗莱(Jeffreys)原则确定先验分布

贝叶斯假设中的一个矛盾是:如果对参数

选用先验分布,那么当

的函数g()作为参数时,也应该选用均匀分布作为先验分布。然而由

遵从均匀分布这一前提,往往导出g()的分布不是均匀分布,反之也一样。杰弗莱为了克服这一矛盾,提出选取先验的不变原理,称为杰弗莱原则或杰弗莱准则

杰弗莱原则有两个部分:10对无信息先验分布有一合理的要求;20给出一个具体的方法去求得符合要求的先验分布。现设按照同一准则决定的

的先验分布为(

),=g()的先验分布为g(),则应有关系

杰弗莱巧妙应用Fisher信息阵的一个不变性质,找到满足上述要求的先验分布(

):的无信息先验分布应满足其中可以是向量,此时定理:设g()是的函数,

=g()与具有相同的维数,则有例6:设总体X~N(,

2),X1,…,Xn为独立同分布样本,则X1,…,Xn的联合密度函数为可以求得Fisher信息阵为于是(,)的先验分布为例7:设n次独立试验中事件A发生的次数X服从二项分布

因此于是

所以的先验分布为

即为Be(1/2,1/2)。一般说来,无信息先验不是唯一的,但是它们对Bayes统计推断的结果的影响都是很小的,很少对结果产生重大影响,所以任何无信息先验分布都可以采用。4.贝叶斯点估计

后验分布(

|

x)

综合了总体f(x|)

,样本x1,…,xn和先验分布()中的有关

的信息,如今要寻找参数的估计,当然要从后验分布(

|

x)

中提取信息.从(

|

x)

中提取关于的信息有三种常用的方法:(a)使后验密度达到最大的;(b)后验分布的中位数;(c)后验分布的均值.用得最多的是后验分布的均值.定义.

的后验分布的期望值称为的后验期望估计.也简称贝叶斯估计,常记为定理.设的后验密度为(

|

x)

,则后验期望估计使均方误差达到最小证明:的均方误差为下面在(

|

x)

下进行计算:这是的二次三项式,其二次项系数为正,必有最小值,其最小值点为例8.设X1,X2,…,Xn

是来自N(,

2)的一个样本,其中

2已知,为未知参数.假如的先验分布为N(,

2),其中和

2

已知。试求的贝叶斯估计。

解:X1,X2,…,Xn

的联合密度为又的先验分布为于是样本X1,X2,…,Xn

与的联合密度为其中合并项,有令由此,配方得,由此容易算得样本的边缘分布为将上述两式相除,得到的后验分布这是一个正态分布,均值为B/A,方差为1/A。于是的后验分布的期望,即的贝叶斯估计为若令02=2/n,则贝叶斯估计可表达为其中是样本均值,是的先验均值,权rn由样本均值得方差02和先验方差2

算得。当02>2

时,rn<1/2,1-rn>1/2,此时在贝叶斯估计中先验均值占得比重大一些。这从直观上也容易理解,因为在02>2

时,样本量不够大,样本均值的方差较大,更应重视先验方差。

反之,当02<2

时,rn>1/2,1-rn<1/2,于是在贝叶斯估计中样本均值占得比重大一些。也就是说,当样本量样本量足够大时,更应受到重视的信息。符合人们的直观认识:方差小的信息更应受到重视.特别地,rn=0时,这时02=,表示没有样本信息,故而贝叶斯估计只能用先验均值了。而当rn=1时,这时2

=,这表示没有任何先验信息,此时贝叶斯估计就取经典估计的贝叶斯估计是十分合理的。

从上述特性,我们看出,形如

作为一个数值例子,我们考虑对一个儿童做智力测验。设测验结果X~N(,100),其中为这个儿童的智商的真值.若又设~N(100,225)应用上述方法,在n=l时,可得在给定X=x条件下,该儿童智商的后验分布是正态分布N(1,1),其中假如这个儿童测验得分为115分,则他的智商的贝叶斯估计为

例9.

为估计不合格率,今从一批产品中随机抽取n件,其中不合格品数为x,又设

的先验分布为贝塔分布Be(a,b)。求的贝叶斯估计。这一估计也可改写为解:由共轭先验分布可知,此时

的后验分布(

|

x)

为Be(a+x,b+n-x)。此后验分布的均值即为的贝叶斯估计,故其中为先验分布Be(a,b)的均值,它可看作仅用先验分布对所作的估计。是仅用抽样信息对所作的极大似然估计。是权,它的大小取决于样本量n的大小。当n很大时,rn接近于1,贝叶斯估计接近极大似然估计,即抽样信息在估计中占主要成分;当n较小时,rn接近于0,贝叶斯估计接近先验均值,即先验信息在估计中占主要成分。

上述现象表明,各种信息在贝叶斯估计中所占的地位是很恰当的。

作为一个数值例子,我们选用贝叶斯假设,即

的先验分布选为均匀分布U(0,1),它就是a=b=1的贝塔分布。假如其它条件不变,那么的贝叶斯估计为

它与极大似然估计略有不同,它相当于在n次检查中再追加二次检查,并且不合格品也增加一个这里2与1正是均匀先验分布能提供的信息.

下表列出两个试验结果。在试验l与试验2中,“抽检3个产品全合格”与“抽检10个产品全合格”在人们心目中留下的印象是不同的,后批的质量要比前批的质量更信得过,这一点用反映不出来,而用贝叶斯估计会有所反映。

试验号nx13000.2210000.083类似地,在下述试验3和试验4中,“抽检3个产品全不合格”与“抽检10个产品也全不合格”在人们心目中也是有差别的二个事件,可用极大似然估计看不出此种差别,而贝叶斯估计能反映一些.在这些极端场合,贝叶斯估计更具有吸引力。

试验号nx33310.84101010.9175.贝叶斯区间估计

对于区间估计问题,贝叶斯方法比经典方法更容易处理。因为在贝叶斯估计中参数

是一个随机变量,且有后验分布(

|x1,x2,...,xn),因此

落在某一区间的概率是容易计算的,譬如给定区间[a,b],用后验分布(

|x1,x2,...,xn)可算得其概率,譬如为1,即P(a

b|x1,x2,...,xn)=1

反之,若给定概率1,要求一个区间[a,b],使上式成立,这样求得的区间[a,b]就是

的贝叶斯区间估计。这是在

为连续随机变量场合。P(a

b|x1,x2,...,xn)=1(3.8)

假如

是离散型随机变量,对给定的概率1,满足等式(3.8)的a与b不一定存在,这时只有略微放大(3.8)左端的概率,才能找到a与b,这样的区间也是

的贝叶斯区间估计。它的一般定义如下:

定义.设参数

的后验分布为(

|x1,x2,...,xn),对给定的概率1,若存在这样的两个统计量L=L(x1,x

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论