贝叶斯估计在抽样调查中的应用_第1页
贝叶斯估计在抽样调查中的应用_第2页
贝叶斯估计在抽样调查中的应用_第3页
贝叶斯估计在抽样调查中的应用_第4页
贝叶斯估计在抽样调查中的应用_第5页
已阅读5页,还剩53页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、贝叶斯估计及其在 抽样调查中的应用ii(Bayes, Thomas) (17021761)皿霸郵蠶踽耕敦;贝叶斯是一位自学成才的数学家曾助理宗教如今在概率、数理统计学中以贝叶斯姓氏命名Ifllll隣踹牡贝腳鏗翼、贝叶斯方法是基于贝叶斯定理而发展起来用于系统地 阐述解决统计问题的方法(Samuel Kotz和吴喜乙2000)。贝叶斯推断的基本方法是将关于未知参数的先验信息 与样本信息综合,再根据贝叶斯定理,得出后验信息,然 后根据后验信息去推断未知参数(弗诗松和王静龙等,1998 年)。“贝叶斯提出了一种归纳推理的理论(贝叶斯定理), 以后被一些统计学者发展为一种系统的统计推断方法,称 为贝叶斯

2、方法”摘自中国大百科全书(数学卷)第一章先验分布与后验分布统计学有两个主要学派:频率学派与贝叶斯学派它们 之间有异同,贝叶斯统计是在与经典统计的争论中发展起 来,主要的争论有:1未知参数可否作为随机变量?2事件的概率是否一定的频率解释?3概率是否可用经验来确定?§ 1.1先介绍三种信息的概念经典统计学派规定统计推断使用两种信息: 总体信息样本信息而贝叶斯学派认为是三种信息:总体信息 样本信息 先验信息总体信息即总体分布或总体所属分布族给我们的信息。 譬如,“总体是正态分布”就给我们带来很多信 息:密度函数是一条钟形曲线;一切一阶距都存 在;有关正态变量(服从正态分布随机变量)的 一些

3、事件的概率可以计算;由正态分布可以导出 分布,分布和分布等重要分布,还有许多成熟的 点估计、区间估计和假设检验方法可供我们选用。 总体信息是很重要的信息,为了获得此信息,往 往耗资巨大。样本信息从总体中抽取的样本给我们提供的信息。 这是最“新鲜”的信息,并且愈多愈好。 人们希望对样本的加工和处理对总体的某 些特征作岀较为精确的统计推断。没有样 本就没有统计学可言。这是大家都理解的 事实。1=基于上述两种信息进行的统计推断称为经典统 计学,它的基本观点是把数据(样本)看成是具 有一定概率分布的总体,所研究的对象是这个总 体而不局限于数据本身。这方面最早的工作是高 斯(Gauss,CF177718

4、55)和勒让德III(LegendreAM17525833)的误差分析,正态 分布和最小二乘法。从十九世纪末到二十世纪上 半叶,经皮尔逊(Pearson,K.1857-1936)、费 撤(Fisher,R.A.18901962)奈曼(Neyman.J.) 等人的杰出工作创立了经典统计学。随着经典统计学的持续发展与广泛的应用,它本身的缺陷也逐渐暴露出来了。先验信息即在抽样之前有关统计问题的一些信息,一般说来, 先验信息主要来源于经验和历史资料。例1:有一英国妇女,对奶茶能辨别出先倒进茶还是 先倒进奶,做十次试验她都正确说出。若H。:每次成功概率P = 05,那么十次猜中的概率为斥° (

5、10) = 05】° =0.0009766这是几乎不可能发生的 小概率事件可见应拒绝/>>05 是经验在起作用某学生第一次看到他的数学老师,即有反应:老师30岁 到40之间丿极可能35岁左右(左右可理解为正负3岁,极可 能可理解为90%的可能).P(32<X<38)=0.90例2:”免检产品,的确定工厂每天都抽取几件产甜,以估计不合格率&,根据历史资料对过去的不合格率构造-个分布(先验分布)P(& = ") = 7iJ = 1,2,.,nn若这个分布的概率绝摘分在0 = 0附近,那么该产品为,信得过产品; 可见假定以后每天都踰 几件产

6、品与历史资皋的不合格率分布一致 使用单位就可以确认为免检产品'三种信息基于上述三种信息(总体信息、样本信息和先验信息)进行的统计推断被称为贝叶斯统计学。它与经典统计学的主要差别在于是否利用先验信息。贝叶斯统计学派把任童一个未知參数都看咸 随机变量应用一个概率分布去描述它的未知状 况该分布称为先验分布。贝叶斯的信息处理路径后验分布是三种信息的综合F先验分布反应人们在 抽样前对参数的认识F后验分布反应人们在抽样后 对参数的认识 Bayes统计推断原则:对参数&所作任何推断(参 数估计,假设检验等)都必须建立在后验分布基础上15共艇分布法大家知道,在区间(0,1)上的均匀分布是贝塔分

7、布betaX) o我们从上例中看到一 个有趣的现象。二项分布叫询 中的成功概率0的先验分布若取betal),则其后验 分布也是贝塔分布他加(兀+1,-兀+1)。其中兀为次独立试验中成功出现的次数。先 验分布与后验分布同属于一个贝塔分布族,只是参数不同而己。这一现象不是偶然的, 假如把0的先验分布换成一般的贝塔分布beta(a),其中40,/?0。经过类似的 计算可以看出,0的后验分布仍是贝塔分布beta(a + x,p+n-x此种先验分布被称 为0的共辄先验分布。后验分布和先验分布是同一个类型17,验X17 1JP 量的是 向得称 数算则 参息, 或信式 (样形 数抽数 参由函 喘一噴噱敷 茴

8、矢誹叙出。定畸蠶 是密与共着询离祢 设蠶i.lr此 4勺叟刍 的隹曲 中均辘布松士八 是态分 r錨 r肝 汨均其。rx 刃参意 。定有 W1幵是义的度自定是密19正态均值(方差已知)的共規先验分布是正态分布设知,七是来自正态分布Ng鋼的一个样本的观察值。其中/己知。此样本的似然函数为p(x I 0)=exp-赤£ (兀-(9)2 >/=! “现取另一个正态分布"(“*)作为正态均值。的先验分布,即其中"与r2为己知,由此可以写出样本兀与参数&的联合密度函数rl= k, exp<2叽2磁+誌宀2昭+ “2+T2其中kx=(17iyn+iV2Txc

9、yx贝I有力(乂, 3) = kx expI - 2.0B +=k2 exp(0B/4)22/A其中k2=kx exp-l(C-.B2/A) o由此容易算得样本乂的边缘分布m(x) = I Zz(x, O)d3 = k2J ©o匕面两式相除,即得&的后验分布71(0 / X)=2、一exp9 B / A)?2/A这是正态分布,其均值色与方差右2分别为AZTj2 + JLLT55b°_+z 一这说明了止态上匀值(方差己知)的共钝先验分布是止态分布。常用共轨先验分布总体分布参数共觇先验分布二项分布成功概率贝塔分布beta©,卩)泊松分布均值伽玛分布Ga(a,2

10、)指数分布均值的倒数伽玛分布Ga(a,2)正态分布(方差已知)均值正态分布N (/,?)正态分布(均值已知)方差倒伽玛分布/Ga(aJ)共觇先验分布的优点它有两个优点1. 计算方便2. 后验分布中的一些参数可以得到很好的解释 在“正态均值e的共轨先验分布为正态分布”的例题中,其后验均值可改写为_2 -2其中Y =/(。亍+<2)是用方差倒数组成的权,于是后验均值“是样本均值7和先验均值“的加权平均。这表明后验 均值是在先验均值与样本均值间采取折衷方案。贝叶斯估计在抽样推断中的应用贝叶斯估计法也是一种需要利用与调 查变量相关的丰甫助变量(先验信息)建行 估计的方法,但其方法和思路与其他方法

11、 相比有自己的特色。贝叶斯估计法的基本 思路是,要対棄一指卡示或目棕连行估计, 则总体以前该指标的水平,即先验指标与 目前欲估H的扌旨棕(即目标量)也祿后验 扌旨栋右关,可以知I用宪验扌旨标对后验指栋 进行居计。27设,欲对总体均值戶进行估计,根据该总体 以往的资料有该指标的平均数丸和方差爰,现从总体N中抽出容量为n的样本,计算得样本平均数审和该平均数的方差呼,贝【J总体均值的贝叶斯估计法的估计量为:S-y129B其中:n n7野#宀n(r#估计量的方差为:31显然九与y是相关的同一指标的两个取值水 平,则上式的r可以看做是以方差的倒数A 和丐为权数的加权算术平均,实际上此方差的 倒数是估计精

12、度的倒数,即方差的值越大,其 倒数便越小,则相应平均数作为估计的精度就 越低,通俗的讲是该平均数的代表性越差;反之, 方差越小,其倒数越大,相应平均数的估计精 度越高。贝叶斯估计量方差的意义是先验指 标和抽样指标精度之和的倒数。而以 上估计式有非常直观的含义:贝叶斯 估计量的精度为先验指标精度与抽样 指标精度之和,这意味着贝叶斯估计 量的精度要高于瓦与中任何一个作 为估计量的估计精度,即:(X)代 W例如,某市有居民家庭共 97670户,根据上年的统计,居民人 均月货币收入为2580元,其方差为 5804.22,现从该总体中随机抽出 100户,调查目前居民人均收入水平 情况,有关调查结果和计算

13、见表835表9-8人均收入(元)户数(户)f组中值r 为 - 2750v一八R5()()f,y,Zx,21.500100075048322.10001500|1250-3-15453.15002000121750-224484.20002500202250-1-20205.250030002627500006.30003500173250117177.35004000133750226528 4000450044250312369.45005000147504416合计100 -8266#9一皿:_8则:=y=ibo=_0,08f=l有样本平均数:y = 2750+500xy =2710(元)

14、样本方差为:52 = 5OO2 x )(9_,9 9Yfi工宀 I丿/=1=50()2 x 侖x266一 (_o 08)2 x 100J = 670101.01则样本平均数亍的方差为:1 1OOS-y宁宀 ><670101.0 = 6694.15据丿意,亍0 = 2580,易=5804.22则根据(9. 4.1)式,该市居民人均收入的贝叶斯估计为:+卫,X2580 +X2710% 片 _ 5804.226694.151 1- 1 1 s 二5804.22 6694.15u y=849 出=2640.39(元)0.000321739估计量V的方差,据(9.4.2)式:s2=t-t=

15、1 1 1 -3108-75+ +s; S; 5804.22 6694.155(y) = V3108.75 二55.76(元)41#关于贝叶斯估计法概略地说要把握以下三点:(1) 进行贝叶斯估计,不仅要知道与调查变量相关的原始辅助资料,如 上例中的入和/称为先验指标,还要知道先验指标的分布,称为先验分布, 其分布规律是由调查变量的性质确定的,最常见的是正态分布,在此也只讨论正态分布下的贝叶斯估计。故在入和£已知的情况下,可视其为分布参数的估计值,其先验分布可记为皿入,命这里入为目标估计的一个信息来源。(2)从总体中抽出一个随机样本,计算出样本平均数亍及其方差尺,也需样本 平均数的分布

16、,根据抽样分布理论知,样本算术平均数的分布通常也是正态分布,记“6冲,样本算术平均数又构成目标量为总体平均数的一个信息来源。(3)上述的先验分布与抽样分布合并后,称为后验分布,其分布形态也呈正不在本书的讨论范nJC态分布,分布的平均数为几方差为(汛则该分布的中心值/为目标量卩的最佳估 计值,它比入町中的任何一个都有更高的估计精度。至于如何将先验分布和抽样分 布合并为后验分布,这时贝叶斯估计理论的核心问题之一,它涉及较多的数理统计知识,贝叶斯估计法与比率估计和回归估计的不同之处在于,不仅充分利用了先验分布和抽样分布中平均数所带来的信息,而且还充分利用了两个分布的方差所带来的信息。贝叶斯估计法的基

17、本特点是要掌握有关的先验资料和先验分布,这些先验资料一般是指以往积累的总体历史资料。先验资料对现实总体具有重要的借 鉴性,这是由于现实总体是在以往总体基础上顺时发展过来的,故先验资料的信 息与现实总体具有较大的相关性。另一方面,对现实总体的抽样,能够掌握现实 总体的基本信息。将两种资料合并,必然增大关于总体的信息量,对总体的认识 就更加充分,估计自然更加准确。但在市场调查中,我们常常面对的是一个全新的总体,对该总体没有积累任何先验资料,这对于市场调查刚刚起步的我国是常见的情况;或某总体此时和彼时发生了较大的变化,以往总体的结构和变量水平失去了借鉴意义。对这种情况,贝叶斯估计法也能显示出其独特的

18、作用。对一个全新总体,要比较精确的估计总体目标量,可通过各种方式从各个角度尽可能多的搜集关于总体的信息,争取对总体有更多的了解,这些信息的来源可以是多方面的,如可以是历史的相关资料、 为特定目的的抽样资料,也可以是主观判断资料。将这些信息综合起 来,对目标量作出有科学根据的估计,只有贝叶斯估计法才能做到。可视其为不同的独立儿乃,”,其方差分别为则总体均值设对某一总体有h个不同来源的信息资料, 样本,其平均数分别为 的贝叶斯估计量为:47#八 乙Q2Y Z=L / h |z=l S j估计量9的方差为:F(f)=1 或:(9.4.4)(9. 4.5)(9.4.6)49(9. 4.4)式和(9.4.5)式实际上是(9.4.2)式和(9.

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论