依分布收敛与中心极限定理_第1页
依分布收敛与中心极限定理_第2页
依分布收敛与中心极限定理_第3页
依分布收敛与中心极限定理_第4页
依分布收敛与中心极限定理_第5页
已阅读5页,还剩6页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第四章 第四章 极限定理1 依分布收敛与中心极限定理一、 一、分布函数弱收敛二、性质三、中心极限定理概率论早期发展的目的在于揭示由于大量随机因素产生影响而呈现的规律性. 贝努里首先认识到研究无穷随机试验序列的重要性,并建立了概率论的第一个极限定理大数定律,清楚地刻画了事件的概率与它发生的频率之间的关系. 棣莫佛和拉普拉斯提出将观察的误差看作大量独立微小误差的累加,证明了观察误差的分布一定渐近正态中心极限定理. 随后,出现了许多各种意义下的极限定理. 这些结果和研究方法对概率论与数理统计及其应用的许多领域有着重大影响. 本章着重介绍上述大数定律和中心极限定理等有关内容.1 依分布收敛与中心极限定

2、理我们知道,如果是概率空间 (, F, P)上的随机变量,那么它的分布函数F(x)=P()刻画了它的全部概率性质. 因此,对随机变量序列的研究就必须首先对相应的分布函数序列作深入研究.一、分布函数弱收敛定义1 设F是一分布函数,是一列分布函数,如果对F的每个连续点xR,都有(x)F(x) (n),则称弱收敛(weak convergence)于F,记作F.设是一随机变量,是一列随机变量,如果的分布函数列弱收敛于的分布函数,则称依分布收敛(convergence in distribution)于,记作.注1 注1 分布函数逐点收敛的极限函数未必是分布函数. 例如, (x)=该分布函数列处处收敛

3、于0, 但G(x)0不是分布函数. 因此对一般的分布函数列,要它们逐点收敛于分布函数,要求是过高了,不得不如定义1加上限制.注2 定义1中的限制条件“对F的每个连续点x,(x) F(x)”是足够宽的,例如, (x)= F(x)= 除在0点以外(0)=0F(0)=1),逐点收敛于F(x),而0点刚好是F(x) 的唯一不连续点,因此按定义1,F.*注3 由于分布函数F的不连续点最多有可数个,F 意味着在R的一个稠密子集上处处收敛于F(D在R上稠密,是指对任意R, 在的任意小邻域内,一定有xD).下面给出海莱(Helly)定理,它们对分布函数列弱收敛性的研究起着重要作用.定理1(海莱第一定理) 设是

4、一列分布函数,那么存在一个单调不减右连续的函数F (不一定是分布函数),0, xR, 和一子列,使得对F的每个连续点x,(x)F(x) (k+).证 令表示全体有理数. 0意味着是有界数列,因此可以找到一个收敛子列, 记. 接着考虑有界数列,存在它的一个收敛子列,记. 如此继续,得到, , k.现在考虑对角线序列. 显然,=对所有正整数k都成立. 另外,由于单调不减,如果,有. 因此G(r)是定义在有理数上的有界不减函数. 定义 xR. (1)这个函数在有理数上与G(x)相等,它显然也是有界不减的. 下面证明,对F的每个连续点x, =F(x). (2)任意给定0和F的连续点x,选取h 0,使得

5、F(x+h)-F(x-h) /2. 根据有理数的稠密性,存在有理数满足x-h 0使得 |g (x) | 0, 可以选取a0使得a是F的连续点,并且F(-a)/12c,1-F(a)/12c. (7)由于F,存在, 使得当n时,|(-a)-F(-a)|/12c, |1-(a)-(1-F(a)|/12c, (8)这样我们有| |(-a)-F(-a)|+2F(-a)+|1-(a)-(1-F(a)|+2(1-F(a)/2. (9)下面考虑|. 由于g(x)在闭区间-a, a上一致连续,可以选取, 使得所有是F的连续点,且|g(x)-g()|/8. 于是|=|+|=. (10)由于 , , 再选择使得当n

6、时,i = 0,1,2,m. (11)故(10)式不超过/2. 因此,当n时,| 0, 仅考虑 | t |. 令, xR. 注意到下列事实: |=1, , 则该定理的证明完全类似于定理2,不再重复.由前面一章知道,特征函数与分布函数相互唯一确定. 同样,勒维连续性定理的逆命题也成立.定理4(逆极限定理) 设是分布函数的特征函数,如果对每一个t,, 且在t=0处连续,则一定是某个分布函数F的特征函数, 且F.本定理的证明比较繁复,从略. 但定理的作用是很大的,它使得特征函数成为研究某些极限定理的重要工具. 这里先举个例子来说明这个定理的应用.例1 用特征函数法证明二项分布的泊松逼近定理.证 设服

7、从二项分布B (n,),且. 它的特征函数为=, 其中. 当n时,它的极限为,这正是泊松分布的特征函数. 由逆极限定理,二项分布B (n,)依分布收敛于泊松分布P().二、性质除连续性定理外,分布函数弱收敛还有下列性质.性质1 设是一列分布函数,如果F, F是一连续的分布函数,则(x)在R上一致收敛于F(x).证明留给读者.性质2 设是一随机变量,是一列随机变量,(x)是R上的连续函数,如果,则.证 假设和的分布函数分别为F和. 如果,即F,由定理2,的特征函数收敛于, 该极限正是的特征函数. 再类似定理4, 的分布函数弱收敛于的分布函数,即 .性质3 设和是两列常数,F是一分布函数, 是一列

8、分布函数. 如果 a, b, F,则()F(a x +b ),其中x使得a x +b是F的连续点.证 设x使得a x +b是F的连续点. 令0使得F在a x +b处连续(这是可能的,因为F的连续点在R上稠密). 显然a x +b, 故对充分大的n,(13)因此由于F ,则让0,由于F在a x+b处连续,即可完成证明.推论 如果,则,().这是因为与的分布函数分别为()与F(),再应用性质3即可.三、中心极限定理设一次贝努里试验中成功的概率为p (0 p 1), 令表示n重贝努里试验中成功的次数,那么,概率P(=k) = b (k; n, p). 在实际问题中, 人们常常对成功次数介于两整数和之

9、间()的概率感兴趣,即要计算P(. (14)这一和式往往涉及很多项,直接计算相当困难. 然而德莫佛和拉普拉斯发现,当n时可以用正态分布函数作为二项分布的渐近分布.定理5(德莫佛拉普拉斯定理) 设(x)为标准正态分布的分布函数. 对-x,有P=(x), (15)其中q=1-p.注意到E= np, Var= npq, (15)式左边是标准化后的分布函数的极限,因此这个定理表示二项分布的标准化变量依分布收敛于标准正态分布. 简单地说成二项分布渐近正态分布.历史上人们是通过精确估计二项分布的值来说明该定理的. 但从现代分析概率论的观点看,这个结果只是将要介绍的更一般的中心极限定理(见定理6)的特殊情形

10、. 因此, 我们不再给出它的证明.定理的直接应用是:当n很大,p的大小适中时,(14)式可用正态分布近似计算: P(=P =-. (16)它的含义可用右图(图4-1)显示(为了直观,图中显示的是未标准化的随机变量):作相邻小矩形,各小矩形的底边中心为k(k),底边长为1,高度为b( k; n, p),这些小矩形面积之和即为P(. 再作N(np, npq)的密度曲线,在,之间曲线覆盖的面积为(16)式右边之值.注1 第二章讲过二项分布渐近于泊松分布的泊松定理,它与定理5是没有矛盾的. 因为泊松定理要求是常数,而定理5中p是固定的. 实际应用中,当n很大时, 若p大小适中,用正态分布(x)去逼近(

11、15)式左边的概率,精度达到O(); 如果p接近0(或1), 且np较小(或较大),则二项分布的图形偏斜度太大,用正态分布去逼近效果就不好. 此时用泊松分布去估计精度会更高.注2 实际计算中,若n不很大,把(16)式右边修正为-,(17)一般可提高精度(从上图看,相当于计算密度曲线下-0.5,+0.5之间的面积).例2 设n=, p=5, 求P().解 尽管p很小,但np=50很大,此时用泊松逼近并不好, 故用定理5.P()=P0.997.例3 抛掷一枚均匀硬币时需要抛掷多少次才能保证出现正面的频率在0.4与0.6之间的概率不小于90%?解 令n为抛掷次数, 为出现正面的次数, B(n, 1/

12、2). 题意要求n, 使P(0.40.6)0.9.利用定理5, 上式左边等于P(0.2)-(-0.2)=2(0.2)-1,当n69时, 上式0.9.如果用第三章的切比雪夫不等式,则因E(/n)=1/2, Var(/n)=1/4n,取=0.1,则P(0.40.6)=P(|/n-1/2|1-25 / n, 只当n250时才满足要求. 通过比较可以看出正态逼近比切比雪夫不等式要精确得多.德莫佛拉普拉斯定理的意义远不限于这些数值计算. 该定理及其推广形式实际上是概率论早期研究的中心问题.定义2 设是一列随机变量. 如果存在常数列与,使N (0,1), (18)就称满足中心极限定理(central li

13、mit theorem).定理6(林德贝格(Lindeberg)勒维定理) 设是一列独立同分布的随机变量. 记=, E=a, Var=, 则中心极限定理成立,即N (0,1).证 我们用特征函数法. 令与分别为-a与的特征函数,由于独立同分布,故=. 另外,已知E=a, Var=, 所以特征函数有二阶连续导数,并且由泰勒 (Taylor) 展开式得, x0.对给定的tR,=1-, n,从而, 后者是标准正态分布的特征函数,由定理4即得定理6的结论.中心极限定理有着广泛的应用,在实际工作中,只要n足够大,便可以把独立同分布的随机变量和的标准化当作正态变量. 下面再看两个例子.例4 近似计算时,原

14、始数据四舍五入到小数第m位,这时舍入误差可以看作在-0.5,0.5上均匀分布,而据此得n个的和,按四舍五入所得的误差是多少呢?习惯上人们总是以各误差上限的和来估计的误差限,即0.5n. 当n很大时,这个数自然很大.事实上,误差不太可能这么大. 因为独立同分布,E=0, Var=/12. 由定理6,P(|)2(x)-1.若取x=3,上述概率为0.997. 和的误差超过的可能性仅为0.003. 显然,对较大的n,这一误差界限远小于习惯上的保守估计0.5.*例5 正态随机数的产生有各种方法. 除第二章5介绍的以外,下面这种方法也是常用的:设独立同分布,都服从0,1 上的均匀分布,则E=0.5, ,由

15、中心极限定理,n很大时,=近似服从标准正态分布,事实上取n=12就够了. 于是取区间 0, 1上12个均匀随机数,则即近似为标准正态随机数.定理6要求各同分布,这要求有时还是高了一点. 更一般地,林德贝格证明了在各独立随机变量组成的和式中,只要各被加项依概率“均匀地小”,中心极限定理就仍然成立. 即定理7(林德贝格费勒(Lindeberg-Feller)定理)设为独立随机变量序列,则=0 (费勒条件)与成立的充要条件是林德贝格条件被满足 :0,0.特别地有定理8(李雅普诺夫(Lyapunov)定理) 若对独立随机变量序列,存在常数0, 使当n时有,则中心极限定理成立. 这些结果解释了正态随机变

16、量在自然界中普遍存在的原因. 例6 设是相互独立的随机变量序列,的分布列是. 易知,. 因此,当时,也就是说满足李雅普洛夫条件,所以满足中心极限定理. 对数理统计学的许多分支,如参数(区间)估计、假设检验、抽样调查等,中心极限定理都有着重要的作用. 事实上,它也是保险精算等学科的理论基础之一. 假定某保险公司为某险种推出保险业务,现有个顾客投保,第份保单遭受风险后损失索赔量记为. 对该保险公司而言,随机理赔量应该是所有保单索赔量之和,记为S,即S弄清S的概率分布对保险公司进行保费定价至关重要. 在实际问题中,通常假定所有保单索赔相互独立. 这样,当保单总数充分大时,我们并不需要计算S 的精确分布(一般情况下这是困难甚至不可能的). 此时,可应用中心极限定理,对S进行正态逼近:渐

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论