概率论与数理统计第19讲_第1页
概率论与数理统计第19讲_第2页
概率论与数理统计第19讲_第3页
概率论与数理统计第19讲_第4页
概率论与数理统计第19讲_第5页
已阅读5页,还剩55页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

7.4正态总体统计量的分布1经常关心统计量的分布,主要是关心作为连续型随机变量的统计量的分布,也就是概率密度,知道了分布,就可以计算统计量落在给定的区域的概率,可以进行进一步的研究。就本书的范围而言,我们重点研究正态总体X~N(m,s2)的样本的统计量的分布。

2下面都假设X1,X2,…,Xn是取自正态总体X~N(m,s2)的样本。而研究的方向,是试图将这n个相互独立的随机变量进行一些运算,来得到服从标准正态分布,c2分布,t分布,F分布的随机变量,则可作为进一步推导的基础。

3首先是要对样本进行各种线性组合。设有不全为0的n个数k1,k2,…,kn分别乘上各个样本相加得到一个新的随机变量Y,

Y=k1X1+k2X2+…+knXn

则Y被称为X1,X2,…,Xn的一个线性组合,也服从正态分布,而且其数学期望和方差都可以由总体的均值和方差算出来。因此,Y也就可以进一步做标准化的运算而得到Y*~N(0,1)。其中的n个数k1,k2,…,kn也称之为线性组合的组合系数。4例如,样本均值X就是样本的一个线性组合,

其组合系数k1=k2=…=kn=1/n。因此可以知道

,将其标准化可得

5因为所有的样本都相互独立且服从N(m,s2),因此也都可以标准化成为标准正态分布的随机变量,也就是说,令

6而大家知道n个自由度的c2分布的随机变量可由n个相互独立的服从标准正态分布的随机变量的平方和得到,因此由式(7.28)可知

7根据式(7.14),上式还可以用总体偏差平方和写成

8但是这种情况比较少用到,是因为实际应用中,总体的期望m经常是不知道的,在这种情况下出于无奈,就将式中的m换成样本均值

X,从而要研究如式(7.17)所示的样本偏差平方和W。

将W的表示式中的n个平方项在平方之前的随机变量记为

9则虽然每一个Yi都是样本的线性组合,服从正态分布,易知E(Yi)=0,(i=1,2,…,n),但是Y1,Y2,…,Yn并不相互独立,因此

也就无法变换成n个自由度的c2分布的随机变量。

10以样本容量n=3为例

X=(X1+X2+X3)/3

易证Y1,Y2,Y3不独立。11但是后来统计学家们经过艰苦努力有了一个令人惊喜的发现,就是用Y1,Y2,…,Yn线性组合出n-1个正态分布的随机变量Z2,Z3,…,Zn,

Zm=km1Y1+km2Y2+…+kmnYn (m=2,…,n)(7.32)

则只要恰当地选择上式中的各个组合系数kij,(i=2,3,…,n,j=1,2,…,n),居然就可以得使得Z2,Z3,…,Zn互不相关,也就是相互独立,而且有Zi~N(0,s2),而且还恰好有也就是说,样本偏差平方和永远都可以看作是n-1个相互独立的服从N(0,s2)的随机变量的平方和!而上面还故意留出了一个Z1没有提,统计学家们还证明了,如果令Z1=X,则Z1和Z2,Z3,…,Zn也相互独立!这些结论的证明因为要用到大量的线性代数知识,所以本书不证。但是上面的叙述可以描述为如下的定理。13定理7.1设X1,X2,…,Xn是取自总体X~N(m,s2)的样本,则样本偏差平方和W与样本均值X相互独立,且有

而大多数统计学教材通常不提样本偏差平方和,而用(n-1)S2来表示它,因此上述定理也最经常地描述为样本方差S2与样本均值X相互独立,且有

14而现代统计学经常就是以式(7.35)为基础炮制或者拼凑出各种分布的统计量。

15例如,可以将n个样本X1,X2,…,Xn分成前n1个和后n2个两部分,其中n1+n2=n,即为第一部分,也可称为样本1,而为第二部分,也可称为样本2,这样样本1和样本2都可以统计出自己的样本均值和样本方差,分别记为 和,则根据式(7.35)就有16而样本1和样本2当然是相互独立的,因此上面两个服从c2分布的随机变量也相互独立,则相加仍然服从c2分布,其自由度也是两个随机变量的自由度相加,即

这就又炮制出了一个自由度为n1+n2-2个自由度的c2分布的随机变量。17这是指的c2分布的随机变量相加。也可以考虑相除,因为服从F分布的随机变量有结构

,其中U,V是相互独立的服从c2分布的

随机变量,且U的自由度是n1,V的自由度是n2。

18因此利用这个F分布的构成,利用式(7.36)的两个相互独立的服从c2分布的随机变量,各自都除以自己的自由度后再相除,就可以得出结论19再例如,我们知道服从自由度为n的t分布的

随机变量具有的结构,即只要寻找

到一个服从标准正态分布的随机变量放在分子上,再找一个服从自由度为n的c2分布的随机变量除以自己的自由度再开平方后放在分母上,就可以得到一个自由度为n的服从t分布的随机变量。20因此我们可以将式(7.27)中的随机变量

放在分子上,再将式(7.35)的随

机变量除以自由度n-1再开平方即

放在分母上,就得

也就是说,你只要将式(7.27)左边的分母上的总体的标准差s换成样本标准差S,就得到服从n-1个自由度的t分布。22关于凑出t分布的随机变量还有一种流行的办法,就是将上面的分成n1和n2两个样本的情况,需要分别计算两个样本的样本均值

,而也服从正态分布,均值是

0,方差却是,因此

23这样又可以为了拼凑服从t分布的随机变量而将它放在分子上,而分母上就放由式(7.37)表示的n1+n2-2个自由度的服从c2分布的随机变量除以n1+n2-2再开平方就行。具体式子这里就不写了。24总之就是以式(7.35)为核心,使得统计学家们能够兴高采烈地炮制出各种各样的服从t分布,c2分布,F分布的随机变量。例如更为复杂的就是将样本分成m个子样本,m>2,那会搞出更加复杂的一系列统计量的。

25而现在再考虑一下,在经历了这些推导过程后,如果原来的正态总体突然变成不是正态总体,而是均值和方差都存在的任何随机变量,甚至离散型随机变量这样的总体,导致所有的样本也都是同样的非正态分布的随机变量的时候,情况将是怎样的呢?

26

Zm=km1Y1+km2Y2+…+kmnYn (m=2,…,n)(7.32)

那就又要看为了推导出式(7.35)的第一步就是式(7.32),要推导出Z2,Z3,…,Zn因为选取了适当的组合系数而变得不相关,但是要知道线性组合其实都是一些随机变量相加啊!而且这些被相加的随机变量的方差不太大也不太小,27

Zm=km1Y1+km2Y2+…+kmnYn (m=2,…,n)(7.32)

因此虽然Z2,Z3,…,Zn最终看都是样本X1,X2,…,Xn的线性组合且X1,X2,…,Xn也都不服从正态分布了,甚至是离散型随机变量,但是由于中心极限定理的作用Z2,Z3,…,Zn都将近似地服从正态分布,而且最后也是样本的线性组合因此也近似服从正态分布了!这么一来它们相互之间的不相关就近似是相互独立了!于是后续的一切结果也就都成立,28也就是说,当总体为正态变量推导出来的服从一定自由度的c2分布t分布F分布的统计量,在总体变为非正态变量时,仍然能够近似地还是服从同样的相应的自由度的c2分布t分布F分布的随机变量!这样本节的这些推导办法就似乎是有万能的作用了,是可以用在任意分布的随机变量的总体上了。当然,一个前提就是样本容量必须足够地多。但是话又说回来,如果样本容量太少了,则携带的关于总体的信息量本来就不多,则本来就不会产生出什么好的效果的。297.5高概率区和低概率区30对于一给定的随机变量X,设其概率密度函数为f(x),则一般而言,如果X不是服从均匀分布以至于f(x)在一段区间或者区域内都是一样的情况,通常f(x)总是在某一些区间的取值较大,某一些区间取值较小。

f(x)xO31例如,假设X~N(0,1),对X做一次试验得到一个试验结果数a,将这个数代入到标准正态分布的概率密度函数中,如果这个数是较为靠近0的数,例如,0.23,1.12等等,则试验结果就落在概率密度函数的函数值较大的区域,我们会认为试验结果正常。而如果这个数很大或者很小,比如说,是3.45,或-5.5,等等,将这样的数代入到概率密度函数中将得到很小的值,我们会认为试验结果不太正常。

3233因此产生出这样一个概念,就是根据概率密度函数来将X取值的区间(如果X是一元随机变量)或区域(如果X是多元随机变量)分为两部分,一部分是概率密度函数取值较大的部分,称之为高概率区,另一部分是概率密度函数取值较小的部分,称之为低概率区。

而之所以没有写成严格的数学定义形式,是因为概率密度函数值的高低是相对的,例如,方差较小的概率密度函数值有可能较大,而方差较大的概率密度函数值有可能较小。

但是这个想法是我们的出发点。

35尤其是,对于上一节讨论过的服从正态分布t分布c2分布F分布这四大分布的概率密度函数,都有一个共性,就是它们都是单峰的,就是说概率密度函数都是有一个最高峰,向两边都是单调下降的,因此都是高概率区在中间,低概率区是在两边的。

36因此需要人为地规定一个低概率的数值,通常取值定为0.1,0.05,0.025,0.01,0.0001等非常低的概率值,在数理统计学中统一将这个数值用a表示,是希腊字母,通常念为阿尔法,这个低概率数值被称作显著性因子。

37通常还要将这个显著性因子分为两部分,就是高端的低概率值和低端的低概率值,一种较为常用的办法就是一边一半,高端的低概率值和低端的低概率值都是a/2,这被称为对称的高概率区划分法,是最常用的。当然也还有根据需要的其他划分法。

因此相对应于低概率的显著性因子a,相当于高概率的概率值1-a也有一个通用的术语,叫置信概率。

38上一节介绍了,在获得总体的样本之后,统计学家们可以根据需要拼凑出服从标准正态分布,t分布,c2分布,F分布的统计量,而这些统计量及相应的观测值,也都有一些标准的记号。

39如果一个统计量服从标准正态分布,则将它记为大写字母U,而它的观测值,则记为小写字母u。而标准正态分布的上a分位点,记作ua,前面已经讲到过就是P{U>ua}=a。因此,按对称的高概率区划分法,也考虑到标准正态分布的对称性,不难得出,显著性因子为a的高概率区是

,当然,它也可以称为置信概率为1-a的高概率区。40aua/2-ua/241将服从t分布的统计量记作T,它的观测值记为t,n个自由度的t分布的上a分位点记作ta(n),则按对称的高概率区划分法,同样考虑到t分布的对称性,显著性因子为a的高概率区是

将服从c2分布的统计量还记作c2,甚至对应的观测值也记作c2,而n个自由度的c2分布的上a分位点记作,因此这里注意到记号的不要混淆,就是说,如果看到记号c2后面跟着分布二字,或者跟着一个圆括号里有自由度,这就代表c2分布,而孤零零的一个c2记号代表统计量或者统计量的观测值,究竟是观测量还是观测值要根据叙述的上下文来定,而c2记号加一个下标a,后面又跟着一个圆括号里面是自由度,这代表相应自由度的c2分布的上a分位点。43将服从c2分布的统计量还记作c2,甚至对应的观测值也记作c2,而n个自由度的c2分布的上a分位点记作,用这样的记号,根据对称的高概率区划分法,自由度为n,显著性因子为a的高概率区是44对于服从F分布的统计量记作F,F的观测值为f,第1,2自由度为n1,n2的F分布的上a分位点记作fa(n1,n2)。则根据对称的高概率区划分法,两个自由度为n1,n2,显著性因子为a的高概率区是

45练习:

已知X1,X2,X3相互独立且服从标准正态分布,则

服从什么分布?练习:

已知X1

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论