版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、1第二章 统计量与抽样分布2 基本概念总体与个体抽样、简单随机抽样样本、简单随机样本与样本空间分布族、参数空间统计量与样本矩3总体与个体n在数理统计中,把研究对象的全体称为总体(Population) ,把组成总体的每一个单元称为个体n在实际中,总体通常是某个随机变量取值的全体,其中每一个个体都是一个实数n以后我们把总体和数量指标X 可能取值的全体组成的集合等同起来。n随机变量X 的分布就是总体的分布4抽样与简单随机抽样从一总体 X 中随机抽取n个个体 x1,x2,xn,其中每个 xi 是一次抽样观察结果,我们称x1,x2,xn 为总体 X 的 一组样本(观察)值。这里的 xi 具有二重性:1
2、.对每一次抽样结果,它是完全确定的一组数;2.由于抽样的随机性,每一个 xi 都可以看作某一个随机变量 Xi (i=1,2,n)所取的观察值。我们称 X1,X2,Xn 是容量为n的样本( Sample )。5抽样与简单随机抽样 定义:设 X1,X2,Xn 为来自总体 X 的容量为n的样本,如果随机变量 X1,X2,Xn 相互独立且与总体有相同的分布,则称这样的样本为总体 X 的简单随机样本,简称样本。这样获得简单随机样本的方法称为简单随机抽样。抽样方式:随机抽样,分层抽样,等距抽样,整群抽样,多阶段抽样以后如不特别声明,所提到的样本都是简单随机样本以后如不特别声明,所提到的样本都是简单随机样本
3、。6n综上所述,所谓总体就是一个随机变量 X ,所谓样本(指简单随机样本)就是 n 个相互独立且与总体 X 有相同的分布的随机变量 X1,X2,Xn,并称 X1,X2,Xn 为来自于总体X的样本. 显然,若总体具有分布函数F(x),则 X1,X2,Xn的联合分布函数(样本联合分布)为:1( )niiF x7抽样与简单随机抽样n以后对样本 X1,X2,Xn 作两种理解:在理论推导中把其作为随机向量在用理论推导所得出的结论进行具体推断时,作为实数向量,代入具体的观察值进行计算。8样本空间 定义:样本 X1,X2,Xn 所有可能取值的全体称为样样本空间(本空间( Sample Space ),或称为
4、子样空间子样空间。 样本空间为n维欧氏空间或它的一个子集。 一个样本观察值(x1,x2,xn)是样本空间中的一个点。9分布族与参数空间n在概率论中,总假定所用随机变量的分布函数已知,而在数理统计中,认为其是未知的,但总假定其是某一个分布族的成员。n一般可凭经验,直方图或经验分布函数来对总体给出假定。10分布族与参数空间n如果对总体了解甚少,那么总体所在的分布族可设为F(x):F(x)为分布函数,其它条件n如果知道总体的分布形式,只是不知道具体参数,那么总体所在的分布族可设为 ,这里 为总体的分布函数中的未知参数(可以是向量),未知参数的全部可容许值组成的集合称为参数空间参数空间,记为 n 称为
5、统计模型( Statistical Model )。 ():Fx; ():Fx;11分布族与参数空间 定义定义:若一个分布族中只含有有限个未知参数,或参数空间为欧氏空间的一部分,则称此分布族为参数分布族。凡不是参数分布族的分布族称为非参数分布族。由参数分布族出发所得到的统计方法称为参数统计方法;由非参数分布族出发所得到的统计方法称为非参数统计方法。这两类分布族在研究方法上有很大差异。12统计量与样本矩n我们对某一个问题归纳出所在的分布族,并从总体中抽出了一个样本后,就要进行统计推断,即判断这个样本是来自总体分布族中哪一个基本的分布.n虽然样本含有总体的信息,但仍比较分散。为了使统计推断成为可能
6、,首先必须把分散在样本中的信息集中起来,用样本的某种函数表示,这种函数称为统计量统计量(Statistic) 。 13统计量与样本矩n定义:设X1,X2,Xn为总体 X 的一个样本,若样本的实值连续(可扩大为可测)函数TT(X1,X2,Xn) 不依赖于可能含于总体中的未知参数,则称T 为此分布族的一个统计量统计量(Statistic) 。n往往从直观或某些一般性原则考虑提出统计量,再考虑它是否在某种意义下较好地集中了样本中与所讨论问题有关的信息量。14 例如,XN(,2), 其中 已知, 2未知。而(X1,X2)是从 X 中抽取的一个样本,则 X1X2, 是统计量,但(X1)/ 就不是统计量了
7、。2211()2iiX15样本矩(Sample Moment)设 X1,X2,Xn 是来自于总体 X 的一个样本.11niiXnX样本均值(Sample Mean):样本方差(Sample Variance):):22221111() .()1nnniiiiSXXSXXnn或16样本标准差(Sample Standard Deviation):):221111() .() .1nnniiiiSXXSXXnn或.2 , 1,11kXnAnikik.2 , 1,)(11kXXnBnikik阶原点矩:k阶中心矩:k样本矩(Sample Moment)1711()()nXYiiiSXX YYn再设 Y
8、1,Y2,Yn 是来自总体 Y 的样本。两个样本之间的协方差协方差:12211()()() )() )niiiXYnniiiiXX YYXXYY两个样本之间的相关系数相关系数:18 记 E(X)=, D(X)=2, E(Xk)=ak 定理1 若X的二阶矩存在,则有2(),()E XD Xn22()E S22(),()kkkkkaaE AaD An定理2 若X 的2k 阶矩存在,则有19经验分布函数 定义 设 X1,X2,Xn 为总体 X 的一个样本,x1,x2,xn 是样本的观察值,把其从小到大重新排列得到 ,定义函数如下 (1)(2)( )nxxx(1)*( )(1)( )0,( ),(1,
9、2,1)1,nkknxxkFxxxxknnxx称其为总体 X 的经验分布函数。20 经验分布函数 在点x的函数值其实就是观测值中小于或等于x的频率,它是一个右连续的非减函数,且 ,因而它具有分布函数的性质,可以将它看成是以等概率取 的离散随机变量的分布函数。经验分布函数的图象是一个非减右连续的阶梯函数。( )nFx0( )1nFx12,.,nx xx21 对于的每一数值而言,经验分布函数 为样本 的函数,它是一统计量,即为一随机变量,其可能取值为 。 事件 发生的概率,由于 相互独立且有相同的分布函数,因而它等价于次独立重复试验的贝努里概型中事件 发生k次而其余次不发生的概率,即有: 其中 ,
10、它是总体的分布函数。( )( )nFx12,nXXX0,1/ ,.,1 / ,1nnn( )nkFxn12,nXXXXx ( )( )1( )kn kknnkP FxCF xF xn( )F xP Xx22定理 (格列汶科定理) 设总体的分布函数为F(x),经验分布函数为Fn*(x),则对任何实数 x 有*limsup( )( )01nnxPFxF x 23n从上面定理知道,经验分布函数Fn*(x)依概率1收敛于(理论)分布函数F(x)。n可以利用经验分布函数构造出非参数统计推断中许多常用的统计量。 24 抽样分布n统计量的分布称为抽样分布,求出统计量的分布函数是数理统计的基本问题之一。n精确
11、分布与小样本问题n极限分布与大样本问题25正态总体的抽样分布n正态总体样本的线性函数的分布 n 分布nt分布nF分布226正态总体样本线性函数的分布 定理1 设总体 XN(,2), X1,X2,Xn 是总体X的容量为 n 的样本,令 U=a1X1+a2X2+anXn, 其中 a1,a2,an 是已知常数,则U也是正态随机变量,其均值、方差分别为E(U)= , D(U)= 21niia21niia27 定理定理2 设总体 XN(,2),(X1,X2,Xn)是总体的容量为 n 的样本, A=(aij)是pn阶矩阵。记Y=(Y1 ,Y2 ,Yp)=A(X1 ,X2 ,Xn), 则Y1 ,Y2 ,Yp
12、也是正态随机变量,其均值、方差、协方差分别为 E(Yi)= , D(Yi)= 2 Cov(Yi, Yj)= 2 当 =0,且A是nn 阶正交矩阵时, Y1 ,Y2 ,Yp也相互独立,且服从于N(0,2 ) 正态变换下的不变性1nijia21nijia1nikjkka a28 分布 定义 设随机变量X1,X2,Xn相互独立且服从N(0,1)分布,则称随机变量 服从自由度为n的 分布,记为 22( )n2221niiX229 定理1 设随机变量 ,则 的密度函数为:122/21,0( )2( )20,0nynyeynf yy22( )n230定理2 设 ,则 E(X)=n, D(X)=2n定理3
13、设 ,且X1与X2相互独立,则 定理4 (Cochra) 设随机变量X1,X2,Xn相互独立且服从N(0,1)分布,又设 Q1+Q2+Qk= 其中 Qj 是秩为 nj 的 X1,X2,Xn 的非负定二次型。则 Qj 相互独立,且分别服从于自由度为nj的 分布的充要条件是:n1+n2+nk=n21niiX2( )Xn221122(),()XnXn21212()XXnn231引理 设 ,则 X 的特征函数为(t)=(1-2it)-n/2.n定理3的证明:11-211-222( )(1-2 ),( )(1-2 ).nnXtitXtit由引理知,的特征函数为的特征函数为1212-()/212( )(
14、)( )(1-2 ),nnXXtttit由特征函数的性质,的特征函数为:21212XXnn由一一对应性,知服从自由度为的分布。n根据引理及特征函数性质,我们有得E(X)=n,E(X2)=n2+2n,D(X)=2n2( )Xn32 定理 5 (抽样分布基本定理) 设 X1,X2,Xn 是来自总体N(,2)的一个样本,则注:1. 的独立性仅当总体分布为正态时才成立。当总体分布的三阶中心矩为零时,可以推出两者是不相关的。 2. 服从精确的正态分布也只有在总体为正态分布时才成立。2SX与X(1)(2)X与 相互独立;2S222(1)(1),nSn33证 令 ,则 且, 选取正交矩阵A:作为正交变换 ,
15、1,2,.,kkYXkn. .21,(0,)i i dnYYNXY2221111()()11nnkkkkSXXYYnn111111,(1)(1)(1)112,02 32 32 311,0,01 21 2n nnnnnnnnnnn A11nnZYZYA34 则 ,且 1. 2. ,且 ,则 而 仅是Z1的线性函数,与 无关,故 与 相互独立。. .212,(0,)i i dnZ ZZN111()nkkZYnYn Xn2211nnkkkkZY2221111()nnkkkkYYYYnn 22222222221211()(1)nnkiniknSZnSYn YZZn11XZn2,nZZX221nS35t
16、分布分布n定义 设 XN(0,1), ,且 X 和 Y 相互独立,则称随机变量所服从的分布是自由度为n的t 分布,记为 Tt(n)./XTY n1221()2( )(1)( )2nntf tnnnn定理1 设Tt(n),则T的概率密度为2( )Yn36n此定理的证明也同前面类似。先写出X, Y的密度函数,然后利用随机变量的函数的分布的知识写出根号下 Y/n 的密度函数,再利用独立性写出(X , 根号下 Y/n )的联合密度函数,最后利用两个随机变量商的密度函数给出结果。37定理 2 设 X1,X2,Xn 是来自总体 的一个样本,则有 。定理 3 设 X1,X2,Xm 和 Y1,Y2,Yn 是分
17、别来自总体 和 的样本,且假定两总体相互独立,则有 () (1)Xnt nS 122212(-)-(-)(2)(2)(-1)( -1)X Ymn mnTt mnmnmSnS 2( ,)XN 21(,)N 22(,)N 382/21lim( ),2(0,1). tntStirlingf tettN当时,利用 函数的公式,可得故当 很大时, 分布近似于实际上有下面的结果。定理 4 设Tnt(n),n=1,2,.,则 Tn依分布收敛于N(0,1).39定理 5 设T t(n), n1,则对正整数 r (r2,则 E(T)=0, D(T)=n/(n-2).注:t 分布只存在阶数小于n的矩.40F分布分
18、布 定义 设随机变量 X和 Y是自由度分别为n1和n2的相互独立的 分布随机变量,则称随机变量 所服从的分布为自由度是(n1,n2)的F分布,记为FF(n1,n2). 其中n1称为第一自由度, n2称为第二自由度。12/X nFY n241定理1 设 FF(n1,n2), 则 F 的概率密度为 1121211122212122222()1,0( )( ) ( )0,0nnnnnnnnnnnnnyyyf yy 42定理2 若 X/ 2 , Y/ 2 ,且相互独立,则定理3 若 X F(n1,n2), 则 1/XF(n2,n1).定理4 若X t(n), 则 X2F(1,n).定理5 设 X1,X
19、2,Xm 和 Y1,Y2,Yn是分别来自总体 和 的样本,且假定两总体相互独立,则有1122/( ,)./X nFF n nY n2212122221.(1,1).SFF nnS21()n22()n211(,)N 222(,)N 43定理7 设随机变量 X1,X2,Xn相互独立且服从 ,又设 Q1+Q2+Qk=其中Qj是秩为nj的 X1,X2,Xn 的非负定二次型。 若n1+n2+nk=n,则Qj相互独立, 且定理6 设Xn F(m,n), 则当n 时,21.nmmLX 21niiX/( ,)./iiijijjjQnFF n nQn2(0,)N44分位数(分位点) 定义1 设随机变量 X 的分
20、布函数为F(x), 0 x=F(x)= ,则称x为此概率分布的(上侧)分位点(或分位数)。45分位数(分位点)v当XN(0,1), 将其上侧分位数记为u v当X ,将其上侧分位数记为v当X t(n), 将其上侧分位数记为t(n).v当X F(m,n),将其上侧分位数记为F (m,n).上面几类分位数的性质-u= u1- , -t (n) = t1- (n) F(m,n)=1/ F1- (n,m)2()n2()n46有时也需要上侧分位数和双侧分位数定义2 设 X 为一随机变量, 01,若使 PX =,则称为此概率分布的下侧分位数。易证为原分布的1-上侧分位数,即x1- 定义3 设 X 为一随机变
21、量, 0 2=/2,则称1,2为此概率分布的双侧分位数。易证1= x1-/2 , 2= x/2 47非正态总体的抽样分布例 1 设总体 , X1,X2,Xn为来自总体X的样本,求样本均值的分布。例 2 设总体 , X1,X2,Xn为来自总体 X 的样本,求样本均值的分布。( )X ( )XE48 当样本容量n趋于无穷时,若统计量的分布趋于一定的分布,则称后者为该统计量的极限分布。它提供了统计推断的一种近似解法。所谓大样本指样本容量n30,最好大于50或100.统计量的渐近分布非正态总体大样本的抽样分布49定义1 对于统计量Tn,若存在常数序列,n2(0)nn使得(0,1)()LnnnTnNn
22、则称Tn的渐近分布为22();nnnnNnn, 分别称为渐近均值和渐近方差。50 定理1 设总体X的分布函数为F(x),22(),(),0,FFFE XD X X1,X2,Xn为来自总体X的样本,则样本的均值的渐近分布为2().FFNn,定理2 设总体X的分布函数为F(x),22(),(),0,FFFE XD X X1,X2,Xn为来自总体 X 的样本,则(0,1)()nLFnXnNnS 51定理3 设 X1,X2,Xm与 Y1,Y2,Yn是来自 与 的两独立样本,则当n趋于无穷 m趋于无穷时有122212()()(0,1)LXYTNSSmn 21(,)XN 22(,)YN 52定义2 设统计
23、量Tn为某个待估函数 的估计量,( )(0,1)()( )LnTgnNnv 则称Tn是 的渐近正态估计。2,( )v 存在使得若对于每个 :( , )0Ax f x注:若与 无关,则相应参数g( )的估计量都具有渐近正态性,可直接用这个结论。( )g( )g53充分统计量与完备统计量 统计量既然是对样本的加工或压缩,在这个过程中可能有损失有关参数的一部分信息,现在问题是在这个过程中是否存在某些统计量,既起到压缩作用,又不损失参数的信息,这样的统计量称为充分统计量。54例的函数.),(121niinXXXXT(1), (0)1,01,P XP X 相同的T值,这样实际上是对样本起到了加工或压缩的
24、作用。)分布,即正品和次品服从两点设总体(X是来自总体的样本,考虑样本,实际上表T数,对不同观察值可能对应示样本中所含的次品个12,nXXX5512,nx xx设样本的观察值为则样本的联合分布函数为1122(,)(1),sn snnP Xx XxXx101.niiixsx其中或 ,Xs给定的条件下,样本的条件分布为11221(,|),nnP Xx XxXxXsns 56定义,( )PTX设统计模型为,是统计12( ),( )nTtXXXTXX量。如果在给定的条件下,的条件分布与参数 无关,则称统计量是参数 的充分统计量充分统计量(Sufficient Statistics) 一般情况下,利用条
25、件分布证明统计量的充分性是比较困难的。但存在证明充分性的一个充分必要准则,就是下面的因子分解定理(Factorization theorem)。57定理,( )PTX设统计模型为,统计量I 是充分的,当且仅当存在一个定义在( , )( )ng tRhx上的函数及定义在上函数使得( , )( ( ), ) ( )Lg Thxxx( )nRITxx对所有的都成立,其中 是的值域,( , )Lx是样本的联合概率密度函数或分布率。58 例例 设 XB(1,p), 试证样本均值是参数 p 的充分统计量。 例例 设XN(,1), 未知,试证样本均值是参数的充分统计量。59n注注:在因子分解定理中,如果未知
26、参数 是向量,T是随机向量,且定理条件成立,则称T关于 是联合充分的。但这时一般不能由T关于 的充分性而推出T的第j个分量关于 的第j个分量是充分的。n定理 设T是 的一个充分统计量,u=g(t)是单值可逆函数,则U=g(T)也是 的充分统计量。60例12,nXXX设是来自正态总体的样本22( ,)( ,)N ,令参数,试证明211(1)( ),nniiiiTXXX及21111(2)( ),()nniiiiTXXXnnX都是 的充分统计量。61定义( )( )g tT X设是定义在统计量的值域上的任一实值函数,( ( )0Eg T,立成立时,必几乎处处成0)(Tg( )T X统计量是完备的完备
27、的(Complete) 。如果对所有的,则称62例 12,(1, )nXXXB设是来自两点分布的X证明 是完备统计量。证明( , )nXB n因为服从,所以0( ()(1)nkn kknkEg Xgkn 样本 ,)10( (1- ) knnk=0nk=gkn1-( ()0Eg X令,有63 knk=0nkg=0.kn1-1因为上式的左边是的多项式,因此对(0,1), 所有的欲使上式恒成立,只有左边多项式的系数为零,0,0,1, .kgknn即(1, )BX故对分布族而言, 是完备统计量。64定理12(,),nXXXPX设是来自总体一个样本,其密度函数(分布率)可表示为1( , )( ) ( )
28、exp( ) ( ),kiiiLchdTx xx其中 ,如果 包含一个k 维矩形,且 的值域包含一个k 维开集,则 是 充分完备统计量。 12( , ,)kkR 1( ( ),( )kTTXX1( ),( )kdd12( ,)k 65例2( ,),XLn 设总体 服从对数正态分布212,( ,)nXXX 是简单样本,求的完备统计量。解对数分布密度函数为221(ln)( ; )exp22xf xx222222111expln(ln )22exxx2( ,)(0,) (0,),0.x 其中66因此样本的联合密度为222111expln(ln)2nniiiixx22221111( ,; ,)2nnn
29、niiL xxex 这样21211( ( ),( )ln,(ln),nniiiiTTxxxx12221( ),( ),(0,) (,0),2dd 12( ( ),( )TTXX由于二维区域 有包含开集,所以211ln,(ln)nniiiiXX是完备充分统计量。67次序统计量及其分布 定义 设 是取自总体X的一个样本, 被称为该样本的第i个次序统计量,它是样本 的满足如下条件的函数:每当样本得到一组观测值 时,将它们从小到大排列为 ,第i个值 是 的观测值,称 为该样本的次序统计量;称 为最小次序统计量,称 为最大次序统计量。12,nXXX( ) iX12,nXXX12,.,nx xx(1)(2
30、)( ).nxxx( ) ix( ) iX(1)(2)( ),nXXX(1)X( )nX68(1)( )11min,max inii ni nXXXX说明说明( )12(1)(2)( )(,),knnXXXXXXX由于每个都是样本的函数 所以也都是随机变量 并且它们一般不相互独立。即69 定义 样本最大次序统计量与样本最小次序统计量之差称为样本极差,常用 表示。若样本容量为n,则样本极差为 。它表示样本取值范围的大小,也反映了总体取值分散与集中的程度,而且计算方便。 定义定义 样本按大小次序排列后处于中间位置上的称为样本样本中位数中位数,常用 表示。 设 是来自某总体的一个样本,其次序统计量为 ,则nR( )(1)nnRXXdm12,nXX
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年全新住宅购买中介服务协议
- 2024年信息安全护航:IT公司保密协议汇编
- 2024年品牌授权合作协议
- 2024抖音短视频代运营合同合作协议书(律师修订版)
- 2024年公司高层管理聘请协议
- 2024年临时借条协议
- 文化产业股权质押协议书实例
- 社交软件app课课程设计
- 2024至2030年中国空姐装数据监测研究报告
- 课程设计要目录吗
- 《BIM技术的应用研究开题报告(含提纲)》
- GB/T 40997-2021经外奇穴名称与定位
- GB/T 27021.1-2017合格评定管理体系审核认证机构要求第1部分:要求
- GB/T 22796-2021床上用品
- 中国联通LAN工程施工及验收规范
- 二年级上册连续加减括号混合竖式计算180题
- 中间表模式接口相关-住院与his-adt方案
- 临床PCR检验的室内质控方法课件
- 拉曼光谱简介课件
- 计算机解决问题的过程-优质课课件
- 非线性电路分析基础讲解课件
评论
0/150
提交评论