多维随机变量及其分布_第1页
多维随机变量及其分布_第2页
多维随机变量及其分布_第3页
已阅读5页,还剩17页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第五章统计量及其分布§ 5.1总体与样本总体与个体总体:研究对象的全体。包括有限总体和无限总体,本书将以无限总体作 为主要研究对象。个体:构成总体的每个成员。可以视总体为一个分布。因此“从总体中抽样”与“从某分布中抽样”意 思相同。举例。样本从总体中随机地抽取 n个个体,记其指标值为xX2,x,则x,x2,xn 称为总体的一个 样本,n称为样本容量。举例。简单随机样本(简称样本)的特点:(1)随机性(2)独立性。设总体X具有分布函数F(x),Xi,X2/ ,Xn为取自该总体的容量为n的样 本,则样本联合分布函数为nF(Xi,X2, ,Xn) : I 丨 F(Xi)i吕注意:对于无限总

2、体,随机性与独立性容易实现,困难在于排除有意或无 意的人为干扰。对有限总体,只要总体所含个体数很大,特别是与样本量相比 很大,则独立性也可基本得到满足。举例。§ 5.2样本数据的整理与显示经验分布函数定义:设Xi,X2/ ,Xn是取自总体分布函数为F(X)的样本,若将样本观测值由小到大进行排列人,为X(i),X(2),X(n),则X(i),X(2),X(n)称为有序样本, 用有序样本定义如下函数0,当 xvx(i)Fn(x) =/ n,当 x(k)Ex cx(k+),k =i,2,n iJ,当 XX(n)则Fn(x)是一非减右连续函数,且满足Fn(=) =0 和 &( :)

3、=i。由此可见,Fn(x)是一分布函数,并称其为经验分布函数。举例。定理格里纹科定理)设Xi,x2/ ,xn是取自总体分布函数为F(x)的样本,Fn(x)是其经验分布函数,当 n时,有P sup Fn(x) -F(x) 0=1注意:该定理表明当n相当大时,经验分布函数是总体分布函数的一个良 好的近似。频数频率分布表例1为研究某厂工人生产某种产品的能力,我们随机调查了20位工人某天生产的该种产品的数量,数据如下160196164148170175178166181162161168166162172156170157162154对这20个数据(样本)进行整理,具体步骤如下:(1) 对样本进行分组

4、首先确定组数k ,作为般性的原则,组数通常在5-20个,对容量较小的样本,通常将其分为5组或6组,容量为100左右的样本可分7-10组,容量为200左右的样本可分 9-13组,容量为300左右及以上的样本 可分12-20组,目的是使用足够的组来表示数据的变异。这里将数据分为5组,即 k =5 。确定每組组距 每组区间长度可以相同也可以不同,实用中常选用长度相同的区间以便于进行比较,此时各组区间的长度称为组距,其近似公式为:)/组数148,故组距近似为组距d =(样本最大观测值-样本最小观测值 本例中,数据最大观测值为196,最小观测值为,196 -148*d9.65方便起见,取组距为 10。(

5、3)确定每组组限各组区间端点为a°,a0d 二aa。 2d 二a?, a。 kd 二 ak,形成如下的分组区间(a0 ,a1 , (a1, a2,(akJ,ak,其中a°略小于最小观测值,ak略大于最大观测值,配合我中可取a° =147,a5 =197,于是本例的分组区间:(1 47,1,51757,167】,(167,177】,(177,187】,(187,1971,通常可用每组的组中值来代表该组的变量取值,组中值=(组上限+组下限)/2。(4)统计样本数据落入每个区间的个数-频数,并列出其频数频率分布表。本例的频数频率分布表见下表。从表中可以读出很多信息,如:

6、40%的工人产量在157到167之间;产量少于 167个的有12人,占60% ;产量高于177的有 3人,占15%。例1的频数频率分布表组序分组区间组中值频数频率累计频率/%1(147,157】15240.20202(157,167】16280.40603(167,177117250.25854(177,187118220.10955(187,197119210.05100合计201样本数据的图形显示一、直方图它在组距相等场合常用宽度相等的长条矩形表示,矩形的高低表示频数的 大小。在图形上,横坐标表示所关心变量的取值区间,纵坐标表示频数,这样 就得到频数直方图,如图。把纵轴改成频率就得到频率直

7、方图。为使各长条矩 形面积和为1,可将纵轴取为频率/组距,称为单位频率直方图或简称频率直方 图。二、茎叶图例2某公司对就聘人员进行能力测试,测试成绩总分为150分。下面是50痊应聘人员的测试成绩(已经过排序):64677072747676798081828283858688919192939393959595979799100100102104106106107108108112112114116118119119122123125126128133我们用这批数据给出一个茎叶图。把每一个数值分为两部分,前面一部分(百倍和十位)称为茎,后面部分(个位)称为叶。女口数值分开茎和叶82t82t8和2

8、然后画一条竖线,在竖线的左侧写上茎,右侧写上叶,就形成了茎叶图。上例如下图。甲车间乙车间505256616162566667676868646565656767727274757575676871727474757676767678767677777882787980818183838587889091838384848486869286939397868787889292100100103105939598107背靠背的茎叶图。某天各40名贡工生产的产品数量。为对其进行比较,我们将这些数据放到一个背靠背茎叶图上。甲车间乙车间6477024669801223568911233356100024

9、66781122468991223568133在比较两组样本时,可画出它们的 例3下面的数据是某厂两个车间677986 2 08 7 7 7 5 5 5 4 2 1 18 7 7 6 6 4 4 2 18 7 6 6 5 3 27 3 2 1 05678966 7 7 8 82 2 4 5 5 5 5 6 6 6 8 8 90 1 1 3 3 3 4 4 4 6 6 7 7 85 3 0 010从图中可见,茎在中间,左边表示甲车间的数据,7右边表示乙车间的数据。从2 2 3 5 8茎叶图可以看出,甲车间员工的产量偏于上方,而乙车间员工的产量大多位于中间,乙车间的平均产量要高于甲车间,乙车间各员

10、工的产量比较集中,而甲车间员工的产量则比较分散。§ 5.3统计量及其分布统计量与抽样分布定义设Xj,X2,,Xn为取自某总体的样本,若样本函数T 寸(公2,Xn)中不含有任何未知参数,则称T为统计量。统计量的分布称为抽样分布。统计量和非统计量举例。注意:统计量不依赖于未知参数,但它的分布一般是依赖于未知参数的。样本均值及其抽样分布定义设x1,X2 ,Xn为取自某总体的样本,其算术平均值称为样本均值,一般用X表示,即x/ .X2- *1 ; 、Xin iX1 f1 X2 f2 亠.亠 Xk fk /kX =(n :二' fi)ni 4其中k为组数,Xi为第i组的组中值,fi为第

11、i组的频数。例1某单位惧到20名青年人的某月的娱乐支出费用数据:79848488929394979899100101 101102 102 108110113118125则该月这20名青年的平均娱乐支出为7984川川125X =在分组样本场合,样本均值的近似公式为若将数据分组可得如下频数频率分布:= 99.420对上表的分组样本,使用近似公式得:_82 3 92 522 2x1 0 0证明对任意给定的常数 c例1的频数频率分布表组序分组区间组中值频数频率/%1(77,87823152(87,97925253(97 ,1071027354(107,1171123155(117,127122210

12、合计2010020两个数值不同是因为后者使用的是不是真实样本观测值。定理若把样本中的数据与样本均值之差称为偏差,则样本所有偏差之n和为 0,即 7 (XiX)二 0i ±_ 2_瓦 Xi证 二:(Xj _X)2 二、 Xj _ nX 二、 片 _ n _ = 0n定理数据观察值与均值的偏差平方和最小,即在形如、(人-c)2的(Xj _'X)2最小,其中c为任意给定常数。2 2 2 2、(幷-c) 二(Xj _x x _c) =(Xi -x) n(x _c)2 2 22、* x)(xc)八(Xj x) n(xc) 一、(xx)定理设x1, x2 , xn为取自某总体的样本,x为

13、样本均值。2 _ 2(1) 若总体分布为N(丄,二),则x的精确分布为N(丄,二/n);2(2) 若总体分布未知或不是正态分布,但E(x)-Var(x) - ;,则n较大时x的渐近分布为N(;2/n),常记为xN(d;2/n)。样本方差与样本标准差定义设x1 ,x2 , xn为取自某总体的样本,则它关于样本均值x的平均偏差平方和*2 1 J /_2S =打(Xi _x)n i 4称为样本方差。其算术根S = . S 2称为样本标准差。注意:(1)由于标准差与均值具有相同的度量单位,因此通常更有实际意义。2 1 2(2) 在n不大时,通常用S =:, (Xi -x)表示样本方差(也称无偏方n -

14、1 y差),s二s2表示样本标准差。而且更常用,在后面讲样本方差时通常指后者。n(3) v (备X)2称为偏差平方和,n-1称为偏平方和自由度。偏差平方和的三种表达式:n _ 1 _' (Xi -X)2 工為 Xi2 - C Xi)2 =嘉 Xi2 nX2i 1n这三种方式都可以用于计算方差。(4) 在分组样本场合,样本方差的近似计算公式为s21 kn-1;. fi(X)21 k迟 W -nx)2 n-1 y其中Xi, fi分别为第i个区间的组中值和频数,X为分组得到的样本均值。接例1对于x =99.4,其样本方差与样本标准差分别为2 | 2 2 2S2(79 -99.4)2 (84

15、-99.4)2 (125 -99.4)2 = 1 3 39 36 820 Ts 二 133.9368 =11.5731。例1的分组样本方差计算表组中值频数fxfX -X(x-X)2f82324683201027714228112333612432122224422968和2020002720于是 XM2000 /。, s2= 2720 =143.16 , Sf ;143.16 =11.9620 20 12定理设总体 X具有二阶矩,即E(x)二J,Var(x) - .:-:2X1,X2,Xn为取自该总体的样本,X,s分别是样本均值和样本方差,则E(X)=,Var(X)

16、- ;2 / n, E(s2)=二2。1nn卩证明(1) E(X) EL Xi)=i =4nni jnVar(X) =lvar(' Xi)二nid2 2n;-n因为' (Xi -X)2 八 Xi2 -nX2id:而E(X2) =(ExJ2 Var(xJ,E(X2) =(EX)2 Var(X)-2 二2/n于是n_ 222222Ep (Xi -X) n(二)n("二 /n)=(n 1)二i 1上式两除以n -1,即得(3)。定义 5.3.4 设 x1, X2,1 n,xn为样本,则统计量akxi称为样本k阶原n 75.3.4样本矩及其函数统计量bk点矩,特别样本一阶原点

17、矩就样本均值,1 n=(Xj - x)k称为样本kn i d阶中心矩,特别,样本二阶中心矩就是样本方差。定义设x1, x2/ , xn为样本,则称统计量j =b3/b;/2为样本偏度。注意:样本偏度反映了总体分布密度曲线的对称性信息,b3除以b3/2是为削除量纲影响。(2)4=0表示样本对称,1 0表示样本的右尾长,总体分布是正偏或右偏的,1 : 0表示分布的左尾长,总体分布是负偏或左偏的。定义设X1,X2 / ,Xn为样本,则称统计量2 = b4/b; -3为样本峰度。注意:(1)样本峰度反映了总体分布密度曲线在其峰值附近的陡峭程度。(2) 20分布密度曲线在其峰值附近比正态分布来得陡,称为

18、尖顶型i :0时,分布密度曲线在其峰值附近比正态分布来得平坦,称为平顶型。例2下表是两个班(每班50人)的英语课程的考试成绩, 度计算两个班级的 平均成绩、标准差、样本偏度及样本峰度。两个班级的英语成绩成绩组中值甲班人数f甲乙班人数f乙90-100955480-8985101470-7975221660-6965111450-59551240-494510解首先计算下面两个表Xf甲x f甲(x X甲)2 f甲(X X甲)3 f甲(X X甲)4 f甲95547585108507522165065117155515545145和5037905368-8908.81987874.56乙班成绩的计算过

19、程Xf乙xf乙(X - X乙 )2 f乙(X X乙)3 f乙(x X乙 )4 f乙955851075226511551451和50379051683571.21208706.56则X甲=3790/50=75.8, X乙二 3790/50 二 75.85368 ,小:5168 十=10.47 , Sz = *=10.27一 49493571.2/503/2 =0.068 (5168/50)1208706.56/50 , =2- 3 = -0.74(5168/50)-8908.8/503/2= -0. 16 ,/1 乙=2甲 严787456俨-3心5,2乙(5368/50)(5368/50)3/2

20、由此可见,两个班级的平均成绩相同,标准差也几乎相同,样本偏度显示两个 班的成绩都是基本对称的,但两个班的样本峰度明显不同,乙班成绩分布比较 平坦,而甲班则稍显尖顶。次序统计量及其分布一、定义 设X1,X2,,Xn是取自总体 X的样本,X(i)称为该样本的第i个次序统计量,它的取值是将样本观测值由小到大排列后得到的第i个观测值。其中x=min% ,x2,,xn称为样本的最小次序统计量,X(n)=m axx,*2,Xn称为该样本的最次序统计量。注意:次序统计量1),X(2),,X(n)既不独立,分布也不相同。例3设总体X的分布为仅取0,1,2的离散均匀分布,分布列为X012P1/31/31/3现从

21、中抽取容量为 3的样本,其一切可能取值有 33=27种,现将它们列在表格 的左侧,其右侧是相应的次序统计量观测值。X1X2X3X(1)x(2)x(3)X1X2X3x(1)X(2)X(3)000000120012001001210012010001022022100001202022002002220022020002112112200002121112011011211112101011122122110011212122012012221122021012111111102012222222201012由于样本取上述每一组观测值的概率相同,都了 1/27,由此可给出x(1) X(2) X(3

22、)我们可以清楚地看到这三个次序统计量的分布是不相同的。进一步,我们可以给出两个次序统计量的联合分布,如X(1)和X(2)的联合分布列为X(2)X(1)01207/279/273/2710002001/27的分布列如下:19/277/271/277/2713/277/27X(3)012P1/277/2719/27P19 77因为 P(x(1) =0)P(x(2)=0),而 P(x(1)= 0, x(2)= 0),两者不27 2727等,由此可见 x和x(2)是不独立的。二、单个次序统计量的分布定理设总体X的密度函数为p(x),分布函数为F (x),X-X2,,Xn 为样本,则第k个次序统计量x(

23、k)的密度函数为Pk(x)二n!(k -1)!(n -k)!(F(x)k(1 -F(x)n-kP(X) o例4设总体密度函数为2p(x) =3x ,0 : x : 1现从该总体抽行一个容量为5的样本,试计算 P(x(2) :1/2)解我们首先应求出X(2)的分布,由总体密度函数不难求出总体分布函数为0, x 乞 0 F(x) = <x3,0 c xi 1,x1由此得X(2)的密度函数为P2(X)5!(2 _1)!(5 _2)!(F(x)2(1-F(x)5'P(x)= 20x33x2(1 _x3)3= 60x5(1 x3)3,0 ::: x <1于是1 /25331/83P(

24、x(2)c1/2) = 60x (1 x ) dx = ( 20y(1 - y) dy13445二 20(z -z )dz =5(1 -(7/8) )-4(1 -(7/8) ) =0.12077/8例5设总体分布为U (0,1) , X1 , X2 ,,Xn为样本,则其第k个次序统计量X(k)的密度函数为Pk(X)=n!(k -1)!(n -k)!(x)kJ1(1 -x)nJ0 : x : 1即贝塔分布 Be(k, n - k 1),从而有 E(x(k)二 k/(n 1)。三、多个次序统计量的联合分布定理设总体X的密度函数为p(x),分布函数为F(x), x-i ,X2,xn为样本,则次序统计

25、量(x(i),x(j)(i : j)的联合分布密度函数为Pj(y,z)n!(i 一1)心 _i 一1)!(n 一 j)!F(y)rF(z)-F(y)®1-F(z)n-jp(y)p(z)注意:实际问题中将会遇到次序统计量的函数,比如样本极差:Rn - X(n)- X(1)。例6设总体分布为U (0,1),X1X,Xn为样本,则次序统计量(X(1),X(n)的联合分布密度函数为 P1,n(y,z)二 n(n 1)(z - y)n',0 : y z :1,令R = X(n)-X,由R 0可以推出0 ::人0 = X(n) - R岂1 - R,则 1 _rPR(r)° n(

26、n- 1)(y r) -yn'dy = n(n - 1)rn"r)。 这正是参数为(n -1,2)的贝塔分布。样本分位数与样本中位数设X,X(2),,X(n)是有序样本,则样本中位数定义为m0,5(X n2(2n为奇数-X(n 1), n为偶数2样本p分位数mP可定义如下:X(npl),叩不是整数" 2(X(np) X(npi), np 是整数定理设总体密度函数为 p(X), Xp为其p分位数,p(X)在Xp处连续 且p(Xp)>0,则当n:时样本p分位数mp的渐近分布为mpN(Xp,以1厂)np (Xp)特别,对样本中位数,当 n,时近似地有m0.5N(X0

27、.5 ,14np2 (X0.5)注意:相比之下中位数比均值更具有 稳健性。例7设总体为柯西分布,密度函数为P(X,力1二(1 -(X -“)2-::X :其分布函数为1 1F (x; Jarct aX (),2 n则&是该总体的中位数,即m0,5 =日,设X1,X2,Xn是来自该总体的样本,当 样本量n较大时,样本中位数 m0,5的渐近分布为2m°.5N,)4n五数概括与箱线图次序统计量的应用之一是五数概括与箱线图。在得到有序样本后,容易计算如下的五个值:最小观测值X(1;最大观测值X(n);中位数m0.5;第一 4分位数Q1 = m°.25和第三4分位数Q3 =

28、m°.75。所谓五数概括就是指用这五个数来大 致描述一批数据的轮廓。五数概括的图形表示称为箱线图,由箱子和线段组成。其作法如下:(1) 画一个箱子,其两侧恰为第一4分位数和第三4分位数,在中位数位置上画一条竖线,它在箱子内。这个箱子包含了样本中50%的数据;(2) 在箱子左右两侧各引出一条水平线,分别至最小值和最大值为止。每条 线段包含了样本中25%的数据。箱线图可用来对样本数据的形状进行大致的判断。下图给出了三种常见的箱线图,分别对应对称分布、左偏分布和右偏分布。§ 5.4三大抽样分布2 (卡方)分布定义设XX2,,Xn相互独立且均服从标准正态分布,即nXi N(0,1)

29、,i =1,2,n,则随机变量 2 = x1 x2 - x:八.X:7服从自由度为n的2分布,记为22 (n)。2分布的密度函数为'dJ丄,y 0,y 012 2y e p(y)和公(2)20第三章已经了解若 XN(0,1),则X2Ga(1/2,1/2),根据伽玛分布的可加性,有2Ga(n/2,1/2) =2(n),由此可见 2(n)分布是伽玛分布的特例。下图给出了222分布密度函数曲线E( 2)二 n,Var( 2) =2n。2(卡方)分布的1 -:分位数可以在附表中查到。分布2定义设X1,X2相互独立,分别服从自由度为 m,n的x分布,则称X1 /mX2/n服从自由度为(m, n)

30、的F分布,记为F m,n。其中m称为分了自由度,为分母自由度。通过计算,可求得 F m,n的概率密度函数m/ 2 4my (1 y)nF图给出了一些F分布的密度函数的图象F分布的性质:若 F F(m, n).,则有1/F F(n, m).。F分布密度函数关于F分布的1-分位数:我们称满足 pg乞F.(m, n)?的点片_一.(m,n)为F(m, n)分布的1-二分位数,其有如下性质:F.(n ,m) =已七(m, n)1证明 设FF(n,m),则- F(n,m),且F:-PT _F(n,m)4P -aIF F/n ,m)J1 1 1 1FF:.(n,m)=1-P*丄色一1> = 1_p*

31、丄启JF F(n, m)1工1丁Fg( n,m)由ot分位点的定义,显然 F(m, n)=成立。F:.(n, m)t分布则称随机变量定义设X N(0,1),Y2(n),且X与Y相互独立,服从自由度为n的t分布,记为Tt(n)。通过计算可得t分布的密度函数为P(y"(1n n.t分布的密度函数曲线上图给出了 n =1, 5,10时t分布的密度函数。t分布的1-分位数,由PT 汀1_.(n);二1,的t.(n)是自由为n的t分布的1-分位数,查t分布表可得t (n)的值。 由于t分布有对称性,因此t:.(n) = -t.( n)注意:(1)自由度为1的t分布就是标准柯西分布,它的均值不存

32、在;(2) n> 1时,t分布的数学期望存在且为0;(3) n> 2时,t分布的方差存在且为 0;(4) 当自由度较大时(如n 30),有2 _n+_y2lim(1二2nr.:nt分布接近标准正态分布。因此,在应用中,可以用标准正态近似,有t ?(n)z :。些重要的结论2定理设XX2,,禺为取自正态总体 N( = ;)的样本,其样本均值n和样本方差分别为,则有' (Xi X)2i d_2(1) X与s相互独立 X N(,;2 /n)(n -1)s22(n-1)推论在定理541的记号下,有n(刃 - J)Tt( n-1).S证明由定理知 N (0,1), n1 s2CJ(J

33、且二者相互独立,由t分布的定义可知(")xns2、n&_) n匚.2 (n1)s即 T t(n -1)推论5.4.2和5.4.3设x1, X2 / , Xm为取自正态总体 Ng,;、2)的样本,设yi,y2,,yn为取自正态总体 N(丄2,二;)的样本,且此两样本相互独立,记2Sy二1n -1n二:(yi - y),i丄其中y 丄° yin i -4则有2Sx2Sy2;2二F(m _1, n_1)二 1特别地,若二;=(2)若进一步假设Sx2Sy2F(m -1, n -1),有T _ X -丫- (占 - J2)sj 1l n mt(n m -2)其中mn(m -1)s: (n -1)s:m n _2' (Xi - X)2 ' (% y)2m n _2i 1i A§ 5.5充分统计量充分性的概念定义设X1 ,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论