




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、6.1 总体与样本6.2 样本数据的整理与显示6.3 统计量及三大抽样分布 样本是进行统计推断的依据。为了使由样本对总体所作的推断具有一定的可靠性,在抽取样本之后,我们往往并不直接利用样本的n个观测值进行推断,而是针对要推断的问题对样本进行“加加工工”和“提炼提炼”,把样本中我们所需要的信息集中起来,构成样本的一个适当的函数,用以推断我们所关心的问题。这些样本函数称为统计量统计量。6.3 统计量及其分布6.3.1 统计量与抽样分布当人们需要从样本获得对总体各种参数的认识时,最好的方法是构造样本的函数,不同的函数反映总体的不同特征。定义6.3.1 设 X1, X2, , Xn 为取自某总体的样
2、本,若样本函数T = T(X1, X2, , Xn)中不含有任 何未知参数。则称T为统计量。统计量的分布 称为抽样分布。按照这一定义:若 x1, x2, , xn 为样本,则 以及经验分布函数Fn(x)都是统计量。而当, 2 未知时,x1, x1/ 等均不是统计量。niiniixx121,4 抽样分布就是通常的随机变量函数的分布抽样分布就是通常的随机变量函数的分布. 只是只是强调这一分布是由统计量产生的强调这一分布是由统计量产生的. 研究统计量的性质研究统计量的性质和评价一个统计推断的优良性,完全取决于其抽样分和评价一个统计推断的优良性,完全取决于其抽样分布的性质布的性质.抽样分布抽样分布精确
3、抽样分布精确抽样分布渐近分布渐近分布(小样本问题中使用)(小样本问题中使用)(大样本问题中使用(大样本问题中使用) 统计量既然是依赖于样本的,而后者又是随机变统计量既然是依赖于样本的,而后者又是随机变量,故统计量也是随机变量,因而就有一定的分布,量,故统计量也是随机变量,因而就有一定的分布,这个分布叫做统计量的这个分布叫做统计量的“抽样分布抽样分布” . 5 几个常见统计量几个常见统计量样本均值样本均值样本方差样本方差niiXnX11niiXXnS122)(11它反映了总体均值它反映了总体均值的信息的信息它反映了总体方差它反映了总体方差的信息的信息样本标准差样本标准差2211()1niiSSX
4、Xn下面介绍一些常见的统计量及其抽样分布。6样本样本k阶(原点)矩阶(原点)矩样本样本k阶中心矩阶中心矩nikikXnA11nikikXXnB1)(1 k=1,2,它反映了总体它反映了总体k 阶矩阶矩的信息的信息它反映了总体它反映了总体k 阶阶中心矩的信息中心矩的信息78上述五种统计量可统称为上述五种统计量可统称为矩统计量矩统计量,简称,简称样本样本矩矩,他们都是样本的显函数,它们的观测值仍,他们都是样本的显函数,它们的观测值仍分别称为样本均值、样本方差、样本标准差、分别称为样本均值、样本方差、样本标准差、样本样本k阶阶(原点原点)矩、样本矩、样本k阶中心矩阶中心矩6.3.2 样本均值及其抽样
5、分布 定义6.3.2 设 x1, x2, , xn为取自某总体的样本,其算术平均值称为样本均值,一般用 表示,即思考:在分组样本场合,样本均值如何计算? 二者结果相同吗? xx= (x1+xn)/n定理6.3.2 数据观测值与均值的偏差平方和 最小,即在形如 (xic)2 的函数中,样本均值的基本性质:定理6.3.1 若把样本中的数据与样本均值之差 称为偏差,则样本所有偏差之和为0,即 最小,其中c为任意给定常数。1()0.niixx2()ixx样本均值的抽样分布:定理6.3.3 设x1, x2, , xn 是来自某个总体的样本,x为样本均值。(1) 若总体分布为N(, 2),则xx的精确分布
6、为N(, 2/n) ; 见教材142页。(2) 若总体分布未知或不是正态分布, 但 E(x)=, Var(x)=2,则n 较大时 的渐近分 布为N(, 2/n) ,常记为 。xAN(, 2/n)这里渐近分布是指n 较大时的近似分布.6.3.3 样本方差与样本标准差称为样本标准差。s*= s*2定义6.3.3称为样本方差,其算术平方根在n 不大时,常用 作为样本方差作为样本方差,(本书)本书)其算术平方根也称为样本标准差。221*1()niisxxn2211()1niisxxn在这个定义中, ( xi x )2n1称为偏差平方和的自由度。其含义是:x在 确定后, n 个偏差x1x, x2x, ,
7、 xnx能自由取值,因为只有n1个数据可以自由变动,而第n个则不 (xi x ) = 0 .称为偏差平方和,中样本偏差平方和有三个不同的表达式:( xix )2 = xi2 (xi)2/n = xi2 nx它们都可用来计算样本方差。2211()1niisxxn样本均值的数学期望和方差,以及样本方差的数学期望都不依赖于总体的分布形式。即有下面定理,见教材P142页。定理6.3.4 设总体 X 具有二阶矩,即 E(x)= , Var(x)=2 , x1, x2, , xn 为从该总体得到的样本,x和s2 分别是样本均值和样本方差,则E( x )=, Var( x )=2 /n, E(s2) =2
8、6.3.4 样本矩及其函数 样本均值和样本方差的更一般的推广是样本矩,这是一类常见的统计量。定义6.3.4 Ak = (xik)/n 称为样本 k 阶原点矩, 特别,样本一阶原点矩就是样本均值。 称为样本k阶中心矩矩。 特别,样本二阶中心矩就是样本方差。 Bk = (xi x)k/n当总体关于分布中心对称时,我们用x和 s刻画样本特征很有代表性,而当其不对称时,只用 就显得很不够。为此,需要一些刻画分布形状的统计量,如样本偏度和样本峰度,它们都是样本中心矩的函数。样本偏度1反映了总体分布密度曲线的对称性信息。样本峰度2反映了总体分布密度曲线在其峰值附近的陡峭程度。定义: 1 = B3/(B23
9、/2 )称为样本偏度, 2 = B4/(B22 ) 称为样本峰度。x和 s三大抽样分布大家很快会看到,有很多统计推断是基于正态分布的假设的,以标准正态变量为基石而构造的三个著名统计量在实际中有广泛的应用,这是因为这三个统计量不仅有明确背景,而且其抽样分布的密度函数有明显表达式,它们被称为统计中的“ 三大抽样分布 ” 。1、 2 分布(卡方分布)定义1 设 X1, X2, Xn, 独立同分布于标准 正态分布N(0,1) ,则2X12+ Xn2的分布称 为自由度为n 的2分布,记为 2 2(n) 。2分布的密度函数分布的密度函数为为000)2(21);(2122xxexnnxfxnn其中伽玛函数其
10、中伽玛函数 通过积分通过积分0,)(01xdttexxt)(x来定义来定义.该密度函数的图像是一只取非负值的偏态分布 22,Var()2EnnP139页20分布的性质分布的性质2 性质性质1).(,),(),(2122221222122221221nnnn 则则立立独独并且并且设设)(2分布的可加性分布的可加性 (此性质可以推广到多个随机变量的情形此性质可以推广到多个随机变量的情形).(,), 2, 1(),(21212222mmiiiiinnnmin 则则独立独立相互相互并且并且设设21.2)(,)(),(2222nDnEn 则则若若性质性质2)(2分布的数学期望和方差分布的数学期望和方差
11、nXEXEEniinii)()()(121221)()(2iiXDXE213)()()(2242iiiXEXEXDni,2, 1证明证明事实上,因事实上,因 )1 ,0(NXi,故,故nXDXDDniinii2)()()(1212222.)()()(, 10,2222分位数(分位点)分位数(分位点)分布的上分布的上为为的点的点称满足条件称满足条件对于给定的正数对于给定的正数 nnnP.,分位点的值分位点的值得上得上可以通过查表求可以通过查表求对于不同的对于不同的 n)(22n分布的上侧分位数23附表= 50.0250.010.00512345678910111213141
12、5161.3232.7734.1085.3856.6267.8419.03710.21911.38912.54913.70114.84515.98417.11718.24519.3692.7064.6056.2517.7799.23610.64512.01713.36214.68415.98717.27518.54919.81220.06422.30723.5423.8415.9917.8159.48811.07112.59214.06715.50716.91918.30719.67521.02622.36223.68524.99626.2965.0247.3789.34811.14312.8
13、3314.44916.01317.53519.02320.48321.92023.33724.73626.11927.48828.8456.6359.21011.34513.27715.08616.81218.47520.09021.66623.20924.72526.21727.68829.14130.57832.0007.87910.59712.83814.86016.75018.54820.27821.95523.58925.18826.75728.29929.89131.31932.80134.267n2 分布表分布表920.21)11(2025. 0)(P:表头5附表P38622n应
14、用中心极限定理可得,若应用中心极限定理可得,若 ,则当则当n充分大时,充分大时,)(2nX若若nnX2的分布近似正态分布的分布近似正态分布N(0,1).则则可以求得,可以求得, E(X)=n, D(X)=2n),(2nX若若25由定义可见,由定义可见,2、F分布分布),(),(2212nYnX定义定义: 设设 X与与Y相互相互独立,则称统计量独立,则称统计量服从自由度为服从自由度为n1及及 n2 的的F分布分布,n1称为称为第第一自由度一自由度,n2称为称为第二自由度第二自由度,记作,记作 FF(n1,n2) .21nYnXF 121nXnYFF(n2,n1)若若XF(n1,n2), X的概率
15、密度为的概率密度为 0001)()()()(),;(222221212112121212121xxxxnnxfnnnnnnnnnnnnn26.,),(21可通过查表完成可通过查表完成的值的值求求nnF .),(),(),(, 10,212121分位数分位数分布的上分布的上为为的点的点称满足条件称满足条件对于给定的对于给定的 nnFnnFnnFFP),(21nnFF分布的上侧分位数?)12, 9 (05. 0F?) 9, 8 (95. 0F由 F 分布的构造知 F(n,m) = 1/F1(m,n)。若FF(n1,n2),则 ),(112nnFF),(111),(11),(1211211211nn
16、FFPnnFFPnnFFP ),(11211nnFFP于是于是),(),(112211nnFnnF 所以所以),(1),(12211nnFnnF 即即),(1),(12211nnFnnF F分布的上 分位点有如下的性质: 上一页下一页返回3、 t 分布 定义3 设随机变量X1 与X2 独立, 且X1 N(0,1), X2 2(n), 则称t=X1/ X2/n的分布为自由度为n 的t 分布,记为t t(n) 。 t分布的密度函数为:分布的密度函数为:212)1 ()2(2) 1();(nnxnnnnxf t 分布是科塞特(分布是科塞特(W.S.Gosset)于于 1908 年在一篇署名为年在一篇
17、署名为“ 学学生生” (Student)的论文中首先提出来的,因此,的论文中首先提出来的,因此,t 分布也称为分布也称为 “ 学生分布学生分布 ” 。29图图分布的概率密度曲线如分布的概率密度曲线如t.0对称的对称的显然图形是关于显然图形是关于 t当当n充分大时充分大时, 其图形其图形类似于标准正态变量类似于标准正态变量概率密度的图形概率密度的图形.,21)(lim22tneth 因为因为,)1 , 0(分布分布分布近似于分布近似于足够大时足够大时所以当所以当Ntn.)1 , 0(,分布相差很大分布相差很大分布与分布与但对于较小的但对于较小的Ntn30).()()()(, 10,或分位点或分位
18、点分位数分位数分布的上分布的上为为的点的点称满足条件称满足条件对于给定的对于给定的 ntntnttP.分位数的值分位数的值得上得上可以通过查表求可以通过查表求 由分布的对称性知由分布的对称性知).()(1ntnt .)(,时45当zntn)(ntt分布的上侧分位数 n1时, t 分布的数学期望存在且为0; n2时,t 分布的方差存在,且为n/(n2); 当自由度较大 (如n30) 时, t 分布可以用 正态分布 N(0,1)近似。 自由度为1的 t 分布就是标准柯西分布, 它的均值不存在;当总体为正态分布时,教材上给出了几个重要的抽样分布定理. 这里我们不证明,定理的证明都可以在教材上找到.定
19、理1 设 x1, x2, xn 是来自N(, 2) 的 样本,其样本均值和样本方差分别为和x = xi/n s2= (xix)2/(n1)(3) (n1) s2/2 2(n1)。 则有(2) x 与 s2 相互独立;(1) x N(, 2/n) ;(4) (x ) /(s/ n ) t(n1)。 样本均值的分布样本方差的分布)1(/则有,方差分别为样本均值与样本,的样本),(为来自总体,设 2221ntnSXSXNXXXn证明)4(定理)1()1()1(/分布的定义知由,相互独立)1(与/且)1()1(),1 ,0(/的结论知)3(由定理:证2222222ntnSnnXnSXtSnnXnSnN
20、nX上一页下一页返回推论3 设 x1, x2, xm 是来自N(1, 12) 的 样本,y1, y2, yn 是来自N(2, 22) 的样本, 且此两样本相互独立,则有特别,若12 =22 ,则F=sx2/sy2 F(m1,n1)221222/(1,1)/xysFF mns两总体样本方差比的分布推论4 在推论3的记号下,设 12 =22 = 2 , 并记则2)()(2) 1() 1(1122222nmyyxxnmsnsmsminiiiyxw)2(11)()(21nmtnmsyxw两总体样本均值差的分布附录:附录:1、常见统计量的、常见统计量的Excel实现实现。2、判断是否是统计量的例子。、判
21、断是否是统计量的例子。3、思考题:在分组样本场合,样本均值如何计算?、思考题:在分组样本场合,样本均值如何计算? 二者结果相同吗?二者结果相同吗?4、定理、定理6.3.1 -6.3.3的证明。的证明。5、F分布的性质。分布的性质。6、“两总体样本均值差的分布两总体样本均值差的分布”证明。证明。7、抽样分布相关举例。、抽样分布相关举例。8、双侧、双侧 分位数分位数 。1Excel实现实现 (1) 利用Excel计算样本均值、样本方差、样本标准差 Step1 在Excel数据编辑窗口中,建立数据文件Step2 计算样本平均调用 AVERAGE 函数: Step3 计算样本方差调用 VAR 函数St
22、ep4 计算样本标准差调用 STDEV 函数:(2) 利用利用Excel计算四大分布的分位数计算四大分布的分位数 计算标准正态分布的上侧分位数)1(NORMSINVz 计算)(2n的上侧分位数)n,(CHIINV)n(2 计算)(nt的上侧分位数)n,2(TINV)n(t 计算),(21nnF的上侧分位数)n,n,(FINV)n,n(F2121?,),(,22321哪些不是哪些不是些是统计量些是统计量判断下列各式哪判断下列各式哪为未知为未知为已知为已知其中其中样本样本的一个的一个是来自总体是来自总体设设 NXXX,11XT ,3212XeXXT ),(313213XXXT ),max(3214
23、XXXT ,2215 XXT).(123222126XXXT 是不是2、例 例(例(1)令令 Sn = X1 + X2 + + Xn , ,则则 Sn 与与 X 都是样本(都是样本(X1 ,X2 ,Xn )的的统计量统计量,且具有下面的,且具有下面的性质性质: E Sn = E ( X1 + X2 + + Xn ) = EX1 + EX2 + + EXn = n EX = 5 n, D Sn = D ( X1 + X2 + + Xn ) = DX1 + DX2 + + DXn = n DX = n 2 ; , 。 (2)令)令 ,则,则 U 不是不是该样本的统计量。因为该样本的统计量。因为 U
24、 的表达式中含有总体分布的未知参数的表达式中含有总体分布的未知参数 。 nSXnEXnnESnnSEXEnn5511DXnnnnDSnnSDXDnn11112222)5(XnU3、定义 设 为取自某总体的样本,其算术平均值称为样本均值,一般用表示,即 在分组样本场合,样本均值的近似公式为 nxxx,21.11 niixnxkiikkfnnfxfxx111 其中k为组数,xi为第 i 组中值,fi为第i组的频数。4 .99)1258479(201x例 某单位收集到20名青年人的某月的娱乐支出费用数据: 79 84 84 88 92 93 94 97 98 99 100 101 101 102 1
25、02 108 110 113 118 125则该月这20名青年的平均娱乐支出为 将这20个数据分组可得到如下频数频率分布:组序 分组区间 组中值 频数 频率/ 1 (77,87 82 3 15 2 (87,97 92 5 25 3 (97,107 102 7 35 4 (107,117 112 3 15 5 (117,127 122 2 10 合计 20 100 100)2122592382(201x对上表的分组样本,使用公式进行计算可得:两种计算结果不同。事实上,由于未用到真实的样本观测数据,因而给出的是近似结果。4、定理6.3.1 若把样本中的数据与样本均值之差称为偏差,则样本所用偏差之和
26、为0,即证明 从均值的计算公式看,它使用了所有的数据,而且每一个数据在计算公式中处于平等的地位。所以数据与样本中心的误差被相互抵消,从而样本的所有偏差之和必为零。0)(nxnxxnxxxiiii0)(1niixx 证明 :对任意给定的常数c2222222)()()()(2)()()()(xxcxnxxcxxxcxnxxcxxxcxiiiiii定理6.3.2 数据观察值与均值的偏差平方和最小,即在形如 的函数中, 最小,其中c为任意给定常数。2)(xxi2)(cxi 定理6.3.3 设x1,x2,xn为来自某个总体的样本, 为样本均值。 则n较大时 的渐近分布为 ,常记为 这里渐近分布是指n较大
27、时的近似分布。(1)若总体分布为)若总体分布为 则则 的精确的精确分布为分布为 ;x),(2Nx2)(,)(xVarxE)/,(2nN)/,(2nNx)/,(2nNx (2)若总体分布未知或不是正态分布,但 (2)由中心极限定理, 这表明n较大时 的渐近分布为证明:(1)利用卷积公式,可得知, 由此可知 。)/,(2nN)/,(2nNx) 1 , 0(/ )(NxnL),(21nnNxniix 例 设总体分布为均匀分布 ,该总体的均值和方差分别为3和4/3。)5,1(U)21.0 , 3()3034, 3(2NNx 若从该总体抽取容量为30的样本,则其样本均值的渐近分布为50分布有以下性质、5
28、F).,(1),(1221nnFFnnFF则若(1)(,)()()()(),(,)(4422222222212122222nnnnnnnFDnnnFE(2)即它的数学期望并不依赖于第一自由度即它的数学期望并不依赖于第一自由度n1.51 这说明F分布极限分布也是正态分布.dtexFDFEFPxnnnFFtxn22121)()(lim,4),(221有有对任意对任意时时则当则当设设(3)注意.,2)1()1( )2(11)( ,)(11)(11,11,),(),(, 22122221122121211222212121112122212121111221WWWniiniininiiinnSSnnS
29、nSnSnntnnSYXYYnSXXnSYnYXnXNNYYYXXXW 而而其中其中则有则有和和记为记为两样本的样本方差分别两样本的样本方差分别和和记为记为别别设两样本的样本均值分设两样本的样本均值分且两样本相互独立且两样本相互独立样本样本的的和和总体总体具有相同方差的两正态具有相同方差的两正态分别是来自分别是来自与与设设 定理上一页下一页返回6、“两总体样本均值差的分布两总体样本均值差的分布”证明。证明。),( 由正态分布的性质知:证明221221nnNYX)1 , 0(11)(2121NnnYXU 即有即有)1()1(),1()1(知)3(的结论1由定理222222122211nSnnSn
30、上一页下一页返回)2(11)(2,21212121 nntnnSYXnnVUtVUW 分布的定义可得分布的定义可得由由相互独立相互独立与与由于由于)2()2( )1()1(,212222122222112 nnSnnSnSnVW 分布的可加性知分布的可加性知故由故由且它们相互独立且它们相互独立上一页下一页返回 7、例例1 设设 是来自总体是来自总体 的的s.r.s,则则 服从服从( )分布。分布。nXXX,21),(2 N niXi12)( 例例2 设设 是取自总体是取自总体 N (0,4) 的的s.r.s, 当当a= , b= 时时, ).2(2 X243221)43()2(XXbXXaX
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年盘园儿钢项目建议书
- 2025年直播化妆品项目建设总纲及方案
- 2025年城市市容管理服务项目可行性建设方案
- 2025年高效节能电动机项目建议书
- 陕西财经职业技术学院《数学模型与实验》2023-2024学年第一学期期末试卷
- 陕西青年职业学院《人工神经网络与深度学习》2023-2024学年第二学期期末试卷
- 随州职业技术学院《幼儿园体育游戏》2023-2024学年第二学期期末试卷
- 集宁师范学院《俄语写作》2023-2024学年第二学期期末试卷
- 青岛市市北区2024-2025学年数学三下期末考试模拟试题含解析
- 青岛求实职业技术学院《JavaEE企业级应用开发课程设计》2023-2024学年第二学期期末试卷
- 2025-2030中国融资租赁行业发展分析与投资战略研究报告
- 2024年北京市统计局招聘事业单位考试真题
- 2025年“铸牢中华民族共同体意识”应知应会知识竞测试赛题
- 2025年四川宜宾三中高三二模高考数学模拟试卷(含答案)
- 入职培训测试题及答案
- 境外项目合作居间协议书范本
- 网格员矛盾纠纷培训
- 2025年河南经贸职业学院单招职业技能测试题库学生专用
- GB/T 1346-2024水泥标准稠度用水量、凝结时间与安定性检验方法
- 2024年襄阳汽车职业技术学院高职单招职业技能测验历年参考题库(频考版)含答案解析
- 医疗机构性侵防护制度与措施
评论
0/150
提交评论