第一章 抽样和抽样分布_第1页
第一章 抽样和抽样分布_第2页
第一章 抽样和抽样分布_第3页
第一章 抽样和抽样分布_第4页
第一章 抽样和抽样分布_第5页
已阅读5页,还剩64页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、引言引言 在日常生活中,“统计”一词通常是指收集资料,登记数据,画成图表,进行一些简单的计算。 数理统计包括两个方面内容:一个是抽样方法,试验设计;另一个是统计推断。本书主要讲述统计推断。 数理统计以概率论作为理论基础。概率论中一些基本量(如随机变量的概率分布、数学期望、方差等)怎样用试验值来确定,虽然已有所涉及,但对试验次数应取多大、精确性如何等更深入一步的问题没有进行讨论,这些问题在数理统计中将会得到解决。 1 母体和子样1.1 母体及其分布 所研究对象的全体元素组合的集合,称为母体母体或总体总体。母体中每一个元素称为个体个体。例1 有一批产品共1000个,每个产品可区分为一等、二等、次品

2、。我们要研究这批产品的质量,1000个产品的等级构成一个母体,每个产品的等级是个体。例2 为考察在某种工艺条件下织出的一批布匹的疵点数,共取5000匹布。那么这5000匹布中每匹布疵点数的全体构成一个母体,每匹布的各自疵点数是个体。例3 在检查某军工厂生产的一大批炮弹的质量时,若只考虑炮弹的射程,那么,这批炮弹中每一颗的射程的全部构成一个母体,每颗炮弹的各自射程是个体。 母体中的元素常常不是指元素本身,而是指元素的某种数量指标。在例2中,母体中元素指每匹布的疵点数。在例3中,母体中元素指每颗导弹的射程。在例1中,如果一等品用 “1” 表示,二等品用 “2” 表示,次品用 “0” 表示,母体中元

3、素是指每个产品的等级指标,同样,母体可看成数 “1” 、“2”、“0” 的集合。 母体是一个可重复的(即允许相同)数的集合。 母体母体是指所研究的数量指标可能取的各种不同数值的全体,而各种不同数值含有一定的比率。母体分布母体分布是指数量指标取不同数值比率的分布。 母体的数量指标母体的数量指标用 表示。从母体中随意地取得的一个个体是随机变量,记为X。显然,随机变量X所有可能取得的数值就是可能取的不同值的全体。以例1为例,随机变量X的概率分布列为21310007211000661000 X 1 2 0 P 与取各种不同值的比率相同,即X的概率分布与的母体分布相同。这个结论具有普遍性。 母体分布母体

4、分布指相应随机变量X的概率分布,可用分布列、分布密度、分布函数具体表示出来。 母体分布的数字特征母体分布的数字特征指的是相应随机变量的数字特征。1.2 子样 从母体中取得一部分个体,母体中的这一部分个体称为子样子样或样本样本。取得子样的过程称为抽样抽样。一个子样中每一个个体称为样样品品。子样中个体的个数称为子样容量子样容量。 如在本节例1的母体中抽取一个子样(0,1,1,2,0,2,0,0,1,0),容量为10。 在数理统计中,采用的抽样方法是随机随机抽样法抽样法,即子样中每一个个体(样本)是从母体中被随意地取出来的。随机抽样分重复抽样与非重复抽样二种。以例1为例,如果随机地取一个产品检查后放

5、回,再随机地取一个产品检查后又放回,直至取得10个个体为止,这种方法称为重复重复(或返回返回)抽样抽样。如果每取一个检查后不再放回,直至取得10个个体为止,或者一次抽取10个,这种方法称为非重复非重复(或无返回无返回)抽样抽样。随机抽样得到的子样,所含样品是有一定次序的,通常按它被抽到的先后顺序排列。 从母体X随机抽样得到的子样可以用n维随机变量( , , )表示。 在重复抽样情形,由于每取出一个个体检查后要放回,母体成分不变,所以 , , 是独立同分布的,并且每一个随机变量的分布与母体分布相同。1X2XnX1X2XnX 对于非重复抽样,则分二种情形:在有限母体(即母体中个体总数有限)情形,因

6、每取出一个个体后改变了母体的成分,所以随机变量 , , 不相互独立; 在无限母体(即母体中个体总数是无限的)情形,每取出一个个体后并不改变母体的成分,所以随机变量仍然是独立分布的,并且每一随机变量的概率分布都是母体分布。1X2XnXnN 在实际情况中,我们有时遇到的是有限母体,而采用的是无返回抽样。此时,如果子样容量n相对于母体容量 N (母体中个体总数)很小,实用上要求 0.1,可以把 , , 近似地看成独立同分布,而每个随机变量的分布都是母体分布。1X2XnX2x 如果子样( , , )中各个体独立同分布,且每一随机变量的概率分布是母体分布,则称它为简单随机子样随机子样。 子样( , ,

7、)是n维随机变量,这是对具体进行一次抽样前而言。在抽样后获得它的一组观察值( , , ),称为子样值子样值。nX1X2XnX1X2X1xnx设母体 X 的分布函数是 F(x),则子样( , , )的概率分布函数nX1X2X1212( ,.,)() ()()nnnF x xxF x F xF x在母体离散分布情形,设母体分布列为( )( )()iiP xP Xx, i=1,2, 则子样的概率分布列121122,( ,.),.nnnnP x xxP Xx XxXx12() ()()nP x P xP x在母体连续分布情形,设母体分布密度为f (X),则子样的概率密度1212( ,.,)() ()(

8、)nnnfx xxf xf xf x1.3 1.3 子样分布子样分布 子样分布子样分布刻划子样中数据的分布情况。通常有三种形式:频数分布和频率分布;经验分布函数;直方图。一、子样频数分布和频率分布。一、子样频数分布和频率分布。例例1 从织布车间抽取7匹布,检查每匹的疵点数,得到子样(0,3,2,1,1,0,1)。把7个数从小到大依次排列,相同的数合并,获得下列频数表: X 0 1 2 3 频数 2 3 1 1称它为子样频数分布 而频率是频数除以子样容量。因此,子样的频率分布可以用下表给出: X 0 1 2 3 频率27371717 一般地说,子样值( , , )中数据可以按由小到大依次排列,把

9、相同的数合并,并指出其频数。设子样中不同的数值为 , , ,相应的频数为 , , ,其中 ,且 子样的频数分布子样的频数分布可用下表表示:1x2xnx*1x*2x*ix2mim*1x*2x*ix1iiimn X 频数 *1x*2x*ixim1m2mimim 子样的频率分布子样的频率分布为 X 频率 *1x*2x*iximn1mn2mnimn二、经验分布函数二、经验分布函数 设子样值为 。对任意实数x,子样值中小于或等于x的个数记为m(x),作12( ,.,)nx xx*( )( )nm xFxn则称 为子样的经验分布函数子样的经验分布函数。*( )nFx 经验分布函数与分布函数具有相同的性质:

10、非降性,右连续性,*()0,( )1nnFF 从子样的频数分布容易写出它的经验分布函数表达式:*( )nFx 0,当*1xx ,当*12xxx ,当*23xxx ,1 ,当*lxx1mn12mmn12,kmmmn当*1kkxxx1kl 如果子样为 n 维随机变量,那么对于每一组子样值就可作一个经验分布函数。如此,经验分布函数 是随机量。考察当 时, 的极限。对固定的x,F(x)表示事件 的概率,而 表示 n 次试验事件 发生的频率。*( )nFxn *( )nFxXx*( )nFxXx 由切比雪夫大数定律,对于任意 , 0*lim ( )( )1nnP FxF x即 依概率收敛到F(x)。 *

11、( )nFx格利汶科(格利汶科(W.Glivenko)定理定理 当 时,经验分布函数 关于x均匀地依概率收敛到F(x), 即对任意 ,n *( )nFx0*lim sup( )( )1nnxPFxF x 三、直方图三、直方图 母体的数量指标可分为离散量和连续量二种。 对于数量指标为连续量的母体,它的分布通常可用分布密度表示,相应的子样“密度” 需用直方图表示。例4 在例2中铆钉直径是一个连续量。200个铆钉直径数值,最小是13.13,最大是13.69。现在把它们分成12组,每个组的区间长度取0.05。每个组的区间长度称为组距组距,区间的中点称为组中值组中值。组的频率纵坐标组距画出图象,这种图象

12、称为直方图。直方图。直方图由一些矩形构成,每一矩形的底边是一个组,而高取相应组的纵坐标0.050.300.100.250.150.20 13.12 13.22 13.32 13.42 13.52 13.62 13.17 13.27 13.37 13.47 13.57 13.671.4 子样数字特征子样数字特征一、子样平均数和子样方差一、子样平均数和子样方差 由子样值 可定义 子样平均(数) 子样方差12( ,.,)nx xx11niixxn22221111()nniiiixxxxnns子样k阶原点距 11nkkiinx子样k阶中心距 11()nkikixxnb22221111()(2)nnii

13、iiixxxx xxnns2222211112nniiiixxxxxnn子样方差的算术根 S , 称为子样标准差子样标准差。如果子样随机矢量 ,那么相应的数字特征(随机变量)可用大写字母表示为子样平均(数) 子样方差,1,2,(.)nX XX11niiXXn22221111()nniiiiXXXXnnS子样k阶原点距 子样k阶中心距 11nkkiinAX11()nkikiXXnB设母体 X 的平均数为 ,方差为 。由切比雪夫大数定律,当 时, 依概率收敛于 ,即对任意 ,2n X0lim 1nP X此结果表明 n 很大时可用一次抽样后所得子样平均数 近似于母体平均数 。x二、子样中位数和子样极

14、差二、子样中位数和子样极差 在介绍子样中位数和子样极差之前,先介绍顺序统计量。 从母体中取出一个子样,其数值为 把 n个数由小到大进行排列,依次记为 如果子样 是n维随机变量,怎样把它们由小到大排列呢? 12,.,nx xx(1)(2)( ),.,nxxx 。12(,.,)nXXX子样值1X2X3X4X5X 2.1, 2.4, 1.8, 1.7, 2.3 2.5, 2.1, 1.9, 2.0, 1.8 1.6, 1.9, 1.7, 2.0, 2.1依次重排后(1)X(2)X(3)X(4)X(5)X 1.7, 1.8, 2.1, 2.3, 2.4 1.8, 1.9, 2.0, 2.1, 2.5

15、1.6, 1.7, 1.9, 2.0, 2.1子样中位数子样中位数定义为me =1()2nx ,当n是奇数 ,当n是偶数(1)2nx子样极差子样极差定义为( )(1)11maxminniii ni nrxxxx 即极差是子样中最大的数值与最小的数值之差。 当子样为随机矢量 时,用 表示它的顺序统计量,子样中位数和极差可分别表示为12,.,nXXX(1)(2)( ),.,nXXXMe=1()2nX(1)2nX, n 是奇数, n 是偶数( )(1)11maxminniii ni nRXXXX 一般地说,如果子样 的连续函数 中不出现未知参数,则称 为统计量统计量。12,.,nXXX12(,.,)

16、ng XXX12(,.,)ng XXX 统计量是随机变量,它的概率分布称为抽样分布抽样分布。 在一次抽样后获得子样值 那么 称为统计量的值统计量的值,简称统计值统计值。12,.,nx xx12( ,.,)ng x xx2 一些常用的抽样分布 本节主要介绍三种重要的抽样分布 分布、t分布、F分布,它们在作统计时经常被用到。22.1 正态母体中正态母体中 的分布的分布定理定理1 设 是独立同分布随机变量,且每个随机变量服从正态分布 则平均数 服从正态分 布 。X12,.,nXXX2( ,)N 11niiXXn2( ,)Nn事实上,由于独立正态变量之和 仍为 正态变量,乘上因子 所得到的 也是正态变

17、量。又1niiX1nX1111()nniiiinEXEXEXnnn22221111()nniiiinDXDXDXnnnn所以 服从正态分布X2( ,)Nn2.2 分布分布定理定理2 设 是独立同分布随机变量,而每一个随机变量服从标准正态分布N(0,1) , 则随机变量 的分布密度是212,.,nXXX222212nXXXf(x)=122212( )2nxnxen, x 0 0 , x 0证明证明 当当 n=1, 。 的分布密度是的分布密度是X212X12221)(xex 由于 的数值是非负的,当 y 0 时,它的分布密度f(y)=0 , 又因为函数 在 x0 和 x 0 中分别是单调降和单调增

18、的,所以当y 0 时, 的分布密度22xy 222)(21)(21)(yeyeyfyy212121)21(21yey 设 n=k 时成立,即 的分布密度是222212kXXXf(x)=2122)2(21xkkexk, x 0 0 , x 0n=k+1时, 。由于 的数值是非负的,当 x0时,它的分布密度f(x)=0。当x0时f(x)XXXXkk21222212)( 2xkkxdttxtke012112212)()21()2(2xtxtkkdtetxexk02121212122)()21(21)2(211012112211212/)1 ()21()2(2duuukkkkxxtuxe令)21,2(

19、)21()2(2121212kBkxekkxexxkkk212121)21(21其中 是贝塔函数在 处的值。所以对n=k+1成立。定理证毕。)21,2(kB212和k2 分布密度图象,它随n取不同数值而不同。若对于给定的 ,存在 使 ) 10()(2n)(2)(ndxxf则称 为 分布的上侧分位数。)(2n2 分布具有下列性质:1. 2nDnE2,22niniiiniinDXEXXEE112122niiniinDXXDD121222121)(2422422dxexEXEXDXxiii2132. 设二个 变量 和 相互独立,且 、 分别有自由度 和 ,则 是自由度为 的 变量。 这个性质称为 变

20、量的可加性变量的可加性。2212221221n2n222121nn 222221Z证明证明 令 。由于Z的值是非负的,当 z0时,Z的分布密度 f(z)=0利用求独立随机变量之和分布密度的卷积公式,当z 0时,Z的分布密度F(z)zxznnxnndxexznexn021222212122211)()2(21)2(21xnnnnxdxxzxnne0121221222121)()2()2(2101212212122/212121)1 ()2()2(2duuunnnnnnnnzzxuze令)2,2()2()2(2211221222121nnBnnzennnnzezznnnnnn2122122121)

21、2(21进一步可以得到n个相互独立的 变量之和亦是 变量,它的自由度等于各个 变量相应自由度之和。2223.设随机变量 X 服从自由度为n的 分布,则对任意 x有2dtexnnXPxtn22212lim此性质说明 n 很大时 近似服从标准正态分布,亦即自由度n很大的 分布近似于正态分布 N(n,2n)。nnX22设X服从自由度为n的 分布,由上侧分位数定义,2)(2nXP因而2)(22nnnnnXPnnXY2令 ,Y近似服从标准正态分布N(0,1)。若U服从标准正态分布N(0,1)。对于给定的 ,查附表1可得使的 ,则称此 为标准正态分布的上侧标准正态分布的上侧分位数分位数。uUPuu对Y有uYP比较得所以unnn2)(2unnn2)(2例如,要求 的数值,由 查附表1得

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论