版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
你不必吃完整一头牛,才知道它的肉是咬不动的。
SamelJohnson第6章抽样与抽样分布第6章抽抽样与与抽样分分布6.1概率抽样样方法6.2三种不同同性质的的分布6.3一个总体体参数推推断时样样本统计计量的抽抽样分布6.4两个总体体参数推推断时样样本统计计量的抽抽样分布学习目标标了解概率率抽样方方法区分总体体分布、、样本分分布、抽抽样分布布理解抽样样分布与与总体分分布的关关系掌握单总总体参数数推断时时样本统统计量的的分布掌握双总总体参数数推断时时样本统统计量的的分布6.1概率抽样样方法6.1..1简单随机机抽样6.1..2分层抽样样6.1..3系统抽样样6.1..4整群抽样样抽样方法法概率抽样样(probabilitysampling)根据一个个已知的的概率来来抽取样样本单位位,也称称随机抽抽样特点按一定的的概率以以随机原原则抽取取样本抽取样本本时使每每个单位位都有一一定的机机会被抽抽中每个单位位被抽中中的概率率是已知知的,或或是可以以计算出出来的当用样本本对总体体目标量量进行估计时,,要考虑虑到每个个样本单位被抽抽中的概概率简单随机机抽样(simplerandomsampling)从总体N个单位(元素)中随机地地抽取n个单位作作为样本本,使得总体中每每一个元元素都有相同同的机会会(概率)被抽中抽取元素素的具体体方法有有重复抽抽样和不不重复抽抽样特点简单、直直观,在在抽样框框完整时时,可直直接从中中抽取样样本用样本统统计量对对目标量量进行估估计比较较方便局限性当N很大时,,不易构构造抽样样框抽出的单单位很分分散,给给实施调调查增加加了困难难没有利用用其他辅辅助信息息以提高高估计的的效率简单随机机样本(simplerandomsample)由简单随随机抽样样形成的的样本从总体N个单位中中随机地地抽取n个单位作作为样本本,使得得每一个容容量为n样本都有相同同的机会会(概率)被抽中参数估计计和假设设检验所所依据的的主要是是简单随随机样本本简单随机机抽样(用Excel对分类数数据随机机抽样)【例】某班级共共有30名学生,,他们的的名单如如右表。。用Excel抽出一个个由5个学生构构成的随随机样本本简单随机机抽样(用Excel对分类数数据随机机抽样)第1步:将30个学生的的名单录录入到Excel工作表中中的一列列第2步:给每个学学生一个个数字代码码,分别为为1,2…,30,并按顺序排列列,将代代码录入入到Excel工作表中中的一列列,与学学生名单相相对应第3步:选择【工具】下拉菜单单,并选选择【数据分析析】选项,然后在【数据分析析】选项中选选择【抽样】第4步:在【抽样】对话框中中的【输入区域域】中输入学学生代码码区域,在在【抽样方法法】中单击【随机】。在【样本数】中输入需需要抽样样的学生生个数。。在【输出区域域】中选择抽样样结果放放置的区区域。【确定】后即得到到要抽取取的样本用Excel对分类数数据抽样样简单随机机抽样(用Excel对数值型型数据随随机抽样样)第1步:将原始数数据录入入到Excel工作表中中的一列列第2步:选择【工具】下拉菜单单,并选选择【数据分析析】选项,,然后在【数据分析析】选项中选选择【抽样】第3步:在【抽样】对话框中中的【输入区域域】中输入原原始数据据区域,在在【抽样方法法】中单击【随机】。在【样本数】中输入需需要抽样样的数据据个数。。在【输出区域域】中选择抽抽样结果果放置的的区域。。【确定】后即得到到要抽取的样样本数据据用Excel对数值型型数据抽抽样分层抽样样(stratifiedsampling)将总体单单位按某某种特征征或某种种规则划划分为不不同的层层,然后后从不同同的层中中独立、、随机地地抽取样样本优点保证样本本的结构构与总体体的结构构比较相相近,从从而提高高估计的的精度组织实施施调查方方便既可以对对总体参参数进行行估计,,也可以以对各层层的目标标量进行行估计系统抽样样(systematicsampling)将总体中中的所有有单位(抽样单位位)按一定顺顺序排列列,在规规定的范范围内随随机地抽抽取一个个单位作作为初始始单位,,然后按按事先规规定好的的规则确确定其他他样本单单位先从数字字1到k之间随机机抽取一一个数字字r作为初始始单位,,以后依依次取r+k,r+2k等单位优点:操操作简便便,可提提高估计计的精度度缺点:对对估计量量方差的的估计比比较困难难整群抽样样(clustersampling)将总体中中若干个个单位合合并为组组(群),抽样时时直接抽抽取群,,然后对对中选群群中的所所有单位位全部实实施调查查特点抽样时只只需群的的抽样框框,可简简化工作作量调查的地地点相对对集中,,节省调调查费用用,方便便调查的的实施缺点是估估计的精精度较差差多阶段抽抽样(multi-stagesampling)先抽取群群,但并并不是调调查群内内的所有有单位,,而是再再进行一一步抽样样,从选选中的群群中抽取取出若干干个单位位进行调调查群是初级级抽样单单位,第第二阶段段抽取的的是最终终抽样单单位。将将该方法法推广,,使抽样样的段数数增多,,就称为为多阶段段抽样具有整群群抽样的的优点,,保证样样本相对对集中,,节约调调查费用用需要包含含所有低低阶段抽抽样单位位的抽样样框;同同时由于于实行了了再抽样样,使调调查单位位在更广广泛的范范围内展展开在大规模模的抽样样调查中中,经常常被采用用的方法法统计量1、统计量量的概念念2、常用统统计量3、次序统统计量4、充分统统计量6.2三种不同同性质的的分布6.2..1总体分布布6.2..2样本分布布6.2..3抽样分布布总体中各各元素的的观察值值所形成成的分布布分布通常常是未知知的可以假定定它服从从某种分分布总体分布布(populationdistribution)总体一个样本本中各观观察值的的分布也称经验验分布当样本容容量n逐渐增大大时,样样本分布布逐渐接接近总体体的分布布样本分布布(sampledistribution)样本样本统计计量的概概率分布布,是一种理理论分布布在重复选选取容量量为n的样本时时,由该该统计量量的所有有可能取取值形成成的相对对频数分分布随机变量量是样本统计计量样本均值值,样本比例例,样本本方差等等结果来自自容量相同同的所有可能样本本提供了样样本统计计量长远远而稳定定的信息息,是进进行推断断的理论论基础,,也是抽抽样推断断科学性性的重要要依据抽样分布布(samplingdistribution)抽样分布布的形成成过程(samplingdistribution)总体计算样本统计量如:样本均值、比例、方差样本三大抽样样分布大家很快快会看到到,有很很多统计计推断是是基于正正态分布布的假设设的,以以标准正正态变量量为基石石而构造造的三个个著名统统计量在在实际中中有广泛泛的应用用,这是是因为这这三个统统计量不不仅有明明确背景景,而且且其抽样样分布的的密度函函数有明明显表达达式,它它们被称称为统计计中的“三大大抽样分分布”。2分布(卡方分布布)定义设X1,X2,…,Xn,独立同分分布于标标准正态分布布N(0,1),则2=X12+…Xn2的分布称称为自由度度为n的2分布,记记为22(n)。当随机变变量22(n)时,对给给定(01),称满足P(212(n))的12(n)是自由度度为n1的卡方分分布的1分位数.分位数12(n)可以从附附表3中查到。。该密度函函数的图图像是一一只取非非负值的的偏态分分布F分布定义设X12(m),X22(n),X1与X2独立,则则称F=(X1/m)/(X2/n)的分布是是自由度度为m与n的F分布,记为FF(m,n),其中m称为分子子自由度度,n称为分母母自由度度。当随机变变量FF(m,n)时,对给给定(01),称满足足P(FF1(m,n))=1的F1(m,n)是自由度度为m与n的F分布的1分位数。。由F分布的构构造知F(n,m)=1/F1(m,n)。该密度函函数的图图象也是是一只取取非负值值的偏态态分布t分布定义设随机变变量X1与X2独立,且X1N(0,1),X22(n),则称t=X1/X2/n的分布为为自由度度为n的t分布,记记为tt(n)。t分布的密密度函数数的图象象是一个个关于纵纵轴对称称的分布布,与标标准正态态分布的的密度函函数形状状类似,只是峰比比标准正正态分布布低一些些尾部的的概率比比标准正正态分布布的大一一些。n1时,t分布的数数学期望望存在且且为0;n2时,t分布的方方差存在在,且为为n/(n2);当自由度度较大(如n30)时,t分布可以以用正态分布布N(0,1)近似。自由度为为1的t分布就是是标准柯西西分布,,它的均值值不存在在;当随机变变量tt(n)时,称满满足P(tt1(n))=1的t1(n)是自由度度为n的t分布的1分位数.分位数t1(n)可以从附附表4中查到。。譬如n=10,=0.05,那么从从附表4上查得t10.05(10))=t0.95(10))=1..812.由于t分布的密度函数数关于0对称,故其分位位数间有有如下关关系t(n1)=t1(n1)一些重要要结论定理设x1,x2,…,xn是来自N(,2)的样本,其其样本均均值和样样本方差差分别为为和x=xi/n
s2=
(xix)2/(n1)(3)((n1)s2/22(n1)。则有(1)x与s2相互独立立;(2)xN(,2/n);推论设x1,x2,…,xn是来自N(1,12)的样本,y1,y2,…,yn是来自N(2,22)的样本,,且此此两样本本相互独独立,则则有特别,若若12=22,则F=sx2/sy2F(m1,n1)推论在推论的的记号下下,设12=22=2,并记则充分统计计量充分性的的概念例为研究某某个运动动员的打打靶命中中率,我我们对该运动动员进行行测试,,观测其其10次,发现现除第三、六次次未命中中外,其其余8次都命中中。这样样的观测结果果包含了了两种信息::(1)打靶10次命中8次;(2)2次不命中中分别出出现在第第3次和第6次打靶上。。第二种信信息对了了解该运运动员的的命中率率是没有有什么帮帮助的。。一般地地,设我我们对该该运动员员进行n次观测,,得到x1,x2,…,xn,每个xj取值非0即1,命中为为1,不命中中为0。令T=x1+…+xn,T为观测到到的命中中次数。。在这种种场合仅仅仅记录录使用T不会丢失失任何与与命中率率有关的信信息,统统计上将将这种“样本加加工不损损失信息息”称为“充分性性”。样本x=(x1,x2,…,xn)有一个样样本分布布F(x),这个分布布包含了了样本中中一切有有关的信息。。统计量T=T(x1,x2,…,xn)也有一个个抽样分分布FT(t),当我们们期望用用统计量量T代替原始始样本并并且不损损失任何何有关的信息时时,也就就是期望望抽样分分布FT(t)像F(x)一样概括括了有关关的一切信信息,这这即是说说在统计计量T的取值为为t的情况下下,样本x的条件分分布F(x|T=t)已不含的信息,,这正是是统计量量具有充充分性的的含义。。定义设x1,x2,…,,xn是来自某某个总体体的样本,,总体分分布函数数为F(x;),统计量T=T(x1,x2,…,,xn)称为的充分统计计量,如果在给给定T的取值后后,x1,x2,…,xn的条件分分布与无关.因子分解解定理充分性原原则:在统计学学中有一一个基本原则则--在充分统统计量存存在的场场合,任任何统计计推断都都可以基于于充分统统计量进进行,这这可以简简化统计计推断的程程序。定理设总体概概率函数数为p(x;),X1,…,,Xn为样本,,则T=T(X1,…Xn)为充分统统计量的的充分必要条件件是:存存在两个函数g(t;)和h(x1,…,,xn),使得对任任意的和任一组组观测值值x1,x2,…,xn,有p(x1,x2,…,xn;)=g(T(x1,x2,…,xn);)h(x1,x2,…,xn)抽样分布布1、统计量量2、样本均均值分布布3、中心极极限定理理6.3样本统计计量的抽抽样分布布(一个总体体参数推推断时)6.3..1样本均值值的抽样样分布6.3..2样本比例例的抽样样分布6.3..3样本方差差的抽样样分布样本均值值的抽样样分布在重复选选取容量量为n的样本时时,由样样本均值值的所有有可能取取值形成成的相对对频数分分布一种理论论概率分分布推断总体体均值的理论基基础样本均值值的抽样样分布样本均值值的抽样样分布(例题分析析)【例】设一个总总体,含有4个元素(个体),即总体体单位数数N=4。4个个体分分别为x1=1,x2=2,x3=3,x4=4。总体的的均值、、方差及及分布如如下总体分布14230.1.2.3均值和方方差样本均值值的抽样样分布(例题分析析)现从总体体中抽取取n=2的简单随随机样本本,在重重复抽样样条件下下,共有有42=16个样本。。所有样样本的结结果为3,43,33,23,132,42,32,22,124,44,34,24,141,441,33211,21,11第二个观察值第一个观察值所有可能的n=2的样本(共16个)样本均值值的抽样样分布(例题分析析)计算出各各样本的的均值,,如下表表。并给给出样本本均值的的抽样分分布3.53.02.52.033.02.52.01.524.03.53.02.542.542.03211.51.01第二个观察值第一个观察值16个样本的均值(x)x样本均值的抽样分布1.000.10.20.3P
(x)1.53.04.03.52.02.5样本均值值的分布布与总体体分布的的比较(例题分析析)=2..5σ2=1.25总体分布布14230.1.2.3抽样分布P(x)1.00.1.2.31.53.04.03.52.02.5x样本均值值的抽样样分布与与中心心极限定定理=50
=10X总体分布n=4抽样分布xn=16当总体服服从正态态分布N(μ,σ2)时,来自自该总体体的所有有容量为为n的样本的的均值x也服从正正态分布布,x的数学期期望为μ,方差为为σ2/n。即x~N(μ,σ2/n)中心极限限定理(centrallimittheorem)当样本容量足够大时(n
30),样本均值的抽样分布逐渐趋于正态分布从均值为为,方差为为2的一个任任意总体体中抽取取容量为为n的样本,,当n充分大时时,样本本均值的的抽样分分布近似似服从均均值为μ,方差为为σ2/n的正态分分布一个任意分布的总体x中心极限限定理(centrallimittheorem)x的分布趋趋于正态态分布的的过程抽样分布布与总体体分布的的关系总体分布布正态分布布非正态分分布大样本小样本样本均值值正态分布布样本均值值正态分布布样本均值值非正态分分布样本均值值的数学学期望样本均值值的方差差重复抽样样不重复抽抽样样本均值值的抽样样分布(数学期望望与方差差)样本均值值的抽样样分布(数学期望望与方差差)比较及结结论:1.样本均值值的均值值(数学期望望)等于总体体均值2.样本均值值的方差差等于总总体方差差的1/n统计量的的标准误误(standarderror))样本统计计量的抽抽样分布布的标准准差,称称为统计计量的标标准误,,也称为为标准误误差标准误衡衡量的是是统计量量的离散散程度,,它测度度了用样样本统计计量估计计总体参参数的精精确程度度以样本均均值的抽抽样分布布为例,,在重复复抽样条条件下,,样本均均值的标标准误为为估计的标标准误(standarderrorofestimation)当计算标标准误时时涉及的的总体参参数未知知时,用用样本统统计量代代替计算算的标准准误,称称为估计计的标准准误以样本均均值的抽抽样分布布为例,,当总体标标准差未知时,,可用样样本标准准差s代替,则则在重复抽抽样条件件下,样本均值值的估计计标准误误为样本比例例的抽样样分布总体(或样本)中具有某某种属性性的单位位与全部部单位总总数之比比不同性别别的人与与全部人人数之比比合格品(或不合格格品)与全部产产品总数数之比总体比例例可表示示为样本比例例可表示示为
比例(proportion)在重复选选取容量量为n的样本时时,由样样本比例例的所有有可能取取值形成成的相对对频数分分布一种理论论概率分分布当样本容容量很大大时,样样本比例例的抽样样分布可可用正态态分布近近似推断总体体比例的理论基基础样本比例例的抽样样分布样本比例例的数学学期望样本比例例的方差差重复抽样样不重复抽抽样样本比例例的抽样样分布(数学期望望与方差差)样本方差差的抽样样分布样本方差差的分布布在重复选选取容量量为n的样本时时,由样样本方差差的所有有可能取取值形成成的相对对频数分分布对于来自自正态总总体的简简单随机机样本,,则比值值的抽样分分布服从从自由度度为(n-1)的2分布,即即由阿贝(Abbe)于1863年首先给给出,后后来由海海尔墨特特(Hermert)和卡·皮尔逊(K·Pearson)分别于1875年和1900年推导出出来设,,则令,,则则Y服从自由由度为1的2分布,即即当总体,,从中中抽取容容量为n的样本,,则2分布(2distribution)分布的变变量值始始终为正正分布的形形状取决决于其自自由度n的大小,,通常为为不对称称的正偏偏分布,,但随着着自由度度的增大大逐渐趋趋于对称称期望为E(2)=n,方差为为D(2)=2n(n为自由度度)可加性::若U和V为两个独独立的服服从2分布的随随机变量量,U~2(n1),V~2(n2),则U+V这一随机机变量服服从自由由度为n1+n2的2分布2分布(性质和特特点)c2分布(图示)
选择容量为n的简单随机样本计算样本方差s2计算卡方值2=(n-1)s2/σ2计算出所有的
2值不同容量样本的抽样分布c2n=1n=4n=10n=20ms总体c2分布(例题的图图示)16个样本方差的分布样本方差s2s2取值的概率0.04/160.56/1624/164.52/16c2分布(用Excel计算c2分布的概概率)利用Excel提供的CHIDIST统计函数数,计算算c2分布右单单尾的概概率值语法为CHIDIST(x,df)),其中df为自由度度,x是随机变变量的取取值给定自由由度和统统计量取取值的右右尾概率率,也可可以利用用“插入入函数””命令来来实现计算自由由度为8,统计量量的取值值大于10的概率用Excel计算c2分布的概概率c2分布(用Excel计算c2分布的临临界值)利用Excel提供的CHIINV统计函数数,计算算分布右右单尾的的概率值值为的临界值值语法为CHIINV((,df)),其中df为自由度度给定自由由度和分分布右尾尾概率为为的临界值值也可以以利用““插入函函数”命命令来实实现计算自由由度为10,右尾概概率为0.1的临界值值用Excel计算c2分布的临临界值c2分布(用Excel生成c2分布的临临界值表表)第一步::将c2分布自由由度df的值输入入到工作作表的A列,将右右尾概率率的取值值输入到到第1行第二步:在B2单元格输输入公式式“=CHIINV(B$$1,$$A2))”然后将其其向下、、向右复复制即可可得到分分布的临界值值表用Excel生成c2分布的临临界值表表c2分布(用Excel绘制c2分布图)第1步:在工作表表的第1列A2:A62输入应一一个等差差数列,,初始值为“0”,步长为为“1”,终值为为“60”第2步:在单元格格B1输入c2分布自由由度(如“15”))第3步:在单元格格B2输入公式式“=CHIDIST(A2,$$B$1)”,并将其其复制到B3:B62区域第4步:在单元格格C2输入公“=B2--B3””,并将其其复制到到C3:C62区域第5步:将A2:A62作为横坐坐标、C2:C62作为纵坐坐标,根根据“图表向导导”绘制制折线图图用Excel绘制c2分布图c2分布(用Excel绘制c2分布图)6.4样本统计计量的抽抽样分布布(两个总体体参数推推断时)6.4..1两个样本本均值之之差的抽抽样分布布6.4..2两个样本本比例之之差的抽抽样分布布6.4..3两个样本本方差比比的抽样样分布两个样本本均值之之差的抽抽样分布布两个总体体都为正正态分布布,即,,两个样本本均值之之差的的抽抽样分布布服从正正态分布布,其分分布的数数学期望望为两个个总体均均值之差差方差为各各自的方方差之和和两个样本本均值之之差的抽抽样分布布两个样本本均值之之差的抽抽样分布布
m1s1总体1s2
m2总体2抽取简单随机样样本容量n1计算x1抽取简单随机样样本容量n2计算x2计算每一对样本的x1-x2所有可能样本的x1-x2m1-m2抽样分布两个样本本比例之之差的抽抽样分布布两个总体体都服从从二项分分布分别从两两个总体体中抽取取容量为为n1和n2的独立样样本,当当两个样样本都为为大样本本时,两两个样本本比例之之差的抽抽样分布布可用正正态分布布来近似似分布的数数学期望望为方差为各各自的方方差之和和两个样本本比例之之差的抽抽样分布布两个样本本方差比比的抽样样分布两个样本本方差比比的抽样样分布两个总体都都为正态态分布,,即X1~N(μ1,σ12),X2~N(μ2,σ22)从两个总体中中分别抽抽取容量量为n1和n2的独立样样本两个样本方方差比的的抽样分分布,服服从分子子自由度度为(n1-1),分母自自由度为为(n2-1)的F分布,即即由统计学学家费希希尔(R.A..Fisher)提出的,,以其姓姓氏的第第一个字字母来命命名设若U为服从自自由度为为n1的2分布,即即U~2(n1),V为服从自自由度为为n2的2分布,即即V~2(n2),且U和V相互独立立,则称F为服从自自由度n1和n2的F分布,记记为F分布(Fdist
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论