




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第一节第一节 抽样分布抽样分布 第二节第二节 参数估计参数估计 第三节第三节 抽样设计抽样设计 1 样本对总体的代表性,既涉及到样本对总体的代表性,既涉及到, 又涉及到又涉及到。 2运用运用 及数据处理的准确性及数据处理的准确性 3样本对总体的样本对总体的 在收集数据的 过程中控制 选择恰当的方法 通过抽样 设计控制 需要研究的需要研究的对象的全体,称为对象的全体,称为。 具体研究对象,称为一个具体研究对象,称为一个。 从总体中抽出的用以推测总体的从总体中抽出的用以推测总体的对象的集合对象的集合 称为称为。 样本中包含的样本中包含的,称为样本的,称为样本的n n。 一般把容量一般把容量n n
2、30 30的样本称为大样本;的样本称为大样本; 而而n n 3030的样本称为小样本。的样本称为小样本。 一、几个基本概念一、几个基本概念 统计指标统计指标统计量统计量参数参数 平均数平均数 标准差标准差S S 相关系数相关系数r r 回归系数回归系数b b X 参数参数又称为又称为总体参数总体参数,是指描述,是指描述一个总体情况一个总体情况的一些统计指标。的一些统计指标。 统计量统计量又称为又称为样本统计量样本统计量,是用来,是用来描述样本情况描述样本情况的一些统计指标。的一些统计指标。 自由度自由度是在是在推断统计推断统计中经常使用的一个概念,是指中经常使用的一个概念,是指 统计运算与推断
3、中变量值统计运算与推断中变量值独立自由变化的数目独立自由变化的数目,用符号,用符号 dfdf表示。表示。 自由度与统计运算和统计推断中的自由度与统计运算和统计推断中的样本容量及限制样本容量及限制 因素的个数因素的个数有关。如一个有关。如一个n=5n=5的样本,其样本平均数的样本,其样本平均数 =6=6,若前四个数据可随意确定为,若前四个数据可随意确定为3 3,9 9,7 7,6 6,则第五个,则第五个 数据必须为数据必须为5.5.因为受统计因为受统计X=30X=30的限制,所以这里的限制,所以这里df=n-df=n- 1 1,其中的,其中的1 1即表示只有一个限制因素即表示只有一个限制因素X=
4、30X=30。 X 是指某种是指某种的分的分 布,即把某种样本统计量看作一个随机布,即把某种样本统计量看作一个随机 变量,这个随机变量的全部可能值构成变量,这个随机变量的全部可能值构成 的新的的新的总体总体形成的分布即为某种统计量形成的分布即为某种统计量 的的抽样分布抽样分布。 抽样分布是一个理论的概率分布,抽样分布是一个理论的概率分布, 是统计推断的依据是统计推断的依据。 区分三种不同性质的分布: 总体分布:总体内个体数值的频数分布总体分布:总体内个体数值的频数分布 样本分布:样本内个体数值的频数分布样本分布:样本内个体数值的频数分布 抽样分布:某一种统计量的概率分布抽样分布:某一种统计量的
5、概率分布 x 抽样分布的使用条件:抽样分布的使用条件:各个样本是各个样本是独立独立的,各个样本的,各个样本 都服从都服从同样的分布同样的分布。取样方法采用随机抽样的方法。取样方法采用随机抽样的方法 (详见本章第三节)(详见本章第三节) 对于抽样分布,也有描述其分布特征的统计指标:对于抽样分布,也有描述其分布特征的统计指标: 抽样分布的平均数抽样分布的平均数 :描述抽样分布的集中趋势:描述抽样分布的集中趋势 抽样抽样 分布的标准差(标准误)分布的标准差(标准误)SE:描述抽样分布的离:描述抽样分布的离 散程度散程度 平均抽样分布的标准误平均抽样分布的标准误 x SE 从总体中随机抽出容量为从总体
6、中随机抽出容量为n n的一切可能的一切可能 样本的平均数之平均数等于总体的平均数。样本的平均数之平均数等于总体的平均数。 x 容量为容量为n n的平均数在抽样分布上的标准差(即的平均数在抽样分布上的标准差(即 平均数的标准误),等于总体标准差除以平均数的标准误),等于总体标准差除以n n的平方根。的平方根。 n SE X 从正态总体中,随机抽从正态总体中,随机抽 取的容量为取的容量为n n的一切可能样本平的一切可能样本平 均数的分布也呈正态分布。均数的分布也呈正态分布。 虽然总体不呈正态分布,虽然总体不呈正态分布, 如果样本容量较大,反映总体如果样本容量较大,反映总体 和和的样本平均数的抽样分
7、布,的样本平均数的抽样分布, 也接近于正态分布。也接近于正态分布。 某种统计量在抽样分布上的标准差,称某种统计量在抽样分布上的标准差,称 为标准误。为标准误。用来衡量用来衡量。标准。标准 误越小,表明样本统计量与总体参数的值越误越小,表明样本统计量与总体参数的值越 接近,样本对总体越有代表性,用样本统计接近,样本对总体越有代表性,用样本统计 量推断总体参数的可靠度越大。因此,标准量推断总体参数的可靠度越大。因此,标准 误是统计推断误是统计推断的指标。的指标。 (1 1)总体分布为正态,总体方差2已知,不 管样本容量n大小,样本平均数的抽样分布为正 态分布,样本平均数抽样分布的标准误为:平均数抽
8、样分布的标准误为: n SE X (7.1a) 1正态分布及渐近正态分布正态分布及渐近正态分布 (2 2)总体分布为正态,总体方差2未知只要样本容 量n3030,样本平均数的分布近似正态分布,可用样本标 准差Sn代替总体标准差,其标准误为:标准误为: n S SE n X (7.1b) 1 1、正态分布及渐近正态分布、正态分布及渐近正态分布 (3)(3) 总体正态,总体正态,总体方差2已知,样本容量足够大(,样本容量足够大(n 3030 ),则),则样本平均数的分布为渐近正态分布,抽样分抽样分 布的标准误仍为布的标准误仍为 n SE X 渐近正态分布指接近正态分布,其接近程度与样本 容量n及总
9、体偏斜程度有关,n 越大,接近越好, 或总体偏斜程度越小,接近程度越好。总体偏斜较 大时,n很大,平均数的抽样分布才接近正态分布。 由样本的平均数对总体由样本的平均数对总体 平均数进行估计,首先要了平均数进行估计,首先要了 解平均数离差统计量的分布,解平均数离差统计量的分布, 才能根据一定的概率,由样才能根据一定的概率,由样 本的平均数对总体的平均数本的平均数对总体的平均数 做出估计。做出估计。 n X SE X Z X (72) t t分布是统计分析中应用较多的一种抽样分分布是统计分析中应用较多的一种抽样分 布。最早使用布。最早使用t t分布的是统计学家高赛特分布的是统计学家高赛特 (W.S
10、.Gossett)W.S.Gossett),于,于19081908年在其论文中阐明年在其论文中阐明 了正态分布不适用于了正态分布不适用于小样本小样本中平均数与标准误中平均数与标准误 的比率关系,提出了的比率关系,提出了t t分布,成为数理统计发分布,成为数理统计发 展史上的一个里程碑。展史上的一个里程碑。 总体分布为正态,总体方差2 2未知只要样本 容量n n3030,以样本方差 作为总体方差2 2 的估计值,这时这时平均数的抽样的分布标准误为 1 n S SE X 查查t t分布表时,需根据自由度及相应的分布表时,需根据自由度及相应的 显著性水平,并要注意是单侧数据还是双侧。显著性水平,并要
11、注意是单侧数据还是双侧。 2 1n S n S SE n X 1 或或 (7.37.3) 样本平均数与总体平均数离差的样本平均数与总体平均数离差的 统计量用统计量用t t值来表示值来表示 X SE X t (74) 高赛特发现,当高赛特发现,当n时,时,t 值即服从正态分值即服从正态分 布;布; 当当n30时,时,t值接近正态分布;当值接近正态分布;当n 30时,时,t值服从值服从t分布。分布。 形状与正态分布曲线相似形状与正态分布曲线相似(左右对称,随样本容量(左右对称,随样本容量 的变化而变化)。的变化而变化)。相同之处:取值范围为相同之处:取值范围为-到到 +; 平均数为平均数为0 0,
12、且以平均数处为最高峰向两侧逐渐下降,且以平均数处为最高峰向两侧逐渐下降; 尾部无限延伸,以横轴为渐近线尾部无限延伸,以横轴为渐近线;呈单峰对称形呈单峰对称形。不不 同之处:同之处:t t分布曲线随自由度分布曲线随自由度dfdf的不同而构成一簇曲线,的不同而构成一簇曲线, dfdf越小,越小,t t分布曲线尾部翘得越高,曲线的扩展程度越分布曲线尾部翘得越高,曲线的扩展程度越 大大;随着样本容量的逐渐增大,随着样本容量的逐渐增大,t t分布逐渐与正态分布分布逐渐与正态分布 接近,当接近,当nn时,时,t t分布于正态分布重合分布于正态分布重合。 查查t t分布表时,需根据自由度及相应的显著分布表时
13、,需根据自由度及相应的显著 性水平,并要注意是单侧数据还是双侧。性水平,并要注意是单侧数据还是双侧。 (3 3)t t分布表分布表 t t分布表是由分布表是由t t分布函数分布函数计算得到的,它给出计算得到的,它给出 了不同自由度时某校概率下的了不同自由度时某校概率下的t t值。书值。书P246P246 附表附表2 2给出的是常用的给出的是常用的t t分布表。分布表。 根据样本统计量对根据样本统计量对相应总体参数相应总体参数所作的估所作的估 计叫作计叫作总体参数估计总体参数估计。 总体参数估计分为总体参数估计分为点估计点估计和和区间估计区间估计。 由由样本的标准差样本的标准差估计估计总体的标准
14、差总体的标准差即为即为点点 估计估计;而由;而由样本的平均数样本的平均数估计估计总体平均数的总体平均数的 取值范围取值范围则为区间估计。则为区间估计。 如果一切可能个样本统计量的值与总体参数值如果一切可能个样本统计量的值与总体参数值 偏差的平均值为偏差的平均值为0 0,这种统计量就是总体参数的无偏,这种统计量就是总体参数的无偏 估计量。估计量。 (一)点估计(一)点估计 由于点估计是仅以一个样本统计量的确定值来感觉由于点估计是仅以一个样本统计量的确定值来感觉 总体参数,所以总会出现一定的偏差。总体参数,所以总会出现一定的偏差。 点估计量的评价标准点估计量的评价标准 一个容量为一个容量为n的样本
15、统计量的样本统计量,应能充分地反映全部应能充分地反映全部n个个 数据所反映的总体的信息。数据所反映的总体的信息。 当样本容量无限增大时,估计量的值能越来越接近它当样本容量无限增大时,估计量的值能越来越接近它 所估计的总体参数值,这种估计是总体参数一致性估所估计的总体参数值,这种估计是总体参数一致性估 计量。计量。 以样本统计量的抽样分布(概率分布)以样本统计量的抽样分布(概率分布) 为理论依据,按一定概率的要求,由样本统为理论依据,按一定概率的要求,由样本统 计量的值估计总体参数值的所在范围,称为计量的值估计总体参数值的所在范围,称为 总体参数的总体参数的。 对总体参数值进行区间估计,就是要在
16、对总体参数值进行区间估计,就是要在 一定可靠度上求出总体参数的一定可靠度上求出总体参数的的上的上 下限。下限。 要知道与所要估计的参数相对应的样本要知道与所要估计的参数相对应的样本 的值,以及样本统计量的理论分布;的值,以及样本统计量的理论分布; 要求出该种统计量的要求出该种统计量的; 要确定在多大的要确定在多大的上对总体参数作估上对总体参数作估 计,再通过某种理论概率分布表,找出与某种可计,再通过某种理论概率分布表,找出与某种可 靠度相对应的该分布横轴上记分的靠度相对应的该分布横轴上记分的,才能,才能 计算出总体参数的计算出总体参数的的上下限。的上下限。 ,也称置信间距(,也称置信间距(co
17、nfidence interval,CI)是指在某一置信度时,总体参数所)是指在某一置信度时,总体参数所 在的区域距离或区域长度。在的区域距离或区域长度。 置信度,即置信度,即,是估计总体参数落在某是估计总体参数落在某 一区间的可能性或概率。一区间的可能性或概率。 置信区间是带有置信概率的取值区间,其界置信区间是带有置信概率的取值区间,其界 限为限为置信界限。置信界限。 x x x 对总体平均数进行区间估计时,置信概率对总体平均数进行区间估计时,置信概率 表示做出正确推断的可能性,但这种估计还是表示做出正确推断的可能性,但这种估计还是 会有犯错误的可能。显著性水平会有犯错误的可能。显著性水平
18、( (significance levelsignificance level) )就是指估计总体参数落就是指估计总体参数落 在某一区间时,可能犯错误的概率,用符号在某一区间时,可能犯错误的概率,用符号 表示。表示。 P P- - 区间估计可以解决区间估计可以解决总体参数的范围大小总体参数的范围大小和和正确估计正确估计 的概率的概率这两个问题这两个问题 在教育统计中在教育统计中 通常把置信度定为通常把置信度定为0.95或或0.99. 区间估计是根据抽样分布的理论,用抽样分布的区间估计是根据抽样分布的理论,用抽样分布的标准标准 误误SE计算计算区间长度区间长度,并,并解释总体参数落入某一区间的解
19、释总体参数落入某一区间的 概率概率。 在正确估计的在正确估计的概率即置信度不变概率即置信度不变的条件下,的条件下,标准误标准误 越小,置信区间的长度越小越小,置信区间的长度越小。一般情况下,使。一般情况下,使标准标准 误变小的方法是加大一般容量误变小的方法是加大一般容量。 通过样本的平均数估计总体的平均数通过样本的平均数估计总体的平均数, ,首先首先 假定该样本是随机取自一个正态分布的母总体假定该样本是随机取自一个正态分布的母总体 ( (或非正态总体中的或非正态总体中的n n3030的样本的样本) ),而计算出来,而计算出来 的实际平均数是无数容量为的实际平均数是无数容量为n n的样本平均数中
20、的的样本平均数中的 一个。一个。 根据样本平均数的分布理论,可以对总体平根据样本平均数的分布理论,可以对总体平 均数进行估计,并以概率说明其正确的可能性。均数进行估计,并以概率说明其正确的可能性。 总体参数总体参数符号表示符号表示样本统计量样本统计量 均值均值 比率比率 方差方差 2 x p 2 s 已知一个已知一个样本平均数样本平均数( ),而),而不知总体平均数不知总体平均数 时,可视总体平均数在这个样本平均数的附近波动,时,可视总体平均数在这个样本平均数的附近波动, 并根据一定的概率要求,利用并根据一定的概率要求,利用样本平均数来推知总样本平均数来推知总 体平均数的区间体平均数的区间,即
21、,即 X 6826. 0)11( XX SEXSEXP 95. 0)96. 196. 1( XX SEXSEXP 99. 0)58. 258. 2( XX SEXSEXP (7.5)(7.5) (7.6)(7.6) (7.7)(7.7) (1 1)根据实得样本的数据,计算样本统计量;)根据实得样本的数据,计算样本统计量; (2 2)计算抽样分布的标准误)计算抽样分布的标准误SESE; (3 3)根据置信度要求及抽样分布形态确定并查出统计)根据置信度要求及抽样分布形态确定并查出统计 表值;表值; (4 4)计算置信区间;)计算置信区间; (5 5)解释总体参数的置信区间。)解释总体参数的置信区间
22、。 3 3、区间估计的一般步骤、区间估计的一般步骤 n SEX XX SEXSEX96. 196. 1 (7. 9) 总体方差总体方差2已知,对总体平均数的估计已知,对总体平均数的估计 样本平均数样本平均数 的抽样分布为正态分布,平均数的抽样分布皆为正态的抽样分布为正态分布,平均数的抽样分布皆为正态 分布,标准误为分布,标准误为 ,置信区间为,置信区间为 置信度为置信度为0.950.95,显著性水平为,显著性水平为0.050.05时,时, 置信度为置信度为0.99,显著性水平为,显著性水平为0.01时,时, XX SEXSEX58. 258. 2 (78) 例例1从某正态分布中随机抽取从某正态
23、分布中随机抽取n1=10和和n2= 35的两个样的两个样 本,分别求得其平均数本,分别求得其平均数 , ,已知总,已知总 体标准差体标准差= 7.02,试估计总体平均数,试估计总体平均数 在在0.950.95和和0.990.99 置信度下的置信区间置信度下的置信区间。 761X 782 X 解:此题总体为正态分布,总体方差解:此题总体为正态分布,总体方差2 2 = 7.02 = 7.022 2,故,故 应用正态分布理论进行估计应用正态分布理论进行估计 22. 0 1 1 n SE X 19. 1 2 2 n SE X 用用n1 = 10的样本估计总体平均数的样本估计总体平均数. 0.95的置信
24、区间为的置信区间为 22. 296. 17622.296. 176 35.8065.71 0.99的置信区间为的置信区间为 22. 258. 27622.258. 276 73.8127.70 即总体平均数即总体平均数 在在71.6571.6580.35之间的可能性为之间的可能性为95, 犯错误的概率为犯错误的概率为5;总体平均数;总体平均数在在70.2781.73之间之间 的可能性为的可能性为99,犯错误的概率为,犯错误的概率为1. 同理,根据同理,根据n2= 35的样本对总体平均数的样本对总体平均数 0.95的置信区间为的置信区间为 33.8067.75 0.99的置信区间为的置信区间为
25、07.8193.74 有多个样本可用来估计同一总体时,一般用有多个样本可用来估计同一总体时,一般用 容量大的样本。在条件允许的情况下,用较容量大的样本。在条件允许的情况下,用较 大样本的统计量估计总体参数更具优越性大样本的统计量估计总体参数更具优越性 2、 当总体非正态分布是,只有样本容量当总体非正态分布是,只有样本容量n30 ,才,才 能根据样本平均数对样本平均数能根据样本平均数对样本平均数 进行估计。此时,进行估计。此时, 平均数平均数的抽样分布为的抽样分布为渐近正态分布渐近正态分布,总体平均数的根,总体平均数的根 据可按正态分布理论处理。据可按正态分布理论处理。 例例2从某年级随机抽取从
26、某年级随机抽取50人,某学科测验的平均成绩人,某学科测验的平均成绩 为为 80分,已知该学科历年测验成绩的标准差为分,已知该学科历年测验成绩的标准差为5.6分,分, 试估计该年级该学科的平均成绩的试估计该年级该学科的平均成绩的0.950.95和和0.990.99置信度置信度 下的置信区间下的置信区间。 解:此题总体为正态分布,总体方差解:此题总体为正态分布,总体方差2 2 已知,故按 已知,故按 正态分布进行总体平均数的估计。计算标准误正态分布进行总体平均数的估计。计算标准误 79. 0 n SE X 0.95的置信区间为的置信区间为 0.99的置信区间为的置信区间为 55.8145.78 0
27、4.8296.77 即该年级该学科的平均成绩即该年级该学科的平均成绩在在78.4578.4581.55之间的可之间的可 能性为能性为95,平均成绩在,平均成绩在77.9682.04之间的可能性为之间的可能性为 99。 总体方差总体方差2未知,对总体平均数的估计未知,对总体平均数的估计 n30, (大样本)(大样本)样样 本平均数的抽样分布近似正态分布,用样本标准差替本平均数的抽样分布近似正态分布,用样本标准差替 代总体标准差:代总体标准差: ,总体平均数的估计可按正态,总体平均数的估计可按正态 分布理论处理。当分布理论处理。当n30时,样本平均数的抽样分布呈时,样本平均数的抽样分布呈 t分布,
28、标准误分布,标准误 n SEX n S n S SE nn X 1 1 当平均数的抽样分布为当平均数的抽样分布为t分布时,对总体平均分布时,对总体平均 数的估计原理与正态分布的情况相似,但对数的估计原理与正态分布的情况相似,但对 总体平均数总体平均数 进行估计时,依据进行估计时,依据不同显著性不同显著性 水平和自由度水平和自由度,要查,要查t t值表确定值表确定临界值临界值t t /2 /2 。 。 当显著性水平为当显著性水平为(置信度为(置信度为1 1 )时,总体平)时,总体平 均数的置信区间为均数的置信区间为 XX SEtXSEtX 22 例例3 某小学三年级数学测验成绩呈正态分布,从中随
29、某小学三年级数学测验成绩呈正态分布,从中随 机抽取机抽取19名学生的成绩如下:名学生的成绩如下:80,69,82,75,92, 99,67,78,83,100,82,75,69,83,78,88, 95,82,74,试估计三年级数学测验平均成绩的,试估计三年级数学测验平均成绩的0.950.95 和和0.990.99的置信区间的置信区间。 解:该总体为正态分布,总体方差解:该总体为正态分布,总体方差2 2 未知, 未知,n=19,n=19,则则 平均数的抽样分布为平均数的抽样分布为t t分布。根据样本数据,算分布。根据样本数据,算 得得 ,Sn=9.40Sn=9.40计算标准误计算标准误 63.
30、81X 22. 2 1 n S SE n X 当当df=n-1=18,=0.05=0.05时,查时,查t t值表,得值表,得 t t0.05/2 0.05/2=2.101; =2.101;=0.01shi2, t=0.01shi2, t0.01/2 0.01/2=2.878. =2.878. 对总体平均数对总体平均数 的估计如下。的估计如下。 0.95的置信区间为的置信区间为 0.99的置信区间为的置信区间为 22. 2101. 263.8122.2101. 263.81 22. 258. 263.8122.258. 263.81 29.8696.76 02.8824.75 即三年级数学测验的
31、平均成绩即三年级数学测验的平均成绩在在76.9676.9686.29之间的之间的 可能性为可能性为95,平均成绩在,平均成绩在75.2488.02之间的可能性之间的可能性 为为99。 n30,(大样本),(大样本)才能才能 用样本平均数理论来估计总体平均数,由于此时样本用样本平均数理论来估计总体平均数,由于此时样本 平均数的抽样分布近似正态分布,所以可以用正分布平均数的抽样分布近似正态分布,所以可以用正分布 理论估计总体参数。理论估计总体参数。 参数估计,参数估计, 即不能根据样本分布对即不能根据样本分布对 总体平均数进行估计总体平均数进行估计。 p n k p (一)比率的抽样分布(一)比率
32、的抽样分布 设有一个二项分布的总体,其中具有某种性质的事件(称设有一个二项分布的总体,其中具有某种性质的事件(称成功成功 事件事件)出现的概率为)出现的概率为p,不具有这种性质的事件(称,不具有这种性质的事件(称失败事件失败事件) 出现的概率为出现的概率为q=1-p。从中抽取一个样本容量为。从中抽取一个样本容量为n的样本,即进的样本,即进 行行n次重复,记录成功事件出现的次数为次重复,记录成功事件出现的次数为k,则成功事件出现的,则成功事件出现的 比率为比率为 。这样重复做下去,就可能得到无穷多个。这样重复做下去,就可能得到无穷多个 , 所有这些所有这些 值组成的频数分布就形成了值组成的频数分
33、布就形成了比率的抽样分布比率的抽样分布。比率。比率 的抽样分布是的抽样分布是二项分布二项分布,二项分布是进行总体比率估计的理论,二项分布是进行总体比率估计的理论 依据。依据。 p qp5 qn qp 当 时,无论n的大小,二项分布呈对称形;当 (或 )且 (或 )时,二项 分布接近正态分布。 5 pn qp 比率的抽样分布的标准差也称为标准误,记作SEP 当总体比率p0、q0已知时,比率的标准误为 n qp SEP 00 (7 . 11) 当总体比率p0、q0未知时,可用样本比率 、 代替总体比率p0、q0,则标准误为 p q n qp SEP (7 . 12) (二)总体比率的区间估计(二)
34、总体比率的区间估计 根据一定的概率要求根据一定的概率要求估计总体比率的所在范围估计总体比率的所在范围,称为,称为 总体比率的区间估计。总体比率的区间估计。 1、正态近似法、正态近似法 当 或 中最小的频数大于等于5时,二项分布 接近正态分布 ,则其总体比率的置信区间如下: p n q n n qp pP n qp p 96. 1 96. 1 n qp pP n qp p 58. 2 58. 2 P的的0.95 的置信区间为的置信区间为 P的的0.99 的置信区间为的置信区间为 (7 . 13) (7 . 14) 例4 从某区随机抽取100名中学生,查得视力 正常的人数为68人,估计全区中学生视
35、力正常 的比例在0.95和0.99的置信区间。 解:由题意可知解:由题意可知,样本容量,样本容量n=100, =0.68n=100, =0.68 p 32. 01pq 因为因为 ,且,且 ,则二项分布接近正态分,则二项分布接近正态分 布,故可用正态分布近似处理。则布,故可用正态分布近似处理。则 pq 532qn %66. 40466. 0 n qp SEP 总体比率总体比率P的的0.95 的置信区间为的置信区间为 0466. 096. 168. 00466. 096. 168. 0 7713. 05887. 0 总体比率总体比率P的的0.99的置信区间为的置信区间为 0466. 058. 26
36、8. 00466. 058. 268. 0 8002. 05598. 0 即该区中学生视力正常的比例有即该区中学生视力正常的比例有95%的可能在的可能在 58.87%77.13%,有,有99%的可能在的可能在55.98%80.02%。 2、查表法、查表法 附表附表11为二项分布的为二项分布的置信界限置信界限。只要知道。只要知道 试验的次试验的次 数数n和二项分布成功事件出现的绝对频数和二项分布成功事件出现的绝对频数k,就可查,就可查 此表得出总体比率在此表得出总体比率在0.95和和0.99的置信界限。当的置信界限。当n较较 小小,p 接近接近0或或1,二项分布不接近正态分布时,就要,二项分布不
37、接近正态分布时,就要 用此表解决总体比率的置信区间。用此表解决总体比率的置信区间。 例例5 从某中学随机抽取从某中学随机抽取30人,其中英语成人,其中英语成 绩不及格的绩不及格的6人,试估计该中学英语成绩不人,试估计该中学英语成绩不 及格的百分比的置信区间。及格的百分比的置信区间。 解:由解:由n=30, k=6n=30, k=6,查附表,查附表1111,可得,可得 0.950.95的置信下限为的置信下限为8%8%,置信上限为,置信上限为39%39% 0.99的置信下限为的置信下限为6%,置信上限为,置信上限为44% 即中学英语成绩不及格率有即中学英语成绩不及格率有95%的可能在的可能在8%3
38、9%, 有有99%的可能在的可能在6%44%。 1 1抽样设计的意义抽样设计的意义 使研究节省人力及费用;使研究节省人力及费用; 使研究节省时间,提高时效性;使研究节省时间,提高时效性; 保证研究结果的准确性。保证研究结果的准确性。 抽样设计的要求是样本对研究总体有良好抽样设计的要求是样本对研究总体有良好 的的,即样本的构成与总体保持一致。为,即样本的构成与总体保持一致。为 了 保 证 这 一 点 , 抽 样 时 必 须 遵 循了 保 证 这 一 点 , 抽 样 时 必 须 遵 循 (randomizationrandomization)的基本原则。)的基本原则。 所谓随机化原则,是指在抽样时
39、,样本中所谓随机化原则,是指在抽样时,样本中 的每一个体都是按照随机的原理被抽取的,总的每一个体都是按照随机的原理被抽取的,总 体中每一个体被抽到的可能性是相等的。体中每一个体被抽到的可能性是相等的。 (一)(一)简单随机抽样( (simple random sampling) 如果从包含如果从包含N N个个体的总体中抽取样本容量为个个体的总体中抽取样本容量为n n的样本,要的样本,要 求总体中每个个体被抽取的机会均等,而且每个个体的被选与其求总体中每个个体被抽取的机会均等,而且每个个体的被选与其 他个体之间无任何牵连,这样的抽样方法称为简单随机抽样。他个体之间无任何牵连,这样的抽样方法称为简
40、单随机抽样。 (按照随机原则直接从总体中抽取出若干个单位作为样本按照随机原则直接从总体中抽取出若干个单位作为样本。)。) 简单随机抽样法能保证总体中的每一个对象都有同等的被简单随机抽样法能保证总体中的每一个对象都有同等的被 抽取到的可能性,并且个体之间都相互独立。这是在总体异质性抽取到的可能性,并且个体之间都相互独立。这是在总体异质性 不是很大而且所抽取的样本较小时经常采用的一种形式。不是很大而且所抽取的样本较小时经常采用的一种形式。 简单随机抽样法的局限是:简单随机抽样法的局限是:当样本规当样本规 模小时,样本的代表性较差模小时,样本的代表性较差。 简单随机取样有两种基本方式: 抽签法(dr
41、awing lots) 随机数字表法(random number table) 机械抽样也称为机械抽样也称为等距抽样等距抽样或或系统抽样系统抽样。这种方。这种方 法是将总体中法是将总体中所有个体按一定顺序编号所有个体按一定顺序编号,然后依,然后依固固 定的间距取样定的间距取样(间距的大小视所需样本容量与总体(间距的大小视所需样本容量与总体 中个体数目的比率而定)。中个体数目的比率而定)。 等距抽样可以保证样本的成分与总体一致,但等距抽样可以保证样本的成分与总体一致,但 随机性不如单纯随机抽样法。应用中可将两种方法随机性不如单纯随机抽样法。应用中可将两种方法 结合使用。结合使用。 分层抽样也称分
42、类或类型抽样,它是按分层抽样也称分类或类型抽样,它是按与研与研 究内容有关的因素或指标究内容有关的因素或指标,先将总体划分成,先将总体划分成几部几部 分(即几个层),分(即几个层),然后从各部分中进行然后从各部分中进行简单随机简单随机 抽样或机械抽样抽样或机械抽样。是进行。是进行大规模研究大规模研究时常常使用时常常使用 的抽样方法。的抽样方法。 先将总体按照一定标准分先将总体按照一定标准分 为若干类型(统计上称为层),再根据各层对象为若干类型(统计上称为层),再根据各层对象 的数量在总体数量中所占的比例,确定从每一种的数量在总体数量中所占的比例,确定从每一种 类型(层)中抽取样本的数量,然后按
43、随机原则类型(层)中抽取样本的数量,然后按随机原则 和所确定的各层取样的数量,从各层中取样。和所确定的各层取样的数量,从各层中取样。 分类的标准要科学,要符合实际情况。分类的标准要科学,要符合实际情况。 各层内部的差别要尽可能小,而层与层之间的差各层内部的差别要尽可能小,而层与层之间的差 异则越大越好。异则越大越好。 分层抽样中最常用的方法是分层抽样中最常用的方法是分层按比例抽样分层按比例抽样,即,即 对总体分层后,要根据样本容量对总体分层后,要根据样本容量n 与总体中个体数与总体中个体数 目目N之间的比率,在各层中按简单随机抽样的方法之间的比率,在各层中按简单随机抽样的方法 抽取相应比率的个
44、体。抽取相应比率的个体。 N N nn i i 公式中,公式中,ni为第为第i i层中被抽取的个体数量层中被抽取的个体数量 n为整个研究样本中个体的总数量为整个研究样本中个体的总数量 Ni i为第为第i i层中对象的数量层中对象的数量 N为总体内个体的数量为总体内个体的数量 公式中,公式中,ni i表示从某一层所抽个体数表示从某一层所抽个体数 n表示样本容量表示样本容量 Ni i表示某层个体总数表示某层个体总数 i i表示某层标准差表示某层标准差 ii ii i N N nn 当各个当各个没有现成资料可以应用时,可没有现成资料可以应用时,可 以先从该层抽一个小样本,由这一小样本以先从该层抽一个
45、小样本,由这一小样本 计算出的样本标准差计算出的样本标准差S对对进行估计。进行估计。 ii ii i SN SN nn 整群随机抽样是先将整群随机抽样是先将 总体各单位按一定的标准总体各单位按一定的标准 分成许多群(小组),然分成许多群(小组),然 后按随机原则从这些群中后按随机原则从这些群中 抽取若干群作为样本。抽取若干群作为样本。 整群随机取样法的整群随机取样法的是样本比较集中,是样本比较集中, 适宜于某些特定的研究,尤其是在教育实验适宜于某些特定的研究,尤其是在教育实验 中常用此法。此外,在中常用此法。此外,在规模较大的调查研究规模较大的调查研究 中,整群随机取样易于组织,可节省人力、中
46、,整群随机取样易于组织,可节省人力、 物力和时间。物力和时间。 整群随机抽样法的整群随机抽样法的是样本分布不均匀,是样本分布不均匀, 代表性较差。代表性较差。 当总体容量很大时,直接以总体中的当总体容量很大时,直接以总体中的 所有个体为对象,从中进行抽样,在实际所有个体为对象,从中进行抽样,在实际 调查或研究中存在很大困难。调查或研究中存在很大困难。 采用分阶段的抽样方法,可以缩小实采用分阶段的抽样方法,可以缩小实 际抽样的范围,使实际抽样工作能够按研际抽样的范围,使实际抽样工作能够按研 究设计的要求顺利进行。究设计的要求顺利进行。 两阶段随机抽样(两阶段随机抽样(two-stages ran
47、dom two-stages random samplingsampling)的一般过程是:先将总体分成)的一般过程是:先将总体分成 个部分;个部分; 从这从这个部分中随机抽取个部分中随机抽取m个个 部分作为第一阶段样本部分作为第一阶段样本; 是分别从这是分别从这m个部分中抽取一个部分中抽取一 定数量(定数量(ni i)的个体构成第二阶段样本。)的个体构成第二阶段样本。 在应用中应根据研究所要求的精确度及经费在应用中应根据研究所要求的精确度及经费 情况确定样本容量。如果样本容量情况确定样本容量。如果样本容量过小过小,会影响,会影响 样本对总体的代表性,增大抽样误差而降低研究样本对总体的代表性,
48、增大抽样误差而降低研究 推论的精确性;样本容量推论的精确性;样本容量过大过大,虽然减小了抽样,虽然减小了抽样 误差,但可能增大误差,但可能增大过失误差过失误差,并且增加不必要的,并且增加不必要的 人力物力资源的浪费。人力物力资源的浪费。 样本容量与抽样误差并样本容量与抽样误差并不是不是 直线关系直线关系。 确定容量的确定容量的基本原则基本原则是:在是:在 尽量节省人力、经费和时间的尽量节省人力、经费和时间的 条件下,确保用样本推断总体条件下,确保用样本推断总体 达到预定的可行度及准确性。达到预定的可行度及准确性。 n X Z 2 2 2 Z n 其中,最大允许误差为其中,最大允许误差为 ,可信
49、度为,可信度为1。 X 由由有有 (7. 15) 可以看到,当可以看到,当确定之后,确定之后,总体标准差总体标准差和和 最大允许误差最大允许误差是决定样本容量的两个因素。是决定样本容量的两个因素。 要对某市中考数学成绩的总体平要对某市中考数学成绩的总体平 均分数进行估计,据历次中考成绩记录,中考数学成均分数进行估计,据历次中考成绩记录,中考数学成 绩的标准差为绩的标准差为1010分。要使这次的估计误差不超过分。要使这次的估计误差不超过2分,分, 且具有且具有95%的的可靠成度,则至少要抽取多少名学生的可靠成度,则至少要抽取多少名学生的 数学成绩?数学成绩? 解:由题意,已知解:由题意,已知=1
50、0=10分,分,=2=2分,分,=0.05=0.05 当当=0.05时,相应的双侧临界值为时,相应的双侧临界值为Z0.05/2=1.96,故故 04.96) 2 1096. 1 ( 2 2 2 Z n 即至少应抽取即至少应抽取96人。人。 由 n S X t 2 2 2 n St n 有 当样本容量当样本容量n n 未确定时,未确定时,t t 值无法确定,值无法确定, 因此一般采用尝试法(试差的方法)。因此一般采用尝试法(试差的方法)。 (716) . .将将df的的 t 值代入公式求出值代入公式求出n1 1, . .将将n1 1 的的 t 值代入公式求出值代入公式求出n2 2, . .直至前后两次求出的直至前后两次求出的n 相同为止。相同为止。 . .设设df,查表得,查表得 t /2/2的值代入公式 的值代入公式 (7.167.16)求出)求出n1 1, . .令令df=df=n1-1,再去再去查查 t 值表,得值表,得t /2/2依公式 依公式 (7.167.16)求出)求出n2 2, . .
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 【淮安】2025年江苏淮安市金湖县事业单位公开招聘工作人员96人笔试历年典型考题及考点剖析附带答案详解
- 第四章氧化还原反应第四节元素标准电极电势图及其应用无机化学
- 第三节组合体本节主要内容00课件
- 云霓课件教学设计
- 小学生科普显微镜课件
- 2025年小学语文教师招聘考试测试卷及答案
- 基金从业人员资格考试资料2025年含答案
- 2025矿山开采项目社会稳定风险评估与风险评估产业创新报告
- 口才课件自我介绍模板
- 企业房产租金管理办法
- 《尿路感染诊治指南》课件
- 特征值优化设计-洞察分析
- 市场营销策划岗位招聘笔试题与参考答案(某大型央企)
- 2024年高考英语新课标1卷读后续写教学设计
- 市医院开展“小金库”专项治理工作方案
- PDCA提高便秘患者肠镜检查肠道准备合格率
- 淮南新东辰控股集团有限责任公司招聘笔试题库2024
- 03D201-4 10kV及以下变压器室布置及变配电所常用设备构件安装
- 人民网删除稿件(帖文)申请登记表
- (正式版)YBT 6328-2024 冶金工业建构筑物安全运维技术规范
- 诊所中药饮片清单
评论
0/150
提交评论