版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第七章抽样推断,任课教师:汤来香 ,美国总统选举民意调查,1984年11月里根与孟代尔竞选总统,美国著名的盖洛普、哈里斯、国家广播公司三家民意调查社在选举前三个星期所做调查的统计分析,里根分別约可获得58%、55%及60%选票,正式选举的结果:里根约获得59%选票,而孟代尔约41%选票。此次美国所有的民意调查社的预测数字与选举结果最多只有4%误差,但被调查的选民不超过3000人,可见统计的技巧是多么有用。在以往的十七次美国总统选举预测中,只有两次失败,第一次是1936年的蓝顿对罗斯福的选举,样本数一千万但是误差20%,第二次是1948年杜威对杜鲁门,样本数二百万误差5%,50年来美国21次全国
2、选举预测之平均误差只有2.3%。,学习目的与要求:,抽样估计是抽样调查的继续,它提供了一套利用抽样资料来估计总体数量特征的方法。通过本章的学习,要理解和掌握抽样估计的概念、特点,抽样误差的含义、计算方法,抽样估计的置信度,推断总体参数的方法,能结合实际资料进行抽样估计。,主要内容:,1抽样推断概述 2抽样平均误差的计算 3抽样估计 4抽样的组织形式 5必要抽样数目的确定,第一节抽样推断概述,一、抽样推断的概念 抽样推断:是按随机原则从总体中抽取一部分单位构成一个样本进行观察,并根据样本的实际数据对总体的数量特征作出具有一定可靠程度的估计和判断的一种统计方法。,随机原则:,随机原则即是在抽取样本
3、时,排除人们主观意图的作用,使得总体中的每个单位或每个样本有相等的入选机会。随机原则又称为等可能性原则。,统计推断的过程:,二、抽样推断的特点,按随机原则抽取样本单位; 用部分推断总体,即用样本指标去推断或估计总体指标。 抽样推断必然产生抽样误差,且误差可以事先计算并加以控制。 运用概率估计方法。,三、抽样调查的作用,适用于无限总体或者很难进行全面调查的总体的研究; 对某些可以但事实上不必或不可能进行全面调查的现象总体的研究。 适应于破坏性产品的质量检验; 可以用于生产过程中的质量控制; 用于订正全面调查的数据; 可用于假设检验。,四、抽样推断的基本概念,(一) 总体与样本 总体 (全及总体、
4、母体):是指统计所要研究的全体,由具有某种特定性质的许多个别事物组成的集合体。 N:总体单位数。,总体可分为有限总体与无限总体。,样本(抽样总体、样本总体或子样),样本 :是指按照随机原则,从全及总体中抽取出来,代表全及总体的那部分单位的集合体。 样本容量(n) : 样本中所包含的总体单位数。n30是大样本。,总体是唯一的, 样本是随机多个的。,(二)、总体指标与样本指标,总体指标(母体参数、总体参数、全及指标):它是根据总体各单位的标志值或标志特征计算的,反映总体某种属性的综合指标。,全及指标是唯一确定的, 一个总体常常有多个总体参数。,常用的总体指标有:,或,或,样本指标(样本统计量):,
5、样本指标:也称为统计量或抽样指标,它是根据抽样各单位的标志值或标志特征值计算的、用以估计和推断相应总体指标的综合指标。,一个样本常常有多个样本指标,依据样本的数据计算的样本指标不是唯一确定的。,常用的样本统计量有:,或,或,说明:,按照无偏估计的要求, 才是总体方差的无偏公式,但在某些统计中,n通常较大,n与(n-1)相差甚微,为简便,就用n代替(n-1)。 总体指标是唯一确定的值,样本指标是随机变量。,总体指标与样本指标的区别:,样本指标是一个随机变量,它的不同取值取决于不同的样本;而总体指标是一个确定的量值,它与样本指标的取值无关。 总体指标是未知的,样本指标通过抽样调查却是可知的。,总体
6、指标与样本指标的联系:,运用抽样调查对全及总体指标的推断必须通过样本指标; 对全部样本而言,所有可能样本指标的平均数等于相应的总体指标; 对一个样本而言,当样本单位数逐渐增大时,样本指标会逐渐接近总体指标。,(三)抽样方法与样本个数,样本个数(m)指从总体中可能抽取的全部样本数目,又称样本可能数目。这与抽样方法和样本容量有关系。,重复抽样的特点:,n个单位的样本是由n次连续试验构成的。 每次试验相互独立,各单位中选与不中选相互不影响。 每次试验都是在相同的条件下进行,即都是从N个总体单位中随机抽取一个,因此,每个单位在每次中选的机会都相等,它们每次都有1/N的中选机会。,不重复抽样的特点:,n
7、个单位的样本是由n次连续试验构成的,但由于每次抽出不放回,所以实质上等同于同时从总体中抽n个样本单位。 每次试验不相互独立,上次中选情况影响下次中选结果。 每抽一次总体的单位数便少一个,因此每个单位在各次中选的机会是不相等的,第i次抽取每个单位有1/(N-i+1)的中选机会。,考虑顺序的样本个数:,1)不重复排列数,2)重复排列数,不考虑顺序的样本个数:,3)不重复组合数,4)重复组合数,【例】,从0-9 的10个数中随机重复抽选6个数字组成电话号码,共能组成多少个电话号码? (重复排列数),【例】,从班级10位学生中抽选三人担任不同的职务,问共有几种抽法?,(不重复的排列数),【例】,从小组
8、10位学生中不重复随机抽选3个组成样本,考查其平均成绩,可能的样本数目为:,(重复组合数),从A、B、C、D四个单位中,抽出两个单位构成一个样本,问样本个数是多少?,重复抽样排列数: Nn42 16(个样本),不重复抽样排列数: N(N-1)(N-2) 4312(个样本),【例】,(四) 抽样推断的理论依据,1大数法则(大数定律),基本思想:大量的随机现象具有一定的稳定性。,我们知道,总体由许多总体单位组成,每个总体单位的表现各不一样。这些不同的表现共同决定着总体的表现或特征。 如果我们将这些大量的总体单位加以综合平均,那么它们对总体的个别影响会将相互抵消,最后呈现出它们共同作用的结果,使总体
9、具有稳定的性质。,实际推断原理:当试验次数很大时,可以用样本指标代替总体指标。,在概率论中,大数法则是这样表述的:,对于任意正数,有:,这样,以严格的数学形式,表达了频率的稳定性。,2、中心极限定理:,中心极限定理,其着眼点是“变量和的分布”。一个随机变量服从正态分布的现象并不多见,但多个变量和的分布服从正态分布则是普遍存在的。在现实生活中,变量和的分布是普遍存在的。,基本思想:变量和的分布函数向正态分布收敛。,也就是说:,中心极限定理论证了:如果总体变量存在有限的平均数和方差,那么,不论这个总体变量的分布如何,随着抽样单位数n的增加,抽样平均数的分布便趋近于正态分布。,中心极限定理的通俗定义
10、是这样的:,当n无限增大时,不管总体分布是什么形状,样本平均数分布趋近于平均数为 方差为 的正态分布;且 , 。 标准化变量的分布趋近于平均数为 0,方差为1的标准正态分布。这样就可以利用标准正态分布求得标准变量t 落入任意区间的概率了。,第二节抽样平均误差,一、统计误差的分类,(抽样误差),各种统计误差:,登记误差:指由于调查登记或计算差错在发生的误差,统计误差:指调查所得的统计数字与调查总体实际数值之间的差异。,代表性误差:指用样本指标推断总体指标时,由于样本结构与总体结构不一致,样本不能完全代表总体而产生的误差。,系统误差:由于非随机因素引起的样本代表性不足而产生的误差,表现为样本估计量
11、的值系统性偏高或偏低,故也称为偏差。 随机误差:指遵循随机原则抽样,由于随机因素(偶然性因素)引起的代表性误差。通常所说的抽样误差指的就是随机误差。,抽样实际误差:,抽样实际误差:每一次抽样,得到的样本指标与总体指标的绝对离差。如、,这是无法计算的。 抽样实际误差是随机变量。,抽样平均误差,抽样平均误差:指所有可能出现的样本指标(平均数或抽样成数)的标准差。反映了抽样指标与总体指标的平均误差程度。,从理论上说是一个唯一确定的量。,二、抽样平均数的平均误差,(一) 平均数的抽样分布,平均数的抽样分布:由总体中全部样本平均数的可能取值和与之相应的概率(频率)组成。即把所有可能样本平均数的次数分布称
12、之为平均数的抽样分布。,抽样分布:指样本指标的次数分布。,1重复抽样分布,【例】设有某班组5 个工人的日分别为34、38、42、46 、50元,则:,现用重复抽样方法从中随机抽取2个构成样本,并求样本平均工资来推断总体的平均工资。,重复排列数:,样本日工资平均数,单位:元,样本日平均工资的次数分布表,根据上表数据,可以整理出样本平均数的分布如左表:,5/25,4/25,3/25,2/25,1/25,34 36 38 40 42 44 46 48 50,样本日平均工资分布图,平均工资(元),则样本日工资平均数的平均数和方差为:,两个重要结论:,重复抽样的样本平均数的平均数 等于总体平均数,即:,
13、所以抽样平均数的标准差 反映了样本平均数与总体平均数的平均误差程度,称为抽样平均误差或抽样标准误差。,因为,样本平均数的分布与总体分布的比较:,总体分布,样本平均数的分布,重复抽样抽样平均误差的计算公式:,可见抽样平均误差比总体标准差小得多,仅为总体标准的。 另外,抽样平均误差和总体标准差成正比变化,而和样本单位数n的平方根成反比变化。,2不重复抽样分布,样本日工资平均数,单位:元,样本日平均工资的次数分布表,根据上表数据,可以整理出样本平均数的分布如左表:,则样本日工资平均数的平均数和方差为:,也可得出两个重要结论:,不重复抽样的样本平均数的平均数 等于总体平均数,即:,所以抽样平均数的标准
14、差 也反映了样本平均数与总体平均数的平均误差程度,称为抽样平均误差或抽样标准误差。,因为,不重复抽样的抽样平均误差计算公式:,不重复抽样的抽样平均误差等于重复抽样的抽样平均误差乘以修正因子即:,(二)、抽样平均误差,1定义,定义公式反映抽样平均数(或抽样成数)与总体平均数(或总体成数)的平均误差程度。或者说,用来描述各样本抽样实际误差的一般水平。,抽样平均误差 :指所有可能出现的样本指标的标准差。,定义公式:,抽样平均误差是一个确定的值。,抽样平均误差 的具体意义:,从总体N中取容量为n的可能样本共有m个, 可计算出m个抽样实际误差(随机变量): 为了测定样本(指标)的代表性程度的高低,单独用
15、某一次的抽样误差来衡量是不科学的,因此就需要采用一定的方法(求标准差的方法)计算所有m个抽样实际误差的平均数,这就是抽样平均误差。,(i=1,2,3,m),2抽样平均误差的应用公式,抽样平均误差是一个确定的值,但在实际抽样估计中,常用某些样本指标来代替未知的总体指标。例如用s2代替。由于s2是随机变量,故这时所测得的只是抽样平均误差的估计量,此估计量仍为随机变量。 实际工作中常用推导的应用公式。,抽样平均误差的应用公式:,重复抽样: 不重复抽样:,说明:,抽样平均误差与总体标准差成正比,仅为总体标准差的; 抽样平均误差与成反比。可通过调整样本单位数来控制抽样平均误差。,假定抽样单位数增加倍、0
16、.5倍时,抽样平均误差怎样变化?,【例】,【解】,计算应注意的两点,(1) 总体方差未知时的处理方法: 用s代替或p代替P; 用方差的历史或经验数据代替。如果有多个方差可供选择,则通常取用较大的,故p应选择最接近于0.5 的。 用方差的试验或试点数据代替。 (2) 当N很大时,N-1N,于是,4的计算实例,随机抽查某大学150个男生的身高,得其平均身高为170.8公分。根据过去的材料,知道大学生身高的总体标准差为24公分,试求抽样平均误差。,【例】1,解:,【例】2,某厂生产某种灯泡5000只,随机抽取500只作寿命测试。测试结果表明,平均寿命为6200小时,样本标准差为450小时,求抽样平均
17、误差。,解:,【例】3,某仓库有某种零配件10000套,随机抽取400套,发现32套不合格。求合格率的抽样平均误差。,已知=10000,n=400, p=368/400=92%,求,解:,重复 抽样:,不重复抽样:,【例】,某校随机抽选400名学生,发现戴眼镜的学生有80人。根据样本资料推断全部学生中戴眼镜的学生所占比重时,抽样误差为多大?,样本p=n1/n=80/400=20%,解:,【例】,某灯泡厂对10000个产品进行使用寿命检验,随机抽取2%样本进行测试,按规定,灯泡使用寿命在1000小时以上者为合格品。测得样本数据如下: 灯泡平均使用时间 x=1057小时, 灯泡使用时间标准差为s=
18、53.63小时, 合格品率为p=91.5,则:,不重复抽样时:,重复抽样时:,5影响抽样平均误差的因素,总体方差或标准差。 大,则大。 样本容量n。如n扩大为原来的4倍,则缩小为原来的1/2。 抽样方法。由于 小于1, 重复抽样时的抽样平均误差永远大于不重复抽样时的抽样平均误差。 抽样调查的组织形式。,第三节抽样估计(推断),有效的估计将是,一、抽样估计的概念,统计推断:就是利用样本的数据,对总体的数量特征作出具有一定可靠程度的估计和判断。统计推断包括参数估计和假设检验两个方面。 总体参数估计:是以样本统计量作为未知总体参数的估计量,并通过样本数据计算样本统计量的取值,作为总体参数的估计值。参
19、数估计又称抽样估计。,抽样估计要具备三个基本要素:,要有合适的统计量作为估计量 要有合理的允许误差范围() 要有一个可接受的置信度,二、统计量的优良估计标准,估计量:用于估计总体参数的统计量。 估计值:估计参数时计算的统计量的具体值。,优良估计量总是从总体上来说的,其标准有三个:无偏性、一致性和有效性。,1无偏性,要求样本指标的平均数等于被估计的总体指标。即:样本指标是总体指标的无偏估计量。有:,无偏性:样本统计量的期望值(均值)等于被估计的总体参数。,2一致性,当样本的单位数充分大时,样本指标充分靠近总体指标。即当n无限增加,样本指标与未知的总体指标之差的绝对值小于任意小的正数,它的可能性也
20、趋近于必然性。对于 ,当n愈多,抽样平均误差愈接近于0。,3、有效性,要求作为优良估计量的方差应该比其他估计量的方差小。例如有: 注意:并不是所有的估计量都符合以上的标准。例如:在正态分布的情况下,总体平均数和中位数是重合的,样本中位数是总体中位数的无偏和一致估计量,但对比样本平均数却不是更有效的估计量。而样本平均数却是总体中位数的优良估计量。,三、抽样极限误差(),总体指标是唯一确定的值,样本指标是围绕着全及指标上下随机出现的变量。抽样平均误差指抽样分布的标准差,说明的是某一抽样方案下所有可能样本的平均误差情况,但在抽样推断实践中往往只抽取一个样本,该样本的指标数值与总体指标数值的离差,可能
21、为正,也可能为负,该误差可能大于也可能小于或者等于抽样平均误差。因此,对于一项抽样调查,总是要求有一个合理的允许误差范围,这就是抽样极限误差。,抽样极限误差的定义:,抽样极限误差:指在进行抽样估计时,根据研究对象的变异程度和分析任务的要求所确定的样本指标与总体指标之间可允许的最大误差范围。也称容许误差、可能误差。常用表示。 它是根据概率理论,以一定的可靠程度保证抽样误差不超过某一给定的范围 。,1)是指误差范围,的原意表示是以为中心,在之间变动。但由于全及指标未知,而样本指标通过实测可得到。因此,抽样误差范围的实际意义是要求被估计的全及指标落在抽样指标的一定范围内,即落在 的范围内。,即:,因
22、此,、P的范围估计(区间估计)分别为:,同理得:,、,2) 是指可能范围而非肯定范围,抽样极限误差不是唯一固定的,而是根据抽样调查的目的,根据人们希望控制总体指标的把握程度来确定的。如果希望控制的把握程度大些,就给予较大的值,否则,的给定值就较小。这种把握程度就是概率保证程度。亦即抽样估计的可靠程度,叫估计置信度,习惯上也称为可靠度、可信程度、把握程度或概率保证程度。,四、置信度、概率度、估计精度,1置信度是估计的可靠性问题 置信度:就是表明抽样指标和总体指标的误差,不超过一定范围()的概率保证程度。,置信度即概率保证程度:,由于抽样指标值随着样本的变动而变动,它本身是一个随机变量,因而抽样指
23、标和总体指标的误差仍然是一个随机变量,并不能保证误差不超过一定范围这个事件是必然事件,而只能给以一定程度的概率保证。因此,就有必要来计算抽样指标和总体指标的误差不超过一定范围的概率大小,即计算抽样指标落在一定区间范围内的概率,这种概率称之为抽样估计的置信度。,估计值所确定的估计区间是随机的,在实际抽样中并不能保证被估计的总体指标值都落在允许误差范围内,这就产生要冒多大风险来相信所作的估计。例如:我们愿意冒10%的风险,表示如果进行多次重复估计,则平均每100次估计将有10次是错误的,90次是正确的,90%就称为置信度或概率保证程度。,2概率度(t)反映的相对程度,描述全部样本指标与总体指标的平
24、均误差,而则是对一个样本的样本指标与总体指标误差的控制范围,因而可用来衡量。即抽样极限误差等于t倍的抽样平均误差: t就称为概率度。,或,或,因此:,是用一定倍数的表示的抽样指标与全及指标之间的绝对离差。 t 是指以抽样平均误差为尺度来衡量的相对误差范围。,求t值的过程,也就是样本变量和p的标准化过程。标准变量t服从正态分布。t值大小是确定正态分布函数的决定因子。即t是确定概率保证程度大小的指标。可依据一定的置信度,查标准正态分布表求得。,概率是概率度的函数:P=F(t),在正态分布的情况下,从总体中随机抽取一个样本观察,则该样本指标落在某一范围内的概率, 是用占正态曲线面积的大小表示的。即:
25、,正态分布及其曲线下的面积图,68.27%,1,-1,-2,95.45%,99.73%,-3,2,3,可见随着t的不断增大,概率P的数值也随着增大以致逐渐接近于1,使抽样推断达到完全可靠的程度。 应用正态分布曲线,把概率度t和抽样误差范围联系起来,便可得到抽样推断全及指标在一定范围内的概率保证程度。统计抽样推断中常用的有:,常用概率度与概率对照表,3估计精度是从相对数的角度说明抽样估计的准确程度,误差率允许误差估计值, 即: 估计精度误差率,即: 抽样估计的准确性随着的增大而减小,它们之间呈反方向变动。,注意:估计的准确性与可靠信是相互矛盾的,与估计准确性成反比关系, F(t) 与估计的可靠性
26、成正比。,越大, 准确性越小, F(t)越大, 可靠性越大。,=t,【例】,(仍用前面例子)从总体5个工人的日平均工资中重复抽取n为2的样本平均工资的抽样分布如下表:,样本日平均工资的次数分布表,五、抽样估计方法,以样本的平均数 作为总体平均数 的估计值。 以样本的成数 p 作为总体成数 P 的估计值。,(一) 点估计(定值估计) 它是直接以样本指标的实际值直接作为相应总体参数的估计值。,例如:,点估计的特点:,优点:简便、易行、原理直观,它能够提供总体指标的具体估计值,可以作为行动决策的数量依据。 缺点:任何点估计不是对就是错,点估计没有表明抽样估计的误差,更没有指出误差在一定范围内的概率保
27、证程度有多大。,统计学家做得比间谍们更漂亮!,由于许多战略上的理由,盟军非常想知道二战期间德军总共制造了多少辆坦克。德国人在制造坦克时是墨守陈规的,他们把坦克从1开始进行了连续编号。在战争进行过程中,盟军缴获了一些敌军坦克,并记录了它们的编号。那么怎样用这些号码来估计坦克总数呢?,统计学家做得比间谍们更漂亮!,我们知道,制造出来的坦克数肯定大于记录中的最大编号。因此,其中点估计的方法之一就是,计算出被缴获坦克编号的平均值,并认为这个值是德军全部坦克编号的中点,用样本均值乘以2就是总数的一个估计。 从战后发现的德军记录来看,盟军估计值非常接近所生产坦克的真实记录。,(二)区间估计,定义:,区间估
28、计:就是在一定的概率保证程度下,选定概率度t及抽样极限误差=t,再根据样本指标数值和去估计总体指标数值所在的可能范围的一种统计推断方法。 估计区间的上下限:或 置信区间:或 置信度:,1根据(t)求及置信区间,根据样本资料,计算出及 或p及。 根据F(t)查正态分布概率表求t; 根据t与,计算或 ,指出置信区间为:,或,【例】,对某鱼塘进行抽样调查,从鱼塘的不同部位共网到鱼150条,其中草鱼123条,草鱼平均每条重2公斤,标准差为0.75公斤。 试按95.45%(t=2)的概率保证程度, 对该鱼塘草鱼平均每条重量作区间估计; 以同样的概率保证程度对该鱼塘草鱼所占比重作区间估计。,解 已知:,草
29、鱼平均每条重量的估计区间为: 即20.14,20.14 1.86,2.14公斤,(公斤),=2kg,s=0.75kg,n=123,t=2,解 已知:,n=150 ,t2 , p123/15082%,则草鱼所占比重的估计区间为: 即82%6.27%,82%6.27% 75.73%,88.27%,2根据给定的,求F(t),抽取样本,计算出、s,推算出; 根据,估计出 根据,求出F(t),随机抽取25亩水稻田,测得平均亩产为650公斤,标准差为75公斤,求总体平均亩产在620-680公斤之间的概率是多少?,【例】,已知, s75公斤,n=25,【解】,所以 F(t)=95.45% 。,【例】,某储蓄
30、所6月份共有存单3000张,为了解存款数量情况,现随机抽取200张进行调查,得结果如右表,试求重复抽样条件下:,该储蓄所本月存单平均存款范围(概率保证程度为95.45%); 该储蓄所本月存款额在1000元以上存单所占比重范围。(概率保证程度为95.45%)。,该储蓄所存单平均存款额与标准差计算表,p=40/200=20%,则,对我国某城市进行居民家庭人均旅游消费支出调查,随机抽取400户居民家庭,调查得知居民家庭人均年旅游消费支出为350元,标准差为100元,要求以95%的概率保证程度,估计该市人均年旅游消费支出额。,解:第一步,根据抽样资料已算得: 样本户年人均消费支出 x =350(元)
31、样本标准差s100(元),则,第二步,根据F(t)=95%,查得t=1.96。 第三步,计算则该市居民家庭年人均旅游消费支出额的上下限为: 结论:我们可以95%得概率保证程度,估计该市居民家庭年人均旅游消费支出额在340.20元359.80元之间。,【例】,某市电视台为了解观众对某电视栏目的喜爱程度,在该市随机对900名居民进行调查,结果有540名喜欢该电视栏目,要求以90%的概率保证程度,估计该市居民喜欢该电视栏目的比率。 解:,根据给定的F(t)90% ,查表得t1.64。,结论:我们可以概率90%的保证程度,估计该市居民对此电视栏目喜爱的比率在57.33%62.67%之间。,则总体比率的
32、上下限为:,第四节 抽样组织形式,简单随机抽样 类型抽样 等距抽样 整群抽样 多阶段抽样,一、简单随机抽样,简单随机抽样:又称为纯随机抽样,它是按照随机原则直接从总体N个个体中抽取n个个体作样本,使总体中的每个个体都有同等的机会被抽中。,直接抽选法是指直接从调查对象中随机抽选。例如,从仓库中存放的所有同类产品中随机指定若干件产品进行质量检验;从粮食仓库中不同的地点取出若干粮食样本进行含杂量、含水量的检验等。 抽签法即先将全及总体各个单位按照某种自然的顺序编上号,并做成号签,再把号签掺合起来,任意抽取所需单位数,然后按照抽中的号码取得对应的调查单位加以登记调查。 随机数表是指含有一系列组别的随机
33、数字的表格。,简单随机抽样的特点,是抽样调查中最基本的组织形式; 遵循随机原则直接从总体N个单位中抽取n个单位作为样本;又称为纯随机抽样。 简单随机抽样被用作评估其他抽样策略的效率的基准 ; 简单随机抽样最原始的抽取方法是抽签法,最常用的抽取方法是利用随机数表 或计算机生产随机数。,简单随机抽样适用的情况:,对调查对象很少了解; 总体单位的排列没有秩序; 均匀总体。 注:前面所讨论的抽样平均误差的计算公式就是简单随机抽样时的抽样平均误差的公式。,抽样单位数目的计算,重复抽样:,不重复抽样:,【例】,某市开展职工家计调查,根据历史资料该市职工家庭平均每人年收入的标准差为2400元,家庭消费总支出
34、中食品消费支出比重(恩格尔系数)为54%。现用重复抽样方法,要求在95.45%的概率保证下,平均收入的抽样极限误差不超过200元,恩格尔系数的抽样极限误差不超过4%,请确定样本必要数目。,样本成数的样本必要数目:,【解】,根据公式,在重复抽样条件下:样本平均数的样本必要数目:,关于抽样单位数目的几点说明,在同样条件下,不重复抽样比重复抽样要求的抽样单位数目少。但不重复抽样的抽样单位数目计算公式比较复杂。在实际工作中,一般当 n / N 的抽样比很小时(小于5%),为了简化计算,虽然采用不重复抽样,也可用重复抽样计算公式计算抽样单位数目。,关于抽样单位数目的几点说明,同一总体往往同时需要估计总体
35、平均数和总体成数,对二者可以分别计算出各自抽样单位数目,为了防止抽样单位数目的不足,在实际工作中,往往根据抽样单位数目比较大的一个数目进行抽样,以满足共同要求。,即问即答,在重复抽样情况下,如果其它条件保持不变,要使允许误差范围缩小为原来的1/2,则样本单位数目需要扩大为原来的多少?反之,如果允许误差范围要求扩大为原来的2倍,抽样单位数目又要如何变化?,二、分类(层)抽样,类型抽样:它是先对总体各单位按某种标志分组,然后再从各组中按随机原则抽选一定单位构成样本,再对样本总体进行观察。,优点:能够提高样本的代表性, 可降低影响抽样平均误差的方差。,特点:是统计分组和抽样法的结合。,经过划类分组后
36、,确定各类型组抽样单位数一般有两种方法:,不等比例抽样。即各类型组所抽选的单位数,按各类型组标志值的变动程度来确定,变动程度大的多抽一些单位,变动程度小的少抽一些单位,没有统一的比例关系。 等比例抽样。即按照样本单位数在各类之间分配的比重与总体在各类之间分配相同的比重进行抽样。,等比例分层抽样的抽样平均误差:,N=N1+ N2+ + NK n=n1 + n2 + + nK 等比例抽样: 分类抽样总的抽样误差取决于各层内的抽样误差,而各层内的抽样误差又取决于各层内部的方差和抽样数目。,重复抽样条件下的计算公式,(平均组内方差),不重复抽样条件下的计算公式,注意:,分层抽样的取决于各组内方差的平均
37、数,而总方差=组内方差的平均数+组间方差,故分层抽样的小于简单随机抽样的。 由于总体方差是确定数,因此类型抽样分组(层)时,应尽量增大组(层)间差异,缩小组(层)内差异。提高抽样效果。,不等比例抽样,根据各组中标志变异的大小确定适当的抽样数目,差异程度大的组多抽一些单位,差异程度小的组少抽一些单位。则,例:,某乡全部粮食耕地5000亩,按平原和山区分类抽取630亩,计算各组平均亩产和标准差i 如下表。求抽样平均误差。,解:,三、等距抽样(机械抽样、系统抽样),等距抽样:是先将总体单位按某一标志排队,计算出抽样间隔,并在第一个抽样间隔内确定一个抽样起点,再按固定的顺序和相同的间隔来抽取样本单位进
38、行观察的一种抽样方法。,系统抽样的具体做法如下:,从N 中抽取n个样本单位,可先排队,算出间隔距离k=N/n,现从第一至k个单位中确定抽样起点(即第一个样本单位),之后,每隔k个单位抽取一个样本单位。(图示如下:),i,N,k,k,k,i+k,i+2k,i+(n-1)k,k,k,机械抽样的优点:,能提高样本单位分布的均匀性,样本代表性较强。其要小于简单随机抽样时的 。 样本单位的抽取工作也比较容易开展。,无关标志排队:,等距抽样据以排队的标志与调查内容没有直接关系。其是按简单随机抽样的公式近似计算的。,因为无关标志排队的结果,从所要调查的标志来看,总体单位的排列顺序实际上仍是随机的。所以,其抽
39、样起点i可以随机确定,即可以是第一个抽样距离内的任一个总体单位:1i k ,这样得到的样本完全遵循了随机原则,不会产生系统偏差。而且抽样效果十分接近简单随机。,有关标志排队,指据以排队的标志与调查内容有密切关系。 由于其排队标志与调查内容有密切关系,排队后,从所要调查的变量来看,总体单位也大致呈顺序排列。所以其抽样起点一般不宜随机确定。否则,若在第一个抽样间隔内随机地抽取一个标志值较小(或较大)的单位作为抽样起点,整个样本势必出现偏低(或偏高)的系统偏差。,半距起点等距抽样(中心系统抽样),以第一个抽样间隔内的中点为抽样起点,并每隔k个单位抽一个单位。,优点:样本代表性高。 不足点:限制了抽样
40、的随机性。,对称等距抽样,在第一个抽样间隔内随机地确定抽样起点(1i k) 。然后以组界k、2k、3k、(n-1)k为对称点两边对称地抽取样本单位。如下图所示:依次抽取的样本单位序号分别为i、2k+i、2k-i、4k+i、4k-i、6i+i、6k-i 、,i,N,k,(n-1)k,2k,3k,nk,2K-i,2K+i,有关标志排队等距抽样的计算:,有关标志排队等距抽样相当于分层较多(将总体分为同等大小的n个层),而每层只抽取一个调查单位的特殊分层抽样,所以其抽样效果类似于分层抽样, 其一般按分层抽样的抽样平均误差公式来近似计算。,注意:,等距抽样需要有总体的辅助信息,以便于进行单位的排序; 等
41、距抽样要避免抽样间隔和现象本身的周期、节奏重合而引起的系统性偏差。,工业产品质量检查时,抽样时间间隔不宜与上下班或交接班时间一致。,例如:,四、整群抽样(集团抽样),整群抽样:是将总体全部单位分为若干部分(每一部分称为一个群体,简称群),然后以群为单位,按随机原则从中抽取若干个群构成样本,对中选群内的所有单位进行全面调查的抽样方法。,整群抽样的特点:,整群抽样直接抽取的不是总体中的个体而是“群”,因此总体和样本是由“群”组成的。 总体中的每一群所包含的单位数有每一群的单位数相等和不尽相等两种情况。 影响抽样误差的方差是群间方差,群内方差不影响抽样误差。 整群抽样是不重复抽样,应该用不重复抽样公
42、式计算抽样平均误差。,整群抽样的优点:,由于是对中选群的全面调查,抽样单位比较集中,所以整群抽样能大大降低数据收集的费用; 当总体中个体自然聚合成群(例如:住户、学校)时,整群抽样组织更加方便; 如果对于调查变量而言,群内单元差异较大,而不同群的差异较小,整群抽样比简单随机抽样的效率更高(例如为估计性别比采用按户的整群抽样) 。,整群抽样的缺点:,对调查变量,若群内个体有趋同性,则整群抽样的抽样效率比简单随机抽样低,(这正是通常遇到的情况),但对此项效率的损失可通过增加群的抽取个数来弥补; 通常无法提前控制总样本量,因为在进行调查前,我们通常不知道一个群内到底有多少个个体; 抽样误差的计算可能
43、比简单随机抽样更为复杂。,整群抽样的取决于2的大小,整群抽样对中选群进行全面调查,其样本代表性取决于抽中群体对全部群体的代表性。假设各群体之间没有差异(即各群体的内部结构完全相同),则抽样误差为0。可见,整群抽样的取决于群间差异程度的大小,而不受群体内部差异程度的影响。 整群抽样的原则是:使群间方差尽可能小,群内方差尽可能大。,整群抽样的计算:,总体未知时可用样本指标替代。,其中:,例:,某市保险公司要调查居民家庭财产情况。该保险公司调查组把该市的街道作为群,全市共100个街道,共100群。随机抽选了18个街道(18群)进行了调查。调查结果样本平均数(样本中居民平均家庭财产数)为40000元,
44、样本群间方差为(5100元)。试以95.45%的置信度估计全市平均家庭财产数。,解:,已知: ,R=100,r=18,t=2 则:,置信区间:,五、多阶段抽样(多级抽样),多阶段抽样:它是先从总体中抽取一级单位,再从一级单位中抽取二级单位如此下去,最后才抽取所要调查的基本单位的一种抽样形式。,优点:是比整群抽样灵活,在样本容量相同的条件下,多阶段抽样的样本单位在总体中的散布比整群抽样均匀。此外,它还可以利用现成的行政区划组织系统作为划分各阶段的依据。 缺点:调查结果的精确性不太高,计算、分析比较复杂。,以两阶段抽样为例,两阶段抽样在组织技术上是整群抽样和类型抽样的综合。先将总体分为R群,每群包
45、含Mi个单位,假定N=M1+M2+M3 + +MR=RM, n1= m1+ m2+m3 + +mro=r m。 在每个阶段都是随机抽取样本,都会产生随机误差,因此计算时要综合两阶段的误差。,以xij表示第i样本群第j个样本单位的标志值:,第一阶段抽样平均数的方差为: 第二阶段抽样平均数的方差为:,两阶段抽样平均误差为:,或者,第五节必要抽样数目的确定,必要抽样数目:是指为了完成抽样调查任务,满足抽样调查的各项要求,也就是为了保证抽样推断能达到预期的可靠程度和精确度的要求,而科学计算的需要抽取的样本单位数。即样本单位数“n”的具体数值,也叫样本容量。,一、影响必要抽样数目的因素,总体各单位间的标
46、志变异程度 极限抽样误差的大小 调查结果的概率保证程度 抽样方法和抽样的组织形式。,二、必要抽样数目的计算,(一)简单随机抽样方式下的n,【例】1:,某市对职工收入抽样调查,已知职工平均每人每月收入的标准差为220元,要求把握度为95.45%,允许误差为15元,则需抽查人数为:,【例】2:,调查一批帐单的差错率。根据以往的资料,差错率曾有过1%,3%,5%三种情况。现在要求把握度为95%,允许误差为,则需抽查的帐单数为:,(二)类型抽样方式下的n,(三)等距抽样方式下的n,等距抽样一般都采用不重复抽样的方式,按无关标志排队的抽样,用简单随机不重复抽样公式确定样本容量;按有关标志排序的抽样,用类
47、型不重复抽样公式确定样本容量(公式从略)。,(四)整群抽样方式下的n,整群抽样一般采用不重复抽样,它的必要抽样数目的计算公式和简单随机抽样的计算公式从结构上讲基本上是一致的。其不同之处有两个方面:一是标志变异指标不同。简单随机条件下必要抽样数目计算公式中的标志变异指标是总体方差。而整群抽样条件下的计算公式是群间方差。二是采用的单位数目不同。简单随机抽样公式中总体单位数和样本单位数分别用N、n表示。而整群抽样公式中总体群数和抽样群数分别用R、r表示。其计算公式为:,整群抽样要计算必要抽取的群数r,三、确定n应该注意的问题,必要抽样数目应大于30。 实际调查时可对计算的必要抽样数目进行调整 当总体单位数不大时,如果采用不重复抽样的方法抽取样本,必须应用不重复抽样的计算公式计算必要抽样数目;当总体单位数很大时,虽然采用不重复抽样方法,亦可采用重复抽样的计算公式计算必要抽样数目。,当抽样调查是为了检验全面统计数字的质量时,全及总体的标志变异指标 或p(1p)是有实际资料的,可以直接代入公式计算必要抽样数目。 如有
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年修订版仓储装卸工协议
- 2024年光伏发电项目合同:用于能源的荒山承包
- 计算机网络交换机产品供应链分析
- 2024年合作协议书:个人与公司携手共进
- 2024年停车库租赁协议范本
- 2024年公路工程招投标代理合同
- 商标评估与交易行业经营分析报告
- 云身份和访问管理行业市场调研分析报告
- 2024年净水器电商平台代理合同
- 2024年个体劳动者临时服务合同
- (妇幼健康项目)危重新生儿救治项目理论及技能操作题库(供参考)
- 2024年深圳市中考英语试题及解析版
- 高职护理专业《外科护理技术》说课稿
- 信息化系统安全运维服务方案三篇
- 全国职业院校技能大赛高职组(化工生产技术赛项)省选拔赛考试题库(含答案)
- 《药品生产监督管理办法》知识考试题库及答案
- 幼教培训课件:《幼儿园如何有效组织幼儿户外自主游戏》
- Unit 1 (Section A 1a-2) 教学设计 2024-2025学年人教版(2024)七年级英语上册
- 17《爬天都峰》第一课时 公开课一等奖创新教学设计
- “非遗”之首-昆曲经典艺术欣赏智慧树知到期末考试答案章节答案2024年北京大学
- 股权投资撤资通知书
评论
0/150
提交评论