MRAF-C10 抽样估计与样本量确定_第1页
MRAF-C10 抽样估计与样本量确定_第2页
MRAF-C10 抽样估计与样本量确定_第3页
MRAF-C10 抽样估计与样本量确定_第4页
MRAF-C10 抽样估计与样本量确定_第5页
已阅读5页,还剩60页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第10章 抽样估计与样本量确定 1七、抽样样误差调查结果果的准确确性无疑疑是调查查组织者者十分重重视的问问题。其其准确性性通常用用抽样误误差的高高低来反反映,在抽样方方式和总总体既定定的前提提下,抽抽样误差差的大小小主要取取决于抽抽样数目目的多少少。对抽样误误差的控控制主要要是通过过控制抽抽样数目目来实现现的。因因此,抽样误差差与抽样样数目的确定,是随机机抽样市市场调查查中两个个重要的的问题。2(一)抽抽样误差差的估算算方法1.抽样样误差大大小的影影响因素素(1)总总体各单单位之间间的差异异程度。总体变变量存在在变异是是客观的的,差异异程度愈愈大,其其分布就就愈分散散,抽样样误差就就愈大;反之

2、,愈小。这种差差异程度度,在统统计上叫叫做标志志变异度度,通常常用方差差或标准准差来表表示。(2)样样本数目目,即样样本容量量有多少少。当样本容容量达到到与总体体容量一一样时,抽样调调查就变变成全面面市场调调查了,抽样误误差随即即消失。(3)抽抽样方式式。一般地说说,等距距随机抽抽样和分分层随机机抽样的的抽样误误差要小小于简单单随机抽抽样和分分群随机机抽样的的误差。不重复复抽样的的误差要要小于重重复抽样样的误差差。因此此,要根根据不同同的抽样样方式分分别估算算抽样误误差。3456样本量的的确定(二)必必要抽样样数目的的确定抽样数目目过多,使得抽抽样调查查所需成成本费用用提高,从而带带来不经经济

3、;抽抽样数目目过少,又会使使调查结结果存在在较大误误差,达达不到要要求的精精度。所谓必要抽样样数目,就是在在事先给给定的抽抽样误差差范围内内所确定定的、能能够达到到对调查查结果精精确度要要求的样样本单位位数。7样本量的的确定1.影响响合理的的必要抽抽样数目目的因素素(1)总总体各单单位之间间的标志志差异程程度。总体单位位之间的的差异越越小,一一定数目目的总体体单位对对总体的的代表性性就越高高。当总总体单位位的标志志值都相相等时,一个总总体单位位的标志志值就足足以代表表总体的的平均水水平。(2)允允许误差差的大小小。一般来说说,调查查的准确确度要求求高、调调查力强强、调查查经费充充足,允允许误差

4、差就可以以定得小小一些。(3)不不同的抽抽样方式式和方法法。一般情况况下,简简单随机机抽样和和分群随随机抽样样比等距距随机抽抽样和分分层随机机抽样所所需的样样本单位位数要多多,重复复抽样比比不重复复抽样的的样本单单位数要要多。89101112131415总体参数数的点估估计点估计就就是用样样本的估估计量直直接作为为总体参参数的估估计值。例如,用样本本均值直直接作为为总体均均值的估估计,或或者用两两个样本本均值之之差直接接作为总总体均值值之差的的估计。点估计是是容易做做到的,但是,点估计计没有给给出估计计值接近近总体参参数程度度的信息息。当样本均均值与总总体均值值不完全全相同时时,样本本均值与与

5、实际总总体均值值就存在在着差距距,形成成抽样误误差。16总体参数数的区间间估计区间估计计:在点点估计的的基础上上,对总总体参数数的区间间或范围围进行估估计。区间估计计不仅要要说明区区间大小小,还要要说明点点估计值值在区间间内的概概率,即即置信度度。置信信度是一一个百分分比,用用来说明明结果正正确的长长期概率率。被估估计的区区间则被被称为置置信区间间。根据样本本统计量量的抽样样分布理理论,总总体参数数的区间间范围是是在一定定的概率率度下,由样本本统计量量加减抽抽样误差差而得到到。17训练题(P237238)4.假设设某快餐餐馆想要要为一个个新的菜菜单项目目估计平平均销售售量,这这个餐馆馆观察了了

6、一个类类似地点点的销量量,连续续观测到到如下结结果:样样本容量量为25,样本本标准差差为100,每每日平均均销售量量为500。试试估计这这个餐馆馆启用新新菜单后后每天在在95%的时间间内销售售量的范范围。18训练题5.一家家电器连连锁商店店正在进进行空调调的季节节性降价价促销。被抽取取的10个样本本商店销销售出的的空调数数量如下下(单位位:台):82,113,2,41,71,83,99,52,84,30。那么么,根据据这些数数据能否否说明这这次促销销期间每每家商店店平均销销售空调调数量多多于50台(95%)?19训练题6.假设设你正计计划对某某市养狗狗的家庭庭进行抽抽样,以以确定他他们每月月购

7、买的的狗食的的平均数数量。已已经制定定了下面面的标准准:95%的置置信度,小于5个单位位的误差差。以前前的调研研说明了了标准差差应该是是6个单单位。那那么,该该项调查查需要多多大的样样本容量量?20训练题7.在一一项涉及及400人的调调查中,60%的人都都对一个个问题持持积极态态度。试试在95%的置置信度下下确定比比例的区区间估计计。8.在一一个全国国性的调调查中,调研人人员期望望总体中中有30%的人人将会同同意某个个态度陈陈述,要要求误差差小于2个百分分点,并并且具有有95%的把握握性,那那么,需需要多大大的样本本容量?假设调调查总体体为12000人,事事先预计计调查的的回答率率约为55%,

8、那么,样本容容量又应应该为多多少?2122开篇案例例“百脑汇汇”调研研中的样样本计划划问题“百脑汇汇”在中中国华北北几个省省市经营营连锁电电脑超市市,它希希望获得得更多关关于其现现有客户户特点方方面的信信息。接接受调研研委托的的李文博博士指派派班上的的王洪同同学为样样本计划划小组的的负责人人。通过与“百脑汇汇”的市市场部经经理乔兰兰的初次次会谈,王洪了了解到调调研的一一个主要要目的是是分别按按人口和和心理因因素来估估计“百百脑汇”的客户户构成和和比例。此外,确认总总体估计计值不超超过实际际值的50,可可靠度为为95。为了达到到这些要要求,王王洪和他他的小组组正努力力寻找计计算所需需样本容容量的

9、方方法。23101引引言估计就是是根据从从样本中中收集的的信息对对总体未未知量进进行推断断的过程程。抽样估计计涉及的的重要问问题:一个样本本单元的的设计权数数问题。抽样估计计,包括总体体总量、均值和和比例以以及抽样样误差的的估计。样本量的的确定构成抽样样设计程程序的重重要步骤骤和内容容。同时时,样本本量的确确定与样样本估计计值的精精度密不不可分。24102 加权权及权数数调整设计权数数设计权数数是指每每个样本本单元所所代表的的调查总总体的单单元数,它是由由抽样设设计所决决定的,通常以以wd表示。确确定设计计权数是是估计的的第一步步。加权估计计设计权数数其实就就是样本本单元的的入样概概率的倒倒数

10、。假假如入样样概率是是1/10,那那么每个个入选样样本代表表总体中中的10个单元元,此时时设计权权数即为为10。不同样本本单元的的设计权权数可能能不同,这取决决于抽样样设计。因此,加权估估计应区区分等概概率抽样样的加权权和不等等概率抽抽样的加加权。25等概率抽抽样的加加权当每个单单元都有有相同的的入样概概率时,所有样样本单元元的设计计权数都都相同,这种抽抽样就是是自加权设设计。SRS抽抽样和SYS抽抽样都属属于自加加权设计计,比例例分层抽抽样也是是自加权权设计。另外,PPS等也可可以设计计为一个个自加权权抽样。对于自加加权抽样样设计,如果无无需对权权数调整整,则在在计算比比例、均均值等估估计量

11、时时可将其其忽略,对总值值估计也也仅需将将样本总总值乘上上某个倍倍数。(例P215)26不等概率率抽样的的加权自加权设设计并不不总是可可行的。如,在在使用分分层抽样样进行一一个全国国调查时时,可能能需要采采用纽曼曼分层。当所采用用的抽样样设计不不是等概概率时,正确地地使用设设计权数数就显得得尤为重重要。例102有关各层层总体数数和样本本数资料料见表10-1。对于这这项调查查,被调调查者的的设计权权数是多多少呢?收入层次各层单位数样本数量设计权数高收入层200033.3wd,1N1/n1=2000/33.3=60.1 中收入层12000133.3wd,2N2/n2=12000/133.3=90.

12、0 低收入层600033.3wd,3N3/n3=6000/33.3=180.2 27设计权数数的调整整上述等概概率抽样样的加权权和不等等概率抽抽样的加加权都是是加权的的基本形形式。权数估计计常会遇遇到更真真实和复复杂的情情况:考虑无回回答的情情况,然然后对权权数做出出调整;考虑来自自其他渠渠道的、更具权权威性的的某些辅辅助信息息,将它它们合并并到权数数中。28对无回答答的权数数调整单元无回回答是指一个个样本单单元几乎乎所有的的数据都都缺失。简单的的处理办办法是忽忽略它。然而,如果发发现忽略略单元无无回答是是不适当当的,则则应该对对权数进进行调整整。即,设计权数数无回答调调整因子子=无回答的的调

13、整权权数无回答调调整因子子是原样本本单元的的权数和和与给出出回答的的单元的的权数和和的比值值。对于于自加权权设计,该比值值可用原原样本的的单元数数与给出出回答的的单元数数的比值值来表示示。无回答权权数调整整应区分分两种不不同情况况:等概率抽抽样不等概率率抽样29对无回答答的权数数调整(SRS)例103从一个N=100人的总体体中抽取取一个n25人的简单单随机样样本。记记回答单单元的数数量为nr,结果显显示只有有20个人提供供了所需需的信息息。那么么,此时时无回答答的调整整权数是是多少?步骤1:计算设计权数。 入样概率p为:P=n/N=25/100=1/4 故,每个样本单元的设计权数为4。步骤2

14、:计算无回答调整因子。 由于在n25人中只有nr=20人提供了所需的信息,最终样本量应为20。假定回答单元不仅能代表回答单元且能代表无回答单元,计算无回答调整因子为: n / nr = 25/20 = 1.25步骤3:计算无回答的调整权数。 无回答的调整权数wnr等于设计权数与无回答调整因子的乘积: 30对无回答答的权数数调整(STR)例104对于一项项公共交交通系统统调查,总体由由1100人组成,并按城城乡分为为两个层层。分层层及样本本数据如如表10-2所示。那那么,回回答者的的权数是是多少?表10-2公交系统统调查的的分层数数据层总体大小样本量回答者数量城市N11000n1200nr,11

15、50农村N2100n250nr,240步骤1:各层的设计权数为: 城市层 wd,1N1/n1=5 农村层 wd,2N2/n2=2步骤2:调整以弥补无回答。各层的无回答调整因子计算如下: 城市层:n1 / nr,1=200/150=1.33 农村层:n2 / nr,2=50/40=1.25步骤3:无回答的调整权数等于设计权数与无回答调整因子的乘积: 城市层: 农村层: 31使用辅助助信息调调整权数数为什么要要使用辅辅助信息息来调整整权数呢呢?首先,使使调查的的估计值值与已知知总体总总值相匹匹配。例例如,使使用最新新的人口口普查数数据来调调整估计计值,以以确保这这些估计计值(如如年龄、性别分分布等

16、)的一致致性。二是为了了提高估估计值的的精度。将辅助助信息与与抽样设设计相结结合,将将有助于于提高估估计的精精度。要想在调调查设计计阶段使使用辅助助信息,抽样框框中的所所有单元元都必须须具备这这个辅助助信息。否则,就只能能在数据据收集上上来后,在估计计阶段利利用辅助助信息提提高估计计值的精精度。32使用辅助助信息调调整权数数例105为得到某某公司职职员是否否有吸烟烟习惯的的信息,进行了了一项调调查。从从N=780人的名录录中抽出出了一个个n=100人的简单单随机样样本。在收集有有关吸烟烟习惯信信息时,收集了了每个回回答者的的年龄和和性别情情况,且且100人都做出出了回答答,由此此得到样样本数据

17、据的分布布如表10-3所示:事后分层估计值 男性 女性 总计 吸烟人数 164 47 211 总人数 360 420 780 吸烟者比例 0.455 0.111 0.271回答者数量男性女性总计吸烟人数25530总人数5545100 (nr)调查的估计值男性女性总计吸烟人数19539234总人数429351780吸烟者的比例0.4550.1110.30表10-5利利用辅助助信息对对抽样调调查估计计值的调调整表10-3某某公司吸吸烟习惯惯抽样调调查数据据表10-4根根据某公公司吸烟烟习惯抽抽样计算算的估计计值33103 抽样样分布与与抽样误误差抽样调查查的目的的是要对对总体做做出推断断。了解统计

18、计推断的的理论基基础,首首先注意意区分三三种不同同性质的的分布:总体分布布样本分布布抽样分布布同时,特特别注意意总体分分布与抽抽样分布布的关系系。34三种不同同性质的的分布总体分布布:总体各各单位的的观察值值所形成成的频数数分布,总体分分布通常常是未知知的。样本分布布:一个样样本中各各个观察察值所形形成的频频数分布布就叫做做。当样样本容量量n逐渐增大大时,样样本分布布逐渐接接近总体体的分布布。抽样分布布:样本统统计量的的抽样分分布,是是指在重重复选取取容量为为n的样本时时,由该该统计量量的所有有可能取取值形成成的相对对频数分分布。抽抽样分布布是一种种理论分分布。抽样分布布提供了了样本统统计量长

19、长远而稳稳定的信信息,是是进行推推断的理理论基础础。分布类型均值比例标准差总体分布样本分布抽样分布 X P S表10-6各种分布布的均值值、比例例和标准准差的符符号表示示35样本均值值的抽样样分布样本均值值的抽样样分布,是指在在重复选选取容量量为n的样本时时,由样样本均值值的所有有可能取取值形成成的相对对频数分分布。例106设一个总总体,含含有4个元素,即总体体单位数数N=4。4个个体分分别为x1=1,x2=2,x3=3,x4=4。则总体体分布如如图10-1。现在从总总体中有有放回地地抽取n2的简单随随机样本本,则样样本均值值的抽样样分布如如图10-2。36均值抽样样分布的的规律比较样本均值的

20、分布与总体分布,得出如下结论:(1)样本均值的数学期望 等于总体均值,即E( )=。(2)在重复抽样条件下,样本均值的方差等于总体方差的1/n,或者说,样本均值的标准误 。(3)如果总体服从正态分布,即xN(,2),那么样本均值也服从正态分布,即 N(,2/n)。(4)如果总体不服从正态分布,那么当样本量足够大时,样本均值 也服从正态分布。中心极限定理,概括为:设从均值为、方差为 2的一个任意总体中随机抽取容量为n的样本,当n足够大(n 30)时,样本均值的抽样分布近似服从均值为、方差为2/n的正态分布。 37样本比例例的抽样样分布样本比例例的抽样样分布,是在重重复抽取取容量为为n的样样本时,

21、由样本本比例的的所有可可能取值值形成的的相对频频数分布布。比较样本本比例的的分布与与总体分分布,得得出如下下结论:当样本容容量足够够大时,样本比比例的抽抽样分布布近似地地服从正正态分布布,样本本比例的的数学期期望等于于总体比比例,即即E(p)=;在重复复抽样条条件下,样本比比例的方方差为总总体方差差的1/n,即即样本比例例的中心心极限定定理设从比例例为、方差为为2的一个任任意总体体中随机机抽取容容量为n的样本,当n足够大(n30)时时,样本本比例的的抽样分分布近似似服从比比例为、方差为为(1-)/n的正态分分布。样本比例的方差:样本比例的标准误: 38正态分布布及标准准值Z正态分布布有以下下几

22、个重重要特征征:正态曲线线呈钟形形,曲线线下的面面积等于于1,表表明它包包括了所所有的调调查结果果。在正态曲曲线下任任意两个个变量值值之间的的面积,等于在在这一范范围内随随机抽取取一个观观察对象象的概率率。例如如,任意意抽取一一个样本本单元,IQ分分数落在在55-145之间的的概率是是99.72%,即图图10-3中正正态曲线线下55-145之间间的面积积。所有的正正态分布布在平均均数1个标准准差之间间的面积积相同,都占曲曲线下方方面积的的6826。这是是正态分分布的比比例性,为统计计推断提提供了基基础。一个正态态分布的的特殊性性由其平平均数和和标准差差决定。39标准正态态分布标准正态态分布是是

23、一种平平均值等等于0、标准差差等于1的正态态分布(如图10-4)。研究者可可以将任任何正态态变量X转换为标标准正态态变量值值(标准准值)Z。计算方方法就是是,用将将要进行行转换的的值中减减去均值值,然后后再除以以标准差差。即求出标准准值Z之后,就就可以查查阅正态态分布表表(附录录B-2),得得到Z值值的标准准正态分分布曲线线下的面面积(概概率)。 式中,x 变量值; 平均数的假设或预期值; 变量的标准差。40104参参数估计计参数估计计就是根根据从样样本中收收集的信信息对总总体参数数进行推推断的过过程。样本估计计量(如样本本均值、比例等等)都是是随机变变量,在在具有特特定概率率(抽样样)分布布

24、的样本本之间有有所变化化。参数数估计就就是根据据推断理理论所阐阐明的抽抽样分布布与总体体分布之之间的关关系,由由样本统统计量的的具体值值估计总总体参数数(如总总体均值值、比例例和方差差等)。参数估计计有两种种估计方方法:点估计区间估计计41总体参数数的点估估计点估计就就是用样样本的估估计量直直接作为为总体参参数的估估计值。例如,用样本本均值直直接作为为总体均均值的估估计,或或者用两两个样本本均值之之差直接接作为总总体均值值之差的的估计。点估计是是容易做做到的,但是,点估计计没有给给出估计计值接近近总体参参数程度度的信息息。当样本均均值与总总体均值值不完全全相同时时,样本本均值与与实际总总体均值

25、值就存在在着差距距,形成成抽样误误差。42总体参数数的区间间估计区间估计计:在点点估计的的基础上上,对总总体参数数的区间间或范围围进行估估计。区间估计计不仅要要说明区区间大小小,还要要说明点点估计值值在区间间内的概概率,即即置信度度。置信信度是一一个百分分比,用用来说明明结果正正确的长长期概率率。被估估计的区区间则被被称为置置信区间间。根据样本本统计量量的抽样样分布理理论,总总体参数数的区间间范围是是在一定定的概率率度下,由样本本统计量量加减抽抽样误差差而得到到。43总体均值值的区间间估计在SRS抽样情情况下,样本统统计量的的抽样分分布均服服从正态态分布。可使用用正态分分布统计计量Z来描述总总

26、体均值值的区间间估计,将总体体均值区区间估计计表达为为:= 在上式中, 代表一定置信度下的Z值。注意,应除以2,以便确定均值的每一边所包含曲线下区域的百分比。 代表样本均值的标准误, 当未知,用S来估计,样本均值的标准误: 当已知,样本均值的标准误的估计公式: 44总体均值值的区间间估计t-分布若调查从从总体中中随机抽抽取一个个很小样样本(n 30),则则样本均均值的抽抽样分布布服从自自由度为为(n-1)的t-分布(较较正态分分布平坦坦和分散散)。随着自自由度增增大,t分布也逐逐渐趋于于正态分分布。在在上述假假设条件件下,使使用t分布统计计量(附附录B-3)来来估计总总体均值值的置信信区间。t

27、分布条件件下总体体均值置置信区间间的估计计方法与与正态分分布条件件下非常常类似,只是查查t分布表需需要考虑虑自由度度为(n-1)。统计量 t(n-1) 总体置信区间 = 45总体均值值的区间间估计例题例107某银行收收集到由由36信用卡用用户组成成的随机机样本,得到各各用户年年龄(周岁)数据如下下23,35,39,27,36,44;36,42,46,43,31,33,42,53,45,54,47,24,34,28,39,36,44,40,39,49,38,34,48,50,34,39,45,48,45,32。试建立信信用卡用用户年龄龄90%的置信区区间。已知n=36,1- = 90%,Z/2=

28、1.64。根据样本数据计算得: =39.5,s=7.77 则,信用卡用户总体平均年龄在90%置信水平下的置信区间为: =39.51.64 =39.52.12 =(37.38,41.62)结论是:在90%的置信度下,信用卡用户的平均年龄为37.3841.62岁。 = 46总体比例例的区间间估计总体比例例的区间间估计假假定总体体服从二二项分布布。二项项分布是是指重复复进行n次试验,出现“成功”的次数数的概率率分布。总体比比例的抽抽样分布布仍然可可以由正正态分布布来近似似,即适适用中心心极限定定理。使使用正态态分布统统计量Z来描述总总体比例例的区间间估计,将总体体比例区区间估计计表达如如下:= p

29、在上式中, 代表一定置信度下的Z值。注意,应除以2,以便确定比例的每一边所包含曲线下区域的百分比。 代表样本比例的标准误, 当未知,样本比例的标准误的估计式: 当已知,样本比例的标准误的估计式: 47总体比例例的区间间估计例例题例108某商业公公司想要要估计经经常光顾顾其大型型购物中中心中女女性所占占的比例例,随机机地抽取取了400名经常性性顾客,发现其其中260名为女性性。试以95%的置信水水平估计计经常光光顾该大大型购物物中心中中女性比比例的置置信区间间。解:已知 n=400,p65%=0.65, 1- = 95%,Z/2 =1.96 则,总体比例在95%置信水平下的置信区间为: =0.6

30、51.96 =0.650.047 =(0.603,0.697)结论:在95%的置信度下,经常光顾该大型购物中心中女性比例的置信区间为60.3%69.7%。 = p 48总体方差差的区间间估计在重复选选取容量量为n的样本时时,由样样本方差差的所有有可能取取值形成成的相对对频数分分布,构构成样本本方差的的抽样分分布。对于来自自正态总总体的简简单随机机样本,则(n-1)倍的样样本方差差与总体体方差的的比值的的抽样分分布服从从自由度度为(n-1)的的2分布,即即2(n -1) 2分布的特特性总体方差差的区间间估计提提供了理理论依据据。当总总体服从从正态分分布时,总体方方差2的点估计计量为s2。借助2分

31、布表(附录B-4)可以查查得21-/2和2/2分布曲线线下的面面积(概概率)。然后,可以给给出总体体方差在在1-置信水平平下的区区间估计计:49105 样本本量的确确定样本量的的确定问问题,首首先涉及及对总体体参数估估计值的的精度要要求,同同时也涉涉及与各各种运作作限制(如可获获得的预预算、资资源和时时间)之之间的平平衡问题题。理论上,总体参参数估计计的精度度取决于于抽样误误差和非非抽样误误差两类类误差的的大小。但是,确定样样本量是是为控制制抽样误误差,而而不是对对非抽样样误差进进行控制制,进而而提高对对总体估估计的精精度。50估计精度度与样本本量的关关系总体参数数的置信信区间可可以描述述为:

32、总体参数数=总体参数数的估计计值抽抽样误差差的范围围显然,估估计精度度取决于于抽样误误差大小小。假设设用E来定义抽抽样误差差范围,则当简简单随机机选择一一个容量量足够大大(n30)的的样本时时,样本本均值的的抽样误误差范围围可以表表示为:抽样误差差的范围围是估计计量标准准误的倍倍数,乘乘数因子子取决于于在调查查估计中中所希望望达到的的置信水水平。在放回(重复)的SRS抽样样条件下下,假设设回答率率为100%,则样本本均值的的标准误误公式可可用来解解释估计计精度与与样本量量之间的的基本关关系:E51估计精度度与样本本量无论是重重复抽样样还是不不重复抽抽样,抽抽样误差差的大小小(即估估计精度度)与

33、样样本量紧紧密相关关:随着样本本量的增增加,对对应估计计量的抽抽样标准准差就会会不断减减小,调调查估计计的精度度则会不不断提高高。同理,当当要求不不断提高高调查估估计值的的精度要要求时,所需样样本量也也会不断断增加。样本量要要根据估估计所要要求的精精度来计计算和确确定。下下面的讨讨论分为为两部分分:对初始样样本量的的确定及及考虑复杂情况况的考虑虑及对初初始样本本量的调调整52初始样本本量的确确定1给定定总体均均值估计计精度下下确定初初始样本本量初始样本本量基于于以下假假定:抽抽样采用用放回的的SRS抽样,并且调调查回答答率为100%。样本均值的标准误表示为: 抽样误差范围表示为:E 从上式中解

34、得样本量n: 从公式看出,样本容量n与置信系数和总体方差成正比,与边际误差成反比。为确定样本量n,需要知道允许的抽样误差范围E、与给定置信水平相对应的标准值Z、总体方差估计2。53初始样本本量的确确定2给定定比例估估计精度度下确定定初始样样本量初始样本本量基于于以下假假定:抽抽样采用用放回的的SRS抽样,并且调调查回答答率为100%。样本比例的标准误表示为: 抽样误差范围表示为:E 从上式中解得样本量n: 从公式看出,样本容量n与置信系数和总体方差成正比,与边际误差成反比。为确定样本量n,需要知道允许的抽样误差范围E、与给定置信水平相对应的标准值Z、总体比例 。54对样本量量基本公公式的应应用

35、考虑虑在确定初初始样本本量的公公式中,抽样误误差范围围假定已已知。但但在实践践中,如如何确定定调查估估计的精精度水平平(抽样样误差范范围),却是一一个值得得思考的的问题。1多大大的抽样样误差对对调研目目标而言言可以接接受常用95的置置信度、6的抽样样误差范范围对客客户的调调查目标标是否适适宜,估估计值是是否需要要更高或或者更低低的精度度?2是否否需要对对调查总总体中的的子总体体(域)进行估估计例如,对对一项全全国性抽抽样调查查而言,主办者者可能要要求对全全国估计计的抽样样误差范范围为3;但是对对于省级级估计值值,抽样样误差范范围可能能确定为为5;而对对于地市市的估计计值,10的抽样样误差范范围

36、就足足够了。55对样本量量基本公公式的应应用考虑虑3相对对于调查查估计值值的抽样样误差应应该多大大为宜例如,政政府要决决定是否否执行为为某种使使用人数数较少的的语种提提供服务务的新政政策,假假定做出出决定的的前提,是至少少有5%的人群群对这一一语种存存在需求求。在这这里,p005就就是要确确定的最最小估计计值。相相对于该该估计值值,必须须规定更更小的抽抽样误差差范围,如001(即即,置信信区间为为005001)。4精度度要求的的实际含含义是什什么随着样本本量的增增加,估估计值的的精度也也将提高高。然而而,精度度的得益益并不与与样本量量的增加加成正比比。如表表10-10中中描述的的例子。 样本量

37、抽样误差范围50100500100001386009800043800310表10-10简单随机机抽样估估计比例例P的样本量量与抽样样误差范范围(当P=05)56关于确定定样本量量的现现实复杂杂考虑在确定样样本量基基本公式式之外,又有一一些现实实因素影影响调查查估计量量的精度度,进而而影响样样本量。这些因因素主要要包括总体指标标的变异异程度总体大小小,样本设计计和所用用的估计计量以及回答答率57关于确定定样本量量的现实实复杂考考虑1总体体的变异异程度随着调查查总体中中所研究究指标的的实际变变异程度度的增加加,样本本量也必必须随之之增大,以满足足估计的的精度要要求。为确保达达到调查查要求的的精度

38、,在计算算样本量量时,建建议对某某一指标标的总体体变异程程度采取取保守估估计,即即假定研研究指标标具有最最大的变变异程度度。例如如,对于于二元变变量,应应该假定定总体中中该变量量的变异异程度为为50-50对半半平分,即假定定p=05。为确保样样本量对对所有的的研究指指标都足足够大,应该根根据最大大变异程程度或被被认为最最重要的的指标来来确定样样本量。58关于确定定样本量量的现实实复杂考考虑2总体体大小在基本公公式中,样本量量的确定定似乎与与总体大大小没有有关系。因为当当时假定定在大总总体中进进行有放放回的重重复抽样样,抽样样总体的的影响被被忽略掉掉了。然然而,在在调研实实践中,总体单单元数量量

39、可能是是有限的的,而且且可能采采取非重重复抽样样,这时时总体大大小对样样本容量量的影响响就应该该被考虑虑进来了了。在样本不放回的非重复抽样条件下 样本均值的标准误表示为: 抽样误差范围表示为:E 从上式中解得样本量:在样本不放回的非重复抽样条件下 样本比例的标准误: 抽样误差范围表示为:E 从上式中解得样本量:59关于确定定样本量量的现实实复杂考考虑3样本本设计和和估计量量当使用复复杂的样样本设计计时,估估计值可可能比SRS精精确。当当估计值值更精确确时,称称所采用用的样本本设计更更为有效效。因此此,实际际抽样时时必须考考虑实际际所用抽抽样设计计的效率率,并对对初始样样本量做做出调整整。即,在

40、SRS抽样样的样本本量计算算公式基基础上乘乘以一个个设计效应应因子。设计效应应(Deff)是指在给给定抽样样设计下下估计值值的抽样样方差,与相等等样本量量下的简简单随机机抽样的的估计值值的抽样样方差之之比。设某一抽样设计样本估计值的方差为 ,同等样本量的SRS设计的样本估计值的方差为 ,则抽样设计效应: Deff = 显然,对于简单随机抽样设计,Deff=1;若Deff1,表明实际使用的抽样设计的效率高于简单随机抽样;若Deff1,表明实际使用的抽样设计的效率低于简单随机抽样。特定抽样设计所需的样本量(n1)调整为:n1=n0Deff 60关于确定定样本量量的现实实复杂考考虑4调查查的回答答率调查回答答率是指调查查回收的的有效问问卷数占占计划访访问的样样本数量量的百分分比。在在执行抽抽样过程程中,会会出现无无效问卷卷,这意意味着计计划样本本量中的的一部分分无法产产生有效效数据,并导致致估计精精度的降降低。为为达到估估计精

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论