样本量的确定方法_第1页
样本量的确定方法_第2页
样本量的确定方法_第3页
样本量的确定方法_第4页
样本量的确定方法_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、样本量的确定方法 (2008-10-14 09:12:34)一、样本单位数量的确定原则一般情况下,确定样本量需要考虑调查的目的、性质和精度要求。以及实 际操作的可行性、经费承受能力等。根据调查经验,市场潜力和推断等涉及量 比较严格的调查需要的样本量比较大,而一般广告效果等人们差异不是很大或 对样本量要求不是很严格的调查,样本量相对可以少一些。实际上确定样本量 大小是比较复杂的问题,即要有定性的考虑,也要有定量的考虑;从定性的方 面考虑,决策的重要性、调研的性质、数据分析的性质、资源、抽样方法等都 决定样本量的大小。但是这只能原则上确定样本量大小。具体确定样本量还需 要从定量的角度考虑。从定量的

2、方面考虑 , 有具体的统计学公式 , 不同的抽样方法有不同的公式。归纳 起来,样本量的大小主要取决于:(1) 研究对象的变化程度,即变异程度;(2) 要求和允许的误差大小,即精度要求;(3) 要求推断的置信度,一般情况下,置信度取为 95%;(4) 总体的大小;(5) 抽样的方法。也就是说,研究的问题越复杂 ,差异越大时 ,样本量要求越大;要求的精度越高, 可推断性要求越高时 , 样本量也越大;同时 , 总体越大 , 样本量也相对要大 , 但 是, 增大呈现出一定对数特征 , 而不是线形关系;而抽样方法问题 , 决定设计效应 的值, 如果我们设定简单随机抽样设计效应的值是 1;分层抽样由于抽样

3、效率高 于简单随机抽样,其设计效应的值小于 1, 合适恰当的分层,将使层内样本差异 变小,层内差异越小,设计效应小于 1 的幅度越大;多阶抽样由于效率低于简 单随机抽样,设计效应的值大于 1, 所以抽样调查方法的复杂程度决定其样本量 大小。对于不同城市 , 如果总体不知道或很大 , 需要进行推断时 , 大城市多抽 , 小 城市少抽 ,这种说法原则上是不对的。实际上 , 在大城市抽样太大是浪费 ,在小城 市抽样太少没有推断价值。二、样本量的确定方法如何确定样本量 ,基本方法很多 , 但是公式检验表明 ,当误差和置信区间一 定时,不同的样本量计算公式计算出来的样本量是十分相近的, 所以,我们完全可

4、以使用简单随机抽样计算样本量的公式去近似估计其他抽样方法的样本量 , 这样可以更加快捷方便,然后将样本量根据一定方法分配到各个子域中去。所 以,区域二相抽样不能计算样本量的说法是不科学的。1简单随机抽样确定样本量主要有两种类型 :1)对于平均数类型的变量对于已知数据为绝对数 , 我们一般根据下列步骤来计算所需要的样本量。已 知期望调查结果的精度 (E), 期望调查结果的置信度 (L), 以及总体的标准差估计值c的具体数据,总体单位数No计算公式为:n= c 2/(e 7z2+/N)特殊情况下 ,如果是很大总体 , 计算公式变为 :n= Z 2c 2/e 2例如希望平均收入的误差在正负人民币 3

5、0元之间 ,调查结果在 95%的置信范围以内,其95%的置信度要求Z的统计量为1.96。根据估计总体的标准差为150元,总体单位数为 1000o样本量 :n=150*150/(30*30/(1.96*1.96)+150*150/1000)=88(2) 于百分比类型的变量对于已知数据为百分比,一般根据下列步骤计算样本量。已知调查结果的精度值百分比 (E), 以及置信度 (L), 比例估计 (P) 的精度 , 即样本变异程度,总体数为No则计算公式为 :n=P(1-P)/(e2/Z2+ P(1-P)/N)同样, 特殊情况下如果不考虑总体 , 公式为 :n= Z P(1-P)/e一般情况下,我们不知

6、道P的取值,取其样本变异程度最大时的值为0.5 o例如: 希望平均收入的误差在正负 0.05 之间,调查结果在 95%的置信范围以内其 95%的置信度要求 Z 的统计量为 1.96 ,估计 P 为 0.5, 总体单位数为 1000。样 本量为 :n=0.5*0.5/(0.05*0.05/(1.96*1.96)+0.5*0.5/1000)=2782. 样本量分配方法以上分析我们获得了采用简单随机抽样公式计算得到的样本量,总的样本 量需要在此基础上乘以设计效应的值得到。由于样本总量已经确定, 我们采用总样本量固定方法分配样本 , 这种方法包括按照比例分配和不按照比例分配两类。 实际工作中首先计算取

7、得区县总的样本量 , 然后逐级将其分配到各阶分层中 ,如 果不清楚各阶分层的规模和方差等 , 一般采取比例分配或者比例平方根分配法。 如果有一定辅助变量可以使用,可以采用按照规模分配法分配样本量。3. 样本量和总体大小的关系 :在其它条件一定的情况下,即误差、置信度、抽样比率一定,样本量随总 体的大小而变化。但是,总体越大,其变化越不明显;总体较小时,变化明显。 其变化趋势如下:二者之间的变化并非是线性关系。所以,样本量并不是越大越好,应该综 合考虑,实际工作中只要达到要求就可以了。三、抽样调查方案样本量的确定我们决定首先采取简单随机抽样的方法计算区县的样本量,之所以首先对 区县计算样本量 ,

8、 主要是考虑,虽然我们方案中没有要求对区县的估计量,但是 区县一级是我们做计划和决策的基础,具有承上启下的作用,如果区县级获得 的估计量精度比较高,就可以保证上一级的估计量具有更高的精度,而且各个 区县的样本量可以认为是相同的,这主要是因为各个区县的总体数都比较多, 而且我们也不清楚;同时也不可能事先进行区县方差估计。没有首先计算区县 以下各阶分层的样本量 , 主要是考虑 :(1)如果计算区县以下某阶分层的样本量 , 然后再将计算的样本量合并 ,将 显著增加样本量,增加基层的负担。(2)事实上 ,对于计算阶可以比较好的得到它的估计量 , 但我们现在不需要 得到区县以下各阶分层的估计量 , 我们

9、仅仅需要区县的估计量 , 没有必要计算区 县以下阶样本量。( 3)我们直接对整个区县以简单随机抽样进行抽取, 然后将其样本量合理分配到各阶分层中 , 这样可以使用较少样本量得到区县较好的估计量。以下我们以试点地区批零业为对象进行研究。由于没有误差限以及置信度 和抽样比率的值。我们可以采用常用参数 : 设定区县总体为很大 ,置信度是 95%, 抽样比率保守估计是 0.5, 抽样误差不能大于 15%,根据公式计算得到样本量为 43 个。由于采取多阶分层抽样 , 我们如何设定抽样设计效应呢 ?区县及以下是三阶 分层抽样 ,只要在各阶进行合适的分层,其设计效应应该在 2-3 之间, 我们在这 里取保守

10、值 3,那么得到本区县样本量是 129个, 这个样本量就可以根据新方案得 到区县要求误差内的估计值。1. 确定办事处、居委会、村委会样本量根据方案,每个居委会抽取样本 5-10 个,那么这个样本量是否可行呢 ?这里 涉及如何将区县样本分配到街道和居委会中去,根据方案要求,街道抽取采取 先分层,后对层内进行 PPS抽样;那么分配样本是否也采取同样方法呢?主要 看辅助变量与样本量之间的关联程度,方案中提供了两个辅助变量:人口数和 个体数,对于辅助变量是个体数的完全可以使用规模分配方法分配样本量,个 体数多的分配较多的样本量;对于辅助变量是人口数的如果采取规模分配方法, 由于人口数与一个地区的个体单

11、位数没有必然的联系,可能导致某些居委会的 个体数比较多,却分配了较少的样本量,使得居委会分层变的困难,同时使居 委会方差显著增大。而获得较多样本量的居委会,分层的效果和方差提高幅度 有限,故采用比例分配的方法可能更加合适一些。对于居委会村委会的抽取, 由于本阶可能存在市场内的抽样,分配复杂一些;如果本阶有市场内抽样,可 以适当减少居委会村委会的样本量, 但应该大于本阶样本量的 80%,由于市场内 抽样的特殊性,建议将本阶样本量全部分配给居委会村委会,我们所进行的试 点就是将样本全部分配给居委会;至于市场内抽样的具体实施,可以根据方案 操作完成。对居委会村委会层内,由于使用简单随机抽样完成,采用

12、比例分配 平均分配就可。在实际工作时 , 由于一个区县包括全部乡镇街道或其中的一个;根据方案, 区县抽取办事处的数量应该介于 12-4 个之间, 对应于抽中乡、镇、街道的全部 或其中一个,那么其每一个乡镇街道采取比例分配平均分配的样本量应该是 11-32 个之间;所抽中的居委会、村委会数量应该介于 16-48 个之间 , 如果个别 乡镇街道抽中的居委会是 2 个,则其居委会总数相应减少一些;最后 , 每个居委 会、村委会的样本量应该介于 3-16 个之间 , 大部分介于 5-10 之间。以上的讨论 没有考虑总体的大小 ,如果考虑到居委会、村委会的总体有限 , 则每个居委会村 委会的样本量可以减

13、少一些 , 具体可以采用以下公式得到具体样本量的调整数 :样本量n=n 1*N/(N+n1)。N是本地区总体,n1是给本地区分配样本量居委会样本量的调整数,应该作为本居委会样本量的底限。确定办事处、居委会村委会的样本量 , 与以下几点有关 :a) 估计量的误差、置信度,可以决定简单随机抽样的样本量b) 与采用的抽样方法有关系,它决定了设计效应的大小。例如:分层抽样的 设计效应值小于 1, 多阶抽样的设计效应值大于 1。可以决定整个抽样的样本量。c) 与每一阶的分层的数目有关系 , 所以, 应该重点考虑分层的问题 , 分层太 多, 没有必要;分层太少 , 导致层内的方差增大 , 可能影响估计值的

14、精度以及设计 效应的值 , 所以,在每阶分层时 , 应该合理考虑 , 使得样本的变异程度在层内达到 一个合理水平。根据以上原则,我们在包头的抽样试点共抽取 4个办事处 , 包括 14 个居委 会;一个乡 , 包括 4个村委会 , 经过清查共有批零业 1042个, 单位 70个;餐饮业 250个, 单位 3 个。由于我们使用人口数作为辅助变量,应该采用比例分配方法 平均分配样本量,这样每个街道办事处得到 26个样本 , 对于抽取 4个居委会的办事处, 每个居委会分配得到 7个样本;对于抽取 2个居委会的办事处 , 每个居 委会分配到 13 个样本。然后根据居委会总体对样本量做出调整,得到居委会实

15、 际样本量。2. 确定居委会村委会内分层样本量以上我们讨论如何分配给乡镇居委会村委会样本量 , 现在分析给居委会村 委会以下各层分配样本量 ,这一步 ,清查的工作就显得非常重要了 ,重点应该清 查规模、类别,首先是规模, 规模的大小不应该根据工商注册为单位或个体决定, 应该根据实际情况,即使是个体,如果规模较大,也应该归入大规模分层中, 这样就可以使得每层的样本变异程度显著降低,从而提高精确度。根据实际情 况可以包括两种:(1)如果全部是规模比较小的单位个体户,我们可以根据类别进行适当的 分组,将某一类单位比较多的单独分层;将另外类别比较少的,可以几类合并 进行抽取具体样本,分层不要多于 4 层,并保证每层的样本量不小于 2 个。由 于居委会样本量数目已经确定,我们可以直接采取比例分配方法,确定各层样 本量。(2)如果规模比较大的和规模小的并存,可以将规模比较大的单独分层, 不用考虑其中的类别;将规模较小的主要是个体户可以根据类别进行分层;其 中的难题是如何将样本量在规模大的和规模小的之间分配,因为大规模层内样 本变异程度有可能很大,应该抽

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论