下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、样本量的确定方法 (2008-10-14 09:12:34)一、样本单位数量的确定原则一般情况下, 确定样本量需要考虑调查的目的、 性质和精度要求。 以及实际操作的可行 性、经费承受能力等。 根据调查经验, 市场潜力和推断等涉及量比较严格的调查需要的样本 量比较大, 而一般广告效果等人们差异不是很大或对样本量要求不是很严格的调查, 样本量 相对可以少一些。 实际上确定样本量大小是比较复杂的问题, 即要有定性的考虑, 也要有定 量的考虑;从定性的方面考虑,决策的重要性、调研的性质、数据分析的性质、资源、抽样 方法等都决定样本量的大小。 但是这只能原则上确定样本量大小。 具体确定样本量还需要从 定
2、量的角度考虑。从定量的方面考虑 ,有具体的统计学公式 ,不同的抽样方法有不同的公式。 归纳起来, 样本量 的大小主要取决于:(1) 研究对象的变化程度,即变异程度;(2) 要求和允许的误差大小,即精度要求;(3) 要求推断的置信度,一般情况下,置信度取为95%;(4) 总体的大小;(5) 抽样的方法。也就是说 ,研究的问题越复杂 ,差异越大时 ,样本量要求越大; 要求的精度越高 ,可推断性 要求越高时 , 样本量也越大;同时 , 总体越大 , 样本量也相对要大 ,但是 ,增大呈现出一定对数 特征,而不是线形关系;而抽样方法问题 , 决定设计效应的值 , 如果我们设定简单随机抽样设 计效应的值是
3、 1;分层抽样由于抽样效率高于简单随机抽样, 其设计效应的值小于 1, 合适恰 当的分层, 将使层内样本差异变小, 层内差异越小,设计效应小于 1 的幅度越大; 多阶抽样 由于效率低于简单随机抽样,设计效应的值大于 1, 所以抽样调查方法的复杂程度决定其样 本量大小。对于不同城市 , 如果总体不知道或很大 , 需要进行推断时 , 大城市多抽 , 小城市少抽 这种说法原则上是不对的。 实际上 , 在大城市抽样太大是浪费 , 在小城市抽样太少没有推断价 值。二、样本量的确定方法如何确定样本量 ,基本方法很多 ,但是公式检验表明 ,当误差和置信区间一定时 , 不同的 样本量计算公式计算出来的样本量是
4、十分相近的 ,所以, 我们完全可以使用简单随机抽样计 算样本量的公式去近似估计其他抽样方法的样本量 , 这样可以更加快捷方便,然后将样本量 根据一定方法分配到各个子域中去。 所以,区域二相抽样不能计算样本量的说法是不科学的。1简单随机抽样确定样本量主要有两种类型(1) 对于平均数类型的变量对于已知数据为绝对数 , 我们一般根据下列步骤来计算所需要的样本量。已知期望调查 结果的精度(E),期望调查结果的置信度(L),以及总体的标准差估计值b的具体数据,总体单位数 N。计算公式为 :n= b 2/(e 2/Z 2+b 2/N)特殊情况下 , 如果是很大总体 , 计算公式变为 :n= Z 2b 2/
5、e 2 例如希望平均收入的误差在正负人民币 30元之间 ,调查结果在 95%的置信范围以内 , 其 95% 的置信度要求Z的统计量为1.96。根据估计总体的标准差为150元,总体单位数为1000。样本量 :n=150*150/(30*30/(1.96*1.96)+150*150/1000)=88(2) 于百分比类型的变量对于已知数据为百分比 , 一般根据下列步骤计算样本量。已知调查结果的精度值百分比 (E), 以及置信度 (L), 比例估计 (P) 的精度 , 即样本变异程度,总体数为N。则计算公式为 :n=P(1-P)/(e2/Z 2+ P(1-P)/N)同样,特殊情况下如果不考虑总体 ,
6、公式为 :n= Z 2P(1-P)/e 2一般情况下,我们不知道P的取值,取其样本变异程度最大时的值为0.5。例如 :希望平均收入的误差在正负 0.05 之间 , 调查结果在 95%的置信范围以内 , 其 95%的置信 度要求Z的统计量为1.96,估计P为0.5,总体单位数为1000。样本量为:n=0.5*0.5/(0.05*0.05/(1.96*1.96)+0.5*0.5/1000)=2782. 样本量分配方法以上分析我们获得了采用简单随机抽样公式计算得到的样本量,总的样本量需要在此基础上乘以设计效应的值得到。 由于样本总量已经确定 , 我们采用总样本量固定方法分配样本 , 这种方法包括按照
7、比例分配和不按照比例分配两类。 实际工作中首先计算取得区县总的样本 量, 然后逐级将其分配到各阶分层中 , 如果不清楚各阶分层的规模和方差等 , 一般采取比例分 配或者比例平方根分配法。 如果有一定辅助变量可以使用, 可以采用按照规模分配法分配样 本量。3. 样本量和总体大小的关系在其它条件一定的情况下, 即误差、 置信度、抽样比率一定,样本量随总体的大小而变化。但是,总体越大,其变化越不明显;总体较小时,变化明显。其变化趋势如下:二者之间的变化并非是线性关系。所以, 样本量并不是越大越好, 应该综合考虑, 实际 工作中只要达到要求就可以了。三、抽样调查方案样本量的确定我们决定首先采取简单随机
8、抽样的方法计算区县的样本量, 之所以首先对区县计算样本 量, 主要是考虑,虽然我们方案中没有要求对区县的估计量,但是区县一级是我们做计划和 决策的基础, 具有承上启下的作用, 如果区县级获得的估计量精度比较高, 就可以保证上一 级的估计量具有更高的精度, 而且各个区县的样本量可以认为是相同的, 这主要是因为各个 区县的总体数都比较多, 而且我们也不清楚; 同时也不可能事先进行区县方差估计。 没有首 先计算区县以下各阶分层的样本量 , 主要是考虑 :(1)如果计算区县以下某阶分层的样本量 , 然后再将计算的样本量合并 , 将显著增加样 本量,增加基层的负担。(2)事实上 , 对于计算阶可以比较好
9、的得到它的估计量 , 但我们现在不需要得到区县以 下各阶分层的估计量 , 我们仅仅需要区县的估计量 , 没有必要计算区县以下阶样本量。(3)我们直接对整个区县以简单随机抽样进行抽取, 然后将其样本量合理分配到各阶分层中 , 这样可以使用较少样本量得到区县较好的估计量。以下我们以试点地区批零业为对象进行研究。 由于没有误差限以及置信度和抽样比率的 值。我们可以采用常用参数 : 设定区县总体为很大 , 置信度是 95%,抽样比率保守估计是 0.5, 抽样误差不能大于 15%,根据公式计算得到样本量为 43 个。由于采取多阶分层抽样 , 我们如 何设定抽样设计效应呢 ?区县及以下是三阶分层抽样 ,
10、只要在各阶进行合适的分层, 其设计效 应应该在 2-3 之间 ,我们在这里取保守值 3, 那么得到本区县样本量是 129 个, 这个样本量就 可以根据新方案得到区县要求误差内的估计值。1. 确定办事处、居委会、村委会样本量根据方案 , 每个居委会抽取样本 5-10 个, 那么这个样本量是否可行呢 ?这里涉及如何将 区县样本分配到街道和居委会中去,根据方案要求,街道抽取采取先分层,后对层内进行 PPS抽样;那么分配样本是否也采取同样方法呢?主要看辅助变量与样本量之间的关联程 度,方案中提供了两个辅助变量: 人口数和个体数, 对于辅助变量是个体数的完全可以使用 规模分配方法分配样本量, 个体数多的
11、分配较多的样本量; 对于辅助变量是人口数的如果采 取规模分配方法, 由于人口数与一个地区的个体单位数没有必然的联系, 可能导致某些居委 会的个体数比较多, 却分配了较少的样本量, 使得居委会分层变的困难, 同时使居委会方差 显著增大。 而获得较多样本量的居委会, 分层的效果和方差提高幅度有限, 故采用比例分配 的方法可能更加合适一些。 对于居委会村委会的抽取, 由于本阶可能存在市场内的抽样, 分 配复杂一些; 如果本阶有市场内抽样, 可以适当减少居委会村委会的样本量, 但应该大于本 阶样本量的 80%,由于市场内抽样的特殊性,建议将本阶样本量全部分配给居委会村委会, 我们所进行的试点就是将样本
12、全部分配给居委会; 至于市场内抽样的具体实施, 可以根据方 案操作完成。 对居委会村委会层内, 由于使用简单随机抽样完成, 采用比例分配平均分配就 可。在实际工作时 , 由于一个区县包括全部乡镇街道或其中的一个;根据方案,区县抽取办 事处的数量应该介于 12-4 个之间 , 对应于抽中乡、 镇、街道的全部或其中一个, 那么其每一 个乡镇街道采取比例分配平均分配的样本量应该是 11-32 个之间; 所抽中的居委会、 村委会 数量应该介于 16-48 个之间 , 如果个别乡镇街道抽中的居委会是2个, 则其居委会总数相应减少一些;最后 , 每个居委会、村委会的样本量应该介于 3-16 个之间 , 大
13、部分介于 5-10 之间。 以上的讨论没有考虑总体的大小 , 如果考虑到居委会、 村委会的总体有限 , 则每个居委会村委 会的样本量可以减少一些 , 具体可以采用以下公式得到具体样本量的调整数 :样本量n=n 1*N/(N+n1) 。 N是本地区总体,n1是给本地区分配样本量居委会样本量的调整数,应该作为本居委会样本量的底限。确定办事处、居委会村委会的样本量 , 与以下几点有关 :a) 估计量的误差、置信度,可以决定简单随机抽样的样本量b) 与采用的抽样方法有关系 , 它决定了设计效应的大小。 例如 : 分层抽样的设计效应值小 于 1, 多阶抽样的设计效应值大于 1 。可以决定整个抽样的样本量
14、。c) 与每一阶的分层的数目有关系 , 所以 , 应该重点考虑分层的问题 , 分层太多 , 没有必要; 分层太少 ,导致层内的方差增大 ,可能影响估计值的精度以及设计效应的值 , 所以,在每阶分 层时 ,应该合理考虑 ,使得样本的变异程度在层内达到一个合理水平。根据以上原则,我们在包头的抽样试点共抽取 4个办事处 ,包括 14 个居委会;一个乡 , 包括 4个村委会 ,经过清查共有批零业 1042个,单位 70个;餐饮业 250个,单位 3个。由于 我们使用人口数作为辅助变量, 应该采用比例分配方法平均分配样本量, 这样每个街道办事 处得到 26个样本 , 对于抽取 4个居委会的办事处 , 每
15、个居委会分配得到 7个样本;对于抽取 2个居委会的办事处 ,每个居委会分配到 13 个样本。然后根据居委会总体对样本量做出调整, 得到居委会实际样本量。2. 确定居委会村委会内分层样本量以上我们讨论如何分配给乡镇居委会村委会样本量, 现在分析给居委会村委会以下各层分配样本量 , 这一步 , 清查的工作就显得非常重要了 , 重点应该清查规模、类别 , 首先是规模, 规模的大小不应该根据工商注册为单位或个体决定, 应该根据实际情况, 即使是个体, 如果 规模较大, 也应该归入大规模分层中, 这样就可以使得每层的样本变异程度显著降低, 从而 提高精确度。根据实际情况可以包括两种:(1)如果全部是规模比较小的单位个体户,我们可以根据类别进行适当的分组,将某 一类单位比较多的单独分层; 将另外类别比较少的, 可以几类合并进行抽取具体样本, 分层 不要多于 4 层,并保证每层的样本量不小于 2 个。由于居委会样本量数目已经确定, 我们可 以直接采取比例分配方法,确定各层样本量。(2)如果规模比较大的和规模小的并存,可以将规模比较大的单独分层,不用考虑其 中的类别; 将规模较小的主要是个体户可以根据类别进行分层; 其中的难题是如何将样本量 在规模大的和规模小的之间分配, 因为大规模层内样本变异程度有可能很大,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 广州卫生职业技术学院《自然地理学Ⅱ》2023-2024学年第一学期期末试卷
- 2025年河北建筑安全员知识题库及答案
- 2025云南省建筑安全员B证考试题库
- 2025年云南建筑安全员《C证》考试题库及答案
- 《急中毒总论》课件
- 《癌痛护理》课件
- 《返回总目录》课件
- 【物理课件】电压课件
- 上消化道出血病人的护理
- 课程《新编财务报表分析》课件(全)
- 糖尿病药物治疗分类
- 2024年时政热点知识竞赛试卷及答案(共四套)
- 除颤仪使用护理查房
- 2024版《糖尿病健康宣教》课件
- 2024年T电梯修理考试题库附答案
- 山东虚拟电厂商业模式介绍
- 2024年邮政系统招聘考试-邮政营业员考试近5年真题集锦(频考类试题)带答案
- 2023视频监控人脸识别系统技术规范
- 医学教案SPZ-200型双向道床配碴整形车操作保养维修手册
- 2024年四川省宜宾市叙州区六年级数学第一学期期末监测试题含解析
- 兽医学英语词汇【参考】
评论
0/150
提交评论