抽样调查基本原理与样本设计_第1页
抽样调查基本原理与样本设计_第2页
抽样调查基本原理与样本设计_第3页
抽样调查基本原理与样本设计_第4页
抽样调查基本原理与样本设计_第5页
已阅读5页,还剩10页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、抽样调查的类型概率抽样:依据概率论的基本原理,按照随机原则进行, 避免抽样过程中的人为误差。非概率抽样:依据研究者的主观意愿、判断、是否方便等 抽取对象,误差较大,样本代表性无法保证。简单随机抽样系统抽样概率抽样分层抽样整群抽样多阶段抽样抽样方L|偶遇抽样非概率抽m判断抽样定额抽样滚雪球抽样非概率抽样方法1、偶遇抽样/方便抽样/自然抽样“碰到谁就选谁”。这种抽样方式表面上看与简单随机抽样一样。实则不然。 因为它不能保证总体中的每一个元素都有同样的被抽取机会。那些最先碰到、最容易碰到、最方便碰到的对象具有比 其他对象大得多的机会被抽中。因此,不能用偶遇抽样得到的样本来推论总体。在人大东门过街天桥

2、上拦截过往人群而开展的各式调查, 以及在当代商场拦截顾客而进行的有关化妆品、服装等各式 商品的调查,都属于这样的抽样。来自这种抽样的结果,当 然,也不能用来推论“全国”、“北京市”,哪怕是“人大附 近”的任何群体的情况。有些话题因为比较敏感、涉及隐私等原因,很多人不愿意 接受调查。但总会有一些人比较“积极”,“志愿”配合,接受调查。这种调查,也属于方便调查,其结果也不能用于推 断总体。这种抽样方式常常用来作为试验问卷的手段。2、判断抽样/目标抽样/立意抽样/主观抽样研究者依据自己研究的目标和主观的分析来选择和确定研究对象的抽样方法。这种抽样首先要确定抽样标准。比如,为了体现莫个群体的 先进性,

3、我们在调查时刻意去 收集这个群体中那些特别先进的成员进行调查。由于标准的确定带有较大的主观性,故,用这种方法得到 结果与研究者的经验、对研究对象的熟悉程度等有较大关 系。所得结果不能用于推论总体。我们过去十分熟悉的“典型调查”,实际上属于这种主观调查。这种抽样方式 可以用来作为试验问卷的手段 ;还常用来对总体中的次级集合进行比较研究:比如,要对“左派”和“右派”进行对比分析,可以选择一个被认为是 “左派”的群体,和一个被认为是“右派”的群体,对该两群体的成员进行抽样调查。这种调查的结果并不能对“左派” 或“右派”进行完整的描述,但通过它们还是可以大致了解 二者间的一般差别。作为研究“异常案例”

4、的手段 :比如,为了对学生中“孤 独”者进行研究,可以在学生集会上选取那些“躲在角落” 的学生或者那些根本不参加学生活动的学生进行调查。3、定额抽样/配额抽样根据总体中具有不同特征的成员的比例来确定样本在相应特征方面的分布。配额抽样假定:(1)只要类型划分较细,那么,同一类型中的每一个个体都是同质的,因而无须采用随机抽样。(2)只要类型划分合理,且分配给各类的名额符合总体中各类人 员的分布,那么,样本就可以准确地反映总体。上述假设在理论上是成立的。但是,在实施过程中却难以 做到。(1)难以获得有关总体的众多属性分布材料;或者, 即使能够获得相应的材料,在选择样本时也无法一一顾及总体的所有属性,

5、而只能照顾到总体的莫些主要属性。(2)有关总体分布变化的最新信息常常难以获得,因而配额分配的 合理性就难以保证,这可能成为影响调查结果的致命因素, 例如,1948年美国总统选举预测。选举之前,盖洛普等民意 测验机构预测杜威会战胜杜鲁门成为总统,但他们失败了。原因之一是:他们使用了配额抽样的调查方法,所使用的选 民配额比例是1940年人口普查所提供的选民结构数据。但 是,二战促使大量美国人从农村涌入城市,从1940年到1948年,美国人口的城乡结构发生了巨大变化。从分城乡人口的 政治倾向来看,农村人口更支持共和党,城市人口更支持民 主党。这样,当调查者在使用过时的人口城乡结构资料进行 配额调查时

6、,就可能错误地预测选举结果。4、滚雪球抽样先收集目标群体少数成员的资料,然后再向这些成员询问相关信息,我由他们认识的其他总体成员。这种方法产生的样本代表性受到怀疑,因而它常常用于探索性研究。在特定总体的成员难以找到时,这种方法是最合 适的抽样方法。比如,对吸毒者、同性恋者、非法移民、地 下组织成员的调查等的调查。概率抽样: 一、常见的几种概率抽样方式:简单随机抽样概率抽样的最基本形式。按等概率的原则从含有 N个元素的总体中随机抽取 n个元 素组成样本(Nn)o常见的实施方式:1、抓阉方式步骤:获取全体总体元素(N个)一一给每个元素编上号一一 将这些号置于一装置中,并搅拌均匀一一从装置中随便抽

7、出n个元素,这些元素构成样本。2、使用随机数表抓阉方式在日常生活中比较常见。但是,当N很大时,要完成所有元素逐一书写号码、置于装置中、搅拌均匀等工作 是十分困难的,甚至是不可能的。这时,一个更可行的方式是使用随机数表。获取全部总体元素(抽样框)一一将所有元素一一按顺 序编号一一用随机数表抽选 n个元素:首先确定随机数表 的起点;确定如何选择随机数的原则;按照确定的原则,在 随机数表上逐一获取随机数,与抽样框的编号比对,符合者 被选中,直到选取 n个元素为止。简单随机抽样是概率抽样的理想类型,没有偏见,简单易 行,并且在用样本统计值对总体参数进行推断时,有很健全 的规则。简单随机抽样的不足:总体

8、元素的数量太大时,采用这种 方式不仅费时,工作量大,而且费用很高;更重要的是,当 总体异质性大时,使用这种方式的误差比较大。课下实践:我们都很希望知道自己的英文(中文)词汇量。如何测定自己的词汇量呢?试设计用简单随机抽样方法测定自己英文词汇量的抽样方案。分层抽样1、什么是分层抽样?所谓分层抽样,就是这样一种抽样方法:先将总体按照一 种或者几种特征分为若干个子总体(类、群),每一个子总体称为一层;然后从每一层中随机抽取一个子群体;将这些 抽中的子群体合在一起构成总体的样本。分层的原因:社会现象的复杂性和异质性。2、分层抽样的优点:第一,当总体异质性较高时,分层能够克服简单随机抽样 的弱点:从不同

9、的层中抽取样本,保证了样本结构与总体结构的尽可能相似,从而改善了样本对总体的代表性。第二,有些调查不仅要了解总体的情况,而且还要了解莫 些类别的情况。分层抽样可以同时满足这两个方面的要求, 因为我们可以将每个层本身当成一个总体来处理。3、如何分层?常用的分层原则是:(1)以所要研究的变量或主要相关变量作为分层的标准。分层的理想变量是所要研究的变量。比如,要研究家庭购书量,最好的办法是以年购书量为标准,将家庭分为购书 04本,59本,1014本,15-19 本,20本以上等类别,然后从这些类别中抽取家庭。但是,在实际的抽样设计过程中,这种办法不可行,因为 在调查结束之前,我们基本无法了解家庭的购

10、书情况,因而 也就无从进行这样的分层。有效的替代办法是:寻找与研究变量高度相关的变量,依 据这样的变量来对总体进行分层。比如,研究发现,家庭成 员的受教育程度高低以及家庭中是否有在校学生这两个变 量与一个家庭的购书两有十分密切的关系。于是,我们可以 根据这两个变量来对总体进行分层。(2)分层时,力争使层内同质性高,层间的异质性高。(3)选用那些已有明显层次区分的变量作为分层变量。比如,以往的社会研究发现, 性别、年龄、受教育程度、职 业等对很多社会属性都有直接的影响作用。因此,这些变量常常作为分层的依据。4、分层的比例问题在不同的层中抽取多少元素,这是分层抽样需要解决的一个重要问题。常见的办法

11、有二:等比例分层抽样、不等比例分层抽样。(1)等比例分层抽样:各层抽中的元素数量的比例关系与总体中各层的数量的比例关系相同。优点:样本的结构与总体的结构相同,便于推断。(2)不等比例分层有时候(比如,总体中莫层的元素数量极少时),不适合进行等比例分层,此时,特别小的层被抽中的元素数会特别 少,无助于对这种层的了解。此时,可以进行不等比例分层抽样:人为地加大规模较小 的层的元素被抽中的机会。这样得到的样本就可能使我们对 规模较小的层也有充分了解。但是,这样得到的样本的结构与总体的结构不一致,不能 直接进行推断。如果要用这样的样本推断总体,需要样本进行加权处理。等距抽样(系统抽样 /机械抽样)将构

12、成总体的单位进行编号排序后,计算由抽样间距,然 后按该固定的间距抽取个体的号码来组成样本的抽样方法。抽样步骤:(1)制定抽样框:给总体的每一个单位按顺序编号。(2)计算抽样间距K:抽样间距K等于总体规模除以样 本规模。(3)在抽样框的最前面 K个单位中,采用简单随机抽样 的方法抽取一个单位(设该单位的编号为A),该单位为样本的第一个单位。(4)在抽样框中,自A开始,每隔K个单位抽取一个单 位,A, A+K , A+2K ,A+(n-1)K。(5)上述被抽中的单位构成样本。等距抽样的优点:与简单随机抽样相比,它更简单易行, 特别是当总体规模及样本规模都比较大时,这一优点更显突 由。正因为这一优点

13、,在实际的调查研究中,等距抽样比简 单随机抽样更多地被采用。使用等距抽样的注意事项:相对于研究的变量而言,总体 元素的排列顺序应该是随机的,而不能由现与研究变量相关 的规则分布。否则,抽样结果有可能由现系统的偏差。由现这类偏差的典型情况是:情况1:总体元素的排序是按照研究变量的高低(大小)进行的。一旦N和n确定后,K也确定了。这日t候,起点 A可能发挥重要作用。在一个依据研究变量从大到小顺序配料 的抽样框中,起点A越靠近整个抽样框的起点, 则抽选的样 本的均值越大;反之,起点 A越远离整个抽样框的起点,则 抽选的样本的均值越小。情况2:在抽样框中,总体元素的排列存在与抽样间距相同的周期性分布。

14、比如,在人民大学的 1栋教师住宅楼中,有 18层,每层 有8套住房。在每层中,1号住房面积最小,2号略大,3号 更大,8号最大。101 , 102,108201, 202,208,1801, 1802,1808。一个研究者希望研究该居民楼住户的家庭规模、家庭结构等。他用等距抽样的方式选择调查的住户。恰好他的抽样间距 K等于每层的套房数 8。这个时候,他的抽样就面临比较严重的调整了。为什么?原来,人民大学当初在“分配”住房时,是严格按照职称(职务)来进行的。总起来讲,职称(职务)高的人是年龄比较大,资格比较老的人,他们集中地住在各层的7或8号房。而年龄小、资历浅的人则高度集中在各层的1或2号房。

15、与此同时,年龄又高度地和一个人的家庭结构、家庭规模等 相关。这样,这个研究者不论是抽中 1号房,还是8号房,抑或 别的任何一组住房,都会由现系统的偏差。所以,在使用等距抽样的方法时,在编制抽样框的过程,要特别注意避免上述情况的由现。整群抽样整群抽样与前3种抽样方法最大的不同在于:前3种抽样的抽样单位就是总体的元素;而整群抽样的抽样单位是由总 体元素构成的群体。抽样步骤:先从总体中随机抽取一些由元素构成的群体,然后由所抽中的群体的全部元素构成样本。比如,在研究人民大学学生消费情况时,先从全校1000个班级中抽选10个班级,然后对这10个班级的全体同学进 行调查。整群抽样的优点:由于在整个抽样过程

16、中,组织者接触和 处理的对象由总体元素变为群体,这样就使得资料收集工作 的难度大大降低,从而降低了工作的复杂程度,节省调查费 用。也因为如此,在实际的社会调查研究中,整群抽样方法应 用非常普遍。整群抽样的不足:样本的分布面不广,样本对总体的代表 性相对缩小。为了克服上述不足,解决的办法之一是适当地扩大被调查 的群的数量。另外,在抽样设计时,要精心研究总体的特点。当构成总 体的各个群体之间的差别不大,而群内差异较大时,适宜于 选用整群抽样方法。(与此形成对比的是,在分层抽样中, 我们主张,在层间差异大、层内差异小时,适合于采用分层 抽样。)多阶段抽样:在抽选样本时不是一次直接从总体中抽取, 而是

17、分两个或两个以上的阶段来进行。二、概率抽样程序1、界定总体所确定的总体必须是研究目标所要考察的那一个总体。如果总体确定存在问题,抽样结果也将面临问题。反例:1936年美国总统大选,文摘杂志的调查:从电话号码簿和车牌登记簿中抽由1000万人进行调查。收回200万份调查表,结果为:候选人兰登得票57%,候选人罗斯福得票43% o =兰登将获胜。实际大选结果为:罗斯福得票61%文摘杂志为什么失败?原因之一:他们所界定的总体有问题!有电话或汽车的人 不等于全部选民。而且,1936年正是美国大萧条的后期,有 电话或汽车的人与全体选民之间的差距可能更大。他们确定 的这个总体排斥了穷人,而正是穷人在后来的选

18、举中选择了 罗斯福(穷人们支持罗斯福的新经济政策!)。2、确定抽样框确定抽样框很重要。但在实际调查中又非常困难。对抽样框的基本质量要求是:抽样单位与抽样框清单号码 要对应:第一,一个抽样单位不能对应两个及以上号码;第二,一个号码不能对应两个及以上抽样单位;第三,抽样框不能有遗漏(有些抽样单位未被包括到抽样 框中);第四,抽样框中不能有空缺(清单号码不能有空号)。3、决定抽样方案依据研究目的、现实条件等确定选择何种抽样方法。4、抽取样本需要注意的问题是:按照既定方案抽取的样本,在调查中不能任意更改。2000年普查中“长表”部分由现的一个问题就是极少数普查员在普查时更改长表被调查户,从而可能导致部

19、分长表项目失真。5、评估样本质量样本评估:对样本的质量、代表性、偏差等进行检验和衡量。主要方法是对一些重要指标的总体参数值和样本统计值进行比较。例如:2000年全国老年人生活状况一次性调查:第一阶段调查所得60岁以上老年人口的性别比为138 (58%: 42%)。这一结果表明该次调查在样本选择上由现了较大的偏差,必 然影响其代表性。(后来的补救办法:一是在性别比严重偏 高的省重新进行调查;二是在对数据的统计分析中,总体的 相应结构做权数加以调整。)三、样本设计的原则(1)目的性:样本设计要紧扣调查目的而进行。(2)可测性:能够从样本中计算由有效的估计值。非概 率抽样就基本不具备可测性。(3)可

20、行性:所设计的抽样方案在实践上是可行的。调 查组织者在设计过程中能够预见到实际抽样过程中可能由 现的各种问题,并对处理这些问题提由了可行的应对方法。(4)经济性:所设计的抽样方案要与所能支配和控制的资源相适应四、样本规模的确定影响样本规模的因素:(1)研究对象的变化程度,即变异程度;(2)要求和允许的误差大小,即精度要求;(3)要求推断的置信度。一般情况下,置信度取为95%(4)抽样的方法。不同抽样方法的设计效应是不一样的。一般地讲,研究的问题越复杂,差异越大时,样本量要求 越大;要求的精度越高,可推断性要求越高时,样本量也越 大;同时,总体越大,样本量也相对要大,但是,增大呈现由一 定对数特征,而不是线形关系;而抽样方法问题 ,决定设计效 应的值,如果我们设定简单随机抽样设计效应的值是1;分层抽样由于抽样效率高于简单随机抽样,其设计效应的值小于 1,合适恰当的分层,将使层内样本差异变小, 层内差异越小, 设计效应小于1的幅度越大。样本规模的确定方法:略如何确定样本量,基本方法很多,但是公式检验表明,当误差和 置信区间一定时,不同的样本量计算公式计算出来的样本量是

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论