




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第四章抽样调查抽样与抽样调查抽样调查的优越性抽样的一般程序概率抽样方法非概率抽样方法样本容量的确定一、抽样与抽样调查是一种选择调查对象的程序和方法:从研究对象的整体中选出一部分代表加以调查研究,然后用所得结果推论和说明总体的特性。日常生活中的抽样调查同质性总体和异质性总体抽样的代表性问题概率论和数理统计学中理论证明:遵循随机原则的概率抽样可以保证抽选出有一定代表性的样本,并能够通过计算估计样本与总体间误差的大小以及这种估计的可信程度。
大数中心极限定理:在含有N个元素且平均数为,标准差为的总体中,抽取所有可能含有n个元素的样本,则所有可能的样本数目为。若用来分别表示这m个样本的平均数,那么样本平均数的分布将是一个随n越大越趋于具有平均数和标准差的正态分布。二、抽样调查的必要性与优越性必要性:1、现实生活中有些研究总体是不可能进行全面调查调查,如对产品的报废性质量检查(汽车碰撞试验等)。2、节约人力、物力,因为对有些研究总体来说,调查全体与只调查部分代表没有太大区别。3、对其他调查方法所得的资料的可信性的检验,尤其是对普查资料的修正与补充,必须进行抽样调查。三、常用的抽样概念与术语
研究总体与调查总体
分析单位与抽样单位
抽样框(抽样范畴)
参数值与统计值
抽样误差与系统误差(非抽样误差)置信水平与置信区间四、抽样的一般程序1、界定总体(1)对总体的基本构成单位,所包含的内容以及空间与时间范围等做出规定的过程,同时也是确定调查对象的总体的过程。(2)选择的标准A、理论方面考虑B、实践方面考虑达到目标:调查员在现场能够毫不犹豫的确定一个可疑情况是否属于调查总体。
2、
编制抽样框
总体按抽样单位划分的各个部分,这些部分必须互不重叠而且能够合成总体,然后毫不遗漏的编号排列成表,每个抽样单位唯一的与表上的一个号码对应,成为一个完整的抽样一览表。对于不同类型的总体,抽样框的形式也有不同。可以利用现成的花名册,或者人口普查资料等。当范围太大,没有现成的抽样框时,就要编制一个新的抽样框,一般需要花费巨大的人力、物力。在复杂多阶段抽样中,相应的各个阶段都需要有抽样框。
3、
决定抽样方案——对于不同研究目的,不同调查范围、对象和客观条件的社会调查,需要选择合适的抽样方法。还要根据调查的要求确定样本规模及主要目标量的精确程度。
4、实际抽取样本——严格按照所选定的抽样方法,从抽样框中抽取一个个抽样单位,构成调查样本。
5、
评估样本质量
对样本的质量、代表性、偏差等进行初步的检验和衡量,其目的是防止由于样本的偏差过大而导致的调查失误。基本方法:将可得到的总体有关的特征及其分布的资料与样本中的同类指标进行对比,若二者差别很小,则样本质量较高,代表性较大,反之样本质量不高。对样本的评估分为两个阶段:A、正式调查前,对抽出的样本进行评估B、调查结束后,计算抽样误差由样本统计值推论总体参数值等
五、抽样的类型六、概率抽样1、简单随机抽样(纯随机抽样)
(1)是最基本的随机抽样,也是最常见的类型。按随机的原则直接从含有N个单位的总体中,抽出M个单位作为样本进行调查。严格遵从了使每个单位有同等被抽中的原则。
(2)具体做法A、抽签法——将总体中每个单位的名称或号码,逐个填写在卡片或签条上,再放入同一容器中,打乱次序,进行搅拌,然后从中抽取,直到抽够预定的样本数目。
可分为:重复抽样、不重复抽样。抽签法的优点是简单易行,缺点是当总体的容量非常大时,费时、费力,又不方便。如果标号的签搅拌得不均匀,会导致抽样不公平。
B、随机数表法对于总体元素较多的情形,采用随机数表抽样随机数表的特点:随机数表中的数码和排列都是随机形成的,没有任何规律性(也称乱数表)。随机数表如下图所示(截取部分)步骤:先取得一份调查总体所有元素的名单(即抽样框);将总体中所有元素一一按顺序编号;根据总体规模是几位数来确定从随机数表中选几位数码;以总体的规模为标准,对随机数表中的数码逐一进行衡量并决定取舍;根据样本规模的要求选择出足够的数码个数;依据从随机数表中选出的数码,到抽样框中去找出它所对应的元素。例:某总体共有3000人,需要从中抽取200人作为样本进行调查,试用随机数表法进行抽样。(2)简单随机抽样方法适用对象:总体单位数目不大,总体单位之间差异程度较小的情况。简单随机抽样一般不单独使用。
(3)优点:最符合抽样的随机原则,简便易行。缺点:适用范围较小。
2、系统抽样(等距抽样或机械抽样)
定义:先把总体单位进行编号排序,然后计算出某种间隔,再按这一固定间隔抽取个体的号码组成样本。方法步骤
将总体的所有个体按一定顺序排号,前后排列,制定抽样框;计算抽样间距:K(抽样间距)=N(总体规模)/n(样本规模)在前面的K个个体中,用简单随机抽样的方法抽取一个个体,设其序号为A;自A开始,每隔K个个体抽取一个个体,则陆续抽取的个体所在位置序号为A,A+K,A+2K,……,A+(n-1)K。若抽到最后,仍不足所需样本时,可再回头累积抽取;将这n个个体和起来,就构成了该总体的一个样本。例:某大学有12000名学生,采用系统抽样的方法抽取200名学生作为样本。优点
A、与简单随机抽样相比,系统抽样易于实施,工作较少
B、样本在总体中分布更平均,抽样误差小于或至多等于简单随机抽样,结果更精确。缺点
A、较适用于同质性较高的群体:若总体内不同类别之间所含个体数目相差过于悬殊时,采用此种方法样本的代表性可能较差。
缺点
B、当总体的排列出现有规律的分布时,就会使系统的抽样误差很大,降低了样本的代表性(a)个体排列具有次序先后,等级高低(b)个体排列的分布周期与抽样间隔相对应解决方法:认真考察总体的排列情况与抽样的距离,如果原有的排列次序可能导致抽样失败的话,就应打乱原有的排列次序或改用其他抽样方法。3、分层抽样定义:先将总体依照一种或几种特征分为几个子总体(类、群),每个子总体称为一层,然后从每一层中随机抽取一个子样本,将它们合在一起即为总体的样本,称为分层样本。例:企业有3000人,抽取150人进行抽样调查。可按性别、年龄或者二者结合,或者按照工人、干部、技术人员的分层标准分层的标准研究者一般选择与调查中欲测变量高度相关的变量,即:对所要研究的变量有很大影响因素的变量作为分层变量。突出总体的内在结构特征,从而使得同层次内同质性强,层间异质性强。具有实用性。例如以那些已有明显层次区分的变量作为分层变量。
性别、年龄、文化程度、职业等分层类型——按各层子样本容量分类按比例分层抽样——指按各种类型或层次中的单位数目同总体单位数目间的比例来抽取子样本的方法。例:某厂有工人600名,按性别分层男女比例5:1,抽取60名工人。不按比例分层抽样(非等概率抽样)——主要用于了解一些层所代表的子总体的情况,而不是总体情况。总体中的某种类型或层次的单位数目太少,若以按比例分层抽样的方法,则有的层次在样本中个案太少,不便于了解各个层次的情况。注意:推断总体时,则需要先对各层的数据资料进行加权处理,使数据资料恢复到总体中各层实际的比例结构,否则会导致推断的偏误。优点当一个总体内部分层明显时,分层抽样能够克服简单的缺点。了解总体的不同层次的情况。分层抽样可以提高总体参数估计值的精确度。
4、整群抽样定义:——将总体按照某种标准划分为若干子群体,每个子群体为一个抽样单位,用随机的方法,抽取若干个子群体,将所有抽取的子群体合起来作为总体的样本。与前几种抽样的最大差别就是抽样单位不是单个的个体,而是成群的个体。
优点
a、可以通过转换抽样单位,扩大抽样的应用范围。
b、可以节省人力、物力、财力。缺点:
a、样本分布不均匀,样本总体的代表性较差。
b、与其它抽样相比,在样本数相同时,抽样误差较大。有数据表明容量为800的整群抽样在效率上相当于容量为500的简单随机抽样。
与分层抽样的异同点都是根据某种标准将总体分为若干个子群体。子群体的划分原则不同。分层抽样:层间异质性强,层内同质性强。整群抽样:反之。抽样方式不同。分层抽样:所有子群体均要抽取一个样本,作为总体的一部分,即总体样本在各层中均有分布。整群抽样:将所有子群体作为样本总体,抽取若干个子群体。适用范围不同分层抽样:适用于界质分明的总体。整群抽样:适用于界质不清的总体。
特别注意在分析整群抽样资料时,虽然抽样误差、统计推断、假设检验比前几种方法复杂,但在大规模、大范围内应用时,实施方便。5、多阶段抽样(多级抽样)定义:多阶段抽样又称多级抽样或分段抽样,它是按抽样元素的隶属关系或层次关系把抽样过程分为几个阶段进行。在社会研究中,当总体的规模特别大,或者总体分布的范围特别广时,研究者一般采取多段抽样的方法来抽取样本。多段抽样的具体做法是:先从总体中随机抽取若干大群(组),然后再从这几个大群(组)内抽取几个小群(组),这样一层层抽下来,直至抽到最基本的抽样元素为止。在运用多阶段抽样方法时,要在类别和个体之间保持平衡,或者保持合适的比例。例:假设某市共有2.4万名教师,分布在10个区200所学校中,现抽取一个由1200名教师组成的样本,按照三阶段抽样的方法,抽样方案有:确定每一阶段抽样的单位数目时应考虑的因素:各个抽样阶段中的子总体同质性程度。同质性程度越高的子总体,所抽取的规模就应相对小一点;反之,则应大一点。各层子总体的人数。研究者所拥有的人力和经费。一般来说,类别相对较多、每类中个体相对较少的做法效果较好。优点
A、通过采用由高级抽样单位过渡到低级抽样单位的方法,解决了低级抽样单位不易获得抽样框的问题,并可以使样本的分布较为集中,大大降低了人力、物力、财力。适用于范围大、总体对象多的社会调查。
B、多阶段抽样可在各阶段抽样时,根据具体情况,灵活选用不同的抽样方法,可以综合各种抽样方法的优点,提高样本质量。
缺点
A、由于每阶段抽样都会产生误差,所以经多阶段抽样得到的样本误差也相应增加。
B、解决方法:相对增加开头阶段的样本数,而适当减少最后阶段的样本数。
练习:假定某县有20个乡镇,每个乡镇平均有10个村委会,每个村委会平均有10个自然村,每个自然村平均有50户。全县共有200个村委会,2000个自然村、10万户。现决定采用多阶段随机抽样方法对该县计划生育状况按户做5‰的抽样调查,共抽取500户,请设计抽样方法。6、PPS抽样(概率与元素规模大小成比例抽样)(1)
实质上是一种不等概率抽样方法。
(2)适用于当每个元素在总体中的大小不同,或者在总体中的地位不同时,采用不等概率抽样的方法,使得比例大或者在总体中的地位重要的的元素入选的概率大,比例小的或者在总体中的地位小的元素入选样本的概率小,用以提高样本代表性的方法。
(3)例:假设从全市100家不同规模的企业(总共20万名职工)中,抽取1000名职工进行调查。
方案一:采用多阶段抽样的方法:先从100家企业随机抽取20家企业;再从20家企业中分别抽取50名职工(20*50=1000)构成样本。100家企业的规模不同:最大的企业多达16000名职工,小的企业只有200名职工。这两类企业中职工被抽中的概率不同:P大企业职工被抽中=(20/100)*(50/16000)=0.0625%P小企业职工被抽中=(20/100)*(50/200)=5%方案二:采用多阶段抽样的方法:先将各个元素排列起来;然后写出他们的规模,计算他们的规模在总体规模中所占的比例;将他们的比例累计起来,并根据比例的累计数依次写出每一元素所对应的选择号码范围采用随机抽样的方法或系统抽样的方法选择号码,号码对应的元素入选作为第一阶段的样本;再从所选的样本中进行第二阶段抽样村委会编号户数占总户数比例(%)累计比例(%)抽样号码等距抽样选取的号码入样村委会和调查户数合计4000村委会01200村委会02160村委会031440村委会04200村委会05120村委会06760村委会07320村委会08400村委会09280村委会10120
练习:某乡镇有10个居委会,共4000户居民,每个村委会人数如下表所示。要选取200户作为样本,试用PPS抽样的方法抽选样本。七、非概率抽样1、随意抽样(偶遇抽样、方便抽样)研究者在一定时间、一定环境里所遇到或接触到的任均入选作为样本的方法。街头拦人法在有些调查中,调查过程对被调查者来说是不愉快的或是比较麻烦的,此时可以把那些自愿被调查的人作为样本。优点:方便、省力;缺点:样本代表性差,有很大的偶然性
2、主观抽样(立意抽样、判断抽样)
主观的含义:a、研究者根据主观判断选取可以代表总体的个体作为样本,即样本的代表性取决于研究者对总体的了解程度和判断能力;适用于在无法缺点总体边界,或因调查者的时间和设备有限而无法进行概率抽样时。b、有目的的选择样本。适用于:建立分类模型,在于发现问题,提出假设,不在于对总体作出估计。
3、定额抽样(配额抽样)
(1)是一种类似于分层抽样的比例抽样。按照调查对象的某种属性或特征将总体中所有个体分为若干类或层,然后在各层中抽样,样本中各层(类)所占的比例与他们在总体中所占的比例一样。(2)与分层抽样的区别:分层抽样中各层样本是随机抽取的,而定额抽样中,各层样本是非随机抽取的。
(3)
定额样本的选择也可以是基于属性或特征(变量)的组合。
(4)定额抽样假设:只要类型划分的较细,那么同一个类型中的每一个个体都是同质的,因而无需采用随机抽样方案;只要类型划分合理且分配给各类的名额符合总体中各类人员的分布,那么样本就可以准确的反映总体。
(5)假设在理论上成立,但实际实施过程很难做到。(6)原因:在分层时不能兼顾到总体的众多属性,而只考虑到几种;有关总体分布变化的最新信息不易得到,其合理性很难保证。4、滚雪球抽样(1)方法:先从几个合适的调查对象开始,通过他们得到更多的调查对象,然后一步步扩大样本范围。(2)适用:当调查总体的个体信息不充分时,常采用此种方法。(3)局限性:最后仍有多个个体找不到,因某些原因故意漏而不提,产生遗漏。
八、样本容量的确定(一)样本容量:样本内所含个体数量的多少。在统计学中,有所谓大样本、小样本的区别和争论,原因在于大样本与小样本的抽样分布不同,因而需要采用不同的统计分析方法。一般认为30个以上称为大样本。社会统计研究中,则认为样本规模超过100个才称为大样本资格。(二)计算方法:简单随机抽样中推论总体平均数的样本n其中:t:置信度所对应的临界值 总体的标准差
e:抽样误差
:
推论总体成数(百分比)的样本n计算公式其中:p:为总体成数或百分比,t、e含义同上注意:t值可以从标准正态分布表中查出;e是研究者根据需要事先确定的;总体标准差,或者总体成数或百分比常常难以得到,可采用下列变通的方法:利用前人所作的关于同一总体的普查或抽样调查资料来计算或估计总体方差,由此得出推论总体均值的样本规模;在计算推论总体成数(百分比)的样本规模时,可以取p=1/2,p(1-p)=max,则,可保证n足够大(三)影响样本规模的确定因素1、总体的规模:当总体规模大到一定程度时,样本规模的增加与它并不保持同等的增长速度;在其它有关因素一定时,样本n的增加速度大大低于总体规模的增加速度;2、抽样的精确性(1)置信度越低,推论的可靠性越大,则要求的n越大;(2)在其它条件一定的情况下,置信区间越小,即样本统计值与总体参数值之间的误差范围越小,则n越大3、总体的异质性程度(1)要达到同样的精确度,在同质性越强的总体中,则抽样n小些;异质性强的样本,n大些。(2)总体中的大部分成员对某个问题的回答或选择与小部分成员的回答或选择不同时,则n小些;当选择两种不同的回答的成员比例相差无几时,n大些4、研究者所拥有的经费、人力和时间5、常见的经验样本量:民意调查中:一般:1600-2000人,最多不超过3000人最重要的全国调查:15-20万之间不同总体规模下的经验样本量总体规模100以下100-10001000-50005000-1000010000-10万10万以上样本占总体的比重50%以上50%-20%30%-10%15%-3%5%-1%1%以下九、抽样误差非抽样误差:人为操作失误所致:如调查方案设计不甚合理、抽样方法有违随机原则、度量误差、在调
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 二零二五年度跨境出口贸易货物合同范本
- 二零二五年度建筑公司技术员项目管理与质量控制劳动合同
- 二零二五年度电影配音演员招募与培训合同书
- 2025年度定制商务职业装生产销售合同范本
- 2025年幼儿园玩具设备安全统计工作计划
- 2025版个人独资股权投资合作与资产重组服务合同
- 二零二五年度活动板房租赁与绿化养护合同
- 2025年度桥梁维修工程劳务分包管理合同
- 二零二五年度离婚协议书范本:婚姻解除合同编写要点解析
- 2025版钢结构建筑光伏系统施工合同范本
- DB63∕T 2330-2024 小微企业融资信用评价规范
- 2025四川省安全员B证考试题库附答案
- 钢结构工程施工安全要点
- 停呼等三原则培训课件
- 2025年广西中考数学真题试卷及答案
- MT/T 1212-2024煤矿信息综合承载网通用技术规范
- 氢能产业链中的区块链技术如何助力碳足迹认证
- 2025年福建省高考物理试卷真题(含答案解析)
- 2025年《民航服务心理学》课程标准(含课程思政元素)
- 事业单位请假新版制度管理统一规定
- 放疗基本知识介绍-1
评论
0/150
提交评论