定量研究方法与建模第三章-15年_第1页
定量研究方法与建模第三章-15年_第2页
定量研究方法与建模第三章-15年_第3页
定量研究方法与建模第三章-15年_第4页
定量研究方法与建模第三章-15年_第5页
已阅读5页,还剩66页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第三章

常用(chánɡyònɡ)抽样方法共七十一页2抽样(chōuyànɡ)框总体(zǒngtǐ)样本共七十一页3主要(zhǔyào)内容第一节

抽样调查的概述第二节

常用的抽样方法第三节

样本(yàngběn)规模与抽样误差

共七十一页4抽样调查(chōuyànɡdiàochá)的定义抽样调查,就是(jiùshì)运用一定方法在调查对象总体中抽取一部分对象作为样本,并以对样本调查的结论来推断总体的方法。共七十一页5几个(jǐɡè)基本概念总体:调查对象全体所构成的集合。样本:指按照一定方法从调查总体中抽取出来进行调查的部分对象的集合。抽样单位:指抽样过程中使用的基本单位,可以是调查对象的集合,也可以是最终(zuìzhōnɡ)的调查对象。抽样框:是指抽样过程中使用的所有抽样单位的名单;抽样:指从总体中按照一定方式抽取样本的过程。共七十一页6抽样(chōuyànɡ)框例如:学校学生的名单就可以是一个抽样框

这个抽样框应当包括:识别资料、分类资料、联系资料

抽样框的类型有:名录框和区域框

名录框是由总体(zǒngtǐ)中所有的单元组成的目录。

区域框是由许多地理区域构成的抽样框。

共七十一页7区域(qūyù)框在下列两种情况下,适合采用区域框:

1)调查具有地理性质;

2)没有合适的目录框,需要借助区域框来构造目录框

例如某项调查需在某个城市(chéngshì)抽取住户,但没有该城市(chéngshì)最新的住户名录。此时,统计调查机构可以用区域框抽取地理区域,如街区,然后由调查员列出每个被抽中街区中的全部住户名单。

这种方法将对住户的抽样集中于数量有限的区域,从而可以较为经济地进行个人面访调查。

共七十一页8抽样调查(chōuyànɡdiàochá)的特点1)抽查对象只是总体中的一部分单位(dānwèi),而不是全部单位(dānwèi),也不是个别单位(dānwèi)或少数单位(dānwèi);2)调查目的不是说明样本自身,而是从数量上推断总体、说明总体。3)随机抽样的误差是可计算的,因此,误差范围是可以控制的。共七十一页9抽样调查(chōuyànɡdiàochá)中的基本问题

1.抽样误差

样本的特征不一定和总体完全一样。这种差异不是错误,而是必然会出现的抽样误差。2.未响应误差与响应误差;

在抽样调查(diàochá)中,一些人因为种种原因没有对调查(diàochá)作出反映(或回答),这种误差称为未响应误差。

而另有一些人因为各种原因回答时并没有真实反映他们的观点,这称为响应误差。

和抽样误差不一样,未响应误差和响应误差都会影响对真实世界的了解;应该在设计调查方案时尽量避免。

共七十一页10抽样调查(chōuyànɡdiàochá)中的基本问题3.数据伦理:

隐私、保密、知情、需要,显变量与隐变量。调查(diàochá)时应尽量减少敏感问题或隐私问题的影响。

4.抽样框

抽样框是一张包括被抽样总体所有单元的目录表.确定了抽样框,就相当于定义了被抽样总体,我们可通过抽样框从总体中抽取样本单元,但前提是抽样框充分地代表了总体。

共七十一页11抽样的一般(yībān)程序1)界定调查总体2)编制抽样框3)决定抽样方案4)实际抽取调查样本5)评估(pínɡɡū)样本质量共七十一页121)界定调查总体对调查对象总体的内涵和外延(范围和界限)做出明确的界定。如果不明确地界定总体的范围与界限,即使(jíshǐ)采用严格的抽样方法,也可能抽出对总体缺乏代表性的样本来。共七十一页131936年美国总统大选的民意测验。总统选举投票前,《文摘》杂志寄出1000万张询问投票倾向的明信片,然后依据收回的200万份调查结果及其自信地预测共和党候选人兰登将以领先15%的得票率战胜民主党候选人罗斯福而当选总统。然而选举结果使预测者大失所望。获胜者不是兰登,而是罗斯福。而且其得票率反而超过兰登20%。《文摘》杂志的声誉一扫而光,不久就因此关了门。原因:除了抽样方法及邮寄方式上的原因外,对抽取样本的总体缺乏清楚的认识和明确的界定也是极为重要的。抽样所依据的不是美国全体已登记的选民名单,而是依据电话号码薄和汽车登记簿来编制(biānzhì)抽样范围,再从这些号码上进行抽取的。那些没有家庭电话和私人汽车的选民就被排除在抽样总体之外了。共七十一页142)编制抽样框搜(收)集总体中全部单位的名单对名单统一编号以建立起供抽样使用的抽样框。当抽样是分几个阶段、在几个不同(bùtónɡ)的抽样层次上进行时,需要建立其几个不同(bùtónɡ)的层次抽样框。共七十一页153)决定抽样(chōuyànɡ)方案选择抽样方法:

随机抽样,非随机抽样确定样本规模共七十一页164)实际抽取调查样本从抽样框中抽取的一个个单位,构成调查样本。依据抽样方法的不同以及(yǐjí)抽样框是否可以事先得到等因素,实际的抽样工作可能在实地调查前就进行,也可以需要在实地调查后才能完成。共七十一页175)评估样本质量对样本主要特征分布情况与总体(zǒngtǐ)主要特征分布情况进行对比和评估。对样本的质量、代表性、偏差等进行初步的检验和衡量,防止由于样本的偏差过大而导致调查的失误。共七十一页18第二节

常用(chánɡyònɡ)的抽样方法非概率(gàilǜ)抽样(非随机抽样)概率抽样(随机抽样)共七十一页19一、非概率(gàilǜ)抽样1.非概率抽样

非概率抽样是用主观的(非随机的)方法从总体中抽选单元,是一种快速、简易且节省的从总体中选取样本单元的方法。

由于非概率抽样抽取样本有倾向性与偏差且没有一个抽样框,不可能计算出各个单元的入样概率。从而无法得到(dédào)总体目标量的可靠估计值及其抽样误差估计值。

2.非概率抽样的优点

快速简便;费用相对较低;不需要抽样框;对探索性研究和调查的设计开发很有用。所以在市场调查中广泛应用

共七十一页20非概率(gàilǜ)抽样3.非概率(gàilǜ)抽样的缺点

为了对总体进行推断,需要对样本的代表性做很强的假定。不可能得到可靠的估计值以及抽样误差估计值。

4.非概率抽样的种类

非概率抽样方法有:

偶遇抽样、判断抽样、配额抽样、滚雪球式抽样等

。共七十一页21非概率抽样(chōuyànɡ)方法偶遇抽样研究者根据现实情况,以自己方便的形式抽取偶然遇到的人作为调查对象。或者仅选择那些离的近的、最容易找到的人作为调查对象。

比如调查某市的交通情况,研究者到离他们最近的公共汽车站,把当时正在那里等车的人作为调查对象。比如

街道(jiēdào)拦截

访问,比如在图书馆阅览室对当时正在阅览的读者进行调查,在商店门口、展览大厅、电影院等公共场所对进出往来的顾客观众进行调查,利用报纸杂志向读者调查。

共七十一页22非概率(gàilǜ)抽样方法判断抽样

也叫立意抽样,调查(diàochá)者根据研究的目标和自己的主观分析来选择调查(diàochá)对象的方法。多用于无法确定总体边界、或总体规模小、调查所涉及的范围较窄,或调查时间、人力等条件有限而难以进行大规模抽样的情况。

如:抽选参加焦点座谈或深入访谈的人。

共七十一页23注意的问题:

判断抽样的关键是抽样标准的确立,这种方法的运用与研究者本人的因素(yīnsù)比如理论修养、实践经验以及对调查对象的熟悉程度有关

。优点:可以充分发挥研究人员的主观能动作用,特别是当研究者对研究的总体情况比较熟悉,研究者的分析判断能力较强、研究方法与技术十分熟练、研究的经验比较丰富时,采用这种方法往往十分方便。

缺点:样本的代表性难以判断,不能推论。

共七十一页24非概率抽样(chōuyànɡ)方法配额抽样(定额抽样)这是最常见的一种非概率抽样。抽样要从各个子总体中选取特定数量的单元(配额)。研究者尽可能地依据那些有可能影响研究变量的各种因素来对总体分层,并找出具有不同特征(tèzhēng)的成员在总体中所占的比例,然后依据这种划分以及各类成员的比例去选择调查对象。使样本中的成员在上述各种因素、各种特征方面的构成和在样本的比例尽量接近总体情形。共七十一页25例

假设某高校有2000名本科(běnkē)学生,其中男生占60%,女生占40%;文科学生和理科学生各占50%,一年级学生占40%,二年级、三年级、四年级分别占30%、20%和10%。现要用定额抽样方法依上述变量抽取一个规模为100人的样本。

男生(60人)女生(40人)文科(30人)理科(30人)文科(20人)理科(20人)年级

四人数129631296386428642共七十一页26滚雪球式抽样当我们无法了解总体情况时,可以从总体中少数成员入手,对他们进行调查,向他们询问还知道哪些符合条件的人,再去找那些人并询问他们知道的人。如滚雪球一样,可以找到越来越多的具有(jùyǒu)相同性质的群体成员。如果总体不大,有时用不了几次就会接近饱和状况,即后访问的人再介绍的都是已经访问过的人。共七十一页27非概率抽样(chōuyànɡ)方法志愿抽样

被调查者都是志愿者。

例如具有特定病情(bìngqíng)的人参加某些医疗实验;打电话参与广播或电视节目的人;抽选参加焦点座谈或深入访问的人。

共七十一页28二、概率(gàilǜ)抽样1.概率(gàilǜ)抽样的两条基本准则:

单元是随机抽取的;

调查总体中的每个单元都有一个非零的入样概率,并且能计算出这些概率。

共七十一页29概率(gàilǜ)抽样的优缺点2.概率抽样的主要优、缺点:

能得到总体的可靠估计值并能计算每个估计值的抽样误差,因而(yīnér)能对总体进行推断。

与非概率抽样相比,概率抽样比较复杂,更费时,通常也更费钱。但总的说来,其利远大于弊。

共七十一页30概率(gàilǜ)抽样的种类3.概率抽样(chōuyànɡ)的种类

常用的概率抽样有6种:简单随机抽样、系统抽样、整群抽样

、多阶段抽样共七十一页31概率(gàilǜ)抽样的原理与程序抽样(chōuyànɡ)分布

共七十一页32概率抽样的原理(yuánlǐ)与程序抽样(chōuyànɡ)分布

共七十一页33

概率抽样(chōuyànɡ)的原理与程序抽样(chōuyànɡ)分布

共七十一页34概率抽样的原理(yuánlǐ)与程序抽样(chōuyànɡ)分布

共七十一页35概率抽样的原理(yuánlǐ)与程序抽样(chōuyànɡ)分布

共七十一页36概率抽样的原理(yuánlǐ)与程序抽样分布

当样本容量继续增大(越来越接近总体的1/2时),样本平均数的分布会进一步发生变化。这种变化趋势是:平均数的范围将逐步缩小(即底部越来越窄);相同的平均数会相应增多;全部平均数的分布向总体平均数集中的趋势也会越来越明显.“中心极限定理”

当n足够(zúgòu)大时(通常假定大于30),无论总体的分布如何其样本平均数所构成的分布都趋于正态分布。共七十一页37简单(jiǎndān)随机抽样(SRS)简单随机抽样是一种一步抽样法,它保证样本量为n的每个可能的样本(yàngběn)都有相同的被抽中的概率p=n/N。简单随机抽样又称纯随机抽样,就是按照随机原则从总体各单位中直接抽取样本。是所有概率抽样的出发点和理论基础。常用方法有:(1)直接抽样法,就是从总体各单位中直接抽取样本的方法。(2)抽签方法或抓阄方法(3)随机数表法共七十一页38利用随机数进行抽样的步骤:1)先取得总体中所有元素的名单(即抽样框);2)将总体中所有元素一一按顺序编号;3)根据总体规模是几位数来确定从随机数表中选几位数码(shùmǎ);4)以总体规模为标准,对随机数表中的逐一进行衡量并决定取舍;5)根据样本规模的要求选择出足够的数码个数;6)依据从随机数表中选出的数码,到抽样框中去找它对应的元素。共七十一页例

总体共3000人(4位数),需要从中抽取100个人(gèrén)作为样本假设选择下表所示的五位随机数表随机数表中的数码选用的数码不选用的原因90906090673020后四位大于300010041004122507250704310后四位大于300066042后四位大于300012683268382507与所选的第三个数码重复511761176共七十一页40优点:在抽样过程中完全排除了主观因素的干扰,简单,易行,只要有总体各单位名单就行。缺点:只适应总体单位数量(shùliàng)不大的调查,如果总体单位多,则编制抽样框的工作量太大;抽样误差大;样本可能比较分散或过分集中,会给调查带来困难。共七十一页41(二)等距随机抽样(系统抽样(SYS)

等距随机抽样又称机械随机抽样或系统随机抽样,就是先编制抽样框,将各抽样单位按一定标志排列编号;然后,用总体单位数除以样本单位数求得抽样间隔,并在第一抽样间隔内随机抽取一个号码作为第一个样本;最后,按抽样间隔等距抽样,直到(zhídào)抽取最后一个样本为止。它需要一个抽样间距和一个随机起点。抽样间距是k=N/n,随机起点r是介于1到k之间的一个随机数。

被抽中的单元是:r,r十k,r+2k,r+3k,

,r+(n-1)k。

共七十一页42等距(系统)抽样的优点是:样本在总体中分布比较均匀,具有较高代表性,抽样误差小于简单随机抽样,而且比较简单易行,只要抽取了第一个样本,整个样本就都确定了。其缺点是:调查总体单位不能太多,而且要有完整的登记册,否则就难以(nányǐ)进行。使用这种方法要注意避免抽样间隔与调查对象的周期性节奏相重合。共七十一页43

将总体按某种标准划分为一些子群体,每个子群为一个抽样单位,用随机方法从中抽若干子群,将抽出的子群中的所有个体(gètǐ)结合起来构成样本。

划分子群随机抽样整群抽样(chōuyànɡ)共七十一页44采用整群抽样的两个理由:(1)抽选群能大大降低数据收集(shōují)的费用,当总体的分布比较广且调查采用面访时更是如此;(2)从总体中直接抽选个体在实际中并不总是可行的(没有关于个体的抽样框)。特点抽样单位不是单个的个体,而是成群的个体。共七十一页45整群抽样的优点,样本单位比较集中,不需要详细的所有元素的名单,简单,费用(fèiyong)低,调查工作比较方便,可节省人财物力和时间。缺点:样本的分布面不广,代表性相对较差

整群抽样和分层抽样的比较:子群体之间的差异大,内部差异小——分层抽样

子群体之间的差异小,内部差异大——整群抽样

共七十一页46分层随机抽样分层抽样总体被分为同质的、互不重迭的若干子总体(层),然后,根据各类型(或层次)所包含的抽样单位数与总体单位数的比例,确定从各类型中抽取样本单位的数量;最后,按照简单随机抽样或等距随机抽样方法从各类型(或层次)中抽取样本。分层抽样的关键(guānjiàn)分类标准要科学、符合实际情况,许多复杂的事物还应该按照多种标准作多种分类或综合分类。共七十一页47分层的标准:

a:以分析的主要变量或相关变量

b:保证(bǎozhèng)各层内部同质性强,各层之间异质性强

c:以那些已有明显层次区分的变量作为分层变量

分层的比例:

a:按比例分层抽样b:不按比例分层抽样

共七十一页48分类(fēnlèi)随机抽样

总体(zǒngtǐ)样本子群分层抽样图示共七十一页49分层抽样的优点它适用于总体单位数量较多、单位之间差异较大的调查对象,而且抽样误差较小或所需样本数量较少。通过分类把同质性较大的单位集合(jíhé)为一个类型,把异质性较大的单位区分为不同的类型,因而提高了样本的代表性,减少了抽样误差。分层抽样的缺点必须对总体各单位的情况有较多的了解,否则就无法科学分类。

共七十一页50(五)多段随机抽样多段随机抽样又称多级随机抽样或分段随机抽样,就是把从总体中抽取样本的过程(guòchéng)分成两个或两个以上阶段进行的抽样的方法。按抽样元素的隶属关系或层次关系,把抽样分为几个阶段进行。

多段随机抽样的具体步骤是:1、先将总体各单位按一定标志分成若干群体,作为抽样的第1级单位。

2、依照随机原则,先在第1级单位中抽出若干群体作为第1级样本,然后再在第1级样本中抽出第2级样本,依此类推,还可抽出第3级样本、第4级样本。3、对最后抽出的样本单位逐个进行调查。

共七十一页51多阶段抽样举例

例1:大学——院系——班级(bānjí)——学生

例2:城市——区——街道——居委会——家庭——个人

特征:

适用于范围大、总体数量多的社会调查

优缺点:

优点:不需要总体的全部名单,各阶段的抽样单位数一般较少,容易操作

缺点:每一个阶段都存在误差,抽样误差可能较大

共七十一页52多段随机抽样方法的优点不需要总体的全部名单,各阶段的抽样单位数一般较少,容易操作特别适合于调查总体范围大、单位多、情况复杂的调查对象。对总体情况了解程度的要求低,一般只要对下一层单位的情况有所了解就可抽样。多段随机抽样方法的缺点抽样误差较大,它是各阶段抽样误差之和,而且抽样阶段越多抽样误差就越大。为了控制抽样误差范围,分段抽样的次数应不能太多。并尽量增加(zēngjiā)开头阶段的样本数适当减少最后阶段的样本数。共七十一页53多段随机抽样的例子(lìzi)Eg:2005年全国1%人口抽样调查就采用了多阶段抽样方法。

首先是全国1%人口抽样调查办公室按全国人口数的1%确定全国总样本及各省、自治区、直辖市调查样本量。

接下去就采用多阶段抽样法。多数省市采取三阶段抽样方法。首先,由全国1%人口抽样调查办公室在各省市抽取乡、镇、街道。其次,由各省1%人口抽样调查办公室在抽中的乡、镇、街道再抽取居委会、村委会。最后(zuìhòu),由各省1%人口抽样调查办公室在抽中的居委会、村委会中抽取调查小区。

共七十一页54抽样调查(chōuyànɡdiàochá)的优点和局限性抽样调查的优点(1)抽取样本客观,代表性强。(2)有利于对总体进行(jìnxíng)定量研究,推断总体比较准确。(3)调查成本低、调查效率高。(4)应用范围十分广泛。共七十一页55抽样调查(chōuyànɡdiàochá)的优点和局限性(二)抽样调查的局限性(1)抽样调查主要宜于作定量研究而不大宜于作定性研究。(2)对于调查总体尚不清楚、不明晰的调查对象,如正在形成中的新生事物以用各种隐秘社会现象(如贪污、吸毒、卖淫等等(děnɡděnɡ)),就很难进行抽样调查。(3)与典型调查、个案调查比较起来,抽样调查的样本单位一般较多,因而调查的广度和深度往往受到很大局限。(4)抽样调查需要较多的数学知识和计算机使用能力。

共七十一页56第三节

样本(yàngběn)规模与抽样误差一、样本(yàngběn)规模二、影响样本规模确定的因素三、样本规模与抽样误差共七十一页57样本(yàngběn)规模样本规模又称样本容量,它指的是样本中所含的个案的多少。确定样本规模是社会调查(diàochá)必须解决的问题之一。共七十一页58统计学中的大样本(yàngběn)统计学中以30为界,把样本分为大样本(30个个案及以上)和小样本(30个个案以下)。因为(yīnwèi)当样本规模大于30时,无论总体的分布如何,其平均数的抽样分布将接近于正态分布,从而许多统计学的公式就可以运用,也可以用样本的资料对总体进行推断。共七十一页59社会调查(diàochá)中的样本规模但30个个案的样本对于社会调查来说是远远不够的。统计学中的大样本与社会调查的大样本并不是一回事。根据一些社会调查专家的看法,社会调查中大样本规模至少不能少于100个个案。这是因为,在社会调查中,研究者不仅仅需要以样本整体为单位来计算平均数、标准差、相关系(guānxì)数等统计量,还经常需要将样本中的个案按不同的指标划分为不同的类别,进而分析不同类别之间的差别,分析不同变量之间的关系(guānxì)。要保证所划分出的每个子类别中都有一定数量的个案,就必须扩大整个样本的规模。共七十一页60常见(chánɡjiàn)样本规模的类别常见样本规模的类别小型调查类

样本规模100-300中型调查类

样本规模300-1000大型调查类

样本规模在1000-3000正式的调查研究(yánjiū)一般要达到中型调查类的样本规模。这也时目前实践中采用最多的一类样本规模。共七十一页61简单随机抽样中推论总体均值(jūnzhí)的样本规模计算公式为:

推论总体成数(或比例)的样本规模计算公式为:

当p不知时,取p=0.5共七十一页622影响样本规模确定(quèdìng)的因素一般情况下,社会调查中样本(yàngběn)规模的确定主要受以下四方面因素的影响:1)总体的规模2)估计的把握性与精确性要求3)总体的异质性程度4)调查者所拥有的经费、人力和时间共七十一页631)总体的规模总体规模越大,样本规模也应该越大,这样才能保持一定的精度。但当总体规模大到一定程度(chéngdù)时,样本规模大增加并不保持同等的增长速度。在其他有关因素一定时,样本规模的增加速度大大低于总体规模的增加速度。共七十一页642)推断的把握性与精确性在社会调查中,我们用置信度和置信区间来说明样本规模与抽样的可靠性与精确性之间的关系。一般说来,在其他条件一定(yīdìng)的情况下,置信度越高,即推论的可靠性越大,则要求大样本规模就越大。99%的置信度所要求的样本规模比95%的置信度所要求的样本规模大。共七十一页65

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论