《社会学研究法》讲义-06-抽样-教学版_第1页
《社会学研究法》讲义-06-抽样-教学版_第2页
《社会学研究法》讲义-06-抽样-教学版_第3页
《社会学研究法》讲义-06-抽样-教学版_第4页
《社会学研究法》讲义-06-抽样-教学版_第5页
已阅读5页,还剩42页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第六章抽样在哲学意义上,抽样可能性和必要性的基本假定:一是个别包含一般,部分代表总体;一般体现在个别之中,部分能够再现总体的基本结构——一叶知秋,以管窥豹。二是人类行为中的经济原则——预算约束与效益最大化。三是为研究一些无法掌握总体的对象设计可能的技术手段(例如如何估计水库中的鱼的总产量)。作为社会研究对象,我们在上一章讨论了分析单位的问题:“一个具体研究项目中的研究对象一般涉及的是一个类型的总体,分析单位是指实际调查研究中涉及的该类型中的个体”。本章将详细讨论研究对象中的总体与部分、总体与个体的关系问题。第一节抽样的意义与作用一、抽样的概念1.总体总体(population)通常与构成它的元素共同定义:总体是构成它的所有元素的集合,而元素(element)则是构成总体的最基本单位。在社会研究中,最常见的总体是由社会中的某些个人组成的,这些个人便是构成总体的元素。此外,各层次的分析单位如群体、组织机构、社区、社会事件(如事故、文本)等也同样分别由各层次的研究范围内的个体单位所组成,各层次的单位个体即是其元素。对总体的界定还要注意与实际研究中的调查总体区分开来,考虑未涵盖的和无应答的对象存在。2.样本样本(sample)就是从总体中按一定方式抽取出的一部分元素的集合。或者说,一个样本就是总体的一个子集。3.抽样所谓抽样(sampling),指的是从组成某个总体的所有元素的集合中,按一定的方式选择或抽取一部分元素(即抽取总体的一个子集)的过程,或者说,抽样是从总体中按一定方式选择或抽取样本的过程。4.抽样单位抽样单位(samplingunit)就是一次直接的抽样所使用的基本单位。抽样单位与构成总体的元素有时是相同的,有时又是不同的。要特别强调的是抽样单位是在指一次直接抽样之中使用的。在多层次抽样之中,每一次直接抽样的单位是各不相同的,而最后的抽样单位则与研究对象的个体单位相重合。5.抽样框抽样框(samplingframe)又称做抽样范围,它指的是一次直接抽样时总体中所有抽样单位的名单。在实际抽样中,抽样框不是一个简单的花名册,而是对这些名册进行整理、分析并有总体上的把握之后才能编出其顺序号,做为一次抽样时所使用的抽样框。如社区居委会的户主名册、农村村委会的农民家庭户主名册等。许多城市、农村家庭户口与居住状况存在着不对等现象(人户分离)。企业的分厂、车间、班组中的工人名册可能存在着某种周期性排列。这些都是实际抽样中需要注意并进行处理,然后才能做为抽样框来使用的。6.参数值参数值(parameter)也称为总体值,它是关于总体中某一变量的综合描述,或者说是总体中所有元素的某种特征的综合数量表现。“参数值”应与“统计值”联系起来理解。7.统计值统计值(statistic)也称为样本值,它是关于样本中某一变量的综合描述,或者说是样本中所有元素的某种特征的综合数量表现。样本“统计值”是从样本的所有元素中计算出来的,它对于相应的总体“参数值”的估计量。比如,其中的样本平均值就是相应的总体平均值的一个估计量。抽样的目的之一,就是要通过这些样本值去估计和推断各种总体值。由于从一个相同的总体中可以根据不同的抽样设计得到若干个不同的样本,所以,从每一个样本中所得到的估计量,都只是总体的许多个可能的估计量中的一个。抽样设计的目标,就是尽可能使所抽取的样本的估计量接近总体的参数值。“置信区间”(confidenceintervals):从样本统计值推断总体参数值的误差范围。“置信水平”(置信度)(confidencelevel)从样本统计值推断出总体参数值的确定区间的可信程度。总体参数值与样本统计值的关系可以进一步从“置信区间”和“置信水平”两个概念来理解:当由样本统计值来推断总体参数值时,“置信区间”和“置信水平”就是根据样本值对总体值的一个估计(以样本值为依据,用两个参数来衡量总体值的范围——误差范围、置信程度)。样本的代表性(representativelevelofthesample):样本特征针对总体的特征(平均值、方差、比例结构等)的相似、相同程度。讨论:1、任何取自总体的样本都有一定的代表性,但非概率抽样的样本的代表性无法进行准确评估,而概率抽样的样本的代表性则可以进行某种程度的精确评估。2、概率抽样的样本针对总体的代表性也是相对而言的。一般来说只考虑样本的关键特征(基本变量、指标)对总体的代表性,而难以全面评估。如人群样本的性别、年龄、地区分布、职业、收入等,可以根据某些参数计算其对总体的代表性。这也是抽样前确定样本规模和抽样后评估样本质量时需要考虑的要点。二、抽样的作用抽样作为人们从部分认识整体这一过程的关键环节,其基本作用是向人们提供一种实现“由部分认识总体”这一目标的途径和手段。经济原则——性/价比较好的、具有现实可操作性的次优效果。中国古代传统:一叶知秋、以管窥豹;盲人摸象、以偏概全——笼统把握。近代科学传统:准确把握和误差控制。以现代统计学和概率论为基础的现代抽样理论,以及不断发展、不断完善的各种抽样方法,正好适应了社会研究的发展和应用的需要,成为社会研究知识体系中必不可少的一部分内容。三、抽样的类型概率抽样非概率抽样概率抽样是依据概率论的基本原理,按照随机原则进行的抽样,因而它能够避免抽样过程中的人为误差,保证样本的代表性。非概率抽样则主要是依据研究者的主观意愿、判断或是否方便等因素来抽取对象,它不考虑抽样中的等概率原则,因而往往产生较大的误差,难以保证样本的代表性。第二节概率抽样的原理与程序一、概率抽样的基本原理讨论:社会群体的同质性与异质性问题及其与自然物理现象的差异。百分之百的同质性——只要了解了一个个体,就可以了解到整个总体的情况。百分之百的异质性——必须了解全体个体的特殊性才能掌握总体的情况。现实社会研究中的绝大多数群体并不具备这种特征,相反,它们通常都存在着程度不同的异质性,即它们所包含的个体相互之间总是存在着这样或那样的差别。在各种社会总体都普遍存在异质性的现实面前,严格的概率抽样程序与方法就必不可少。而概率样本所要反映的正是总体本身所具有的那种内在的异质性结构。所谓随机抽取(randomselection),就是保证总体中的每一个个体都有同等的机会人选样本。或者说,总体中的每一个成员被抽中的概率相等(也即被抽中的机会相等)。放回抽样不放回抽样严格地说,由于研究者在实际抽样中所做的基本上都是不放回抽样,因而并没有完全满足抽样的独立性要求。这种独立性要求指的是:任何一个元素的抽取都不会影响到其他元素被抽取的概率。然而,只要总体相对于样本来说要大得多,我们就可以忽略这种不放回抽样所产生的微小改变。二、抽样分布样本统计值的分布我们先来看一个总体为10个个案的平均数抽样分布。假如这10个人参加工作的年限分别为6、7、8、9、10、11、12、13、14、15年,那么这一总体中的成员平均参加工作年限为10.5年。如果我们从总体中随机抽取一个人作为样本来估计总体的平均数,那么这种样本的估计可能是6年到15年。容量为1的样本的抽样分布:这时,抽取任一1个样本的年龄与总体的实际平均年龄的最大误差为4.5年。容量为2的样本的抽样分布:这时,抽取任一组2个样本的年龄与总体的实际平均年龄的最大误差为4年。容量为3的样本的抽样分布:这时,抽取任一组3个样本的年龄与总体的实际平均年龄的最大误差为3.5年。这种变化趋势是:平均数的范围将逐步缩小(即底部越来越窄);相同的平均数会相应增多;全部平均数的分布向总体平均数集中的趋势也会越来越明显。这种趋势也可以理解为:抽取任一一组数量较大的样本时,样本的平均工龄与总体的实际平均工龄的误差越来越小,最后趋近于总体平均数。风笑天,P124-125:“中心极限定理”:1、这一定理指出:在一个含有N个元素且平均数为μ、标准差为σ的总体中,抽取所有可能含有n个元素的样本,根据组合计算全部可能的样本数目为:m=CnN=N!/(N-n)!n!如:N=10万人口n=2000个样本μ平均年龄=40岁,σ标准差=5岁则m=10万/(10万-2000)!(2000)!2、若用Xl,X2,…,X。来分别表示这m个样本的平均数,那么,样本平均数Xi的分布将是一个随n愈大而愈趋于具有平均数μ和标准差σ/(√n)的正态分布(如图6-6)。3、这一定理说明:当n足够大时(通常假定大于30),无论总体的分布如何,其样本平均数所构成的分布都趋于正态分布。如图6—7。4、这种抽样分布具有单峰和对称的特点,因而其平均数、众数和中位数都相同。这即是说,图6—6中的μ既是抽样分布的平均数,也是次数最多的值(众数),而且其两边的样本数相同(即中位数)。5、还可以证明,全部样本平均数的平均数正好等于总体的平均数,即有:6、全部样本平均数的标准差(标准误差或标准误,记为SE*)则等于总体标准差除以(√n)。即(SE=[]=σ/(√n))。7、更为重要的是,由于平均数的抽样分布是正态分布,其平均数的次数就是正态曲线下的面积。而根据概率统计理论,正态分布曲线下的任何部分的面积是可以用数学方法推算的。8、因此,(横轴上)任何两个数值之间的样本平均数的总次数所占的比例是可以求得的。如有68.26%的样本平均数在,u±SE这两个数值的范围内;类似的,大约有95%的样本统计值落在总体参数值正负两个标准误范围内,即SE;99.9%的样本统计值将落在总体参数值正负三个标准误范围内,即±3SE。在实际应用中,人们更多的是采用下列几个数字:a.有68.26%落在u±1SE之间;b.有90%落在μ±l.65SE之间;c.有95%落在μ±l.96SE之间;d.有98%落在μ±l.33SE之间;e.有99%落在μ±l.58SE之间。(风笑天《教材》P.358中《Z检验表》提供了置信度P≤规定值条件下,对应的各种区间系数“Z”值。)9、从反面来考虑这一结论,我们就会有以下推论:对于任何一次随机抽样来说,其样本的统计值落在总体参数值正负1.65个标准误之间的概率是90%;落在总体参数值正负1.96个标准误之间的概率是95%……10、我们正是在这种意义上来说明置信水平(或把握程度,如90%、95%等等)与置信区间(估计范围)之间的关系。三、抽样的一般程序虽然不同的抽样方法具有不同的操作要求,但它们通常都要经历这样几个步骤。1.界定总体界定总体就是在具体抽样前,首先对从中抽取样本的总体范围与界限作明确的界定。这一方面是由抽样的目的所决定的。因为抽样虽然只对总体中的一部分个体实施,但其目的却是为了描述和认识总体的状况与特征,是为了发现总体中存在的规律性,因此必须事先明确总体的范围;另一方面,界定总体也是达到良好的抽样效果的前提条件。如果不清楚明确地界定总体的范围与界限,那么,即使采用严格的抽样方法,也可能抽出对总体严重缺乏代表性的样本来。在这方面最为著名的例子是1936年美国《文摘》杂志关于总统大选的民意测验。2.制定抽样框先对总体进行界定。当抽样是分几个阶段、在几个不同的抽样层次上进行时,则要分别建立起几个不同的抽样框。3.决定抽样方案在具体实施抽样之前,依据研究的目的要求、依据各种抽样方法的特点,以及其他有关因素来决定具体采用哪种抽样方法。除了抽样方法的确定以外,还要根据要求确定样本的规模以及主要目标量的精确程度。4.实际抽取样本实际抽取样本的工作就是在上述几个步骤的基础上,严格按照所选定的抽样方法,从抽样框中抽取一个个的抽样单位,构成样本。实际的抽样工作既可能在研究者到达实地之前就完成,也可能需要到达实地后才能完成。到实地进行抽样时,往往是直接由调查员按预先制定好的操作方式或具体方法执行。花名册法、地图法5.评估样本质量所谓样本评估,就是对样本的质量、代表性、偏差等等进行初步的检验和衡量,其目的是防止由于样本的偏差过大而导致的失误。评估样本的基本方法是:将可得到的反映总体中某些重要特征及其分布的资料与样本中的同类指标的资料进行对比。若二者之间的差别很小,则可认为样本的质量较高,代表性较大;反之,若二者之间的差别十分明显,那么样本的质量和代表性就一定不会很高。四、抽样设计的原则美国著名的抽样专家科什(Kish)教授在其名著《调查抽样》中提出了一个优秀的抽样设计所应该满足的四条标准。(1)目的性原则,是指在进行抽样方案设计时,要以课题研究的总体方案和研究的目标为依据。以研究的问题为出发点,从最有利于研究资料的获取,以及最符合研究的目的等因素来考虑抽样方案和抽样方法的设计。(2)可测性原则,指的是抽样设计能够从样本自身计算出有效的估计值或者抽样变动的近似值。在研究中通常用标准误来表示。这是统计推断必需的基础,是样本结果与未知的总体值之间客观、科学的桥梁。通常,只有概率样本在客观上才是可测的,即概率样本可以计算出有效的估计值或抽样变动的近似值。(3)可行性原则,是指研究者所设计的抽样方案必须在实践中切实可行。(4)经济性原则,主要指的是抽样方案的设计要与研究的可得资源相适应。经费、时间、人力等等。第三节概率抽样方法一、简单随机抽样简单随机抽样(simplerandomsampling)又称纯随机抽样,是概率抽样的最基本形式。它是按等概率原则直接从含有N个元素的总体中随机抽取n个元素组成样本(N>n)。常用的办法类似于抽签,即把总体的每一个单位都编号,将这些号码写在一张张小纸条上,然后放人一容器如纸盒、口袋中,搅拌均匀后,从中任意抽取,直到抽够预定的样本数目。这样,由抽中的号码所代表的元素组成的就是一个简单随机样本。对于总体元素很多的情形,我们则采用随机数表(也称“乱数表”,可以从Excel软件中自动生成)来抽样。具体步骤:(1)先取得一份总体所有元素的名单(即抽样框);(2)将总体中所有元素一一按顺序编号;(3)根据总体规模是几位数来确定从随机数表中选几位数码;(4)以总体的规模为标准,对随机数表中的数码逐一进行衡量并决定取舍;(5)根据样本规模的要求选择出足够的数码个数;(6)依据从随机数表中选出的数码,到抽样框中去找出它所对应的元素。注意:确定随机数表中的行列起点二、系统抽样系统抽样(systematicsampling)又称机械抽样、SYS抽样。系统抽样的元素是按照确定的规则从总体中抽取的,即首先将总体中各单位按一定顺序排列,根据样本容量要求确定抽选间隔,然后随机确定起点,每隔一定的间隔抽取一个单位的一种抽样方式,是纯随机抽样的变种。由于等距离抽取是最常用的规则,系统抽样经常被称为等距抽样。具体步骤:(1)给总体中的每一个个体按顺序编号,即制定出抽样框。(2)计算出抽样间距。计算方法是用总体的规模除以样本的规模。假设总体规模为N,样本规模为n,那么抽样间距K就由下列公式求得:N(总体规模)K(抽样间距)=n(样本规模)(3)在最前面的K个个体中,采用简单随机抽样的方法抽取一个个体,记下这个个体的编号(假设所抽取的这个个体的编号为A),它称做随机的起点。(4)在抽样框中,自A开始,每隔K个个体抽取一个个体,即所抽取个体的编号分别为A,A+K,A+2K,…,A+(n-1)K。(5)将这72个个体合起来,就构成了该总体的一个样本。在系统抽样中,先将总体从1~N相继编号,并计算抽样距离K=N/n。式中N为总体单位总数,n为样本容量。然后在1~K中抽一随机数k1,作为样本的第一个单位,接着取k1+K,k1+2K……,直至抽够n个单位为止。系统抽样要防止周期性偏差,因为它会降低样本的代表性。例如,军队人员名单通常按班排列,10人一班,班长排第1名,若抽样距离也取10时,则样本或全由士兵组成或全由班长组成。等距抽样的单位排列:根据总体单位排列方法,等距抽样的单位排列可分为三类:按有关标志排队、按无关标志排队以及介于按有关标志排队和按无关标志排队之间的按自然状态排列。系统抽样的作法:按照具体实施等距抽样的作法,等距抽样可分为:直线等距抽样、对称等距抽样和循环等距抽样三种。系统抽样的优点:系统抽样的最主要优点是简便易行,且当对总体结构有一定了解时,充分利用已有信息对总体单位进行排队后再抽样,则可提高抽样效率。系统抽样的特点:抽出的单位在总体中是均匀分布的,且抽取的样本可少于纯随机抽样。系统抽样既可以用同调查项目相关的标志排队,也可以用同调查项目无关的标志排队。系统抽样在抽样调查中的应用:在定量抽样调查中,等距抽样常常代替简单随机抽样。由于该抽样方法简单实用,所以应用普遍。等距抽样得到的样本几乎与简单随机抽样得到的样本是相同的。系统抽样的基本做法是,将总体中的各单元先按一定的顺序排列、编号,然后决定一个间隔,并在此间隔基础上选择被调查的单位个体。样本距离可通过下面公式确定:样本距离=总体单位数∕样本单位数系统抽样方式:随意用一个起点,例如,如果你把一本电话本作为抽样框,必须随意取出一个号码决定从该页开始翻阅。假设从第5页开始,在该页上再另选一个数决定从该行开始。假定选择从第3行开始,这就决定了实际开始的位置。系统抽样方式的优势:系统抽样方式相对于简单随机抽样方式最主要的优势就是经济性。等距抽样方式比简单随机抽样更为简单,花的时间更少,并且花费也少。等距抽样方式的缺陷:在于总体单位的排列上。一些总体单位数可能包含隐蔽的形态或者是“不合格样本”,调查者可能疏忽,把它们抽选为样本。值得注意的是,系统抽样的一个十分重要的前提条件,是总体中个体的排列,相对于研究的变量来说,应是随机的,即不存在某种与研究变量相关的规则分布。否则,系统抽样的结果将会产生极大的偏差。因此,我们在使用系统抽样方法时,一定要注意抽样框的编制方法。特别要注意下列两种情况:一是总体名单中,个体的排列具有某种次序上的先后、等级上的高低的情况。二是总体名单中,个体的排列上有与抽样间隔相对应的周期性分布的情况。在第一个抽样间距内,随机确定第一次抽样的起点。三、分层抽样1.分层抽样的概念分层抽样(stratifiedsampling)又称类型抽样,它是先将总体中的所有单位按某种特征或标志(如性别、年龄、职业或地域等)划分成若干类型或层次,然后再在各个类型或层次中采用简单随机抽样或系统抽样的办法抽取一个子样本,最后,将这些子样本合起来构成总体的样本。2.分层抽样的优点分层抽样方法的一个优点,就是在不增加样本规模的前提下降低抽样误差,提高抽样的精度。前面我们曾经指出,总体的同质性程度越高,样本就越容易反映和代表总体的特征和面貌;而总体的异质性程度越高,样本对总体的反映和代表就越困难,对抽样的要求也越高。采用分层抽样的最基本目的,正在于把异质性较强的总体分成一个个同质性较强的子总体,以便提高抽样的效率,达到更好的抽样效果。用统计的语言来说,通过分层,使得各层内元素之间的变异程度变小,各个层内的方差变小(比总体的方差要小),因而在样本规模相同时,分层抽样的抽样误差往往比简单随机抽样的抽样误差要小。分层抽样方法的另一个优点,就是非常便于了解总体内不同层次的情况,以及对总体中不同的层次进行单独研究,或者进行比较。3.分层抽样的运用(1)分层的标准问题。原则:第一,以所要分析和研究的主要变量或相关的变量作为分层的标准。第二,以保证各层内部同质性强、各层之间异质性强、突出总体内在结构的变量作为分层变量。第三,以那些已有明显层次区分的变量作为分层变量。(2)分层的比例问题。分层抽样中有按比例和不按比例分层两种方法。按比例分层抽样是指按各种类型或层次中的单位数目同总体单位数目间的比例来抽取子样本的方法。采用不按比例分层抽样的方法,主要是便于对不同层次的子总体进行专门研究或进行相互比较,但若要用样本资料推断总体时,则需要先对各层的数据资料进行加权处理,即通过调整样本中各层的比例,使数据资料恢复到总体中各层实际的比例结构。四、整群抽样整群抽样(clustersampling)与前几种抽样的最大差别在于,它的抽样单位不是单个的个体,而是成群的个体。它是从总体中随机抽取一些小的群体,然后由所抽出的若干个小群体内的所有元素构成的样本。这种小的群体可以是居民家庭,可以是学校中的班级,也可以是工厂中的车间,还可以是城市中的居委会等等。整群抽样中对小群体的抽取可采用简单随机抽样、系统抽样或分层抽样的方法。采取整群抽样的方法,不仅可以简化抽样的过程,更重要的是它可以降低收集资料的费用,同时还能相对地扩大抽样的应用范围。在简单随机抽样和系统抽样中,都要求有一份总体所有成员的名单,即抽样框。但在实际过程中,这样的名单往往难以获得。有时即使可以获得,真正运用起来也十分麻烦,因此,上述两种抽样方法的应用范围受到一定限制。但是,应该看到,整群抽样所具有的简便易行、节省费用的优点,是以其样本的分布面不广、样本对总体的代表性相对较差等缺点为代价的。由于整群抽样所得样本中的个体相对集中,而涉及的面相对缩小,故在许多情况下会导致样本的代表性不足,使得结果的偏差较大。整群抽样方法的运用,尤其要与分层抽样的方法相区别。当某个总体是由若干个有着自然界限和区分的子群(或类别、层次)所组成,同时,不同子群相互之间差别很大、而每个子群内部的差异不大时,则适合于分层抽样的方法;反之,当不同子群相互之间差别不大、而每个子群内部的异质性程度比较大时,则特别适合于采用整群抽样的方法。五、多段抽样多段抽样(multistagesampling)又称多级抽样或分段抽样,它是按抽样元素的隶属关系或层次关系,把抽样过程分为几个阶段进行。在社会研究中,当总体的规模特别大,或者总体分布的范围特别广时,研究者一般采取多段抽样的方法来抽取样本。多段抽样的具体做法是:先从总体中随机抽取若干大群(组),然后再从这几个大群(组)内抽取几个小群(组),这样一层层抽下来,直至抽到最基本的抽样元素为止。在运用多段抽样方法时,有一点需要注意,就是要在类别和个体之间保持平衡。或者说,保持合适的比例。究竟该选择哪一种抽样方案呢?或者说,如何确定每一阶段抽样的单位数目呢?主要考虑的因素有两方面:(1)各个抽样阶段中的子总体同质性程度。同质性程度越高的子总体,所抽的规模就应相对小一点;反之,则应大一点。(2)要考虑研究者所拥有的人力和经费。一般来说,在其他条件不变的情况下,样本所覆盖的面越大,样本的代表性也越大。因此,如果仅从这方面考虑,则“大的类别中抽取单元相对较多,而每一单元中抽取个体相对较少”的做法效果较好(即方案3最好,依次递减,方案9最差)。但是,抽样时我们还应从实践的角度来进行衡量。抽的区越多、抽的学校越多,同时也意味着收集资料时,调查员要奔波的范围越广,所需要的时间、经费越多。而这则是研究者往往最不愿意看到的。所以,如果从这方面来考虑,则“大的类别中相对较少,而每一类中抽取的个体相对较多”的做法效果较好(即方案9最好,依次递减,方案3最差)。多段抽样的方法适用于总体范围特别大、对象的层次特别多的社会研究。由于它不需要总体的全部名单,各阶段的抽样单位数一般较少,因而抽样比较容易进行。但由于每级抽样时都会产生误差,故这种抽样方法的误差较大,这是它的主要不足。在同等条件下减少多段抽样误差的方法是:相对增加开头阶段的样本数而适当减少最后阶段的样本数。所以,当研究者的人力和经费允许时,应尽量扩大开头阶段的抽样规模。对于上例来说,就是要尽可能像方案3、方案4、方案5那样去设计。社区(村)内的家庭(户)层次的抽样:名册法——需要取得社区(村)的户主名册(如果有户口名册则可以同时进行户内抽样)。地图法——需要督导员事先收集有关居住点的分布图,入户之后再进行户内抽样。第四节户内抽样与PPS抽样一、户内抽样的方法当研究者以家庭作为分析单位,以入户访谈的方法收集资料,试图研究城乡家庭的结构、关系、生活方式或其他内容时,他们往往采用多段抽样的方法从某一市中抽取区(县),再从区(县)中抽取街(乡镇),从街(村)中抽取居委会(村),然后从居委会(村)中抽取家庭户,最后从家庭户中抽取一位成年人作为访谈对象。从这些访谈对象那里得到的有关其家庭的资料被用来描述这些家庭的特征和类型。在这种研究中,我们不仅需要抽出家庭户的样本,同时还要进行户内抽样(within-householdsampling)——从所抽中的每户家庭中抽取一个成年人,以构成访谈对象的样本。在抽取家庭中的成年人之前的每个抽样阶段中,我们可以采用前面所介绍的某种方法来抽。而这最后一个阶段的抽样则可以采取一种被称做“Kish选择法”的方式进行。根据这种方法,每户家庭中所有的成年人(比如说18岁以上者)都具有同等的被选中的概率(机会)。Kish方法的具体做法在实际调查中,研究者也经常采用一种十分简便的户内随机抽人的方法——生日法。这种方法的具体操作步骤是:首先,随机确定一年中的某一天为标准日期,为便于计算,通常抽取每个月的第一天,比如说6月1日,或者7月1日等等。第二步,与Kish方法相似,需要了解所抽中的户中18岁以上的人口数,以及每人的生日是几月几号。第三步,计算出每人的生日距离标准日期的天数。第四步,从中选出生日距离标准日期最近的人作为调查对象。二、PPS抽样多段抽样中,其实暗含了一个假定:即每一个阶段抽样时,其元素的规模是相同的。比如第一阶段抽取街道时,暗含了每个街道规模相同。第二阶段从街道抽取居委会时,也是暗含了每个居委会的规模相同。在这样的假定下,采取前述几种随机抽样的方法,最终每户居民被抽中的概率相等。但现在的问题是,现实生活中,不仅每一个街道包含的居委户数不同,而且每一个居委会中所包含的居民户数也不同。因而按照上述多段抽样的方法来抽取样本时,最终每户居民被抽中的概率实际上是不同的。比如要从全市100家企业、总共20万名职工中,抽取l000名职工进行调查。我们采取多段抽样的方法,先从100家企业中随机抽取若干家企业,比如说抽取20家;然后再从这20家企业中分别抽取50名职工(50×20=1000)构成样本。需要注意的是,这100家企业的规模是不同的:最大的企业多达16000名职工,而最小的企业则只有200名职工。如果这样的两个企业都选人第一阶段的样本(即都进入20家企业的样本),那么它们在第一阶段的人选概率是相同的,即都为20/100=20%;但第二阶段从每家企业中抽取职工时,这两家企业中每个职工被抽中的概率却大不一样:前者的概率为50/16000=0.3125%,而后者的概率则为50/200=25%。这样,规模大的企业中每个职工被抽中的概率则为20%×0.3125%=0.0625%;而规模小的企业中每个职工被抽中的概率为20%×25%=5%;规模大的企业中的职工相对于规模小的企业中的职工来说,他们被抽中的概率要小得多(后者是前者的80倍)。在社会研究中,有一种常用的不等概率抽样方法,叫做“概率与元素的规模大小成比例的抽样”(SamplingwithProbabilityProportionalSize),简称PPS抽样。PPS抽样的方法正是为了解决上述问题而设计的。其原理可以通俗地理解成以阶段性的(或暂时的)不等概率换取最终的、总体的等概率。这种方法类似于将分层抽样和整群抽样结合起来,将抽样分为两个阶段进行。第一步将抽样单位确定为一定规模的“群”(如50个元素为一群);第二步从总体中确定各层(类)的概率(分解为抽取“群”的机会);第三步再从抽中的层(类)中抽取和机会数同等的群;第四步在各层(类)中抽取个体元素作为样本(群*群规模)。这样,就能首先保证总体中每一个类(层)的全部个体有同等概率被抽作样本,其次又注意避免在总概率很小的情况下(如1%)个体较少的类(层)的子样本太小失去分析价值。做法是:在第一阶段,每个群按照其规模(其所含元素的数量)被给予大小不等的抽取概率。大的群具有比小的群更大一些的概率。但到了抽样的第二阶段,从每个抽中的群中都抽取同样多的元素(也是不等概率的)。正是通过这样两个阶段上的不等概率抽样,使得总体中的每一个元素最终都具有同样的被抽中的概率。其实质是:第一个阶段中,大的群被抽中的概率大,而小的群被抽中的概率小;这样到了第二阶段,被抽中的大的群中的元素被抽中的概率显然就小于被抽中的小群中的元素了。正是这一大一小,平衡了由于群的规模带来的概率差异。可以用下列公式来说明PPS抽样的这种原理:每一个元素被抽中的概率=所抽取的群数×群的子样本数×(群的规模/总体的规模)×(平均每个群中所要抽取的元素/群的规模)群数*群的子样本数*[群在总体中的比重]*[个体元素在群中的比重]从上述公式中可以看到,PPS抽样的做法已经排除了群的规模这一因素的影响——第一个分子与第二个分母相互约掉了——每一个元素的被选概率变成了所抽取的群数乘以从每个群中所抽取的元素数目,再除以总体的规模。这实际上就是样本规模除以总体规模。PPS抽样的方法可以扩展到多阶段的情形,只要在中间的每个阶段都同样依据概率与规模成比例的原则,除了最后一个阶段以外。PPS的具体操作方法,我们可以用前面例2来说明。先将各个元素(即企业)排列起来,然后写出它们的规模、计算它们的规模在总体规模中所占的比例将它们的比例累计起来,并根据比例的累计数依次写出每一元素所对应的选择号码范围(该范围的大小等于元素规模所占的比例,见表6—6中第一、二、三、四列),然后采用随机数表的方法或系统抽样的方法选择号码,号码所对应的元素入选第一阶段样本(见表6—6第五、六列)。最后再从所选样本中进行第二阶段抽样(即从每个被抽中的元素中抽取50名职52)。由于规模大的企业其所对应的选择号码范围也大,而选择号码范围大时,被抽中的概率也大(有些特别大的企业还可能抽到不止一个号码,比如企业3就抽到两个号码,那么在第二阶段抽样中,就要从企业3中抽取50×2=100名职工)。由于规模大的企业在第一阶段抽样时被抽中的概率大于规模小的企业,这样就补偿了第二阶段抽样时规模大的企业中每个职工被抽中的概率小的情况,使得无论规模大还是规模小的企业中,每个职工总的被抽中的概率都是相等的。所以,这种方法最终抽出的样本对总体的代表性也大。当然从实践上看,由于PPS抽样需要知道每一个群(层-类)的规模,所以做起来并不十分容易。如果我们无法知道每一个街道的居民户数以及每一个居委会的居民户数,或者无法得到总体中所有企业各自的职工人数,我们就无法运用PPS抽样。补充:隐藏总体的抽样(纽曼,P)根据样本估计总体规模,可以通过反复抽样来获得。反复抽取的样本仍然无法估计总体中元素的特征结构(如平均数或比例的置信水平与置信区间)。(参见:赵延东的论文,《社会学研究》)第五节非概率抽样方法在社会研究中,人们有时还采用非概率抽样的办法来选取样本。非概率抽样不是按照概率均等的原则,而是根据人们的主观经验或其他条件来抽取样本。因而,其样本的代表性往往较小,误差有时相当大,而且这种误差又无法估计。所以,在大规模的正式研究中,一般很少用非概率抽样,常常只是在探索性研究中采用;常用的非概率抽样有以下几种。一、偶遇抽样偶遇抽样(accidentalsampling)又称做方便抽样或自然抽样,是指研究者根据现实情况,以自己方便的形式抽

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论