抽样教材课件_第1页
抽样教材课件_第2页
抽样教材课件_第3页
抽样教材课件_第4页
抽样教材课件_第5页
已阅读5页,还剩56页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第四章抽样一、抽样的意义与作用二、概率抽样的原理与程序三、概率抽样方法四、非概率抽样五、样本规模与抽样误差第四章抽样一、抽样的意义与作用一、抽样的意义与作用(一)抽样的概念1、总体(population)——是构成它的所有元素的集合,一般用大写字母N表示。研究总体:在理论上明确界定的个体的集合体调查总体:是研究者从中实际抽取调查样本的个体的集合体,它往往是对研究总体的进一步界定如妇女-“2005年年满15-49岁的中国妇女”-“2005年10月1日零时(除台湾、西藏、香港、澳门)外28个省自治区15-49岁的妇女”,同时还将医院、精神病院、监狱、劳教所、军队中的妇女除外。一、抽样的意义与作用(一)抽样的概念(一)抽样的概念2、样本(sample)——从总体中按一定方式抽取出的一部分元素的集合。样本数目一般用小写字母n表示。3、抽样(sampling)——从总体中按一定方式选择或抽取样本的过程。4、抽样单位(samplingunit)——一次直接的抽样所使用的基本单位。注意:抽样单位与构成总体的元素有时相同,有时是不同的(一)抽样的概念2、样本(sample)——从总体中按一定方(一)抽样的概念5、抽样框(samplingframe)——又称抽样范围,指一次直接抽样时总体中所有抽样单位的名单。6、参数值(parameter)——也称总体值,它是关于总体中某一变量的综合描述,或者说是总体中所有元素的某种特征的综合数量表现。如,工学院教师的平均收入。通常以希腊字母表示(一)抽样的概念5、抽样框(samplingframe)—(一)抽样的概念7、统计值(statistic)——也称样本值,它是关于样本中某一变量的综合描述,或者说是样本中所有元素的某种特征的综合数量表现。通常用罗马字母表示。注意:参数值和统计值重要区别:参数值是确定不变的、唯一的,并且通常是未知的;统计值则是变化的,即对于同一个总体来说,不同样本所得的统计值是有差别的。同时,对于任一特定的样本来说,统计值是已知的,或者说是可以通过计算得到的。(一)抽样的概念7、统计值(statistic)——也称样本(一)抽样的概念(8)置信度:又称置信水平,它指的是总体参数值落在样本统计值某一区间内的概率,或者说,是总体参数值落在样本统计值某一区间中的把握性程度。(9)置信区间:指在一定的置信度下,样本统计值与总体参数值之间的误差范围。(一)抽样的概念(8)置信度:又称置信水平,它指的是总体参数(二) 抽样的作用——为人们提供一种实现“由部分认识整体”这一目标的途径和手段。抽样调查是架在研究者十分有限的人力、财力和时间与庞杂、纷繁、多变的社会现象之间的一座桥梁(二) 抽样的作用——为人们提供一种实现“由部分认识整体”这(三)抽样的类型(1)概率抽样:简单随机抽样、系统抽样、分层抽样、整群抽样、多段抽样、PPS抽样、户内抽样(2)非概率抽样:偶遇抽样、判断抽样、定额抽样、雪球抽样(三)抽样的类型(1)概率抽样:简单随机抽样、系统抽样、分层二、概率抽样的原理与程序(一)概率抽样的基本原理1、总体的同质性与异质性同质性:如果某个总体中的每一个成员在所有方面都相同,那么,我们就说这个总体具有完全的同质性。否则,就存在不同程度的异质性。同质性总体不需要抽样。社会各种总体的异质性决定了严格的概率抽样的必要性。二、概率抽样的原理与程序(一)概率抽样的基本原理2、 概率抽样的原理——等概率原则(1)每一个个体的抽取都是一个随机事件,即保证总体中的每一个个体都有相同的机会入选样本。或者说,每一个个体的抽取都是相互独立的,被抽中的概率相等。(2)各种随机事件的背后,存在着事件发生的客观概率,正是这种概率决定着随机事件的发展变化规律。(例:投掷硬币)(3)概率抽样之所以能够保证样本对总体的代表性,其原理就在于它能够很好地按照总体内在结构中所蕴涵的各种随机事件的概率来构成样本,使样本成为总体的缩影。2、 概率抽样的原理——等概率原则(1)每一个个体的抽取都是3、 独立性要求与不放回抽样独立性要求是指:任何一个元素的抽取都不会影响到其他元素被抽取的概率。严格地说,它要求放回抽样。研究者实际上进行的是不放回抽样。只要总体相对于样本来说要大得多,我们就可以忽略这种不放回抽样所产生的微小改变。3、 独立性要求与不放回抽样独立性要求是指:任何一个元素的抽(二) 抽样分布1、含义:抽样分布是根据概率的原则而成立的理论分布,它显示:从一个总体中不断抽取样本时,各种可能出现的样本统计值的分布情况。2、例:一个总体为10个个案的平均数分布。假如:这10个人参加工作的年限分别为6、7、8、9、10、11、12、13、14、15年,那么这一总体的成员平均工作年限为10.5年。(二) 抽样分布1、含义:抽样分布是根据概率的原则而成立的理(1)用容量为1的样本来估计总体的平均数(1)用容量为1的样本来估计总体的平均数(2)用容量为2的样本来估计总体的平均数(2)用容量为2的样本来估计总体的平均数(3)用容量为3的样本来估计总体的平均数(3)用容量为3的样本来估计总体的平均数(4)用容量为4的样本来估计总体的平均数(4)用容量为4的样本来估计总体的平均数(5)用容量为5的样本来估计总体的平均数(5)用容量为5的样本来估计总体的平均数样本容量增大时,样本平均数的分布变化趋势:平均数的范围将逐步缩小,相同的平均数会相应增多;全部平均数的分布向总体平均数集中。样本容量增大时,样本平均数的分布变化趋势:平均数的范围将逐步3、中心极限定理在一个含有N个元素且平均数为μ标准差为σ的总体中,抽取所有可能含有n个元素的样本。(根据组合计算全部可能的样本数目为m=)样本平均数的分布将是一个随n愈大而愈趋于具有平均数μ和标准差σ的正态分布。这一定理说明:当n足够大时(通常假定大于30),无论总体的分布如何,其样本的平均数所构成的分布都趋于正态分布。3、中心极限定理在一个含有N个元素且平均数为μ标准差为σ正态分布图正态分布图正态分布图正态分布图正态分布图正态分布图4、 正态分布的特点(1)单峰、对称。其平均数、众数(次数最多的值)、中位数(其两边的样本数相同)都相同。(2)全部样本平均数的平均值正好等于总体的平均数;全部样本平均数的标准差则等于总体标准差除以。(3)平均数的次数等于正态曲线下的面积,而正态曲线下的任何部分的面积都是可以用数学方法推算的。4、 正态分布的特点(1)单峰、对称。其平均数、众数(次数最人们通常采用下列几组数字有90%的样本统计值落在u±1.65SE(样本平均数的标准差)之间;有95%的样本统计值落在u±1.96SE之间;有98%的样本统计值落在u±2.33SE之间;有99%的样本统计值落在u±2.58SE之间。其中,百分数表示置信水平,u±1.65SE等表示置信区间。人们通常采用下列几组数字有90%的样本统计值落在u±1.65(三)抽样的程序1、界定总体:1936年总统选举预测情况表(三)抽样的程序1、界定总体:1936年总统选举预测情况表1、界定总体什么原因导致《文摘》杂志的预测失败?1、界定总体什么原因导致《文摘》杂志的预测失败?1、界定总体盖洛普博土的成功主要得益于其选取样本的方法。首先.他分析了选民酌性别、年龄、社会阶层、人种等。还分析了人口数量分布特征。再依据分析结果对样本数量进行分配。(有关这方面助知识,将在分层抽样、配领抽样中进行介绍)。这就保证7选取样布的质量,在调查方法上他们也否定邮寄问卷的方式,村所选取的调查对象尽可能地用直接面谈的方法进行调查。1、界定总体盖洛普博土的成功主要得益于其选取样本的方法。(三)抽样的程序2、决定抽样方案:根据研究目的、总体特征、客观条件选择不同的抽样方案。并同时根据调查的精确程度和可靠性的要求,确定样本规模。(三)抽样的程序2、决定抽样方案:根据研究目的、总体特征、客(三)抽样的程序3、制定抽样框:根据抽样方案分阶段制定。4、实际抽取样本:可以事先确定抽样框和抽样,也可能需要到了目的地才能制定抽样框和抽样,再调查,也可能一边抽取样本,一边开始调查。(三)抽样的程序3、制定抽样框:根据抽样方案分阶段制定。(三)抽样的程序5、评估样本质量。基本方法:将可得到的反映某些总体重要特征及其分布的资料与样本中的同类指标的资料进行对比,看是否基本一致。如性别比例、学历比例等。(三)抽样的程序5、评估样本质量。三、概率抽样方法抽样方法涉及到研究问题的性质、抽样框的获得、经费的多少、样本的代表性要求、调查资料的获取等等因素。不同的方法适用不同的情形。三、概率抽样方法抽样方法涉及到研究问题的性质、抽样框的获得、(一)简单随机抽样(simplerandomsampling)又称纯随机抽样,是概率抽样的基本形式。1、抽签。总体的每一元素编号(抽样框)——将号码写在一张张纸条上——搅拌均匀——抽出纸条——找出编号所对应的元素2、随机表:抽样框——编号——确定从随机表中选取几位数——逐一取舍——找出所选中的编码的对应元素(一)简单随机抽样(simplerandomsampli随机数表抽样举例随机数表抽样举例3、简单随机抽样方法①当总体元素较少时:常用的办法类似于抽签,即把总体中每一个单位都编号,将这些号码写在一张张小纸条上,然后放入一容器如纸盒、口袋中,搅拌均匀后,从中任意抽取,直到抽够预定的样本数目。这样,由抽中的号码所代表的元素组成就是一个简单随机样本。3、简单随机抽样方法①当总体元素较少时:常用的办法类似于抽签3、简单随机抽样方法②当总体元素很多时:采用随机数表来抽样。具体步骤如下:a.先取得一份总体所有元素的名单(即抽样框);b.将总体中所有元素一一按顺序编号;c.根据总体的规模为标准,对随机数表中的数码逐一进行衡量并决定取舍。d.以总体规模为标准,对随机数表中的数码逐一进行衡量并决定取舍;e.根据样本规模的要求选择出足够的数码个数;f.依据从随机数表中选出的数码,到抽样框中去找出它所对应的元素。3、简单随机抽样方法②当总体元素很多时:采用随机数表来抽样。(二)系统抽样(systematicsampling)1、含义:又称等距抽样、机械抽样。它是把总体的单位进行编号排序后,再计算出某种间隔,然后按这一固定间隔抽取个体号码来组成样本的方法。2、步骤:(1)制定抽样框(2)计算抽样间隔K=总体规模N/样本规模n(3)选择随机起点A(4)抽取个体:自A开始,每隔K个个体抽取一个个体。A,A+K,A+2K……(5)将n个个体合起来,构成一个样本(二)系统抽样(systematicsampling)1、(二)系统抽样3、系统抽样优缺点:<1>优点:①易于实施,工作量少。②样本在总体中分布更为均匀,抽样误差小于或至多等于简单随机抽样。(二)系统抽样3、系统抽样优缺点:(二)系统抽样<2>系统抽样缺点:①系统抽样是以总体的随机排列为前提,如果总体的排列出现有规律分布时,会使系统抽样产生极大误差。②当总体内个体类别之间的数目悬殊过大时,样本的代表性可能较差。<3>适用范围:系统抽样最适用于同质性较高的总体。(二)系统抽样<2>系统抽样缺点:注意:应随机制定抽样框尤其注意以下两种情况:(1)总体名单中,个体的排列具有某种秩序上的先后、等级上的高低。(2)总体名单中,个体的排列上有与抽样间隔相对应的周期性分布。注意:应随机制定抽样框尤其注意以下两种情况:(三)分层抽样(stratifiedsampling)1、步骤:又称类型抽样(1)先将总体所有单位按某种特征或标志(如性别、年龄、职业、地域等)划分成若干类型或层次(2)然后再在各个类型或层次中采用简单随机抽样或系统抽样的办法抽取一个子样本(3)最后将这些子样本合起来构成总体的样本。(三)分层抽样(stratifiedsampling)1、(三)分层抽样(stratifiedsampling)2、优点:(1)在不增加样本规模的前提下降低抽样误差,提高抽样精度。子总体内部同质性较强、子总体之间异质性较强。(2)便于了解总体内不同层次的情况,便于对总体中不同类别进行单独研究或比较。(三)分层抽样(stratifiedsampling)2、(三)分层抽样(stratifiedsampling)3、注意:(1)分层的标准如何选择:主要变量或相关变量;突出总体内在结构的变量;已有明显层次区分的变量。(2)分层的比例问题。按比例分层抽样——按各种类型单位数目同总体单位数目之间的比例来抽取子样本。不按比例分层抽样——不按比例分层抽样获得的样本资料推论总体时,要进行加权处理。(三)分层抽样(stratifiedsampling)3、(四)整群抽样(clustersampling)1、含义:抽样单位为群体,而非个体。它是从总体中抽取(可采用随机抽样、系统抽样、分层抽样方法)一些小群体,然后由所抽出的若干小群体的所有元素构成调查样本。(四)整群抽样(clustersampling)1、含义:(四)整群抽样(clustersampling)2、比较:四种抽样方法:从全国所有城市中抽出40个城市的样本整群抽样的优点:可以简化抽样过程,降低收集资料的费用,还能相对地扩大抽样的应用范围。缺点:样本分布面不广,样本对总体的代表性相对较差。3、注意:适用分层抽样的情况:子总体之间差异大,而内部差异小适用整群抽样的情况:子群体之间差别不大,而内部差异大(四)整群抽样(clustersampling)2、比较:(五)多段抽样(multistagesampling)1、含义:又称多级抽样或分段抽样,它是按抽样元素的隶属关系或层次关系,把抽样过程分成几个阶段进行。2、步骤:(1)从总体中随机抽取若干大群;(2)再从这几个大群内抽取几个小群……(3)直到抽到最基本的抽样元素为止。在每个阶段中,都要采用简单随机抽样、系统抽样或分层抽样方法。(五)多段抽样(multistagesampling)1、(五)多段抽样3、注意:如何确定每一级抽样的单位数目?要在类别和个体之间保持合适的比例。一般来说,类别相对较多、每一个类别中个体相对较少的抽样效果较好。考虑因素有三:(1)各抽样阶段中的子总体同质性程度;(2)各层子总体的人数;(3)研究者拥有的人力和经费(五)多段抽样3、注意:如何确定每一级抽样的单位数目?要在类(五)多段抽样4、多段抽样的优缺点优点:抽样比较容易进行缺点:由于每一级抽样都会产生误差,故误差较大。在同等条件下减少多段抽样误差的方法是:相对增加开头阶段的样本数目,适当减少最后阶段的样本数目。(五)多段抽样4、多段抽样的优缺点(六)PPS抽样(samplingwithprobabilitypropotionaltosize)全称:概率与元素的规模大小成比例的抽样1、PPS抽样的必要性:元素在总体中的地位不同时,需要采取不等概率抽样方法,以最终使调查总体的每一元素都有同等被抽中的概率。(六)PPS抽样(samplingwithprobabi2、步骤:(1)先将各个元素排列起来;(2)然后写出它们的规模在总体规模中所占的比例;(3)将他们的比例累计起来;(4)根据累计数一次写出每一元素所对应的选择号码范围;(5)采用随机抽样或系统抽样的方法选择号码,号码所对应的元素入选第一阶段样本;(6)再从所选样本中进行第二阶段抽样。这样,无论大规模企业的职工和小规模企业的职工被抽中的概率是相等的。2、步骤:(1)先将各个元素排列起来;第四章抽样教材课件(七)户内抽样(samplingwithinhoushold)1、含义:如要研究家庭结构、生活方式等方面的内容,通过多段抽样市、县-区、乡-街、村-居委会、居民组-户,最后,还要从户中抽取一个成年人构成访谈对象的样本。最后一阶段的抽样可以采取被称作“Kish选择法”的户内抽样。(七)户内抽样(samplingwithinhousho2、步骤:(1)先将调查表分类编号为A、B1、B2、C、D、E1、E2、F八种,每种表的数目分别占总调查表的1/6、1/12、1/12、1/6、1/6、1/12、1/12、1/6。(2)同时印制若干套(1套八种)“选择卡”发给调查员,每人一套。(3)调查员对每户家庭中的成年人进行排序和编号,排序的方法是:男性在前,女性在后;年纪大的在前,年纪小的在后。(4)按照调查表上的编号找出编号相同的那种选择卡,根据家庭人口数目从选择卡中查出应选个体的序号。然后对这一序号所对应的那个家庭成员进行访谈。2、步骤:(1)先将调查表分类编号为A、B1、B2、C、D、四、非概率抽样(一)偶遇抽样(accidentalorconveniencesampling)又称方便抽样或自然抽样。指研究者根据现实情况,以自己方便的形式抽取偶然遇到的人作为调查对象,或者仅仅选择那些离得最近的、最容易找到的人作为调查对象。街头拦人、邮寄式调查、杂志内问卷调查四、非概率抽样(一)偶遇抽样(accidentalor(二)判断抽样(judgmentalorpurposesampling)又称立意抽样。它是调查者根据研究目标和自己的主观分析来选择和确定调查对象的方法。典型调查经常使用这种方法。(二)判断抽样(judgmentalorpurpose(三)定额抽样(quotasampling)又称配额抽样。首先,研究者对总体进行分层,并找出具有各种不同特征的成员在总体中所占的比例。然后选择研究对象,使样本成员在各种特征上的构成尽量接近总体的结构。(三)定额抽样(quotasampling)又称配额抽样。100个人的定额样本分布(总体4000人)男生(总体中的比例为60%)?人女生(总体中的比例为40%)?人文科(总体中的比例为50%)?人理科(总体中的比例为50%)?人文科(总体中的比例为50%)?人理科(总体中的比例为50%)?人年纪一二三四一二三四一二三四一二三四人数100个人的定额样本分布(总体4000人)男生(总体中的比例(四)雪球抽样(snowballsampling)又叫推荐抽样当我们无法了解总体情况时,可以从总体中少数成员入手,对他们进行调查。向他们询问还知道那些符合条件的人,再去寻找那些人并再现文他们还知道那些符合条件的人。如同滚雪球一样,可以找到越来越多的符合条件的人。(四)雪球抽样(snowballsampling)又叫推荐五、样本规模与抽样误差(一)样本规模:又称样本容量,它指样本中所含个案数的多少。t:置信度所对应的临界值;e:抽样

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论