




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第4讲抽样
抽样与抽样调查抽样的术语与程序
概率抽样非概率抽样样本大小年份总统竞选人盖洛普预测实际选举结果1936罗斯福、蓝敦55.7:44.360.8:36.51940罗斯福、威尔基52:4854.7:44.81944罗斯福、杜威51.5:48.553.4:45.91848杜鲁门、杜威44.5:49.549.5:45.11952艾森豪威尔、史蒂文森51:4955.1:44.41956艾森豪威尔、史蒂文森59.5:40.557.4:42.01960肯尼迪、尼克松51:4949.7:49.61964约翰逊、戈德华特64:3661.1:38.51968尼克松、汉弗莱、华莱士43:42:1543.4:42.7:13.51972尼克松、麦戈文62:3860.7:37.51976卡特、福特48:4950.1:48.0第一节抽样与抽样调查
抽样是一种选择调查对象的程序和方法;即由总体中选取一部分代表的过程。选取样本的方法分为两大类:一类是非概率抽样。另一类概率抽样。抽样调查的成功首先要求所选取的样本能够代表总体。所谓代表,也就是抽取出来的样本从调查所要研究的总体特征来看,能够再现总体的结构。概率抽样最具科学性。第二节抽样的术语与程序
一、抽样的术语
1.总体是指调查研究对象全体所构成的集合;2.样本
是指按照一定方法从总体中抽取出来进行调查的那部分对象的集合;3.抽样
指的是从某个总体的集合中,按一定的方式选择或抽取一部分元素的过程。4.抽样单位
是指抽样过程中使用的基本单位。
5.样本框
是指抽样过程中抽取样本的所有抽样单位的名单。6.参数值也称总体值,是关于总体中某一变量的综合描述。7.统计值也称样本值,样本值是从样本的所有元素中计算出来的,它是相应的总体值的估计量。8.抽样误差在用样本的统计值去推论总体的参数值时,总会存在着偏差,这种偏差就是抽样误差。9.置信水平是指总体参数值落在样本统计值某一正负区间内的概率;10.置信区间是指在某一置信水平下,样本统计值与总体参数值间的误差范围。二、抽样的基本程序1.界定总体是对从中抽取样本的总体范围和界限作明确的界定。2.制定抽样框在确定了总体范围和抽样单位以后,收集总体中全部抽样单位的名单,并通过对名单进行统一编号来建立起供抽样使用的抽样框。3.设计和抽取样本4.对样本进行评估。
就是对样本的质量、代表性、偏差等进行初步的检验和衡量。
第三节概率抽样
一、简单随机抽样二、等距抽样三、分层随机抽样四、整群抽样五、多阶段抽样一、简单随机抽样按等概率原则直接从含有N个元素的总体中随机抽取n个元素组成样本(N>n)。1、抽签法2、随机数码法概率抽样的最基本形式。随机数字表一部分
行1234567
80133993412497612316507573997792236198
80239041057797427875301017796076822023
80356011268393850103321432597314843615
00407397958534S76443803766595773644801
805749985333713860894309582S6589396572
8065957295893697e543597905706090906479
80774645139402864000127042611765034050
80842765238553845111482326715212623800
80966561561303035654034539969887478001
81050670131723146020224342935945824410
81153971087013835636149108910517855653
81247177030853743294053870576185996943
81341494892704806312253003839601041457
81407409328740351484843744218670843267
81503097122124309346224144311506518267具体步骤(1)先取得抽样框;(2)将总体中所有元素按顺序编号;(3)确定随机数表中选取得数码位数;(4)用随机方法抽取第一个号码;(5)按照任意规则逐个抽取与样本单位顺序号码相符的号码与个数;(6)依据从随机数表中选出的数码,到抽样框中去找出它所对应的元素。例:在某个5000人的企业中抽取1000人进行问卷调查,如何操作?
如果是10人如何抽取?优点:简单易行缺点:只适用于总体数量不大,而且抽样框容易定位的调查;样本代表性差,误差大。二、系统抽样把总体的单位进行编号排序后,再计算出某种间隔,然后按这一固定的间隔抽取个体的号码来组成样本的方法。1、具体步骤(1)制定出抽样框。(2)计算抽样间距K=N/n(3)在最前面的K个个体中,采用简单随机抽样的方法抽取一个个体,记下个体编号(A)。(4)在抽样框中,自A开始,每隔K个个体抽取一个个体,编号分别为A,A+K,A+2K,…,A+(n-1)K。(5)将这n个个体合起来,就构成一个样本。2、课堂作业要在某大学总共3000名学生中,抽取一个容量为100的大学生样本。我们先将3000名学生的名单依次编上号码;然后按上述公式可求得抽样间距为:30;在1~30的数码中,采用简单随机抽样的方法抽取一个数字,假如抽到12,就以12为第一个号码;每隔30名再抽一个。这样,我们便可得到12,42,72,…,2972总共100个号码。再根据这100个号码,从总体中对应地找出100名学生,这100名学生就构成本次的一个样本。3、注意两种情况一是总体名单中,个体的排列具有某种次序上的先后、等级上的高低情况。二是总体名单中,个体的排列上有与抽样间隔相对应的周期性分布的情况。4、评价优点:样本的分布比较均匀,抽样误差小于简单随机抽样。缺点:总体不能太多,要有完整的登记册;三、分层抽样分层抽样:将总体按某种特征划分成若干类型,然后再根据各类型所包含的抽样单位数与总体单位数的比例,确定从各类型中抽取样本单位的数量。然后按照简单随机和等距抽样的方法抽取样本。例如:了解某市800个企业的生产经营,第一产业80个,第二产业320个,第三产业400个,需选择100个调查,如何做?计算比率:第一产业:10%,第二产业:40%,第三产业:50%;下一步是多少?相应的个数:第一产业:10,第二产业:40,第三产业:50然后抽取具体的样本2.分层抽样的优点总体单位数量较多,单位之间差异较大的对象。样本代表性大,误差较小。缺点:必须充分了解总体,否则无法分类;3.分层抽样的运用(1)分层的标准。第一,以所要分析和研究的主要变量或相关的变量作为分层的标准。第二,以保证各层内部同质性强、各层之间异质性强的变量作为分层变量。第三,以那些已有明显层次区分的变量作为分层变量;(2)分层的比例问题。按比例分层抽样是指按各种类型或层次中的单位数目同总体单位数目间的比例来抽取样本。例:某地区有百货商店1000个,其中大型百货商店100个,中型百货商店300个,小型百货商店600个。如果总样本数定为20个,则各层应抽取的样本数为多少?四、整群抽样先将总体各单位按一定标准分成若干群体,并将每一个群体看作一个抽样单位,然后按照随机原则从这些群体中抽取若干群体作为样本。例如,某大学共有100个班级,每班都是30名学生,总共有3000名学生,抽300名学生作为样本,如何抽取?从全校100个班级中,采取简单随机抽样的方法(或是系统抽样,分层抽样的方法)抽取10个班级,然后由这10个班级的全部学生(300名)构成样本;优点:抽样单位集中,它可以降低收集资料的费用,。缺点:样本的分布面不均匀、样本对总体的代表性相对较差等。和以上几种相比较,在样本数量相同的情况下抽样误差较大课堂练习假设总体是全国所有城市的集合(600),我们要抽取一个规模为40的样本,按照前面所介绍的方法如何抽取?1、简单随机抽样或系统抽样?2、分层抽样(特大、大、中等、小城市)3、整群抽样(以省为抽样单位)五、多段抽样多段抽样是按抽样元素的隶属关系或层次关系,把抽样过程分为两个或以上阶段进行。在社会研究中,当总体的规模特别大,或者总体分布的范围特别广时,研究者一般采取多段抽样的方法来抽取样本。具体步骤先从总体中随机抽取若干大群(组),再从这几个大群(组)内抽取几个小群(组),这样一层层抽下来,直至抽到最基本的抽样元素为止。例如:某市共有6万名员工,他们分布在全国20个城市的400个单位中。现在要抽取一个由1200名员工组成样本。如果按照三阶段抽样的方法,我们就可以有下列各种不同的抽样选择(见表)。要在类别和个体之间保持合适的比例。如何选择方案?2、研究者所拥有的人力和财力同质性越高,子总体规模越小大的类别较少,每一类别的个体较多1、各抽样阶段的子总体同质性程度。总则:大的类别抽取单元较多,每一单元抽取个体较少考虑因素调查方
案例子课堂练习:例如,假定某山区县有20个乡镇(该县20个乡镇经济发展状况较好的、一般的和较差的3类分别为4个、12个和4个),平均每个乡镇有10个行政村,每个行政村有10个自然村,每个自然村有50户。这样,全县共有200个行政村、2000个自然村、10万户。现决定采用多段随机抽样方法对该县计划生育状况按户做5‰的抽样调查,共抽取样本500户.其具体做法如下:首先,确定抽样单位。根据该县社会组织的4个层次,即乡镇、行政村、自然村和户,应采取4段随机抽样方法抽取样本,并确定乡镇为第1级单位,行政村为第2级单位,自然村为第3级单位,户为第4级单位然后,采取不同抽样方法,分4段逐步抽取样本:一段抽样,从县抽到乡镇。由于该县乡镇之间经济发展状况差异较大,因而应采用宜于这类抽样单位的类型分层抽样。其具体做法是:首先,编制抽样框。以经济发展状况为标准,将该县20个乡镇分为经济发展状况较好的、一般的和较差的3类(即3个群体),它们分别为4个、12个和4个。其次,确定样本数量。假定在第1级单位中抽取25%的单位即5个乡镇作为样本。再次,简单随机抽取和上述比例,在经济发展状况较好的4个乡镇中抽1个乡镇,一般的几个乡镇中抽3个乡镇,较差的4个乡镇中抽1个乡镇,共5个乡镇组成第1级样本。二段抽样,从乡镇抽到行政村。为了使样本分布比较均匀,可考虑采用等距抽样。具体做法是:首先,编制抽样框。把第1级样本5个乡镇的50个行政村编号l~50。其次,计算抽样间隔。假定从第2级单位中抽取20%的单位即10个行政村作为第2级样本,这样抽样间隔就应该是50÷10=5。再次,抽取第2级样本。就是先在第1抽样问隔内随机抽取第1个样本,假定是编号为2的行政村,然后按照抽样间隔就可确定编号为2,7,12,17,22,27,32,37,42,47的10个行政村为第2级样本。三段抽样,从行政村抽到自然村。为了便于集中调查,节约人财物力和时间,可考虑采取整群抽样方法。其具体做法是:首先,划分群体,即将第2级样本10个行政村所属的100个自然村,按照地理位置把每两个相近自然村划为一个群体,共分为50个群体。其次,抽取第3级样本,即按照随机原则从50个群体中抽出10个群体作为第3级样本。四段抽样,从自然村抽到户。为了简便易行,可采取简单随机抽样方法。其具体做法是:首先,编制抽样框,就是编制第3级样本10个群体、20个自然村、1000户的名单,并按照一定标准确定每户的编号。其次,抽取第4级样本,即按照简单随机抽样方法从每个群体(即相近的两个自然村100户)中抽取50户、10个群体中抽出500户作为第4级样本.即最后实施调查的具体对象。从上例可以看出,多段随机抽样方法的优点:把各种抽样方法的优点综合起来,达到以最小的人财物力消耗和最短时间获得最佳效果的目的。特别适合于调查总体范围大、单位多、情况复杂的调查对象。主要缺点:抽样误差较大,是各阶段抽样误差之和。第四节户内抽样与PPS抽样一、户内抽样采取一种被称做“Kish选择法”方式。具体做法:先将调查表分为(编号为)A、B1、B2、C、D、E1、,E2、F八种,每种表的数目分别占调查表总数的1/6、1/12、1/12、1/6、1/6、1/12、1/12、1/6。其次,印制若干套(一套八种)“选择卡”发给调查员,每人一套。“选择卡”的形式如表综合调查员首先对家庭中的成年人排序然后,调查员按照调查表上的编号找出相同的“选择表”,确定该选的个体序号,最后对之进行访谈。问题:当分子公司的规模大小不一时……比如说,甲分子公司比较大,有1000员工,乙分子公司比较小,只有200员工。那么,当它们在第一阶段都被抽中后,第二阶段分别从它们中抽取50员工。甲分子公司中员工被抽中的概率为(20/80)×(50/1000)=1/80。乙分子公司中员工被抽中的概率为(20/80)×(50/200)=1/16。多段抽样中,假定:即每一个阶段抽样时,其元素的规模是相同的。二、PPS抽样不等概率抽样方法,叫“概率与元素的规模大小成比例抽样”(SamplingwithProbabilityProportionaltoSize),简称PPS抽样。步骤:第一阶段,每个群按照其规模被给予大小不等的抽取概率。大群具有比小群更大一些的概率。第二阶段,从每个抽中群中都抽取同样多元素。公式说明:每个元素被抽中的概率应用这个公司中员工最终被抽中的概率是:20×(1/40)×(1/20)=1/40。甲公司第一阶段被抽中的概率是:1000/40000=1/40;第二阶段群中每一员工被抽中的概率是:50/1
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 12做个小导游教学设计-2023-2024学年科学二年级下册冀人版
- 2023七年级生物下册 第四单元 生物圈中的人 第二章 人体的营养第三节 关注合理营养与食品安全教学设计 (新版)新人教版
- 2023一年级数学上册 七 加与减(二)第3课时 搭积木教学设计 北师大版
- 2024-2025学年高中历史 第二单元 工业文明的崛起和对中国的冲击 第9课 改变世界的工业革命教学教学设计 岳麓版必修2
- 七年级道德与法治上册 第三单元 师长情谊 第六课 师生之间 第一框 走近老师教学设计 新人教版
- 2023三年级英语上册 Unit 4 Family Again,Please教学设计 冀教版(三起)
- 2024六年级英语上册 Unit 1 How can I get there课时5 Read and write教学设计 人教PEP
- 自己在家安全教育
- Unit 3 Section B 2a~2c 教学设计2023-2024学年人教版英语七年级下册
- 《卢沟谣》(教学设计)-2024-2025学年五年级上册人教版(2012)音乐
- 吉林省吉林市2024-2025学年高三下学期3月三模试题 数学 含答案
- 2024年上海静安区教育系统招聘考试真题
- 2025年4月自考15040习概押题及答案
- 园林花卉 课件 第三篇1单元 一二年生花卉
- 【初中生物】植物在自然界中的作用 2024-2025学年七年级生物下学期课件(人教版2024)
- 2025届福建省质检高三适应性练习英语试卷(含答案和音频)
- 工艺美术品设计师(漆器设计与制作)赛项实施方案
- 广东省2025届高三下学期3月综合能力测试(CAT) 英语试题(含答案)
- 高中主题班会 我命由我少年当燃课件-高一下学期开学第一次班会
- 林海雪原考试题和答案
- 综合与实践 低碳生活 教学设计 2024-2025学年人教版七年级数学下册
评论
0/150
提交评论