《抽样技术》课件(完整版)_第1页
《抽样技术》课件(完整版)_第2页
《抽样技术》课件(完整版)_第3页
《抽样技术》课件(完整版)_第4页
《抽样技术》课件(完整版)_第5页
已阅读5页,还剩564页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、抽样技术第 1 章 绪论1.1 调查与抽样调查调查(survey):通过使用明确的概念、方法和程序,依据专门设计的调查方案指导的方式,从一个总体全部或部分单元中搜集感兴趣的指标信息,并将这些信息综合整理成数据系列的有关活动。例:调查北京市民对出租车行业的满意度调查全面调查与非全面调查根据“调查是否针对总体的所有单元”划分:全面调查:普查非全面调查非全面调查相对于全面调查的优点:(1)时间短速度快;(2)费用少成本低;(3)调查结果比较准确;(4)应用范围广泛。应用前提抽样调查的基本概念抽样调查(sampling survey)是一种非全面的调查,指从研究对象的全体(总体)中抽取一部分单元作为样

2、本,根据对所抽取的样本进行调查,获得有关总体目标量的了解。抽样调查的作用1节约费用 2时效性强 3可以承担全面调查无法胜任的项目 4有助于提高调查数据的质量 根据“单元是否按照一定的概率入样”划分: 概率抽样和 非概率抽样随机抽样是指按照概率原则,从总体中抽取一定数目的单位作为样本进行观察,随机抽样使总体中每个单位都有一定的概率被选入样本,从而使根据样本所做出的结论对总体具有充分的代表性。非随机抽样是以方便为出发点或根据研究者主观的判断来抽取样本。非随机抽样主要依赖研究者个人的经验和判断,它无法估计和控制抽样误差,无法用样本的量化数据来推断总体。 概率抽样调查非概率抽样调查优点:能够保证样本的

3、代表性,避免人为因素的干扰;用概率抽样取得的样本去估计总体特征时,可以对由抽样产生的抽样误差进行估计。缺点:难以评价样本的代表性无法估计抽样误差偏倚往往较大概率(随机)抽样(probability sampling )非概率(非随机)抽样(non- probability sampling ) 抽样调查应用领域 社会经济现象的调查 社会性的民意调查 市场调查 1.2 基本概念 目标总体与抽样总体 抽样框与抽样单元 总体参数与统计量 估计量方差、偏差、均方误差 抽样误差与非抽样误差 精度与费用 目标总体与抽样总体总体目标总体也可简称为总体,是指所要研究对象的全体,或者说是希望从中获取信息的总体,

4、它是由研究对象中所有性质相同的个体所组成组成总体的各个个体称作总体单元或单位。 抽样总体是指从中抽取样本的总体。 抽样框与抽样单元抽样总体的具体表现是抽样框。通常抽样框是一份包含所有抽样单元的名单。抽样框的形式:名单、手册、地图、数据包等等。抽样框的要求:(1)抽样框必须是有序的,即抽样单元必须编号,且根据某种顺序进行了排列。(2)抽样框中包含的抽样单元务必要“不重不漏”,否则将出现抽样框误差。抽样单元分级:初级单元次级单元三级单元四级单元基本抽样单元。总体参数和(样本)统计量总体参数:总体是调查的客体,而总体参数是总体某个特征或属性的数量表现。常见的总体参数有4种:(1)总体总值;(2)总体

5、均值;(3)总体比例;(4)总体比率。总体总值、总体均值、总体比例三者是统一的,它们都可以用总体均值来表示。why统计量和估计方法统计量是根据样本的n个单元的变量值计算出的一个量,也叫估计量,用于对总体参数的估计。估计量是随机变量,比如样本均值估计方法:最常见的估计方法是简单线性估计,除此之外,还可以借助于辅助变量。辅助变量必须满足的两个条件:(1)与要估计的变量高度相关;(2)其总体信息已知。估计量方差、偏差、均方误差估计量分布的方差称为估计量方差,它是从平均的意义上说明估计值与待估参数的差异状况,也是我们对抽样方案进行评价的标准之一。 估计量方差表达式: 偏差是指按照某一抽样方案反复进行抽

6、样,估计值的数学期望与待估参数之间的离差。 偏差的表达式 :对于无偏估计量 ,偏差为零 。估计量方差、偏差、均方误差均方误差(Mean Square Error, MSE )指所有可能的估计值与待估参数之间离差平方的均值,它等于估计量方差加偏差的平方。 =估计量方差、偏差、均方误差抽样误差与非抽样误差抽样误差:抽样误差是由于抽取样本的随机性造成的样本值与总体值之间的差异,只要采用抽样调查,抽样误差就不可避免。抽样误差是一个一般的概念,它可以用不同的量值来表示。例如:估计量方差或估计量标准差。非抽样误差:是相对于抽样误差而言的,它不是由于抽样的随机性,而是由于其它多种原因引起的估计值与总体参数之

7、间的差异。 包括:抽样框误差、计量误差、无回答误差等精度与费用调查的费用是一个与样本量有关的函数,最简单的是线性费用函数。最优抽样设计:指以最小的费用达到要求的精度或者在给定费用的情况下达到最大的精度样本容量抽样误差精度由误差来表现。抽样误差与样本量有关,样本量越大,在其它条件相同情况下,抽样误差就越小,抽样调查的精度就越高。几种基本的抽样方式 概率抽样调查 非概率抽样调查简单随机抽样分层抽样系统抽样整群抽样多阶段抽样 判断抽样(包括典型调查和重点调查)便利抽样自愿样本滚雪球抽样配额抽样等简单随机抽样简单随机抽样(simple random sampling)又称纯随机抽样,考虑一个包含N个单

8、位的母体,从中抽取n个单位作为样本。如果抽样是不放回的,即同一个单位不能在样本中重复出现,那么总共有C(N,n) 种不同的取法,也就是说共有C(N,n)个可能的不同样本。如果每个样本被抽中的概率都相等,则称这种抽样方法为简单随机抽样,所得到的样本叫做简单随机样本(SRS)。 例题:某大学欲了解该校研究生中打算报考托福人数的比例,全校研究生共有570人,随机抽取了100人,其中有14人准备参加托福考试,试以95%的把握程度对研究生中欲报考托福人数的比例作出估计。 简单随机抽样分层抽样 分层抽样(stratified sampling)又称类别抽样,它是先将总体所有单位按某些重要标志进行分类(层)

9、,然后在各类(层)中采用简单随机抽样或系统抽样方式抽取样本单位的一种抽样方式。例如,对员工收入状况进行调查,就可将员工按职业不同,分为生产人员、商业人员、服务性工作人员等各层,再从各层中抽取员工。等比例抽样不等比例抽样优点更为精确对每层的推论 分层抽样系统抽样 系统抽样是将N个总体单位按一定顺序排列,先随机抽取一个单位作为样本的第一个单位,然后按某种确定的规则抽取样本的其它单位。其中最简单也是最常用的规则是等间隔抽取。所以系统抽样又称等距抽样。系统抽样排列顺序与调查项目无关排列顺序与调查项目有关例如,从600名大学生中抽选50名大学生利用学校现有名册按顺序编号排序,从第001号编至600号。抽

10、选距离=N/n=600/50=12(人)如从第一个12人中用简单随机抽样方式,抽取第一个样本单位,如抽到的是8号,依次抽出的是20号,32号,44号等。 系统抽样优点均匀地分布 简单易行 缺点抽样误差计算较为复杂 周期性重合时会影响调查的精确度需要较为详细、具体的相关资料 整群抽样整群抽样是先将总体划分成许多不相重合的子总体或群,然后以群为抽样单位,按某种随机方式从中抽取若干个群,形成一个“群”的随机样本,对抽中的群内所有单位都进行调查。例如,某大学要调查学生的视力,可以将班做为一个群,随机抽取几个班,对这些班的全部学生进行调查。 整群抽样一是没有总体最终单位的抽样框实施便利、节省费用影响整群

11、抽样误差的主要是群间方差。分群时使群内方差尽可能大,使群间方差尽可能小。 整群抽样的估计精度一般低于简单随机抽样 多阶段抽样(multi stage sampling) 多阶段抽样是指抽取样本单位时分几个阶段进行:首先在总体中按随机原则抽取若干初级(一级)单位,然后再从被抽中的初级单位中抽取若干次级(二级)单位,这种抽样称为二阶段抽样。如果每个次级单位又可以进一步分为更小的三级单位,那么在每个被抽中的二级单位中再抽取三级单位,这称为三阶段抽样,以此类推,可以定义更多阶段的抽样。多阶段抽样例如,全国性调查,省;市或县;街道、镇、或乡,等等。在大规模的抽样调查中,特别是当抽样单位为各级行政单位时,

12、通常都采用多阶段抽样。优点:样本单位相对集中,实施调查比较方便,可以节省调查费用。抽样时并不需要全部低级单位的抽样框 非随机抽样技术 原因:1受客观条件限制,无法进行严格的随机抽样;2为了快速获得调查结果;3在调查对象不确定,或无法确定的情况下采用,例如,对某一突发(偶然)事件进行现场调查等;4总体各单位间离散程度不大,且调查员具有丰富的调查经验时。方便抽样根据调查者的方便与否来抽取样本,“街头拦人法” 判断抽样凭研究人员的主观意愿、经验和知识,从总体中选择具有典型代表性样本作为调查对象平均型”或“多数型” 按照一定标准,主观选取样本 非随机抽样技术 配额抽样事先要对总体中所有单位按其属性、特

13、征分为若干类型,这些属性、特征称为“控制特征”。如被调查者的姓名、年龄、收入、职业、教育程度等;然后,按照各个控制特征分配样本数额。 简单易行,样本具有较高的代表性 雪球抽样前提:是总体单位之间具有一定的联系,非随机抽样技术 1.4 抽样调查步骤(1) 确定调研问题(2) 抽样方案设计(3) 问卷设计 (4) 实施调查过程 (5) 数据处理分析(6) 撰写调查报告 抽样方案设计内容 第一、确定抽样调查的目的、任务和要求;第二、确定调查对象的范围和抽样单位;第三、确定抽取样本方法;第四、确定必要的样本数;第五、对主要抽样指针的精度提出要求;第六、确定总体目标量的估算方法;第七、制订实施总体方案的

14、办法和步骤。 第2章 简单随机抽样(SRS)2.1 概述2.2 简单估计量及其性质2.3 比率估计量及其性质2.4 回归估计量及其性质2.5 简单随机抽样的实施2.1 概述简单随机抽样也称为纯随机抽样。从含有 N 个单元的总体中抽取 n 个单元组成样本,如果抽样是不放回的,则所有可能的样本有 个,若每个样本被抽中的概率相同,都为 ,这种抽样方法就是简单随机抽样。具体抽样时,通常是逐个抽取样本单元,直到抽满n个单元为止。 有限放回简单随机抽样与不放回简单随机抽样放回简单随机抽样(SRS with replacement)当从总体N个抽样单元中抽取n个抽样单元时,如果依次抽取单元时,不管以前是否被

15、抽中过,每次都从N个抽样单元中随机抽取,这时,所有可能的样本为 ? 个(考虑样本单元的顺序),每个样本被抽中的概率为?放回简单随机抽样在每次抽取样本单元时,都将前一次抽取的样本单元放回总体,因此,总体的结构不变,抽样是相互独立进行的,这一点是它与不放回简单随机抽样的主要不同之处。放回简单随机抽样的样本量不受总体大小的限制,可以是任意的。除非特别说明,简单随机抽样指的是不放回简单随机抽样【例2.1】设总体有5个单元(1、2、3、4、5),按放回简单随机抽样的方式抽取2个单元,则所有可能的样本为25个(考虑样本单元的顺序):1,12,13,14,15,11,22,23,24,25,21,32,33

16、,34,35,31,42,43,44,45,41,52,53,54,55,5不放回简单随机抽样当从总体N个抽样单元中依次抽取n个抽样单元时,每个被抽中的单元不再放回总体,而是从总体剩下的单元中进行抽样。不放回简单随机抽样的样本量要受总体大小的限制。在实际工作中,更多的采用不放回简单随机抽样。 【例2.2】设总体有5个单元(1、2、3、4、5),按不放回简单随机抽样的方式抽取2个单元,则所有可能的样本为个:1,22,33,44,51,32,43,51,42,51,5简单随机抽样的抽取原则:(1)按随机原则取样;(2)每个抽样单元被抽中的概率都是已知的或事先确定的;(3)每个抽样单元被抽中的概率都

17、是相等的。所有可能样本每个样本被抽中的概率相同所有可能样本每个样本被抽中的概率相同符号 大写符号表示总体的标志值,小写符号表示样本的标志值 总 体样 本 数理统计中的任何参数估计问题都是抽样调查涵盖的范围,理论上人们一般只关注四个方面的总体特征:总体均值总体总值总体比率总体比率2.2 简单估计量及其性质 判断下面要估计的总体目标量分别属于什么类型?调查城市居民家庭平均用电量。估计湖中鱼的数量。测试日光灯的寿命。估计居民家庭用于做饭菜及饮用的用水量占家庭总用水量的比重。估计婴儿出生性别比。检测食盐中碘含量。 一、对总体均值的估计 以样本均值作为总体均值的估计性质1:对于简单随机抽样, 是 的无偏

18、估计。 例设总体为0,1,3,5,6,计算总体均值 =3、总体方差 =5.2和 =6.5;给出全部 的样本,并验证 及 。 1010.5-2.50.52031.5-1.54.53052.5-0.512.540630185132-126153087163.50.512.58354129364.51.54.510平均565.52.50.5306.5方差1.95样本编号单元1单元2样本均值-样本方差 证明 性质1 对于固定的有限总体,估计量的期望是对所有可能样本求平均得到的,因此总体中每个特定的单元 在不同的样本中出现的次数。 证明 性质1(对称性论证法) 由于每个单元出现在总体所有可能样本中的次数

19、相同,因此 一定是 的倍数,且这个倍数就是 , 性质2:对于有限总体的方差定义 :性质2:对于简单随机抽样, 的方差式中: 为抽样比, 为有限总体校正系数。 证明性质2(对称论证法): 中的求和是对 项的, 中的求和是对 项的 每个特定单位被选入样本的概率: =P(i)=故其定义为:* 不放回抽样* 每个样本被抽中的概率为* 每个单位被选入样本的概率 利用无限总体理论 Mean =随机变量证明性质2简单随机抽样下,简单估计量估计精度影响因素: 估计量的方差 是衡量估计量精度的度量。影响估计量方差的因素主要是样本量n,总体大小N和总体方差 。通常N很大,当f0.5 ,比率估计比简单估计更为精确比

20、率估计的其他问题为何不对 的分子、分母各自按简单估计获得置信区间,然后根据两个区间的上下限构造R的区间边界为何不对每个样本点计算ri,然后使用 估计R呢?是否存在具有无偏性的比率估计量?2.4 回归估计量及其性质回归估计的性质 假如研究发现,Y和X之间存在近似的线性关系,但这(直)线并不通过Y和X构成的平面坐标的原点,也就是所谓截距不等于0,那么这时利用比率估计显然不合适,最好构造Y对X的线性回归关系进行估计。主要变量总体均值 的回归估计量定义 时为简单估计量 时为比率估计 时为差估计因此简单估计量与比率估计量都是回归估计量的特例。回归估计里辅助变量X的特点与比率估计里的十分相似:辅助变量必须

21、与主要变量高度相关;辅助变量与主要变量之间的相关关系整体上相当稳定;辅助变量的信息质量更好,帮忙而不添乱;辅助变量的总体总值必须是已知的,或是更容易获得的。对于简单随机抽样,如为常数(记为0),则有 具体证明见定理2.8使回归估计量的估计精度最高,即V( )最小的0为此时对于简单随机抽样,n足够大时, 的数学期望对于简单随机抽样,n足够大时, 的方差这个定理的内容也包含两个结论:一个是说 不是无偏的;一个是说在某种条件下, 是近似无偏的。各种估计量的精度比较n足够大的情形简单估计:比率估计:回归估计:n不够大的情形2.5 简单随机抽样的实施费用 总费用 固定费用 可变费用 设计费分析费办公费管

22、理费场租费等访问员费交通费礼品费电话费等样本量的确定STEPS所需要的精度找出样本量与精度之间的关系估计所需的数值,求解 n如超出预算,调整精度值重新计算精度margin of error对精度的要求通常以允许绝对误差( 绝对误差限)或允许相对误差( 相对误差限)来表示。 样本量足够大时,可用正态分布近似 变异系数 Sample Size n0为重复抽样条件下的样本量当N很大时, 0, n n0,wr与wor几乎没有区别。总体参数为P的情形 f0.05 总体方差的估计根据预调查数据或以前文献资料根据数据的分布粗略估算S,例如全距/4,全距/ 6对于比例估计,如果P在0.5附近(),可根据PQ在

23、P=0.5时达到极大值来对样本量进行计算 .如果时间允许,且总体在时间上变化不快,调查可以分为两步,首先确定一个可以承受的样本量,调查后对估计精度进行计算,如果精度达到要求,则不再进行下一步,否则,计算为达到精度要求所需的样本量,再调查补充样本通过定性分析 ,最好是对总体变异系数进行分析并估计,因为变异系数通常变化不大.样本量设计中的误区 1. 估计精度越高越好吗? 简单随机抽样估计比例P的样本量与误差(当P=0.5时) 样本量 误差d 50 0.14 100 0.10 500 0.045 1000 0.032 10000 0.0098 对精度要求的判断十分重要。为得到最小误差而选择最大样本量

24、不是好的选择。2. 样本量与总体规模N有关吗?按照总体比例确定样本量合适吗?例:简单随机抽样估计P,置信度95%,允许误差5%,在P=0.5条件下 总体规模(N) 所需样本量(n) 50 44 100 80 500 222 1000 286 5000 370 10000 385 100000 398 1000000 400 10000000 400 抽样调查中的样本量 由此可知,在精度要求相同条件下,在北京市进行一项调查和在全国进行一项调查,样本量的差别并不大。 总体规模越大,进行抽样调查的效率越高。 若分类、分区、分层分别进行估计,如何处理? 对于多项目,如何处理?其他影响因素1. 所研究问

25、题目标量的个数2. 调查表的回收率 例如回收率估计为80%,则应接触的样本量为计算出所需样本量的1.25倍;3.非抽样误差4.资源限制5.有效样本etc 定义:简单随机抽样的样本估计量的方差与复杂抽样的样本估 计 量的方差的比率。 Deff Var( )为复杂样本估计量的方差。设计效果(Design effect, Deff)设计效应基什(L. Kish)提出 比较不同抽样方法的效率. 不放回简单随机抽样简单估计量的方差 某个抽样设计在同样样本量条件下估计量的方差。 Deff的作用: (1)评价抽样设计的一个依据, 如果deff1, 则抽样设计比简单随机抽样的效率低。(2)计算样本量如多阶段抽

26、样的 Deff大约在22.5之间。 n= n(deff) n为简单随机抽样所需样本量。放回简单随机抽样的deff为: 常用于复杂抽样样本量的确定;在一定精度条件下,简单随机抽样所需的样本量比较容易得到,复杂抽样的样本量为, 第三章 分层随机抽样 3.1 概述3.2 简单估计量及其性质3.3 比率估计量及其性质3.4 回归估计量及其性质3.5 各层样本量的分配3.6 总样本量的确定3.7 分层抽样的其他方面2022/8/28106第一节 概述2022/8/281072022/8/28108 定义3.3 分层随机抽样(stratified random sampling):如果每层中的抽样都是独立

27、地按照简单随机抽样进行的,那么这样的分层抽样称为分层随机抽样,所得的样本称为分层随机样本(stratified random sample)。2022/8/28109二、作用由于每层都进行抽样,这就可使样本在总体中分布更加均匀,从而具有更好的代表性。由于抽样在每一层中独立进行,所以一者允许各层选择不同的适合本层的抽样方法,二则可同时对各子总体(层)进行参数估计,而不单是对整个总体的参数进行估计。由于各层的总体方差因单元之间差异小而肯定小于整个总体的方差,而抽样精度与此成正比,所以分层抽样可以提高参数估计的精度。2022/8/28110三、符号2022/8/28111所有总体参数的估计量都采用下

28、标“st”以示区别:2022/8/28112第二节 简单估计量及其性质一、对总体均值的估计分层样本,总体均值 的估计分层随机样本,总体均值 的简单估计 2022/8/28113估计量的性质 性质1&2:对于一般的分层抽样,如果 是 的无偏估计( ),则 是 的无偏估计。 的方差为:只要对各层估计无偏,则总体估计也无偏。各层可以采用不同的抽样方法,只要相应的估计量是无偏的,则对总体的推算也是无偏的。2022/8/28114证明性质1 由于对每一层有 因此, 估计量的方差 由于各层是独立抽取的,因此上式第二项中的协方差全为0,从而有 2022/8/28115 性质3:对于分层随机抽样, 是 的无偏

29、估计, 的方差为: 2022/8/28116证明性质3: 对于分层随机抽样,各层独立进行简单随机抽样,对每一层有 因此,由性质1,有 由第二章性质2,得 因此 2022/8/28117 性质4:对于分层随机抽样, 的一个无偏估计为: 2022/8/28118证明性质4: 对于分层随机抽样,各层独立进行简单随机抽样,由第二章性质3,得 的无偏估计为: 因此, 的一个无偏估计为: 2022/8/28119二、对总体总量的估计 总体总量 的估计为: 如果得到的是分层随机样本,则总体总量的简单估计为: 2022/8/281202.估计量的性质性质1:对于一般的分层抽样,如果是 的无偏估计,则 是 的无

30、偏估计。 的方差为:2022/8/28121性质2:对于分层随机抽样, 的方差为:2022/8/28122性质3:对于分层随机抽样, 的一个无偏估计为: 2022/8/28123例3.1 调查某地区的居民奶制品年消费支出,以居民户为抽样单元,根据经济及收入水平将居民户划分为4层,每层按简单随机抽样抽取10户,调查获得如下数据(单位:元),要估计该地区居民奶制品年消费总支出及其95%的置信区间。2022/8/28124层居民户总数样本户奶制品年消费支出1234567891012001040011015104080900240050130608010055160851601703750180260

31、1100140602001803002204150050351502030251030252022/8/28125同理,求得:2022/8/28126 三、对总体比例的估计 总体比例P的估计为: 估计量的性质 2022/8/28127 性质1:对于一般的分层抽样,如果 是 的无偏估计( ),则 是 的无偏估计。 的方差为:性质2:对于分层随机抽样, 是 的无偏估计,2022/8/28128因而 的方差为: 性质3:对于分层随机抽样, 的一个无偏估计为:2022/8/28129第三节 比率估计量及其性质先“比”后“加权”,此时所得的估计量称为分别比估计(separate ratio estima

32、tor)先 “加权”后“比”,这样所得的估计量称为联合比估计(combined ratio estimator)2022/8/28130分别比估计定义3.4 总体均值 和总体总量 的分别比估计为:2022/8/28131定理3.5 对于分层随机抽样的分别比估计,若各层的样本量 都比较大,则有2022/8/28132证明根据比估计量的性质,当 比较大时,有2022/8/28133联合比估计2022/8/281342022/8/28135分别比估计与联合比估计的比较2022/8/281361)当 ,即 或 分别比估计的精度与联合比估计的精度是一样的。2)当 ,即 ,分别比估计的精度不低于联合比估计

33、的精度。3)当 且 ,这意味着分别比估计的精度要高于联合比估计的精度。2022/8/281374)当 且 , 或 且 ,联合比估计的精度要高于分别比估计的精度。5)当 ,即比估计量的方差小于简单估计量的方差时,需视具体情况而定。 2022/8/28138第四节 回归估计量及其性质与比估计相似,将回归估计的思想与技术用于分层随机样本时,同样有两种可行的办法:先“回归”后“加权”,此时所得的估计量称为分别回归估计;先“加权”后“回归”,这时所得的估计量称为联合回归估计3.4.1分别回归估计定义3.6分别回归估计是指在分层随机抽样中,先在每层中对层均值或层总和做回归估计,然后再对各层的回归估计按总体

34、层权进行加权平均。1. 各层的回归系数h事先给定 2.不能事先设定各层的回归系数h3.4.2联合回归估计1.当为事先设定的常数时2.当回归系数不能事先设定时3.4.3 分别回归估计与联合回归估计的比较经化简得:例3.3已知某公司一般职员(包括办事员和保管人员)及高级管理(经理)人员刚进入公司时的工资总额,欲通过抽样调查估计当前该公司职员的工资总额Y。抽样按照一般职员层与高管层进行分层随机抽取。一般职员层抽取n1=15名职员,高管层抽取n2=10名职员。同时还知道一般职员层人员总数N1=390名,该类职员进入公司时工资总额为X1=5 523 965元;高管层人员总数N2=84名,该类职员进入公司

35、时工资总额为X2=2 541 660元。经过分层随机抽样调查所得的数据如表35所示。请对上述数据分别按照分别比估计、联合比估计、分别回归估计、联合回归估计以及差估计方法对该公司当前职员工资总额Y做出估计,同时计算出各个估计量的精度。五种估计方法结果比较注意:此时的比估计和回归估计(回归系数采用样本回归系数进行估计)均为有偏估计,并且考虑到各层的样本量都不大,回归估计的偏倚有可能更大,所以此时采用比估计,特别是联合比估计会更保险。 而差估计虽然标准差相对较大,但它却是无偏的,均方误差并不一定大,所以仍然有采用的价值。3.4.4 比率估计与回归估计小结在分层随机抽样中,当辅助变量可加以利用时,为了

36、提高估计量的精度,可以采用分别比估计、联合比估计、分别回归估计以及联合回归估计等估计方法。在比估计中, 当各层样本量都较大时,分别比估计与联合比估计近似无偏;当某些层的样本量不够大,而总样本量较大时,联合比估计近似无偏。在回归估计中,少数情况下,回归系数可以是事先设定的常数,其估计量无偏;多数情况下,回归系数需利用样本回归系数进行估计,其估计有偏,但在大样本的情况下近似无偏。当Y与X高度相关时,分别比估计、联合比估计、分别回归估计以及联合回归估计等估计等产生的估计量都是有效的。选择估计方法,大致需遵循的原则在选择估计方法时,大致需遵循下面的原则:(1)由于分别估计(无论是分别比估计还是分别回归

37、估计)要求各层的样本量都比较大,所以当某些层的样本量不够大时,建议采用联合估计(2)当回归系数需要由样本进行估计时,回归估计量是有偏的。 在这种情况下,采取比估计尤其是联合比估计也许更保险(3)如果各层的样本量都比较大,同时每层的比估计或回归估计也比较有效(即h均比较大),而且各层的Rh之间(或h之间)差异较大,则此时分别估计优于联合估计,估计量的方差更小(4) 如果各层的样本量不大,而且各层的Rh之间(或h之间)差异较小,则采用联合估计较为适宜(5) 如果各层的Rh之间(或h之间)差别不是太大,而且并不是每层的样本量都相当大,则联合估计可能更保险一些如果各层的回归系数都接近于1,则可以采用差

38、估计。虽然有时差估计量的方差偏大,但由于它为无偏估计量,所以总的均方误差不一定大第五节 各层样本量的分配 确定样本量:总的样本量,各层样本量估计量的方差不仅与各层的方差有关,还和各层所分配的样本量有关。2022/8/28166实际工作中有不同的分配方法,可以按各层单元数占总体单元数的比例分配,也可以采用使估计量总方差达到最小、费用最小。 2022/8/28167一、比例分配 按各层单元数占总体单元数的比例,也就是按各层的层权进行分配.对于分层随机抽样,这时总体均值的估计是2022/8/28168自加权总体中的任一个单元,不管它在哪一个层,都以同样的概率入样,因此按比例分配的分层随机样本,估计量

39、的形式特别简单。这种样本也称为自加权的样本。总体比例的估计是 2022/8/28169二、最优分配 (一)最优分配在分层随机抽样中,如何将样本量分配到各层,使得总费用给定的条件下,估计量的方差达到最小,或给定估计量方差的条件下,使总费用最小,能满足这个条件的样本量分配就是最优分配。2022/8/281702022/8/281712022/8/28172定理3.7的证明对所有层成立时, 达到极小 2022/8/28173常数简单线性费用函数,总费用由此得出下面的行为准则,如果某一层单元数较多内部差异较大费用比较省则对这一层的样本量要多分配一些。2022/8/28174三 Neyman(内曼)最优

40、分配如果每层抽样的费用相同,最优分配可简化为这种分配称为Neyman分配。这时, 达到最小。 2022/8/28175例3.4 某市有甲、乙两个地区,现要进行家庭收入的调查。令n=500,已知甲地区共有20 000户居民,乙地区共有50 000户居民;甲地居民和乙地居民年收入标准差估计分别为S1=2 500,S2=2 000;同时对甲地和乙地每户的平均抽样费用之比为23,请分别计算出在甲地和乙地进行比例分配、一般最优分配(考虑费用因素)以及内曼分配(不考虑费用因素)的样本量。2022/8/281762022/8/281772022/8/28178四、某些层要求大于100%抽样时的修正 按最优分

41、配时,有时抽样比f较大,某个层的 又比较大,则可能出现按最优分配计算的这个层的样本量 超过 的情况。实际工作中,如果第 k 层出现这种情况,最优分配是对这个层进行100%的抽样,即取 ,然后,将剩下的样本量 按最优分配分到各层。 2022/8/28179五、偏离最优分配时对精度的影响2022/8/28180例3.62022/8/281812022/8/28182第六节 总样本量的确定 令 当方差 给定时 2022/8/28183当按比例分配时, 实际工作中,n的计算可以分为两步,先计算:然后进行修正: 2022/8/28184当按Neyman分配时, 2022/8/281852022/8/28

42、1862、精度要求是以 的绝对误差限d(在给定的置信水平1-下)的形式给出的2022/8/281872022/8/281883.精度要求以 的相对误差限r(在给定的置信水平1-下)的形式给出2022/8/281892022/8/28190例3.72022/8/281912022/8/281922022/8/28193二、总费用给定时总样本量的确定给定V时2022/8/28194给定C时2022/8/28195第七节 分层抽样的其他方面 一、多重分层定义当调查指标与两个或多个辅助变量x1,x2,都存在相关关系时,为了提高分层的效益,需要按每一个辅助变量进行分层,通常的做法是先按最主要的变量分成大

43、层,在大层中再按第二主要变量分成子层,从而形成交叉分层。当存在多个分层变量时,这种分层方式即称为多重分层(multiple stratification)。2022/8/28196对于多重分层,当“子层”划分好以后,就要考虑样本量在各子层的分配问题。最简单常用的样本量分配方法是按照与每一子层大小成比例的原则进行分配。在多重分层中,有时会出现这样一个问题:当总样本量n相对于子层总数RC不够大时,会出现某些子层分配不到样本的情况。 若nmax (R,C),则此时应当考虑重新确定分层变量或者不采用分层抽样,否则这种分层的效益是很难保证的。 若nRC,同时还满足nmax (R,C),就可以考虑用试验设

44、计的思想来进行样本量的分配。2022/8/28197二、事后分层 实际工作中,有时进行事先分层会存在一定的困难各层的抽样框无法得到几个变量都适合于分层,要进行事先的交叉分层比较困难,并且我们并不需要交叉分层后每个子层的估计一个单位到底属于哪一层要等到样本数据收集到以后才知道总体规模N太大,事先分层太费事等2022/8/28198事后分层技术要求层权Wh已知或者可以通过某种途径获得,当层权Wh未知而需要进行估计时,应当确保层权的估计值与实际的层权相差甚小,否则将达不到提高估计量精度的目的。同时,在使用事后分层技术时还应该注意“事后层”的数目不宜太多。2022/8/28199事后分层的具体实施办法

45、2022/8/282002022/8/28201简单随机样本,事后分层落到第层的样本量nh2022/8/28202nh固定并都大于0的条件下n足够大时,为无偏估计第一项就是按比例分配分层抽样估计量的方差,第二项表示因事后分层而非事先按比例分配分层引起的方差增加量只要样本量足够大,事后分层的精度与按比例分配事先分层的精度相当2022/8/28203 如果样本是按某一个辅助指标分层后抽取的,只要这个事先分层抽样是严格按比例分配进行的,则这个样本是自加权的,总体中每个单元被抽中的概率相同,我们可以将这个样本看作简单随机样本,分别对其它指标进行事后分层估计。 2022/8/28204第四章 等概率整群

46、抽样和多阶段抽样第一节 概述一 整群抽样定义及特点什么是整群抽样 将总体划分为若干群,以群为抽样单元,从总体 中随机抽取一部分群,对入选群内的所有单元进 行调查的一种抽样技术 的所有单位进行调查。整群抽样的特点抽样框编制得以简化实施调查便利,节省费用抽样误差较大对某些特殊结构总体反而有较高的精度与多阶段抽样,多阶段整群抽样的关系第一节 概述二 群的划分大致可分为两类根据行政或地域形成的群体调查人员人为确定的分群的原则可用方差分析原理说明:群内差异尽可能大,群间差异尽可能小第一节 概述三 群的规模群的规模大,估计的精度差但费用省群的规模小,估计的精度可以提高但费用增大正常情况下,群的规模不宜过大

47、,对于规模很大的群,通常需要采用多阶段抽样。有群规模相等与不相等两种情况第一节 概述 第一节 概述 Yij: 总体第i个群中第j个SSU的取值 yij: 样本第i个群中第j个SSU的取值Yi: 总体中第i群的总量yi: 样本中第i群的总量第一节 概述 : 总体中第i群个体均值 : 样本中第i群个体均值 : 总体的群均值 : 样本的群均值第一节 概述 : 总体中的个体均值 (各群 ) : 样本中的个体均值 第一节 概述 : 总体方差 : 总体群间方差 : 总体群内方差 第一节 概述 : 样本方差 : 样本群间方差 : 样本群内方差 第二节 等概率整群抽样比较SRS抽取nM个样本第二节 等概率整群

48、抽样第二节 等概率整群抽样第二节 等概率整群抽样已知 ,又 故 第二节 等概率整群抽样第二节 等概率整群抽样总体总值,据此,可直接推出其估计量及相应的方差 例4-1i12345678 58 83 74 82 66 87 91 83 79 111 101 69123 89 94 109 79 80 99 105 98 107 129 90110 99 132 87 99 124111 100 116 99 107 105120 115 117 99 106 120 96 80 63 130 105 8675.0089.0095.67104.67108.50106.33112.8393.33125

49、.60233.60299.07177.87287.5042.2772.57527.87第二节 等概率整群抽样解:N=315 ,n=8 ,M=6,f=n/N=0.0254,故 第二节 等概率整群抽样由式(4.5)有第二节 等概率整群抽样2.整群抽样效率分析分层抽样中估计量的方差取决于层内变异性整群抽样的情形则相反,估计量的方差依赖于群间的变异性第二节 等概率整群抽样来源自由度平方和均方群间N-1群内N(M-1)总计NM-1总体ANOVA表-群规模相等时的整群抽样第二节 等概率整群抽样群内相关系数 表达式为:上式中的分子为:第二节 等概率整群抽样上式中的分母为:故 又可写为:第二节 等概率整群抽样

50、事实上, 的方差可用群内相关系数近似表示第二节 等概率整群抽样简单随机抽样的方差公式为由此可计算出等群抽样的设计效应为第二节 等概率整群抽样 整群抽样的估计效率,与群内相关系数 的关系密切 当 1时,deffM 当 0时,deff1 当 为负时,deff m,第i个单位被抽中第一节 不等概抽样2.不放回不等概抽样 对于不放回抽样,对总体参数的估计及其方差估计比较简单,但样本单元中可能有单元被抽中多次,直观上看,没有必要对同一单元调查多次,因此可以考虑放回不等概抽样,即每次在总体中对每个单元按入样概率进行抽样,抽取出来的样本单元不再放回总体,对总体中剩下的单元进行下一次抽样。第一节 不等概抽样

51、对于不放回不等概抽样,样本的抽取可以有以下几种方法(1)逐个抽取(2)重抽法(3)全样本抽取;样本量随机(4)系统抽样法第二节 放回不等概抽样一 只抽取一个样本单元(n=1)的不等概抽样 为了演示不等概抽样的思想,先看一个例子。一个城市有4个超市,营业面积从100平米到1000平米。我们的目标是通过抽取一家超市来估计4个超市上个月的总销售量因为我们只抽取一个超市,所以超市第一次被抽中的概率 等于超市进入样本(入样)的概率 。这个例子中,入样概率正比于超市营业面积 第一节 不等概抽样因为超市A占四个超市营业面积的1/16,所以它的入样概率为1/16。假设我们知道所有超市的销售额 超市营业面积(万

52、元)A1001/1611B2002/1620C3003/1624D100010/16245Total16001300第二节 放回不等概抽样 在估计中,可以使用选择概率来弥补不等概率抽样。如果超市的营业面积近似正比于超市的销售额,那么超市A的销售额就占所有超市销售额的1/16,因此超市A的销售额乘16可以近似的估计所有超市的销售额。因此,样本量为1的不等概率抽样的总体总量估计量为第二节 放回不等概抽样样本ZiyiA1/161117615375B2/162016019600C3/162412829584D10/162453928464四个n=1的可能的不等概抽样第二节 放回不等概抽样第二节 放回不

53、等概抽样例如样本A1/4114465536B1/4208048400C1/4249641616D1/4245980462400第二节 放回不等概抽样二 有放回不等概抽样 对于放回不等概抽样,对总体总量的估计是汉森-赫维茨(Hansen-hurwitz)估计例如:估计超市销售额,m:员工人数解释公式意义第二节 放回不等概抽样可以证明例5.2 某部门要了解所属8500家生产企业当月完成的利润,该部门手头已有一份去年各企业完成产量的报告,将其汇总得到所属企业去年完成的产量为3676万吨。考虑到时间紧,准备采用抽样调查来推算当月完成的利润。根据经验,企业的产量和利润相关性比较强,且企业的特点是规模和管

54、理水平差异比较大,通常大企业的管理水平较高些,因此采用以与去年产量成比例的PPS抽样,从所属企业中抽出一个样本量为30的样本, 第二节 放回不等概抽样1*38.2310926106.501900191.5010213.7010241115.00864208.008030.7513127.00172128.421367242.85301316.00104522*9.01384552.0011021412.30220230.7548065.00600153.864600246.00311710.802901615.8023702528.43928482.00430179.00940269.9784

55、298.8199218*21.00640276.20510第二节 放回不等概抽样765404174454=45%相对误差达到20时所需样本量对误差达到20时所需样本量nnnnnnnn= 150第二节 放回不等概抽样第二节 放回不等概抽样第三节 多阶段放回不等概抽样第三节 多阶段放回不等概抽样第三节 多阶段放回不等概抽样第三节 多阶段放回不等概抽样实际工作中,如果初级单元大小不相等,人们通常喜欢在第一阶段抽样时按放回的与二级单元数成比例的PPS抽样,第二阶段抽样则进行简单随机抽样,且每个初级单元内的二级单元样本量都相同,这样得到的样本是自加权的,估计量的形式非常简单第三节 多阶段放回不等概抽样二

56、 多阶段有放回不等概抽样以三阶段抽样为例第三节 多阶段放回不等概抽样 实际工作中,通常做法是前二阶采用PPS,最后一阶按等概率抽取最终单元,且各阶段样本量对不同单元都等于常数,则所得样本是自加权的。此时有:第三节 多阶段放回不等概抽样第三节 多阶段放回不等概抽样例【5-5】某调查公司接受了一项关于全国城市成年居民人均奶制品消费支出及每天至少喝一杯鲜奶的人数的比例情况的调查。第三节 多阶段放回不等概抽样确定抽样范围为全国地级及以上城市中的成年居民。成年居民指年满18周岁以上的居民。 第一步:确定抽样方法 调查公司决定采用多阶段抽样方法进行方案设计,调查的最小单元为成年居民。确定调查的各个阶段为城

57、市、街道、居委会、居民户,在居民户中利用二维随机表(Kish随机表的简化)抽取成年居民。第三节 多阶段放回不等概抽样第二步:确定样本量及各阶段样本量的配置 第三节 多阶段放回不等概抽样初级单元:20个城市;二级单元:80个街道,每个样本行政区内抽4个街道;三级单元:160个居委会,每个样本街道内抽2个居委会;四级单元:1600个居民户,每个样本居委会内抽10户居民户。 在样本居民户内,利用二维随机表抽1名成年居民。第三步:抽样方法第一阶段,在全国城市中按与人口数成比例的放回的不等概抽样,即PPS抽样。第二和第三阶段分别按与人口数成比例的不等概系统抽样。 以第二阶段为例,在某个被抽中的样本城市中

58、,将其所属的街道编号,搜集各街道的人口数,赋予每个街道与其人口相同的代码数;根据该市总人口数除以样本量4,确定抽样间距;然后对代码进行随机起点的等距抽样,则被抽中代码所在的街道为样本街道。第四阶段,分别在每个样本居委会中,按等距抽样抽出10个居民户。即根据居委会拥有的居民户数除以样本量10得到抽样间距,然后随机起点的等距抽样。第四步:推算方法第四节 不放回不等概抽样第四节 不放回不等概抽样第四节 不放回不等概抽样第四节 不放回不等概抽样3.不同情况下的PS抽样n=2条件下严格的PS抽样布鲁尔方法德宾方法n 2条件下严格的PS抽样水野方法n2条件下非严格的PS抽样莫蒂方法布鲁尔方法条件:所有Zi

59、0.5逐个抽取:第一个与 成比例的概率抽取第二个与 成比例的概率在N-1个单元内抽取水野方法总体差异不要太大逐个抽取:关键:第一个单元与 成比例的概率抽取剩余的N-1个单位不放回等概抽取Chap6 系统抽样 Systematic sampling第一节 概述6.1 定义与实施方法一 什么是系统抽样 总体中的N个单元按一定顺序排列,抽取一个起始单元,按某种规则选取其它单元直到满n个为止 等距抽样:按照固定的间隔选取 直线等距抽样:总体中的N个单元已按某种确定顺序编号为 , 先从头K个单元编号中随机抽出一个单元编号,然后每隔K个单元编号抽出一个单元编号, 直到抽出n个单元编号为止。圆形等距抽样:假

60、设总体单元数 总体中的N个单元已按某种确定顺序编号为 ,将这些编号看成首尾相接的一个环,并从1到N中按简单随机抽样方式抽取一个单元编号作为随机起点,然后每隔 K抽取一个单元编号,直到抽满n个单元为止直线等距抽样实施方法 : 抽样间隔 K=N/n 编号 随机起点 入选单元i K 2K 3K (n-1)K nK 21 19 3 4 17 16 6 15 7 随机起点 8 13 11 2012102圆形等距抽样 实施方法 :编号不是直线排列而是环状(圆形)排列,是随机起点的选择范围由1到k 扩展到1到N二、系统抽样特点优点:简便易于控制有潜在分层功能弱点:有时估计量是有偏的抽样误差计算上比较复杂三、

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论