第7章其它抽样方法.ppt_第1页
第7章其它抽样方法.ppt_第2页
第7章其它抽样方法.ppt_第3页
第7章其它抽样方法.ppt_第4页
第7章其它抽样方法.ppt_第5页
已阅读5页,还剩54页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第7章其他取样方法,第1节样本轮换,第2节双重取样,第3节随机化装置。问题是,时间序列数据和随后的面板数据是经济统计分析和经济计量分析中非常重要的数据类型。当我们研究应该应用什么统计和计量方法来分析已建立的时间序列数据时,我们是否考虑了以下问题?时间序列数据是如何产生的?生成的时间序列数据准确吗?如何使时间序列数据更加准确?随着社会经济现象的不断变化和发展,许多受访者的总体情况也在不断变化和发展。为了及时反映调查人群的变化和发展,调查部门需要在不同时间对同一人群进行连续抽样调查,并定期公布调查结果,形成一系列时间序列统计数据。因此,社会经济抽样调查一般应该是一项持续和定期的调查。一次抽样调查和

2、横断面数据、连续抽样调查和时间序列数据以及面板数据,除了整体的一次抽样外,许多重要的调查是间隔重复进行的。对于这种频繁的抽样问题,我们必须重视样本轮换的研究。对于样本轮换问题,我们至少应该考虑以下几个问题:如何为每次调查组成样本?是否采用固定样本或全新样本,或部分保留部分替换,即样本轮换;后期估算总额或平均值时,是否有必要利用前期信息改进当前估算,如何利用;如果采用样品轮换法,如何确定最佳保留率或置换率。第一节样本轮换,连续抽样设计方法,根据抽样样本的不同划分,单水平轮换,不完全单水平轮换,多水平轮换,轮换模式应用实例,加拿大劳动力调查(LFS)采用60个单水平轮换模式,美国当前人口调查(CP

3、S)采用484个不完全单水平轮换模式,而美国消费者支出季度调查(CEQ)采用40个三水平轮换模式。中国的城镇居民家庭抽样调查,中国的工业企业规模以下抽样调查,中国的农业产出抽样调查,第一,如果样本轮换的原因仅仅是为了估计现值,当然,最好是每次都抽取新的样本,这必然会增加成本;如果要与前期逐一比较,最好采用固定样本的方法,这样可以剔除样本中的因素,只观察动态变化。然而,样本在很长一段时间内保持不变。随着时间的推移,固定样本会暴露出其弊端,难以反映整体变化,被调查者也会产生厌倦、不合作或回答质量差的问题,从而影响调查质量。此外,无论是使用固定样本还是全新样本,都很难正确反映整个人口在不同时期的水平

4、和变化。因此,一种广泛使用的方法是样本轮换,即在一定的时间间隔(一个月、一个季节或一年)更换一定比例的单位,其余单位保留。在第一部分,样本轮换,与传统的一次性抽样调查相比,轮换抽样调查具有以下独特优势:节约调查成本和调查资源,在一定程度上减轻被调查者的回答负担,利用前后期之间的相关性提高估计精度。中国1996年新修订的统计法第10条明确规定:“统计调查应当以定期普查为基础,以定期抽样调查为主体,辅以必要的统计报告、重点调查和调查。因此,在今后我国政府统计部门进行统计调查制度和方法改革的过程中,最重要的是研究和应用更符合我国国情的定期抽样调查方法,从而获得更准确的统计数据,为我国政府部门、科研机

5、构、企事业单位和其他社会部门服务。一、中国抽样调查制度和方法的改革方向,二、样本轮换的最佳比例。在第一阶段,使用简单的随机抽样方法提取样本量为n的样本;在第二个周期中,选择具有nq样本大小的旧样本点,用带返回的简单随机抽样代替,即保留样本大小为np,保留样本的比例为p。同时,nq个新样本点由带返回的简单随机抽样独立补充,其中p q=1,因此第二个周期的样本大小仍为N.假设:第一部分中的样本旋转是第一个周期中np单位的平均值,它与第二个周期中的相同。是第一个周期中nq单位的平均值。是第二个周期中np单位的样本平均值。是第二个周期中nq补充单位的样本平均值。是和之间的相关系数。如果要估计第二个周期

6、的样本平均值,并充分利用第一个周期的信息,使估计值为0,则应为后一个周期的保留样本、非保留样本和新补充样本的加权平均值。在第一部分,样本旋转,让我们想要得到的估计量是一个两相估计量的线性函数,也就是说,a=b c D(7.1)需要估计它的参数a,b,c和D.E()=E()=,E()=E()=,所以E()=(a b) (c d)。要成为一个无偏估计量,我们需要一个b=0,c d=1,即b=-a,d=1-c。代入(7.1),有=a-(c)(1-c),第一个样本轮换,第一个样本轮换,估计量的方差可以得到为:其中是第一个周期的方差和第二个周期的方差。我们要求A和C,为了达到最小值,我们需要上面的公式使

7、A和C的部分微分等于0,然后我们可以找到A和C的最佳值如下:第1节样本轮换,这个估计量的方差可以得到如下:第1节样本轮换,把它代入公式(7.1),得到这个估计量的方差如下:第1节样本轮换, 如果不使用以前的信息,只使用Then:其方差为:第一节样本被旋转,所以使用以前的信息后的设计效果为:从上面的公式可以看出,当的值比较大时,使用以前的信息可以大大提高效率。 表7.1给出了不同q值的值。第1节样品旋转,表7.1不同q值时的值,如果上述公式关于q的偏导数等于0,那么可以得到最佳旋转比:第1节样品旋转,3。样本轮换法(1)随机轮换法根据轮换期间确定的轮换单位的数量或比例,从原始样本中随机选择一些单

8、位,不再调查它们,而是从样本中未包括的其余整体单位中进行调查。第一部分是样本旋转。(2)等距旋转法确定整个采样框架中每个等距采样的样本,并根据每个测量对应位置的等距样本单位进行旋转。中国的农村户口调查采用这种轮换方法。(3)子样本轮换法从总体中抽取几组子样本,每次调查一定数量的子样本,并逐个轮换一些子样本。在第一节中,样本轮换,子样本轮换实际上是每次使用交叉子样本,交叉子样本不仅可以有效地减少和控制估计偏差,而且因为每个交叉子样本可以代表整体,即使一些子样本不能被收集,我们也可以使用其他子样本甚至一个子样本来观察和推断整体。此外,非抽样误差的程度可以通过使用交叉子抽样来调查。因此,一般来说,子

9、样旋转法是上述三种样品旋转法中最好的。第一节:样本轮换五:案例介绍当前人口调查是世界上最著名的抽样调查项目之一,已经成为美国和许多国家居民调查的参考模型。它的实施在包括每月19日在内的一周内进行,调查问题涉及受访者在前一周的活动。调查气氛覆盖了50个州和哥伦比亚。CPS采用样本轮换的方法,即每个受访者连续四个月接受访谈,然后退出样本,八个月后重新进入样本,连续四个月接受访谈,最后永久退出样本。第一部分是样本旋转。1995年7月CPS抽样设计方案中样本轮换的特点如下:1 .在任何一个月,1/8的家庭第一次被调查,1/8的家庭第二次被调查,以此类推。每个月,一个新的样本组将取代从样本中永久删除的旧

10、样本组。每个月,一个样本组在闲置8个月后被重新调查,而不是样本组刚刚进入闲置期。4通过轮换设计,每个样本单元保证在2年的4个月内进行调查。5.连续两个月有3/4的样本点相同;在连续两年中,1/2的样本点是相同的。二维平衡单级旋转模式的旋转过程,二维平衡单级旋转模式的旋转过程,以及第二节中的双采样,我们可以先从整体中提取一个大的初始样本来获得整体的辅助信息,然后从初始样本或整体中提取另一个子样本。这种方法是双重抽样。第二部分:双重抽样;第1节:定义双采样,也称为两相采样或两相采样,指两步采样。通常,从总体N中提取一个大样本,称为第一阶段样本,并对其进行调查以获得总体的一些辅助信息,这为下一次抽样

11、估计提供了条件。然后执行第二阶段采样。第二次抽样的样本数相对较小,但第二次抽样调查是主要调查。第二部分是双重抽样。第二,双重抽样和两阶段抽样的区别。(1)两阶段抽样是首先从总的N个单位(一级单位)中抽取N个样本单位,但不是调查这N个样本单位中的所有小单位(二级单位),而是抽取几个二级单位进行调查;双重抽样是不同的。应调查第一个重(相)样本,以获得一些整体的辅助信息,这些辅助信息应用于分类、分层、取样或估计。(2)两级采样的第二级采样单元和第一级采样单元往往不同;双重抽样需要一份完整的最终单位表(所有单位的抽样框架),而两阶段抽样只需要一份第一阶段单位表(主要单位),然后在选定的主要单位中构建第

12、二阶段抽样的抽样框架。第二节是双重抽样,第三节是双重抽样的作用。(1)有助于筛选主要调查对象,如高血压患者调查和银行存款调查;(2)提高采样效率,因为第二次重采样可以使用第一次重采样的信息进行分层和比率估计;(4)可用于研究样品旋转中的一些问题;(e)为了减少无回答的偏差,在无回答层上执行第二次重采样并推断它。第2节双采样,第4节。二次抽样的应用(1)分层二次抽样分层抽样如果不能预先知道总层重,可以采用二次抽样。具体实施过程如下:步骤1:采用简单随机抽样,从n个样本单元中随机选取第一个重样本,样本单元数为;根据已知的分层标记,第一个重样本被分层,这是对整体分层权重的无偏估计。第二节:双重抽样;

13、第二步:采用分层随机抽样,从第一个双样本中抽取第二个双样本,样本单元数为n,H层样本单元数为0。采用双分层抽样,总体均值的无偏估计为:方差为:第二节双抽样,上述公式可简化为:样本估计为:第二节双抽样,第一步:从N个单位的总体中随机选取第一个重样本,样本单位数为;对于第一个重样本,仅观察到辅助变量的信息,并且使用辅助变量的样本均值来估计总体均值。(2)比率估计的双抽样在实际工作中,如果辅助变量的信息未知,可以用双抽样进行比率估计。具体实施过程如下:第二节:双抽样,双抽样与总体均值之比的估计:第二步:从第一个双抽样中随机选取第二个双抽样,抽样单位数为n;对于第二个样本,观察目标变量和辅助变量,并使

14、用获得的和来计算和构造比率估计。双抽样率估计的方差如下:第二节:双抽样;双抽样率估计的方差样本估计:第2节:双抽样;(3)用于回归估计的双抽样类似于比率估计,因此当辅助信息未知时,双抽样可以用于回归估计。具体实施过程如下:第一步:从整个种群的n个单位中随机选取第一个重样本,样本单位数量如下:对于第一个重样本,仅观察到辅助变量的信息,并且使用辅助变量的样本均值来估计其总体均值。第二部分是双抽样,第二步是从第一个双样本中随机选择第二个双样本,样本单元数为n;对于第二个样本,观察目标变量和辅助变量,并计算、求和和回归系数b,以构建回归估计。双抽样总体均值的回归估计:双抽样回归估计的方差为:第2节双抽

15、样,其中:是第一个样本的残差方差,其均值近似等于总体残差方差:所以双抽样回归估计的方差样本估计为:第2节双抽样,(4)双抽样在无回答调整中的应用当无回答时,可以用双抽样对无回答样本进行二次抽样调查,如果无回答样本得到完全回答,则无回答偏差可以基本消除。详见本书第10.3节。第3节随机化装置1。敏感问题调查所谓敏感问题是指被调查内容涉及私人秘密,被调查者不愿意或不方便向外界透露的问题。对于此类敏感问题,必须采用专门设计的装置和方法来消除受访者的顾虑,如实回答问题,避免调查中出现严重错误。这项专门为敏感问题调查设计的技术被称为随机反应技术。在第三部分,随机化装置中,敏感性问题可以根据总体特征分为属

16、性特征和数量特征。属性特征的敏感性问题是指被调查者是否具有敏感性问题的特征,一般估计具有敏感性特征的单位在整个人口中所占的比例,因此也可以称为敏感性比问题。定量特征的敏感性问题是指被调查者的敏感性问题量的特征,一般是估计的敏感性量的平均值或总和,也可称为敏感性均值问题。沃纳的随机回答模型第一个使用随机回答技术的模型是由沃纳首先提出的。例如,一所大学想要调查学生在考试中的作弊行为,并随机选择N名学生进行调查,向每个学生展示两个相反的问题。这些问题可以写在形状完全相同的M卡上,m1卡上写着“我考试作弊”,m-m1卡上写着“我考试从来没有作弊。”然后折叠m卡,把它们放在一个盒子里。其中:一个问题:我考试作弊了。问题二:我从来没有在考试中作弊。在第三部分,随机装置,在充分混合像洗牌一样形状相同的M张牌之后,受访者通过简单随机抽样中的抽签随机选择一张牌,根据他自己的情况回答“是”或“否”,然后将其放回盒子中。如果A卡的比率为P,那么b卡的比率为1-p。根据经典概率,在大规模调查

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论