抽样调查课件_第1页
抽样调查课件_第2页
抽样调查课件_第3页
抽样调查课件_第4页
抽样调查课件_第5页
已阅读5页,还剩326页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第一章抽样调查概述第一节抽样调查的意义特点第二节抽样调查的历史发展及其实践第三节抽样调查的分类与设计第四节抽样调查的基础理论

1.1抽样调查的概念1.2抽样调查的阶段划分与职业规范1.3抽样调查的特点1.4抽样调查的作用1.5抽样调查的适应范围第一节抽样调查的意义特点

1.1抽样调查的概念1.1.1是按照科学的原理和计算从所要研究的现象的全部个体单位中按随机原则,抽取部分个体单位进行调查,取得资料,并用以推算总体数量特征的一种方法。

1.1抽样调查的概念1.1.2抽样推断是按随机原则从全部研究对象中抽取部分单位进行观察,并根据样本的实际数据对总体的数量特征作出具有一定可靠程度的估计和判断

1.1.3抽样调查,是指根据概率理论,从全体调查对象中随机抽取一部分样本单位进行观察,取得样本统计调查数据,并据以推断总体的统计调查方法。也就是说,抽样调查就是以样本的资料来推断调查对象的总体的相关统计数据。1.1抽样调查的概念

1.1.4抽样调查为科学研究方法中重要的技术之一,是指在所要研究的某特定现象母群体中,依随机原理抽取一部份作为样本(Sample),作为研究母群体(Population)的依据。将样本研究结果,在抽样信赖水准内,推算母群体可能特性以作为决策的参考。1.1抽样调查的概念

1.2抽样调查的阶段划分与职业规范

1.2.1抽样调查的三个阶段1.2.2抽样调查的职业规范

1.2.1抽样调查的三个阶段

抽样设计阶段调查阶段数据处理和估计推断阶段

抽样设计阶段另外,还需设计好问卷和进行试调查;以确保抽样推断的最佳效果。

调查阶段

选择具体方法;制定预防和处理无回答及拒访的措施;找出对数据质量的检查控制措施与评价方法。

数据处理和估计推断阶段审核;筛选;计算;分析。注意:对缺失数据进行处理;对推断总体资料的各种方法进行比较选择;对推断误差进行计算与控制。

1.2.2抽样调查的职业规范

除教材第3页的四点之外,关于职业规范还可以借鉴有关法律的条款。现简单列举如下:

《中华人民共和国统计法实施细则》11条2款如下(二)抽样调查、重点调查或者行政记录可以满足需要的,不得制发全面统计调查表;一次性统计调查可以满足需要的,不得进行经常性统计调查;按年统计调查可以满足需要的,不得按季统计调查;按季统计调查可以满足需要的,不得按月统计调查;月以下的进度统计调查必须从严控制;

《中华人民共和国统计法实施细则》12条2款如下

进行经常性抽样调查,应当通过基本统计单位普查和行政记录的方式,查明基本统计单位及其分布情况,建立科学的抽样框,按照随机原则在调查总体中选取足以代表总体的样本单位,减少抽样误差。

“属于私人、家庭的单项调查资料,非经本人同意,不得泄露”。《统计法》第十五条第一款规定

单项调查资料,是指未经过加工汇总的反映各个家庭和个人情况的调查登记材料。

《统计法》之所以作出对私人、家庭的单项调查资料不得泄露的规定,主要是基于两个方面的考虑:

一方面,私人、家庭的单项统计资料往往涉及到个人隐私,如果泄露可能损害被调查者的合法权益;

另一方面,这样规定有利于消除被调查者的后顾之忧,增进被调查者对调查者的信任感,使他们能够如实提供统计资料。私人、家庭的单项统计资料只能在国家规定的统计任务中供汇总综合,用于统计的目的。当这些单项调查资料已经汇总成为综合性的统计资料时,则可依照国家规定予以提供或者公布。

私人、家庭的单项统计资料只能在国家规定的统计任务中供汇总综合,用于统计的目的。当这些单项调查资料已经汇总成为综合性的统计资料时,则可依照国家规定予以提供或者公布。

1.3

抽样调查的特点按随机的原则从总体中抽选样本单位根据样本资料估算总体的数量特征抽样估算的抽样误差可以事先计算并加以控制

1.3

抽样调查的特点速度快,周期短,精度高抽样技术灵活多样应用广泛技术性更强

理解:抽样调查的特点之一注解:所谓“随机原则”即机会均等。就是在抽取样本时,使被调查对象的所有单位都有同等被抽中的机会。限制的随机原则。均匀合理地安排被抽取的单位,使之具有更充分可靠的代表性,以取得更好的效果。

理解:抽样调查的特点之二注解:样本对总体需要充分的代表性。用样本对总体数量特征进行估算时,所依据的是大数定律。

理解:抽样调查的特点之三注解:误差可以事先经过计算控制在一定范围内,并且能采取一定的组织措施来控制这个误差范围。

1.4

抽样调查的作用见教材5—7页(共6条)

1.5抽样调查的适应范围适合于对大量现象的调查不可能实现的、经常的全面调查有破坏性的产品质量调查资料信息及时性强的现象对全面资料的核实

第二节抽样调查的历史发展及实践2.1世界发展史2.2我国发展史(7—22页)

2.1世界发展史2.1.1萌芽阶段(1895年以前)2.1.2逐步确认(1895—1925)2.1.3全面发展(1925年以后)

2.2我国发展史2.2.1认识方面2.2.2实践方面

第三节抽样调查的分类与设计3.1抽样调查的分类3.2抽样调查方案的设计3.3调查方案的检查3.4抽样调查的基本步骤

3.1抽样调查的分类3.1.1随机抽样(Probability-Sampling),即在抽样时,母群体中每一个抽样单位被选为样本的机率相同。随机抽样具有健全的统计理论基础,可用机率理论加以解释,是一种客观而科学的抽样方法,在市场调查中通常都用随机抽样。抽样调查的几种组织形式:

按完成整个抽样过程的阶段来分单阶段抽样多阶段抽样只需一次抽样过程……简单随机抽样类型……抽样系统……抽样整群……抽样将总体分层,再逐层抽取样本单位。

3.1.2非随时抽样(Non-Probabity-Sampling)

在抽样时,抽样单位被选为样本的机率为不可知。

非机率抽样之种类,主要有四种:(1).便利抽样(ConvenienceSampling)

在样本的选择只考虑到接近样本或衡量便利。如访问过路行人即为一例。

(2).配额抽样(QuotaSampling)a选择「控制特征」,作为将母体细分类的标准。

b将母体细分为几个子母体,按比较分配各子母体样本数大小。c访查员有极大自由去选择子母体中的样本个体,只要完成配额调查,即告完成。

(3).判断抽样(JudgementSampling)在母体之构体极不相同且样本数很小时,根据抽样设计者的判断来选择样本个体,设计者必须对母体有关特征具有相当了解。在编制物价指数时,有关产品项目选择及样本地区的决定,即采用判断抽样。

(4).雪球抽样(SnowballSampling)利用随机方法或社会调查选出原始受访者。再根据原始受访者提供信息去取得其它受访者。本法的目的是母体很难寻找或十分稀少时可用。例如单亲家庭抽样属之。

3.2抽样调查方案的设计

3.2.1抽样调查方案设计的原则抽样调查基本的目的是在信息的搜集基础上作成结论,以供决策参考。有效的抽样调查应满足如下准则的要求:

1.有效原则

抽样调查应该(1)符合调查目的的需要,(2)所获信息价值应超过所支付成本。

2.可测量原则抽样的正确程度必须能够测量,否则抽样调查就失去意义。

3.简单原则抽样调查必须保持简单性要求。俾使抽样调查顺利进行,以避免不必要的节外生枝。

4保证抽样的随机性原则5目的性与实践性结合的原则

3.2.2抽样调查方案设计的内容目的与任务单位与对象项目与表时间与方法组织与实施人员与经费数据处理与分析等

3.3抽样方案的检查准确性检查代表性检查

3.4抽样调查的基本步骤

3.4.1对母群体的识别

这次市场调查的母全体是什么?

调查之时,必须一贯性。如果针对家庭的事实调查,就不要混杂个人意见调查。

母全体有何特征必须掌握?否则易丧失其代表性。

3.4.2抽样方法的选择决定采用抽样方法考虑因素:(1)抽样调查可用资源极为有限,以非机抽样为主。(2)要获得不偏估计值,必须采用随机抽样。否则可考虑非随机抽样。

3.4.2抽样方法的选择(3)必须以客观方法评估抽样设计精密度,应采用随机抽样;否则就考虑非随机抽样。(4)预期抽样误差是研究误差主要来源,采用随机抽样,如预期非抽样误差是研究误差主要来源,则可考虑用非随机抽样。

3.4.2抽样方法的选择当选用随机抽样之后,斟酌下表各种随机抽样方法之优缺点比较,与调查之时间,人力,经费及母群体特征与需要估计值精准度需要,选取适当抽样方法。各种随机抽样方法之优劣比较

3.4.3样本数决定

决定样本数考虑因素及样本数估算

1调查结果所要求的精准度。精度愈高,样本数愈多。

3.4.3样本数决定2抽样母体的特性。如母体不规则且分成若干较小子群体(Sar-Groups)则需求较多的样本,以求抽样准确度。

如果样本能真正代表母群体,样本数小准确性高。由不相干之人来答,其误差随样本数加大而加大。3.抽样调查设计优良

4.抽样成本合理化因此最佳抽样数量,应是样本数足以产生准确的资料,又不超过调查预算称。

第四节抽样调查的基础理论4.1大数定律4.2中心极限定理4.3误差分布理论4.4概率理论的广泛应用第二章抽样调查基本原理第一节有关基本概念

第二节样本统计量的抽样分布第三节抽样误差第四节抽样估计第一节有关基本概念

一、总体总体也叫母体,它是所要认识对象的全体,是具有同一性质的许多单位的集合。组成总体的每个个体叫做单位。在抽样以前,必须根据实际情况把总体划分成若干个互不重叠并且能组合成总体的部分,每个部分称为一个抽样单元,不论总体是否有限,总体中的抽样单元数一定是有限的,而且是已知的,因此说抽样调查的总体总是有限的。总体应具备同质性、大量性和差异性的特征。在抽样调查中,通常将反映总体数量特征的综合指标称为总体参数。常见的总体参数主要有:总体总和Y总体均值总体比率R总体比例P

二、样本样本是由从总体中所抽选出来的若干个抽样单元组成的集合体。抽样前,样本是一个n维随机变量,属样本空间;抽样后,样本是一个n元数组,是样本空间的一个点。影响样本代表性的因素有以下几个方面:(1)总体标志值分布的离散程度。

(2)抽样单元数的多少(或称样本容量的大小)。(3)抽样方法。一般将反映样本数量特征的综合指标称之为统计量。统计量是n元样本的一个实值函数,是一个随机变量,统计量的一个具体取值即为统计值。主要的样本统计量有:样本总和y样本均值样本比率r样本比例p

三、必要样本容量和样本可能数目样本中包含的抽样单元个数称为样本容量,又称样本含量或样本大小。样本可能数目则是在容量为N的总体中抽取容量为n的样本时,所有可能被抽中的不同样本的个数。用A表示。当N和n一定时,A的多少与抽样方法有关,其计算方法列表如下:抽样方法放回抽样不放回抽样考虑顺序不考虑顺序四、抽样框抽样框是在抽样前,为便于抽样工作的组织,在可能条件下编制的用来进行抽样的、记录或表明总体所有抽样单元的框架,在抽样框中,每个抽样单元都被编上号码。编制抽样框是一个实际的、重要的问题,因此必须要认真对待。抽样框可以是一份清单(名单抽样框)、一张地图(区域抽样框)。常见的抽样框问题可以概括为四种基本类型:(1)缺失一些元素,即抽样框涵盖不完全;(2)多个元素对应一个号码;(3)空白(一些号码没有与之对应的元素)或存在异类元素;(4)重复号码,即一个元素对应多个号码。返回第二节样本统计量的抽样分布一、正态分布如果总体各个体的标志值以总体平均数为中心,形成钟型对称分布,其分布曲线向两侧扩展,逐渐向横轴逼近,无限延伸出去,但不接触横轴,则这种分布就叫做正态分布,或高斯分布、常态分布。服从正态分布的总体称为正态总体。如果一个随机变量X服从正态分布,则其分布的密度函数(分布曲线方程)为:

当μ=0,σ2=1时,称该分布为标准正态分布。标准正态分布的密度函数为,

任何正态分布,它的样本落在任意区间(a,b)内的概率等于直线x=a,x=b,横坐标和曲线f(x)所夹的面积(可由正态分布概率积分表查得)。经计算,正态总体的样本落在:

(-σ,+σ)概率是68.27%;

(-2σ,+2σ)概率是95.45%;

(-3σ,+3σ)概率是99.73%;

(-1.96σ,+1.96σ)概率是95%;二、抽样分布抽样分布是根据所有可能样本计算出来的某一统计量的数值分布。抽样分布有极限分布和精确分布两类。极限分布也叫做大样本分布,它只有正态分布一种形式;精确分布又叫做小样本分布,其前提是总体服从正态分布,它是正态分布的导出分布,包括有t分布、F分布和分布等形式。χ2

一般地,可以证明如果总体服从正态分布,且总体均值和方差均为已知,即

Y~N(μ,σ2)则不论样本量大小如何,样本均值均围绕总体均值而服从正态分布,并且其抽样分布的方差等于总体方差的n分之一,即~N(μ,σ2/n)

而对于非正态总体,若均值μ和σ2有限,则根据中心极限定理,当样本量n充分大时,样本均值仍然围绕着总体均值而近似地服从正态分布,即~N(μ,σ2/n)

(一)样本统计量的极限分布

例:总体N=5,Y={40,50,60,70,80},则其次数分布图为若取n=2,用放回抽样,

可抽25个简单随机样本,整理后,即可得出关于样本均值的次数分布情况为:

404550556065707580f123454321用图形表示,则为:如果总体容量较大,则当样本容量逐步扩大时,样本平均数的分布趋于正态分布的趋势更加明显。(二)样本统计量的精确分布1、χ2分布设随机变量Yi~N(0,1)(i=1,2,…,n),且相互独立,则Y=∑Y2i服从自由度为n的χ2分布,记作Y~χ2(n)。χ2分布的概率密度函数为主要性质有:①f(y)恒为正;②χ2分布呈右偏形态;③χ2分布随n的不断增大而逐渐趋于正态分布。

χ2分布χ2(n)的数学期望和方差分别为EY=n,DY=2n.2、t分布若X~N(0,1),Y~χ2(n),且X与Y相互独立,则称随机变量服从自由度为n的t分布,记作:T~t(n)。

推论:若X~N(μ,σ2),σ2未知,则

服从自由度为n-1的t分布,记作:T~t(n-1)

t分布t(n)的概率密度函数为

t分布具有如下性质:①t分布对称于纵轴,与N(0,1)相似;②在n<30(小样本)时,t分布的方差大于N(0,1)的方差;③在n≥30(大样本)时,t分布随n的增大而趋于N(0,1)。

t分布t(n)的数学期望与方差分别为ET=0,DT=n/(n-2).(n>2)

若X~χ2(n1),Y~χ2(n2),且X与Y相互独立,则称随机变量

3、F分布服从第一自由度为n1,第二自由度为n2的F分布,记作:F~F(n1,n2)。其概率密度函数为F分布的主要性质有:①F分布呈右偏态;②f(x)恒为正;③在

④随n1,n2的不断增大,F分布的右偏程度逐渐减弱,但不会趋向正态;⑤具有倒数性质,即若X~F(n1,n2),则1/X~F(n1,n2);⑥若t~t(n),则t2(n)~F(1,n)。

处取最大值(n1>2,f0<1);其数学期望和方差分别为返回第三节抽样误差一、抽样调查中的误差来源误差就是调查结果与现象的实际结果之间的偏差,它几乎在所有的统计调查中都或大或小的存在着。在抽样调查中,按照形成原因的不同,一般可将误差分成抽样误差和非抽样误差两大类。抽样误差是用样本统计量推断总体参数时的误差,它属于一种代表性误差。

在抽样调查中抽样误差是不可避免的。但同非抽样误差不同的是,抽样误差可以计算,并且可以被控制在任意小的范围内。

影响抽样误差的因素

1.抽样误差通常会随样本量的大小而增减。

2.所研究现象总体变异程度的大小。

3.抽样的方式方法。

非抽样误差不是由于抽样引起的。它又包括:调查误差;无回答误差;抽样框误差;登记性误差。同抽样误差相反,非抽样误差是随着样本量的增加而增大的。由于抽样调查的访问和资料整理都比普查更便于进行,因此非抽样误差也远远小于普查。有时,普查中的非抽样误差甚至大于抽样调查中抽样误差与非抽样误差的总和。二、抽样误差的计算抽样误差的计算,是建立在误差分布理论基础上,从统计平均意义角度来考虑的。

抽样误差用所有可能的实际误差的均方误差表示

MSE()=E(-θ)2=E[

-E(

)]2+[E()-θ]2

式中第一项是估计量的方差,记作V()。

式中第二项是估计量的偏倚B()的平方。

无偏估计时,的方差就等于它的均方误差。

说明:①上面所给出的估计量方差公式实际中当σ2未知时,一般用样本方差s2代替以对②有偏的估计并非都是不可用的,有时有偏估计量在某些方面反而比无偏估计量更好。有研究认为,在实践中当偏倚小于标准误的十分之一时,偏倚对估计量准确度的影响可以忽略不计。仍然属于一个理论公式,是依据调查变量的总体方差σ2进行计算的,估计量的方差做出估计。返回第四节抽样估计一、抽样估计的特点第一,抽样估计在逻辑上运用的是归纳推理而不是演绎推理。第二,抽样估计在方法上运用不确定的概率估计法而不是运用确定的数学分析法。第三,抽样估计的结论存在着一定程度的抽样误差。二、抽样估计的方法抽样估计的方法多种多样。如果以估计中所依据的资料不同来区分,一般可以有简单估计、比估计和回归估计等三种方法。简单估计是单纯依靠样本调查变量的资料估计总体参数,其估计结果称为简单估计量;比估计和回归估计是同时依据样本调查变量以及已知的有关辅助变量的资料来对总体参数做出估计,其结果分别称为比估计量和回归估计量。如果以估计结果的表示方式来区分,则抽样估计可以有两种形式,即定值估计和区间估计。三、置信区间一般地说,若估计量是无偏的,且呈正态分布,则参数θ的置信度当调查变量的总体方差σ2已知时,上述置信区间可表示为为1-α的置信区间可以写成当调查变量的总体方差σ2未知时,则用相应的样本方差s2代替。然而,这时有可能会使误差产生一个增量,特别是当样本较小时,更容易影响估计的精度。因此,为了保持1-α的置信度,就应该适当加宽置信区间,即用较大的tα/2值来代替Zα/2。此时,置信区间就可以表示成四、估计量的优良标准1、无偏性2、一致性3、有效性第三章简单随机抽样第一节简单随机抽样概述第二节参数估计第三节样本容量的确定第一节简单随机抽样概述一、简单随机抽样的概念定义之一:简单随机抽样就是从总体N个抽样单元中,一次抽取n个单元时,使全部可能的种不同的样本被抽到的概率均相等,即都等于1/A。定义之二:简单随机抽样是从总体的N个抽样单元中,每次抽取一个单元时,使每一个单元都有相等的概率被抽中,连续抽n次,以抽中的n个单元组成简单随机样本。按简单随机抽样,抽到的样本称为简单随机样本。二、简单随机抽样的具体实施方法(一)抽签法抽签法是先对总体N个抽样单元分别编上1到N的号码,再制作与之相对应的N个号签并充分摇匀后,从中随机地抽取n个号签(可以是一次抽取n个号签,也可以一次抽一个号签,连续抽n次),与抽中号签号码相同的n个单元即为抽中的单元,由其组成简单随机样本。(二)随机数法随机数法就是利用随机数表、随机数骰子或计算机产生的随机数进行抽样。

1、随机数表及其使用方法随机数表是由0到9的10个阿拉伯数字进行随机排列组成的表。所谓随机排列,即每个数字都是按等概和重复独立抽取的方式排定的。随机数表的用途很多,不仅可以组织等概样本,也可组织不等概样本。

简单随机抽样属等概率抽样,在使用随机数表时,要注意以下几点:①每次使用时,确定使用哪页及哪行哪列的数字为起点,必须是随机的。②设总体容量为N,若N的位数为r,则一定要从r位数中抽取。遇到1至N的数可直接使用;遇到其它的数不能直接使用。③当r≥2时,可从含有起点数字左边的r位数开始,也可从右边的r位数开始。可从起点开始向下抽取,也可向右抽取。但一经确定使用哪一种方式,就必须用一种方式抽取全部单元号,中途不能变更。④在重复抽样时,遇到重复的数字应重复使用;在不重复抽样时,遇到重复的数字应舍去不用。随机数表法一般分下述几步:第一步:确定起点页码;第二步:确定起点的行数与列数;第三步:确定所抽样本单元的号码。快速抽取的常用方法有:余数法。如果N是个r位数,由1到随机取一个数R,而是N的最大r位整倍数,则编号等于R除N所得余数的单元便被选中。商数法。修正余数法。修正商数法。独立选择数位法。

2、随机数骰子及其使用方法

随机数骰子是由均匀材料制成的正二十面体(通常的骰子是正六面体,即正方体),面上刻有0-9的数字各2个。(随机数骰子的图形特征)两个有名的试验试验一:随意数试验。让六个人写下100个自己随意想到的三位数,将这些数内的0、1、…、9数字列成次数分布表如右。可见,六个人都对数字存在偏好,如第一个人更加偏好数字4、3、0;第二个人则偏好数字1、8、4;等等。这种由于数字偏好所引起的偏估类型可称之为数字偏误。数字人的编号期望次数1234560123456789501382934592948305733272019283120225039343424245540282915272018311530253026262731151239323542352542302344379282320272930303030303030303030合计300300300300300300300试验二:着色试验。让四个人将10×10方格的纸板着色,可供选择的颜色有蓝、绿、红、白和黄色五种,对每一个四分象限来说,规定每种颜色只能在每行和每列出现一次。每个方格以其所在的列号与行号表示,如(4,6)代表第四列第六行的方格。请四个人对这100个方格随意选择行列号,而对其着色。将这些由这四个人着色所得到的资料形成次数分布表如下:四个人对方格着色的次数分布颜色人的编号期望数字1234蓝绿红白黄14262012282115211512202225232019181825262020202020合计100100100100100可见四个人都对颜色存在偏好,如第一个人偏爱绿色,第二个人偏爱蓝色等。这种由于对颜色偏好所引起的偏估类型,可称之为颜色偏误。结论:随意抽样≠随机抽样三、简单随机抽样的方法评估1.简单随机抽样对总体不加任何限制,等概率地从总体中直接抽取样本,是最简单、最单纯的抽样技术,它具有计算简便的优点,是研究其它复杂抽样技术的基础,也是比较各种抽样技术之间估计效率的标准,同时,从理论上讲简单随机抽样在各种抽样技术中是贯彻随机原则最好的一种,并且数学性质很简单,是等概率抽样的特殊类型。2.因为是等概率抽取样本,所以要求总体在所研究的主要标志上同质性或齐性(共性)较好,也即总体要比较均匀;要求样本容量要比较大,以保证样本对总体具有充分的代表性。但是,在社会经济现象中,这种均匀总体是很少见的。因此,实际工作中很少单纯使用简单随机抽样方法。3.直接从总体中抽取样本,未能充分利用关于总体的各种其它已知信息,以有效地提高样本的代表性,并进而提高抽样的估计效率。4.简单随机抽样要求在抽样前编制出抽样框,并对每一个总体抽样单元进行编号,而且当总体抽样单元的分布比较分散时,样本也可能会比较分散,这些都会给简单随机抽样方法的运用造成许多的不便,甚至在某些情况下干脆无法使用。

结论:在此基础上研究其它抽样技术显得更加重要。第二节总体参数的估计一、基本原理-将上述结论加以推广,则可得出一般性的结论,即从总体的N个单元中不放回抽取n个单元时的估计量及其方差的构造形式。第三节样本容量的确定必要样本容量是在最大限度地满足规定精度要求以及尽可能节约调查费用的前提下,所应该抽取到的最少的样本容量。一、必要样本容量的确定(一)依规定精度来定1、关于精度的不同提法第一节分层抽样概述第四章分层抽样第二节总体参数的估计第三节总样本量的分配第四节分层与提高精度第一节分层抽样概述分层抽样是在抽样之前,先将总体按一定标志划分为若干个层(组),后在各层内分别独立地进行抽样。由此所抽得的样本称之为分层样本。各层所抽的样本也是互相独立的。如果每层中的抽样都是简单随机的,则这种抽样就叫做分层随机抽样。由此所得到的样本称做分层随机样本。分层时应遵循“尽可能使层内差异小,而使层间差异大”的原则,同时要使分层的结果既无重复又无遗漏。进行分层抽样时应注意:①层内抽样设计的选择;②分层变量的选择;③各层样本量的分配;④层数;⑤层的分界。以前只重视③,近年来,④和⑤引起了越来越多的关注。分层抽样具有以下特点:①分层抽样能够充分地利用关于总体的各种已知信息进行分层,因此抽样的效果一般比简单随机抽样要好。但当对总体缺乏较多的了解时,则无法分层或不能保证分层的效果。②在分层抽样中,总体的方差一般可以分解为层间方差和层内方差两部分。由于分层抽样的误差只与层内差异有关,而与层间差异无关,因此,分层抽样可以提高估计量的精度。③由于分层抽样是在每层内独立地进行抽样,因此,使得分层样本能够比简单随机样本更加均匀地分布于总体之内,所以其代表性也更好些。④分层抽样的随机性具体体现在层内各单元的抽取过程之中,也即在各层内部的每一个单元都有相同的机会被抽中,而在层与层之间则是相互独立的。⑤分层抽样适合于调查标志在各单元的数量分布差异较大的总体。因为对这样的总体进行合理的分层后可将其差异较多地转化为层间差异,从而使层内差异大大减弱。⑥分层抽样中除了可以推断总体参数外,还可以推断各不同层的数量特征,并进一步作对比分析,从而满足不同方面的需要,也能帮助人们对总体作更全面、更深入的了解。但对各层的估计缺乏精度保证。⑦分层抽样调查实施中的组织管理及数据收集和汇总处理可以分别在各层内独立地进行,因此较之简单随机抽样更方便。⑧分层抽样中,由于各层的抽样相互独立,互不影响,且各层间可能有显著的不同,因此,对不同层可以按照具体情况和条件分别采用不同的抽样和估计方法进行处理,从而提高估计的精确度。⑨当总体有周期现象时,用分层比例抽样法可以减少抽样方差。⑩分层抽样中在进行分层时,需收集可用于分层的必要的各种资料,因此可能会增加一定的额外费用。同时,分层抽样中,总体参数的估计以及各层间样本量的分配、总样本量的确定等都更为复杂化。满足下述条件时,分层在精度上会有很大的得益:①总体是由一些大小差异很大的单元组成的,即总体差异大;②分层后,每层所包含的总体单元数应是可知的,也即分层后各层的权重是确知的或可以精确估计的;③要调查的主要变量(标志)与单元的大小是密切相关的;④对单元的大小有很好的测量资料可用于分层,也即分层变量容易确定。第二节总体参数的估计二、估计量对于分层随机抽样则可以写出其方差的具体形式来。四、方差的估计量按上述方法确定估计量的方差时,要求各层的总体方差应事先已知,但实际工作中,各层的总体方差又常常是未知的,此时,一般可用对应的各层样本方差替代,以对估计量的方差作出估计。第三节总样本量的分配一、总样本量在各层间的分配在分层抽样中,一个重要的问题是总的样本量如何在各层之间进行分配。通常考虑:⑴精度和费用问题。即如何分配才能在费用一定时使总的精度和各层估计精度最高?⑵数据处理问题。即如何分配才能使调查数据的处理工作更加简洁,也使估计量及其方差的确定形式更为简单明了?⑶各层的容量大小问题。(二)最优分配1、一般情形在分层随机抽样中,在给定的费用条件下,使估计量的方差达到最小,或在精度要求(常用方差表示)一定条件下,使总费用最小的各层样本量的分配称为最优分配。5、最优分配与比例分配的精度比较讨论:由于比例分配的样本是自加权的,因此,其估计量及其方差的确定形式都较最优分配时更为简便。但如果各层的因子之间差异很大时,最优分配将会比比例分配更为有效。然而,由于方差对于分配中发生的小的甚至是中等的变动并不敏感,因此,基什(L·Kish)认为在实际中①除非各层的因子之间有实质性的差异,一般不要采用最优分配。否则最优分配多出的效益可能会被加权和特别细致工作的额外花费所抵销。一般来说,要好几倍的差异才值得作最优分配。若的几个值大致相等,就要用比例分配。②最优分配往往不是估计比例值的经济方法,因为比例的标准差等于,它们对于0.1到0.9之间变动的值是不敏感的。③应用最优分配时,在实践上要避免使抽样比成为复杂的分数。④很多潜在的效益常常只需使用一些不同的抽样比就可以得到。有时,只用两个抽样比就可以取得大部分效益:对绝大多数元素采用一个低抽样比,而对一个只包含大元素的特殊层则采用一个高抽样比。有时,甚至可使这些特殊层能被当然地选入样本(即使其抽样比为1),以完全排除它对抽样误差的影响。当各层抽样费用不同,而总费用给定时第四节分层与提高精度是否在任何一次抽样中都应该采用分层抽样呢?答案是不一定。通常要考虑以下四个问题:一是如果分层抽样的效果优于简单随机抽样,那么从所增加的人力、财力与所提高的抽样精度的对比上看是否值得?二是分层抽样的效果是否就一定优于简单随机抽样?三是当各层的层权不准(有偏)时,层权偏差所增加的误差与分层所减少的误差哪个更大?四是如果不采用分层抽样,简单随机抽样或其它抽样方式的估计精度能否达到事先设计的要求?一、分层随机抽样与简单随机抽样的精度比较二、设计效应三、层权误差的影响四、分层标志的选择五、层数的确定六、层界的确定七、抽样后分层第五章比估计与回归估计第一节比估计的一般形式第二节分层比估计第三节回归估计的一般形式第四节分层回归估计第一节比估计的一般形式一、比估计综述比估计是依据调查变量与辅助变量间的比率来对总体有关参数进行估计和推断。通常简称比估计。同简单估计相比,比估计具有以下特点:(1)在比估计中,除调查变量外,还需要了解与调查变量有关的辅助变量,并且要求辅助变量的总体均值或总体总和必须事先已知。充分利用辅助变量带来的信息估计总体参数,比单纯用调查变量资料会有更好的效果。(2)比估计方法,对抽样调查单元是有条件的,通常是用组成总体的最基层单位为调查单元。(3)比估计只适用于有限总体,因为只有有限总体才可能计算出为比估计所需要的辅助变量的总体总和与总体均值。(4)当每个单元的调查变量与辅助变量的比例(一般要求为正比例)十分稳定,且变异很小时,比估计就具有十分精确的估计效果,只要抽取少量的样本单元,就可得到满意的结论。(5)在比估计时,出于估计精度方面的要求,选择辅助变量时,须与调查变量的关系愈密切愈好,至少要求相关系数在1/2以上。比估计中,辅助变量可以是上次普查或调查时与调查变量相应的数据(即调查变量的前期或历史资料);也可以是对调查变量的粗略估计;或者是表示单元规模的某个量。为了充分发挥比估计的优越性,在应用比估计时应考虑两条:一是选与调查变量有较密切的正相关关系的变量作为辅助变量。因为如果辅助变量与调查变量的关系不密切,各自独立变化,则对比估计起不了应有的辅助作用。二是样本容量要比较大。因为比估计是有偏倚的,只有当样本容量n比较大时,其偏倚才能比较小,比估计才更加有效。比率估计是有偏的,但当样本量n增大时,偏倚逐渐趋于零。三、总体均值和总和的比估计当调查变量和辅助变量具有正相关关系时,为了利用辅助变量的信息,可以构造总体均值或总和的比估计量。在简单随机抽样中,总体均值和总体总和的比估计量分别为结论为:利用比估计提高抽样效果的条件是ρ>1/2。五、样本容量的确定第二节分层比估计

分层随机抽样中的比估计量有两种形式:先构造各层比估计,再加权平均——各层分别比估计;先加权平均,再构造比估计——联合比估计。一、各层分别比估计各层分别比估计是先对各层分别进行比估计,然后按层权加权平均,以得出总体参数的估计,即:第三节回归估计的一般形式一、回归估计概述回归估计就是根据样本各单元调查变量与辅助变量间的关系构造回归方程,并据回归系数对总体有关参数进行估计。如果在回归估计中只有一个辅助变量,则所进行的估计称为一元回归估计,若同时采用多个辅助变量综合进行估计,则称为多元回归估计。多元回归估计比一元回归估计效果更好,但更复杂。这里只介绍一元回归中的线性回归估计。回归估计的主要特点有:同比估计一样,回归估计充分利用了有关的辅助变量资料以有效地提高估计的精度;回归估计中要求辅助变量的总体均值或总和事先已知;回归估计一般只适用于有限总体,因为只有有限总体才可能计算出辅助变量的总体均值和总和;回归估计量一般优于比估计量和简单估计量。特别地当回归系数等于总体比率(即总体回归直线通过原点)时,回归估计量与比估计量的效果相同,当调查变量与辅助变量间的相关系数ρ=0时,回归估计与简单估计的效果相同。但是,回归估计量的优越性只有在大样本的情形下才能得到较好的发挥,而在小样本时,它的性质就不大好,因而使用回归估计量,样本量一定要大,一般情况n≥30时,回归估计量较比估计量和简单估计量有较优的估计效果,但它的意义不如后两法简单明了,计算方法也较为复杂,特别是多元线性回归估计或非线性回归估计时更是如此。不过随着电子计算机的广泛应用,再复杂的计算也可通过计算机进行。回归估计中辅助变量可以是一个,也可以是两个或多个;辅助变量应与调查变量存在一定的联系(不一定是密切关系)。1、β为设定的常数(如β=B)时的情形2、β需从样本计算时的情形当β需从样本计算时,受前面确定B的最佳值的思路的启发,β的一个有效估计应是总体回归系数B的最小二乘估计,也即取β为样本回归系数b。三、回归估计量与简单估计量及比估计量的比较在大样本时,回归估计量的精度要好于简单估计量和比估计量。第四节分层回归估计一、各层分别回归估计先对每层分别进行回归估计,然后按层权加权平均,得总体平均数的估计量。第六章整群抽样第一节整群抽样概述第二节等概率整群抽样的情形第三节不等概率整群抽样的情形第一节整群抽样概述一、整群抽样的概念整群抽样是先将总体各单元划分成若干群(组),然后以群为单位,从中随机抽取一部分群,对中选群内的所有单元进行全面调查。确切地说,这种抽样组织形式应称为单级整群抽样。二、分群的原则尽量扩大群内差异,而缩小群间差异。

三、整群抽样的特点1.在大规模抽样调查中,常常没有或很难编制出包括总体所有次级单元在内的抽样框,而整群抽样则不需要编制庞大的抽样框。2.在样本单元数相同的条件下,整群抽样与简单随机抽样相比,样本单元的分布相对较集中,虽然样本的代表性较差,但调查组织实施过程更加便利,同时还可以大大地节省调查费用。因此,实际工作中,在权衡费用和精度之后,有时宁可适当增加一些样本单元数,也采用整群抽样方法。3.整群抽样的随机性体现在群与群间不重叠,也无遗漏,群的抽选按概率确定。4.如果把每一个群看作一个单位,则整群抽样可以被理解为是一种特殊的简单随机抽样。5.整群抽样也是多阶段抽样的前提和基础。6.整群抽样有特殊的用途。有些现象的研究,如果直接调查作为基本单元的个体,很难说明问题,必须以一定范围所包括的基本单元为群体,进行整群抽样,才能满足调查的目的。如人口普查后的复查、要想估计出普查的差错率,只有通过对一定地理区域内的人口群体作全面调查才行。类似地诸如人口出生率、流动率等调查都需要采用整群抽样。7.整群抽样要求分群后各群所含次级单元数目应该确知,否则会给抽样推断带来不便。四、关于群大小的计量整群抽样中,如何有效地对群的大小进行计量,直接关系到抽样估计效率的高低。研究表明,对群的大小的最优计量尺度是各群在所研究标志上的标志总量大小。但在实际工作中,它是未知的。因此通常选择与所研究标志高度线性相关的另一辅助标志作为计量尺度。在整群抽样的实际应用中,经常选择以各群所含次级单元数的多少作为群大小的计量尺度。当各群所含次级单元数相等时,就称群的大小相等;当各群所含次级单元数不相等时,就称群的大小不相等。五、整群抽样与分层抽样的比较综合前面的分析,比较整群抽样和分层抽样可以发现二者在分组(层或群)的条件、调查的方式、分组(层或群)的目的、分组(层或群)的原则、总体方差的分解等方面都存在着较为明显的差别。第二节等概率整群抽样的情形一、群的大小相等时(一)估计量整群抽样是以群为单位进行抽样,如果群的抽取是简单随机的,则当群的大小都相等时,可以将简单随机抽样理解为是一种特殊的整群抽样,特别当总体分群后的每个群都只包括一个次级单元时,整群抽样和简单随机抽样一致。因此,整群抽样的估计量可以比照简单随机抽样方式来构造。3、总体比例P的估计第三节不等概率整群抽样的情形

一、放回的不等概率抽样(一)PPS抽样的入样概率和实施方法1、入样概率2、实施方法1)代码法(累计和法,由汉森—赫维茨提出)2)拉希里法(二)PPS抽样的估计量对于PPS抽样,其估计量可按汉森—赫维茨1943年提出的方法构造。

二、不放回的不等概率抽样第四节设计效应和样本容量的确定一、设计效应可见,整群抽样的设计效应大小(即精度的好坏)主要取决于总体中群内各次级单元间相关程度(在此主要是离散的程度)的大小。二、最佳群大小的确定如果样本大小固定,虽然调查费用随着群大小的增加和群数的减少而变小,但从前面的结果看出,抽样误差将随着群大小的增加和群数的减少而变大。因此,就要考虑求得最佳的群数或群的大小以便在给定费用条件下使抽样误差最小,或在给定抽样误差条件下使费用最省。三、样本容量的确定确定整群抽样的样本量一般有两种思路。1、根据设计效应来定第七章

等距抽样第一节

等距抽样概述

第二节等距抽样的实施方法第三节

总体参数的估计第四节

其它形式的等距抽样

第一节

等距抽样概述

一、等距抽样的概念二、排序标志三、等距抽样的特点一、等距抽样的概念等距抽样也称系统抽样或机械抽样。它是将总体各抽样单元按一定的标志和顺序排列以后,每隔一定的距离(间隔)抽取一个单元组成样本进行调查。二、排序标志等距抽样需要有作为排序依据的辅助标志。排序标志各式各样,可自由选择,但归纳起来,可分为两类,即无关标志和有关标志,它们对等距抽样的作用和相应的估计精度各有不同的影响。1、按无关标志排序所谓无关标志排序,即用来对总体单元进行排序的标志,与所要调查研究的标志是不同性质的,二者没有任何必然的关系。如研究人口的收入状况时,按身份证号码、按门牌号码排序非常方便,一般说来,这些号码与调查项目没有关系,因此可以认为总体单元的次序排列是随机的,所以也有人直接称无关标志排序的等距抽样为无序等距抽样。2、按有关标志排序所谓有关标志排序,即用来对总体单元规定排列次序的辅助标志,与调查标志具有共同性质或密切关系。这种排序标志,在我国抽样调查实践中有广泛应用,如农产量调查,以本年平均亩产为调查变量,以往年已知平均亩产作为排序标志。利用这些辅助标志排序,有利于提高等距抽样的抽样效果。三、等距抽样的特点(1)将总体各单元按一定的顺序排列后再抽样,使得样本单元的分布更加均匀,因而样本也就更具代表性,比简单随机抽样更精确,在某些场合下甚至可以不用抽样框。并且如果能够利用好样本的相应顺序在总体中均匀分布这一特点,则容易形成一个按比例样本。三、等距抽样的特点(2)等距抽样简单明了,快速经济,操作灵活方便,使用面广,是单阶段抽样中变化最多的一种抽样技术。等距抽样最初用于森林和土地使用情况的调查,后来经过汉森、麦多、科克伦等学者的努力,使其成为当今家计调查、记录抽样、空间抽样、工业抽样和为普查取得附加信息及估计非抽样误差的一种常用方法。在我国,等距抽样已成了最主要、最基本的抽样方式,一些大规模的抽样调查,如农产量抽样调查、城乡住户调查、人口抽样调查、产品质量抽样检查中都普遍采用了等距抽样。三、等距抽样的特点(3)当N=nK时,等距抽样就等同于每层只抽一个单元的分层抽样或群的大小相等时只抽一个群的整群抽样。三、等距抽样的特点因为,这时,总体各单元可排列成如下方式:y11

y21

yi1

yk1

y12y22

yi2yk2

┋┋┋

y1ny2n

yinykn

三、等距抽样的特点(4)等距抽样的样本常被视为一个集体单元,一般不计算样本调查变量的方差,所以它只能抽象地进行理论分析,而不能对抽样方差进行估计。三、等距抽样的特点(5)若总体中的单元呈周期性的变化,等距抽样的精度可能很高也可能很差。这时要慎重地选择K。第二节等距抽样的实施方法

一、随机起点等距抽样二、循环等距抽样三、中点等距抽样四、对称等距抽样法五、两端修正法六、总体有周期性变化时的等距抽样七、累计和等距抽样一、随机起点等距抽样随机起点等距抽样就是前面概念所描述的方法。具体地说,它是在总体单元排序后的第1至K单元之间(第一个抽样间隔之内)随机抽取一个整数i,以它作为起始单元的编号,以后按固定的顺序和间隔依次在每个间隔之内各抽取一个单元组成等距样本,则整个样本是由以下编号的单元所组成的。i+(j-1)K

(j=1,2,…,n)由于N不一定恰好是K的整数倍,所以按上述方法得到的等距样本的样本量可能为为避免这种样本量不能确定的情况,确保样本量为n,1952年拉希里提出了循环等距抽样的方法。二、循环等距抽样在N≠nK时,把总体中的N个单元按一定顺序排列成一个首尾相接的环(圆形图),取最接近于N/n的整数为抽样间隔K,然后在1到N的单元中,随机抽取一个单元(设为第i单元)作为起点,再沿着圆圈按一定方向每间隔K抽取一个单元,直到抽够n个单元为止。按此方法,可以保证样本量n不变。不过此时首尾两个样本单元的间隔不一定恰好为K,它可能小于K,也可能大于K。循环等距抽样从本质上看仍然是随机起点等距抽样。我们注意到,当N=nK时,在上述两种抽样实施方法中,无论按哪一种方法,总体中每个单元的入样概率都相等,从而是一种严格的等概率抽样。但当N≠nK时,按第一种方法每一个单元的入样概率依赖于初始值i,对不同的i,稍有不同。以下为了处理方便,我们假定N总是n的整数倍。在实际工作中,若n充分大,则由于N/n非整数而带来的影响就充分小,可以忽略不计。三、中点等距抽样1953年麦多为克服随机起点等距抽样容易产生系统性偏差的缺点,提出中点等距抽样(即抽取中心位置的样本)法:计算出抽样间隔K后,以第一组的组中点为起点,等距抽取单元组成样本。如果K为奇数,以(K+1)/2为起点,K为偶数,以K/2或(K+2)/2为起点。四、对称等距抽样法对称等距抽样也是针对有序等距抽样所提出的,其基本思想是使低标志值的单元与高标志值的单元在样本中对等出现。从而使样本的偏差缩小,代表性增强。由于具体的方法不同,对称等距抽样又有几种类型。1.塞蒂的方法——

两两对称等距抽样1965年塞蒂提出了一种新的等距抽样方法——对称等距抽样法,以克服总体的线性趋势对估计效率的影响。设N=nK,n为偶数。抽样时,先把总体单元分成n/2个抽样间隔,使每一抽样间隔含有2K个单元。然后,在每一抽样间隔内,抽取分别与两端距离相等的两个单元,这样共抽取n个单元组成等距样本。即:如果随机起点为i,则在第一个抽样间隔所抽两个样本单元的号码分别为i及2K-i+1;在第二个抽样间隔所抽两个样本单元号码为i+2K及2(2K)-i+1;如此,最后在第n/2个抽样间隔所抽两个样本单元号码分别为i+(n-2)K及nK-i+1。一般,若随机起为i,则抽中的n/2对样本单元的号码可以表示为i+2jK,2(j+1)K-i+1]

[j=0,1,…,(n/2)-1]]当n为奇数时,式中的j由0变到(n-1)/2-1为止,并且,要加上接近末端的第i+(n-1)K个单元。实际中,为便于对称等距抽样的实施,当N=nK时,可以将原来由小到大(或由大到小)顺序排列的单元按照顺逆交替的次序排列在一个表中,这样,按随机起点等距抽样所抽取的样本即为对称等距样本。所谓顺逆交替是指在单元的排序中,若第一间隔由小到大排序,则第二间隔按由大到小排序,以此类推。2、辛的修正方法——

中心对称等距抽样1968年,辛等人提出另一种对称等距抽样法——中心对称等距抽样法。即在有序排列的总体单元中,从两端划分抽样间隔。并从两端的抽样间隔开始,成对地抽取到两端距离相等的单元组成等距样本。这里,仍假定N=nK。当n为偶数时,若随机起点为i,则与之对称的样本单元号为倒数第一个抽样间隔中的N-i+1;与第二个抽样间隔中i+K对称的是倒数第二个抽样间隔的(N-K)-i+1;如此,一直抽到中间两个抽样间隔为止。一般,以i(i=1,2,…,K)为随机起点的n/2对对称等距样本单元的号码可以表示为:[i+jK,(N-jK)-i+1],[j=0,1,…,(n/2)-1]当n为奇数时,式中的j由0变到[(n-1)/2]-1为止。然后,再加上中间一个抽样间隔中的第i+(n-1)K/2个单元。(我国抽样调查工作者提出在中间一个抽样间隔抽取中点处的一个单元。)五、两端修正法抽样方法同随机起点等距抽样时的情形。但在计算总体均值的估计量时,对第一个和最后一个样本单元加权,其余单元的权数仍为1(在除以n以前),以矫正由于起点不在中心位置而引起的系统偏差。1、耶茨的方法:设N=nK,i为1~K中的随机数,则两端的样本单元的权数分别为:

其中“+”号用于第一个样本单元,“-”号用于第n个样本单元(下同)。当总体单元具有严格的线性趋势时,加权的样本均值就是总体均值。2、具尔豪斯与拉奥的方法适用于N≠nK的情况,并采用循环等距抽样法,设i为1~N中的随机数。(1)若i+(n-1)K≤N,这时n个样本单元不经过yN,则第1个样本单元和第n个样本单元的权数分别为(2)若i+(n-1)K>N,设yN以后的样本单元有n2个,则第1个样本单元和第n个样本单元的权数分别为:

六、总体有周期性变化时的等距抽样有一些总体,其单元的标志值在随时间的自然排列顺序中,会呈现某种明显或不明显的周期变化趋势。如季节性消费商品的销售量,随一年四季的变化而呈现出周期变化。还有些总体,反映出不明显的周期影响。对有周期变化趋势的总体进行等距抽样时,抽样间隔K的选择,对估计效率的影响是极为重要的。为了说明问题,我们不妨假定总体单元标志值的变化为一正弦曲线。七、累计和等距抽样以上所讨论的等距抽样都是以各单元大小相同为前提的,是等概率抽样。如果抽样单元的大小不同,且单元的大小又与调查变量相关时,用上述方法就不大合适了,此时,应采用不等概率抽样。其基本思路是:在总体各单元按某一标志排序后,累计各单元的大小Mi(当各抽样单元的大小用所含下一阶单元的数目表示时,也可直接累计其下一阶单元数)并进行编码,以总的累计数除以n作为抽样间隔,用K表示,然后在最初的1到K个数中随机确定一个数j(1≤j≤K),j所对应的单元即为第一个被抽中单元,以后每间隔K抽取一个随机数,并按同样的方法确定出对应的单元作为样本单元,组成等距样本。累计和等距抽样的原理同上一章所讨论的群大小不等时群的代码法,此法在实际工作中经常用到。第三节

总体参数的估计一、等概率抽样的情形二、不等概率抽样的情形一、等概率抽样的情形为讨论方便,仍假设N=nK,则在如下的排列形式中,有:

(i=1,2,…,K)(一)估计量设等距样本为表中第i列单元,且i是随机决定的,总体均值的估计量用表示,则

是的无偏估计。若N≠nK,则上述估计量是有偏的,但当n充分大时,其偏倚可以充分小。(二)估计量的方差如前所述,如果总体单元是按无关标志排列的,则其方差可按简单随机抽样去做。若总体单元是按有关标志排列的,则此时的等距抽样可以看作是整群抽样或分层抽样的特例,因此,等距抽样估计量的方差可以比照整群抽样或分层抽样的方法构造,有几种表示方法1、用等距样本内(群内)方差表示设等距样本为表中第i列单元,且i是随机决定的,则:其中为等距样本(群)内方差;S2为总体方差。这表明,当等距样本内部的方差大于整个总体方差时,等距抽样比简单随机抽样有更高的精度。因此,为了提高等距抽样的精度,只要有可能就在对总体单元排序时尽可能扩大各等距样本内的差异。当且仅当>S2时,等距抽样比简单随机抽样精度高。2、用等距样本内(群内)相关系数表示为同一等距样本内(群内)成对的单元之间的相关系数。当的值大于0时,方差的值就会变大。3、用同一等距样本内单元对关于层平均值的相关系数表示是第h层即第h间隔的平均值;是等距样本内单位对关于层平均值的相关系数。可见,当=0时,等距样本与每层取一个单元的分层随机样本精度相同;>0时,等距抽样的精度低于分层随机抽样;

<0时,等距抽样的精度高于分层随机抽样。(三)方差估计量前已指出,等距抽样相当于群的大小相等时的整群抽样,但抽中的是一个群,这就使这个受人欢迎的抽样方法有了一些遗憾:等距抽样没有无偏的方差估计量。这里只介绍两种方差估计方法。而在冯士雍、施锡铨著的《抽样调查—理论、方法与实践》一书中,列举了八种不同的方差估计量,并进行了比较分析。1、总体单元无序排列(即按无关标志排列)时可把等距样本看成是简单随机样本,因此,其方差估计量可表示为:其中2、总体单元有序排列(按相关标志排列)时前已指出,等距抽样可看成是从每层抽取1个单元的分层抽样。但凭一个单元的标志值无法估计层内方差,于是把相邻两行(层)的2K个单元组成一层,从中抽取2个单元作为样本,这样总体就被合成了n/2层(假设n为偶数)。第h层的层内方差

h=1,2,…,1/2

将诸代入比例分配的分层随机抽样的有关公式,则将上式中的下标h改为j就得到(1)式式中:是相邻两个标志值的一阶差分,它们间互不重叠,中利用了n/2个这样的一阶差分,这就要求n必须是偶数。为摆脱这个限制,增加平方和的自由度,以每相邻两个标志值的一阶差分(它们是重叠的,共n-1个)代替n/2个不相重叠的一阶差分,得:(2)式(1)式和(2)式的对比研究表明:(1)式和(2)式对大多数模型的总体都具有一定的优良性,即使对总体的性质知道得很少,它们也是一个好的方差估计量。但(1)式受到n必为偶数的限制,因而(2)式更值得推荐。此外,也有人建议采用交叉子样本法来估计等距抽样的方差,但这种方法在实际操作中有诸多的不便,且当各子样本不大时,效果也一般。对此感兴趣的读者可参阅有关文献。二、不等概率抽样的情形等距抽样中每个单元的入样概率也可以是不相等的。一般的不等概率等距抽样定义如下:令{πi}是一组入样概率,i=1,2,…,N,且时,总体中的第i1,i2,…,in个单元即为抽中的样本单元。当每个πi≤1时,抽样是严格不放回的。最常用的也是最简单的不等概率等距抽样是πPS等距抽样,即令πi与单元大小Mi成比例不等概率等距抽样的实施方法一般是累计和等距抽样法,这在第二节中已作了介绍。与其他不放回的不等概率抽样一样,不等概率等距抽样对总体总和Y的估计也是采用霍维茨—汤普森估计对于πPS等距抽样,又有是无偏的,其方差可表示为(此时,n是固定的)

由于对一般的n,πij的形式极为复杂,且有可能为零,因此,关于的估计可按如下思路进行:一种考虑是将不放回的πPS等距样本作为放回的PPS样本处理可得到如下的方差估计形式

因为实际抽样是不放回的,为此,应考虑乘上有限总体修正系数(fpc)1-f,由于这里的单元实际上是不平等的,因此,f不是简单的等于n/N。我们使用f的以下估计则可以得到方差

估计量的另一种形式对于随机排列的总体,此公式的效果很好。若考虑用相邻样本观测值(但这里需用nyi/πi代替等概率情形的yi)差值的平方和来表示方差,则得到或对于具有线性趋势的总体,这两个方差估计量特别适用。第四节

其它形式的等距抽样一、分层等距抽样二、二维等距抽样二维等距抽样二维等距抽样,是对分布在平面上的总体单元直接进行的等距抽样。如农产量调查和森林木材积蓄量调查中,从抽中地块抽取样本点,即属这种情况。实际上,我们所研究的总体单元绝大多数分布在平面上,以前是通过对总体单元的编号,排队等方法,将它化为“一维等距抽样”。但在一些情况下,还需直接在平面上抽取样本。二维等距抽样的方法很多,下面仅介绍几种最简单、实用的方法。1、方格法是将总体所在的平面区域G,按照需要抽取的样本单元数划分为若干大小相同的方格,然后以等距方式在每个方格抽取一个样本单元组成样本。即抽样间隔之长等于方格的边长,可按下述公式计算:其中,K=抽样间隔;G=总体区域的面积;n=样本单元数这里,为方便讨论,假定地块的图形是长为a,宽为b的长方形,置于平面直角坐标系的第一象限。且a=Kp,b=Kq,p、q为整数,pq=n。当然,实际中的地块常常是不规则的,并不满足上述条件,但可通过割补法化成比较规则的几何图形,近似按上述方法处理。从方格中抽取样本点有多种方法。①若取随机起点,并且它的坐标为(i,j)。所有样本点的坐标可表示为:(i+Ks,j+Kt),s=0,1,2,…,p-1;t=0,1,2,…,q-1[JB]②另一种方法是,把样本点放在每一方格的中心处,称为中心方格法。其样本的坐标为:(K/2)+Ks,(K/2)+Kt).(s=0,1,2,…,p-1;t=1,2,…,q-1)这种方法在农产量调查中多用于平播、撒播、窄垄和株行距较小的作物,如麦、水稻等。实际中,每个样本点是用测规或测框划出的园形或方形小地块,称为面积样本。每个样本点的面积常为10平方市尺,这样,便于计算。这种方法也称为框测法2、垄测法对于宽垄和株行距较大的作物,如玉米、薯类等,常采用垄测法。垄测法需先计算地块所有垄的总垄长,依地块情况,可按下述方法计算:总垄长=平均垄长×垄数=地块总面积/平均垄宽,其中:平均垄宽=地块两端宽度之和/地块两端垄数之和,抽样间隔K=总垄长/样本单元数抽取时,从地块的一角开始,即从第一垄开始,按等距抽样方法依次向各垄抽取,每个样本点是长度为10市尺的垄段,这种样本也称为长度样本。实用中,还有许多方法,如将地块划分为正三角形小块,形成三角形网,使样本点散布于正三角形的顶点上。也还可以利用试验设计的方法安排样本。关于二维等距抽样的应用可参看农产量调查。此外,在实际工作中当总体各单元标志值的变化比较均匀,且层界不明显时,也常采用等距分层抽样的方法。其基本思想是,先对总体按有关标志排序,然后等分成L个间隔。将每个间隔视为一层,在各层内分别独立进行简单随机抽样。它与一般分层抽样的区别在于,将不同大小的层(用各层所含单元数表示)调整为同大小的层;它与一般等距抽样的区别在于,改每层按固定位置抽取一个单元为每层独立抽取若干个单元。在等距分层抽样中,其估计量及方差仍按一般分层随机抽样方式去构造。第八章多阶抽样第一节多阶抽样概述第二节一阶单元等大小的两阶抽样第三节一阶单元不等大小的两阶抽样返回第一节多阶抽样概述一、多阶抽样的基本概念根据实际情况将整个抽样程序分成若干个阶段,一个阶段一个阶段地进行抽样,以完成整个抽样过程,这种抽样就叫多阶抽样。从总体中随机抽取一部分一阶单元,然后再从被抽中的一阶单元内,随机抽取部分二阶单元并对它们进行全面调查,我们把这种抽样技术称为两阶抽样。它是由印度统计学家马哈拉诺比斯首先提出来的。二、多阶抽样的特点(一)便于组织抽样(二)抽样方式灵活,有利于提高抽样的估计效率(三)多阶段抽样对基本调查单元的抽选不是一步到位的(四)多阶段抽样实质上是分层抽样与整群抽样的有机结合(五)多阶抽样在抽样时并不需要二阶或更低阶单元的抽样框(六)多阶抽样还可用于“散料”的抽样,即散料抽样第二节一阶单元等大小的两阶抽样返回2、总体比例的估计3.最佳抽样比的确定按费用固定条件下,使方差极小,或在方差固定条件下使费用极小的条件二、分层二阶抽样设总体分成L层,第h层有Nh个一阶单元,每个一阶单元均含Mh个二阶单元。在第h层随机抽了nh个一阶单元,又从每个被抽中的一阶单元中随机抽了mh个二阶单元。则的估计量为其中是按二阶单元的层权;

为第h层的样本均值。其方差为方差估计量为

其中上式乘以即总体中每个二阶单元入样的概率都相等,则样本是自加权时,三、三阶抽样

设总体中含有N个一阶单元,每个一阶单元又含M个二阶单元,而每个二阶单元中又含有K个三阶单元,各阶样本大小分别为n,m和k。令yiju(u=1,2,…K)为第i个一阶单元的第j个二阶单元中,第u个三阶单元的观测值,则若

三阶抽样中,每阶抽样都是简单随机的,则总体均值的无偏估计量为其方差为方差的无偏估计量为其中

第三节一阶单元不等大小的两阶抽样

在两阶抽样中,各一阶单元所包含的二阶单元数不等是最普遍的现象,因此对其样本指标和抽样方差的估算,具有普遍意义,但较一阶单元等大小的估算复杂很多。根据各个一阶单元的不相等及其差异程度是否悬殊,在抽样时(即抽取一阶单元时)就要考虑采用等概抽样或不等概抽样。一、等概率抽样在进行两阶段抽样时,不考虑各一阶单元权重(主要用所含二阶

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论