抽样技术概念_第1页
抽样技术概念_第2页
抽样技术概念_第3页
抽样技术概念_第4页
抽样技术概念_第5页
已阅读5页,还剩27页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

目录

第一章预备知识

第二章基本概念

第三章简单随机抽样

第四章分层随机抽样

第五章不等概率抽样

第六章多阶段抽样

第七章整群抽样

第八章系统抽样

第九章非概率抽样

第一章预备知识

作为抽样技术的基础知识或预备知识,本章简要地介绍调查原理、排列组合、概率统计等方面的有关

知识。

一、调查概论

调查的重要性:有利于制定政策、投资决策、科学研究、机构管理以及司法实践等;与此同时,许多学科

的进步和发展也同样离不开调查。

(-)(-)调查本质上是一种测量活动

测量活动具有6个要素:测量主体、测量客体、测量对象、测量法则、测量工具、测量结果(数字/符号)。

测量得到的数据大体分为三种类型:分类型数据、顺序型数据以及数值型数据。

测量的方法分为:直接测量和间接测量。

(二)(~)真值、测量值与误差

误差公理:任何调查结果都可能具有误差,而且误差始终存在于一切科学试验和调查过程中

。根据误差的来源分类:调查主体误差、调查客体误差、调查工具误差、调查法则误差、调查环境误差。

误差公理:任何调查结果都可能具有误差,而且误差始终存在于一切科学试验和调查过程中。

根据误差的来源分类:调查主体误差、调查客体误差、调查工具误差、调查法则误差、调查环境误差。

根据误差的性质分类:系统误差、随机误差和粗大误差。

根据误差的计量尺度分类:绝对误差和相对误差。

绝对误差6、(调查)估计值x以及真实值u之间的关系:6=x-u。

相对误差八绝对误差6以及真实值u之间的关系:匚6/口。

实际常用的真值分类:理论真值、约定真值以及相对真值。

实际常用的测量值分类:单次测量值、算术平均值、加权平均值、中位数和众数。

(二)崔府的南片精府

一信度凝测量结藁中的良机误差大小的程度.

信度的表示方法:测量值的方差(或标准差)或者样本平均数的方差(或标准差)。

衡量信度的三种方法:再测信度、复本信度和折半信度。

衡量信度的三种方法;再测信度、复本信度和折半信度。

效度表示测量结果中的系统误差大小的程度,是测量结果的“有效性”的反映。

效度分类:内容效度、准则效度和结构效度。

效度含义:(1)测量的特征即为研究的目标特征;(2)该特征被准确地测量。

效度的表示方法:B(X)=|x-uI或者B(E》)=IE=uI。

精度是信度与效度的综合,但它还与信度与效度之外的因素有关。

精度的表示方法:均方误差MSE(x)=V(X)+B-(£J-M)

效度的表示方法:B(亍)=K-〃|或者B(EF)=|后-

精度表示信度与效度的综合,但它还与信度与效度之外的因素有关。

精度的表示方法:均方误差MSE⑴=丫叵)+1(附

信度、效度与精度之间的关系:对于测量或调查来说,信度高的效度未必高,反过来效

度高的信度未必高,但精度高的信度和效度肯定高。

二、排列组合

(-)(-)两条基本原理

加法原理和乘法原理。

(二)(-)排列

排列的分类:选排列与全排列、允许重复的排列。

选排列与全排列之间的关系:全排列是选排列的一种特殊情形(「=”)。

选排列与全排列中的元素是互不相同的。

允许重复的排列中的元素可能重复出现多次。

(三)(三)组合

组合与排列情差异:组合只与元素有关,而与元素的顺序无关;排列不仅与元素有关,而且与元素的

顺序有关。

组合的性质:(1)⑺1〃一「人(2)VJr<n

三、概率统计中的一些基本问题

(一)(一)大数定律

大数定律的重要作用:奠定了用样本来估计总体的理论基础。

几种大数定律:契比雪夫大数定律、贝努里大数定律以及辛钦大数定律。

契比雪夫大数定律证明了当〃无限增加时,〃个随机变量的算术平均将会几乎变成一个常数。

贝努里大数定律证明了随着试验次数"无限增大,事件A发生的频率可以无限接近它发生的概率。贝

努里大数定律是辛钦大数定律的特殊情况。

辛钦大数定律证明了在〃无限增大时,样本均值会无限接近总体的数学期望。

(二)(-)中心极限定理

中心极限定理的重要作用:奠定了用样本估计量对总体参数进行区间估计的理论基础。

中心极限定理的思想:不论总体服从何种分布,只要方差有限,在观察值足够多时,许多估计量的抽

样分布,就趋向正态分布。

根据限制条件的不同可以分成:列维―林德伯格中心极限定理和李雅普诺夫定理。

列维―林德伯格中心极限定理要求随机变量K,、2,…,X.,…独立且同分布;李雅普诺夫定理仅要求

随机变量,*2,x",…相互独立,但无需服从同一分布。

(三)(三)参数估计原理

参数估计分为:点估计和区间估计。

点估计思想:构造一个适当的统计量…,x”),用它的观察值灰石,工2,…,天)来估计未知参数

构造点估计量的方法:矩估计法和极大似然估计法。

衡量估计量优劣的标准:无偏性、有效性和•致性。

区间估计的思想:对于未知参数,除了求出它的点估计外,同时还估计出•个范围,并给出

此区间包含参数真值的可信程度。

第二章基本概念

基本内容

在学习各种抽样方法之前,先了解一下抽样调查中所涉及到的基本概念。

一、抽样调查与非抽样调查

调查分类:

(1)(1)根据“调查是否针对总体的所有单元”进行分类:全面调查和非全面调查。

(2)(2)根据“单元是否按照一定的概率入样”进行分类:概率抽样调查和非概率抽样调查。

非全面调查相对于全面调查的优点:

(1)时间短速度快;

(2)费用少成本低;

(3)调查结果比较准确;

(4)应用范围广泛。

概率抽样的分类:

(1)(1)根据“单元的入样概率是否相等”进行分类:等概率抽样和不等概率抽样。

(2)根据“具体的抽样方式”进行分类:简单随机抽样、分层抽样、整群抽样、系统抽样、

多阶段抽样等等。

概率抽样的优点:

(1)(1)能够保证样本的代表性,避免人为因素的干扰;

(2)(2)用概率抽样取得的样本去估计总体特征时,可以对由抽样产生的抽样误差进行估计。

非概率抽样的分类:

(1)按照“具体的抽样方式”进行分类:判断抽样、便利抽样、自愿样本、滚雪球抽样、配额抽样等。

(2)判断抽样包括典型调查和重点调查这两种取样方式。

非概率抽样的缺点:

(1)(1)难以评价样本的代表性。

(2)(2)无法估计抽样误差。

(3)(3)偏倚往往较大。

二、总体与样本

(一)(一)总体

总体分为:目标总体和实际总体。目标总体是研究目标所针对的总体;实际总体是实际调查

时所针对的有限的、具体的总体。

总体与个体:总体是个体的集合,个体是构成对应总体的单元。一切构成总体的个体或子总

体泛称为总体单元,其中个体称为基本单元。基本单元是总体里最小的、不可再分的单元.

(二)(二)抽样框与抽样单元

包含所有抽样单元的总体称为抽样框,构成抽样框的单元称为抽样单元。

抽样框的形式:名单、手册、地图、数据包等等。

抽样框的要求:

(1)抽样框必须是有序的,即抽样单元必须编号,且根据某种顺序进行了排列。

(2)抽样框中包含的抽样单元务必要“不重不漏”,否则将出现抽样框误差。

抽样单元分级:

初级单元f次级单元一三级单元一四级单元……f基本抽样单元。

(三)(三)抽样与样本

样本是抽样的结果——从总体全部单元中选出的部分单元,其全体称为样本总体,简称样本。

样本由样本点(抽样单元)构成。

根据样本抽取方法的不同,可以将抽样分为全样本抽取和逐个抽取。全样本抽取和逐个无放

回抽取是等价的。

三、总体特征与估计量

(一)(-)总体特征

总体特征与总体的关系:总体是调查的客体,而总体特征是总体某个特征或属性的数量表现

通常的总体特征有4种:(1)总体总值y;(2)总体均值打;(3)总体比例P;(4)总体比率

总体总值、总体均值、总体比例三者是统一的,它们都可以用总体均值「来表示。

(二)(二)估计量和估计方法

估计量是从样本的〃个单元计算出的对总体特征的估计。

估计量是随机变量。

估计方法:最常见的估计方法是简单线性估计,除此之外,还可以借助于辅助变量。

辅助变量必须满足的两个条件:(1)与要估计的变量高度相关;(2)其总体信息已知。

(三)(三)抽样分布

抽样分布:对一个固定的总体,在确定的样本设计和样本量的条件下,估计量的所有可

能取值及其出现概率的序列就是该估计量的抽样分布。

抽取的样本越多,所得到的频率分布图就越接近于估计量的真实分布——抽样分布。

抽样分布的渐进正态性:当从一个比较大的总体N中抽取一个中等容量(30以上)的样本

时,无论总体是何种分布,其样本均值的抽样分布都近似于正态分布。样本量愈大,其愈接

近正态。

四、误差与精度

抽样调查中的误差有两类:抽样误差和非抽样误差。

抽样误差可以进行数量上的估计,是本节研究重点。

控制非抽样误差的方法:严格调查程序、规范调查步骤、加强人员的培训和管理、合理地设

计问题和答卷、改进测量方法和工具。

(一)(一)均方误差和偏倚

人人

均方误差是估计量误差平方的期望MSEg)=E(e-6)2。

偏倚是估计量的期望与参数真值之间的差异:B9)=E(O)-e。

均方误差、方差及偏倚之间的关系:MSE(J)=V(J)+B2(。)。

(-)(-)置信区间与误差限

置信区间:设“a/2为标准正态分布的双侧a分位数,则置信水平为1-a的近似置信区间可以写成:

0-ua/2-S(0),0+ual2-5(^)J,其中S(3)为4的标准差,需要利用样本数据进行估计。

误差限可以分为:绝对误差限d和相对误差限

=4

绝对误差限利相对误差限之间的转换关系:‘一万。

(三)(三)费用与效率

调查的费用是一个与样本量有关的函数,最简单的是线性费用函数。增大样本量可以提高估

计量的精度,但与此同时调查的费用也加大了。

效率是指以最小的费用达到要求的精度或者在给定费用的情况下达到最大的精度。

五、几种基本的抽样方法

简单随机抽样、分层抽样、整群抽样、系统抽样、多阶段抽样分别适用于不同的场合以及不

同的精度要求。在本书后面会有详细介绍。

六、抽样调查的具体实施步骤

实施步骤:(1)调查目标确定;(2)抽样框选择;(3)抽样设计;(4)问卷设计;(5

)数据收集;(6)数据编码和录入;(7)审核与插补;(8)参数估计;(9)数据分析和

调查结果的表述;

(10)数据发布;(11)文档。

第三章简单随机抽样

基本内容

随机抽样分为四种情形:放回有序、放回无序、不放回有序、不放回无序。

简单随机抽样分为:不放回简单随机抽样(SRSWOR)和放回简单随机抽样(SRSWR)。

一、简单随机抽样理论

简单随机抽样有三个表述不同但却等价的定义(定义3.1至定义3.3)。

简单随机抽样的抽取原则:(1)按随机原则取样;(2)每个抽样单元被抽中的概率都是已知的或事先

确定的:(3)每个抽样单元被抽中的概率都是相等的。

主要相关符号:

记号Nnf匕%YyYy

代表总体中的第i个总体第i个样本总体样本总体样本

样本:正抽样比

的含义单位总数单元取值单元取值均值均值总量总量

二、参数估计量及其性质

常见的四个总体特征:(1)总体均值;(2)总体总值;(3)总体比例;(4)总体比率。

(-)(一)简单估计量

简单随机样本的方差$2是总体方差S2的无偏估计;

简单随机样本的协方差是总体协方差S*的无偏估计。

(1)总体均值「

y=y=_-

简单估计量:,且E(y)=y(无偏性)。

_,v(y)=1-S2

估计量y方差叭刃:,?

V(用的无偏估计量:V(y)=n。

(2)总体总量丫

Y=Ny=^yy.

简单估计量:■"金‘,且夙丫)=丫(无偏性)。

22

八“内、V(Y)=N^^S

估计量丫方差V(Y):n

-v(y)V(NY)=N?

V(y)的无偏估计量:n。

(3)总体比例P

1若总体中第,个单元具有所研究的特征;

令匕=■

0若总体中第i个单元不具有所研究的特征

简单估计量:〃n--,且有£(2)=「(无偏性)。

估计量)的方差八户)「肉=♦卷附―

V(户)的无偏估计量:“科V(P)=n-1P(i~P\

(4)总体比率K

会=r=£-

简单估计量:x,且〃较大时,E(R)=E(r)xR(渐进无偏性)。

2

八八•——y(K-/?x,.)

估计量R的方差V(R):当"较大时,〃XNT白

2

八炉曲之上工.——y(y;-^,.X,)

v(R)的估计量:当"较大忖,〃.

(二)(二)比率估计量

辅助变量特点:(a)必须与主要变量高度相关;(b)与主要变量之间的相关关系整体上相当稳定;(c)

辅助变量的信息质量更好,帮忙而不添乱;(d)辅助变量的总体总值必须是已知的,或更容易获得的。

(1)总体均值F

01人

比率估计量:'="="反=万"”,月〃较大时,E(%)“旅=Z(渐进无偏性)。

1f।N

(Y:-RX:)2

估计量治的方差V(%):〃较大时,V(.yo)»〃-八--七y

2

V(yR)^^^^.-2R-svx+RS^)

丫(为)的估计量:n

(2)总体总量丫

比率估计量:=且〃较大时,E(YR)^NXR=Y(渐进无偏性)。

22

八八V(Y)N•—―y(r,-/?x,)

估计量及的方差W,,较大时,R^〃八七

丫伉)的估计量"以”『—"-J也)

(三)(三)回归估计量

辅助变量的特点与比率估计完全相同。

6=6=上

简单估计量与比率估计量都是回归估计量的特例:当£=°时,y<r=y-,当。一一工时,工=%。

回归估计量:丸=y+£(区一亍)

"的方差v①广T⑸+笈况-2及风.)。

若〃为常数(记为仇),则七(先)=『,

、火丸)=上广(s;+而一2厢.)

/(,")的估计量为n'">i"。

SS]_f

使5达到最小的43寸二穴「小”一侬-斓

2

V(ylr)«MSE(y,r)“ds;(l-p)

对于简单随机抽样,〃足够大时,E(K”手n

倘若待估参数为总体总量、总体比例或总体比率,可以根据上面总体均值估计量的结论推导出相关性

质。

三、不同估计量的精度比较

2

当〃足够大时,由于「非负,所以回归估计的结果一般好于简单估计。

当〃不够大时,比率估计和回归估计先天不足,此时不能认为它们一定好于简单估计。

四、样本量的确定

影响样本容量”的因素:总体规模N,(目标)抽样误差丫(力以及总体方差S2等等。

抽样误差V(歹)通常用置信度l-a和绝对误差限度打一丫仔”替代:M«/2o

11d-

..---+-----

样本容量〃的确定公式:〃N“,相

样本容量〃的确定步骤:

第一步:确定估计的精度水平;

第二步:按照保守(即让样本容量宁大勿小)原则,对总体方差V进行预估;

第三步:计算简单随机抽样在回答率为100%的条件下所需的初始样本量”。;

第四步:确定抽样方式,并根据不同抽样方式的设计效应对样本容量进行调整;

第五步:判定有效回答率,并根据有效回答率对样本容量进行再调整;

第六步:在需要得到分组数据并对这些分组数据的精度有事先约定或要求时,应分别计算各组所需样

本量,然后经各组累计加总得到总体所需样本量;

第七步:仔细权衡费用、时间、调查机构拥有或可动用的各种资源方面的限制,进而确定最终的样本

量。

预估§2的方法:

(1)利用先前的调查结果和经验;

(2)利用预调查或试调查的结果;

(3)利用同类或相似或有关的二手数据的结果;

(4)利用某些理论上的结论;

(5)利用富有经验的专家之判断。

五、简单随机抽样的实施

简单随机抽样的实施办法:抽签法、使用统计软件直接抽取法以及随机数法。

产生随机数的几种方式:(1)使用计算器;(2)使用计算机;(3)使用随机数表;(4)使用随机数骰子;

(5)使用电子随机数抽样器。

第四章分层随机抽样

基本内容

引入分层随机抽样的原因:简单随机抽样不太适合总体单元数N比较大或者总体单元之间差异较大的

情形。

一、分层随机抽样理论

相关概念:层、分层抽样以及分层随机抽样。

分层随机抽样的适用场合:“层内差异小,层间差异大”。

分层随机抽样相对于简单随机抽样的优点:

(1)(1)可同时对子总体(层)进行参数估计;

(2)(2)便于依托行政管理机构进行组织和实施,同时还可以根据各层的不同特点采用不同的

抽样方式;

(3)(3)样本在总体中分布更加均匀;

(4)(4)可以提高参数估计的精度。

主要相关符号:

记号匕工

也fh几%£

第九层第i第〃层第i

代表的第九层的第九层的第人层的第九层的第〃层的第人层的

个总体单元个样本单元

含义层权抽样比总体均值样本均值总体总量样本总量

的取值取值

二、参数估计量及其性质

常见的总体特征:(1)总体均值;(2)总体总值;(3)总体比例。

注:下面凡是标注“*”号的公式不需记忆,但要求能够识别出来。

(-)(-)简单估计量

各层的样本方差s;是该层总体方差5;的无偏估计;

各层的样本协方差s*h是该层总体协方差S,,h的无偏估计。

(1)总体均值1

4L1L

简单估计量:XN2,且Y(无偏性)。

—I//—\'/sr/nn

估计量为的方差〃(为):2期

w-.丫(叉,)=之附比4;

卜(工,)的无偏估计量:〃h。

(2)总体总量y

简单估计量:?“=N"=N^,且E(E,)=y(无偏性)。

炉八八丫比)=1X(N「〃”。

估计量上,的方差八%):,I%

1〃。、丫(匕)=ZM,(N6-〃〃)s;/%

丫(匕)的无偏估计量:h=lo

(3)总体比例P

L

简单估计量:且E(P")=P(无偏性)。

V(〃”二寸M.上区.她

h

估计量P"的方差V(Pv):"Mh=iN「lnh(*)

、v(p„)=-7>-----------------Phqh

V(P“)的无偏估计量:N仁(〃厂1)

(二)(-)比率估计量

(1)总体均值亍

分别比估计:

yRS=yWh^-Xh__

分别比估计量:腾心F”,各层的%都较大时,E(%s)°y(渐进无偏性)。

_3一〃-X1.(1-0(Sj,+R匐一2&0RW”).

估计量以S的方差V(%S):"(%?S)人=1nh(*)

、小、UE),为M"一")Gj,+宜汶dQ

V(%s)的估计量V(VRS):h=inh(*)

联合比估计:

A'-A--

yKc=--^R,x__

联合比估计量:与,总样本量〃较大时,EGRC)a丫(渐进无偏性)。

估计量兔C的方差V(女):外4)4%:J—2即££.)⑴

V(加)的估计量力袄):“电)")(sj„2R“4)⑴

(2)总体总量y

分别比估计:

分别比估计量:*RS=MRS,各层的即都较大时,E&S)aY(渐进无偏性)。

估计量加的方差丫底):"%))⑸”+%-2Ms,£,)⑴

V%)的估计/%)/-2加3.)⑴

联合比估计:

A

联合比估计量:旧改=岫改,总样本量〃较大时,£(r«c)~Y(渐进无偏性)。

丫㈠)

fV(yR5「2RphS»h)

估计量'收的方差"'RC):"0c)h=\%

、仇£、炉优c)4型三%s)+照4-2的凡昂)

丫(匕局的估计量V(9c):念叫(*)

分别比估计与联合比估计比较:

当每层的4与X而是经过原点的线性关系时,V(Kc)一V(Ks)2°。

通常情况下,当比率估计有效时,除非R=",否则有丫('。)一丫(%«)>°。]

选择分别比估计还是联合比估计的原则:

如果各层%都较大,同时各层的比率与之间差异较大,则分别比估计优于联合比估计;如果各层见不够

大,或者各层的比率均之间差异较小,则联合比估计优于分别比估计。

(三)(三)回归估计量

(1)总体均值,

分别回归估计:

LL_

设=瓦,=Z%收+片风-弓)]

分别回归估计量:眉门

♦各层的回归系数月事先给定时:

凤九)=[(无偏性)。

一2匹)

估计量工,的方差v(%Q:

,国)4叫皿"隔一2处)

V(%J的估计量%%J:

/龛5(I…时,心设噂不国”;)

♦各层的回归系数月不能事先设定时:

nh

八2?加一%)(4-一羽)

A=d=~~

OF)?

瓦的估计值:

?=1

当各层的%都较大时,E(%(渐进无偏性)。

沆的方差近似为:“%吗也严燃(5)

当各层的“,都较大时,

L卬寅1一月)

m„)=E<%T)s[(l-〃2)

丫(加)的估计量%加):

/|=1〃,,(%一2)

联合回归估计:

联合回归估计量:%C=以+尸(X—元)

♦,事先给定时:

E(私)=丫(无偏性)。

_1〃_、V(%)=£畋(1—力)—+/局,—2BSQ

估计量的方差"(),):X%

】〃_、仇一、一九)=]需(1一幻+尸曷-2£%»)

V(人,)的估计量v(加):h=\nh('

L

£(叼(1-力电,〃/%)

p=________________=BL2

一£(w;(i-fMj〃>,嗫"九)=ZM(:=)(s;小片sj)

当〃=i''时,*=inh

♦力不能事先设定时:

一%)("「")

0=b--〃[乐T)-__________________

'1叼(f)[("一羽)2

月的估计值:金〃”(〃厂1)台(*)

当样本量〃较大时,E(%(渐进无偏性)。

-丫(加)X寸.(”力⑸〃-B:S:h)

当样本量〃较大时,的方差近似为:皿4

U(兀)=V(%)=—+#S>2〃%.)

V(%r)的估计量:6=1nh

(2)总体总量y

分别回归估计:

分别回归估计量:匕,=顺”

♦各层的回归系数片事先给定时:

E(%)=Y(无偏性)。

CVfy、V(%)=.虫“一力)(S1+区S;—2月S,v〃)

估计量L的方差ML):A=I«/1

V(Yxy(Y\仪,)=Z"(s;*+除\、-2四外%)

八%)的估计量V(L)•h=\〃h

♦各层的回归系数月不能事先设定时:

nh

3=4=上r--------------

之⑸-犷

A的估计值:/=1

当各层的%都较大时,口匕。"丫(渐进无偏性)。

Vg)4g(1-团

当各层的%都较大时,Z“的方差近似为:仁〃/,o

、仇户、-)=]N(一[-(%T)SW)

V(L)的估计量丫(,):/,=1»;,(«7,-2)(*)

联合回归估计:

联合回归估计量:"=网0

♦£事先给定忖:

E(%)=y(无偏性)。

?丫4)V或)=之N:(7)阂+阳广2您.)

估计量'加的方差:A=1nh(*)

小的估计量叱)心,)4『,-0

♦夕不能事先设定时:

A=b一一%(%一1)I________________

'勺%(1"甘6_元)2

月的估计值:台""(*)

当样本量〃较大时,E(匕r)*y(渐进无偏性)。

V%)=£Ngfh)(s;h-B')

当样本量〃较大时,丫生的方差近似为:后即。

.、R%)=之或空+%3%)

丫(几)的估计量:g%(*)

分别回归估计与联合回归估计比较:

最小方差之间的关系:4in(%c)—Vmin(E“)N°,即当月和/均取最优值时,分别回归估计优于联

合回归估计。

选择分别回归估计还是联合回归估计的原则:

如果各层的样本量不太小,而且各层的回归系数之间的差异较大,采用分别回归估计较为适宜;

如果各层的样本量不大,而且各层的回归系数大致相同,采用联合回归估计较为适宜;

如果各层的回归系数差别不是太大,而且并不是每层的样本量小都相当大,联合回归估计可能更保险

一些。

三、各层样本量的分配

各层样本量的分配方式:比例分配、最优分配和奈曼分配。

(-)(-)比例分配

各层样本量的计算公式:NN

估计量:y”。。一,(自加权)

1_fL

匕可(为

估计量方差:〃/|=1

L

(二)(二)最优分配(费用函数为:)

%=WE/匹N0,/石

-L~L

各层样本量的计算公式:h=\h=\

兀=2叱,工

估计量:,I

v(.)=,次佃A/卤)•1(—向)一J次w同

估计量方差:〃食八/%八'NM

(三)(三)奈曼分配

生=酩NE

LL

〃ZWNZW,

各层样本量的计算公式:h=\h=\

兀=

估计量:h=\

L

1「2

由s:

估计量方差:IVh=\

四、总样本量的确定

根据不同的精度要求以及不同的样本量分配方式(%=".%)来确定总样本量〃。

£L%局/叼

n-力=1

1L

丫+;2叱£

精度要求为方差上限V时:Nh=\

对于不同的样本量分配方式,只需对叼做相应的改变即可。

V=d2/(u)2=(r-F)2/(u)2

不同精度要求之间的转换关系:a/2a/2

五、分层随机抽样精度研究

最优分配、比例分配的分层随机抽样与相同样本量的简单随机抽样的精度之间的关系:

V<v<v

opt-prop-srs

下标srs代表简单随机抽样;下标prop代表比例分配的分层随机抽样;下标opt代表奈曼最优分配的

分层随机抽样。

结论:

当各层均值之间的差异愈大,则•般的分层(以比例分配为代表)的效益就愈高;

当各层的标准差相差较大时,最优分配又会比比例分配有更高的效益;

当各层的标准差之间的差别不大时,最优分配的效果不会比比例分配的效果好很多。

六、分层随机抽样的实施

山于分层随机抽样在各层内采取的是简单随机抽样,因此各层内样本的抽取方法可以参见简单随机抽

样的相关内容。进一步的问题是层的划分及层数的确定。

层的划分:在实际项目当中,层的划分通常是按照单元的某个特征或标识进行的。关于分层界限的确

定方法,读者可以参考有关抽样技术的教材。

层数的确定:一些理论和实际研究表明,层数L以不超过6为宜。

第五章不等概率抽样

基本内容

等概率抽样的特点:将总体(或层)中的每个单元都看作是平等的,不“偏向”也不“疏远”某些特

定的单元。

等概率抽样的适用场合:总体单元之间的差异不是很大。

不等概率抽样的特点:将总体中每个单元的入样概率与其“规模”大小联系起来,使得“大单元”被

抽到的概率大,“小单元”被抽到的概率小。

不等概率抽样的适用场合:总体单元之间的差异较大。

不等概率抽样的优点:能够大大提高抽样精度,减少抽样误差。

不等概率抽样的局限性:必须具有能够说明单元规模大小的辅助变量来确定各个单元的入样概率或包

含概率。

不等概率抽样分类:放回的不等概率抽样(PPS抽样)和不放回的不等概率抽样(乃PS抽样)。

一、放回的不等概率抽样(PPS抽样)

PPS抽样是放回的与规模大小成比例的概率抽样(Z,)。

放回的不等概率抽样的缺点:"个样本里可能会有某个单元被多次抽中。

基本符号:

符号z,鼠

第i个单总体中所有单元每次抽到第,•个总体总量y的

含义

元的规模的“大小”之和单元的概率汉森-赫维茨估计量

(一)(-)样本抽取方法

多项抽样是最简单的不等概率抽样,其实施方法有两种:代码法和拉希里(Lahili)法。

(1)(1)代码法

实施程序(适合于N不太大的情形):

一见+也

M(£%+1,£%+2,……,£

①对总体的第,个单元赋予个代码iy气念

②在口,/。]之间产生一个随机整数〃?,如果加落在第/个单元所包含的代码数里,则第•/个单元入

样;

③如此进行〃次抽取,就构成了PPS抽样的样本。

(2)(2)拉希里(Lahili)法

实施程序(适合于N比较大的情形):

—人M”=maxfM)

②分别产生两个随机数,个随机数,产生于N中,另一个随机数机产生于口'M]中;

③如果"招〃?,则第i个单元被抽中;如果则重新抽取他M;

④反复进行②和③两项操作,直至抽满几个样本为止。

(-)(-)汉森-赫维茨(Hansen—Hurwitz)估计量及其性质

总体总量丫的汉森―赫维茨(Hansen—Hurwitz)估计量匕汨:n/=,

八%=蛆5乂

PPS抽样丫的汉森一赫维茨(Hansen—Hurwitz)估计量丫制:n/=1mt

YHH的性质:

(1)无偏性:E(KH)=Y;

1N(y

V%)」之z,.J—y

⑵方差:n1=1S;

1n(VV

v(f)=-----------y^--Y

(3)方差的无偏估计量:w/"(〃T)i=iIz'HHJ

二、不放回的不等概率抽样(万PS抽样)

不放回不等概率抽样的样本不独立,加大了抽样实施、参数估计以及精度计算的难度。

万PS抽样是不放回的与规模大小成比例的概率抽样(%=〃Z,)。

严格的%PS抽样只有当〃=2时才有一些简单的方法适用;当〃〉2时,实施起来相当复杂。

基本符号:

符号

兀i海yHr

第i个单元被包任意两个单元同时总体总量y的

含义

含到样本的概率包含到样本的概率霍维茨-汤普森估计量

(-)(-)样本抽取方法

(1)逐个抽取法;(2)重抽法;(3)系统抽取法;(4)全样本抽取法。

(-)(-)包含概率兀,和行的性质

N

(1)/=1

N

二(〃-1)区

(2)评

NN1

.工=­n(n—1)

(3)<=l»i'2

(三)(三)霍维茨一汤普森(Horvitz-Thompson)估计量及其性质

总体总量y的霍维茨一汤普森估计量,什:

YHT的性质:

(1)(1)若%>°,i=l,2,…,N,则=Y.

二之上与2+2次次久**

V(fwr)

(2)(2)若招>0,i=L2,…,N,则n/mm兀/

人NN(Yy.f

-福)—

若〃固定,则进一步有:/=ij>i

(3)(3)花%>°,%>°亿/=1,2,…,N;iw力,则丫(声打)的无偏估计为:

V

i=\%/=1j>i/]产"

若〃固定,则MR/T)有另外一个无偏估计量,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论