《抽样技术》第三章-分层随机抽样_第1页
《抽样技术》第三章-分层随机抽样_第2页
《抽样技术》第三章-分层随机抽样_第3页
《抽样技术》第三章-分层随机抽样_第4页
《抽样技术》第三章-分层随机抽样_第5页
已阅读5页,还剩41页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、抽样技术第三章王学民 编第三章 分层随机抽样v3.1 概述v3.2 估计量的性质v3.3 样本容量在各层的最优分配v3.4 样本容量的确定v3.5 求比例的分层抽样3.1 概述v例3.1 假定对全市N=30000名高一学生作一次数学统考,有关人士欲采用抽样的方式对全市的平均考分有所了解。确定n=300。v设总体的均值为 ,方差为S2,抽取一个容量为n=300的简单随机样本,得样本均值 ,Y 211,100SnV yffnNyv假设N1=3000,N2=7000,N3=20000,则从各层中分别抽取样本容量为n1=30, n2=70, n3=200 的简单随机样本,其样本均值分别记为 ,令123

2、300070002000030000YYYY123,y yy12312330007000200001723000010303styyyyyyy则它是 的无偏估计。可计算出由经验知,应有 ,故Y222123117210303stfV ySSSn2222123,SSSS 22221172103031stfV ySSSnfSV yn定义v设总体包含N个单元,将总体分成互不重复的L个子总体,每一子总体称为一个层,L个层分别包含N1, , NL个单元,N1+ +NL = N。层被确定后,就从每一层抽一个样本,抽样是在各层独立地进行的。各层的样本容量分别用n1, , nL表示,n1+ +nL=n。这种抽样

3、方法称为分层抽样或类型抽样或分类抽样。v如果从每层抽取一个简单随机样本,则称为分层随机抽样。采用分层技术的主要理由v1.需要有总体的某些分类数据,且要具有规定的精确度。v2.为便于行政管理而要求分层。v3.总体的各个不同部分的抽样问题可能显著地不同,即采用各自不同的抽样方法。v4.分层可能提高整个总体指标估计值的精确度。它可以将一个内部差异很大的总体分成一些内部比较相似的子总体。记号v下标h表示层号,i表示这一层内的单元号。1,1,hhhihhihhhNnYiiNyiinNWN单位的总数样本中的单位数第 个单位的标志值,样本中第 个单位的标志值,层的权数11221221111111hhhhhh

4、hNhhiihnhhiihNhhihihnhhihihnfNYYNyynSYYNsyyn层的抽样比真实的均值样本均值真实方差样本方差3.2 估计量的性质v总体均值 可表示为v定理1 在分层随机抽样中是总体均值 的无偏估计(st表示分层)。v证明Y111LLhhhhhhYN YW YN1LsthhhyW yY11LLsthhhhhhE yW E yW YYv定理2 在分层随机抽样中,估计量 的方差是v证明v定理2的重要一点是 的方差只取决于各层的层内方差 ,而与层之间的差别无任何关系。层间的差异越大,分层抽样越有效。sty22122111LhsthhhhhLhhhhhSV yNNnNnSWfn2

5、22111LLhsthhhhhhhSV yW V yWfnsty2hSv推论1 若各层中的抽样比 是可忽略的,就有v推论2 采用按比例分配时,即 ,则v推论3 在推论2中,若 ,则hhhnfN22222111LLhhhhsthhhhN SW SV yNnnhhnNnN22111LLhhsthhhhN SNnfV yW SN nNn2221LwSSSv定理3 总体总值 的无偏估计 的方差v定理4 采用分层随机抽样时, 方差的无偏估计是21LhsthhhhhSV YNNnn221wwstSSNnV yfnnN 22wstSSV yV y当时,。YNYststYNysty2222221111LLLh

6、hhh hsthhhhhhhhsW sW ssyNNnNnnNv v若nh较小,则用t分位点代替u/2,合适的自由度ne是1YY和 的置信区间分别为:22ststststyus yNyuNs y和,ststyNs y公式中假定,而且是被很好确定了的。2224,1h hhhhehhhhhg sNNnngg snn其中例3.2v某市进行家庭收入调查,分城镇居民及农村居民两部分抽样,在全部城镇23560户中抽取300户,在全部农村148420户中抽取250户(均按简单随机抽样进行),调查结果是城镇年平均户收入为15180元,标准差为2972元;农村年平均户收入为2546元。求全市年平均户收入的估计及

7、其90的置信区间。3.3 样本容量n在各层的最优分配v一、Neyman最优分配v二、分层随机抽样的精确度的评价v三、要求进行大于100%的抽样的分配v四、考虑费用时,样本容量的最优分配一、Neyman最优分配v 这里n1+ +nL = n。n为总的样本容量,使的一组值n1, , nL称为最优分配或Neyman分配。221222111LhhhsthhhLLhhhhhhhW SnV ynNW SW SnNminstV yv定理5 分层随机抽样时,在样本的总的容量n固定的情况下,如:则 达到最小值。v证明 11hhhhhLLhhhhhhN SW SnnnN SW SstV y222221111LLL

8、hhhhhsthhhhhhhSW SW SV yWfnnN等号成立,当且仅当即2222111222211LLLhhhhhhhhhhLLhhhhhhhhW SW SnnnnW SnW Sn22221111LLLLW SW Snnnn1111LhhLLhLW SWSW Snnn也就是v注 柯西不等式:等号成立,当且仅当 1,1,2,hhhLhhhW SnnhLW S222111nnni iiiiiiabab1212nnaaabbbv当各层的方差 时,最优分配为nh =nNh/N=nWh此时,最优分配即为按比例分配。v定理5导出下面的行动准则。若1.这一层单元较多(Nh大);2.这一层内部变异程度较

9、大(Sh大);则这一层要抽取一个容量较大的样本(nh大)。221LSS二、分层随机抽样的精确度的评价v记ran 简单随机抽样;prop 按比例分配的分层随机抽样;opt 最优分配的分层随机抽样。均值估计量的方差分别用Vran,Vprop,Vopt表示。v从Vopt的定义必定有VpropVopt。nh (h=1,2, ,L)不取整时,使用公式222111111LLLprophhhhhhhhhfVW SW SW SnnN2222211112211211111 LLLLhhhhopthhhhhhhhhLLpropopthhhhhhLhhhW SW SVW SW SnNnNVVW SW SnWSSn1

10、LhhhhSW SS其中是 的加权平均值。v这是因为22112211221112122LLpropopthhhhhhLLhhhhhhLLLhhhhhhhhLhhhn VVW SW SW SSW SSW SW S SW SWSSv 反映了S1,S2, ,SL之间的差异程度。若其值大,则Vprop比Vopt明显要大,采用按比例分配在精度上明显要比最优分配差,这时应尽量考虑使用最优分配;反之,若其值小,则说明Vprop与Vopt之间的差距不大,此时可以考虑采用按比例分配。v一般来说, 是未知的,而且需要在抽样之前进行估计,这样就很难给出它的一个较好估计,因此所计算出的最优分配只是近似的,有时甚至是很

11、不准确的。按比例分配的优点是简便易行,便于在现场使用。因此即使增加1020%的方差,那也是值得的。21LhhhWSS2hS12,1,2,hhhhNYYYhL总体:。 22112112211122112211111111111hhhNLhihiNLhihhhiNLLhihhhhihLLhhhhhhLLhhhhhhSYYNYYYYNYYNYYNNNSYYNNW SW YYv 反映了 之间的差异程度。v方差消除了: 层间均值之间差异的结果; 层间标准差之间差异的结果。22211212211111111LLranhhhhhhLprophhhLLopthhhhhhSffVfW SW YYnnnfVW Y

12、YnfVWSSW YYnn21LhhhW YY1,LYY三、要求进行大于100%的抽样的分配v最优分配的三个条件:(1) n1+ n2+ + nL = n; (2) n1, n2, , nL皆为自然数; (3) nhNh,h=1, 2, , L。v例2 N1=5, N2=5, n =7第一层:65, 65, 65, 65, 65;第二层:4, 20, 45, 67, 112。v若n1N1,则最优的修正分配法是这是假定h2时, ;v若又发生了 ,则我们就改变分配方案为这是假定h3时, ;1112,2,hhhLhhhW SnNnnNhLW ShhnN22nN1122123,3,hhhLhhhnNn

13、NW SnnNNhLW ShhnNv我们可以继续这样做,直到每个 。这样最后所得的分配可以证明是当给定n以后所能希望得到的最优分配。v如使用修正后的最优分配 ,则v一般地,有其中 表示对 的各层求和, 是修正后的这些层的总样本容量。hhnN2211minLLhhhhhhstW SW SVynN22minhhhhstW SW SVynNhhnNn四、考虑费用时,样本容量的最优分配v假定费用函数具有形式 v定理6 在具有(1)式线性费用函数的分层随机抽样中,在规定的费用C的条件下,如01(1)LhhhCcc n00,1,hhhhhhhhhhhhhhhhhhhhhhhhhCcN ScCcW ScnN

14、 ScW ScN ScW ScnnnhLN ScW Sc则 达到最小值。v定理6导出下面的行动准则。若 这一层单元较多(Nh大); 这一层内部变异程度较大(Sh大); 这一层抽样比较省钱(ch小)。则对这一层要抽取一个容量较大的样本。v当c1= =cL=c时,C=c0+cn,这时定理6就退化为定理5。stV yv定理7 在具有(1)式线性费用函数的分层随机抽样中,在规定的方差 的条件下,如 则费用C达到最小值。v推论4 定理7中,若c1= =cL=c,则所需的最小样本容量为 stV yV2,1,hhhhhhhhhhhhhhhhhhhhhW ScW ScnVW SNN ScW ScnnnhLN

15、ScW Sc22hhhhhhhhhW SN SnnnVW SNN S,且3.4 样本容量的确定v给定方差上限V,即 ,采用的分配可表示为 ,这样就可以确定n。stV yVhhnw n11Neyman1hhhhhhhhLLhhhhhhhNwWNN SW SwN SW SwL为按比例分配;为分配;为等额分配;等等。v解方程 ,可得一般地, 是未知的,需用估计值 代替。v按比例分配时,stV yV22221122111111LLhhhhhhhhLLhhhhhhW SW SwVwnVW SW SNNV2hS2hs21000,1LhhhW SnnnnVNv最优分配时,v若V没有给定,而是给定绝对误差限d

16、(置信度为1),并假定 ,则 ,将 代入上述各公式中即可求得n 。21211LhhhLhhhW SnVW SN,styN2duV222Vdu3.5 求比例的分层抽样v一、总体比例的估计v二、最优分配v三、比例的分层抽样在精确度上的评价v四、求比例时样本容量的确定一、总体比例的估计v记 为第h层的总体比例, 为第h层的样本比例,于是总体比例易见, 是P的无偏估计。v定理8 采用分层随机抽样时,pst的方差是hhhPANhhhpanhhhhhhAN PPW PNNsthhpW p21hhhsthhW PQV pfnv推论5 采用按比例分配时,有v在定理8和推论5中,将 代替 即可得到V(pst)的

17、估计量s2(pst)。v当nh皆很大,ph和qh皆不太小时,ph N( , ),于是 pst N( , ),因此可得P的置信度为1的置信区间为pstu/2s(pst) A=NP的1置信区间为Npstu/2Ns(pst)1sthhhfV pW PQn1hhhp qn hhhPQn例3.3 v为调查某个高血压高发病地区青少年与成年人高血压的患病率,对14岁以上的人分四个年龄组进行分层随机抽样,调查结果如下表所示。求总体高血压患病率P的估计及其标准差的估计。二、最优分配v当n固定时,最优分配公式为v当总费用 固定时,最优分配为11,1,hhhhhhLLhhhhhhhNPQN SnnnhLN SNPQ0hhCcc n111,hhhhhhhhLLhhhhhhhhhN ScNPQcnnnN ScNPQchL三、比例的分层抽样在精确度上的评价v假定费用函数为 。若所有各层每一单元的费用都相同,即c1= =cL= c,则有两条有用的工作规则:v1.除非Ph在各层间差异程度很大,与简单随机抽样相比,分层随机抽样在精确度上的提高是小的或是中等。如:取 ,则得下表0hhCcc n12313,3LWWWv2.若所有Ph的 在0.1与0.9之间,当n为固定时,采取最优分配与采取按比例分配

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论