管理学抽样调查理论与方法第二版分层随机抽样课件_第1页
管理学抽样调查理论与方法第二版分层随机抽样课件_第2页
管理学抽样调查理论与方法第二版分层随机抽样课件_第3页
管理学抽样调查理论与方法第二版分层随机抽样课件_第4页
管理学抽样调查理论与方法第二版分层随机抽样课件_第5页
已阅读5页,还剩75页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、3.1 定义与符号2022/7/171一、定义在抽样之前,先将总体N个单元划分成L个互不重复的子总体,每个子总体称为层,它们的大小分别为 ,这个层合起来就是整个总体 ,然后,在每个层中分别独立地进行抽样,这种抽样就是分层抽样,所得到的样本称为分层样本。不重不漏总体中的每一个单元一定属于并且只属于某一个层,而不可能同时属于两个层或不属于任何一个层。定义3.1 层:如果一个包含N个单元的总体可以分成“不重不漏”的L个子总体,即每个单元必属于且仅属于一个子总体,则称这样的子总体为层。即L个子总体所包含的单位数分别为 ,则有定义3.2 分层抽样:又称为类型抽样或分类抽样,即在每一层中独立进行抽样,总的

2、样本由各层样本组成,总体参数则根据各层样本参数的汇总做出估计,这种抽样就称为分层抽样,所得样本称为分层样本。设总得样本量为n,从L个子总体中所抽取的样本量分别为 ,则有,定义3.3 分层随机抽样:如果每层中的抽样都是独立地按照简单随机抽样进行的,那么这样的分层抽样称为分层随机抽样,所得的样本称为分层随机样本。分层随机抽样的三个必要条件(1)每层都抽;(2)各层都独立地抽;(3)各层的抽样都是简单随机抽样。2022/7/174特点:样本在总体中分布更均匀,更具代表性。每层的抽样都是独立进行,允许各层选择不同的抽样方法。分层抽样不仅能对总体指标进行估计,而且能对各层指标进行估计。分层抽样的抽样效率

3、较高,也就是说分层抽样的估计精度较高。(这是因为分层抽样估计量的方差只和层内方差有关,和层间方差无关。)2022/7/175符号说明 (关于第h层的记号 )层号 单元总数样本单元数第 个单元的值层权抽样比总体均值样本均值总体方差样本方差2022/7/1763.2 简单估计量及其性质3.2.1 总体均值的简单估计及其性质分层样本,总体均值 的估计分层随机样本,总体均值 的简单估计 定理 3.1:对于分层随机抽样, 是 的无偏估计。定理 3.2:对于分层随机抽样,有定理 3.3:对于分层随机抽样, 的估计量 具有如下性质: 第h层样本的样本方差。定理 3.4:对于分层随机抽样, 的方差 的无偏估计

4、量:推论 3.1:对于分层随机抽样,总体总量 的简单估计量 有如下性质: (1) (2) (3) 是 的一个无偏估计。推论 3.2:对于分层随机抽样,总体比例 的简单估计量 有如下性质: (1) (2) (3) 是 的一个无偏估计。推论 3.3:对于分层随机抽样,总体中具有指定特征的单元总数 的简单估计量 为: 具有如下性质: (1) (2) (3) 是 的一个无偏估计。2022/7/1713例3.1 调查某地区的居民奶制品年消费支出,以居民户为抽样单元,根据经济及收入水平将居民户划分为4层,每层按简单随机抽样抽取10户,调查获得如下数据(单位:元),要估计该地区居民奶制品年消费总支出及其置信

5、区间。层居民户总数样本户奶制品年消费支出12345678910120010400110151040809002400501306080100551608516017037501802601100140602001803002204150050351502030251030252022/7/17152022/7/1716例3.2 在例3.1的调查中,同时调查了居民户拥有家庭电脑的情况,获得如下数据(单位:台),要估计该地区居民拥有家庭电脑的比例及置信水平为95%的置信区间。层居民户总数样本户拥有家庭电脑情况123456789101200000100010024000100000010375011

6、000010104150010000000002022/7/1717解:由上表可得, 根据前面对各层层权 及抽样比 的计算结果,可得各层估计量的方差: 因此,该地区居民拥有家庭电脑比例的估计为: 估计量的方差为: 估计量的置信区间为:两种途径:分别比估计:对每层样本分别考虑比估计量,然后对各层的比估计量进行加权平均,即先“比”后“加权”;联合比估计:对比率的分子和分母分别加权计算出总体均值或总体总量的分层估计量,然后用对应的分层估计量来构造比估计,即先“加权”后“比”。3.3 比率估计量及其性质分别比估计量要求每一层的样本量都比较大,如果达不到这个要求,则它的偏差可能比较大,这时要使用联合比估

7、计量。3.3.1 分别比估计定义 3.4 总体均值 和总体总量 的分别比估计为:定理 3.5 对于分层随机抽样的分别比估计,若各层的样本量 都比较大,则有根据定理3.5, 很容易推得在各层样本量 都比较大的情况下,有3.3.2 联合比估计定义 3.5 总体均值 和总体总量 的联合比估计为:定理 3.6 对于分层随机抽样的分别比估计,若各层的样本量 都比较大,则有根据定理3.6, 很容易推得在各层样本量 都比较大的情况下,有3.3.3 分别比估计与联合比估计的比较两种途径:分别回归估计:对每层样本分别求取回归估计量,然后对各层的回归估计量进行加权平均,即先“回归”后“加权”;联合回归估计:对两个

8、变量先分别计算出总体总值或总体均值的分层简单估计量,然后再对它们的分层估计量来构造回归估计,即先“加权”后“回归”。3.4 回归估计量及其性质分别回归估计量同样要求每层的样本量都比较大,如果达不到这个要求,加之各层的简单随机抽样误差较大,整个分层随机抽样就会产生较大的偏差,这时要使用联合比估计量。3.4.1 分别回归估计定义 3.6 分别回归估计是指在分层随机抽样中,先在每层中对层均值或层总和做回归估计,然后再对各层的回归估计按总体层权进行加权平均。对 的分别回归估计为:对 的分别回归估计为:1. 各层的回归系数 事先给定2. 不能事先设定各层的回归系数 若 不能事先设定,则将 取为第h层总体

9、回归系数 的最小二乘估计 , 即为样本回归系数:第h层样本相关系数的平方3.4.2 联合回归估计定义 3.7 联合回归估计是指在分层随机抽样中,先对 和 作分层估计:进而构造总体均值 的联合回归估计为:总体总量 的联合回归估计为:1. 当 为事先设定的常数2. 当回归系数 不能事先设定当 不能事先设定,取 的样本估计 :第h层样本相关系数的平方3.4.3 分别回归估计与联合回归估计的比较当 和 均取最优值时,分别回归估计优于联合回归估计,尤其是当回归系数相差较大时,分别回归估计的优越性更加明显。小结 在比估计中,分别比估计与联合比估计均为有偏估计量,当各层样本量都比较大时,分别比估计与联合比估

10、计近似无偏;当某些层的样本量不够大,而总样本量较大时,联合比估计近似无偏。 在回归估计中,少数情况下,回归系数是可以事先设定的常数,其估计量无偏;多数情况下,回归系数需利用样本回归系数进行估计,其估计有偏,但在大样本的情况下近似无偏。2022/7/17353.5 各层样本量的分配 当总样本量n固定,如何将这n个样本合理地分配到各层去?估计量的方差不仅与各层的方差有关,还和各层所分配的样本量有关。实际工作中有不同的分配方法,(1)常数分配;(2)与层内方差 成比例地分配;(3)与层权 成比例的分配(比例分配);(4)与 成比例地分配(内曼最优分配)。2022/7/17373.5.1 比例分配 定

11、义3.8 比例分配(Proportional allocation): 在分层抽样中,若每层的样本量 都与层的大小 成比例,即 或 则称样本量的这种分配方式为比例分配。变形后可得 即 或 (总体中的任一个单元,不管它在哪一个层,都以同样的概率入样)自加权定义3.9 自加权:若总体总量(或总体均值)的一个无偏估计量可以表示成样本基本单元的变量值总量(或均值)的一个常数倍,即 则称这种估计量为自加权或等加权。2022/7/1740样本均值估计量的方差 比例2022/7/17413.5.2 最优分配 定义3.10 最优分配(optimum allocation):在分层随机抽样中,对于给定的费用,使

12、估计量的方差达到最小,或者对于给定的估计量方差,使得总费用达到最小的各层样本量的分配称为最优分配。2022/7/1742简单线性费用函数,总费用构造如下目标函数:(3.132)定理 3.7 对于分层随机抽样,若费用函数为式(3.132),则最优分配为:证明: 2022/7/1744对所有层成立时, 达到极小,此时, 当且仅当,得证。2022/7/1745给定V时,由2022/7/1746给定C时,最优分配的结果说明:如果某一层(1)第h层所含的单元数较多;(2)第h层内部单元的差异程度较大;(3)第h层每个样本所需的费用较低,则对第h层需要抽取一个含量较多的。2022/7/17483.5.3

13、内曼最优分配如果每层抽样的费用相同,最优分配可简化为这种分配称为Neyman分配。定理 3.8 在分层随机抽样中,当样本量n固定的情况下,如果则此时的 最小。 2022/7/1750证明:2022/7/1751例3.4某市有甲、乙两个地区,现要进行家庭收入的调查。令n=500,已知甲地区共有20 000户居民,乙地区共有50 000户居民;甲地居民和乙地居民年收入标准差估计分别为 ;同时对甲地和乙地每户的平均抽样费用之比为2:3,请分别计算出在甲地和乙地进行比例分配、一般最优分配(考虑费用因素)以及内曼分配(不考虑费用因素)的样本量。2022/7/17523.5.4 某些层要求大于100%抽样

14、时的修正 按最优分配时,有时抽样比f较大,某个层的 又比较大,则可能出现按最优分配计算的这个层的样本量 超过 的情况。实际工作中,如果第 k 层出现这种情况,最优分配是对这个层进行100%的抽样,即取 ,然后,将剩下的样本量 按最优分配分到各层。 1.精度是以 的上限给出2022/7/17533.6 总样本量的确定 (1)确定的样本量分配形式令2022/7/1754(2)比例分配, 令2022/7/1755(3)Neyman分配, 令2022/7/1756(4)一般最优分配, 2.精度是以 的绝对误差限 (在给定置信水平下)的形式给出:2022/7/17572022/7/1758(1)确定的样

15、本量分配形式:2022/7/1759(2)比例分配, 2022/7/1760(3)Neyman分配, 2022/7/1761(4)一般最优分配, 3.精度是以 的相对误差限 (在给定置信水平下)的形式给出:2022/7/17622022/7/1763(1)确定的样本量分配形式:2022/7/1764(2)比例分配, 2022/7/1765(3)Neyman分配, 2022/7/1766(4)一般最优分配, 例3.7某工厂生产的机器供应全国219家用户,现在想请用户对该厂机器进行评分。今把这些用户分成本地区、本省外地区以及外省三层,相关资料如表3-11所示。现在要求评分均值的估计量的方差V=0.

16、1,同时还要求费用最省,求样本量n及其在各层的分配,并计算出对应的最低费用是多少?3.6.2 总费用给定时总样本量的确定2022/7/1768考虑简单线性费用函数,费用函数为根据最优分配的结论,有所以, 2022/7/17703.7 分层抽样的其他方面3.7.1 多重分层定义3.11 当调查指标 与两个或多个辅助变量 都存在相关关系时,为提高分层的效益,需要按每一个辅助变量进行分层,通常的做法是先按最主要的变量分成大层,在大层中再按第二主要变量分成子层,从而形成交叉分层。当存在多个分层变量时,这种分层方式即称为多重分层(multiple stratification)2022/7/1771对于

17、多重分层,当“子层”划分好以后,就要考虑样本量在各子层的分配问题。设按照变量1分层可以分层R层,每大层的层权为 ;按照变量2可以分成C层,每大层的层权为 。设总样本量为n,则kl子层的样本量为 。各子层的样本量确定后,就可以在子层内随机抽取样本了。2022/7/1772当样本量n相对于子层总数RC不够大时,可能出现某些子层分配不到样本的情况。 若 ,则此时应当考虑重新确定分层变量或者不采用分层抽样,否则这种分层的效益很难保证。 若 ,同时还满足 ,就可以考虑用试验设计的思想来进行样本量的分配。【例3.8】2022/7/17733.7.2 事后分层 事先分层存在一定的困难,如(1)各层的抽样框无

18、法得到;(2)几个变量都适合于分层,要进行事先的交叉分层比较困难,并且我们并不需要交叉分层后每个子层的估计;(3)总体规模N太大,事先分层太费事等。注意:(1)事后分层技术要求层权已知或可以通过某种途径获得,当层权未知需要对其进行估计时,应当确保层权的估计值与实际的层权相差甚小,否则将达不到提高估计量精度的目的。(2)使用事后分层技术时,还应注意“事后层”不宜太多。事后分层的实施办法:先采用简单随机抽样的方法从总体中抽取一个样本量为n的样本,然后对样本中的单元按某些特征进行分层。假设在n个样本中,落入第h层的样本数为 ,有 ,此时,对总体均值 的事后分层估计为: 代表落入第h层的第i个样本的指标值。性质3.1在 固定而且都大于0的条件下,可以看成是独立地从各层中抽取的简单随机样本。根

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论