抽样调查-第7章系统抽样_第1页
抽样调查-第7章系统抽样_第2页
抽样调查-第7章系统抽样_第3页
抽样调查-第7章系统抽样_第4页
抽样调查-第7章系统抽样_第5页
已阅读5页,还剩66页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、7.1 引言 一、系统抽样的定义系统抽样(systematic sampling)是将N个总体单元按一定顺序排列,先随机抽取一个单元作为样本的第一个单元,然后按某种确定的规则抽取其他样本单元的一种抽样方法。系统抽样样的特点点系统抽样样是一种种被广泛泛采用的的抽样方方法,系系统抽样样比简单单随机抽抽样易于于操作,但抽样样误差的的估计比比较复杂杂。实践践中,各各种抽样样调查,如人口口调查、产品质质量调查查、城乡乡居民调调查等都都普遍采采用系统统抽样。系统抽样样中最简简单也是是最常用用的规则则是等间间隔抽取,这这种系统统抽样又又称等距抽样样。二、系统统抽样的的一般方方法1.直线等距距抽样假设总体体单

2、元数数为N,样本容量量为n,N是n的整数倍倍.首先计算抽样间距,把总体分为n段,每段k个单元,然后在第第一段的的k个单元中中随机抽抽出一个个单元,假设为r,然后每隔隔k个单元抽抽出一个个单元.即直到抽出n个单元.例如 某学院共有200个学生,要抽10个学生做样本首先计算抽样间距 然后在120中随机抽出一个数字,假设抽中排在第3位的学生,则其余样本单元依次为第23,43, 63,83,103,123,143,163,183位共10个学生抽取.2.循环等距距抽样 当N不是n的整数倍,即抽样间距 不是整数时,实际抽取的样本量是不确定的,每个总体单元入样的概率也是不等的,这时用直线等距抽样就有可能产生

3、偏倚,若采用循环等距抽样则可以解决此问题. 其方法是将N个总体单元排成首尾相接的一个圆从1到N中随机抽取一个起点作为起始单元,然后每隔k个单元抽出一个,直到抽出n个单元为止.循环等距距抽样例如总体体有14个单元,欲抽取取n=3,则取与之最近的整数然后在总体中随机抽取一个单元作为起点,假设抽中3,即依次抽取直到抽满。因此样本的编号为:3,8,13。811101331764529123.不等概系系统抽样样法不等概系统抽样中每个单元的入样概率不相等.最常用也是最简单的不等概系统抽样是 抽样.即入样概率 与单元大小 成比例的系统抽样.令表示总体所有单元大小的总和,则实施不等等概系统统抽样最最简单的的方

4、法是是代码法:下面以例7.1来说明【例7.1】设总体由10个行政村组成,N=10,每个行政村的人数 见下表.利用 系统抽样抽取n=3个行政村.行政村编号人数(Mi)累计人数抽中代码12345678910103432962468473205168146317103535631877961103412391407155318701007231346用 系统抽样抽选行政村从1,k中随机抽抽取一个个整数r=100,则代码为为:r=100,r+k=100+623=723,r+2k=100+2623=1346,所对应的的行政村村入样,其序号依依次为1,4,8. 在系统抽样中,对于特别大的单元一定要注意.如

5、果出现 ,该单元肯定被抽入样本,而且还可能被重复抽到.为了避免这种情况,可以事先将这些单元抽出直接入样.三、总体体单元的的排序系统抽样样时N个总体单单元的排排序情况况大致有以以下三种种:(1)按无关关标志排排队(2)按有关关标志排排队(3)介于上上述两者者之间四、系统统抽样的的优缺点点系统抽样样的优点点:1.简便易行行,容易易确定样样本单元元2.样本单元元在总体体中分布布比较均均匀系统抽样样的缺点点:1.如果单元元的排列列存在周周期性的的变化,而抽样者对此缺缺乏了解解或缺乏乏处理经经验,抽抽取的样样本的代表性性就可能能很差。2.系统抽样样的方差差估计较较为复杂杂,一般般不存在无偏估估计量。五、

6、系统统抽样、整群抽抽样和分分层抽样样的关系系系统抽样样既可以以看成一一种特殊殊的整群群抽样,又可以看看成一种种特殊的的分层抽抽样。下下面以一一般的等距抽抽样为例例说明:假设抽样样间距为为k,总体单元元数为N=nk。将总体的N个单元排排列成k行n列,如下下表所示示。表中中的每一行单元元都是系系统抽样样的一个个样本。系统抽样样的总体体单元1 2 j n平均12rk1 2 j n群平均12rk层平均令得下表:如果将每每一行单单元视为为一个群群,则总总体由k个群组成成每个群的大小都是n。系统抽样就是从 中任选一个单元元,被选中单单元所在在行的所所有单元元就构成成系统抽抽样的一个样样本。7.2等概率系系

7、统抽样样估计量量一、符号号说明第r行第j列的单元指标值:总体单元元数:N样本单元元数:n系统样本平均数:系统样本均值估计量:层 均 值: 总体方差:系统样本内方差:样本内相关系数:层内方差:同一系统内对层均值离差的相关系数:二、估计计量假设起始始值为R,相应系统统样本的的平均值值为:取系统样本的平均数作为总体均值 的估计量:性质1当N=nk时,有k个可能样样本:因此 是无偏估计量。是有偏的的。个可能样本所包含的单元数不全相等,因此但是当时,采用直线等距抽样得到的三、估计计量方差差的不同同表示形形式为方便起见,以后均假定时,系统样本的平均数作为总体均值的估计是无偏的。它的方差差按定义义为:下面给

8、出出方差的的三种不不同的表表示形式式。形式一 用样本内方差表示系统抽样估计量的方差。式中,为总体方差;为样本内方差。如果从总总体N中直接抽抽取样本本量为n的简单随随机样本,则总体均值 的估计量 的方差为:式中, 为总体方差;n为样本量;f为抽样比。 对于固定总体,总体方差是惟一确定的,因此,系统样本内的方差 越大,系统抽样的精度越高.为了提高系统抽样的精度,总体单元的排列应尽可能增大样本内方差。比较等距抽样方差 和简单随机抽样方差 ,形式二 系统抽样可看作一种特殊的整群抽样系统抽样估计量的方差可以用样本内相关系数 表示:式中,为样本内相关系数。系统样本本内正相相关越大大,即系系统内单单元越相似

9、,则则估计量量方差越越大,等等距抽样样精度越越差。形式三、系统抽样可看做一种特殊的分层抽样,系统抽样估计量的方差可以用层内方差 表示:式中,为层内方差;为同一系统样本内对层均值离差的相关系数。比较系统抽样方差 与比例分配的分层随机抽样方差,比例分配的分层随机抽样总体均值估估计量的的方差。因此当系统抽样的精度低于分层随机抽样;系统抽样的精度与各层抽取一个单元的分层随机抽样相同;系统抽样的精度高于分层随机抽样。【例6.3】设某总个个体N=30个单元,总体单单元排列列如下表,我们要要产生一一个样本本量n=5为的系统统样本,试与其他他抽样方方法的结结果进行行比较。下面通过过一个模模拟的例例子说明明系统

10、抽抽样与其其他抽样方法的的联系,并对不不同抽样样方法的的效果进进行比较较。N=30,k=6, n=45等距样本本数据12345群平均群内方差1111213141513.002.52111213141513.002.53111213141513.002.54111213141513.002.55111213141513.002.56111213141513.002.5层平均11.0012.0013.0014.0015.0013.002.5层内方差0000002.07从上表可计算出:总体方差平均群(行)内方差平均层(列)内方差下面我们们按不同同的抽样样方法计计算总体体均值估计量的的方差。(1)以行

11、为群群的整群群抽样或或以行为为“系统统样本”的系统抽抽样k=6,n=5.(1)以行为群群的整群群抽样或或以行为为“系统统样本”的系统抽抽样k=6,n=5.(2)以列为群群的整群群抽样或或以列为为“系统统样本”的系统抽抽样k=5,n=6.(3)以行为层的分层随机抽样(每层抽1个单元)L=6,n=6,f=6/30.(4)以列为层的分层随机抽样(每层抽1个单元)L=5,n=5,f=5/30.(5)简单随机抽样n=5,f=5/30.(6)简单随机抽样n=6,f=6/30.【评价】从上面的的结果可可以看出出:(1)像整群群抽样一一样,系系统抽样样的估计计精度几几乎完全取决于于其“系系统样本本”内差差异与

12、总总体差异异的对比比。(2)系统抽抽样与其其他抽样样方法相相比其优优劣难以以定论,可能好也也可能差差,这完完全取决决于其“系统样样本”内内差异与总体差差异的对对比,而而这个对对比则取取决于系系统抽样样中的总体单单元排列列顺序。(3)另外三三种方法法的比较较同样难难定优劣劣,都需需要具体情况具具体分析析。我们下面面将上表表中总体体单元的的顺序重重新排列列,来研研究总体单单元不同同排列对对系统抽抽样的影影响。依某种随随机化程程序将总总体单元元重新排排列12345群平均群内方差1111211121513.002.692111211121513.002.693111213141513.002.5041

13、11213141513.002.505131413141513.000.706131413141513.000.70层平均11.6712.6712.3313.3315.0013.00层内方差1.071.071.071.07002.07从上表可计算出:总体方差平均群(行)内方差平均层(列)内方差下面我们们按不同同的抽样样方法计计算总体体均值估计量的的方差。(1)以行为群群的整群群抽样或或以行为为“系统统样本”的系统抽抽样k=6,n=5.(2)以列为群群的整群群抽样或或以列为为“系统统样本”的系统抽抽样k=5,n=6.(3)以行为层的分层随机抽样(每层抽1个单元)L=6,n=6,f=6/30.(4

14、)以列为层的分层随机抽样(每层抽1个单元)L=5,n=5,f=5/30.(5)简单随机抽样n=5,f=5/30.(6)简单随机抽样n=6,f=6/30.【评价】将此结果果与上例例结果比比较我们们不难发发现:(1)简单随随机抽样样的方差差未变,说明简简单随机机抽样的结果果与顺序序无关;(2)系统抽抽样、整整群抽样样以及分分层抽样样都与单单元顺序有关关,这表表明在选选择抽样样方式时时,必须须尽可能能多地掌握握有关单单元的顺顺序和总总体结构构和特点点。(3)本例中中分层抽抽样方差差的结果果优于简简单随机机抽样,而简简单随机机抽样优优于系统统抽样和和整群抽抽样。【例6.5】设某个总总体有N=32个单元

15、,总体单单元排列显然然有稳定定上升的的趋势。我们要要产生一一个样本本量为4的等距样样本,将将总体单单元排列列如下表表,k=8,n=4,每一列都都是一个个等距样样本。共共8个等距样样本。层 等 距 样 本 编 号层平均3.7511.521.87532.251234567817172718182838203031120314122434514243461625367162738总数5255616574778388-N=32,k=8, n=4等距样本本数据 显然,层内有正相关,前4个样本与各层均值的离差都是正数,后4个样本与各层均值的离差都是负数,由性质4,当 时,系统抽样的精度低于分层随机抽样.层

16、内方差与总方差分别为: 因此,简单随机抽样均值估计的方差 、分层随机抽样均值估计的方差 以及等距抽样均值估计的方差如下:【例7.3】利用例7.2的数据,但将第二二层与第第四层的的观察值次次序颠倒倒,数据见下下表:层 等 距 样 本 编 号层均3.7511.521.87532.251234567811617381161836314203431220344112431582430682528772727总数7271716970676768- 显然,等距样本内数据与各层均值得离差有正有负,例如第一个等距样本对各层均值的离差分别为-2.75,4.5,-4.875,5.75.该样本内六对离差组合中四对的

17、乘积是负数.因此,由性质4, ,系统抽样的精度高于分层随机抽样. 数据顺序的这种改变不会影响简单随机抽样均值估计的方差 和分层随机抽样均值估计的方差 。这时等距抽样均值估计的方差为: 本例中,等距抽样比简单随机抽样和分层随机抽样都更有效。 由此可见,相对于分层随机抽样和简单随机抽样来说,系统抽样的效率很大程度上取决于总体性质。即使是相同的总体数据,对于不同的单元排列顺序,就有不同的样本群内方差 或相关系数 从而系统抽样估计量的方差也就不同。 因此,若要有效地采用系统抽样,必须先了解总体的特征。6.3方差估计计及其改改进一、方差差的近似似估计虽然有各各种各样样的估计计量方差差的理论论公式,但难以

18、得到到抽样估估计量方方差的无无偏估计计,这是是系统抽抽样的最大大的缺点点。因此此,许多多从事抽抽样设计计的业者者在决定是是否采用用系统抽抽样时往往往犹豫豫不决。为此,我我们分别别针对几几种不同同总体模模型,介介绍几种近似似估计方方法,以以期选择择较为合合适的估估计量。(1)随机次次序排列列的总体体按照无关关标志排列的总总体单元元,可以以看着是是随机排列列的。在这种情情况下,系统抽抽样方差差与简单单随机抽样方差差是相等等的。即即总体单单元按随随机排列列顺序时,就可可以采用用简单随随机抽样样的方差差作为系系统抽样的方差差估计。方差估计为:估计量的方差为:趋势排列列情形当总体存存在或很很易找到到与研

19、究究变量相相关程度度较高的辅助助变量作作为排序序依据时时,或是是自然的的排列顺顺序与总体体单元的的变量值值的大小小分布呈呈现某种种相依或或相悖的趋趋势时,总体单单元的排排列顺序序就处于于趋势排排列状态,其中线线性趋势势最为典典型。对于来自自趋势排排列总体体的等概概系统样样本,通通常可视为分分层样本本,其整整体均值值的估计计为:抽样方差的无偏估计为:二、线性性排列情情形抽样样与估计计的改进进1.线性趋势势的总体体 若总体单元按指标值从小到大顺序排列或按某个与其有线性相关的辅助变量的大小顺序排列,此时指标值 与单元序号 也线性相关.这种按有关标志排列的总体称为线性趋势的总体,如下图所示. 我们先假

20、定一种简单的线性趋势总体,即单元指标值 是单元序号i的线性函数,即经过线性性变换后后,记以下仍用 表示系统抽样在具有线线性趋势势总体下下,比较较系统抽样样的方差、简单随机抽样的方差、分层随机抽样的方差它们的差别。当时,有故总体均值总体方差从而简单随机抽样的方差:分层随机抽样的方差:系统抽样的方差:比较三式可知等号当且仅当 时成立。2.对线性趋趋势总体体的系统统抽样法法的改进进虽然严格格的线性趋势势排列总总体在实实际问题题中很难难成立,但其结论论在定性性上还是是适合的的.为了使系系统抽样样法达到到更高的的精度,有必要对线性趋趋势总体体的系统统抽样法法进行改改进.主要有两个途径径:一种是抽抽样方法

21、法的改进进;(如中心位置置抽样法和对称系统统抽样法法)另一种是是估计方方法的改改进(如首尾校正正法).(1)中心位置置抽样法法初始样本本不是随随机抽取取,而是直接接取第一一段的n个单元中中处于中中间位置置的单元元.中点取奇数时,当 k为偶数时,当 k为中点取(2)对称系统统抽样法Sethi对称系统统抽样法(P206)Singn对称系统统抽样法(P207)(3)首尾校正正法Yates首尾校正正法Bellhouse和Rao首尾校正正法(见P205)Bellhouse和Rao首尾校正正法如果初始始单元编编号r较大,满满足r+(n-1)kN,则有越过过单元N的样本单单元有n2个,相应应的权数数如下:【

22、例7.4】总体有23个单位,拟抽取n=5, 则 取与之最近的整数k=5。然后在总体中随机抽取一个单位作为起点,假设抽中r=19,样本单位的顺序编号分别为:19,1,6,11,16。首样本单元为 ,尾单元为 。求相应单元的权数。,6.4=nNk解:由于其他3个样本单单元的权权数为:0.2首样本单元 的权数为:尾样本单元 的权数为:三、周期期波动的的总体周期性波波动是指指总体单单元指标标值按其其顺序程程周期性变化化.例如商店店的日销销售额以以7天为周期期变化,一般周末末为销售售高峰期期,周一、周周二下降降;城市市交通量以24小时为周周期变化化,上下下班时间间为高峰峰期。对于周期期性波动动总体,使用

23、系系统抽样样一定要要特别注注意。系系统抽样样的估计计效果与与抽样间间距k及单元指指标值的的变化周周期直接接的关系系。7.4系统抽样样的方差差估计系统抽样样法的缺缺点之一一,就是是很难得得到估计计方差的无无偏估计计。本节节介绍几几种形式式相对简简单的估计方方法,这这些方差差估计方方法只能能进行近近似计算而且且不同的的方法适适应于不不同的总总体模型型。一、等概概系统抽抽样的方方差估计计我们讨论用估计总体均值 时的方差的估计。(一)系系统样本本来自随随机排列列总体系统样本本可视为为简单随随机样本本,从而而可用简单随机机抽样下下的抽样样方差的的无偏估估计:(二)系系统样本本分层随随机抽取取如果把系统样本本看成从从各层抽抽取两个个单位分分层随机抽抽样,可可采用以以下方法法。1。从第二二个样本本单元开开始,每每个样本本单元与与前一个个样本单元元组成一一对,共共n-1对,第I对的样本本单元的的对n-1个方差估计为进行平均,再乘以得 的估计:2.设N为偶数,将样本本单元按按顺序两两两分成成一组,共组,第I对样本单元

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论