版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
§6.1引言定义定义6.1系统抽样(systematicsampling)又称为等距抽样、机械抽样。按照这种抽样方法,从总体中抽取第一个样本点(随机起点),然后按某种固定的顺序和规律依次抽取其余的样本点,最终构成样本。这种抽样被称为系统抽样是因为这种抽样的第一个样本点虽然随机,但其余样本点的抽取看起来好像不再随机,因而是系统的。“牵一发而动全身”。比如要对居民用户抽样,可按户口册每隔多少户抽一户;工厂为检查产品质量,在连续的生产线上每隔20分钟抽选一个或若干个样品进行检查;农业上为估计农作物产量或病虫危害,对一大片农田每隔一定距离抽取一块进行实际测量或调查,等等。本章只作简单方法介绍。更多内容参见文献2、文献3。系统抽样的一般方法定义6.3直线等距抽样假设总体单元数为,样本容量为,为的整数倍。把总体单元排列成一直线。先计算出系统抽样间隔,(当不是的整数倍时,可令k等于最接近的整数)。然后在第一阶段1~k个单元中随机抽取一个单元,假设为r,然后每隔k个单元抽取一个单元,即分别为:r+k,r+2k,…….,直至抽取了n个单元。抽取的样本编号为:r+(j-1)k(j=1,2,…,n)。12…r……kk+1k+2…k+r……2k2k+12k+2…2k+r……3k…kkkkk+r2k+r(n-1)k+rrk(k为抽取间隔)例如某学院有200个学生,要抽取10个学生作为样本。首先计算=20,然后在1~20中随机抽取一个数字,假设抽中排列中第3位的学生,则其它入样单元依次为23,43,63,83,103,123,143,163,183。定义6.4圆形等距抽样(Lahiri)这种方法主要适用于不为整数时。因为当k不为整数,取其最接近的整数时,实际样本容量可能与n相差1,而且每个单元入样的概率不等,这时用直线等距抽样可能产生偏倚。例:设总体N=10,其标志值分别为,总体均值为。若要求样本容量为n=3,采用直线等距抽样,验证样本均值是否为总体均值的无偏估计?解:先计算间距….,取k=3,在1~3中取一个随机起点,然后每隔3个单元抽取1个单元可得下列的可能样本:三个可能的系统抽样样本均值分别为:,,所有=,因此样本均值不是总体均值的无偏估计。在这种情况下,样本均值将不等于总体均值,因而估计不是无偏的。为了使得样本均值是总体均值无偏估计,将个总体单元排成首尾相接的一个圆。抽样间距k取最接近的整数,从1——中随机抽取一个随机起点作为起始单元,然后每隔k个抽取一个,直到抽取n个为止。如果序号大于时,将其减去得到的在1——中的号码入选。正是因为排列为圆形而非直线且随机起点在1~N中而非在1~[k](或[k]+1)中,导致了该抽样下的每个样本严格等概率地被抽中,因而估计是无偏的。若是圆形等距抽样,则在1~10中抽取一个随机起点,假设为7,然后每隔3个单元取一个,它们的序号是7、10、13。事实上是、、入样。考虑到实际问题中,n通常比较大(大于等与50),多一个少一个并无关宏旨,因此可以不必考虑N/n不是整数的影响,故通常我们都假定N是n的整数倍。3不等概率抽样法不等概率抽样中每个单元入样的概率不相等。最简单也是最常用的是系统抽样,即入样的概率与单元规模大小成比例的系统抽样。令表示所有单元规模大小总和,则(包含概率,见不放回不等概率抽样)。在实际中,不等概率的实施常采用代码法。如下所示:先将单元规模(不失一般性,设其为整数)值累加,欲从总体中抽取容量为n的样本,取最接近的整数k为抽样间距,从[1,k]中随机抽取一个整数r作为起点,则代码r,r+k,…,r+(n-1)k所对应的单元入样。设总体由10个行政村组成,N=10,每个行政村人数为,见表7.1。利用系统抽样抽取n=3个行政村样本。表7.1用系统抽样抽取行政村行政村编号人数累计人数抽中号码12345678910合计103432962468473205168146317187010353563187796110341239140715531870100*723*1346*,从1~623中抽取一整数,例如是,则,,所对应的行政村入样,其序号分别为1、4、8。这种方法,当所有单元规模时,每个单元不可能重复,是一种不重复抽样;当时(超过抽样间隔),第i个单元为必然被抽中单元,且有可能重复抽中;当,第i个单元为必然被重复抽中。实际中应尽量避免这种重复抽中现象。一种简单的方法就是把这种大规模单元作为必然调查单元,不再列入抽样总体,另一种方法是将大规模单元划分为几个小规模单元。总体单元排序1按无关标志排序,如调查学生视力,按学号排列,显然视力与学号没有关系2按有关标志排序调查身高时,按入校体检的身高顺序排列3介于以上两者之间系统抽样的优缺点优点:系统抽样是实际中常用的一种抽样方法,1其简单易行,只要确定起点和间距,便于推广2便于利用已知信息,系统抽样的误差大小与总体单元的排列顺序有关,因此当对总体的结构有一定的认识了解,并有相关的标志可以利用时,可以运用已知的信息先对总体单元进行排列,再采用系统抽样,就能提高系统抽样的效率。但缺点也很明显:1方差复杂,难以估计2如果单元排列存在周期性,而抽样者缺乏对此了解,则很容易抽取出的样本代表性很差。例如,要调查70路每天的客流量,采用系统抽样,每周取一天,即每隔7天抽取一次。不管取了星期一到星期五,还是星期六到星期日中的哪天作为起点,样本代表性都很差。系统抽样与整群抽样和分层抽样的关系系统抽样可以看作特殊的整群抽样和分层抽样表6-1系统抽样的总体单元123…j…n行平均123rk列平均………………见下表6-1,如果将每一行单元视为一个群,则总体由k个群组成,每个群规模大小都为n。系统抽样从,,…,中任选一个,被选中的单元所在行的所有单元就构成系统抽样的样本。显然每个群都是可能的样本。因此系统抽样可以看成从k个群中随机抽取1个群的整群抽样。同样将每一列视为一层,则总体由n个层组成,每个层大小都为k。系统抽样可以看作从每个层中抽取一个单元的分层抽样,但由于样本单元在各层位置相同,因此系统抽样不同与分层抽样。表6-2系统抽样总体单元重新编号12…j…n群平均12rk层平均……………§6.2等概率系统抽样估计量为讨论方便,今后总是设。符号说明第r行第j列单元指标,对照表6-2换个排序方式有总体单元数N;样本单元数n总体方差总体(群)均值,(每行均值)样本(群)均值,系统样本均值,总体层均值,,或,(每列均值)6.2.2估计量假设起始点为r,则相应的系统样本的平均值为,(6.1)(群内普查)取系统样本平均值作为总体均值的估计量,即:=(6.2)(由于群内普查)当,有k个可能样本,因此是无偏估计。(6.9)(方差定义)用系统样本(群)内方差表示为系统样本(群)内方差(类似整群抽样中的定义)因为系统抽样相当于抽取一个群的整群抽样,因此群内的单元差异大小,也即系统样本内的差异大小会直接影响系统抽样的效果,故定义了系统样本(群)内方差,它反映了所有k个可能系统样本内的方差大小。因此可以想象,和整群抽样一样,系统样本内方差愈大,抽样效率愈高。注意此习惯叙述,(大写)本该表示总体,由于群内普查,这里的特殊性在于所谓的“系统样本”实际是表6-2中行表示的总体群。(6.10)证明:(交叉项为0)两边同除以,根据方差定义和定义,得到#如果直接用简单随机抽样,则,作差:,于是对于固定总体,总体方差是唯一固定的,因此系统样本内方差越大,系统抽样精度越高。故为了提高系统抽样的精度,总体单元的排列应尽可能增大样本(群)内方差,使得群内基本单元样本差异比较大。系统抽样可以看作特殊整群抽样,其方差可用样本(群)内相关系数表示其中系统样本(群)内相关系数(系统样本内各单位两两之间的相关系数)为(类似4.9)证明:总体单元数群内单元数总体群数样本群数总体均值估计量群内相关系数系统抽样整群抽样NNMnMkN1n、、由整群抽样,(P141,4.11)。#由看出,系统样本(群)内正相关性越大,即样本(群)内单元越相似,则估计量方差越大,系统抽样精度越差,这与定理6.2结论一致。系统抽样可看成特殊的分层抽样,其方差可以用层内方差和表示定义:总体层内方差总体(层)内相关系数:同一系统样本内对层均值离差的相关系数,系统样本内各单元两两之间分别与各自层的平均数相比较而计算的相关系数。『对于固定的群,两个不同单元离差乘积共有个组合,所以总体这样的离差乘积有个,因此上式分子为分母应为对个基本单元的对所在层的层均值离差平方求平均,因此可以表示为,于是』证明:由表6.2可以看出,系统抽样可以看作一种特殊的分层抽样,共n层,每层均为k个单元(规模相等),从每层固定同一位置各取1个单元作为样本。,而根据(),两边同乘以,有=+,因此公式成立。#比较系统抽样方差与比例分配的分层随机抽样方差(即),作商:,因此,。从前面的系统抽样排列的方阵看出,如果按有关标志排列后采用直线等距抽样,系统样本中的单位往往会同时大于所在各层的均值,或同时小于所在各层的均值,造成;因而需考虑适当的改进抽样方式,使得尽可能满足。例设某个模拟总体有N=32个单元,总体单元排列显然有稳定上升趋势。我们要抽取一个容量为4的等距样本。将总体单元排列如下表7.4,k=8,n=4。每一列是一个等距样本,共有8个等距样本。表层ⅠⅡⅢⅣ等距样本编号层均值层内方差1234567817172718182838203031120314122434514243461625367162738群均值1322可以看出,层内正相关,前四个样本对各层均值离差均小于0,后4个样本与各层均值离差均大于0,所以(同一层内两不同单元离差乘积,累积),因此系统抽样精度要低于分层抽样。有:例利用上例,将第二层和第四层观察值调换,见表表层ⅠⅡⅢⅣ等距样本编号层均值层内方差1234567811617381161836314203431220344112431582430682528772727群均值1868可以看出,等距样本内数据对各层均值离差有正有负。造成,因此系统抽样精度要高于分层随机抽样。此时,没有影响、。但等距抽样均值的方差。可见系统抽样的效率很大程度上取决于总体的特征。P200见PPT§6.3不同特征总体的系统抽样随机次序排列第总体系统抽样的方差决定于单元的排列顺序,它是不稳定的,因为不同的排列顺序会使系统样本内的方差发生变动,得到不同的抽样方差可能大于相应简单随机抽样的方差,也可能小于相应当简单随机抽样的方差。例如,若总体共有N个基本单元,则总体共有种排列方式,其中任何一种固定的排列方式对应的系统抽样其抽样方差可能大于也可能小于简单随机抽样。但从平均意义上讲,系统抽样方差与简单随机抽样方差相等。即,详见文献:杜子芳《抽样技术及其应用》,P390。因此,可以用简单随机抽样的方差作为系统抽样的方差估计:,比如总体按照无关标志排列,可以看作随机排列的,因此系统样本内方差和总体方差相差不大,系统抽样的方差也就接近简单抽样的方差。对于很多客观总体,并不存在或很难找到与目标变量相关的辅助变量作为排列依据,于是只能借助原来的自然顺序或按无关变量进行排列,这时就是所谓的随机次序排列。例:某乡村公路两旁种植了20000棵小树,一年后检查小树的成活率。采用系统抽样的方法,先在1~100棵树之间随机地抽取一棵树作为起点,然后每隔100棵抽选1棵,一共抽取了200棵树作为样本,发现其中成活174棵,估计成活率的95%的置信区间。解:,方差用简单估计量的方差估计=0.00056266,,82.6%~91.74%。线性趋势的总体1线性趋势总体若总体单元按指标从小到大顺序排列或按某个与其有线性关系的辅助变量的大小顺序排列,此时指标值与单元序号也是线性相关。一般地,对于线性趋势总体,系统抽样优于简单随机抽样,但比分层抽样差。为了说明问题,我们不妨假设其指标变量为简单线性函数。()。做变化得到,,所以:,,从而:;因为每层含有k个单元,每个单元相差1,有n个层,因此方差相同,即有:,每层抽1个单元,等同于按比例分配样本的分层抽样,;最后,比较三者关系有,在实际问题中,当然不可能完全按指标值的大小顺序排列,只能找到一些与指标值相关的变量进行排序,当然也不可能是完全线性的趋势,但是系统抽样的效率总会高于简单随机抽样。因此如果采用简单随机抽样的误差公式,这将是一个比较保守的估计。也就是说,实际误差应该没有估计那么大,因此统计学家们提出了一些改进估计方差的公式。见后文。2对线性趋势总体的系统抽样的改进抽样方法的改进中心位置法当总体单元的排列呈现线性趋势,起始单元的位置偏高或偏低会直接影响整个样本的代表性,为提高抽样效率,麦多(Madow,1953)提出中心位置法,即初始样本不是随机抽选,而是直接取第一阶段的k个单元处于中间位置的单元。当为奇数时,中点取;当为偶数时,中点取或。此种抽样法虽然可以提高精度,但对于一定顺序排列的总体,样本是确定的,失去了随机性。尤其对同样问题进行连续性调查,样本老化,会带来较大不利影响。例如某学院共有200个学生,要抽取10个学生作样本,抽样间距为。如果采取中心抽样法,起始样本就是第10个学生,其余样本单元依次为第30,50,70,90,110,130,150,170,190位学生。对称系统抽样(1)塞蒂(Sethi,1965)对称系统抽样这时一种分组对称方法。当,为偶数时,将总体分为组,每组含有个单元,在各段内随机抽取与两端等距地两个单元作为样本,一端靠近低端,一端靠近高端。假设起始随机数为,入样的单元为::,当为奇数,仍按上述步骤进行,但到后,增加靠近终端的一个单元,。仍是从200个学生中抽取10个作为样本,将总体分为段,1~40,41~80,81~120,121~160,161~200。假设随机起点为3,则样本单元依次为第3,38;43,78;83,118;123,158;163,198位学生。(2)辛(Singn,1968)对称系统抽样这种方法是每次选取与总体的两端相对称的单元。假当,为偶数时,设起始随机数为,入样的单元为::,。当为奇数,仍按上述步骤进行,但到后,增加靠近中间的一个单元。假设从300位学生中抽取15个作为样本,则,抽样间距为。假设随机起点为3,则样本单元依次为第3,298;23,278;43,258;63,238;83,218;103,198;123,178;143。3估计量改进首尾校正法(Yates,1948;Bellhouse&Rao,1975)针对情形,假设随机起点样本单元编号为,则首样本单元的权重为尾样本单元的权重为其它样本权重为首尾校正法修正后的估计量为针对情形,假设随机起点样本单元编号为,如果满足,则所有个样本单元都不经过单元,相应权重如下:首样本单元的权重为()尾样本单元的权重为()其它样本权重为如果满足,则有样本单元都越过单元,假设越过单元的样本有个,相应权重如下:首样本单元的权重为()尾样本单元的权重为()其它样本权重为总体有个单元,拟抽取个样本,则,取与之最接近的整数。然后在总体中随机抽取一个起点,假设,样本单元的顺序编号分别为:19,1,6,11,16。首样本单元,尾样本单元。求相应单元的权重。解:由于首样本单元的权重为尾样本单元的权重为、周期波动的总体周期波动是指总体单元指标按其顺序呈现周期变化。例如,商店的日销售量一般以7为周期变化,城市交通以24小时为周期变化。等等。对周期变化的总体,使用系统抽样要特别注意。抽样的间距尽量不要等于周期,一般取半周期。通常采用交叉法,即在同一个总体中独立地取多个样本,再将几个样本合并计算估计量及方差。§6.4系统抽样的方差估
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- N-Nitroso-clonidine-生命科学试剂-MCE-2307
- IRF1-IN-1-生命科学试剂-MCE-6527
- 二零二五年度文化场馆消毒防疫服务合同
- 二零二五年度电动助力车租赁与充电桩安装合同
- 2025年度房屋买卖合同变更及产权过户补充协议
- 2025年度理发店入股与客户满意度提升合作协议
- 施工现场施工防塌陷制度
- 施工单位关于施工设备的工作联系函
- 绿色校园教学楼电气节能与环保方案
- 食堂的应急预案
- 口腔种植技术临床应用能力评估报告范本
- 从中国制造到中国创造(优秀课件)
- 新华字典第12版电子版
- 【考试版】苏教版2022-2023学年四年级数学下册开学摸底考试卷(五)含答案与解析
- 血液透析个案护理两篇
- GB/T 32691-2016汽车空调电磁离合器
- 第八章 客户关系管理
- 新版人教版高中英语选修一、选修二词汇表
- 2022年河北邯郸世纪建设投资集团有限公司招聘笔试试题及答案解析
- 万物有灵且美(读书心得)课件
- 住院患者跌倒坠床质量控制管理考核标准
评论
0/150
提交评论