第三章简单随机抽样抽样调查理论与方法北京商学院_第1页
第三章简单随机抽样抽样调查理论与方法北京商学院_第2页
第三章简单随机抽样抽样调查理论与方法北京商学院_第3页
第三章简单随机抽样抽样调查理论与方法北京商学院_第4页
第三章简单随机抽样抽样调查理论与方法北京商学院_第5页
已阅读5页,还剩29页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

§1简单随机抽样及实施方法简单随机抽样就是从装有N张票子的盒子里随机无放回地摸取n张票子,它可以有两种摸取方法:第三章简单随机抽样(1)从盒子中一次摸取n张票。这样摸取共有种可能性,每种可能的概率为。抽到的样本称为简单随机样本。(2)从盒子中随机摸取1张票,相应该票的单元入样后,票并不放回盒子,从余下的票中再随机摸取1张票,相应此票的单元也入样且票也不返回盒子;依此实施,直到第n个样本入样。第一页,共三十四页。这两种方法都使用了随机的方法,而且样本并不重复,那么这两种方法是否都算是简单随机抽样呢?要检验一下这两种方法中每一单元的入样概率是否相等。只要验证第二种方法中总体的每n个单元一组的样本入样的可能性等于第一种方法中的即可。利用条件概率即可得到验证。也就是说,两种操作方法是等价的。都是简单随机抽样但由于N、n一般都很大,第二种操作方案较方便。现在介绍一下具体实施简单随机抽样的做法:首先将N个总体元素编号为:1,2,,N,每一单元对应一个号码,若抽到某号,则相应单元入样。第二页,共三十四页。(1)抽签法:实际上就是一个盒子模型,将编号为1~N的N个形状与质地完全相同的纸签放在盒子里,用上述两种方法之一从盒子中摸出n张签。(2)随机数法:设想N相当大,你会做那么多的签放在盒子里以供抽取吗?随机数法用来解决这个困难。利用随机数表、随机数骰子或计算机可以获得随机数。①随机数表:本书最后附有随机数表,它应当被看成0~9数字随机地横竖排列,我们可以随机地从某行某列的数字开始如果需要一至二位数字,则从该数字开始从左向右接连地截取,该行不够则换下一行开始;如果需要三位或三位以上数字,则从开头数字开始向右取三位或三位以上的数从该数纵向往下接连获取其它随机数,不够可另换列执行,直到取到我们所需要的个数n,当然这中间应该去掉可能发生重复的数以及超出N的数字。第三页,共三十四页。③利用计算机产生随机数:不少现成的统计软件都可提供此类服务。但必须指出,这样产生的随机数一般不能保证其随机性,称为“伪随机数”。因此,提倡前述方法产生随机数。②随机数骰子:随机数骰子是由均质材料制成的正二十面体面上标有0~9数字各两个。如图所示。通常用3~6个随机骰子,视所需要的随机数的位数而定。骰子用不同的颜色染成可事先规定好哪种颜色的骰子产生个位数,哪种颜色的骰子产生十位数,依次下去。将所需骰子在盒内摇匀等稳定后揭盖读取朝上面的数字,即获取一组随机数。所摇的骰子数m通常取决于总体单元个数N,满足。记m个骰子按约定颜色而确定的顺序读得随机数,若,则此即为一次合格的随机数;否则予以放弃,重新摇取,直到取到n个合格的随机数为止。第四页,共三十四页。§2总体平均数与总和的估计设总体元素为,为来自该总体的简单随机样本,有时也记样本为为中的某个组合。在后者的表示中随机性体现在下标上。样本是总体的一个有代表性的剖面。

总体平均数的估计为:总体总和的估计自然为:由于这两个估计之间仅差一个常数因子N,因而只要重点研究的估计量的若干性质即可。是样本平均数,由于样本的随机性,样本平均值也是随机变量,理论上的平均值第五页,共三十四页。即数学期望为:其中表示对中所有组合求和对于中的每个元素,比如,它与其它元素构成样本的可能次数显然为,因此,乃至在中出现的次数均为,于是第六页,共三十四页。即是的无偏估计。同样也是总体总量的无偏估计例3.1某班第一小组10人的数学考试成绩分别为:

100,95,92,88,83,75,71,62,60,50平均分为77.6。先从中任选3个为一组样本,其选法共有120种每种选法都有概率1/120。以4组样本为例(100,95,92),(100,83,50),(88,83,62),(62,60,50)它们的样本平均数分别为95.67,77.67,77.67,57.33。从抽样调查的角度来看,我们希望抽到第二或第三组样本,根据它们来估计总体平均数相当准确。而第一和第四组样本的估计相当糟糕。但它们入样与第二第三组具有同样的可能性,这是否与的无偏性相矛盾呢?第七页,共三十四页。其实并不相矛盾。我们关心的是,尽管每一组样本入样的概率相同,像第二第三组这样的“良好”情况就大体而言是否会多于像第一第四那样的“糟糕”情况呢?如果肯定的话,那么就能指望在一次随机抽样中发生的估计误差较小。该问题的解决将由下一节的讨论给出。§3估计量的方差及其估计下面求的无偏估计的方差其中表示对中所有组合求和第八页,共三十四页。(或)(3.6)第九页,共三十四页。对随机有放回抽样,由于各次抽取是相互独立的,由概率论的知识可以求得,此时:(或)(3.7)比较(3.6)式与(3.7)式,发现同样用样本平均数来估计总体平均数,它们都是无偏估计,但随机无放回时的方差小于随机有放回时的方差。的方差表示新盒子的离散程度,也就是表示了取值范围的大小,方差小表明取值远离中心的可能性较小,这样随机的一组样本得到的实现值距很近的可能性就较大,这正是我们所期望的。因此,在实际抽样中我们采用无放回抽样方式。第十页,共三十四页。(3.6)式中的因子(N-n)/(N-1),称为随机无放回的校正系数,它是对随机有放回情况的校正。如果N相当的大,则总体可视为无限总体,由(3.7)式,即为的方差,这是无限总体情况样本平均数的方差。而有限总体的的方差为:因此称1-f为有限总体校正系数,其中f=n/N,称为抽样比抽样比就是样本所占总体的比例。f越大,越接近1,则样本越接近总体,与的随机误差就越小;当f=1时,抽样变成全面普查,此时误差消失。第十一页,共三十四页。一般情况下f比较小,由于N是固定的,也就意味着n相当小,此时(3.6)式告诉我们的方差将随着n的减少而增大,此时1-f在1附近,对的影响不大。事实上,抽取样本越少,抽样误差越大。当然,影响的方差的另一个重要因素是或。设想,当相当大时,原盒子中的数据相当地分散,从一个很分散的盒子中随机取一样本来代替总体,你不可能指望误差很小。对于的方差,n的影响是可以由人们主观控制的,只要多花费一些,多抽取一些就能适当降低误差,当然这只能控制在一定范围内。可见实际抽样调查中用估计所产生的随机误差,也即的方差,主要受到样本容量n的影响,因子1-f的影响几乎可以忽略。第十二页,共三十四页。的影响是客观存在的,盒子中数据越分散,总体就变得越难捉摸。实际上,本身就是一个待估参数,必须对的大小给出估计,不估计就无法评价所产生的误差可能有多大。设为来自总体的样本,既然它是总体的一个缩影,那么这些值的离散程度应该反映了盒子的离散程度,因此采用统计量(样本方差):来估计。为了研究统计量的性质,将改写为:第十三页,共三十四页。可以证明:即是的无偏估计用作为的估计,利用正态近似理论可以建立的置信区间当N,n,N-n相当大时,的分布近似可用正态曲线表示,由于所以取置信水平为()第十四页,共三十四页。注意到标准正态曲线关于0点的对称性,我们有其中是标准正态曲线的分位点,任何一本概率统计的书上都提供有标准正态分布表以供查取分位点。这样,的置信区间为:其中为未知参数,用其无偏估计来代替,则得置信区间或第十五页,共三十四页。例3.2某镇有3250名职工,为调查该镇职工收入情况,用简单随机抽样方式从中抽取30名,调查结果如教材53页表3-1。试估计该镇职工的平均月收入,并求置信水平为95%的近似置信区间。解:N=3250,n=30第十六页,共三十四页。查标准正态分布表得分位点:于是该镇职工月平均收入的估计值为672.23元,它的95%近似置信区间为:本节主要介绍了估计的随机误差以及置信区间的估计,对于总体总和的情况,从平均数的情况很容易导出有关结果。第十七页,共三十四页。§4百分数的估计及其误差在介绍盒子模型时已经指出,对于总体中具有某种特性的单元所占比例的抽样调查,可建立0-1盒子模型。即个具有某种特性的单元相应的票上全标上1,其余全标上0。10是未知数。盒子中1所占的比例是待估参数:。由于该参数恰为0-1盒子的平均数,在简单随机抽样理论中自然地采用这个无偏估计。为与参数记号相配,记:由第二章第七节的讨论可知,盒子的方差为:第十八页,共三十四页。因此:其中PQ为未知参数的乘积,只有对进行估计才有可能获得P的置信区间。尽管P,Q各有它们的无偏估计但它们的乘积并非PQ的无偏估计。这里需要借助于的无偏估计,并且容易计算得:这样可得的无偏估计为:(或写为)第十九页,共三十四页。其实当N比较大时,样本中1的个数服从二项分布,因此当

n不是很大时,近似置信区间(3.26)会发生一定差错,应当考虑必要的修正。p的修正置信区间为:现在可以构造百分数或比例p的置信度为的置信区间当N,n,N-n都比较大时,置信区间为:(3.26)(3.27)第二十页,共三十四页。例3.4某地区有30587人,为调查其中吸烟者所占比例而从中随机无放回抽取2000人进行访问,得知其中烟民785人。试估计该地区吸烟者比例,并给出吸烟比例的置信水平为90%的近似置信区间。解:N=30587,n=2000置信水平为90%,则,查表得又故置近似信区间为=(37.52%,40.98%)第二十一页,共三十四页。§5样本容量n的确定抽样调查理论中,样本容量n的确定具有实实在在的意义。n过大,违背抽样调查的宗旨,n过小,则抽样误差偏大,无法作出精确的估计。一般情况,总费用是固定的,在固定的费用下尽量提高精度或在必需的精度下使费用尽可能减少,是我们确定n的基本原则。下面主要研究简单随机抽样下如何确定n。设选取n个样本,访问每个单元所需的平均费用为,另外除了样本调查所需的费用以外,还需要一笔基本费用,例如办公费、设计问卷的费用等,用表示。这样总费用为我们主要考虑n与精度的关系:第二十二页,共三十四页。精度要求主要涉及到估计的方差(或相应的标准差),或估计量与参数的绝对误差或相对误差。若记为基于简单随机样本的关于参数的估计量。是一个随机变量,要使此绝对误差控制在一定数之内,只能以概率加以描述,假设置信水平为,那么:同样,若以相对误差r作为标准,则有假设n相当大时,可以利用正态近似,我们有这样:或(3.31)第二十三页,共三十四页。再利用正态近似的手段,得:这里我们定义:我们称之为统计量的变异系数,它在抽样调查中也是一个比较重要的量,尤其是在评价统计量的精度时常常用到。将(3.31)式中的取为为例,,如果调查时有一定要求,那么由(3.31)式以及额定的,只要已知,我们完全可以求得n的值。第二十四页,共三十四页。如果是未知的,我们可以先作少量抽样以估计,然后再确定n,当然这个确定的n比少量抽样的容量通常要大。如果问题是估计总体的具有某种特征的子总体所占的百分数P,那么代入(3.31)式,并解得:(3.35)由于P未知,仍然必须事先利用少量抽样加以估计。但在实际操作中,当时,PQ很接近P=0.5时的最大值,第二十五页,共三十四页。以P=0.5代入,此时得到n约为如果调查对有一定要求,自然也能得到n的大约数值。(3.36)以(3.36)式确定n,建立在P不大不小的基础之上。这种信息有时在抽样之前事先感觉得到。有时事先也可能感觉P相当小(或Q相当小)。例如,要估计流水线上生产一批精密元件的废品率,此时废品率往往很小,P<0.1是最起码的。对此废品率的抽样调查所需的n就不能用(3.36)式了。第二十六页,共三十四页。这种场合下如何确定n呢?一个可供选择的方法就是逆抽样。思路很简单,我们事先估计P很小,此时确定的n次抽样中必须含有废品,否则很难估计P。于是逆抽样方法建议我们事先确定一个大于1的整数m,从总体中随机逐次抽取样本,直到出现第m个“废品”(或具有某种特征的单元)为止。此时,我们实际抽取的样本容量n是一个随机变量,我们使用:来估计P。逆抽样的特点是n为随机变量,与P及m有相当的关系,的精度就与m有密切的关系。我们的问题是根据调查的需要去确定事先指定的“废品”数m。(3.37)一般地,由于欲估计的P相当小,因此可以认为Q几乎为1。运用概率论知识可求得的变异系数的一个上界:第二十七页,共三十四页。如果对有一定要求(这实际上就是精度要求),那么可以求得m的大致值。例如,那么,那么理论上是P的无偏估计,因此当P很小时,由(3.37)可知,n应相当大。第二十八页,共三十四页。本章习题解答习题

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论