第三章简单随机抽样(抽样调查理论与方法-北京商学院,.ppt_第1页
第三章简单随机抽样(抽样调查理论与方法-北京商学院,.ppt_第2页
第三章简单随机抽样(抽样调查理论与方法-北京商学院,.ppt_第3页
第三章简单随机抽样(抽样调查理论与方法-北京商学院,.ppt_第4页
第三章简单随机抽样(抽样调查理论与方法-北京商学院,.ppt_第5页
已阅读5页,还剩28页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、1 简单随机抽样及实施方法,简单随机抽样就是从装有 N 张票子的盒子里随机无放回地摸取 n 张票子,它可以有两种摸取方法:,第三章 简单随机抽样,(1)从盒子中一次摸取 n 张票。这样摸取共有 种可能 性,每种可能的概率为 。抽到的样本称为简单随机样本。,(2)从盒子中随机摸取 1 张票,相应该票的单元入样后,票并不放回盒子,从余下的票中再随机摸取 1 张票,相应此票的单元也入样且票也不返回盒子;依此实施,直到第n个样本入样。,这两种方法都使用了随机的方法,而且样本并不重复,那么这两种方法是否都算是简单随机抽样呢?要检验一下这两种方法中每一单元的入样概率是否相等。只要验证第二种方法中总体的每

2、n 个单元一组的样本入样的可能性等于第 一种方法中的 即可。,利用条件概率即可得到验证。,也就是说,两种操作方法是等价的。都是简单随机抽样 但由于N、n一般都很大,第二种操作方案较方便。现在介绍 一下具体实施简单随机抽样的做法:,首先将N个总体元素编号为:1,2,N,每一单元对应 一个号码,若抽到某号,则相应单元入样。,(1)抽签法:实际上就是一个盒子模型,将编号为1N的 N个形状与质地完全相同的纸签放在盒子里,用上述两种方 法之一从盒子中摸出 n 张签。,(2)随机数法:设想N相当大,你会做那么多的签放在盒子 里以供抽取吗?随机数法用来解决这个困难。利用随机数表、 随机数骰子或计算机可以获得

3、随机数。,随机数表:本书最后附有随机数表,它应当被看成09数 字随机地横竖排列,我们可以随机地从某行某列的数字开始 如果需要一至二位数字,则从该数字开始从左向右接连地截 取,该行不够则换下一行开始;如果需要三位或三位以上数 字,则从开头数字开始向右取三位或三位以上的数从该数纵 向往下接连获取其它随机数,不够可另换列执行,直到取到 我们所需要的个数 n ,当然这中间应该去掉可能发生重复的 数以及超出N的数字。,利用计算机产生随机数:不少现成的统计软件都可提供此 类服务。但必须指出,这样产生的随机数一般不能保证其随 机性,称为“伪随机数”。因此,提倡前述方法产生随机数。,随机数骰子:随机数骰子是由

4、均质材料制成的正二十面体 面上标有09数字各两个。如图所示。通常用36个随机骰 子,视所需要的随机数的位数而定。骰子用不同的颜色染成 可事先规定好哪种颜色的骰子产生个位数,哪种颜色的骰子 产生十位数,依次下去。将所需骰子在盒内摇匀等稳定后揭 盖读取朝上面的数字,即获取一组随机数。所摇的骰子数 m 通常取决于总体单元个数N,满足 。记m个 骰子按约定颜色而确定的顺序读得随机数 ,若 ,则 此 即为一次合格的随机数;否则予以放弃,重新摇取,直 到取到n个合格的随机数为止。,2 总体平均数与总和的估计,设总体元素为 , 为来 自该总体的简单随机样本,有时也记样本为 为 中的某个组合。在后者的表示中

5、随机性体现在下标 上。样本 是总体 的一个有代表性的剖面。,总体平均数 的估计为:,总体总和的估计自然为:,由于这两个估计之间仅差一个常数因子N,因而只要重点研 究 的估计量 的若干性质即可。 是样本平均数,由于样 本的随机性,样本平均值也是随机变量, 理论上的平均值,即数学期望为:,其中 表示对 中所有组合 求和,对于 中的每个元素,比如 ,它与其它元 素构成样本的可能次数显然为 ,因此 ,乃至 在 中出现的次数均为 ,于是,即 是 的无偏估计。同样 也是总体总量 的无偏估计,例3.1 某班第一小组10人的数学考试成绩分别为: 100,95,92,88,83,75,71,62,60,50 平

6、均分为77.6。先从中任选3个为一组样本,其选法共有120种 每种选法都有概率1/120。以4组样本为例(100,95,92),(100,83, 50),(88,83,62),(62,60,50)它们的样本平均数分别为95.67, 77.67,77.67,57.33。,从抽样调查的角度来看,我们希望抽到第二或第三组样 本,根据它们来估计总体平均数相当准确。而第一和第四组 样本的估计相当糟糕。但它们入样与第二第三组具有同样的 可能性,这是否与 的无偏性相矛盾呢?,其实并不相矛盾。我们关心的是,尽管每一组样本入样 的概率相同,像第二第三组这样的“良好”情况就大体而言是 否会多于像第一第四那样的“糟

7、糕”情况呢?如果肯定的话, 那么就能指望在一次随机抽样中发生的估计误差较小。该问 题的解决将由下一节的讨论给出。,3 估计量的方差及其估计,下面求 的无偏估计 的方差,其中 表示对 中所有组合 求和,(或 ),(3.6),对随机有放回抽样,由于各次抽取是相互独立的,由概率论 的知识可以求得,此时:,(或 ),(3.7),比较(3.6)式与(3.7)式,发现同样用样本平均数来估计总体平 均数,它们都是无偏估计,但随机无放回时的方差小于随机 有放回时的方差。 的方差表示新盒子的离散程度,也就是 表示了 取值范围的大小,方差小表明 取值远离中心 的 可能性较小,这样随机的一组样本得到 的实现值距 很

8、近 的可能性就较大,这正是我们所期望的。因此,在实际抽样 中我们采用无放回抽样方式。,(3.6)式中的因子(Nn)/(N1),称为随机无放回的校正 系数,它是对随机有放回情况的校正。,如果 N 相当的大,则总体可视为无限总体,由(3.7)式,,即为 的方差,这是无限总体情况样本平均数的方差。,而有限总体的 的方差为:,因此称 1f 为有限总体校正系数,其中f=n/N,称为抽样比,抽样比就是样本所占总体的比例。 f 越大,越接近 1,则样 本越接近总体, 与 的随机误差就越小;当 f=1 时,抽样 变成全面普查,此时误差消失。,一般情况下 f 比较小,由于 N 是固定的,也就意味着 n 相当小,

9、此时(3.6)式告诉我们 的方差将随着 n 的减少而增 大,此时 1f 在 1 附近,对 的影响不大。事实上, 抽取样本越少,抽样误差越大。,当然,影响 的方差的另一个重要因素是 或 。设 想,当 相当大时,原盒子中的数据相当地分散,从一个很 分散的盒子中随机取一样本来代替总体,你不可能指望误差 很小。,对于 的方差,n 的影响是可以由人们主观控制的,只 要多花费一些,多抽取一些就能适当降低误差,当然这只能 控制在一定范围内。,可见实际抽样调查中用 估计 所产生的随机误差,也 即 的方差,主要受到样本容量 n 的影响,因子1f 的影响 几乎可以忽略。,的影响是客观存在的,盒子中数据越分散,总体

10、就变 得越难捉摸。实际上, 本身就是一个待估参数,必须对 的大小给出估计,不估计 就无法评价 所产生的误差可能 有多大。,设 为来自总体的样本,既然它是总体的 一个缩影,那么这些值的离散程度应该反映了盒子的离散程 度,因此采用统计量(样本方差):,来估计 。为了研究统计量 的性质,将 改写为:,用 作为 的估计,利用正态近似理论可以建立 的置信区间,当N,n,Nn 相当大时, 的分布近似可用正 态曲线表示,由于,所以,取置信水平为 ( ),注意到标准正态曲线关于0点的对称性,我们有,其中 是标准正态曲线的 分位点,任何一本概率 统计的书上都提供有标准正态分布表以供查取分位点。,这样, 的 置信

11、区间为:,其中 为未知参数,用其无偏估计 来代替,则得置信区间,或,例3.2 某镇有3250名职工,为调查该镇职工收入情况,用简单 随机抽样方式从中抽取30名,调查结果如教材53页表31。 试估计该镇职工的平均月收入 ,并求置信水平为95的近 似置信区间。,解:,N3250,n30,查标准正态分布表得分位点:,于是该镇职工月平均收入的估计值为672.23元,它的95近 似置信区间为:,本节主要介绍了 估计 的随机误差以及置信区间的估 计,对于总体总和的情况,从平均数的情况很容易导出有关 结果。,4 百分数的估计及其误差,在介绍盒子模型时已经指出,对于总体中具有某种特性的单元所占比例的抽样调查,

12、可建立01盒子模型。即 个 具有某种特性的单元相应的票上全标上 1,其余全标上 0。,是未知数。盒子中1所占的比例是待估参数: 。,由于该参数恰为01盒子的平均数,在简单随机抽样理论中 自然地采用 这个无偏估计。为与参数记号相配,记:,由第二章第七节的讨论可知,盒子的方差为:,因此:,其中PQ为未知参数的乘积,只有对 进行估计才有可能 获得P 的置信区间。尽管P,Q各有它们的无偏估计 但它们的乘积并非PQ的无偏估计。这里需要借助于 的无偏 估计 ,并且容易计算得:,这样可得 的无偏估计为:,(或写为 ),其实当 N 比较大时,样本中 1 的个数服从二项分布,因此当 n 不是很大时,近似置信区间

13、(3.26)会发生一定差错,应当考 虑必要的修正。p 的修正置信区间为:,(3.26),(3.27),例3.4 某地区有30587人,为调查其中吸烟者所占比例而从中 随机无放回抽取2000人进行访问,得知其中烟民785人。试估 计该地区吸烟者比例,并给出吸烟比例的置信水平为90的 近似置信区间。,解:,N30587,n2000,置信水平为90,则 ,查表得,又,故置近似信区间为,(37.52,40.98),5 样本容量 n 的确定,抽样调查理论中,样本容量 n 的确定具有实实在在的意 义。 n 过大,违背抽样调查的宗旨, n 过小,则抽样误差偏 大,无法作出精确的估计。,一般情况,总费用是固定

14、的,在固定的费用下尽量提高 精度或在必需的精度下使费用尽可能减少,是我们确定 n 的 基本原则。下面主要研究简单随机抽样下如何确定 n 。,设选取 n 个样本,访问每个单元所需的平均费用为 , 另外除了样本调查所需的费用以外,还需要一笔基本费用, 例如办公费、设计问卷的费用等,用 表示。这样总费用为,我们 主要考虑 n 与精度的关系:,精度要求主要涉及到估计的方差(或相应的标准差),或估计量与参数的绝对误差或相对误差。若记 为基于简单随机样本 的关于参数 的估计量。 是一个随机变量,要使此绝对误差控制在一定数之内,只能以概率加以描述,假设置信水平为 ,那么:,同样,若以相对误差 r 作为标准,

15、则有,假设 n 相当大时, 可以利用正态近似,我们有,再利用正态近似的手段,得:,这里我们定义:,我们称之为统计量 的变异系数,它在抽样调查中也是一个 比较重要的量,尤其是在评价统计量的精度时常常用到。,将(3.31)式中的 取为 为例, ,如 果调查时 有一定要求,那么由(3.31)式以及额定的 ,只要 已知,我们完全可以求得 n 的值。,如果 是未知的,我们可以先作少量抽样以估计 , 然后再确定 n ,当然这个确定的 n 比少量抽样的容量通常 要大。,如果问题是估计总体的具有某种特征的子总体所占的 百分数 P ,那么,代入(3.31)式,并解得:,(3.35),由于 P 未知,仍然必须事先

16、利用少量抽样加以估计。但在实 际操作中,当 时,PQ很接近P=0.5时的最大值,,以P=0.5代入,此时,得到 n 约为,如果调查对 有一定要求,自然也能得到 n 的大约数值。,(3.36),以(3.36)式确定 n ,建立在 P 不大不小的基础之上。这 种信息有时在抽样之前事先感觉得到。有时事先也可能感觉 P相当小(或Q相当小)。例如,要估计流水线上生产一批 精密元件的废品率,此时废品率往往很小,P0.1是最起码 的。对此废品率的抽样调查所需的 n 就不能用(3.36)式了。,这种场合下如何确定 n 呢?一个可供选择的方法就是逆 抽样。思路很简单,我们事先估计 P 很小,此时确定的 n 次

17、抽样中必须含有废品,否则很难估计 P 。于是逆抽样方法建 议我们事先确定一个大于 1 的整数 m ,从总体中随机逐次抽 取样本,直到出现第 m 个“废品”(或具有某种特征的单元) 为止。此时,我们实际抽取的样本容量 n 是一个随机变量, 我们使用:,来估计 P。逆抽样的特点是 n 为随机变量,与P及m有相当的 关系, 的精度就与 m 有密切的关系。我们的问题是根据调 查的需要去确定事先指定的“废品”数 m 。,(3.37),一般地,由于欲估计的 P 相当小,因此可以认为 Q 几乎 为 1 。运用概率论知识可求得 的变异系数的一个上界:,如果对 有一定要求(这实际上就是精度要求),那么 可以求得 m 的大致值。,例如 ,那么,,那么,理论上 是 P 的无偏估计,因此当 P 很小时,由(3.37) 可知,n 应相当大。,本章习题解答,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论