抽样理论和参数估计精_第1页
抽样理论和参数估计精_第2页
抽样理论和参数估计精_第3页
抽样理论和参数估计精_第4页
抽样理论和参数估计精_第5页
已阅读5页,还剩10页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第四章抽样理论和参数估计知识引入1970年美国首次进行征兵抽签, 组织者将19-25岁的适龄青年按年龄分组, 使用编号001-366 的等重量塑料球,001代表1月1日出生者,031代表1月31日,366代表12月31日。 然后将所有塑料球放入滚筒中混合抽取号码,每组抽中号码对应生日的青年依次应征, 直到人数足够为止。之后,有记者指出此次抽签产生了严重的偏差,他们注意到,年末生的人似乎倾向于被抽到较前面的征兵顺序。 其结果就是一堆 12月份生的人去了越南战场。 后来,经过统计学 家的分析,发现这种 偏差”确实存在;经过分析终于找到了原因,原来代表生日的号码塑料 球是一次按一整个月份装入滚筒中混

2、合的,加上又没有均匀混合;于是1月份的生日容易在滚筒底下,12月份的是最后才装进去,容易在上面。在抽样术语中,经常能够听到随机抽样”、随机选择”这样的表述, 随机性”原则其实保证了总体中的每个个体被抽中的概率相等,因而被认为是保证各种抽签、选择过程公平、 公正的一个基本手段。上述抽样就没有保证这种随机性。在本章中,我们还会看到,作为推断的基础,我们直接研究的样本是否得当”对研究总体十分关键,可以通过一定的抽样设计制定科学、合理、公正的抽样方法。如上述随机性原则可以保证抽样可以使得样本和总体有相同的内部结构,也就是说有最大的可能使总体的某些特征在样本中得以再现。本章在介绍必要的抽样概念和抽样方法

3、基础上,重点介绍抽样分布理论,并对参数估计进行简要介绍。第一节抽样和常用抽样方法一、简单随机抽样抽样(sampling)或取样,在整个研究过程中位于数据收集之前,恰当的抽样设计是保 证样本代表性的关键环节,是利用样本对总体进行假设检验或参数估计的基础。抽样涉及到的一些基本概念在绪论中均已介绍。一个合理可行的抽样设计,一方面要求针对调查或实验研究的具体情况选择一种适宜抽样方法;另一方面应该根据调查研究所要求的精确度及经费状况确定样本容量。一般所说的随机抽样,就是指 简单随机抽样,它是最基本的抽样方法, 适用范围广,最 能体现随机性原则且原理简单。 抽取时,总体中每个个体应独立地、等概率地被抽取。

4、 常用 的实施方法有抽签法和随机数表法。1、抽签法:是把总体中的每一个个体都编上号并做成签,充分混合后从中随机抽取一 部分,这部分签所对应的个体就组成一个样本。2、随机数表法:所谓随机数表或乱码表,是由一些任意的数毫无规律地排列而的数表。 教材附表17即是一万个数字的随机数表。随机数表的用法许多计算机软件都可以自动生成随机数字。这里介绍教材附录 17 中乱码表的用法:首 先对总体中所有个体依次编号, 接着从表中任一位置(任意行列交叉处)开始,依次往下找 足你所需要的随机数 (均为 5 位),以这些随机数为编号的个体即组成一个样本。 在查找随 机数时,有两点要注意, 一是总体容量是几位数, 就从

5、表中随机数末尾截取相应位数(因而 最多可以截取 4位数,抽取 9999 个)。如总体容量为 500,则可以看表中数据的末尾三位 数,并依次往下找; 二是找到的数字若超过总体的容量范围, 则跳过, 比如总体容量为 500, 要求抽取 30 个,则设定任意起始点往下找,找到一个数字末尾三位为678,则跳过,看到一个098,则表示编号098号被抽中,直到找满30个为止。当然这两种方法都是针对有限总体的,在实际当中的无限总体可以采用其他方法来抽 样。简单随机抽样从理论上说是最符合随机性原则, 但是这种方法在实际应用时, 存在着一 些不足:首先,对大总体进行编号是相当困难的;其次,由于完全采用随机性,实

6、际抽取的 那一个样本可能不具备总体本应该有的一些特性。另外, 对于大总体在制签或查表时都是相当困难的。 对于已有顺序编号的大总体, 实际 当中常常采用 等距抽样 简洁地实现。 等距抽样也称 系统抽样 。顾名思义, 它是按照抽样比例 (样本容量与总体容量之比)确定抽样间距(抽样比例的倒数),然后从任意起点间隔抽样间距逐个获得样本中的个体。如一总体有 5000 个,要求抽取一个 500 人组成样本,即抽样 比例为 10%,则从任意位置开始(假设总体中所有个体均已编号,且一般地假设从10以内开始),连续抽取 a、a+10、a+20、a+4990共500个编号个体作为样本。二、分层抽样分层抽样是事先按

7、总体已有的某些特征, 将总体分成几个不同的部分, 每一部分叫一层, 再分别在每一层中随机抽样。 这种方法充分利用了总体的已有信息, 因而是一种非常实用的 抽样方法。对于一个总体如何分层,分多少层, 要视具体情况而定。 一个总的原则是,各层内个体 在该特征上的差异要少, 而层与层之间的差异要越大越好。 比如说, 对大学生可以按其学校 是一流大学、重点大学、 一般大学来分层。对于复杂问题还可以按几个分层标准来分层。如 韦克斯勒幼儿智力量表在制定常模时,就按年龄、性别、种族、地区、家长职业和城市农村 等六个因素来分层,使得样本中各种搭配下的人数比例都与总体尽量接近。分层抽样在具体实施时,又根据是否知

8、道各层内标准差分成两种办法:按各层人数比例分配。 这是在各层内标准差不知道时的分配方式, 即让样本中各层人数 的比例与总体中各层人数的比例相同。最佳分配。这是在已知各层内标准差时的分配方式,它是按标准差大小和总体中各层人数比例共同来确定最终样本中各层人数的比例。任意一层中要抽取的人数可表示为:其中N表示总体容量,n表示样本容量,i表示第i层。 确定了各层内的抽取人数,每层内的抽取可采用简单随机抽样法进行。三、两阶段抽样两阶段抽样也称为分群抽样, 首先是将总体分成若干群,从中随机选出一些群, 这是第一阶段抽样;再从被选出的群中进行随机抽样,这是第二阶段抽样。这里分群的原则正好和分层抽样中分层的原

9、则相反,要求各群内个体之间的差异尽量地大,而各群之间就没多大的差异。比如要进行一个全国范围内生活消费方面的调查,可以按大城市进行分群,显然各大城市内的居民千差万别,而各个城市之间则相差无几,因此不必选取所有的大城市,可以只从中选择一部分,然后再在这些城市进行抽样。在一个复杂的抽样设计中, 往往可能将分层抽样抽样和分群抽样反复应用,最终才得到所要的样本。如上面的例子中,要在一个大城市里选取一部分居民,也不是件容易的事,这时可再分群或分层,直到便于抽样时为止。四、样本容量的确定样本容量的大小对统计推断非常重要。样本容量过小,会影响样本的代表性, 使抽样误差增大而降低了统计推断的精确性;而样本容量过

10、大,虽然减小了抽样误差,但可能增大过失误差,且增大经费开支。另外,样本容量与抽样误差之间并不存在直线关系,随着样本容 量的增大,抽样误差减小的速度越来越慢。对于样本容量的确定受到很多因素的影响,也有很多相应的计算公式, 这里不一一介绍。教材中介绍了对样本均值进行推断时利用最大允许抽样误差计算样本容量的方法。所谓最大允许抽样误差”是指某一总体参数与其点估计(抽样所得的统计量)之间的差异在实际中 所能接受的最大范围。比如,对于总体均值仏它的点估计是 扌,那么在实际中用 /来估计时,研究者所能接受的最大范围就称为最大允许抽样误差,一般记为d。确定样本容量的目的就是使抽样的误差在研究者所能接受的的范围

11、以内,因此样本容量与d是有直接关系。根据下面的抽样分布知识,可以得知:第二节抽样分布理论、为什么要了解抽样分布推断统计的核心思想是从特殊到一般, 然而,统计推断和直接推断的本质区别在于, 根据统计量来下结论; 这会产生很多偏差。 概率的形式描绘出样本统计量在无限次抽样从部分到全体,即用样本统计量来推断总体参数。后者往往不会关心样本和总体的差异, 而直接 而统计推断则依据抽样分布理论进行推断, 它用 (在无限总体中总可以得到无限多个容量有限的样本)中的分布规律,从而帮助我们判断一次抽样结果的意义。以一个有限总体抽样的例子来说明抽样过程。某班25名同学的某科成绩,它就是要研究的总体:1234567

12、891011121381996698559210084697477661001415161718192021222324258410068597160949192957884为了较快地估计该班该课程的平均成绩(总体参数),从中有放回地 抽取5名学生(即抽取一个学生的成绩登记后再放回去抽取下一个,所以已抽取的可能在后面再次被抽取到),用他们的平均成绩(样本统计量)来反映总的平均情况(实际中,直接对25个数据求平均即可,这里以具体数据说明抽样过程,想象这里的总体为无限容量)。下表列出了一种可能的抽样情况:X1X2X3X4X5第一次抽样学8成绩711009910084第二次

13、抽样学号102312151778.8成绩74956610059第三次抽样学号5152211083.8成绩55100999174这里只抽取了 3个样本,但可看出每个样本的平均数都与总体均值81.5 (实际情况中总体参数往往未知) 有些差异,第一个样本显然比总体均值大多了。如何判断哪个样本统计量更具有代表性(总体参数未知时),这就需要了解样本平均数】的分布规律,以便更好地对总体均值进行估计或推断。从上面的例子可以看出抽样的实质就是对总体进行n次重复试验或n次重复观察,而每一次试验或观察都是相互独立的(有放回抽样),即抽样问题就是研究n个 独立同分布”的随机变量的函数问题。 这里独立”是指n次重复试

14、验互不影响, 即各样本独立; 同分布 是这n个随机变量都从同一总体取值。所以对于用随机变量X表示的总体,常常用(X1 ,X2 ,Xn )来表示它的一个容量为n的样本。注意,这里的每个 Xi作为X的一次观测值本身也是随机变量。二、基本随机变量分布与抽样分布一般的随机变量概率分布可称为基本随机变量分布,但上述我们要研究的是样本统计量的概率分布。注意到,根据上述n个独立同分布随机变量计算而来的样本统计量本身也是随 机变量,则它们的概率分布就称为抽样分布,即样本统计量或基本随机变量函数的理论分布。根据样本统计量的不同,可区分样本均值的抽样分布、样本方差的抽样分布、样本相关系数 的抽样分布、比例的抽样分

15、布等。另外,从分布形态上看,常见的抽样分布主要包括是正态分布、T分布、X分布、F分布等,将在后文陆续介绍。三、抽样分布理论抽样分布理论是整个推断统计的理论基础,对它们的证明不用理会,只需掌握这些结论及其应用条件。假设某一个用随机变量 X表示的抽样母总体的均值为 仏方差为 負从总体中抽取容 量为n的样本,则有如下结论:(1) 一切可能样本的平均数的均值(期望)等于母总体的均值,表示为:EX =卩(2) 一切可能样本的平均数的方差等于母总体方差的n分之一,表示为:DX = ,/n因此样本均值分布的标准差等于母总体标准差的分之一,称其为标准误(SE),即SE =小/。(3) 一切可能样本的方差的均值

16、(期望)等于母总体方差的n分之n-1,表示为:ES2 = (n-1) /n注意以上结论都没有要求总体分布呈正态,所以对任意总体均有这些结论。之前已经谈到中心极限定理(见第三章第三节),一般而言,抽样分布有如下结论:(1)若母总体呈正态分布,一切可能样本的均值分布也是正态分布,表示为:2 2XN(卩,0则fN(卩,/n)(2)若母总体不呈正态分布, 只要样本容量 n足够大,则一切可能样本的均值分布趋 近正态分布,表示为:X?,当n 8时,】N(卩,2/* =工*十十叫)i-lX分布是连续分布,但有些离散分布也服从X分布,尤其在次数统计上非常广泛,这个应用将放在第八章介绍。实际上,对从任意一个正态

17、总体中抽得的随机变量样本,其标准化后的Z分数之平方和也服从自由度为 n的X分布。若母总体的均值未知, 可使用样本均值二代替,则得到的新 的统计量服从自由度为 n-1的X分布。工=(響)2 =色弊*_)上面这个公式在应用中更为常见;从统计量的构造可看出,它主要是采用 比商”的方式,将样本方差和一个已知的总体方差相比从而对该样本方差所来源的总体方差进行推断。五、T分布T分布是由正态分布和卡方分布构造而成的一个新的分布。设X,丫为相互独立的随机变量,X服从标准正态分布,Y服从X(n)分布,则统计量t =X/ V丫服从T(n),其中参数n 称为自由度。T分布的图象呈单峰对称状(以Y轴为对称轴),非常接

18、近标准正态分布,峰部比标准正分布低,两端比标准正态分布高,当自由度n很大时(n30,120) , T分布与标准正分布已无法区分,所以 T分布常常用于样本容量小于30的小样本,故也称 T分布理论为小样本理论。一般情况下,T分布的均值为0,方差随自由度 n的增大从大于1的方向越来越接近1, 更准确的表示是:co 1和卡方分布一样,T分布在实际应用中也有一个更常用的构造。前面的正态抽样分布中,我们知道均值的抽样分布在很多时候是正态或近似正态分布,即便母总体的分布不是标准正态分布,也可通过标准化过程进行转化。即总体分布明确,参数和d给出时:X-uZ皿(叮)cr/VW但如果母总体参数 02不知道,则可用

19、样本标准差来代替之,则此时新的统计量不再服从标准正态分布,而是一个新的分布,即自由度为n-1的T分布。1)注意在总体方差未知时,样本平均数本身仍然服从正态分布,服从T分布的是包含样本均值的类似于 Z的新统计量。根据 T分布的原始构造,这个结论可以这样来理解:前提条件t统计量的定义 变形丫分布的定义六、F分布2 F分布是由两个卡方分布构造而成的一个新的分布。若随机变量Cl II”厂佃),则统计量其中参数ni、n2是两个自由度。和卡方分布一样,f分布也在第一象限内,呈正偏态,随着两个自由度的的增大,趋近于正态分布。不过其趋于正态分布的方式和卡方分布不同。一般情况下,F分布的均值接近1,方差一般都小

20、于 1,且随两自由度的增大方差越来 越小,即图形越来越收缩。更准确的公式是:7角F分布也有一个更常用的构造,即两个服从自由度为样本容量减去1的卡方分布的比值:七、抽样分布的查表对于这些抽样分布的应用,最重要的是知道如何在推断统计中查相应的概率分布表。在标准正态分布中,由于曲线形状固定,因此在半边存在统计量Z值(分布的横坐标)和中央概率(当然也可以是尾端概率)的一一对应关系,它们之间可通过查表进行换算。但卡方 分布和T分布都有一个自由度参数,自由度不同,曲线形状就不同;因而要对每个常用自 由度编制一个如同标准正态分布那样详细的统计量(X或T)和P的对应表会有很大篇幅。因而,附表2和附表11的这两

21、种表都采用仅列出一些常用自由度下若干最常用概率和 统计量间的对应表,而且概率都规定是尾端概率;其中T分布表是采用分布在两个尾端的所谓 双侧概率”和统计量对应;卡方分布是采用右侧尾端概率和统计量对应。最后,F分布由于有两个自由度,因而在一个表中所能列出的F统计量和概率的对应更少,附表3、4中行、列分别为两个自由度(根据实际需要,分母自由度变化范围更大)占用,则只能提供两个最基本的概率与统计量相对应,且这概率也是尾端概率。注意,通常附表4的单(右)侧概率分布表更为常用。举几个简单例子说明如何查表:上图4-2所示的单侧概率 Xo.05(7)=14.1的查表方法是,在第一列找到自由度7这一行,在第一行

22、中找到概率 0.05这一列,行列的交叉处即是14.1。这个对应关系意味着在自由度7时,X=14.1所割出的X分布曲线右侧概率为0.05。反过来也是如此。上图4-3 所示T分布中,查T0.05/2(8)对应的统计量值,在第一列找到自由度8这一行,在第一行中找到概率0.05这一列,行列的交叉处即是2.306。该对应关系意味着在自由度8时,T=2.306以及其所对称的-2.306所割出的双侧尾端概率为0.05。此时,若只使用单侧概率(表的下端),则显然T=2.306割出的单侧尾端概率就只有0.05的1/2。下图分别是F分布双侧和单侧表,查表方法不再赘述,需要注意的是,F分布双侧表中, 尾端概率各为a

23、 /2时,其对应统计量并不具有相反关系,而是互为倒数。F值F值双侧概率表(附表 3)单侧概率表(附表 4)第三节参数估计一般情况下,总体的情况是不清楚的, 即总体的分布及总体的参数都可能未知,而参数估计就是解决总体的参数未知时如何通过样本统计量来估计总体参数的问题。参数估计有两种方法, 一是直接用一个样本统计量来作为总体参数的估计值, 如用样本 平均数估计总体均值,用样本标准差Sn-i估计总体标准差,这种参数估计称为点估计;另一种是根据抽样分布理论, 给出一个以样本统计量为中心的一个可能范围作为总体参数取值范 围的估计,且这种估计伴随着一定的把握程度(概率),称为 区间估计 。当然,如果将点估

24、 计看成是区间估计的一种特例, 可认为参数估计实际上是在估计精确度和估计把握度之间进 行权衡的结果,要追求精确度,估计的区间就要尽可能小,则此时把握度必然降低;反之, 若区间写得较大,则估计的把握度就越大。一、点估计点估计是用样本统计量来代替总体参数,一个好的点估计应具备的如下条件:无偏性 。用多个样本的某一统计量作为总体参数的估计值时, 若这些样本统计量与总体参数的偏差平均为零,则用该统计量来代替总体参数具有无偏性。无偏性更精确的表述为: 若样本的某个统计量的均值等于该被估计的总体参数,则该样本统计量是无偏的。一致性 。当样本容量越来越大时,估计值能越来越接近它所估计的参数。有效性 。当总体参数不止一个无偏估计时,其中方差最小者最有效。充分性 。若估计量反映了样本中每个数据的信息,则满足充分性。根据这些条件, 总体均值的点估计是样本平均数, 总体方差的点估计是样本方差S2n-1 ,两总体相关系数的点估计是从这两总体中抽样的两配对样本的相关系数。二、区间估计区间估计是给出包含总体参数的可能范围。 根据正态分布理论和抽样分布理论可知, 任 一样本的平均数落在总体均值左右 1.96 个标准差(指抽样分布的标准差)的范围内的概率 为 95%;则将此关系中总体均值反算回

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论