语言统计第六章 从样本统计量估计整体参数ppt课件_第1页
语言统计第六章 从样本统计量估计整体参数ppt课件_第2页
语言统计第六章 从样本统计量估计整体参数ppt课件_第3页
语言统计第六章 从样本统计量估计整体参数ppt课件_第4页
语言统计第六章 从样本统计量估计整体参数ppt课件_第5页
已阅读5页,还剩21页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第六章第六章 从样本统计量估计从样本统计量估计 总体参数总体参数 第一节 点估计 第二节 区间估计 一、样本平均数的抽样分布 二、总体平均数的区间估计 从样本统计量估计或推断总体参数是推断统计的一个重要部分。 我们在引入 “样本 和 “总体 这两个概念时看到, 言语研讨所涉及的总体往往非常大 甚至是无限大的 , 因此难以对其中一切个体都加以研讨,研讨者们所能做的只是经过随机的方法从总体中抽取一个具有代表性的样本加以研讨,然后再从有关样本统计量来估计或推断未知的总休参数,例如从样本平均数来估计总体平均数。本章只讨论如何从样本平均数X和比 分别估计总体平均数 和比 。估计的方法有两种: 点估计与区

2、间估计。第一节 点估计 当总休平均数或比例未知时,我们可以直接把样本平均数或比例用作它的估计值。由于样本统计量为数轴上的一个点,所以称为“点估计值 。 一个理想的点估计值至少应具备以下两个条件:1无偏性 普通情况下,样本统计量是不会和相应的总体参数完全一样的,两者多少都会有一定的差距,但是假设用无限多个样本的统计量来估计总体参数,平均估计误差将会等于0。具有这一特征的统计量就无偏估计值。 例如,用样本平均数估计总体平均数时,总会有些误差,在有些样本中,它能够会大于总体平均数,而在另一些样本中它又能够会小于总体平均数,而且对于不同的样本估计误差的大小也是不同的,但是无限多个样本平均数的平均估计误

3、差为0。换句话说,样本平均数的平均数将会等于总体平均数。 因此样本平均数是一个无偏点估计值在第四章里,我们在讨论样本方差和规范差时曾经指出,公式中要用N-1 而不能用N 做分母, 就是要保证方差和规范差具有无偏性, 由于用N做分母时,样本方差普通要小于总休的方差 。 2一致性。 样本容量越大,根据样本计算出的估计值越接近总体参数的真值。作为总休平均数的估计值,样本平均数就具有一致性。第二节 区间估计 即使是一个理想的点估计值,也无法抑制点估计的一个致命缺陷,那就是它易受样本变化的影响:每次抽取的样本不同,得出的统计量也就不同,因此它所提供的参数估计值也就会不同。假设能把抽样所带来的这种变异性或

4、不确定性思索进去,对总体参数的估计将会更有意义简而言之,区间估计就是为总体参数计算出一个能够的取值范围或值域,然后指出总体参数处在该值域的能够性有多大。 一、样本平均数的抽样分布 假设有一个变量的总体至于何种总体无关紧要,我们从中随机抽取取一个含有假设干个观测值的样本记作 S1,计算出样本平均数记作X1,然后把所抽取的观测值再放回总体。按照此法,再抽取样本S2,得样本平均数X2 ,等等。 从实际上讲, 我们可以无限次地反复这一过程, 抽取n 个样本, 计算出 n个样本平均数。正如我们可以为观测值绘制分布图那样,我们也可以为这些样本平均数绘制分布图为了便于了解,无妨把这些平均数看作观测值,这个分

5、布就叫做平均数的抽样分布。 1.渐近 正态分布 平均数的抽样分布的形状取决于总体的分布和总体方差能否知,以及样本容量的大小:当总体的分布为正态,总体方差 知时,样本平均数的分布为正态分布;当总体的分布为非正态,总体方差 知时,假设样本较大,那么样本平均数的分布接近正态分布,其样本越大,总体偏 接近的程度取决于样本容量以及总体的偏斜程度斜程度越轻, 两者就越接近。 这一景象叫做 “中心极限定理 。 当样本平均数的分布为正态或渐近正态时,分布的平均数与总体平均数相等,而分布的离散程度那么小于总休的离散程度。假设横轴上的丈量单位一样,那么总体的分布形状较为平阔,而样本平均数的分布那么较为尖狭。不过,

6、如前所述,一个呈正态分布的变量可以经过求规范分的方法,转换为规范正态变量 见第五章 ,我们也可以用此方法把每个样本平均数转换为规范分,进而把正态的样本平均数的抽样分布转换为规范正态分布,公式为 样本平均数分布的离散程度是用样本平均数的抽样分布的规范差来表示的。为了与样本规范差区别开来,抽样分布的规范差习惯上称作“规范误 ,用符号SE表示。 规范误与样本容量 N以及总体的规范差 有关,即 也就是说,规范误与总体规范差的大小成正比,与样本的大小成反比严厉来说是与样本大小的开方成反比,因此在总休规范差一定时,为了使规范误减少一半,就必需使样本容量扩展四倍。 2. t分布 前面讲的是样本平均数呈正态分

7、布或接近正态分布的情况。此外,还有两种情况:一是总体分布为正态,但总体方差 未知,且样本容量又较小;二是总休分布为非正态,而且总体方差 未知,样本容量又较小。在这些情况下,样木平均数的分布为t分布这是由于总膂力一差末知,在计算 这一比率时,要用样本规范差S取代 ,但是在样本较小的情况下,样本方差差S2作为总体方差 的估计值并不是很准确的,这时 不再呈正态分布,而是呈“t分布,因此该比率也就不再称作Z值,而是t值。 t分布在某些方面与正态分布是一样的,譬如它的平均值为0,平均值两侧是对称的,左侧t为负值,右侧为正值。但是不同的是,t分布的方差要大于规范正态分布的方差即大于1,因此与正态分布相比,

8、t分布的中间要低平一些。样本越小,分布的方差就越大,其中间也就越低,两尾端就翘得越高。反过来,随着样本容量的添加,t分布的方差逐渐接近1,而当样本容量大到一定程度时,t分布的方差就等于1 。因此,t分布的外形随着样本大小的变化而变化,但是这里“样本大小不是通常所指的N,而是N-1即样本容量减1,即所谓的“自在度。 从以上的讨论可以看到,虽然决议样本平均数分布的要素有总体的分布形状、 总体方差能否知以及样本容量,但是由于在实践运用中总体的分布情况和方差往往是未知的当然在言语研讨中经常遇到的许多变量都是呈正态分布的,因此在多数情况下,样本的容量就成了关键要素或独一的要素。因此,除非对统计的条件要求

9、很严厉或对统计结果的准碗性要求非常高, 普通是避繁就简, 而仅思索样本的容量: 样本较大时, 就认定其平均数的抽样分布为正态分布,否那么为t分布。至于何为“大样本 , 下面还要进一步讨论。 二、总体平均数的区间估计 顾名思义,区间估计不像点估计那样给出一个值样本统计量作为总体的参数,而是在样本的根底上计算出总体参数值所在的能够区域。 由于这个区域在数轴上不是一个点,而是一个区间或一段间隔,所以称作“区间估计值。 1.样本抽样分布为正态时的区间估计 1几个根本概念 置信程度:从样本统计量估计总体参数时的把握程度或自信心程度。 置信区间:两个规范误的值所界定的区间。 置信界限:这一区间的上下界。

10、临界值:定义这一置信区间的规范误的值。 (2)总体平均数的区间估计 从样本平均数X来估计总体平均数 ,是进展总体参数估计的常见情形之一。这时,我们的义务就是根据样本平均数计算出总体平均数能够落入的置信区间,以此来估计总体平均数的能够取值范围。该置信区间的计算方法是 我们看到,对于大样本,抽样分布服从正态分布,这时式中的“临界值为对应于某置信程度(或显著程度)的Z值从正态分布表中可以查到。该式用符号表示, 那么为 或 第二式表示 处于其两边的式子表示置信区间的下限和上限所界定的范围之内。式中 表示以平均数为界置信程度的一半所对应的Z值。在有的书中该项写成 ,这表示显著程度的一半即正态分布的一端的

11、尾巴所对应的Z值。不同的表示方法适用于按不同的方法编制的正态分布表第二式适用于本书所列的正态分布表,但最后查得的Z值是一样的。在计算规范误 时, 假设总体规范差未知,那么用样本规范差S替代,即 。 3比例的区间估计 好像对总体平均数的估计那样,我们可以为其计算一个能够的取值区间即置信区间,并同时指出正确估计的概率。为了计算此置信区间,同样要先计算样本的比例的抽样分布的规范误SE公式为 样本中的比例, N样本容量。 计算总体比例P的置信区间的公式为用符号表示为式中 校正值。对于较大的样本,加与不加该值对结果不会有太大的影响,但当样本较小时,那么最好加上。 2.从小样本对总体平均数进展区间估计 我

12、们上面讨论的是当样本平均数的抽样分布为正态时如何对总体平均数或比例进展估计。从小样本对总体平均数或比例进展区间估计的方法是一样的, 即: 。 独一不同的是, 当样本较小时,其抽样分布不是正态分布, 而是t分布。这时 ,公式中的 “临界值不再是从正态分布表中查得的Z值, 而是t分布表中对应于某一置信程度或显著程度的t值。 3.置信区间与置信程度、样本容量以 及规范差的关系 区间估计是在样本统计量的根底上来估计相应的总体参数,因此我们所希望的当然是:这一区间越小越好,而估计的正确概率越大越好。但是,从进展区间估计的公式可以看出,在其它条件一定时,要提高正碗估计的概率 即提高置信程度 , 置信区间就

13、不可防止地会增大, 而要使置信区间减少,就要降低正确估计的概率。必需牢记的是,置信程度越低,置信区间越小,该区间不包括总体参数的能够性就越大;置信程度越高,置信区间越大,该区间包括总体参数的能够性就越大。 4.样本容量 样本的 “大 与 “小 是相对的, 普通情况下,一个变量的总体的分布是未知的。假设一个量是由数个相互独立的部分相加而来的,那么该量的分布普通为正态. 在言语研讨中经常遇到的许多变量 例如 “测试分数 都具有这种性质, 那么不需求太大的样本容量就可以保证样本平均数的正态分布。当样本容量大于30时,不论总体的分布能否为正态,根本上都可以保证样本平均数的抽样分布为正态或接近正态。因此

14、,普通30为界, 样本的观测值少于30,就是“小样本, 大于30就叫做 “大 样本。 此外,所需样本容量的大小与其中观测值能否相互独立也有关系。假设它们不具备相互独立性观测值之间在有关方面相互联络,或者一些观测值的性质受其它观测值的影响,就需求增大样本容量才干保证样本平均数的正态分布。 5.要到达一定的准确度,如何计算所需样本容量 估计总体平均数: 假设用E来表示允许的误差或估计的准确度 , 以 表示总体规范差,以Z表示对应于某一置信程度的规范分假设抽样分布为正态,所需样本容量的计算公式为 但是,在通常情况下, 总体的规范差都是未知的, 因此在计算所需样本容量之前,就需求先抽取一个小一些的样本,计算出规范差S,以此作为总体规范差的估计值,这时,上面的公式就应改写为 估计总体比例:同样可以设定一个允许误差,然后计算所需样本容量。 估计总休比例的公式是 当样本容量较大时,要不要校正值 关系不

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论