抽样分布基本概念_第1页
抽样分布基本概念_第2页
抽样分布基本概念_第3页
抽样分布基本概念_第4页
抽样分布基本概念_第5页
已阅读5页,还剩51页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

统计学-从典型案例到问题和思想

经济管理类“十三五”规划教材第一页,共五十六页。

典型案例【6】第一节抽样分布基本概念第二节几个常见的抽样分布第五章抽样分布第二页,共五十六页。【典型案例6】如何决定是否购买一批苹果?

俗话说“一日一苹果,医生远离我。”假如现在面对一批苹果,人们如何了解它们口感的均值和差异值,以便作出是否购买这批苹果的决策呢?人们常用作法:从这批苹果中随机挑出几个品尝后,得出这几个苹果口感的均值和差异值,以此作为这批苹果口感的均值和差异值,从而作出是否购买这批苹果的决策。第三页,共五十六页。

从统计学角度来讲,挑出的几个苹果

口感的均值和差异值就是样本平均数和样

本方差,这批苹果口感的均值和差异值是

总体平均数和总体方差。

这种用商品质量数据的样本平均数、

样本方差作为总体平均数、总体方差的作

法,是人们购买商品时常用的有效估计方

法,其理论依据是本章将要学习的内容。【典型案例6】如何决定是否购买一批苹果?第四页,共五十六页。第一节抽样分布基本概念一、样本容量和样本个数

二、参数和统计量三、抽样分布四、抽样分布的数字特征第五页,共五十六页。

总体是研究的所有个体构成的集合,其

中的个体的数目常用表示。

从中随机抽取部分个体构成一个样本,

构成样本的个体的数目,常用表示,称

为样本容量,也称样本量。

例如,典型案例6中,一批苹果有400个,从中抽取8个进行品尝,那么

,而

。显然,从中可以得到很多个样本。一、样本容量和样本个数第六页,共五十六页。

从一个含有N个个体的总体中,随机

抽取样本容量为n的样本,可得到很多个

样本,此即样本个数。

典型案例6中,将400个苹果编号,则

随机抽取的样本可能是由编号为1—8的这

8个苹果构成,也可能是由编号为101—

108的8个苹果构成等等。一、样本容量和样本个数第七页,共五十六页。

参数是用来描述总体数量特征的,如总

体均值、总体比例、总体方差等;

统计量是用来描述样本数量特征的,

是由样本构造的函数,如样本均值、样

本比例、样本方差等。

由于总体是唯一的、固定不变的,故

参数往往是一个未知的常数;而样本不唯

一,且一旦抽取出来,就成为已知,故统

计量是随机变量,其取值随着样本的变化

而改变。二、参数和统计量第八页,共五十六页。

抽样的目的就是要根据样本统计量去

估计或推断总体参数。

比如,常用样本均值去推断总体均

值、用样本比例去推断总体比例、

用样本方差去推断总体方差。

以上做法的理论依据就是——样本统

计量的抽样分布。二、参数和统计量第九页,共五十六页。

统计量是随机变量。抽样分布就是统

计量的概率分布。

如样本均值的概率分布、样本比例的

概率分布、样本方差的概率分布等都称为

抽样分布。三、抽样分布

以下将以样本均值为例说明统计量的抽样分布。第十页,共五十六页。

【例5-1】设有一个总体,含有5个个

体:10、20、30、40、50,即。采

取重复抽样的方式从中抽取样本容量为2

的样本,即。

试写出样本均值的抽样分布。三、抽样分布

解:由于=5,=2,从总体中采取重复抽样的方式抽取样本,则样本共有=52=25个。计算出这25个样本的均值,其结果如表5-1所示。第十一页,共五十六页。样本序号样本个体样本均值样本均值的概率110,10101∕25210,20152∕25310,30203∕25410,40254∕25510,50305∕25620,1015

720,2020

820,3025

920,4030

1020,50354∕251130,1020

1230,2025

1330,3030

1430,4035

1530,50403∕251640,1025

1740,2030

1840,3035

1940,4040

2040,50452∕252150,1030

2250,2035

2350,3040

2450,4045

2550,50501∕25表5-1n=2时样本均值的抽样及其取值情况第十二页,共五十六页。表5-2=2时样本均值的抽样分布从而,样本均值的概率分布如表5-2所示。三、抽样分布

10第十三页,共五十六页。

在例5-1中,若样本容量n=4,则样本

共有个,并且例5-1中的总体

是一个非常小的总体,现实世界中,我们

面对的总体往往很大,进而样本数目将很

可观,不可能将所有的样本都抽取出来。

因此抽样分布实质上是一种理论分布。

它可能是精确的某已知分布,也可能是以

某已知分布为极限的极限分布。三、抽样分布第十四页,共五十六页。

抽样分布理论在推断统计中具有重要

的作用,它是后续参数估计和假设检验的

理论依据和基础。三、抽样分布第十五页,共五十六页。设总体的平均数为,方差为,采

取重复抽样的方式,从中抽取独立同分布

的样本:,…,。根据数学期望和方差

的性质,可推出:

四、抽样分布的数字特征(一)样本均值的数字特征(5.1)第十六页,共五十六页。在例5-1中,样本均值的平均数总体均值

样本均值的方差

总体方差

由于n

=2,从而验证了(5.1)的正确性。四、抽样分布的数字特征第十七页,共五十六页。

由式(5.1)可知:的平均数为,

方差为。随着的增大,其方差越来越

小,从而的取值越来越向着靠拢,故用

去估计理论依据成立。

由此可见,典型案例6中,人们用挑选出的几个苹果口感的均值去估计这批苹果口感的均值的做法是站得住脚的。四、抽样分布的数字特征第十八页,共五十六页。

以上结论均建立在重复抽样情形下,

若是在不重复抽样情形下,方差需要用系数进行修正,从而样本均值的数字特征为:

(5.2)可见:用去估计理论依据同样成立。四、抽样分布的数字特征第十九页,共五十六页。

比例:总体(或样本)中具有某种属

性的个体数与全部个体数之比,总体比例

记为。

现有~,采取重复抽样的

方式从中抽取独立同分布的样本:,…,

。样本中变量值1出现次数记为,那

么变量值1出现次数所占的比例为/,即

为样本比例。(二)样本比例的数字特征四、抽样分布的数字特征第二十页,共五十六页。

根据数学期望和方差的性质,可推出

样本比例的数学期望、方差与总体的平

均数、方差之间的关系:(5.3)四、抽样分布的数字特征

由式(5.3)可知:的平均数为总体比例,方差为。随着的增大,方差越来越小,从而的取值越来越向靠拢,故用去估计理论依据成立。第二十一页,共五十六页。

以上结论均建立在重复抽样情形下,

若是在不重复抽样情形下,当样本容量很

大时,方差需要用系数进行修正,从而样

本比例的数字特征为:(5.4)可见:用去估计理论依据同样成立。四、抽样分布的数字特征第二十二页,共五十六页。

设总体的方差为,采取重复抽样

的方式,从中抽取独立同分布的样本:,

…,。根据数学期望和方差的性质,可

推出样本方差的数学期望、方差与总体的

方差之间的关系为:(5.5)(三)样本方差的数字特征四、抽样分布的数字特征第二十三页,共五十六页。

由式(5.5)可知:样本方差的平均数为

,方差为,随着的增大,其方差越

来越小,从而的取值越来越向着靠拢,故用去估计理论依据成立。四、抽样分布的数字特征

由此可见,典型案例6中,人们用挑选出的几个苹果口感的差异值去估计这批苹果口感的差异值的做法是站得住脚的。第二十四页,共五十六页。

以上结论均建立在重复抽样情形下,

若是在不重复抽样情形下,方差需要用系

数进行修正,从而样本方差的数字特征为:(5.6)可见:用去估计理论依据同样成立。四、抽样分布的数字特征第二十五页,共五十六页。

统计量抽样分布的标准差,称为统计

量的标准误,也称标准误差。

标准误可用于说明抽样误差的大小。

抽样误差是指由抽样的随机性引起的样本

结果与总体的真实值之间的差异,它描述

的是所有样本可能的结果与总体真值之间

的平均性差异。若总体标准差未知,可用

样本标准差代替,此时的标准误称为估计

标准误。(四)标准误(重点)四、抽样分布的数字特征第二十六页,共五十六页。

样本比例的标准误为。当总体比例未知时,可用样本比例代替,此时得到的

标准误称为估计标准误。四、抽样分布的数字特征

样本方差的标准误为。当总体标准差未知时,可用样本标准差代替,此时得到的标准误称为估计标准误。

样本均值的标准误为。当总体标准差未知时,可用样本标准差代替,此时得到的标准误称为估计标准误。第二十七页,共五十六页。一、样本均值的抽样分布二、样本比例的抽样分布三、样本方差的抽样分布四、t分布和F分布第二节几个常见的抽样分布第二十八页,共五十六页。

抽样分布即统计量的概率分布。本节

将分别对样本均值、样本比例以及样本方

差的抽样分布作详细的讨论。

如无特别说明,本章中的抽样方式均指重复抽样。第二节几个常见的抽样分布第二十九页,共五十六页。

样本均值的抽样分布,就是采取重复

抽样的方式,选取容量为的所有样本,

由样本均值所有可能的取值形成的概率分

布。它是推断总体均值的理论基础。

以下分两种情况来讨论样本均值的抽样分布类型。一、样本均值的抽样分布第三十页,共五十六页。正态分布的再生定理:若总体变量

~,从这个总体中抽取容量为

的样本,则样本均值~。(一)总体服从正态分布一、样本均值的抽样分布第三十一页,共五十六页。正态分布:若的概率密度函数为

(5.7)其中,和都是参数,且,则称服从参数为和的正态分布,记作。其概率密度函数图见图5-1。图5-1正态分布概率密度函数图一、样本均值的抽样分布第三十二页,共五十六页。正态分布概率密度函数的性质:(1),即整个曲线都在x轴的上方;(2)曲线相对于对称,并在处达到最大值;(3)曲线的陡缓程度由决定,越大,曲线越平缓;越小,曲线越陡峭。(4)当趋于无穷时,曲线以轴为渐近线。

正态分布的概率密度曲线是一条对称的钟型曲线。

决定了图形的中位置,决定了图形中曲线的陡峭程度。≥第三十三页,共五十六页。

特别地,当参数=0,=1时,这样的

正态分布为标准正态分布,记为,其

概率密度函数为:一、样本均值的抽样分布第三十四页,共五十六页。

独立同分布中心极限定理表明:无论

总体服从何种分布,只要其平均数和方差

存在,那么从中抽取的独立同分布样本,

…,,其均值在当很大时,就会近似

服从正态分布。(二)总体服从非正态分布实际应用中,一般取,此时的样本称为大样本。若为小样本,且总体分布不是正态分布,此时不能按照正态分布来处理,要运用小样本的相关理论来讨论。第三十五页,共五十六页。图5-2

样本均值的抽样分布图大样本小样本正态分布非正态分布总体()非正态分布正态分布一、样本均值的抽样分布第三十六页,共五十六页。

根据本章第一节,在不重复抽样情形

下,样本均值的抽样分布为:

~(5.8)一、样本均值的抽样分布第三十七页,共五十六页。【例5-2】假设在一个饭店门口等待出

租车的时间是服从左偏分布的,均值为12

分钟,标准差为3分钟。现从饭店门口随机

抽取100名顾客并记录他们等待出租车的时

间,考察100名顾客的平均等待时间的抽样

分布。一、样本均值的抽样分布第三十八页,共五十六页。

解:依题意,总体均值=12,=3,

根据中心极限定理可知:样本均值(100名

顾客的平均等待时间)的抽样分布为:

,即:~一、样本均值的抽样分布第三十九页,共五十六页。【例5-3】人口普查发现,某地区成年男子的身高服从正态分布N(175,

62),采取重复抽样的方式从该地区抽取64名成年男子构成样本,求样本均值的平均数和方差。一、样本均值的抽样分布解:依题意,总体服从正态分布,且=175,=62。根据正态分布的再生定理,样本均值~,即样本均值的平均数,样本均值的方差。第四十页,共五十六页。

样本比例的抽样分布,就是采取重

复抽样的方式,选取容量为的所有样本,由样本比例的所有可能的取值形成的概

率分布。它是推断总体比例的理论基础。二、样本比例p的抽样分布第四十一页,共五十六页。

可以看到,样本比例是一种特殊的样

本均值。从而,根据样本均值的抽样分布

理论可得样本比例的抽样分布。

一般地,若能同时满足和

,就可以认为样本容量很大。样本比例的抽样分布为:在满足条件的情况下,即当样本容量很大时~

(5.9)二、样本比例p的抽样分布第四十二页,共五十六页。

在不重复抽样情形下,当样本容量很

大时,样本比例的抽样分布为:

(5.10)二、样本比例p的抽样分布说明:在不重复抽样情形下,对于无限总体也可以按重复抽样来处理,即方差不用修正;对于有限总体,要用修正系数修正,另外,若此时很大而抽样比时,修正系数趋于1,方差可以按重复抽样情形时(即不用修正)的公式计算。第四十三页,共五十六页。

样本方差的抽样分布,就是采取重

复抽样的方式,选取容量为的所有样本,由样本方差的所有可能的取值形成的概

率分布。它是推断总体方差的理论基础。三、样本方差S2的抽样分布第四十四页,共五十六页。

设总体服从均值为,方差的正态分布,,,…,为来自该总体的样本,则样本方差的抽样分布为:

(5.11)称服从自由度为的分布(卡方分布)。三、样本方差S2的抽样分布第四十五页,共五十六页。

卡方分布:设,…,为来自于标

准正态总体N(0,1)的样本,则

服从自由度为的分布,记为,

读作卡方分布。三、样本方差S2的抽样分布第四十六页,共五十六页。图5-3卡方分布的概率密度函数图三、样本方差S2的抽样分布第四十七页,共五十六页。

卡方分布的数字特征为:若,

则总体平均数,方差。由卡方分布的数字特征,可得:(5.12)

在不重复抽样情形下,方差为。三、样本方差S2的抽样分布第四十八页,共五十六页。(一)t分布

t分布也称为学生氏分布,是戈塞特于1908年在一篇以“Student”(学生)为笔名的论文中首次提出的。设且与相互独立,则称随机变量

服从自由度为的t分布,记作t~。四、t分布和F分布第四十九页,共五十六页。图5-4分布的概率密度函数图四、t分布和F分布第五十页,共五十六页。

分布概率密度函数曲线是以纵轴为

对称轴的单峰对称图形,其与标准正态分

布曲线类似,分布曲线顶部略低,两尾

部稍高而平。自由度越大,分布越趋

近于

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论