第五章参数统计_第1页
第五章参数统计_第2页
第五章参数统计_第3页
第五章参数统计_第4页
第五章参数统计_第5页
已阅读5页,还剩66页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

5第五章参数估计通过本章的学习,我们应该知道:统计推断的基本问题、概念与原理参数点估计的方法与评价正态总体均值的区间估计参数估计所需的样本容量的确定Statistics统计抽样推断是统计学研究的重要内容,包括两大核心内容:参数估计和假设检验。两者都是根据样本资料,运用科学的统计理论和方法对总体的参数进行推断。参数估计对所要研究的总体参数,运用某原理给出一个估计量或估计区间来假设检验对提出的关于总体或总体参数的某个陈述进行检验,判断真伪统计推断总体指标:参数(未知量)样本总体指标:统计量(已知量)抽样推断学习参数估计和假设检验要注意:1、明确要研究的问题,并给出正确的提法2、确定合适的统计量3、样本资料要有代表性4、参数统计与非参数统计方法的主要区别:前者已知总体的分布,只是分布中含有未知参数,后者对总体的分布几乎是未知的5、给出推断结果的合理解释1统计推断的基本问题和概念在统计学中,往往把所研究的问题或现象视为随机变量,有自己的概率分布。但绝大多数情况下,要研究的随机现象(或变量)服从什么分布可能完全不知道,或者由于现象的某些事实而知道其服从什么类型的分布,比如正态分布、指数分布等,但不知道分布中所含的参数。怎样才能知道一个随机现象的分布或其参数呢?这正是统计推断所要解决的基本问题。如何根据观测或试验所得到的有限信息对总体作出推断,并同时指出所作的这种推断有多大的可靠性(用概率表示),是统计推断的基本问题。抽样推断的作用(1)有些现象和事物不可能进行全面调查,如对具有破坏性或消耗性的产品进行质量检验如灯泡电视抗震食品质量检验人体白血球数量化验(2)有些总体理论上可以进行全面调查,实际上办不到如森林的树木数量河流中的鱼尾数污染状况(3)抽样调查可以节省人力费用和实践,而且比较灵活(4)有些状况下,抽样调查结果比全面调查准确;可以用抽样调查资料修正和补充全面调查资料如10年一次人口普查,中间的人口抽样调查1%(5)利用抽样推断方法,可以对总体进行假设检验,判断真伪,决定取舍

假如我们从总体中按机会均等的原则随机地抽取n个个体,然后对这n个个体就我们关心的数值指标X进行观测,这一过程称为随机抽样。这n个个体的数值指标称为一个样本,它是一个随机向量。在一次抽样以后,观测到的一组确定的值或数据称为该样本的观测值或样本数据。样本所有可能观测值的全体就构成了样本空间。

X是一个随机变量,假设X的分布函数是F(x)。由于样本中每一个个体都来自总体X,所以样本中的任一个体的分布函数和总体相同,即的分布函数为一般用大写英文字母或希腊字母表示随机变量,而用小写英文字母表示随机变量的观测值或数据简单随机抽样为了避免在抽样时引入偏差,最简单、应用很普遍的抽样方法是简单随机抽样(也称纯随机抽样),它满足以下两个条件:

1、总体的每一个个体都有同等机会被选入样本

2、样本的分量是相互独立的随机变量,即样本中任一个体的取值不影响其他个体的取值抽样误差1抽样误差(Samplingerror)

总体未知参数(或数字特征)和相应的基于样本的统计量之间的差异

数学表示:如何理解:

(1)抽样误差仅指抽样的随机性而产生的那部分代表性误差

(2)抽样误差是实际误差:即样本指标与总体指标之差。这无法确知,并且随着样本的不同而变化抽样误差的影响因素:σ,n,抽样方法等

影响抽样误差的因素总体各单位的差异程度(即标准差的大小):越大,抽样误差越大;样本单位数的多少:越大,抽样误差越小;抽样方法:不重复抽样的抽样误差比重复抽样的抽样误差小;统计量及其抽样分布一、统计量定义

为什么引入统计量:样本是我们进行分析和推断的起点,但实际上我们并不直接用样本进行推断,而需对样本进行“加工”和“提炼”,将分散于样本中的信息集中起来,为此引入统计量的概念。

统计量是不依赖于任何未知参数的样本的可测函数,它是一个随机变量。它有自己的分布密度和分布函数。例如样本均值和样本方差是常见的统计量一般而言,统计量是随机变量,它有自己的分布密度和分布函数;统计量的分布称为抽样分布。由样本推断总体特征时要依据统计量的抽样分布由于正态分布应用十分普遍,我们将给出总体为正态分布的样本均值和样本方差的抽样分布,它们是统计推断的理论依据和基础几个常见的抽样分布(一)2—分布1、定义:设n个相互独立的随机变量X1,X2,…,Xn,Xi~N(0,1),i=1,2,…,n则称为自由度为n的2分布。n个相互独立的服从标准正态分布的随机变量的平方和服从2(n)。2—分布的密度函数f(y)曲线2、性质(1)(2)2分布的可加性X1,X2相互独立,则X1+X2~2(n1+n2)例4(X1,X2,X3)为X的一个样本求的分布。解因为(X1,X2,X3)为X的一个样本则i=1,2,33、2分布表及有关计算(1)构成P{2(n)>λ}=α,已知n,α可查表求得λ;(2)有关计算λ为2分布的α分位点α1、定义若X~N(0,1),Y~2(n),X与Y独立,则t(n)称为自由度为n的t—分布。(二)t—分布例

(X1,X2,X3)为X的一个样本,求的分布i=1,2,3t(n)的概率密度为2、基本性质:(1)f(t)关于t=0(纵轴)对称;(2)f(t)的极限为N(0,1)的密度函数,即3、t分布表及有关计算(1)构成:P{t(n)>λ}=α(2)有关计算P{t(n)>λ}=α

,λ=tα(n)α注:(三)F—分布1、定义若X~2(n1),Y~2(n2),X,Y独立,则

称为第一自由度为n1

,第二自由度为n2的F—分布,其概率密度为2、F分布表及有关计算(1)构成:P{F(n1,n2)>λ}=α(2)有关计算P{F(n1,n2)>λ}=αλ=Fα(n1,n2)α例6(X1,X2,…,X5)为取自正态总体X~(0,σ2)的样本,求统计量的分布解三、有关正态总体的几个主要结果证明组合,故服从正态分布。1、若则是n

个独立的正态随机变量的线性2、设(X1,X2,…,Xn)是正态总体N(μ,σ2)的样本,则(证明略)(1)(2)与S2独立3、设(X1,X2,…,Xn)是正态总体N(μ,σ2)的样本,则证明(X1,X2,…,Xn)是正态总体N(μ,σ2)的样本,则由分布定理1、2可知与S2独立且所以由t分布的定义,可知总体成数与样本成数

总体成数(或比例)是指总体中具有某一特征的个体在总体中所占的比重,用表示

如果总体中的个体用表示,总体容量为N,则总体均值等于总体成数说明:个体具有该特征赋值“1”,不具有赋“0”

总体方差为

样本成数是指样本中具有某一特征的个体在该样本中所占的比重,用p表示设X1,X2,…,Xn是从该总体抽取的一个样本,则

样本均值就是样本中具有该特征的个体数占样本总数的百分比,即就是样本成数p,

样本方差为则未知参数,这种问题称为参数估计问题.在实际中我们经常遇到这样的问题:总体的分布函数的形式为已知,是未知参数.是的一个样本,为相应的一个样本值.我们希望用样本值去估计一、点估计问题的提出在数理统计中称统计量

点估计常用方法:矩估计和极大似然估计法.解决上述参数的点估计问题的思路是:设法作出合理的估计.的估计值.构造一个合适的统计量,对为的估计量,的观测值称为矩估计法是由英国统计学家矩估计法的基本思想是用样本的阶原点矩去估计总体的阶原点矩;皮尔逊(K.Pearson)在1894年提出.用样本的阶中心矩去估计总体并由此得到未知参数的估计量.矩估计法的k阶中心矩设总体的分布函数为,是个待估计的未知参数.设存在,对任意,现用样本矩作为总体矩的估计,即令这样得到含个参数的个方程组,解该方程组得以作为参数的估计量.这种求出估计量的方法称为矩估计法.求总体的均值和方差的矩估计.解

设是总体的一个样本,由于故令解得例极大似然估计作为一种点估计方法最初是由德国数学家高斯(Gauss)于1821年提出,英国统计学家费歇尔(R.A.Fisher)在1922年作了进一步发展使之成为数理统计中最重要应用最广泛的方法之一.GaussFisher极大似然估计极大似然原理的直观想法:在试验中概率最大的事件最有可能出现.一个试验如有若干个

可能结果,若在一次试验中,结果出现,则认为出现的概率最大.极大似然估计法设总体的分布律为或分布密度为,其中是未知参数,的分布律(或分布密度)为,当给定样本值后,

它只是参数的函数,记为,即则称为似然函数,似然函数实质上是样本的分布律或分布密度.似然函数既然在一次试验中得到的样本值,那么样本取该样本值的概率应较大,所以选取使似然函数达到最大的参数值作为估计值,称为极大似然估计法.是样本的一个观测值,设总体的分布律为的概率为则样本设总体的分布密度(或分布律)为,其中为未知参数.又设是总体的一个样本值,如果似然函数在处达到最大,则称分别为的极大似然估计量.由于与有相同的极大值点.因此,为极大似然估计的必要条件为

称它为似然方程,其中求极大似然估计量的一般步骤为:(1)求似然函数;(2)求出及似然方程(3)解似然方程得到极大似然估计值

(4)最后得到极大似然估计量

设总体,求参数的极大似然估计量.解设是总体的样本,其观测值为,由总体,分布密度为例似然函数解似然方程得极大似然估计量为.两种求点估计的方法:矩估计法极大似然估计法在统计问题中往往先使用极大似然估计法,

在极大似然估计法使用不方便时,再用矩估计法.内容小结点估计的评价标准设为待估计的总体参数,为样本统计量,则的优良标准为:若,则称为的无偏估计量指样本指标的均值应等于被估计的总体指标无偏性若,则称为比更有效的估计量作为优良的估计量,除了满足无偏性的要求外,其方差应比较小有效性指随着样本单位数的增大,样本估计量将在概率意义下越来越接近于总体真实值一致性点估计量的评价标准若对于任意ε>0,有为的无偏、有效、一致估计量;为的无偏、有效、一致估计量;为的无偏、有效、一致估计量。数理统计可以证明:点估计量的评价标准3、正态总体均值的区间估计一.置信区间概念对于未知参数,除了得到它的点估计外,我们还希望估计出一个范围,并希望知道这个范围包含参数真值的可信程度.这样的范围通常以区间的形式给出,而可信程度由概率给出.这种估计称为区间估计或置信区间,以下先给出置信区间概念.定义

设为总体X的一个未知参数,是预先给定一个数,,是两个估计量,如果

则称随机区间为未知参数的一个置信度为的置信区间(ConfidenceInterval).置信度也常称为置信水平(confidencelevel)或置信系数(confidencecoefficient).通常取0.05,0.01,0.10,视具体需要而定.二.求区间估计的一般方法首先根据样本寻找一个随机变量(枢轴变量),使其分布完全已知.对给定的置信度,由T的分布确定两个常数C1,C2使将事件表示为则即的置信度为的置信区间为.三.正态总体均值的区间估计

鉴于实际问题中最常见的参数估计问题多数是要求估计总体的均值和方差,且正态总体又是实际问题中最常遇到的总体,因此,以下着重讨论正态总体均值和方差的区间估计.总体X~N

,μ

是未知参数,现在我们分两种情形讨论μ的区间估计问题从该总体X中抽取随机样本,并以作为μ=EX的点估计,服从正态分布1.已知情形下μ的置信区间若是已知参数,这时可选取枢轴变量~N(0,1)则对给定的置信度,存在,使

这里是标准正态分布的-上侧分位数,其值可查附表求得.将U的表示式代入上式可得

所以μ的置信度为的置信区间是

其长度为

2.为未知情形下,μ的置信区间

若是未知参数,则以的无偏估计代替,这时由于枢轴变量~所以对给定的置信度,存在使

这里的是自由度为n-1的t分布的-上侧分位数,它的值可查附表求得,将T代入可得因此有

所以μ的置信度为的置信区间是

其长度为

需要说明的是:置信区间公式中的,,在实际问题中都是具体观测值,计算时应是.四.大样本情形下总体均值的区间估计.对一般的总体X,无论它服从什么分布,只要其均值μ=EX和方差σ2=DX都存在,我们便可以用增大样本容量的办法对其均值μ作区间估计.根据中心极限定理,当样本容量n充分大时,便近似服从正态分布.又因为

,所以

N(0,1)又因为样本二阶中心矩Sn是σ的无偏估计,当n充分大时,σ近似等于Sn,从而上式中以Sn代替σ,可得枢轴变量

N(0,1)对于指定的α∈(0,1),查附表可得到,使即故的置信度为的置信区间近似为

1.两个正态总体均值差的区间估计设总体,总体,两总体相互独立.现从两总体中各取一个容量分别为n1和n2的样本,并记两个样本的均值、方差分别为和取作为的点估计,显然这个估计是无偏的,并且,有~N(0,1)于是可得的置信度为的置

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论