应用统计课件_第1页
应用统计课件_第2页
应用统计课件_第3页
应用统计课件_第4页
应用统计课件_第5页
已阅读5页,还剩365页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1

Ch1数理统计基本概念

数理统计是研究如何有效地收集、整理和分析带有随机影响的数据,从而对所观察的现象做出推断或预测,为决策提供依据的一门学科。在近一个多世纪的发展中,数理统计不同程度地渗透到人类活动的许多领域。人口调查、税收预算、测量误差、出生与死亡统计、保险业中赔款额和保险金的确定等,这些数理统计早期主要研究的问题,直到现在仍然值得认真研究。在近半个世纪以来,数理统计在理论、方法、应用上都有较大的发展。抽样调查、试验设计、回归分析与回归诊断、多元分析、时间序列分析、非参数统计、统计决策函数、统计计算、随机模拟、探索性数据分析等统计方法相继产生并在实践中普遍使用,把以描述为主的统计发展到以推断为主的统计。数理统计的内容已异常丰富,应用广泛,成为当前最活跃的学科之一。2§1.1总体与样本一、

总体与个体总体指研究对象的某项数量指标值的全体。组成总体的每个元素称为个体。由于每个个体的出现带有随机性,即相应的数量指标值的出现带有随机性。从而可把此种数量指标看作随机变量,我们用一个随机变量及其分布来描述总体。为此常用随机变量的符号或分布的符号X,Y,Z…,F(x)…来表示总体。例1.1研究某灯泡的使用寿命时,总体可用随机变量X来表示,或用其分布函数F(x)表示。3二、样本为了推断总体分布及其各种特征,就必须从总体中按一定法则抽取若干个体进行观测或试验,以获得有关总体的信息.这一抽取过程称为抽样.所抽取的部分个体称为样本,样本中个体的数目称为样本容量.例如容量为n的样本可以看作是n维随机变量(

),其观察值为(

).例1.2研究某地区学龄前儿童发育情况,人们关心的是其体重X和身高Y这两个数量指标,则此总体就可用二维随机变量(X,Y)或其联合分布函数F(x,y)表示.4简单随机抽样它要求满足两点:(1)代表性.样本中每个个体与所考虑的总体有相同的分布.即样本中每个个体与总体X具有相同的分布.(2)独立性.样本中每个个体取什么值并不影响其它个体取什么值.即必须是相互独立的随机变量.由简单随机抽样所得到的样本称为简单随机样本.假如总体的分布函数为F(x),则其简单随机样本的联合分布函数为5三、分布族在概率论研究中,随机变量的分布总是假设给定的,但在数理统计的研究中,总体的分布是未知的,但总可以假定总体的分布是某一个分布族的成员.例1.3在研究某批灯泡的质量时,若关心的是其质量是否合格,若合格记为0,不合格记为1,因此该总体就可用仅取0和1的随机变量X来表示.显然,这个总体的分布就是一个参数为p的二点分布b(1,p),由于p未知,故这个总体分布也是未知的,但可以假定该总体分布是二点分布族

F={b(1,p);0<p<1}6若人们关心的是灯泡的寿命。这是一个无限总体。假如人们根据过去的资料知道灯泡的寿命X服从指数分布,其密度函数为

所需确定的参数是λ>0.7四、从样本去认识总体

频数频率分布表及其图示例1.4我们通常饮用的矿泉水有19个指标.某市技术监督局一次抽查了58批矿泉水,记录每一批矿泉水的每个指标是否合格,从中可统计出每批矿泉水不合格指标的个数X.这里X是一个离散型随机变量,其一切可能取值为0,1,…19。58批矿泉水的指标不合格数构成了一个容量为58的样本的观察值,每个可取0,1,…,19中某个值,将它们整理后列成表1.1.18表1.1.158批矿泉水不合格指标数的频率、频数分布表910(2)

经验分布函数样本直方图可以形象地去描述总体概率密度函数大致形状,经验分布函数将可以用来描述总体分布函数的大致形状.定义1.1.1设总体X的分布函数为F(x),从中获得的样本观察值为,将它们从小到大排列成,令

称为该样本的经验分布函数.11例1.5写出经验分布函数某食品厂用自动装罐机生产净重量为345克的午餐肉罐头,由于随机性,每个罐头的净重有差别,现从中随机取10个罐头,其净重如下:344,336,345,342,340,338,344,343,344,343,求经验分布函数.12

§1.2统计量及其分布

1.定义1.2.1设是取自某总体的一个容量为n的样本,假如样本函数

中不含任何未知参数,则称T为统计量.统计量的分布称为抽样分布.2.常用的几个统计量设是来自总体X的样本⑴样本均值

样本均值是反映总体数学期望所在位置信息的一个统计量,是总体数学期望的一个很好的估计.13⑵样本方差

样本标准差

样本方差与样本标准差反映了数据取值分散与集中的程度,即反映了总体方差与标准差的信息.⑶样本k阶(原点)矩样本k阶中心矩

它们分别反映了总体k阶(原点)矩与k阶中心矩的信息.14⑷样本偏度

SK反映了总体分布密度曲线的对称性信息.当SK>0时,分布的形状是右尾长,称为正偏的;当SK<0时,分布的形状是左尾长,称为负偏的.⑸样本峰度KU反映了总体分布密度曲线在其峰值附近的陡峭程度的信息,当KU>0时,分布密度曲线在其峰比正态分布来得陡;当KU<0时,比正态分布来得平坦.15⑹次序统计量

被称为样本的第i个次序统计量,它是样本

的满足如下条件的函数:每当样本得到一组观察值()时,将它们从小到大排列为

,第i个值便是的观察值,称为该样本的次序统计量.又称为该样本的最小次序统计量,称为该样本的最大次序统计量.16⑺样本极差

若样本容量为n,则样本极差它反映了样本取值范围的大小,也反映了总体取值分散与集中的程度.极差常在小样本(n≤30)场合使用,而在大样本场合很少在实际中使用.这是因为极差仅使用了样本中两个极端点的信息,而把中间的信息都丢弃了,当样本容量越大时,丢弃的信息也就越多,从而留下的信息过少,其使用价值就不大了.17(8)样本p分位数和中位数

定义

设是来自总体

F(x)样本,为该样本的次序统计量.为该样本的p分位数(或p分位点).

称为样本中位数,

显然有对于,称18第一四分位数第三四分位数19例2设是F(x)的样本,此种统计量有个,加起来平均得:令有从中任选两个分量和

分别为总体均值与方差,20213.几种常用的分布族⑴分布Ⅰ定义:1.2.2设为相互独立的随机变量,且均服从标准正态分布N(0,1),则称随机变量

服从自由度为n的分布,记作自由度可理解为平方和中独立变量的个数.Ⅱ分布性质

(1)设

,则E(X)=n,D(X)=2n.(2)

可加性:设

,

,且X与Y独立,则22下图描绘了分布密度函数在n=5,10,20时的图形.23(2)t分布①定义1.2.3:设X~N(0,1),,且X与Y独立,则称随机变量

所服从的分布为t分布,记为T~t(n),称n为自由度.24(3)F分布①定义1.2.4:设

,

,且X与Y独立,则称随机变量服从自由度为(n,m)的F分布,记作.图1.2.4描绘了的密度函数曲线25(4)Γ分布族定义1.2.5:定义在正实数上,且用密度函数表示的概率分布称为Γ分布,记为Γ(α,λ).其中α>0是形状参数,λ>0是尺度参数.而{Γ(α,λ);α>0,λ>0}就是Γ分布族当α=1时的Γ分布为指数分布其密度曲线如下:2627Γ分布族性质28(5)β分布族定义1.2.6:定义在[0,1]上,且密度函数表示的概率分布称为β分布记为β(a,b),其中a>0,b>0.而{β(a,b):a>0,b>0}为β分布族. β分布有几个重要的特例.当a=1,b=1时,β分布就是U(0,1)294、随机变量的分布的分位点1、设随机变量X~F(x),给定常数

:0<<1,若存在,满足,则称为分布F(x)的上(侧)

分位点.2、设随机变量X~N(0,1),给定常数

:0<<1,若存在,满足,则称为标准正态分布的上侧

分位点.30标准正态分布的分位点0.0010.0050.010.0250.050.10

3.0902.5762.3271.961.6451.28231设X

~2(n),若对于:0<<1,满足则称为分布的上分位点。分布分位点32t分布分位点设T~t(n),若对

:0<<1,存在t

(n),满足P{T>t

(n)}=,则称t

(n)为t(n)的上侧

分位点.33F—分布的分位点设F~F(n1,n2)对于:0<<1,若存在F

(n1,n2),满足

P{F>F

(n1,n2)}=,则称F

(n1,n2)为F(n1,n2)的上侧

分位点341.3正态总体的抽样分布定理(1)证明:

是n个独立的正态随机变量的线性组合,故服从正态分布35(3)证明:且U与独立,根据t分布的构造3637第一章练习题习题1、设总体X~U(-1,1),取容量为10的样本,求38习题2:设X1,…,X10是取自N(0,0.32)的样本,求39定义2.1.1设是θ的一个估计量,若

则称是θ的无偏估计.估计的无偏性是指在大量重复使用下,其平均偏差这就是产生无偏性要求的统计思想.但是在样本的一次观察值下,估计值与θ之间的偏差还是有的,有时可能很大.40定义2.1.2设是g(θ)的一个估计量,若对任意的ε>0,有则称是g(θ)的一致估计.估计的一致性是对大样本提出的一种要求,只要样本容量充分大,与g(θ)将在概率意义下越来越靠近.前面提到过,一个未知参数的估计原则上是可以随意给出的,但是一个好的估计却是按照一定的统计思想产生的.估计方法有矩法,极大似然法,最小二乘法,贝叶斯方法等,这里先介绍前两种方法其他方法将逐步介绍.41一、矩法(MethodsofMoments)矩法是一种古老的估计方法,它是K.Pearson在十九世纪末提出的.它是基于一种简单的“替换”思想建立起来的一种估计方法.格里纹科定理是1933年才提出的.但格里纹科定理把K.Pearson的矩法思想提高到一个新的高度,之所以能达到这种高度,是由于K.Pearson的原始想法中包含着很合理的核心.定理2.1.1(格里纹科定理)对任意给定的自然数n,设是取自总体分布函数F(x)的一个样本观察值,为其经验分布函数,记,则有

42格里纹科定理是产生矩法的思想基础.既然经验分布函数与总体分布函数随n增大愈来愈靠近,那么它们的各种参数特征,如各阶矩也应随着n增大愈来愈靠近.而经验分布函数的各阶矩就是样本各阶矩的观察值.因此,就可以用样本各阶矩去估计总体各阶矩.按这种统计思想去获得未知参数估计量的方法称为矩法,所得的估计量称为矩估计量.譬如:总体k阶矩的矩估计量是样本k阶矩

.约定:若是未知参数的矩估计,则u()的矩估计为u(),43例1:设X1,…,Xn为取自总体B(m,p),的样本,其中m已知,0<p<1未知,求p的矩估计。解:E(X)=mp,为参数p的矩估计44例2、:设X1,…,Xn为取自参数为的指数分布总体的样本,求的矩估计。45例3、设总体X的概率密度为X1,…,Xn为样本,求参数的矩估计。解:4647例4:设X1,…,Xn为取自总体的样本,求参数的矩估计。解:48解:49例(极大似然原理应用)一袋中有一些黑球和白球,已知两种球数比为1:3,但不知黑球多还是白球多,现有放回地从袋中摸3个球,发现其中有k个黑球,试判断黑球的比例是1/4,还是3/4?解:设X为3个球中黑球的个数,则

0123

由极大似然原理,当

50二、极大似然估计(MaximumLikelihoodEstimators)

极大似然法是由德国数学家G.F.Gauss在1821年提出的.然而这个方法通常归于英国统计学家R.A.Fisher,因为他在1912年里发现了这一方法,并且首先研究了这种方法的性质.设总体的密度函数为f(x,θ),

θ为待估参数,θ∈Θ,Θ为参数空间.当给定样本观察值后,f(x,θ)可看作Θ上的函数,假如对不同的,有,那么该观察值x来自比来自的可能性大,所以在给定x时,f(x,θ)又可看作为参数θ对产生观察值“多大可能”的一种度量,同一函数f(x,θ)有两个不同的看法,51定义2.1.3设总体X的密度函数为f(x,θ),样本的观察值为,其联合密度函数为,记称为似然函数.而对似然函数取对数,称为对数似然函数.显然在似然函数中,参数θ看作是变量,而被看作是参量,对数似然函数与似然函数一样,都可看作为θ对产生给定x有“多大可能”的一种度量.后一种看法很重要,它产生了似然函数概念,也是极大似然法产生的统计思想.52定义2.1.4设是给定样本观察值x的似然函数,若存在,使得,则称是θ的极大似然估计(值).(MLE)

寻求极大似然估计常常要用到微分法,并且要验证

这就要求或

二阶可微,但这并不意味着不可微的似然函数就不存在极大似然估计.53例1、设X1,…,Xn为取自参数为的泊松分布总体的样本,求的极大似然估计解:令故

的极大似然估计为54例2考虑一个具有标号为1,2,3的三种元素的总体,其概率分别为:p(1,θ)=θ2,p(2,θ)=2θ(1-θ),p(3,θ)=(1-θ)2,其中0<θ<1如果我们观察三个个体的样本,得到,则它的似然函数为:

L(θ)=p(1,θ)p(2,θ)p(1,θ)=2θ5(1-θ)为了寻求θ的MLE,我们对对数似然函数求导,并令其为零,得到的方程称为似然方程这个方程有唯一解,因为对一切θ∈(0,1)有55所以确使L(θ)达到最大,是θ的MLE.再考虑一般情况,设n1,n2,n3分别表示样本观察值(x1,x2,…,xn)中等于1,2,3的数目,n=n1+n2+n3,这时似然函数为:对数似然函数方程为:其MLE为,因为容易验证

562.2正态总体的区间估计

一、概念

定义:设总体X的分布函数F(x;

)含有未知参数

,对于给定值(0<<1),若由样本X1,…,Xn确定的两个统计量

使则称随机区间为的置信度为1

的置信区间注:F(x;)也可换成概率密度或分布律。57二、单正态总体均值的置信区间1、

2已知581-

可取59(1-)

1-

的置信度为1

的置信区间为注:

的1

置信区间不唯一。都是

的1

置性区间.但

=1/2时区间长最短.60求正态总体参数置信区间的解题步骤

(1)根据实际问题构造样本的函数,要求仅含待估参数且分布已知-----枢轴量;

(2)令枢轴量落在由分位点确定的区间里的概率为给定的置信度1

,要求区间按几何对称或概率对称;

(3)解不等式得随机的置信区间;

(4)由观测值及值查表计算得所求置信区间。611、设某种清漆的9个样品,其干燥时间(以小时计)6.05.75.8.6.57.06.35.66.15.0设干燥时间总体服从正态分布,求的置信水平为0.95的置信区间。(1)若由以往经验知(小时)(2)若为未知2、随机地取某种炮弹9发做实验,得炮口速度的样本标准差,设炮口速度服从正态分布。求这种炮弹的炮口速度的标准差的置信水平为0.95的置信区间。621、(1)解:已知时,的置信度为1

的置信区间为这里63

2、

2未知m的1-a置信区间为1-

即得641、(2)解:未知时,的置信度为1

的置信区间为这里65二、单正态总体方差的置信区间66s2的置信度为1

的置信区间为s的置信度为1

的置信区间为672、

解:s的置信度为1

的置信区间为这里,s的置信度为95%的置信区间为68三、双正态总体均值差的置信区间69其中可解得

1-

2

的置信区间70四、双正态总体方差比的置信区间假定

1,

2未知7172§2.3一致最小方差无偏估计

一、

最小均方误差准则我们在这里提出另一评价估计量好坏的标准―最小均方误差准则.设有一个参数分布族{p(x;θ):θ∈Θ}.g(θ)是θ的函数.假设()是来自某总体p(x;θ)的一个样本,则可以构造许多的样本函数来作为g(θ)的估计量.假如把g(θ)的一切可能的估计量组成的类记为,那么在估计类中最好的估计量应是那个最靠近待估参数g(θ)真值的估计量.并且当总体参数θ变动时,譬如变动到,那么最好估计量也应最靠近g().73如何来评价一个估计量最靠近待估参数g(θ)呢?由于估计量是一个随机变量,因此,一个估计量的好坏不能由少数几个取值来判定,而应由长期使用结果—估计量的分布(即抽样分布)来判断.如果抽样分布的大部分质量密集在真值附近,那么该估计量就认为是较好的.这种密集程度可用均方误差来度量.均方误差愈小,此种密集程度愈高.这就是均方误差准则.定义2.3.1设和都是估计类中的两个估计量.假如对一切θ∈Θ,有则称在均方误差意义下不优于.假如上式对一切可能的估计量都成立,则称是g(θ)一致最小均方误差估计.74例2.3.1

设是取自正态总体N(μ,σ2)的一个样本.我们知道估计量是σ2的无偏估计

其均方误差为

现在来考虑形如c的估计量,其中c为一实数.它的均方误差为

75令,它是c的函数,且在处得到最小.所以,若令

,则不是的无偏估计,而是有偏估计,并且.这表明:在均方误差准则下,有偏估计要优于无偏估计.应该注意,估计量是否有偏是用其一阶矩来考察的,估计量是否密集在待估参数周围是用其二阶矩来考察的.可见,无偏准则与均方误差准则是从两个不同侧面去考察一个估计量的.当二者发生矛盾时,应该更重视均方误差准则评价的结果.

76可惜的是,一致最小均方误差估计常不存在.这是因为,若是g(θ)的一致最小均方误差估计,那么,对任一个固定值θ0,作一个估计量,这个估计量在处的均方误差等于零,从而达到最小,但在处有较大的均方误差.如令是g(θ)的一致均方误差估计,故其在处的均方误差也应是零.此种可以取Θ中任一点,所以作为g(θ)一致最小均方误差估计的均方误差必须处处为零,即

这意味着,无论θ取何值,都必须要完美无缺地去估计g(θ).这在统计中是不可能办到的.77在中找不到一致最小均方误差估计,怎么办呢?通常的想法是把估计类缩小,譬如把估计类缩小到无偏估计类等,然后在缩小的估计类中寻找一致最小均方误差估计.譬如,在无偏估计类中,估计量的均方误差就变为估计量的方差,寻求一致最小均方误差估计,就变为寻找一致最小方差无偏估计.下面深入讨论这个问题.78二、无偏估计类

参数g(θ)一切可能的无偏估计组成的类称为无偏估计类.记为.但可能是空的,因为存在这样的参数,它没有无偏估计.e.g.2.3.2

考察二项分布{b(m,p):0<p<1},则不管样本容量n多大,参数的无偏估计不存在.以n=1为例,证明这个结论.反证.若有无偏估计,则应有上式可化为p的m+1次多项式,它最多有m+1个实根,可无偏性要求对(0,1)中任一个实数p上式都成立.这个矛盾说明了的无偏估计不存在.下面的讨论不考虑无偏估计不存在的参数,为此引进可估参数概念79定义2.3.2

假如参数的无偏估计存在,则称此参数为可估参数.显然,可估参数的无偏估计类是非空的.若在此无偏估计类中只有一个无偏估计量,那最小方差无偏估计就容易寻找,但是可估参数的无偏估计类常常由不只一个无偏估计组成.e.g.2.3.3

设是取自正态总体的一个样本,显然是可估参数,因为分别是它们的无偏估计.另外,对任一固定实数a,正态分布函数值也是可估参数.譬如

就是P(X<a)的无偏估计.80三、一致最小方差无偏估计(UMVUE)

1.概念:定义2.3.3

设F={p(x;θ):θ∈Θ}是一个参数分布族.g(θ)是Θ上的一个可估参数,Ug是g(θ)无偏估计类.假如是这样的一个无偏估计,对一切,有则称是g(θ)的一致最小方差无偏估计,记为UMVUE.81§2.4克拉梅—劳不等式(Cramér—RaoInequality)一、C-R正则分布族与费歇信息量

瑞典统计学家克拉梅和印度统计学家劳(C.R.Rao)分别在1945年和1946年对单参数正则分布族证明了一个重要不等式.这个不等式给出了可估参数g(θ)的无偏估计的方差的下界,这个下界在评价一个无偏估计好坏上起着重要作用.下面我们来叙述这个不等式.82定义2.4.1

假如单参数密度函数(或单参数分布列)族{p(x;θ):θ∈Θ}具有如下五个条件:Ⅰ参数空间Θ是直线上的某个开区间;Ⅱ导数对一切θ∈Θ都存在;Ⅲ支撑{x:p(x;θ)>0}不依赖于θ;Ⅳ对密度函数p(x;θ)的积分与微分运算可以交换,对分布列而言,无穷和与微分运算可以交换.Ⅴ下列数学期望存在,且.则称该分布族为C-R正则分布族,以上五条称为正则条件。

I(θ)称为该分布族的费歇(Fisher)信息量.83e.g.2.4.1泊松分布是C-R正则分布族.因为正则条件的前三条是满足的.在无穷和下求微分也是允许的.且所以泊松分布族的Fisher信息量为故泊松分布是C-R正则分布族.84e.g.2.4.2

正态分布族{N(μ,1):-∞<μ<∞}是C-R正则分布族.前三条显然是满足的.对正态分布来说,是允许积分号下求微分的,因此第四条是满足的,又因为故条件Ⅴ也满足.所以该正态分布族是C-R正则分布族,其Fisher量I(μ)=1例如均匀分布U(0,θ)不是C-R正则分布族.85二C-R不等式

定理2.4.1

设F={p(x;θ):θ∈Θ}是C-R正则分布族,可估参数g(θ)是Θ上的可微函数,又设是取自总体分布p(x;θ)∈F的一个样本,又设是g(θ)的无偏估计,且满足条件:积分可在积分号下对θ求导.则有

其中I(θ)为该分布族的Fisher信息量.86可以看到C-R不等式的右端与参数g(θ)的变化率的平方成正比,与总体所在分布族的Fisher信息量的n倍成反比.当参数g(θ)和总体分布族给定时,要构造一个方差无限小的无偏估计,只有当样本容量n无限增大时才有可能,而要做到这一点是不现实的.所以当样本容量给定n时,g(θ)的无偏估计的方差不可以任意小,它的下界是

.这个下界也称C-R下界,C-R不等式的意义就在此.87三

有效估计

定义2.4.2设是g(θ)的无偏估计,比值称为无偏估计的效率(显然),假如

,则称是g(θ)的有效(无偏)估计.假如,则称是g(θ)的渐进有效(无偏)估计.我们当然希望使用有效估计,因为它是无偏估计类中最好的估计.可惜有效估计是不多的,但渐进有效估计却不少,从定义可知,有效估计一定是UMVUE,但很多UMVUE不是有效估计,这是因为C-R下界偏小,在很多场合达不到.88推论:在定理2.4.1的条件下有:(1)

可估参数的有效估计存在且为的充要条件是:(2)若上式成立,则,

特别当时,有.89可估函数的有效估计是唯一的(4)可估函数的有效估计量一定是的唯一极大似然估计.1.设总体,求p的有效估计量.902.设总体,求λ的有效估计量.913.设总体,讨论的有效估计量.924.设总体,讨论参数θ的有效估计量.93e.g.2.3.3

设是取自正态总体N(μ,1)的一个样本.我们已经知道着这个正态分布族是C-R正则分布族,其Fisher信息量I(μ)=1.根据C-R不等式知,假如是g(μ)=μ的任一无偏估计,则有和.容易看到,若取则等式可以达到,这表明样本均值是μ的有效估计.e.g.2.3.4设是取自正态总体的样本,可以验证,正态分布族是C-R正则分布族.求参数g(σ2)=σ2的C-R下界.94[解]Fisher信息量为95假如是任一无偏估计,则有和

容易验证,下面两个估计都是的无偏估计,其方差分别是963.先验信息,即在抽样之前有关统计推断的一些信息。譬如,在估计某产品的不合格率时,假如工厂保存了过去抽检这种产品质量的资料,这些资料(包括历史数据)有时估计该产品的不合格率是有好处的。这些资料所提供的信息就是一种先验信息。又如某工程师根据自己多年积累的经验对正在设计的某种彩电的平均寿命所提供的估计也是一种先验信息。由于这种信息是在“试验之前”就已有的,故称为先验信息。以前所讨论的点估计只使用前两种信息,没有使用先验信息。假如能把收集到的先验信息也利用起来,那对我们进行统计推断是有好处的。只用前两种信息的统计学称为经典统计学,三种信息都用的统计学称为贝叶斯统计学。本节将简要介绍贝叶斯统计学中的点估计方法。97二、贝叶斯公式的密度函数形式贝叶斯统计学的基础是著名的贝叶斯公式,它是英国学者贝叶斯(T.R.Bayes1702~1761)在他死后二年发表的一篇论文《论归纳推理的一种方法》中提出的。经过二百年的研究与应用,贝叶斯的统计思想得到很大的发展,形成一个统计学派—贝叶斯学派。为了纪念他,英国历史最悠久的统计杂志《Biometrika》在1958年又全文刊登贝叶斯的这篇论文。初等概率论中的贝叶斯公式是用事件的概率形式给出的。可在贝叶斯统计学中应用更多的是贝叶斯公式的密度函数形式。下面结合贝叶斯统计学的基本观点来引出其密度函数形式。贝叶斯统计学的基本观点可以用下面三个观点归纳出来。98假设Ⅰ随机变量X有一个密度函数p(x;θ),其中θ是一个参数,不同的θ对应不同的密度函数,故从贝叶斯观点看,p(x;θ)在给定θ后是个条件密度函数,因此记为p(x|θ)更恰当一些。这个条件密度能提供我们的有关的θ信息就是总体信息。假设Ⅱ当给定θ后,从总体p(x|θ)中随机抽取一个样本X1,…,Xn,该样本中含有θ的有关信息。这种信息就是样本信息。假设Ⅲ我们对参数θ已经积累了很多资料,经过分析、整理和加工,可以获得一些有关θ的有用信息,这种信息就是先验信息。参数θ不是永远固定在一个值上,而是一个事先不能确定的量。99从贝叶斯观点来看,未知参数θ是一个随机变量。描述这个随机变量的分布可从先验信息中归纳出来,这个分布称为先验分布,其密度函数用π(θ)表示。1先验分布定义3.1将总体中的未知参数θ∈Θ看成一取值于Θ的随机变量,它有一概率分布,记为π(θ),称为参数θ的先验分布。2后验分布在贝叶斯统计学中,把以上的三种信息归纳起来的最好形式是在总体分布基础上获得的样本X1,…,Xn和参数的联合密度函数

100在这个联合密度函数中。当样本给定之后,未知的仅是参数θ了,我们关心的是样本给定后,θ的条件密度函数,依据密度的计算公式,容易获得这个条件密度函数这就是贝叶斯公式的密度函数形式,称为θ的后验密度函数,或后验分布。而

101是样本的边际分布,或称样本的无条件分布,它的积分区域就是参数θ的取值范围,随具体情况而定。前面的分析总结如下:人们根据先验信息对参数θ已有一个认识,这个认识就是先验分布π(θ)。通过试验,获得样本。从而对θ的先验分布进行调整,调整的方法就是使用上面的贝叶斯公式,调整的结果就是后验分布。后验分布是三种信息的综合。获得后验分布使人们对θ的认识又前进一步,可看出,获得样本的的效果是把我们对θ的认识由π(θ)调整到。所以对θ的统计推断就应建立在后验分布的基础上。102例1设事件A(产品为废品)的概率为,即。为了估计而作n次独立观察,其中事件A出现次数为X,则有X服从二项分布即如果此时我们对事件A的发生没有任何了解,对的大小也没有任何信息。在这种情况下,贝叶斯建议用区间(0,1)上的均匀分布作为的先验分布。因为它在(0,1)上每一点都是机会均等的。这个建议被后人称为贝叶斯假设,

103此式在定义域上与二项分布有区别。再计算X的边际密度为样本X与参数的联合分布为即104贝叶斯统计学首先要想方设法先去寻求θ的先验分布。先验分布的确定大致可分以下几步:第一步,选一个适应面较广的分布族作先验分布族,使它在数学处理上方便一些,这里我们选用β分布族105注:

作为θ的先验分布族是恰当的,从以下几方面考虑:1参数θ是废品率,它仅在(0,1)上取值。因此,必需用区间(0,1)上的一个分布去拟合先验信息。β分布正是这样一个分布。2β分布含有两个参数a与b,不同的a与b就对应不同的先验分布,因此这种分布的适应面较大。1063样本X的分布为二项分布b(n,θ)时,假如θ的先验分布为β分布,则用贝叶斯估计算得的后验分布仍然是β分布,只是其中的参数不同。这样的先验分布(β分布)称为参数θ的共轭先验分布。选择共轭先验分布在处理数学问题上带来不少方便。4国内外不少人使用β分布获得成功。第二步,根据先验信息在先验分布族中选一个分布作为先验分布,使它与先验信息符合较好。利用θ的先验信息去确定β分布中的两个参数a与b。从文献来看,确定a与b的方法很多。例如,如果能从先验信息中较为准确地算得θ先验平均和先验方差,则可令其分别等于β分布的期望与方差最后解出a与b。107如果从先验信息获得则可解得a=3,b=12这意味着θ的先验分布是参数a=3,b=12的β分布。假如我们能从先验信息中较为准确地把握θ的两个分位数,如确定θ确定的10%分位数θ0。1和50%的中位数θ0。5,那可以通过如下两个方程来确定a与b。108假如获得的信息较为丰富,譬如对此产品经常进行抽样检查,每次都对废品率作出一个估计,把这些估计值看作参数的一些观察值,再经过整理,可用一个分布去拟合它。假如关于参数的信息较少,甚至没有什么有用的先验信息,那可以用区间(0,1)上的均匀分布(a=b=1情况)。用均匀分布意味着我们对参数的各种取值是“同等对待的”,是“机会均等的”。109贝叶斯本人认为,当你对参数θ的认识除了在有限区间(c,d)之外,其它毫无所知时,就可用区间(c,d)上的均匀分布作为θ的先验分布。这个看法被后人称之为“贝叶斯假设”。确定了先验分布后,就可计算出后验分布,过程如下:

x=0,1,…,n,0<θ<1于是X的边际分布为

110最后在给出X=x的条件下,θ的后验密度为显然这个后验分布仍然是β分布,它的两个参数分别是a+x和b+n-x。我们选后验期望作为θ的贝叶斯估计,则θ的贝叶斯估计为

与前面的极大似然估计是不同的。

111如果用(0,1)上的均匀作为θ的先验分布,则θ的贝叶斯估计为

计算如下:

后验分布为

112三、常用的一些共轭先验分布对于一些常用的指数分布族,如果仅对其中的参数θ感兴趣,下表列出了它们的共轭先验分布及后验期望。总体分布共轭先验分布后验分布期望

正态分布正态分布二项分布

β分布

Poisson分布

Γ分布Γ(a,b)113EX1设θ是一批产品的不合格率,已知它不是0.1就是0.2,且其先验分布为π(0.1)=0.7,π(0.2)=0.3假如从这批产品中随机取8个进行检查,发现有2个不合格,求θ的后验分布。解:114EX2设一卷磁带上的缺陷数服从泊松分布P(λ)其中λ可取1.0和1.5中的一个,又设λ的先验分布为

π(1.0)=0.4,π(1.5)=0.6假如检查一卷磁带发现了3个缺陷,求λ的后验分布。115

四、贝叶斯推断(估计)

Ⅰ条件方法由于未知参数的后验分布是集三种信息(总体、样本和先验)于一身,它包含了所有可供利用的信息。故有关的参数估计和假设检验等统计推断都按一定方式从后验分布提取信息,其提取方法与经典统计推断相比要简单明确得多。基于后验分布的统计推断就意味着只考虑已出现的数据(样本观察值)而认为未出现的数据与推断无关,这一重要的观点被称为“条件观点”,基于这种观点提出的统计方法被称为条件方法。116例如经典统计学认为参数的无偏估计应满足:其中平均是对样本空间中所有可能出现的样本而求的,可实际中样本空间中绝大多数样本尚未出现过,而多数从未出现的样本也要参与平均是实际工作者难以理解的。故在贝叶斯推断中不用无偏性,而条件方法是容易被实际工作者理解和接受的。117Ⅱ估计1.贝叶斯估计

定义3.2使后验密度达到最大的值称为最大后验估计;后验分布的中位数称为后验中位数估计;后验分布的期望值称为的后验期望值估计,这三个估计都称为贝叶斯估计,记为。例1为估计不合格率,今从一批产品中随机抽取n件,其中不合格品数X服从,一般选取为的先验分布,设已知,由共轭先验分布可知,的后验分布为可计算得:

118选用贝叶斯假设,则

第一、在二项分布时,的最大后验估计就是经典统计中的极大似然估计,即的极大似然估计就是取特定的先验分布下的贝叶斯估计。第二、的后验期望值估计要比最大后验估计更合适一些。

表3.1列出四个实验结果,在试验1与试验2中,“抽检3个产品没有一件不合格”与“抽检10个产品没有一件是不合格”这两件事在人们心目中留下的印象是不同的。后者的质量要比前者的质量更信得过。119试验号样本量n不合格数x13000.200210000.08333310.8004101010.917表3.1不合格率的二种贝叶斯估计的比较120在试验3和试验4中,“抽检3个产品全部不合格”与抽检“10个产品全部不合格”也是有差别的。在实际中,人们经常选用后验期望估计作为贝叶斯估计。2.贝叶斯估计的误差

设是的一个贝叶斯估计,在样本给定后,是一个数,在综合各种信息后,是按取值,所以评价一个贝叶斯估计的误差的最好而又简单的方式是用θ对的后验均方差或平方根来度量,定义如下:称为的后验均方差,而其平方根称为后验标准差.定义3.2设参数θ的后验分布为,贝叶斯估计为,则的后验期望121当时,则,称为后验方差.后验均方差与后验方差有如下关系:这表明,当时,可使后验均方差达到最小,实际中常取后验均值作为的贝叶斯估计值.122例2设一批产品的不合格率为,检查是一个一个进行,直到发现第一个不合格品为止,若X为发现第一个不合格品时已检查的产品数,则X服从几何分布,其分布列为设的先验分布为,如今只获得一个样本观察值x=3,求的最大后验估计,后验期望估计,并计算它的误差.联合分布为

X=3的无条件概率为(利用全概率公式)123故或

可看出,的最大后验估计

的后验方差为1243.区间估计(可信区间)

对于区间估计问题,贝叶斯方法具有处理方便和含义清晰的优点,而经典方法求置信区间常受到批评.定义3.3参数的后验分布为,对给定的样本和概率,若存在这样的二个统计量与,使得则称区间为参数的可信水平为贝叶斯可信区间,或简称为的可信区间.而满足125的称为的(单侧)可信下限.

满足的称为的(单侧)可信上限.这里的可信水平和可信区间与经典统计中的置信水平与置信区间虽是同类的概念,但两者还是有本质的差别,主要表现在下面二点:1.

在条件方法下,对给定的样本和可信水平,通过后验分布可求得具体的可信区间,譬如,的可信水平为0.9的可信区间是,这时我们可以写出126

2.在经典统计中寻求置信区间有时是困难的,因为它要设法构造一个枢轴量,使它的分布不含未知参数,这是一项技术性很强的工作.相比之下可信区间只要利用后验分布,不需要再去寻求另外的分布,可信区间的寻求要简单得多.例3设是来自正态总体的一个样本观察值,其中已知,若正态均值的先验分布取为,其中与已知,则可求得的后验分布为,由此获得的可信区间127EX1设随机变量X的密度函数为(1)假如θ的先验分布为U(0,1),求θ的后验分布.(2)假如θ的先验分布为求θ的后验分布及后验期望估计。128EX2对正态分布N(θ,1)观察,获得三个观察值若θ的先验分布为N(3,1),求θ的0.95可信区间[2.02,3.98]129§3.2贝叶斯决策方法决策就是对一件事作决定。它与推断的差别在于是否涉及后果。统计学家在作推断时是按统计理论进行的,但很少考虑结论在使用后的损失。可决策者在使用推断时必需与得失联系在一起,能带来利润的就会使用,使他遭受损失的就不会采用,度量得失的尺度就是损失函数,它是著名的统计学家A.Wald(1902-1950)在40年代引入的一个概念。从实际归纳出损失函数是决策的关键。贝叶斯决策:把损失函数加入贝叶斯推断就形成贝叶斯决策论,损失函数被称为贝叶斯统计中的第四种信息。130一、决策的基本概念3-2014-3-4-12例1设甲乙二人进行一种游戏,甲手中有三张牌,分别标以。乙手中也有三张牌,分别标以。游戏的规则是双方各自独立的出牌,按下表可计算甲的得分与乙的得分。甲的得分矩阵(乙的失分矩阵)131这是一个典型的双人博弈(赌博)问题。不少实际问题可归纳为双人博弈问题。把上例中的乙方改为自然或社会,就形成人与自然(或社会)的博弈问题。例2农作物有两个品种:产量高但抗旱能力弱的品种和抗旱能力强但产量低的品种。在明年雨量不知的情况下,农民应该选播哪个品种可使每亩平均收益最大?这是人与自然界的博弈。以明年60mm雨量为界来区分雨量充足和雨量不充足。写出收益矩阵(单位:元)1000200100400132例3一位投资者有一笔资金要投资,有以下几个投资供他选择:购买股票,根据市场情况,可净赚5000元,但可能使他亏损10000元存入银行,不管市场情况如何总可净赚1000元这位投资者在金融市场博弈。未来的金融市场也有两种情况:涨与跌.可写出投资者的收益矩阵50001000-100001000投资者将依据收益矩阵决定他的资金投向何方这种人与自然(或社会)的博弈问题称为决策问题133二、决策的三要素1状态集,其中每个元素表示自然界(或社会)可能出现的一种状态,所有可能状态的全体组成状态集。2行动集,其中a表示人对自然界可能采取的一个行动。一般行动集有两个以上的行动可供选择。若有两个行动无论对自然界的哪一个状态出现,总比收益高,则就没有存在的必要,可把它从行动集中去掉,使留在行动集中的行动总有可取之处。1343收益函数,函数值表示当自然界处于状态,而人们选取行动时所得到的收益大小。收益函数的值可正可负,若正表示盈利,负表示亏损,单位常用货币单位,收益函数的建立不是件容易的事,要对所研究的问题有全面的了解才能建立起来。收益矩阵135三、损失函数1、从收益到损失为了统一处理,在决策中常用一个更为有效的概念:损失函数。在状态集和行动集都为有限时用损失矩阵。这里的损失函数不是负的收益,也不是亏损。例如,某商店一个月的经营收益为-1000元,即亏1000元。这是对成本而言。我们不能称为损失,而称其为亏损。我们讲的损失是指“该赚而没有赚到的钱”,例如该店本可以赚2000元,当由于某种原因亏了1000元,那我们说该店损失了3000元。用这种观点认识损失对提高决策意识是有好处的。按上述观点从收益函数可以很容易获得损失函数。136例4某公司购进某种货物可分大批、中批和小批三种行动,记为,未来市场需求量可分为高、中、低三种状态,记为,三个行动在不同的市场的利润如下这是一个收益矩阵,我们把它改写为损失矩阵如下:1372、损失函数构成决策问题的三要素:由收益函数容易获得损失函数例5某公司购进一批货物投放市场,若购进数量a低于市场需求量,每吨可赚15万元。若购进数量超过市场需求量,超过部分每吨反要亏损35万元。由此可写出收益函数138显然,当购进数量a等于市场需求量时,收益达到最大1393、损失函数下的悲观准则第一步,对每个行动a选出最大损失值,记为第二步,在所有选出的最大损失中再选出最小者,则满足则称为悲观准则下的最优行动,这是一种保守策略,不求零损失,但愿少损失例4幻灯片41在悲观准则下,第一步的最大损失值依次为3.7,4,8第二步,在上面三个最大损失值中最小值为3.7,对应的行动为1404、常用损失函数(1)平方损失函数这是在统计决策中用得最多的损失函数(2)线性损失函数(3)0-1损失函数(4)多元二次损失函数141四、贝叶斯决策问题先验信息和抽样信息都用的决策问题称为贝叶斯决策问题。若以下条件已知,则我们认为一个贝叶斯决策问题给定了。(4)定义在的二元函数称为损失函数.1421、后验风险函数我们把损失函数对后验分布的期望称为后验风险,记为,即后验风险就是用后验分布计算的平均损失。1432、决策函数定义在给定的贝叶斯决策问题中,从样本空间到行动集A上的一个映照称为该决策问题的一个决策函数,表示所有从样本空间到A上的决策函数组成的类称为决策函数类。在贝叶斯决策中我们面临的是决策函数类D,要在D中选择决策函数,使其风险最小.1443、后验风险准则定义在给定的贝叶斯决策问题中,是其决策函数类,称为决策函数的后验风险。假如在决策函数中存在这样的决策函数,它在D中有最小的风险,即则称为后验风险准则下的最优决策函数,或称贝叶斯决策,或贝叶斯解.145(1)确定需检验的假设。为了评价新菜单的好坏,先要建立一个命题“新老菜单的平均营业额之间没有差异”。这个命题称为原假设(nullhypothesis),设为H0。于是我们的任务就是要确认这原假设H0是真还是假。当我们能确认原假设H0为假时就拒绝H0,这时我们就面临如下三个命题的选择:命题1:“新菜单的平均营业额比老菜单高”;命题2:“新菜单的平均营业额不如老菜单高”;命题3:“新老菜单的平均营业额之间有显著差异”。

146在抛弃原假设后可供选择的命题称为备择假设(alternativehypothesis),记为H1。选择哪一个备择假设要视问题而定。在本例中,餐厅经理是想知道当前平均营业额的增加是否是由于新菜单而引起的,因而将命题1作为备择假设。上面所确定的假设可以分别表示:H0:μ=8000H1:μ>8000

(2)寻找检验统计量147假设的任务是要确认原假设H0是否为真。我们的做法是:先假定H0成立,然后用样本去判断其真伪。由于样本信息较为分散,因此需要构造一个统计量来做判断,此统计量称为检验统计量。本例可用样本均值作为检验统计量。在H0为真时,的观察值应接近8000,如果远离8000,那就有理由怀疑H0不真。如今8300与8000算近还是算远?或说要多大才拒绝H0?这就需要定一个界限c,即当≥c时,拒绝H0;当<c时,接受H0;

这是我们检验法则的初型,这里的c称为检验临界值。

148使原假设H0被拒绝的样本观察值所组成的区域称为检验拒绝域,用W表示;而接受原假设H0的样本观察值所组成的区域称为检验的接受域,用A表示。本例中,W与A分别为:

(3)显著性水平与临界值。

当我们对原假设H0是否为真作出判断时有可能会犯错误,这就是要冒风险,为了控制这一风险,首先需要用一个概率去表示这一风险,这个概率便是“H0为真但被拒绝”的概率,这个概率又称为显著性水平,记为α。即

149取α=0.05,则可算出c=8350.9,这一临界值唯一决定了拒绝域W。

二、假设通常我们把关于总体分布的某个命题作为假设。在对总体分布的参数作假设检验时,原假设和备择假设都可看作参数空间Θ的某个真子集Θ0与Θ1,且这两个子集不能相交,其并可以是参数空间Θ也可以是Θ的一个子集。两个假设可分别记为:

H0:θ∈Θ0,H1:θ∈Θ1150原假设与备择假设的建立主要根据具体问题来决定的。常把没有把握不能轻易肯定的命题作为备择假设,而把没有充分理由不能轻易否定的命题作为原假设,只有理由充分时才拒绝它,否则应予接受。譬如在例1中,我们不敢肯定新菜单有用,因而把μ>8000作为备择假设,而把μ=8000作为原假设。又譬如某人有一颗重23.1克的钻石想拍卖,拍卖行的职工需要将钻石反复秤重来作判断,由于这时不能轻易否定钻石重量,故可建立假设

H0

:μ=23.1,H1:μ≠23.1.如果Θ0(或Θ1)中只含有一个元素,则称该假设为简单假设,否则称为复杂假设。151三、两类错误

第一类错误:原假设H0为真,但由于样本的随机性,使样本观察值落入拒绝域W,这时所下的判断便是拒绝H0,这类错误称为第一类错误,其发生的概率称为犯第一类错误的概率,也称为拒真概率,它便是显著性水平α。第二类错误:原假设H0为假,但由于样本的随机性,使样本观察值落入接受域A,这时所下的判断便是接受H0,这类错误称为第二类错误,其发生的概率称为犯第二类错误的概率,也称为取伪概率,记为β。好的检验法则总希望犯两类错误的概率α与β都很小,但这在一般场合下很难实现。152四、假设检验问题的类型1.总体分布是已知的还是未知的。若总体分布是已知,只对其参数作假设检验,这种检验被称为参数检验,若总体分布未知,这时涉及的检验称为非参数检验。2.总体分布是正态还是非正态。若总体分布是正态,其参数的假设检验问题已有较为成熟的检验法则,若总体分布是非正态的,那就需要一个一个地讨论与解决,没有一般方法而言。3.备择假设的选取涉及拒绝域的形式是单边还是双边的。如果拒绝域的形式为W={T(x)>c},这种检验称为单边检验。如果拒绝域形式为W={T(x)≤c,或T(x)≥d},这种检验称为双边检验,这里T(x)是检验统计量。153显著性检验的思想和步骤(1)根据实际问题作出假设H0与H1;(2)构造统计量,在H0真时其分布已知;(3)给定显著性水平的值,参考H1,令

P{拒绝H0|H0真}=,求出拒绝域W;(4)计算统计量的值,若统计量W,则拒绝

H0,否则接受H01544.2单个正态总体的假设检验一、单个正态总体均值的假设检验1、

2已知的情形---U检验

对于假设H0:

=

0;H1:

0,构造查表,计算,比较大小,得出结论155说明:(1)H0:

=

0;H1:

m0称为双边HT问题;而H0:

=

0;H1:

>

0(或

<

0),则称为单边问题;

(2)

H0:

0;H1:

>

0

或H0:

0;H1:u<u0

也称为单边HT问题,不过这是一个完备的HT问题。

(3)可证:完备的HT问题与不完备的HT问题有相同的拒绝域,从而检验法一致。·先考虑不完备的右边HT问题的解H0:

=

0;H1:

>0,156现考虑完备的右边HT问题H0:

0;H1:

>0,若取拒绝域为则犯第一类错误的概率为157于是故是H0:

0;H1:

>0,的水平为的拒绝域158

例1:设某厂生产一种灯管,其寿命X~N(

,2002),由以往经验知平均寿命

=1500小时,现采用新工艺后,在所生产的灯管中抽取25只,测得平均寿命1675小时,问采用新工艺后,灯管寿命是否有显著提高。(=0.05)解:检验统计量为的拒绝域为

对于

=0.05因为拒绝H0,即灯管寿命有显著提高159·左边HT问题H0:

=

0;H1:

<0,或H0:

0;H1:

<0,可得显著性水平为的拒绝域为160例2

已知某炼铁厂的铁水含碳量在正常情况下服从正态分布N(4.55,0.112).某日测得5炉铁水含碳量如下:4.28,4.40,4.42,4.35,4.37.如果标准差不变,该日铁水的平均含碳量是否显著偏低?(取

=0.05)解:检验统计量为的拒绝域为

计算得对于

=0.05因为拒绝H0,即该日铁水的平均含碳量显著偏低161注:上题中,用双边检验或右边检验都是错误的.若用双边检验,H0:

=4.55;H1:

4.55,则拒绝域为由|U|=3.78>1.96,故拒绝H0,说明可以认为该日铁水的平均含碳量显著异于4.55.但无法说明是显著高于还是低于4.55.不合题

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论