应用多元统计分析讲稿(朱建平)_第1页
应用多元统计分析讲稿(朱建平)_第2页
应用多元统计分析讲稿(朱建平)_第3页
应用多元统计分析讲稿(朱建平)_第4页
应用多元统计分析讲稿(朱建平)_第5页
已阅读5页,还剩62页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第一章多元分析概述30年来,随着计算机应 气象、水文、医学、工业、 In ternet 的日益普及,各行各第一节引言多元统计分析是运用数理统计方法来研究解决多指标问题的理论和方法。近 用技术的发展和科研生产的迫切需要,多元统计分析技术被广泛地应用于地质、农业和经济等许多领域,已经成为解决实际问题的有效方法。然而,随着 业都开始采用计算机及相应的信息技术进行管理和决策,这使得各企事业单位生成、收集、存储和处理数 据的能力大大提高,数据量与日俱增,大量复杂信息层出不穷。在信息爆炸的今天,人们已经意识到数据 最值钱的时代已经到来。显然,大量信息在给人们带来方便的同时也带来一系列问题。比如:信息量过大

2、,超过了人们掌握、 消化的能力;一些信息真伪难辩,从而给信息的正确应用带来困难;信息组织形式的不一致性导致难以对 信息进行有效统一处理等等,这种变化使传统的数据库技术和数据处理手段已经不能满足要求.In ternet的迅猛发展也使得网络上的各种资源信息异常丰富,在其中进行信息的查找真如大海捞针。这样又给多元 统计分析理论的发展和方法的应用提出了新的挑战。多元统计分析起源于上世纪初,1928年Wishart发表论文多元正态总体样本协差阵的精确分布,可以说是多元分析的开端。20世纪30年代R.A. Fisher 、H.Hotelling 、S.N.Roy、许宝騄等人作了一系列得奠基性工作,使多元分

3、析在理论上得到了迅速得发展。20世纪40年代在心理、教育、生物等方面有不少得应用,但由于计算量大,使其发展受到影响,甚至停滞了相当长得时间。20世纪50年代中期,随着电子计算机得出现和发展,使多元分析方法在地质、气象、医学、社会学等方面得到广泛得应用。20世纪60年代通过应用和实践又完善和发展了理论,由于新的理论、新的方法不断涌现又促使它的应用范围 更加扩大。20世纪70年代初期在我国才受到各个领域的极大关注,并在多元统计分析的理论研究和应用 上也取得了很多显著成绩,有些研究工作已达到国际水平,并已形成一支科技队伍,活跃在各条战线上。在20世纪末与本世纪初,人们获得的数据正以前所未有的速度急剧

4、增加,产生了很多超大型数据库, 遍及超级市场销售、银行存款、天文学、粒子物理、化学、医学以及政府统计等领域,多元统计与人工智 能和数据库技术相结合,已在经济、商业、金融、天文等行业得到了成功的应用。为了让人们更好的较为系统地掌握多元统计分析的理论与方法,本书重点介绍多元正态总体的参数估 计和假设检验以及常用的统计方法。这些方法包括判别分析、聚类分析、主成分分析、因子分析、对应分 析、典型相关分析、多维标度法以及多变量的可视化分析等。与此同时,我们将利用在我国广泛流行的 SPSS统计软件来实现实证分析, 做到在理论的学习中体会应用,在应用的分析中加深理论。第二节应用背景二、多元统计分析方法的应用

5、这里我们要通过一些实际的问题,解释选择统计方法和研究目的之间的关系,这些问题以及本书中的 大量案例能够使得读者对多元统计分析方法在各个领域中的广泛应用有一定的了解。多元分析方法从研究 问题的角度可以分为不同的类,相应有具体解决问题的方法,参看表1.1。多元统计分析方法在经济管理、农业、医学、教育学、体育科学、生态学、地质学、社会学、考古学 环境保护、军事科学、文学等方面都有广泛的应用,这里我们例举一些实际问题,进一步了解多元统计分 析的应用领域,让读者从感性上加深对多元统计分析的认识。问题内容方法数据或结构性化简尽可能简单地表示所研究的现 象,但不损失很多有用的信息, 并希望这种表示能够很容易

6、的 解释。多元回归分析、聚类分析、 主成分分析、因子分析、相 应分析、多维标度法、可视 化分析分类和组合基于所测量到的一些特征,给出好的分组方法,对相似的对象或 变量分组。判别分析、聚类分析、主成 分分析、可视化分析变量之间的相关关系变量之间是否存在相关关系,相关关系又是怎样体现。多元回归、典型相关、主成 分分析、因子分析、相应分 析、多维标度法、可视化分 析预测与决策通过统计模型或最优准则,对未 来进行预见或判断。多元回归、判别分析、聚类分析、可视化分析假设的提出及检验检验由多兀总体参数表示的某 种统计假设,能够证实某种假设 条件的合理性。多元总体参数估计、假设检 验1、城镇居民消费水平通常

7、用八项指标来描述,如人均粮食支出、人均副食支出、人均烟酒茶支出、人均 衣着商品支出、人均日用品支出、人均燃料支出、人均非商品支出。这八项指标存在一定的线性关系。为 了研究城镇居民的消费结构,需要将相关强的指标归并到一起,这实际就是对指标进行聚类分析。2、在企业经济效益的评价中,涉及到的指标往往很多,如百元固定资产原值实现产值、百元固定资产原 值实现利税、百元资金实现利税、百元工业总产值实现利税、百元销售收入实现利税、每吨标准煤实现工 业产值、每千瓦时电力实现工业产值、全员劳动生产率、百元流动资金实现产值。如何将这些具有错综复 杂关系的指标综合成几个较少的因子,既有利于对问题进行分析和解释,又能

8、便于抓住主要矛盾做出科学 的评价。可用主成分分析和因子分析法。3、某一产品是用两种不同原料生产的,试问此两种原料生产的产品寿命有无显著差异?又比如,若考察 某商业行业今年和去年的经营状况,这时需要看这两年经营指标的平均水平是否有显著差异以及经营指标 之间的波动是否有显著差异。可用多元正态总体均值向量和协差阵的假设检验。4、按现行统计报表制度,农村家庭纯收入是指农村常住居民家庭总收入中扣除从事生产和非生产经营用 支出、税款和上交承包集体任务金额以后剩余的、可直接用于进行生产的、非生产性建设投资、生产性消 费的那一部分收入。如果我们收集某年各个省、自治区、直辖市农民家庭人均纯收入的数据,可以用相应

9、 分析,揭示全国农民人均纯收入的特征以及各省、 自治区、直辖市与各收入指标的关系。5、某医院已有100个分别患有胃炎、肝炎、冠心病、糖尿病等的病人资料,记录了他们每个人若干项症 状指标数据。如果对于一个新的病人,当也测得这若干项症状指标时,可以利用判别分析方法判定他患的 是哪种病。6、有100种酒,品尝家可以对每两种酒进行品尝对比,给出一种相近程度的得分(越相近得分越高,相差越远得分越低),希望用这些得分数据来了解这100种酒之间的结构关系。这样的问题就可以用多维标度法来解决。7、 在地质学中,常常要研究矿石中所含化学成分之间的关系。设在某矿体中采集了60个标本,对每个标本测得20个化学成分的

10、含量。我们希望通过对这20个化学成分的分析,了解矿体的性质和矿体形成的主要原因。8、对1000个类似的鱼类样本,如何根据测量的特征如体重、身长、鳍数、鳍长、头宽等,我们可以利用 聚类分析方法将这类鱼分成几个不同品种。9、考古学家对挖掘出来的人头盖骨的高、宽等特征来判断是男或女,根据挖掘出的动物牙齿的有关测试 指标,判别它是属于哪一类动物牙齿、是哪一个时代的。10、在高考招生工作中,我们知道每个考生的基本情况,通过分析我们不仅可以了解到学生喜欢学习的科 目,还可以进一步从考生每门课程的成绩,分析出学生的逻辑思维能力、形象思维能力和记忆力等等对学 习成绩的影响。第二章多元正态分布的参数估计第一节引

11、言多元统计分析涉及到的都是随机向量或多个随机向量放在一起组成的随机矩阵。例如在研究公司的运 营情况时,要考虑公司的获利能力、资金周转能力、竞争能力以及偿债能力等财务指标;又如在研究国家 财政收入时,税收收入、企业收入、债务收入、国家能源交通重点建设基金收入、基本建设贷款归还收入、国家预算调节基金收入、其他收入等都是需要同时考察的指标。显然,如果我们只研究一个指标或是将这 些指标割裂开分别研究,是不能从整体上把握研究问题的实质的,解决这些问题就需要多元统计分析方法。为了更好的探讨这些问题,本章我们首先论述有关随机向量的基本概念和性质。在实用中遇到的随机向量常常是服从正态分布或近似正态分布,或虽本

12、身不是正态分布,但它的样本 均值近似于正态分布。因此现实世界中许多实际问题的解决办法都是以总体服从正态分布或近似正态分布 为前提的。在多元统计分析中,多元正态分布占有很重要地位,本书所介绍的方法大都假定数据来之多元正态分布。为此,本章将要介绍多元正态分布的定义和有关性质。然而在实际问题中,多元正态分布中均值向量和协差阵通常是未知的,一般的做法是由样本来估计。 这是本章讨论的重要内容之一,在此我们介绍最常见的最大似然估计法对参数进行估计,并讨论其有关的 性质。 第二节基本概念 一、随机向量P个指标(变量),又进行了 n次观测得到的,我们所讨论的是多个变量的总体,所研究的数据是同时 我们把这个P指

13、标表示为X1,X2,L,Xp,常用向量X = (X1, X2, L,Xp)表示对同一个体观测的P个变量。这里我们应该强调,在多元统计分析中,仍然将所研究对象的全体称为总体,它是由许多(有限和无限)的个体构成的集合,如果构成总体的个体是具有P个需要观测指标的个体,我们称这样的总体为P维总体(或P元总体)。上面的表示便于人们用数学方法去研究P维总体的特性。这里 维”(或元”)的概念,表示共有几个分量。若观测了n个个体,则可得到如表 2.1的数据,称每一个个体的 P个变量为一个样品,而全体 n个样品组成一个样本。表2.1数据X1X2 d dXp序号1X11X12ri + +X1P2hX211-X22

14、P1hX2PhLnbXn1+Xn2LJ + +LXnP在这里横看表2.1,记为X(ot) =(X oti,X alll Xq ), a =1, 2|l n,表示第a个样品的观测值。竖看表 2.1,第j列的元素X j =(X1j,X2jll,Xnj), j =1, 2|1 P表示对第j个变量Xj的n次观测数值。因此,表2.i所反映出的样本资料可用矩阵表示为XiiX2iXi2X22ill卅XipX2pX(1)1iXniXn2illXnp简记为X。=(X1,X2, X p)=X (2)LX(;)(2.1)Xi,X2,H|,X p的整体称为p维随机向量,记为 X= (Xi,X2,川,X p)。定义2.

15、1将p个随机变量在对随机向量的研究仍然限于讨论离散型和连续型两类随机向量。二、多元分布先回顾一下一元统计中分布函数和密度函数的定义。设X是一个随机变量,称 F(X)= p(X X)为X的概率分布函数或简称为分布函数,记为X F(X)。若随机变量在有限或可列个值xJ上取值,记P(X =耳)=Pk,(k =1,2,111)且2 P k =1,则称X为离k散型随机变量,称 P(X =Xk)= Pk, (k =1,2川I)为X的概率分布。X设X F(x),若存在一个非负函数 f(X),使得一切实数X有:F(x) = J f(t)dt,则称f(x)为X的分布密度函数,简称为密度函数。一个函数f(x)能作

16、为某个随机变量 X的分布密度函数的重要条件是:(i)定义f(X)二0,对一切实数X ;-beJ f (x)dx =i。2.2设X =(Xi,X2j|,X p)是p维随机向量,它的多元分布函数定义为F(x)AF(Xi,X2,MX P)=P (Xi Xi,X2 X2,m,X p x p)(2.2)X F(x),其中 x= (Xi,X2,IH,x p)0,V (Xi,X2,,X P)飞 Rp ;-be -be(2)厂 Jf(Xi,X2,,Xp)dXi dxp =i二 二离散型随机向量的统计性质可由它的概率分布完全确定,连续型随机向量的统计性质可由它的分布密度完 全确定。【例2.i】试证函数Xi 0,

17、 X2 0其它& _(Xi 4X2 ) f(Xi,X2)=(I0,为随机向量X = (Xi,X2)密度函数。 证:只要验证满足密度函数两个条件即可(1) 显然,当 Xi 0,X2 0 时有 f(Xi,X2)0-be=10dx2 = Je心dx2 = e20q( p)个分量组成的子向量 X的分布称为联合分布。通过变 其余p-q个分量为X(2),则-be-be-bc-bc(2) J J为竝d/x? = J J如4X2 =e* 如-oC-oC0 0定义2.4 设X =(Xi,X2,川,X p)是p维随机向量,称由它的 X(i(Xii,Xi2J|,Xiq)的分布为X的边缘(或边际)分布,相对地把 换X

18、中各分量的次序,总可假定X正好是X的前q个分量,: X =X ,相应的取值也可分为两部分X =X 。LX (2)亠忖)当X的分布函数是F(Xi,X2|,Xq)时,X的分布函数即边缘分布函数为:F(Xi,X2,川,Xq) = P(Xi Xi,川,Xq Xq)=P( Xi Xi川hXq Xq,Xq 卡 叫川,X p 0I 010,其它同理定义2.5相互独立的。【例若P个随机变量e= X2 0其它Xi,X2,ill,x P的联合分布等于各自的边缘分布的乘积,则称Xi,X2,HI,x P是解:2.3】 问例2.2中的(eXi, x2)f (Xi,X2)=I0,h, fx(Xi)=10,X 1与X 2是

19、否相互独立?,Xi 0, X2 0其它Xi工0其它f (Xi,X2)= fx (Xi)计x2(X2),故ef , X2工0 fx2(X2)=0,则X1与X2趋于正相关;若 P CO,则X1与X2趋_2 P(Xi -4i)(X2 巴)+(X2故X1与X2的密度函数为2 叩2J对于P=0,那么Xi与X2是相互独立的;若 于负相关。D(X)=艺。定理2.1设X Np( W艺),则有E(X )=关于这个定理的证明可以参考文献1,该定理将多元正态分布的参数卩和2赋予了明确的统计意义。这里我们需要明确的是,多元正态分布的定义不止是一种,更广泛的可以采用特征函数来定义,也可以用 一切线性组合均为正态的性质来

20、定义。二、多元正态分布的性质在讨论多元统计分析的理论和方法时,经常用到多元正态变量的某些性质,利用这些性质可使得正态分布 的处理变得容易一些。1. 若X =(X1,X2,川,X p) N p(仏2) , 2是对角阵,则XJH ,Xp相互独立。2. 若X Np(仏艺),A为sxp阶常数阵,d为s维常数向量,AX +d Ns( A 口+d, A 2A)即正态随机向量的线性函数还是正态的。3. 若X Np(仏艺),将X ,卩,2作如下剖分q各1艺=I1%P-q22 T222P4XX (1T冷X = Y( 2)卩=X p4L卩P4则 X (1)Nq(),21), X (2) Np-q( d2), 22

21、)。这里需要指出的是:第一,多元正态分布的任何边缘分布为正态分布,但反之不真。第二,由于对于多元正态变量而言,艺12 =Cov(x X ),故22 =0表示X和X不相关, X的不相关与独立是等价的。【例2.4】若X其中,= (X1,X2,X3) N3(仏习1 =屮3.4 =312111W2b13O223233(1)Xja X =(0,1,0) X2LX3.= X2 N(a,其中叫X2其中f110因此可知,设 a = (0,1,0)1如果X =(X1,X2(,X p)服从p元正态分布,则它的每个分量必服从一元正态分 n个样品值作成直方图,如果断定不呈正态分布,则就可以断定随机向量11在此我们应该

22、注意到,布,因此把某个分量的X =(X1, X2|, Xp)也不可能服从P元正态分布。第四节多元正态分布的参数估计一、多元样本的数字特征设样本资料可用矩阵表示为X11X21X12X22HiHiXJX2p=(X 1, X2, X p)=X (订X (2)IIIXn2LX在这里我们给出样本均值向量、样本离差阵、定义2.9设X (1), X,111,X(n)为来自P元总体的样本,其中Xn1LX(n)jXnp样本协差阵以及样本相关阵的定义。=(Xa1, Xa2,i|, Xap),a = 1,2,”I, n。=(刃1,刃2,川,X pV(1)样本均值向量定义为? = X =丄5: X (a)n a4其中

23、(a)X11X21X12X22nJ::LX1p j X2P+11(X11+X21+i| + Xn1 1X12+X22 中川 + Xn2X1IX2p +X2 p+川 +XnpLXp(2) 样本离差阵定义为(X (a)- X )(X 一X )=(Sj) p 邓(2.11)nS p冲=送a壬这里,X )( X (a) -rrXaXjXa2-X2na rnLLXap - X p(Xa1-X1,Xa2-X2,川,Xa p-Xp)IH(XaX1)(XaX2)(Xa2-X2)2(Xa1 -X1)2(XaX2)(Xa1 -X1)(Xa1-X1)(Xa pXp)(Xa2-X2)(Xa pXp)L(Xap -Xp

24、)(Xa1 -X1) $1(Xap Xp)(Xa2 X2)IH-2(Xa p Xp)S12S1pS22bS2pb Sp2SppS21(sj ) pXp、 1 1 n(3)样本协差阵定义为 V pxp = -S =-送(X (a)- X )( X (a)- X ) = (Vij)pXp (2.12) n n a#11 n_ _这里,一S=-2: ( X (a)- X )( X (a)-X )nn a丄(4)样本相关阵定义为|?pMp =(Xai-Xi)(XajLn a4p:xpVijSj(2.13)其中rij =庙j庙阖在此,我们应该提及的是,样本均值向量和离差阵也可用样本资料阵- 1X p1

25、= X lnnX直接表示如下:由于那么,(2.11 )式可以表示为:n其中其中1n= (1,1川,1)X11X12LX1pX21X22X2pS=2 (X(a) -X)(X-Xy = XX101(2.14)L0川IIIillXn2XnpX11+X21 +川 +Xn11X1IX12+X22 +川 +Xn2X21LX1 p+X2 p+川 +Xn pXp-n XX =XX - - Xlnin X = X (I n -丄 1nin)Xnn二、均值向量与协差阵的最大似然估计多元正态分布有两组参数,均值4和协差阵2,在许多问题中它们是未知的,需要通过样本来估计。那么,通过样本来估计总体的参数叫做参数估计,参

26、数估计的原则和方法是很多的,这里用最常见的且具有很多 优良性质的最大似然法给出4和2的估计量。设X (1) , Xill, X (n)来自正态总体N p( 4 2)容量为n的样本,每个样品 X (a) = (Xa Xa2| , Xa p), a =1,2,n,样本资料阵为X11X21LXn1则可由最大似然法求出4和(a)(2.1)式表示,即X12X22Xn2IIIIIIIII2的估计量,实际上,最大似然法求估计量可以这样得到。 样本,构造似然函数,即nL( 4 2) =n f( X i, 4 2)=XJX2pXnp即有4=X , 2=丄SnX (1), X (2) JII, X (n)来自正态

27、总体(2.15)针对r 1 n护xp 仁三(X j- 4 2 r X j-2为了求出使(2.16)式取极值的4和2的值,将(2.16)两边取对数,即1 n1 nIn L( 4, 2) = 一一 pnIn(2 兀)一In 2 一 (X j- 42(Xj 42 2-2 y因为对数函数是一个严格单调增函数,所以可以通过对(2.17)In L( 4 2)的极大值而得到Np( 4 2)容量为n的(2.16)卩和2的估计量。这里我们要注意到,根据矩阵代数理论,对于实对称矩阵A,有空竺2=2AX,空竺=XX ,cAcl n|A创2 人 2)= 2-(Xi7)=0i 4C 口I gin L(厲 2) t c2

28、然估计量分别为f 1 n送 Xi ny2= (Xin y=X(2.18)由1 n + 活(Xi - 口)(X i_ 叭 2, )2=02 y(2.18)式可以得到极大似- 1-X ) = Sn由此可见,多元正态总体的均值向量卩的极大似然估计量就是样本均值向量,估计就是样本协差阵。卩和2的估计量有如下基本性质:1.X)( X i其协差阵2的极大似然2.3.E(X)= 口,即X是卩的无偏估计;口 2,nE(nS)=即-S不是2的无偏估计,而E(丄S)= 2, nn 1即S是2的无偏估计; n-11S分别是n -11 1 -S (或 nn -12的有效估计;S )分别是2的一致估计(相合估计)。=A

29、丄。gA那么,针对对数似然函数(2.17)分别对 卩和2求偏导数,则有样本均值向量和样本离差阵在多元统计推断中具有十分重要的作用,并有如下结论:定理2.2设X和S分别是正态总体 Np(2)的样本均值向量和离差阵,则1.- 1X Np(仏一2);nn 42.离差阵S可以写为S Z a Z a其中,乙,川,Zn_,独立同分布于Np (0, 2);X和S相互独立;S为正定阵的充要条件是a zt3.4.三、Wishart分布Q1在实际应用中,常采用X和2 =S来估计 卩和2,前面已指出,均值向量X的分布仍为正态分布,n T而离差阵S的分布又是什么呢?为此给出维希特(Wishart)分布,并指出它是一元

30、2分布的推广,也是构成其它重要分布的基础。Wishart分布是 Wishart在1928年推导出来的,而该分布的名称也即由此得来。定义2.10设X (a) =(Xa1,Xa2,川,Xa p)N p(缶,2) , a = 1,2,,n且相互独立,则由X (a)组成的随机n矩阵:WP押=送X(a)X(;)(2.19)的分布称为非中心 Wishart分布,记为Wp(n, 2, Z )。a =1n其中Z=(巴1,川,巴n)(蔦Jil,4an) = S由显,由称为非中心参数;当阳=0时称为中心Wishart分布, a #记为Wp(n, 2),当np ,2 0, Wp(n, 2)有密度存在,其表达式为:第

31、三章多元正态分布均值向量和协差阵的检验f( w)=2nP/2 兀 P(py4_(n_pj)I 11 12 exp |-trp -n2n门 書I 2fn -i +1 丫0,显然,nW =Za 2 的推广。下面给出Wishart分布的基本性质: 1 .若 X (a)nP = 1 ,nX (a) X ;a)a丄22=0-时,f (w)1 nX (a),有Z X 2a)b a 4当w为正定阵(2.20)其它2 2b / (n)的分布密度,此时(2.19 )式为 /2(n)。因此,Wishart分布是分布在p维正态情况下Np( 口,2) , a =1,2,n且相互独立,则样本离差阵- -1 n S=s

32、(X (a)- X)(X -X rWp( n-1,2),其中 X=2 Xn a4(a)。a1kk2 .若 S iW p(ni,2) , i=1,,k,且相互独立,则sSi Wp Eni,2)。yi rn3 .若 X pMW p(n, 2), Cp沖为非奇异阵,则 CXC Wp(n, C 2C )。这里我们有必要说明一下什么是随机矩阵的分布。随机矩阵的分布有不同的定义, 布的定义给出矩阵分布的定义。这里我们有必要说明一下什么是随机矩阵的分布。随机矩阵的分布有不同的定义, 布的定义给出矩阵分布的定义。设随机矩阵此处是利用已知向量分此处是利用已知向量分X11X21Xi2X22IIIIIIXipX2p

33、LX(或行向量)一个接一个地连接起来, 组成一个长的向量,n1Xn2IIIXnp j即拉直向量:将该矩阵的列向量(X11,X21, ilLXn1,X12,X22川hXn2,lU,X1 pX? p,lil,Xn p)的分布定义为该阵的分布。若X为对称阵时,由于Xi pX , p=n , 故只取其下三角部分组成的拉直向量, (X11,X21,川,Xn1,X22,川,Xn2 川 LXn p)。21第一节 引言在单一变量的统计分析中,已经给出了正态总体N (比 左)的均值卩和方差CT2的各种检验。对于多变 量的正态总体Np (比 刀),各种实际问题同样要求对 卩和刀进行统计推断。P例如,我们要考察全国

34、各省、自治区和直辖市的社会经济发展状况,与全国平均水平相比较有无显著性差 异等,就涉及到多元正态总体均值向量的检验问题等。本章类似单一变量统计分析中的各种均值和方差的检验,相应地给出多元统计分析中的各种均值向量和协 差阵的检验。其基本思想和步骤均可归纳为:第一,提出待检验的假设 H0和H1;第二,第三,给出检验的统计量及其服从的分布;给定检验水平,查统计量的分布表,确定相应的临界值,从而得到否定域;根据样本观测值计算出统计量的值,看是否落入否定域中,以便对待判假设做出决策(拒绝或第四,接受)。在检验的过程中,关键在于对不同的检验给出不同的统计量,而有关统计量的给出大多用似然比方法得到。由于多变

35、量问题的复杂性,本章只侧重于解释选取统计量的合理性,而不给出推导过程,最后给出几个实 例。为了更好的说明检验过程中统计量的分布,本章还要介绍 HotellingT2分布和 Wilks分布的定义。第二节均值向量的检验、单一变量检验的回顾及HotellingT2分布为了对多元正态总体均值向量作检验,首先需要给出Hotelling T2分布的定义。在单一变量的检验问题中, 设Xi,X2|(,Xn来自总体N岸,cr2)的样本,我们要检验假设Ho:卩=%;已广北气(3.1)当c2已知时,用统计量Z =必jnc-1 n其中,X =丄无Xi为样本均值。当假设成立时,统计量n i#| Z Zj(/2 , 32

36、为 N(0,1)的上 a /2 分位点。1 n - 当2未知时,用S2 =送(Xi -X)2n -1 i#作为CT2的估计量,用统计量:t =(X _%)妬Sz服从正态分布 z N(0,1),从而否定域为(3.2)(3.3)来做检验。当假设成立时,统计量t服从自由度为n-1的t分布,从而否定域为|t|Ata/2( n-1),匕2( nT) 为自由度为n-1的t分布上的a/2分位点。这里我们应该注意到,(3.3)式可以表示为t2 =n(X -門 =n(X -4)IS2)(X-4)(3.4)s2对于多元变量而言,可以将t分布推广为下面将要介绍的Hotelling T2分布。定义3.1设X Np(

37、口,2), S W p(n, 2)且X与S相互独立,np,则称统计量T2 = nX S-1X的 分布为非中心 HotellingT2分布,记为T2 T2( p, n, m)。当口 = 0时,称T2服从 仲心)Hotelling T2分布。 记为 T2(p,n)。由于这一统计量的分布首先由Harold Hotelli ng 提出来的,故称为 Hotelli ngT2分布,值得指出的是,我国著名统计学家许宝禄先生在1938年用不同方法也导出 T2分布的密度函数,因表达式很复杂,故略去。在单一变量统计分析中,若统计量t t (n 1)分布,则t2 F(1, n-1)分布,即把t分布的统计量转化为 F

38、 统计量来处理,在多元统计分析中T2统计量也具有类似的性质。定理3.1 若X Np(0, 2) , S Wp(n, 2)且X与S相互独立,令T2(3.5)n P +1 2T F( p,n-p+1)np=n XS,X,则设X(1), X,川,X (n)是来自P维正态总体Np(卩2的样本,且X =丄无X血ngnS =送(X (a) - X )( X (a) - X )。a (一) 协差阵2已知时均值向量的检验H 0: M ( M0 为已知向量)H1:假设H。成立,检验统计量为To =n (X -心,(X - Mo) Z (p)(3.6)给定检验水平a ,查72分布表使P T02,可确定出临界值To

39、 ,,则否定Ho,否则接受Ho。这里要对统计量的选取做一些解释,为什么该统计量服从X Np(0, 2),则 X /2( P)。显然,To2 = n(X - Mo) 2,(X -砧=皿X -駢 27(X-怡疋丫 2其中,Y = jn(X - m)Np(0,E),因此,To2 =n(X -卩o) 2亠(X - m)2( P)(二) 协差阵2未知时均值向量的检验Ho:(Jo ( Mo为已知向量)Hj:讦Mo假设Ho成立,检验统计量为(n T) 一 9+2 厂(n p)- T F( p, n - P)(n -1)P 其中,t2 =(n- 1)7n(X- jo)SX- Jo),再用样本值计算出To2,若

40、(3.7)2( P)分布。根据二次型分布定理知道,给定检验水平a ,查F分布表,使P n P T2F = Ct ,可确定出临界值 Fa,再用样本值计算出 T2 , l(n -1)pJ若nP T2 讥,则否定Ho,否则接受Ho。(n -1)P这里需要解释的是,当2未知时,自然想到要用样本协差阵1S取代替2,因(n - 1)Sd是2的无偏n T估计量,而样本离差阵在我们后面所介绍的检验问题中,经常会用到这一性质。S=S (X (a) X ) X ar X ) w pn G 臥)a 4亦(X-心Np(0,习由定义3.1知T2 =(n -1)亦(X-心S二皿X-心T2(p,n-p)再根据Hotelli

41、ng T2分布的性质,所以(n 1) p+1 2 / J T F(p,n-p)(n -1)p在处理实际问题时, 单一变量的检验和多变量检验可以联合使用,多元的检验具有概括和全面考察的特点,而一元的检验容易发现各变量之间的关系和差异,能给人们提供更多的统计分析信息。三、两个正态总体均值向量的检验(一)当协差阵相等时,两个正态总体均值向量的检验设X(a) =(Xa1,Xa2,iH,Xap) , a = 1,2,,n,为来自p维正态总体 Np( 口1,艺)的容量为n的样本;Y (a) =(Ya1,Ya2,川,Yap), a =1,2,,m,为来自P维正态总体Np( 口 2,习的容量为m的样本。两组样本-1 n - 1 m相互独立,nAp,mAp,且X =送X,Y = Y。n ymy1.针对有共同已知协差阵的情形对假设 Ho:山=口2H 1: 1H 口 2进行检验。对此问题,假设 Ho成立时,所构造的检验统计量为To十

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论