版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第 3 章 多元正态总体的假设检验与方差分析从本章开始,我们开始转入多元统计方法和统计模型的学习。统计学分析处理的对象是带有随机性的数据。按照随机排列、重复、局部控制、正交等原则设计一个试验,通过试验结果 形成样本信息(通常以数据的形式),再根据样本进行统计推断,是自然科学和工程技术领域 常用的一种研究方法。由于试验指标常为多个数量指标,故常设试验结果所形成的总体为多元 正态总体,这是本章理论方法研究的出发点。所谓统计推断就是根据从总体中观测到的部分数据对总体中我们感兴趣的未知部分作出推 测,这种推测必然伴有某种程度的不确定性,需要用概率来表明其可靠程度。统计推断的任务 是“观察现象,提取信息
2、,建立模型,作出推断”。统计推断有参数估计和假设检验两大类问题,其统计推断目的不同。参数估计问题回答诸 如“未知参数的值有多大 ?”之类的问题 , 而假设检验回答诸如 “未知参数的值是吗 ?”之类的问 题。本章主要讨论多元正态总体的假设检验方法及其实际应用,我们将对一元正态总体情形作 一简单回顾, 然后将介绍单个总体均值的推断, 两个总体均值的比较推断, 多个总体均值的比 较检验和协方差阵的推断等。3.1 一元正态总体情形的回顾一、 假设检验在假设检验问题中通常有两个统计假设(简称假设) , 一个作为原假设(或称零假设),另 一个作为备择假设(或称对立假设),分别记为和。1、显著性检验2为便于
3、表述,假定考虑假设检验问题:设X1 , X2,,Xn来自总体N(,)的样本,我们要检验假设3.1)原假设H。与备择假设Hi应相互排斥,两者有且只有一个正确。备择假设的意思是,一旦 否定原假设 H0 ,我们就选择已准备的假设 H1。2当 已知时,用统计量 z在原假设H。成立下,统计量z服从正态分布zN(0 ,1),通过查表,查得N(0 ,1)的上分位点z 2。对于检验问题(3.1.1,我们制定这样一个检验规则(简称检验)当z z 2时,拒绝H 0 ;(3.2)当z z 2时,接受Ho。我们称z 2为临界值,是N(0,1)的上分位点,不同的临界值代表不同的检验。称拒绝原假 设H 0的统计量z的范围
4、为拒绝域,称接受H 0的统计量z的范围为接受域,因此给出一个检验,就是给出一个拒绝域。2、两类错误由于样本具有随机性,因此在根据样本进行判断时,有可能犯两种类型的错误。一类错误是,原假设H。本来正确,但按检验规则却作出了拒绝 H。的判断,这类错误称为第一类错误 (弃真错误),其发生的概率P z z 2称为犯第一类错误的概率; 另一类错误时,原假设H。本来不正确,但按检验规则却作出了接收H。的判断,这类错误称为第二类错误(存伪错误),其发生的概率称为犯第二类错误的概率,记为。同时控制这两类错误是困难的,当时在样本容量n固定的条件下,要使和 同时减小,通常是不可能的。在假设检验的应用中,由奈曼(N
5、EYMAN与皮尔逊(PEARSON提出了一个原则,即在控制犯第一类错误的概率条件下,尽量使犯第二类错误的概率小,这种检验问题,称为显著性检验问题。根据这一原则,原假设受到保护,不至于被轻易拒绝,一旦检验结果拒绝 了原假设,则表明拒绝的理由是充分的,如果接受了原假设,则只是表明拒绝的理由还不充分, 未必意味着原假设就是正确的。所以,在实际问题中,为了通过样本观测值对某一猜测取得强 有力的支持,通称我们把这一猜测的否定作为原假设,而把猜测本身作为备择假设。3、关于检验的 p值F面,我们再介绍进行检验的另一种方式p值,我们就以(3.1.1)的检验问题为例来加以说明,对于样本,我们通过统计量,计算出Z
6、o,是一确定值,这里的X是样本观测值的均值,再由统计量Z服从正态分布zN(o ,1),计算PzZo为检验的p值。由于z .-2等价于p = P zZo,所以检验规则可以表述为:上述时,拒绝Ho ;时,接受H o。接受H o。(3.3)p值的检验规则与(3.1.2 )的检验结果相比含有更丰富的信息,p值越小,拒绝原假设的理由就充分。通常 SAS等软件的计算机输出一般只给出p值,由你自己给定的值来判 断检验结果二、单一变量假设检验的回顾1、单个正态总体均值的检验考虑假设检验冋题:设2Ho:X1 , X2,,Xn来自总体N(,)的样本,我们要检验假H1(1)总体方差2已知构造统计量在原假设Ho成立下
7、,Z服从正态分布Z N(0 ,1),可得这样一个检验规则:当Z Z 2时,拒绝当Z Z 2时,接受Hoo2(2) 总体方差 未知构造统计量当tt2(n1)时,拒绝当tt2(n1)时,接受Ho .Hoo(3.1.4)2、两个正态总体均值的比较检验考虑假设检验问题H 0 : 1 2 , H 1 :1 2(3.1.5)设X1,X2, ,Xn1是取自总体2N( 1 ,1 )的容量为n1的样本,丫1,丫2,,丫n2是取自则:在原假设H°成立下,t服从自由度为n 1的t分布tt(n 1)可得这样一个检验规2N( 2,2 )的容量为n2的样本,给定显著性水平构造检验统计量 z(i) 两个总体方差2
8、和;已知在原假设Ho成立下,(3.1.6)z服从正态分布z N (0 ,1),检验规则为:当Z Z 2时,拒绝Ho ;z 2时,接受Ho。2 2(2)两个总体方差1和2都未知,但用样本方差s代替,构造检验统计量在原假设H°成立下,t服从正态分布t t(nr n2 2),检验规则为:当 t t (nin2 2)时,拒绝 Ho ;2当 t t (ni n22)时,接受 Ho。.23、多个正态总体均值的比较检验(方差分析)设k个正态总体分别为N( 1 , 2),N(2),N(k , 2)从k个总体取ni个独立样本如下:X1Xn1考虑假设检验冋题H° :假设H °成立条件
9、下这里SSAkSSTi 1inix;k)(k)入2(k) X nkH 1 :至少存在,构造检验统计量为:A/(KJ1SSE/( n k)ni(Xi X)2称为组间平方和;(X X)2称为总平方和n k)SSEXini(XjXi)2称为组内平方和;1 n1(i)Xjni j 1nXj(i)j 1n2给定检验水平,可确定出临界值 F , 则拒绝H 0 ,否则不能拒绝 H °。SAS过程,查F分布表,使PF F再利用样本值计算出 F值,若F F , 附注:多元假设检验与其中的计算一般都很复杂,可用国际上著名本章的主要内容是多元假设检验和方差分析,的专业软件 SAS软件计算。SAS中有GLM
10、 , ANOVA和NESTED等过程可用方差分析。 其中GLM过程最常用。SAS的GLM过程采用了一般线性模型:y b°6X1. bmXm在方差分析问题中,变量x-i .xm是示性变量,即只取0或1的变量。GLM过程对每一因子的每一水平,通过 CLASS语句产生1个示性变量,也称分类变量。GLM过程主要有四个语句: PROC GLM , CLASS , MODEL和LSMEANS 语句。PROC GLM 语句 用以调用GLM过程,有许多选项,一般形式是:Proc glm data=数据集名称outstat=输出的统计量order=formatted|freq|data|interna
11、l;CLASS语句 说明哪些变量是分类变量。方差分析中的因素都是分类变量,如:Class V1 V2 V3 ;此语句指示计算机把因子V1,V2,V3作为分类变量,可以是字符型变量或数字型变量。如果是字符型变量,长度限于10个字符以内。MODEL语句 语句中等号前是响应变量,如:Model Y=A ;Model Y=A B C ;Model Y=A B A*BModel Y1 Y2=A BLSMEANS 语句单因子ANOVA主效应模型,含交互效应的因子模型多因子方差模型 MANOV A 用以求待估参数的最小二乘估计。Lsmeans A B A*B ;MANOV A语句用以说明是做多元方差分析。3
12、.2均值等于常数向量的检验在经济生产、管理决策中的很多实际问题,通常要选取多个指标进行考察,根据历史数据,将p项指标的历史平均水平记作°,考虑新的p项指标平均值是否与历史数据记载的平均值有明显差异?若有差异,进一步分析差异主要在哪些指标上,先看下面的实例:例3.1测量20名健康女性排汗量 &、钠含量X2、钾含量X3得表3.1 o问健康女性X,、X2、X3的均值是不是 4、50、10?表3-120名健康女性排汗量 X1、钠含量X2、钾含量X3数据排汗量x钠含量X2钾含量X33.748.59.35.765.18.03.847.210.93.253.212.03.155.5r 9.
13、74.636.17.92.424.814.07.233.17.66.747.48.55.454.1M1.33.936.912.74.558.8M2.33.527.89.84.540.2P 8.41.513.51°.18.556.4:7.14.571.68.26.552.8P 1°.94.144.111.25.54°.9:9.4例3.1的数学模型就是:x (X1,X2,X3)'服从N(,)要根据2°个样品做复合检验1414H° :25°,H1 :25°31°31°一般的,我们考虑 p维正态分布均值等
14、于常数的检验问题:X1,X2, ,Xn为取自P维正态总体Np( 1,)的一个样本,要检验:H ° :°;H i :°,( 3.4)其中0为已知p维向量。对于这样一个检验问题,分为以下两种情形:一、协方差阵已知条件下,均值 的检验作出假设后,需要构造一个合适的统计量。要检验的假设在形式上同一维情形是一样的。H ° :°;H i :°X在一维时构造的统计量为 u °且在H°成立时,U服从正态分布 N(°,1)。°依照一维情形,由于 H°成立时X服从p维正态分布N( °, ),
15、176;。若记AAt,na为非奇异对称阵,则有.nA 1(X°)服从 N(°,l)但用N(°, I)来确定拒绝域不方便,因此,改选用统计量,2 n(X)T 1°)(X°)(3.5)当H°成立时,2服从2(p)-分布。对给定的,从P2 2 2(p),求出(P)。当22(P)时,要先求11,这需要大量的计算。实际计算2时,可以不必求出1,只要令Y1(X0)即Y(X0)(3.6 )求解方程组(3.2.3 ),求出Y后,则2 n(X0)ty二协方差阵未知条件下均值的检验假设检验问题仍然是:H0:0 ;H1 :0其中0为已知p维向量。在回顾一元
16、情况,在原假设H0成立下,tX服从自由度为n1的t分布,在P维正态情况下,当协方差已知时,选用时统计量为现用样本协方差S代替总体协方差阵,令T2 n(n 1)(Xo)TS 1(X 。)2统计量T的分布是一元统计中t分布的推广,最早由 HOTELLING导出,在上一章中,我们 已经给出了这个定义,可以直接用它作为检验H0的统计量,T2分布已被仔细研究过,1%及 5%2的分位点已经列成专表,读者可在3中找到这个表。也可以利用HOTELLINGT分布的性质,F ° J) t2F(p,n p)(证明参见朱道元 P210)(n 1)P当Ho不成立时,F有变大的趋势,对给定的,从PF F (p,
17、n p)求出F (p, n p),当F F (p ,n p)时,拒绝Ho ;否则接受Ho 。例3.1测量20名健康女性排汗量x1、钠含量X2、钾含量X3得表3.1 o问健康女性X1、X2、n(X0)T 1(X0)x3的均值是不是 4、50、10?解:建立Ho :234i50 ,Hi:210.45010用sas,matematica,matlAB软件都可算出4.64X 45.4 ,S9.9652T 20( XF2.879368410.0100000-1.809052610)'S (X(20 3)*T2/(19* 3)10.0100000199.7884211-5.64000000)9.7
18、4。2.90 F3,17(0.10)-1.8090526-5.64000003.62765792.44所以否定原假设,即在0.10显著水平下拒绝H0例3.1也可用下列SAS程序计算data han ye;in putx1-x3;y1=x1-4 ;y2=x2-50 ;y3=x3-10 ;a= 1;cards3.748.59.35.765.18.03.847.210.93.253.212.03.155.59.74.636.17.92.424.814.07.233.17.66.747.48.55.454.111.33.936.912.74.558.812.33.527.89.84.540.28.41
19、.513.510.18.556.47.14.571.68.26.552.810.94.144.111.25.540.99.4proc glm ;model y1-y3=a/ noint ;manova h =a/ printeprinth ;run ; I执行此程序后得到的输出中主要的是最后一个表H = Type III SSCP Matrix for aE = Error SSCP MatrixS=1M=0.5N=7.5Wilks' Lambda0.661127742.90Pillai's Trace0.338872262.90Hotelling-Lawley Trace 0
20、.512566992.903170.06493170.06493170.06493170.0649Roy's Greatest Root 0.512566992.90可见P值为0.0649,所以否定原假设,即在0.10显著水平下拒绝 Ho。在实际工作中,一元检验与多元检验可以联合使用,多元的检验具有概括和全面的优点,而一 元的检验容易发现各指标之间的关系和差异,两者的结合能给统计人员提供更多的统计分析信3.3两总体均值的比较检验例3.2 为了研究日美两国在华企业对中国经营环境的评价是否存在差异,从两国在华企业对中国的政治、经济、法律、文化等环境打分,得表3-2。试分析日美两国在华企业对
21、中国经营环境的评价是否存在差异?表3-2日美两国在华企业对中国经营环境的评价美国企业号政治环境X1经济环境X2法律环境X3文化环境X4美165352560美275502055美360453565美475404070美570303050美655403565美760453060美865402560美960503070美1055553575日本企业号政治环境Y1经济环境Y2 法律环境Y3文化环境Y4日155554065日250604570日345453575日450505070日555503075日660404560日765554575假设 X(Xi,X2,X3,X4)'服从 N( x下,且
22、有10对样品,要做复合检验x1X2x3X4x) , Y(丫1,丫2,丫3, 丫4)'服从 N( y, y)yiy2y3y4般情况下,我们考虑 X1,X2,X n为取自P维正态总体N p( 1,)的一个样本,丫1,丫2, ,丫m为取自P维正态总体Np( 2,)的一个样本。假定两组样本相互独立,且Yii 1一、有共同已知的协差阵时对于例3.2提出的问题,可归类为假设检验问题:H 0 : 12H1 :12其中12为已知P维向量。XY n m在一维情形下,用了统计量U丫n m,与前面相似的思路,在 p维时,选用统0, n m计量2nmt1 “(X Y)(XY)n m当H。成立时,服从2(p)-
23、分布。对给定的显著性水平,从P 22(p)2O22求出(P)时,拒绝Ho ; 当(P)时,接受Ho、有共同的未知协差阵时假定两组样本相互独立,已知两总体有相同的协方差阵>0,但未知,要检验的假设为:Ho:12H1 :12其中12为已知p维向量。记日850653580日940453065日1045504570n_S1(Xi X)(Xi X)TS2(Y Y)(Y Y)Ti 1采用统计量为2nn t1 T2(m n 2)(X Y)T (S1 S2) 1(X Y)m n定理3.2若Ho: x y, x y成立;则2F (n m p 1)T /p(n m 2)F(p, n m p 1)证明参见朱道
24、元P217定理3.2可用于用做两总体复合检验。根据定理3.2,当H0成立时,统计量F (n m 2) p 1 丁 2 n m p 1 丁 2(n m 2) p(n m 2) p=mn(m n p 1)(X Y)TG S2) 1(X Y)F(p, n m p 1) p(m n)当H0不成立时,F有变大的趋势,对给定的,从PF F (p, n m p 1)求出F (p, n m p 1),当F F ( p,n m p 1)时,拒绝H 0 ;否则接受H 0以上有关的统计量在 H。成立时所服从的分布的相应证明都比较复杂,这里我们只叙述了的解:作假设H。:xy ;H1 : xy645143-51X,Y3
25、0.5406370.554.4444444 4-18.8888888 9-13.3333333 3-27.2222222 2-18.8888888 956.6666666 71.1111111134.4444444 4-13.3333333 31.1111111135.8333333 328.8888888 9-27.2222222 234.4444444 428.8888888 956.6666666 7有关结论,没有给出证明,可参看第二章的相关内容。这些统计量同一维相应的统计量均有相似之处,对比两者的形式有助于理解和应用。例3.2Sx55.8333333 35.83333333 Sy19.
26、4444444 45.8333333355.8333333 32.7777777819.4444444 42.7777777850.0000000 0-0.8333333326.9444444 4-11.1111111 1-0.8333333326.9444444 4-11.1111111 135.8333333 3T210*10 (X Y)'S 1(X Y) 29.862510 10F (10 10 4 1)/(910 10 2)*4)*29.8625 6.2214所以日美两国在华企业对中国经营环境的评价存在显著差异。例3.2可用如下SAS程序实现data wu1;in putno
27、$ pol ecn leg cul cou $;cards美1 65352560a美2 75502055a美3 60453565a美4 75404070a美5 70303050a美6 55403565a美7 60453060a美8 65402560a美9 60503070a美 10 55553575a日1 55554065j日2 50604570j日3 45453575j日4 50505070j日5 55503075j日6 60404560j日7 65554575j日8 50603580j日9 40453065j日 10 45 50 4570j;procglm ;classcou;model
28、pol ecn leg cul=cou/ss3manova h =cou/ printeprinth ;run;执行此程序后得到的输出中主要的是最后一个表H = Type III SSCP Matrix for couE = Error SSCP MatrixS=1M=1N=6.5Wilks' Lambda0.376077346.22Pillai's Trace0.623922666.224150.00374150.0037Hotelling-Lawley Trace 1.659027526.224150.0037Roy's Greatest Root 1.659027
29、526.224150.0037由此可见p值是0.0037,因而日美两国在华企业对中国经营环境的评价存在显著差异。3.4多个总体均值向量的比较检验在研究作物栽培时,要考虑播种期、品种、土质、施肥方式、灌溉方式对产量的影响;在 化学反应中要观察原料成分、剂量、催化剂、温度、压力,搅拌速度等对得率的影响。在很多 应用领域尤其是科学研究中,都遇到过类似的问题,常涉及许多因素,这类问题要分析出影响 最“大”的因素,就是比较各种因素对试验结果所起的作用问题。作为影响试验结果的每一因 素或因素的某一水平或某一方案,且试验结果都形成一个随机总体。这样,比较各种因素对试 验结果所起的作用问题就变成对各种因素的试
30、验结果所形成的总体的比较问题。由于试验指标常为多元指标,故常设试验结果所形成的总体为多元正态总体。此外,我们 按照随机排列、重复、局部控制、正交等原则设计一个试验,除要考察的因素外,其他试验条 件均要求一致,即要考察的试验因素的试验结果都是同协方差阵的且相互独立的多元正态总体。 因而,各因素对试验结果影响的结果的比较,就变成了多个同协方差阵的多元正态总体均值向 量的比较。统计上解决两个以上同协方差阵多元正态总体均值向量比较的方法叫做多元方差分 析。多个总体均值向量的比较检验,特别是多元方差分析正是本节的内容,这类方法在经济管 理,系统控制,生物医药等许多领域有着广泛的应用。这里先看一个具体实例
31、。3.4.1提出问题例3.3为了研究某种疾病,对三组人测量:第1组是20至35岁女性、第2组是20至25岁男性、第3组是30至55岁男性。每组取20个人,测量第I组的第J人4个指标是: 脂蛋白(Xj1 )、甘油三脂(Xj2 )、 脂蛋白(Xj3 )、前 脂蛋白(Xj4 )。测量结果见表 3-3。 问三组人的指标间有没有显著差别?表3-3脂蛋白、甘油三脂、脂蛋白、前 脂蛋白数据(1)Xj1(1)Xj2(1)Xj3(1)Xj4(2)Xj1(2)Xj2(2)Xj3(2)Xj4(3)Xj1(3)Xj2(3)Xj3(3)Xj4260754018310122302132064391720072341731
32、060r 3518 126059r 371124087451819040271536088282617065391722565r 3416 1295100r 36122701103924170653716270653221205r 130342321082r 3117380114r 3621190692715280673718240554210200464515210383617260553420250117212028065302326011029202001072820 :20076P 4017295733321225130361120076392024011438182101252617
33、2809426113101033218170(64311419060(3317330112211127076331329555P 301634512724201906034162701252421250622216280812018 :280120P 3218 :26059211931011925152406232202251003430270573182806929203451203618250673114370703020360107252326013539292804037172501173616问题中的3组人的测量值X、X、X,每个随机向量有4个指标,即4维随机向量。例3.3要从每个总
34、体20个样品值出发,检验 E(X)E(X(2) E(X(3)是否成立。3.4.2单因素方差分析的数学模型方差分析的目的在于找出自变量与因变量之间的线性关系,或自变量对因变量的实验效果。方差分析是一种处理实验数据的方法,考察一个被称为因变量或相依变量(depe nde nt variable,)的连续响应变量,又称反应变量(Response Variable),其数值则是连续的,它在由分类变量识别的几种试验条件下被测量,这些分类变量被称为自变量,独立变量(independent variable),定性变量(Qualitative Variable )或分类变量(Classification V
35、ariable),其数值多半是不连续的。这些分 类变量的水平组合形成试验设计的单元。例如,某个试验要测量男人和女人的重量变化(因变 量),他们采取了三种不同的减肥方法,这个设计的6个单元由性别(男、女)和减肥方法( A、B、C) 6种组合形成。一项试验有多个影响因素,因素也可以看成是一种变量,其取值不是数,而是水平。例如 “产地”是一个变量,它取的值是“北京”、“上海”、“南京”等。这种变量称为属性变量,定性变量或分类变量如果只有一个因素在发生变化,其他因素保持不变,贝U称为单因素试验, 与之对应的方差分析,称为单因素方差分析。我们所考察的影响产品指标的因素(如产地,温度)也称为因子,用大写字
36、母 A,B,C表示。因素所能处的状况,如甲、乙、丙;60, 65, 70, 75,,称为因素的水平,简称为水平。水平常以A2, B1, B2,表示。一般地,假设因素 A有k个水平:A1,., Ak。对第i个水平Ai进行试验,独立观察 ni次,i 1,2,k ,整个试验共作了 m n2nk n次,且完全随机排列。设Ai的第j次观察的试验指标为 p维向量X(i)(x(1) ,x(2),x(ip) Np(Ui, ) i 1,2, , k , j1 ,2,ni假设:(1)同一个水平Aj下得到的观测值X1(1) ,X ;;X1(k),-,由于实验过程中各种偶然因素的干扰及测量误差所致,每次实验中这些偶然
37、因素的总和称为实验误差,它们是方差相同的零均值正态随机变量;(2) 所有误差相互独立;j为Ai的第j次观察的随机误差向量,根i为Ai的主效应向量,(3) 由于水平的不同,可能会给 X(i)一个定量的确定性的影响,其大小是未知的。1假定丄ki令iini 1于是有模型:x(i)ijX jiijijN p(0,)且相互独立i 1,2, ,k ,j 1,2, ,n其中称为总体均值向量,据假设 j相互独立且均服从Np(O,)。判断这个因素的影响是否显著就是要检验假设:k不全为0(3.7)设第I组样本均值X(i)n.1 ini j 1X(i)1 kni总均值Xx(i)n i 1 j 1k ni样本组内差
38、E(X(i) X(i)(X(i) X(i)'i 1 j 1k样本组间差 Bni(XX(i)(X X(i)',i 1k ni A(Xj X)(XjX)' B E,i 1 j 1对于该检验问题的统计量,取 WILKS统计量E/A定理3.3若12 k,则E/A服从WILKS分布p,n k 1 ,k 2证明参见朱道元第177页例3.3为了研究某种疾病,对三组人测量:第1组是20至35岁女性、第2组是20至25岁男性、第3组是30至55岁男性。每组取 20个人,测量第I组的第J人4个指标是:脂蛋白(i)(i)(i)(i)(X(1)、甘油三脂(X(2 )、 脂蛋白(X(3 )、前
39、脂蛋白(Xj4 )。测量结果见表3.3。问三组人的指标间有没有显著差别?解这儿有3个总体,建立假设 H0 :13;Hi3不全相等4317375995912441.2 E312504.8E E1 E2 E3.1301.25723333457.4761.5112,476.8232785395.75174840466.3951937.75 2166.32082.526.91024.2计算三总体样本均值231.0253.5292.75(1)89.6(2)x,x72.55 p,x90.232.932.4531.7517.117.918.4计算组内差305306298107819515736.8796.8
40、1387.8E195590.2413.8517057021.51571.582712288.95807.95321.1. .364.955.1133.8E2计算组间差39065.83 2307.924017.23724.0878635.8226.913.4314.717.2计算总方差164474.5825586.424674.83253444484.181973.572139.4A BE2095.9341.61041.4计算统计量E/A 0.6621,杳得p,nk 仆 2 (0.01)0.709 > 0.6621 ;所以高度显著否定H0,故三组人身体指标有显著差异。3.5总体协差阵相等的
41、检验本章第三节和第四节中,总假定不同总体的方差是相同的,这一假定是否合理?在一些问题中应当加以证明。3.5.1 一个正态总体协方差阵的检验设Xi, X2, Xn为取自P维正态总体Np(,)的一个样本,未知,且首先,我们考虑假设检验问题:H o :1 p , H 1 :Ip所构造的检验统计量为exP >An2(;)nP2其中nTA (Xi X)(Xi X)i 1然后,我们考虑假设检验问题:因为0 0,所以存在非奇异矩阵D,使得D oDT令Y DXi, i 1,2, ,n则Yi Np(D ,D Dt ) Np(,)因此检验0等价于 * I p此时构造检验统计量为其中1 * *exp尹A An
42、2(e)np2A(Yi Y)(Yi Y)Ti 1给定检验水平,因为直接有的分布计算临界值很困难,所以通常采用的近似分布。在H。成立时,2ln 的极限分布是2(p(p 1).2),因此当n >> p ,由样本值计算出2 ,值,若 2ln >2,即 <e 2,则拒绝H。,否则不能拒绝 H。3.5.2多个协方差阵相等检验刚才讨论的检验°是一个正态总体协方差阵的检验,是检验当前协方差阵与过去是否一样,在一些实际问题中,可能会遇到多个正态总体的协方差阵是否相等的问题。设有k个正态总体分别为 Np( -1 ),Np( k , k ) , i 0且未知,i 1,2 , k从
43、第i个总体中取ni个样本Xj(x(1),x(i2), x(p) ) Np(Ui, i ), j 1,2, ,ni这里n1 n2nk n为总样本容量。我们考虑假设检验问题为H 0 : 1 2构造检验统计量为np 2i 1An2kni p'2 nik其中A Aii 1A(Xj X)(x(" X)T,j 1(i)X丄nini j 1(i)X j ,按照Bartlett的建议,记Nini1, N n k得到修正的检验统计量NNp2N -2A NNk不必相等;Nk相等例3.4 有甲、乙两品种,取得如表3-4所示的两个二元正态样本,试检验Ho :1NiNiP21 2则在Ho成立时,2ln
44、 k'的极限分布是2(f),其中1 d1f -P(P 1)(k 1)22p23p-1 k 丄 16( p 1)(k1) i 1 N N(2p23p-1)(k1)6( p 1)Nk解:A14892822460883525314545504.132271.53742.59016348540.03742.5895.58540.04297.557891.9 12282.512282.534020ln A116.5164ln A217.6461ln A 19.5666由于 p 2, k 2, n16,2ln ' N ln A p ln N 175.1614 43.3371d 0.1874
45、n28,N15, N27, Nkkp Nk ln Nk Nk ln Aki 1i 1206.0957 7.81512,故表3-4方差阵检验数据观察值和Xi2X1X2甲X300232217100286320145538510926085235254310171233417乙 x(2)200150333150283383350300214963516716163850438341738086100556420441f 严 1)(k 1) 3由于 2ln2(f)110.18740.059.6176,故应拒绝H09.617612,即认为1 ,2有显著差异。3.6独立性检验一个随机向量Xx(1)Xq,若
46、其中两子向量相互独立,则可化为两个低维随即向量p q处理,给统计分析带来极大的便利,因此检验一个随机向量的子向量之间是否独立是参数假设检验中的重大课题,而当X(1)X(2)Np(1)1112时,X,X(2)相互独立X,X互不相2122也就是说,如果H。成立,则一般情况下,设X Np(,),正定,将X分割成k个子向量:X (X(1) ,x(2),X(k)T,其中X的维数为Pi,i1,2,k,k,pi p,将与也作相应的剖分:i 1(1)11121k(2)21222k(k)k1k2kk检验子向量X (1) ,X (2),x(k)之间的相互独立的假设问题可写成:H 0 : j 0,i j,i,j 1,2, kH1 : j0至少有一对i, j1100,X的独立性检验可归结为参数假设检验。关这时,0)。2122012 0(kkA 以 x)(Xi x)T,剖分成的形式i 1a11a12a1 pA11A12A1kP1Aa21a22a2pA21A22A2kP2a p1ap2aPP p pAk1Ak2AkkPk也可以计算样本相关阵,并作相应剖分:1r121pR1甩R1k
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025版电商平台食品销售及冷链配送服务合同3篇
- 二零二五年度企业咨询服务合同服务内容与费用2篇
- 2025年度房屋收购及附带车位租赁合同6篇
- 2025版环保节能技术研发合伙协议合伙合同3篇
- 二零二五年度便利店加盟店合同范本及合作协议3篇
- 2025版货物运输合同风险评估与管理协议2篇
- 二零二五年度信息技术产品集中采购与培训协议3篇
- 2025年度教育机构退场协议书范文与师资力量及教学质量保障3篇
- 2024年股权转让最高额保证3篇
- 二零二五年度凯悦酒店消防系统定期检查合同3篇
- DB63T 2376-2024 餐饮单位有害生物防治技术指南
- JGJT46-2024《施工现场临时用电安全技术标准》条文解读
- 五星级大酒店会议团队接待方案
- 2024届上海高考语文课内古诗文背诵默写篇目(精校版)
- MOOC 模拟电子技术基础-华中科技大学 中国大学慕课答案
- 驾照体检表完整版本
- 新大象版六年级上册科学全册精编知识点(期末复习资料)
- 油气田地面建设工程ppt课件
- 旅行社计调OP培训手册pdf
- 电动蝶阀安装步骤说明
- 全自动电镀流水线操作说明书(共12页)
评论
0/150
提交评论