版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第3章多元正态总体的假设检验与方差分析从本章开始,我们开始转入多元统计方法和统计模型的学习。统计学分析处理的对象是带有随机性的数据。按照随机排列、重复、局部操纵、正交等原则设计一个试验,通过试验结果形成样本信息(通常以数据的形式),再依照样本进行统计推断,是自然科学和工程技术领域常用的一种研究方法。由于试验指标常为多个数量指标,故常设试验结果所形成的总体为多元正态总体,这是本章理论方法研究的动身点。所谓统计推断确实是依照从总体中观测到的部分数据对总体中我们感兴趣的未知部分作出推测,这种推测必定伴有某种程度的不确定性,需要用概率来表明其可靠程度。统计推断的任务是“观看现象,提取信息,建立模型,作出推断”。统计推断有参数可能和假设检验两大类问题,其统计推断目的不同。参数可能问题回答诸如“未知参数的值有多大?”之类的问题,而假设检验回答诸如“未知参数的值是吗?”之类的问题。本章要紧讨论多元正态总体的假设检验方法及事实上际应用,我们将对一元正态总体情形作一简单回忆,然后将介绍单个总体均值的推断,两个总体均值的比较推断,多个总体均值的比较检验和协方差阵的推断等。3.1一元正态总体情形的回忆假设检验在假设检验问题中通常有两个统计假设(简称假设),一个作为原假设(或称零假设),另一个作为备择假设(或称对立假设),分不记为和。1、显著性检验为便于表述,假定考虑假设检验问题:设,,…,来自总体的样本,我们要检验假设(3.1)原假设与备择假设应相互排斥,两者有且只有一个正确。备择假设的意思是,一旦否定原假设,我们就选择已预备的假设。当已知时,用统计量在原假设成立下,统计量服从正态分布,通过查表,查得的上分位点。关于检验问题(3.1.1),我们制定如此一个检验规则(简称检验):当时,拒绝;当时,同意。(3.2)我们称为临界值,是的上分位点,不同的临界值代表不同的检验。称拒绝原假设的统计量的范围为拒绝域,称同意的统计量的范围为同意域,因此给出一个检验,确实是给出一个拒绝域。2、两类错误由于样本具有随机性,因此在依照样本进行推断时,有可能犯两种类型的错误。一类错误是,原假设本来正确,但按检验规则却作出了拒绝的推断,这类错误称为第一类错误(弃真错误),其发生的概率称为犯第一类错误的概率;另一类错误时,原假设本来不正确,但按检验规则却作出了接收的推断,这类错误称为第二类错误(存伪错误),其发生的概率称为犯第二类错误的概率,记为。同时操纵这两类错误是困难的,当时在样本容量固定的条件下,要使和同时减小,通常是不可能的。在假设检验的应用中,由奈曼(Neyman)与皮尔逊(Pearson)提出了一个原则,即在操纵犯第一类错误的概率条件下,尽量使犯第二类错误的概率小,这种检验问题,称为显著性检验问题。依照这一原则,原假设受到爱护,不至于被轻易拒绝,一旦检验结果拒绝了原假设,则表明拒绝的理由是充分的,假如同意了原假设,则只是表明拒绝的理由还不充分,未必意味着原假设确实是正确的。因此,在实际问题中,为了通过样本观测值对某一推测取得强有力的支持,通称我们把这一推测的否定作为原假设,而把推测本身作为备择假设。3、关于检验的值下面,我们再介绍进行检验的另一种方式——值,我们就以(3.1.1)的检验问题为例来加以讲明,关于样本,我们通过统计量,计算出,是一确定值,那个地点的是样本观测值的均值,再由统计量服从正态分布,计算为检验的值。由于等价于=,因此检验规则能够表述为:当时,拒绝;当时,同意。同意。(3.3)上述值的检验规则与(3.1.2)的检验结果相比含有更丰富的信息,值越小,拒绝原假设的理由就充分。通常SAS等软件的计算机输出一般只给出值,由你自己给定的值来推断检验结果二、单一变量假设检验的回忆单个正态总体均值的检验考虑假设检验问题:设,,…,来自总体的样本,我们要检验假设总体方差已知构造统计量在原假设成立下,服从正态分布,可得如此一个检验规则:当时,拒绝;当时,同意。总体方差未知构造统计量在原假设成立下,服从自由度为的分布可得如此一个检验规则:当时,拒绝;当时,同意。(3.1.4)两个正态总体均值的比较检验考虑假设检验问题(3.1.5)设是取自总体的容量为的样本,是取自的容量为的样本,给定显著性水平。两个总体方差和已知构造检验统计量(3.1.6)在原假设成立下,服从正态分布,检验规则为:当时,拒绝;当时,同意。两个总体方差和都未知,但==用样本方差代替,构造检验统计量在原假设成立下,服从正态分布,检验规则为:当时,拒绝;当时,同意。多个正态总体均值的比较检验(方差分析)设个正态总体分不为,,…,从个总体取个独立样本如下:考虑假设检验问题假设成立条件下,构造检验统计量为:那个地点称为组间平方和;称为组内平方和;称为总平方和。其中,给定检验水平,查分布表,使,可确定出临界值,再利用样本值计算出值,若,则拒绝,否则不能拒绝。附注:多元假设检验与SAS过程本章的要紧内容是多元假设检验和方差分析,其中的计算一般都专门复杂,可用国际上闻名的专业软件——SAS软件计算。SAS中有GLM,ANOVA和NESTED等过程可用方差分析。其中GLM过程最常用。SAS的GLM过程采纳了一般线性模型:在方差分析问题中,变量是示性变量,即只取0或1的变量。GLM过程对每一因子的每一水平,通过class语句产生1个示性变量,也称分类变量。GLM过程要紧有四个语句:PROCGLM,CLASS,MODEL和LSMEANS语句。PROCGLM语句用以调用GLM过程,有许多选项,一般形式是:Procglm[data=数据集名称][outstat=输出的统计量][order=formatted|freq|data|internal];CLASS语句讲明哪些变量是分类变量。方差分析中的因素差不多上分类变量,如:ClassV1V2V3;此语句指示计算机把因子V1,V2,V3作为分类变量,能够是字符型变量或数字型变量。假如是字符型变量,长度限于10个字符以内。MODEL语句语句中等号前是响应变量,如:ModelY=A;单因子ANOVAModelY=ABC;主效应模型ModelY=ABA*B;含交互效应的因子模型ModelY1Y2=AB;多因子方差模型MANOVALSMEANS语句用以求待估参数的最小二乘可能。LsmeansABA*B;MANOVA语句用以讲明是做多元方差分析。3.2均值等于常数向量的检验在经济生产、治理决策中的专门多实际问题,通常要选取多个指标进行考察,依照历史数据,将项指标的历史平均水平记作,考虑新的项指标平均值是否与历史数据记载的平均值有明显差异?若有差异,进一步分析差异要紧在哪些指标上,先看下面的实例:例3.1测量20名健康女性排汗量、钠含量、钾含量得表3.1。问健康女性、、的均值是不是4、50、10?表3-120名健康女性排汗量、钠含量、钾含量数据排汗量钠含量钾含量3.748.59.35.765.18.03.847.210.93.253.212.03.155.59.74.636.17.92.424.814.07.233.17.66.747.48.55.454.111.33.936.912.74.558.812.33.527.89.84.540.28.41.513.510.18.556.47.14.571.68.26.552.810.94.144.111.25.540.99.4例3.1的数学模型确实是:服从要依照20个样品做复合检验:一般的,我们考虑维正态分布均值等于常数的检验问题:为取自维正态总体的一个样本,要检验:,(3.4)其中为已知维向量。关于如此一个检验问题,分为以下两种情形:一、协方差阵已知条件下,均值的检验作出假设后,需要构造一个合适的统计量。要检验的假设在形式上同一维情形是一样的。在一维时构造的统计量为且在成立时,服从正态分布。依照一维情形,由于成立时服从维正态分布,。若记,为非奇异对称阵,则有服从但用来确定拒绝域不方便,因此,改选用统计量,(3.5)当成立时,服从-分布。对给定的,从,求出。当时,要先求,这需要大量的计算。实际计算时,能够不必求出,只要令,即(3.6)求解方程组(3.2.3),求出Y后,则二.协方差阵未知条件下均值的检验假设检验问题仍然是:其中为已知维向量。在回忆一元情况,在原假设成立下,服从自由度为的分布,在维正态情况下,当协方差已知时,选用时统计量为现用样本协方差代替总体协方差阵,令统计量的分布是一元统计中分布的推广,最早由Hotelling导出,在上一章中,我们差不多给出了那个定义,能够直接用它作为检验的统计量,分布已被认真研究过,1%及5%的分位点差不多列成专表,读者可在[3]中找到那个表。也能够利用Hotelling分布的性质,(证明参见朱道元p210)当不成立时,有变大的趋势,对给定的,从求出,当时,拒绝;否则同意。例3.1测量20名健康女性排汗量、钠含量、钾含量得表3.1。问健康女性、、的均值是不是4、50、10?解:建立用SAS,Matematica,matlab等软件都可算出。因此否定原假设,即在0.10显著水平下拒绝。例3.1也可用下列SAS程序计算datahanye;inputx1-x3;y1=x1-4;y2=x2-50;y3=x3-10;a=1;cards;3.7 48.5 9.35.7 65.1 8.03.8 47.2 10.93.2 53.2 12.03.1 55.5 9.74.6 36.1 7.92.4 24.8 14.07.2 33.1 7.66.7 47.4 8.55.4 54.1 11.33.9 36.9 12.74.5 58.8 12.33.5 27.8 9.84.5 40.2 8.41.5 13.5 10.18.5 56.4 7.14.5 71.6 8.26.5 52.8 10.94.1 44.1 11.25.5 40.9 9.4;procglm;modely1-y3=a/noint;manovah=a/printeprinth;run;执行此程序后得到的输出中要紧的是最后一个表H=TypeIIISSCPMatrixforaE=ErrorSSCPMatrixS=1M=0.5N=7.5StatisticValueFValueNumDFDenDFPr>FWilks'Lambda0.661127742.903170.0649Pillai'sTrace0.338872262.903170.0649Hotelling-LawleyTrace0.512566992.903170.0649Roy'sGreatestRoot0.512566992.903170.0649可见p值为0.0649,因此否定原假设,即在0.10显著水平下拒绝。在实际工作中,一元检验与多元检验能够联合使用,多元的检验具有概括和全面的优点,而一元的检验容易发觉各指标之间的关系和差异,两者的结合能给统计人员提供更多的统计分析信息。3.3两总体均值的比较检验例3.2为了研究日美两国在华企业对中国经营环境的评价是否存在差异,从两国在华企业对中国的政治、经济、法律、文化等环境打分,得表3-2。试分析日美两国在华企业对中国经营环境的评价是否存在差异?表3-2日美两国在华企业对中国经营环境的评价美国企业号政治环境x1经济环境x2法律环境x3文化环境x4美165352560美275502055美360453565美475404070美570303050美655403565美760453060美865402560美960503070美1055553575日本企业号政治环境y1经济环境y2法律环境y3文化环境y4日155554065日250604570日345453575日450505070日555503075日660404560日765554575日850653580日940453065日1045504570假设服从,服从下,且有10对样品,要做复合检验一般情况下,我们考虑为取自维正态总体的一个样本,为取自维正态总体的一个样本。假定两组样本相互独立,且=,=一、有共同已知的协差阵时关于例3.2提出的问题,可归类为假设检验问题:其中为已知维向量。在一维情形下,用了统计量,与前面相似的思路,在维时,选用统计量当成立时,服从-分布。对给定的显著性水平,从,求出。当时,拒绝;当<时,同意。二、有共同的未知协差阵时假定两组样本相互独立,已知两总体有相同的协方差阵>0,但未知,要检验的假设为:其中为已知维向量。记采纳统计量为定理3.2若,成立;则证明参见朱道元p217定理3.2可用于用做两总体复合检验。依照定理3.2,当成立时,统计量=当不成立时,有变大的趋势,对给定的,从求出,当时,拒绝;否则同意。以上有关的统计量在成立时所服从的分布的相应证明都比较复杂,那个地点我们只叙述了有关结论,没有给出证明,可参看第二章的相关内容。这些统计量同一维相应的统计量均有相似之处,对比两者的形式有助于理解和应用。例3.2的解:作假设因此日美两国在华企业对中国经营环境的评价存在显著差异。例3.2可用如下SAS程序实现datawu1;inputno$polecnlegculcou$;cards;美1 65 35 25 60a美2 75 50 20 55a美3 60 45 35 65a美4 75 40 40 70a美5 70 30 30 50a美6 55 40 35 65a美7 60 45 30 60a美8 65 40 25 60a美9 60 50 30 70a美1055 55 35 75a日1 55 55 40 65j日2 50 60 45 70j日3 45 45 35 75j日4 50 50 50 70j日5 55 50 30 75j日6 60 40 45 60j日7 65 55 45 75j日8 50 60 35 80j日9 40 45 30 65j日104550 45 70j;procglm;classcou;modelpolecnlegcul=cou/ss3;manovah=cou/printeprinth;run;执行此程序后得到的输出中要紧的是最后一个表H=TypeIIISSCPMatrixforcouE=ErrorSSCPMatrixS=1M=1N=6.5StatisticValueFValueNumDFDenDFPr>FWilks'Lambda0.376077346.224150.0037Pillai'sTrace0.623922666.224150.0037Hotelling-LawleyTrace1.659027526.224150.0037Roy'sGreatestRoot1.659027526.224150.0037由此可见p值是0.0037,因而日美两国在华企业对中国经营环境的评价存在显著差异。3.4多个总体均值向量的比较检验在研究作物栽培时,要考虑播种期、品种、土质、施肥方式、灌溉方式对产量的阻碍;在化学反应中要观看原料成分、剂量、催化剂、温度、压力,搅拌速度等对得率的阻碍。在专门多应用领域尤其是科学研究中,都遇到过类似的问题,常涉及许多因素,这类问题要分析出阻碍最“大”的因素,确实是比较各种因素对试验结果所起的作用问题。作为阻碍试验结果的每一因素或因素的某一水平或某一方案,且试验结果都形成一个随机总体。如此,比较各种因素对试验结果所起的作用问题就变成对各种因素的试验结果所形成的总体的比较问题。由于试验指标常为多元指标,故常设试验结果所形成的总体为多元正态总体。此外,我们按照随机排列、重复、局部操纵、正交等原则设计一个试验,除要考察的因素外,其他试验条件均要求一致,即要考察的试验因素的试验结果差不多上同协方差阵的且相互独立的多元正态总体。因而,各因素对试验结果阻碍的结果的比较,就变成了多个同协方差阵的多元正态总体均值向量的比较。统计上解决两个以上同协方差阵多元正态总体均值向量比较的方法叫做多元方差分析。多个总体均值向量的比较检验,特不是多元方差分析正是本节的内容,这类方法在经济治理,系统操纵,生物医药等许多领域有着广泛的应用。那个地点先看一个具体实例。3.4.1提出问题例3.3为了研究某种疾病,对三组人测量:第1组是20至35岁女性、第2组是20至25岁男性、第3组是30至55岁男性。每组取20个人,测量第I组的第j人4个指标是:脂蛋白()、甘油三脂()、脂蛋白()、前脂蛋白()。测量结果见表3-3。问三组人的指标间有没有显著差不?表3-3脂蛋白、甘油三脂、脂蛋白、前脂蛋白数据260754018310122302132064391720072341731060351826059371124087451819040271536088282617065391722565341629510036122701103924170653716270653221205130342321082311738011436211906927152806737182405542102004645152103836172605534202501172120280653023260110292020010728202007640172957333212251303611200763920240114381821012526172809426113101033218170643114190603317330112211127076331329555301634512724201906034162701252421250622216280812018280120321826059211931011925152406232202251003430270573182806929203451203618250673114370703020360107252326013539292804037172501173616问题中的3组人的测量值、、,每个随机向量有4个指标,即4维随机向量。例3.3要从每个总体20个样品值动身,检验是否成立。3.4.2单因素方差分析的数学模型方差分析的目的在于找出自变量与因变量之间的线性关系,或自变量对因变量的实验效果。方差分析是一种处理实验数据的方法,考察一个被称为因变量或相依变量(dependentvariable,)的连续响应变量,又称反应变量(ResponseVariable),其数值则是连续的,它在由分类变量识不的几种试验条件下被测量,这些分类变量被称为自变量,独立变量(independentvariable),定性变量(QualitativeVariable)或分类变量(ClassificationVariable),其数值多半是不连续的。这些分类变量的水平组合形成试验设计的单元。例如,某个试验要测量男人和女的的重量变化(因变量),他们采取了三种不同的减肥方法,那个设计的6个单元由性不(男、女)和减肥方法(A、B、C)6种组合形成。一项试验有多个阻碍因素,因素也能够看成是一种变量,其取值不是数,而是水平。例如“产地”是一个变量,它取的值是“北京”、“上海”、“南京”等。这种变量称为属性变量,定性变量或分类变量.假如只有一个因素在发生变化,其他因素保持不变,则称为单因素试验,与之对应的方差分析,称为单因素方差分析。我们所考察的.阻碍产品指标的因素(如产地,温度)也称为因子,用大写字母A,B,C表示。因素所能处的状况,如甲、乙、丙;60,65,70,75,……,称为因素的水平,简称为水平。水平常以表示。 一般地,假设因素A有k个水平:。对第个水平进行试验,独立观看次,,整个试验共作了次,且完全随机排列。设的第次观看的试验指标为维向量,假设:同一个水平下得到的观测值,…;…;,…,由于实验过程中各种偶然因素的干扰及测量误差所致,每次实验中这些偶然因素的总和称为实验误差,它们是方差相同的零均值正态随机变量;所有误差相互独立;由于水平的不同,可能会给一个定量的确定性的阻碍,其大小是未知的。假定令因此有模型:其中称为总体均值向量,为的主效应向量,为的第次观看的随机误差向量,依照假设相互独立且均服从。推断那个因素的阻碍是否显著确实是要检验假设:不全为0(3.7)设第I组样本均值总均值样本组内差样本组间差,,关于该检验问题的统计量,取Wilks统计量定理3.3若,则服从Wilks分布证明参见朱道元第177页例3.3为了研究某种疾病,对三组人测量:第1组是20至35岁女性、第2组是20至25岁男性、第3组是30至55岁男性。每组取20个人,测量第I组的第j人4个指标是:脂蛋白()、甘油三脂()、脂蛋白()、前脂蛋白()。测量结果见表3.3。问三组人的指标间有没有显著差不?解这儿有3个总体,建立假设计算三总体样本均值计算组内差计算组间差计算总方差计算统计量,查得〉0.6621;因此高度显著否定,故三组人躯体指标有显著差异。3.5总体协差阵相等的检验本章第三节和第四节中,总假定不同总体的方差是相同的,这一假定是否合理?在一些问题中应当加以证明。3.5.1一个正态总体协方差阵的检验设为取自维正态总体的一个样本,未知,且。首先,我们考虑假设检验问题:,所构造的检验统计量为其中然后,我们考虑假设检验问题:,因为,因此存在非奇异矩阵,使得令,则因此检验等价于现在构造检验统计量为其中给定检验水平,因为直接有的分布计算临界值专门困难,因此通常采纳的近似分布。在成立时,的极限分布是,因此当>>,由样本值计算出值,若>,即<,则拒绝,否则不能拒绝。3.5.2多个协方差阵相等检验刚才讨论的检验是一个正态总体协方差阵的检验,是检验当前协方差阵与过去是否一样,在一些实际问题中,可能会遇到多个正态总体的协方差阵是否相等的问题。设有个正态总体分不为,…,,且未知,从第个总体中取个样本,那个地点为总样本容量。我们考虑假设检验问题为,不全相等构造检验统计量为其中,,按照Bartlett的建议,记,得到修正的检验统计量则在成立时,的极限分布是,其中有甲、乙两品种,取得如表3-4所示的两个二元正态样本,试检验表3-4方差阵检验数据观看值和甲300232325217251004328610320171455123385109341726085乙20050150433338315041283733838035086300100214955663516742044161638解:由于,,,,,,,故
由于,故应拒绝,即认为有显著差异。3.6独立性检验一个随机向量,若其中两子向量相互独立,则可化为两个低维随即向量处理,给统计分析带来极大的便利,因此检验一个随机向量的子向量之间是否独立是参数假设检验中的重大课题,而当时,,相互独立,互不相关()。这时,,的独立性检验可归结为参数假设检验。一般情况下,设,正定,将分割成个子向量:其中的维数为,,,将与也作相应的剖分:,检验子向量之间的相互独立的假设问题可写成:,,至少有一对也确实是讲,假如成立,则现从总体抽取容量为的样本,,…,,将样本的总离差阵,剖分成的形式也能够计算样本相关阵,并作相应剖分:其中检验问题(3.6.1)式的似然比统计量为通常取作为统计量关于在成立下的分布,Box(1949)指出近似服从,其中当较大时,可认为近似服从(上述证明可参Andenson(1984)P.386)例3.5据西北农业大学育种组1981年资料,计算得旱肥组9个品种4个性状的相关阵为(n=27)其中:——每穗粒数,——千粒重(克),—
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 机场航站楼钢结构施工合同范本
- 金属加工设备租赁协议
- 人力资源成本分摊方案
- 教育用地租赁解除通知
- 五常法在供应链管理中的应用
- 信息技术沟通规范
- 港口码头场平施工合同
- 船舶专用泵房工程合同
- 造纸机械融资租赁合同
- 危化品仓库防雷设施建设
- 四川省成都市2023-2024学年高二上学期期末考试+地理 含答案
- 幼儿心理健康的教育课件
- 人教版数学六年级上册期末考试试卷
- 2024年时事政治试题库附答案(综合题)
- 新人教版八年级上册数学知识点归纳及常考题型
- DB43T 1167-2016 高纯(SiO ≥99.997%)石英砂 规范
- 电池制造工(电池(组)装配工)行业职业技能竞赛理论考试题库及答案
- 四年级数学上册 第6章《除法》单元测评必刷卷(北师大版)
- 部编版语文小学三年级上学期期末试卷与参考答案(2024年)
- 《环境保护产品技术要求 工业废气吸附净化装置》HJT 386-2007
- 化工过程安全管理导则学习考试题及答案
评论
0/150
提交评论