多元正态分布均值向量和协差阵的检验_第1页
多元正态分布均值向量和协差阵的检验_第2页
多元正态分布均值向量和协差阵的检验_第3页
多元正态分布均值向量和协差阵的检验_第4页
多元正态分布均值向量和协差阵的检验_第5页
已阅读5页,还剩37页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

多元统计分析第三章多元正态分布均值向量和协差阵的检验一、均值向量的检验二、协差阵的检验

1、霍特林(Hotelling)分布

由于这一统计量的分布首先由霍特林提出来的,故称为霍特林T2分布。值得指出的是,我国著名的统计学家许宝騄先生在1938年用不同的方法也导出T2分布的密度函数。在一元统计中,若来自总体的样本,则统计量其中显然与上面给出的T2统计量形式类似,且,可见T2分布是t分布的推广。

在一元统计中,若分布,则分布,即把t分布转化为F分布来处理,在多元统计分析中统计量也有类似的性质。这个公式在后面检验中经常用到。2、一个正态总体均值向量的假设检验这里需要对统计量的选取做一些解释,说明为什么统计量服从分布。根据二次型分布定理,若则显然而故在处理实际问题时,单一变量的检验和多变量的检验可以联合使用,多元的检验具有概括和全面的特点,而一元的检验容易发现各变量之间的关系和差异,能给人们提供更多的统计分析的信息。例1:对某地区农村的6名2周岁男婴的身高、胸围、上半臂围进行测量,得样本数据如表所示:编号身高(cm)胸围(cm)上半臂围(cm)17860.616.527658.112.539263.214.548159.014.058160.815.568459.514.0根据以往资料,该地区城市2周岁男婴的三个指标的均值为(90,58,16),假定总体服从正态分布,问该地区农村男婴与城市男婴在上述三个指标的均值有无显著性差异?显著性水平取0.01。这是一个假设检验问题:3、两个正态总体均值向量的假设检验当两个总体的协方差阵未知时,自然会想到用每个总体的样本协方差阵和去代替,而又由于所以有以后假设统计量的选取和前面统计量的选取思路是一样的,只提出待检验的假设,然后给出统计量及其分布,为节省篇幅,就不再重复解释。序号政治环境经济法律环境文化环境1653525602755020553604535654754040705703030506554035657604530608654025609605030701055553575序号政治环境经济法律环境文化环境1555540652506045703454535754505050705555030756604045607655545758506035809404530651045504570且两组样本相互独立,有共同未知协方差阵假设检验构造统计量经计算得进一步计算得对于给定的显著性水平,查F分布表,临界值

(1)单因素方差分析(复习)Wilks(威尔克斯分布)

在一元统计分析中,方差是刻画随机变量分散程度的一个重要特征,而方差的概念在多变量情况下变为协差阵。如何用一个数量指标来反映协差阵所体现的分散程度呢?有的用行列式,有的用迹等方法,目前用的最多的是行列式。这里需要说明的是,在实际应用中经常把Λ统计量化为T2统计量,进而再化为F统计量,利用F统计量来解决多元统计分析中有关检验问题。(3)多元方差分析类似一元方差分析办法,将诸平方和变成离差阵有:例3.3为了研究某种疾病,对一批人同时测量了4个指标:β脂蛋白(X1),甘油三酯(X2),α脂蛋白(X3),前β脂蛋白(X4),按不同年龄、不同性别分为三组(20至35岁女性、20至25岁男性和35至50岁男性),数据见表3.4~表3.6,试问这三组的4项指标间有无显著性差异?(α=0.01)表3.420至35岁女性身体指标化验数据序号β脂蛋白(X1)甘油三酯(X2)α脂蛋白(X3)前β脂蛋白(X4)12607540182200723417324087451841706539175270110392462051303423719069271582004645159250117212010200107282011225130361112210125261713170643114142707633131519060341616280812018173101192515182705731819250673114202601353929表3.520至25岁男性身体指标化验数据序号β脂蛋白(X1)甘油三酯(X2)α脂蛋白(X3)前β脂蛋白(X4)1310122302123106035183190402715422565341651706537166210823117728067371882103836179280653023102007640171120076392012280942611131906033171429555301615270125242116280120321817240623220182806929201937070302020280403717表3.635至50岁男性身体指标化验数据序号β脂蛋白(X1)甘油三酯(X2)α脂蛋白(X3)前β脂蛋白(X4)132064391722605937113360882826429510036125270653221638011436217240554210826055342092601102920102957333211124011438181231010332181333011221111434512724201525062221616260592119172251003430183451203618193601072523202501173616解:比较3个组(k=3)的4项指标(p=4)间是否有显著性差异问题,就是多总体均值向量是否相等的检验问题。设第i组为4维总体,来自3个总体的样本容量。检验::至少有一对不相等。因统计量,可利用统计量与F统计量的关系,取检验统计量为F统计量:其中由样本计算得:,,

进一步计算可得计算F统计量的2个自由度为8和108。对于给定的检验水平,查F分布表,得临界值。由于样本值,则拒绝H0。说明三个组的指标间有显著性的差异。进一步若还想了解三个组间指标的差异究竟由哪几项指标引起的,可以对4项指标逐项用一元方差分析方法进行检验,我们将发现三个组指标间只有第一项指标(X1)有显著性差异。事实上,用一元方差分析检验第一项指标(X1)在三个组中是否有显著性差异时,因对于给定的检验水平,查F分布表,得临界值。由于样本值,说明第一项指标(X1)有显著性的差异。例4:对例3中给出的3组身体指标化验数据,试判断这3个组的协方差阵是否相等?()解:这是3个4维正态总体的协方差阵是否相等的检验问题。设第i组为4维总体,来自3个总体的样本容量。

检验:至少有一对不相等。在成立时,取近似检验统计量为统计量:由样本值计算3个总体的样本协方差阵:,进一步可以计算出则得

对于给定的检验水平,查分布表,得临界值。由于样本值则接受H0。说明这3个组的协方差阵之间没有显著性的差异。3、多个正态总体均值向量和协差阵同时检验设有k个p维正态总体分别为每个,且未知,从k个正态总体中分别取ni()个独立样本如下:第2个总体:

第k个总体:我们考虑假设检验:且

第1个总体:或至少有一对不相等。

构造统计量

其中

记在实际应用中,将统计量中的改为n-k改为n,得到修正的统计量,记为则统计量在n很大,H0成立时,统计量近似服从

其中:

给定检验水平,由样本值计算出值,若,或否则拒绝H0,否则接受H0。例3.5对例3.3中给出的3组身体指标化验数据,试判断这3个组的均值向量和协方差阵是否相等?()解:这是3个

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论