第三章多元正态均值向量和协方差矩阵的检验_第1页
第三章多元正态均值向量和协方差矩阵的检验_第2页
第三章多元正态均值向量和协方差矩阵的检验_第3页
第三章多元正态均值向量和协方差矩阵的检验_第4页
第三章多元正态均值向量和协方差矩阵的检验_第5页
已阅读5页,还剩87页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第三章多元正态均值向量和协方差矩阵的检验2023/6/41第一页,共九十二页,编辑于2023年,星期一内容第一节

单个总体均值向量的推断第二节

单个总体均值分量间结构关系的检验第三节

两个总体均值的检验第四节

两个总体均值分量间结构关系的检验第五节

多个总体均值的比较检验(多元方差分析)第六节

正态总体协方差矩阵的检验第七节

在SAS多元假设检验过程2023/6/42第二页,共九十二页,编辑于2023年,星期一2023/6/43一、均值向量的检验

设是取自多元正态总体的一个样本,,现欲检验

由于总体的协方差矩阵可能未知或已知,所以在检验时必须采用有不同的的统计量,所以我们分成两种情况来讨论。第一节单个总体均值向量的推断第三页,共九十二页,编辑于2023年,星期一2023/6/44

由于是来自多元正态总体的简单随机样本1、总体协方差矩阵已知时第四页,共九十二页,编辑于2023年,星期一2023/6/45第五页,共九十二页,编辑于2023年,星期一2023/6/46

由于样本均值,所以有

服从自由度为p的卡方分布。当原假设为真时,服从自由度为p的中心卡方分布。所以,我们用作为检验的统计量,对显著性水平,检验的规则为:第六页,共九十二页,编辑于2023年,星期一2023/6/47第七页,共九十二页,编辑于2023年,星期一2023/6/482、总体协方差矩阵未知时

总体的协方差矩阵未知,用样本的协方差矩阵

替代中的总体协方差,得霍特林(Hotelling)统计量第八页,共九十二页,编辑于2023年,星期一2023/6/49

在原假设为真时对显著性水平,检验的规则为:当,拒绝原假设;当,接受原假设。第九页,共九十二页,编辑于2023年,星期一【例】人的出汗多少与人体内的钠和钾的含量有一定的关系,今测量了20位成年女性的出汗量、钠含量和钾含量。试检验:2023/6/410第十页,共九十二页,编辑于2023年,星期一2023/6/411

例在企业市场结构研究中,起决定作用的指标有市场份额X1,企业规模(资产净值总额的自然对数)X2,资本收益率X3和总收益增长率X4。为了研究美国市场的变动,夏菲尔德抽取了美国231个大型企业,调查这些企业某十年的资料。假设以前企业市场结构的均值向量为(20,7.5,10,2)’,该调查所得的样本均值向量和样本协方差矩阵如下。第十一页,共九十二页,编辑于2023年,星期一2023/6/412

试问企业的市场结构是否发生了变化?第十二页,共九十二页,编辑于2023年,星期一注:似然比统计量

在数理统计中关于总体参数的假设检验,通常还可以利用最大似然原理导出似然比统计量进行检验。

设p维总体的密度函数为2023/6/413其中是未知参数,参数空间。第十三页,共九十二页,编辑于2023年,星期一有如下假设:2023/6/414现在从总体中抽出容量为n的样本样本的联合密度函数为第十四页,共九十二页,编辑于2023年,星期一引入似然比统计量2023/6/415由于,所以统计量取值在0到1之间。

第十五页,共九十二页,编辑于2023年,星期一

由极大似然比原理,如果取值太小,说明H0为真的时观测到此样本的概率要小得多,故有理由认为假设H0不成立。

可以证明当样本容量很大时2023/6/416

近似服从自由度为f的卡方分布,其中自由度为的维数减0的维数。第十六页,共九十二页,编辑于2023年,星期一

下面我们讨论2023/6/417

的似然比检验。

其中第十七页,共九十二页,编辑于2023年,星期一原假设成立时,有2023/6/418

其中第十八页,共九十二页,编辑于2023年,星期一我们来讨论一下,似然比检验的统计量和霍特林的T平方统计量的关系。2023/6/419第十九页,共九十二页,编辑于2023年,星期一有2023/6/420第二十页,共九十二页,编辑于2023年,星期一三个统计量是等价的,有2023/6/421第二十一页,共九十二页,编辑于2023年,星期一2023/6/422

例设x1,x2,

…,xn取自该总体Np(,)的样本,=(1,2,…p),检验H0:1=2=…=p=

H1:至少存在一对i和j,使i

j第二节单个总体均值分量间结构关系的检验

第二十二页,共九十二页,编辑于2023年,星期一2023/6/423

则与上面的原假设等价的假设为

例假定人类的体形有这样的一般规律:身高、胸围和上臂围平均尺寸比例为6:4:1。检验身高、胸围和上臂围平均尺寸比例是否符合这一规律。第二十三页,共九十二页,编辑于2023年,星期一2023/6/424则上面的假设可以表达为

第二十四页,共九十二页,编辑于2023年,星期一2023/6/425

设取自多元正态总体的一个样本。前面,我们已经利用样本,检验均值向量是否等于一个指定的向量。在实际问题中,我们也需要检验均值向量的分量之间是否存在某一指定的结构关系,即检验

其中C为一已知的kp阶矩阵,k<p,rank(C)=k,为已知的k维向量。根据多元正态分布的性质可知第二十五页,共九十二页,编辑于2023年,星期一2023/6/426第二十六页,共九十二页,编辑于2023年,星期一2023/6/427

为了检验H0:C=

,可以用统计量

当为真时H0:C=

时对给定的显著性水平,检验的规则当时,拒绝原假设;当时,接受原假设。第二十七页,共九十二页,编辑于2023年,星期一2023/6/428

特别当=0

,即检验H0:C=0

,H1:C0,则第二十八页,共九十二页,编辑于2023年,星期一2023/6/429

在例中,假定人类的体形有这样一个一般规律的身高、胸围和上臂围平均尺寸比例为6:4:1。检验比例是否符合这一规律。检验:

第二十九页,共九十二页,编辑于2023年,星期一2023/6/430某地区农村男婴的体格测量数据如下编号身高(cm)胸围(cm)上半臂长(cm)17860.616.527658.112.539263.214.548159.014.058160.815.568459.514.0检验三个指标的均值是否有关系第三十页,共九十二页,编辑于2023年,星期一2023/6/431第三十一页,共九十二页,编辑于2023年,星期一2023/6/432第三节两个总体均值的检验

一、两个独立样本的情形

与一元随机变量的情形相同,常常我们需要检验两个总体的均值是否相等。

设从总体和中各自独立地抽取样本

考虑假设第三十二页,共九十二页,编辑于2023年,星期一2023/6/433根据两个样本可得1和2的无偏估计量为第三十三页,共九十二页,编辑于2023年,星期一2023/6/434

因为两个总体的协方差矩阵相等,所以我们可以用样本的联合协方差矩阵来估计第三十四页,共九十二页,编辑于2023年,星期一2023/6/435霍特林(Hotelling)统计量为:当原假设为真的条件下,统计量

检验的规则为:当时,拒绝原假设;当时,接受原假设。第三十五页,共九十二页,编辑于2023年,星期一2023/6/436

二、成对试验的统计量

前面我们讨论的是两个独立样本的检验问题,但是不少的实际问题中,两个样本的数据是成对出现的。例如检验男女职工的工资收入是否存在差异;一种新药的疗效等。

设(xi,yi),i=1,2,3,…,n(n>p),是成对的试验数据,总体X和y均服从p维正态分布,且协方差相等。令di=xi-yi,则di=xi-yi服从正态分布,。

检验假设第三十六页,共九十二页,编辑于2023年,星期一2023/6/437

其中

当原假设为真时,统计量服从自由度为和的分布。

检验规则为:

当时,拒绝原假设,否则接受原假设。

第三十七页,共九十二页,编辑于2023年,星期一2023/6/438

中小企业的破产模型为了研究中小企业的破产模型,首先选定了X1总负债率(现金收益/总负债),X2收益性指标(纯收入/总财产),X3短期支付能力(流动资产/流动负债)和X4生产效率性指标(流动资产/纯销售额)4个经济指标,对17个破产企业为“1”和正常运行企业“2”进行了调查,得资料如下。如果这些指标是用来做判别分析和聚类分析的变量,他们之间没有显著性差异是不恰当的,所以检验所选择的指标在不同类型企业之间是否有显著的差异。

第三十八页,共九十二页,编辑于2023年,星期一2023/6/439x1,x2,x3,x4均为判别变量第三十九页,共九十二页,编辑于2023年,星期一2023/6/440x1,x3为判别变量第四十页,共九十二页,编辑于2023年,星期一2023/6/441DependentVariable:x1(对X1进行的检验)

SumofSourceDFSquaresMeanSquareFValuePr>F

Model10.874667910.8746679116.900.0002

Error361.863008400.05175023

CorrectedTotal372.73767632

X1在类间有显著性差异。DependentVariable:x2(对X2进行的检验)

SumofSourceDFSquaresMeanSquareFValuePr>F

Model10.083120770.083120771.950.1710

Error361.533700280.04260279

CorrectedTotal371.61682105X2在类间没有显著性差异。第四十一页,共九十二页,编辑于2023年,星期一2023/6/442DependentVariable:x3(对X3进行的检验)

SumofSourceDFSquaresMeanSquareFValuePr>F

Model116.4695844316.4695844321.45<.0001

Error3627.640805040.76780014

CorrectedTotal3744.11038947X3在类间有显著性差异。DependentVariable:x4(对X4进行的检验)

SumofSourceDFSquaresMeanSquareFValuePr>F

Model10.001126940.001126940.030.8643

Error361.369780950.03804947

CorrectedTotal371.37090789X4在类间没有显著性差异。第四十二页,共九十二页,编辑于2023年,星期一2023/6/443

多元假设检验

StatisticValueFValueNumDFDenDFPr>F

Wilks'Lambda0.545616206.874330.0004Pillai'sTrace0.454383806.874330.0004Hotelling-LawleyTrace0.832790156.874330.0004Roy'sGreatestRoot0.832790156.874330.0004

从SAS的输出可以看出应该拒绝原假设,即类间的有显著性差异。第四十三页,共九十二页,编辑于2023年,星期一2023/6/444第四节两个总体均值分量间结构关系的检验

一、问题提出

设从总体,中各自独立地抽取样本和,。他们的均值向量差为:第四十四页,共九十二页,编辑于2023年,星期一2023/6/445

例在爱情和婚姻的调查中,对一个由若干名丈夫和妻子组成的样本进行了问卷调查,请他们回答以下几个问题:(1)你对伴侣的爱情的“热度”感觉如何?(2)伴侣对你的爱情的“热度”感觉如何?(3)你对伴侣的爱情的“可结伴”水平感觉如何?(4)伴侣对你的爱情的“可结伴”水平感觉如何?回答采用没有、很小、有些、很大和非常大5个等级,得到结果如表。

第四十五页,共九十二页,编辑于2023年,星期一2023/6/446丈夫对妻子妻子对丈夫X1X2X3X4X1X2X3X4235544555544455545554455434445553355445533453344344443544455345545554454443334444455455555445555第四十六页,共九十二页,编辑于2023年,星期一2023/6/447

现在我们关心均值分量间的差异是否满足某种结构关系。比如每个指标均值间的差异是否相等。

1、丈夫对妻子以及妻子对丈夫的回答在α=0.05显著水平上没有差异。

2、在四个指标上他们是否会有相同的分数。即检验四个分数的平均值是否相等。

第四十七页,共九十二页,编辑于2023年,星期一2023/6/448二、统计量与检验

检验

在原假设为真的条件下,检验的统计量为:第四十八页,共九十二页,编辑于2023年,星期一2023/6/449dataa;inputx1x2x3x4class;cards;数据行省略;run;proc

anova;classclass;modelx1-x4=class;manovah=classm=(1-1

0

0,

1

0-1

0,

1

0

0-1);run;第四十九页,共九十二页,编辑于2023年,星期一2023/6/450H=AnovaSSCPMatrixforclassE=ErrorSSCPMatrixS=1M=0.5N=27StatisticValueFValueNumDFDenDFPr>FWilks'Lambda0.878572612.583560.0626Pillai'sTrace0.121427392.583560.0626Hotelling-LawleyTrace0.138209852.583560.0626Roy'sGreatestRoot0.138209852.583560.0626第五十页,共九十二页,编辑于2023年,星期一2023/6/451

例某种产品有甲乙两个品牌,其质量指标有5个,从两种品牌的产品中分别抽出5个,有如下的数据,

序号X1X2X3X4X5111181518152332731211732028272319418261818952223221610第五十一页,共九十二页,编辑于2023年,星期一2023/6/452序号X1X2X3X4X51181720181823124312620314161720174252431261853628242629检验两种品牌的质量指标差异有显著不同。第五十二页,共九十二页,编辑于2023年,星期一2023/6/453s1={63.7021.3546.407.558.00,21.3516.3019.957.154.25,46.4019.9542.3012.1016.25,7.557.1512.107.7010.50,8.004.2516.2510.5019.00};s2={81.7044.7036.9029.8036.60,44.7026.2022.6518.3019.60,36.9022.6540.3020.603.45,29.8018.3020.6015.209.90,36.6019.603.459.9024.30};第五十三页,共九十二页,编辑于2023年,星期一2023/6/454mu1={20.80,24.40,22.60,19.20,14.00};mu2={24.80,21.80,24.60,23.20,20.40};第五十四页,共九十二页,编辑于2023年,星期一2023/6/455sp=(4#s1+4#s2)/8;C={1-1000,01-100,001-10,0001-1};T=5#(t(mu1-mu2)*t(C)*inv(C*sp*t(c))*C*(mu1-mu2))/2;

T=35.645395

第五十五页,共九十二页,编辑于2023年,星期一2023/6/456第五十六页,共九十二页,编辑于2023年,星期一2023/6/457dataa1;inputx1-x5class$@@;cards;1118151815133273121171202827231911826181891222322161011817201818231243126202141617201722524312618236282426292;procanova;classclass;modelx1-x5=class;manovah=classm=(-11000,01-100,001-10,000-11);run;第五十七页,共九十二页,编辑于2023年,星期一2023/6/458第五节多个总体均值的比较检验(多元方差分析)

前面我们已经对单个总体和两个总体的均值向量进行了检验。但常常还需要检验三个或三个以上总体的均值向量是否相等。

一、方差分析的回顾

某工厂实行早、中、晚三班工作制。工厂管理部门想了解不同班次工人劳动效率是否存在明显的差异。每个班次随机抽出了7个工人,得工人的劳动效率(件/班)资料如表。分析不同班次工人的劳动效率是否有显著性差异。=0.05,0.01。第五十八页,共九十二页,编辑于2023年,星期一2023/6/459早班中班晚班344939374740355142334839335041355142365140第五十九页,共九十二页,编辑于2023年,星期一2023/6/460

为什么各值会有差异?可能的原因有两个。

一是,各个班次工人的劳动效率可能有差异,从而导致了不同水平下的观察值之间差异,即存在条件误差。

二是,随机误差的存在。

如何衡量两种原因所引起的观察值的差异?总平均劳动效率为:第六十页,共九十二页,编辑于2023年,星期一2023/6/461三个班次工人的平均劳动效率分别为:总离差平方和ss组间离差平方和(条件误差)ssA第六十一页,共九十二页,编辑于2023年,星期一2023/6/462组内离差平方和(随机误差)sse

统计量F第六十二页,共九十二页,编辑于2023年,星期一2023/6/463查F分布表得临界值因为故应拒绝原假设,即不同班次工人的劳动效率有显著的差异。

方差分析:比较3个或3个以上的总体均值是否有显著性差异。用组间的方差与组内方差相比,据以判别误差主要源于组间的方差(不同组工人的产量,条件误差),还是源于组内方差(随机误差)。第六十三页,共九十二页,编辑于2023年,星期一2023/6/464

方差分析的任务是:寻找适当的统计量,检验诸效应是否相等。亦即检验

原假设Ho:a1=a2=…=ak,即诸效应均为零;备择假设H0:诸ai不全相等.总离差平方和反映了全部观察值相对于总平均数的离散程度。随机波动所引起的离差平方和反映了各相同水平下观察值之间的分散程度,称为误差平方和或组内平方和。第六十四页,共九十二页,编辑于2023年,星期一2023/6/465由各水平的效应不同引起的离差平方和

可以证明

在原假设成立的条件下,统计量F服从第一自由度为k-1,第二自由度为n-k的F分布,对于给定的显著性水平,可以查表确定临界值满足P{F>F(k-1,n-k)}=。第六十五页,共九十二页,编辑于2023年,星期一2023/6/466把计算的F值与临界值比较,当FF时,拒绝原假设,不同水平下的效应有显著性差异;当F<F时,接受原假设。方差来源离差平方和自由度方差F值

组间A

组内E

总和

——NEXT第六十六页,共九十二页,编辑于2023年,星期一2023/6/467

二、多元方差分析中的假设

设有个总体,他们的分布分别今从这个总体中抽出样本,,为第个总体的样本容量,样本容量为。

三、多元方差分析的叉积矩阵的分解第六十七页,共九十二页,编辑于2023年,星期一2023/6/468交叉乘积项第六十八页,共九十二页,编辑于2023年,星期一2023/6/469SSE为组内叉积矩阵,反映随机因素引起的误差;SS(TR)为组间叉积矩阵,反映系统因素引起的误差。

SSE和SS(TR)之和等于总叉积矩阵SST。当SSE在SST中占有较大的份额时,可以认为随机因素影响过大,反之SSE所占份额小,SS(RT)所占份额就大,不同试验间的观测值会有显著性差异。第六十九页,共九十二页,编辑于2023年,星期一2023/6/470

四、构造统计量第七十页,共九十二页,编辑于2023年,星期一2023/6/471

从前面的分析,可以看出统计量实际上是组内离差平方和与总离差平方和的比值,反映了组内离差平方和在总离差平方和中所占比重。

越小,则不同试验间的观测值之间的差异就越大,则支持备择假设不完全相同;

越大,则不同试验间的观测值之间的差异就越小,则支持原假设。第七十一页,共九十二页,编辑于2023年,星期一【例】为了研究某种疾病,对一批人同时测量了4个指标,脂蛋白、甘油三酯、脂蛋白和前脂蛋白。按这批人的不同年龄、不同性别分为三组(20至35岁的女性、20至25岁的男性和35至50岁的男性)。讨论三组人的4项指标是否存在显著性差异。=0.05。2023/6/472第七十二页,共九十二页,编辑于2023年,星期一2023/6/473dataa;inputg$x1-x4@@;cards;126075401812007234171240874518117065391712701103924120513034231190692715120046461512501172120120010728201225130361112101252617117064311412707633131190603416……;proc

anova;classg;modelx1-x4=g;manovah=g;run;第七十三页,共九十二页,编辑于2023年,星期一2023/6/474StatisticValueFValueNumDFDenDFPr>FWilks'Lambda0.66413.0781080.0038Pillai'sTrace0.36273.0581100.0039Hotelling-LawleyTrace0.46543.11874.8560.0044Roy'sGreatestRoot0.34994.814550.0021从SAS的输出可以看出应该拒绝原假设,即类间的有显著性差异。第七十四页,共九十二页,编辑于2023年,星期一2023/6/475第三节协差阵检验

如同一元随机变量检验方差情形,多元随机向量通常也要对协方差矩阵进行检验,检验的方法是似然比检验。似然比检验的思路是原假设成立的似然函数与原空间的似然函数(极大似然估计的似然函数)相比的比值。即

该比如越大越接受原假设,反之比如越小越不能接受原假设。第七十五页,共九十二页,编辑于2023年,星期一2023/6/476

在原假设成立的条件下,统计量

渐近到自由度为p(p+1)/2的卡方分布。第七十六页,共九十二页,编辑于2023年,星期一2023/6/477为样本联合密度函数。第七十七页,共九十二页,编辑于2023年,星期一2023/6/478

原假设成立的条件下,似然函数为

全空间似然函数为第七十八页,共九十二页,编辑于2023年,星期一2023/6/479

将两个似然函数相比,有第七十九页,共九十二页,编辑于2023年,星期一2023/6/480

注:统计量是原假设成立的似然函数除以全空间的似然函数(极大似然估计的似然函数)。该统计量的值大于零小于等于1。越靠近0,说明全空间的似然函数值越大,则拒绝原假设。第八十页,共九十二页,编辑于2023年,星期一2023/6/

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论