多元正态均值向量和协方差矩阵的检验_第1页
多元正态均值向量和协方差矩阵的检验_第2页
多元正态均值向量和协方差矩阵的检验_第3页
多元正态均值向量和协方差矩阵的检验_第4页
多元正态均值向量和协方差矩阵的检验_第5页
已阅读5页,还剩88页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、2021-5-91 第三章第三章 多元正态均值向量和协方差多元正态均值向量和协方差 矩阵的检验矩阵的检验 内内 容容 第一节 单个总体均值向量的推断 第二节 单个总体均值分量间结构关系的检验 第三节 两个总体均值的检验 第四节 两个总体均值分量间结构关系的检验 第五节 多个总体均值的比较检验(多元方差分析) 第六节 正态总体协方差矩阵的检验 第七节 在SAS多元假设检验过程 2021-5-92 2021-5-93 一、均值向量的检验一、均值向量的检验 设 是取自多元正态总体 的一个样 本, ,现欲检验 n21 xxx,),( p N 0 0 : 0 H 0 : 1 H 由于总体的协方差矩阵可能

2、未知或已知,所以在检验时 必须采用有不同的的统计量,所以我们分成两种情况来讨 论。 第一节第一节 单个总体均值向量的推断单个总体均值向量的推断 2021-5-94 由于 是来自多元正态总体的简单随机样本n21 xxx, ),( 12111 p xxx 1 x ),( 222122 p xxxx ),( 21 pnnnn xxxx ),( 21 p 1、总体协方差矩阵已知时、总体协方差矩阵已知时 2021-5-95 )var(),cov(),cov( ),cov()var(),cov( ),cov(),cov()var( )( 21 2212 1211 ppp p p xxxxx xxxxx x

3、xxxx Var x 2021-5-96 由于样本均值 ,所以有 ) 1 ,( n p Nx )( 1 )( 0 1 2 0 xx 0 n T )()( 0 1 xx 0 n 服从自由度为p的卡方分布。 当原假设为真时, 服从自由度 为p的中心卡方分布。所以,我们用 作为检验的统计量,对显著性水平,检验的规则为: )()( 0 12 0 xx 0 nT )()( 0 12 0 xx 0 nT 2021-5-97 时,接受原假设;当)( 22 0 pT 时,拒绝原假设。当)( 22 0 pT 则接受原假设。值所计算出的样本统计量,)( 2 pPp 则拒绝原假设;值所计算出的样本统计量,)( 2

4、pPp 2021-5-98 2、总体协方差矩阵未知时、总体协方差矩阵未知时 总体的协方差矩阵未知,用样本的协方差矩阵 1 1 ()() (1) n ii i n Sxx xx 替代 中的总体协方差,得 霍特林(Hotelling) 统计量 )()( 0 1 2 0 xx 0 nT 2 T 1 2 0 ()()Tn 0 xSx 2021-5-99 在原假设为真时 对显著性水平 ,检验的规则为: 当 ,拒绝原假设; 当 ,接受原假设。 ),( ) 1( 2 pnpFT np pn ),( ) 1( 2 pnpFT np pn ),( ) 1( 2 pnpFT np pn 【例】人的出汗多少与人体内

5、的钠和钾的含量有一定 的关系,今测量了20位成年女性的出汗量、钠含量和 钾含量。试检验: 2021-5-910 10504: 00 H 2021-5-911 例 在企业市场结构研究中,起决定作用的指标 有市场份额X1,企业规模(资产净值总额的自然对 数)X2,资本收益率X3和总收益增长率X4。为了 研究美国市场的变动,夏菲尔德抽取了美国231个 大型企业,调查这些企业某十年的资料。假设以前 企业市场结构的均值向量为(20,7.5,10,2),该调查 所得的样本均值向量和样本协方差矩阵如下。 2021-5-912 (20.928.0611.781.090)x 0.260.081.6390.156

6、 0.081.5130.2220.019 1.6390.22226.6262.233 0.1560.0192.2331.346 试问企业的市场结构是否发生了变化? 注:似然比统计量 在数理统计中关于总体参数的假设检验,通常 还可以利用最大似然原理导出似然比统计量进行检 验。 设p维总体的密度函数为 2021-5-913 ( , )f x 其中 是未知参数, 参数空间。 有如下假设: 2021-5-914 10 :H 00 :H 现在从总体中抽出容量为n的样本 12n .xxx ( )( )( ) , 样本的联合密度函数为 (1)(2)( )( ) 1 ,.,; )(; ) n ni i Lf

7、xxxx( 引入似然比统计量 2021-5-915 0 (1)(2)( ) (1)(2)( ) max,.,; ) max,.,; ) n n L L xxx xxx ( ( 由于 ,所以统计量取值在0到1之间。 0 由极大似然比原理,如果取值太小,说明H0 为真的时观测到此样本的概率要小得多,故有理由 认为假设H0不成立。 可以证明当样本容量很大时 2021-5-916 0 (1)(2)( ) (1)(2)( ) max,.,; ) -2ln-2ln max,.,; ) n n L L xxx xxx ( ( 近似服从自由度为f的卡方分布,其中自 由度为的维数减0的维数。 下面我们讨论 20

8、21-5-917 0010 : =:HH ; 的似然比检验。 /2 22 ,0 max ( , )(2 ) n npnp Le n A 其中 1 ()() n ii i AX -X X -X 原假设成立时,有 2021-5-918 /2 0 22 0 0 max (, )(2 ) n npnp Le n A 其中 000 1 ()() n i AX-X- 2 2 00 2 n n n AA A A 我们来讨论一下,似然比检验的统计量和霍 特林的T平方统计量的关系。 2021-5-919 000 1 ()() n ii i AXXXXXX 00 1 ()()()() n ii i n XX XX

9、XX 00 ()()nAXX 有 2021-5-920 000 ()()nAAXX 1 00 1()()n AXAX 0 0 () () n n AX XI 0 1 2 00 11 1 1()() 1 1 n T n A AXAX 三个统计量是等价的,有 2021-5-921 22 TTFF 2021-5-922 例 设x1,x2, ,xn取自该总体Np(,)的样本, =(1, 2 , p),检验 H0: 1= 2 = = p= H1: 至少存在一对i和j,使i j 第二节第二节 单个总体均值分量间结构关系的检验单个总体均值分量间结构关系的检验 2021-5-923 1001 0101 001

10、1 C令 则与上面的原假设等价的假设为 0: 0 CH0: 1 CH 例 假定人类的体形有这样的一般规律:身高、胸围和 上臂围平均尺寸比例为6:4:1。检验身高、胸围和上臂 围平均尺寸比例是否符合这一规律。 2021-5-924 3210 4 1 6 1 :H 至少有两个不相等。 3211 , 4 1 , 6 1 :H 601 032 C 则上面的假设可以表达为 ;0C: 0 H0C: 1 H 2021-5-925 设 取自多元正态总体 的一个样本。 前面,我们已经利用样本,检验均值向量是否等于一个指 定的向量。在实际问题中,我们也需要检验均值向量的分 量之间是否存在某一指定的结构关系,即检验

11、 n21 xxx, ),( p N C: 0 HC: 1 H 其中C为一已知的kp阶矩阵,kp),是成对的试验数据,总体 X和y均服从p维正态分布,且协方差相等。令di=xi-yi,则 di=xi-yi服从正态分布 , 。),( dp N i d 21 检验假设 210 :H 211 :H 0: 0 H 0: 1 H 2021-5-937 dSd 1 d nT 2 检验的统计量 其中yxd n i ii n 1 )( 1 1 ddddSd 当原假设 为真时,统计量 服从自由度为 和 的 分布。 0 2 ) 1( T np pn ppn F 检验规则为: 当时 ,拒绝原假设,否则接受原 假设。

12、2 ) 1( T np pn ),(pnpF 2021-5-938 中小企业的破产模型中小企业的破产模型 为了研究中小企业的破产模型,首先选定了X1总负债 率(现金收益/总负债),X2收益性指标(纯收入/总财产 ),X3短期支付能力(流动资产/流动负债)和X4生产效 率性指标(流动资产/纯销售额)4个经济指标,对17个破 产企业为“1”和正常运行企业“2”进行了调查,得资料 如下。如果这些指标是用来做判别分析和聚类分析的变量 ,他们之间没有显著性差异是不恰当的,所以检验所选择 的指标在不同类型企业之间是否有显著的差异。 2021-5-939 Classification Resultsb,c

13、15217 51621 448 88.211.8100.0 23.876.2100.0 50.050.0100.0 15217 61521 88.211.8100.0 28.671.4100.0 破产企业为1,正 常运行企业为2 1 2 Ungrouped cases 1 2 Ungrouped cases 1 2 1 2 Count % Count % Original Cross-validated a 12 Predicted Group Membership Total Cross validation is done only for those cases in the analy

14、sis. In cross validation, each case is classified by the functions derived from all cases other than that case. a. 81.6% of original grouped cases correctly classified.b. 78.9% of cross-validated grouped cases correctly classified.c. x1,x2,x3,x4均为判别变量 2021-5-940 Classification Results b,c 15217 4172

15、1 448 88.211.8100.0 19.081.0100.0 50.050.0100.0 15217 51621 88.211.8100.0 23.876.2100.0 破产企业为1,正 常运行企业为2 1 2 Ungrouped cases 1 2 Ungrouped cases 1 2 1 2 Count % Count % Original Cross-validated a 12 Predicted Group Membership Total Cross validation is done only for those cases in the analysis. In cr

16、oss validation, each case is classified by the functions derived from all cases other than that case. a. 84.2% of original grouped cases correctly classified.b. 81.6% of cross-validated grouped cases correctly classified.c. x1, x3为判别变量 2021-5-941 Dependent Variable: x1 (对(对X1进行的检验)进行的检验) Sum of Sour

17、ce DF Squares Mean Square F Value Pr F Model 1 0.87466791 0.87466791 16.90 0.0002 Error 36 1.86300840 0.05175023 Corrected Total 37 2.73767632 X1在类间有显著性差异。 Dependent Variable: x2 (对(对X2进行的检验)进行的检验) Sum of Source DF Squares Mean Square F Value Pr F Model 1 0.08312077 0.08312077 1.95 0.1710 Error 36 1

18、.53370028 0.04260279 Corrected Total 37 1.61682105 X2在类间没有显著性差异。 2021-5-942 Dependent Variable: x3(对(对X3进行的检验)进行的检验) Sum of Source DF Squares Mean Square F Value Pr F Model 1 16.46958443 16.46958443 21.45 F Model 1 0.00112694 0.00112694 0.03 0.8643 Error 36 1.36978095 0.03804947 Corrected Total 37 1

19、.37090789 X4在类间没有显著性差异。 2021-5-943 多元假设检验多元假设检验 Statistic Value F Value Num DF Den DF Pr F Wilks Lambda 0.54561620 6.87 4 33 0.0004 Pillais Trace 0.45438380 6.87 4 33 0.0004 Hotelling-Lawley Trace 0.83279015 6.87 4 33 0.0004 Roys Greatest Root 0.83279015 6.87 4 33 0.0004 从从SAS的输出可以看出应该拒绝原假设,的输出可以看出应

20、该拒绝原假设, 即类间的有显著性差异。即类间的有显著性差异。 2021-5-944 第四节第四节 两个总体均值分量间结构关系的检两个总体均值分量间结构关系的检 验验 一、问题提出 设从总体 ,中各自独立地抽取 样本 和 , 。他们的 均值向量差为: 1 (, ) p N 和 2 (, ) p N 1 12 ( ,) n x xxx 2 12 (,) n y yyy 0 1121 1222 2 12pp 1 2021-5-945 例 在爱情和婚姻的调查中,对一个由若干名 丈夫和妻子组成的样本进行了问卷调查,请他们 回答以下几个问题: (1)你对伴侣的爱情的“热度”感觉如何? (2)伴侣对你的爱情

21、的“热度”感觉如何? (3)你对伴侣的爱情的“可结伴”水平感觉如何? (4)伴侣对你的爱情的“可结伴”水平感觉如何? 回答采用没有、很小、有些、很大和非常大5个 等级,得到结果如表。 2021-5-946 丈夫对妻子丈夫对妻子妻子对丈夫妻子对丈夫 X1 X2 X3 X4 X1 X2 X3 X4 23554455 55444555 45554455 43444555 33554455 33453344 34444354 44553455 45554454 44333444 44554555 55445555 2021-5-947 现在我们关心均值分量间的差异是否满足某种结 构关系。比如每个指标均

22、值间的差异是否相等。 1、丈夫对妻子以及妻子对丈夫的回答在0.05 显著水平上没有差异。 2、在四个指标上他们是否会有相同的分数。即 检验四个分数的平均值是否相等。 2021-5-948 二、统计量与检验 检验 012 :()HC 112 :()HC 在原假设为真的条件下,检验的统计量为: 1 2 12 12 ( p n n T nn C xy)CS CC xy) 2 12 12 12 (1) ( ,1) (2) nnk FTF k nnk k nn 2021-5-949 data a; input x1 x2 x3 x4 class; cards; 数据行省略 ; run; proc ano

23、va; class class; model x1-x4=class; manova h=class m=(1 -1 0 0 , 1 0 -1 0 , 1 0 0 -1); run; 2021-5-950 H = Anova SSCP Matrix for class E = Error SSCP Matrix S=1 M=0.5 N=27 Statistic Value F Value Num DF Den DF Pr F Wilks Lambda 0.87857261 2.58 3 56 0.0626 Pillais Trace 0.12142739 2.58 3 56 0.0626 Ho

24、telling-Lawley Trace 0.13820985 2.58 3 56 0.0626 Roys Greatest Root 0.13820985 2.58 3 56 0.0626 2021-5-951 例例 某种产品有甲乙两个品牌某种产品有甲乙两个品牌,其质量指标有,其质量指标有5个,个, 从从两种品牌的两种品牌的产品中产品中分别抽出分别抽出5个,有如下的数据,个,有如下的数据, 序号序号 X1X2X3X4X5 11118151815 23327312117 32028272319 4182618189 52223221610 2021-5-952 序号序号X1X2X3X4X5 1

25、1817201818 23124312620 31416172017 42524312618 53628242629 检验两种品牌的质量指标差异有显著不同。检验两种品牌的质量指标差异有显著不同。 2021-5-953 s1= 63.70 21.35 46.40 7.55 8.00, 21.35 16.30 19.95 7.15 4.25, 46.40 19.95 42.30 12.10 16.25, 7.55 7.15 12.10 7.70 10.50, 8.00 4.25 16.25 10.50 19.00; s2=81.70 44.70 36.90 29.80 36.60, 44.70 2

26、6.20 22.65 18.30 19.60, 36.90 22.65 40.30 20.60 3.45, 29.80 18.30 20.60 15.20 9.90, 36.60 19.60 3.45 9.90 24.30; 2021-5-954 mu1= 20.80, 24.40, 22.60, 19.20, 14.00; mu2=24.80, 21.80, 24.60, 23.20, 20.40; 2021-5-955 sp=(4#s1+4#s2)/8; C=1 -1 0 0 0, 0 1 -1 0 0, 0 0 1 -1 0, 0 0 0 1 -1; T=5#(t(mu1-mu2)*t(

27、C)*inv(C*sp*t(c)*C*(mu1-mu2)/2; T=35.645395 2021-5-956 2 12 12 (1)104 1 35.65=5.57 (2)4(102) nnk FT k nn 2021-5-957 data a1; input x1-x5 class$ ; cards; 11 18 15 18 15 1 33 27 31 21 17 1 20 28 27 23 19 1 18 26 18 18 9 1 22 23 22 16 10 1 18 17 20 18 18 2 31 24 31 26 20 2 14 16 17 20 17 2 25 24 31 26

28、18 2 36 28 24 26 29 2 ; proc anova; class class; model x1-x5=class; manova h=class m=(-1 1 0 0 0, 0 1 -1 0 0, 0 0 1 -1 0, 0 0 0 -1 1); run; 2021-5-958 第五节第五节 多个总体均值的比较检验(多元方差分析)多个总体均值的比较检验(多元方差分析) 前面我们已经对单个总体和两个总体的均值向量进行了 检验。但常常还需要检验三个或三个以上总体的均值向量 是否相等。 一、方差分析的回顾 某工厂实行早、中、晚三班工作制。工厂管理部门 想了解不同班次工人劳动效率

29、是否存在明显的差异。每 个班次随机抽出了7个工人,得工人的劳动效率(件/班) 资料如表。分析不同班次工人的劳动效率是否有显著性 差异。 =0.05,0.01。 2021-5-959 早班中班晚班 344939 374740 355142 334839 335041 355142 365140 2021-5-960 为什么各值 会有差异?可能的原因有两个。 一是,各个班次工人的劳动效率可能有差异, 从而导致了不同水平下的观察值之间差异,即存 在条件误差。 二是,随机误差的存在。 如何衡量两种原因所引起的观察值的差异? 总平均劳动效率为: k i n ij ij nyy i 1 / )( 571.

30、41 21 40423734 2021-5-961 三个班次工人的平均劳动效率分别为: 714.34 1 y571.49 2 y429.40 3 y 总离差平方和ss k i n j ij i yy 11 2 )( 222 )571.4140()571.4137)571.4134( 1429.835201211n自由度: 组间离差平方和(条件误差)ssA k i ii yyn 1 2 )( 22 )571.41571.49(7)571.41714.34(7 2 )571.41429.40(7286.786 2021-5-962 组内离差平方和(随机误差)sse k i n j iij i yy

31、 11 2 )( 22 )714.3436()714.3434( 22 )571.4151()571.4149( 857.38)429.4040()429.4039( 22 18321kn自由度 统计量F kn SS k SS eA 1 118.182 18 857.38 2 286.786 2021-5-963 查F分布表得临界值 因为 故应拒绝原 假设,即不同班次工人的劳动效率有显著的差异。 554. 3)18, 2( 05. 0 F013. 6)18, 2( 01. 0 F 013. 6)18, 2(118.182 01. 0 FF 方差分析:比较3个或3个以上的总体均值是 否有显著性差

32、异。用组间的方差与组内方差相比 ,据以判别误差主要源于组间的方差(不同组工 人的产量,条件误差),还是源于组内方差(随 机误差)。 2021-5-964 方差分析的任务是:寻找适当的统计量,检验 诸效应是否相等。亦即检验 原假设H o:a1=a2=ak ,即诸效应均为零; 备择假设H0:诸ai不全相等. 总离差平方和 k i n j ij i yyss 11 2 )( 反映了全部观察值相对于总平均数的离散程度。 随机波动所引起的离差平方和 k i n j iije i yyss 11 2 )( 反映了各相同水平下观察值之间的分散程度,称为 误差平方和或组内平方和。 2021-5-965 由各水

33、平的效应不同引起的离差平方和 k i iiA yynss 1 2 )( 可以证明可以证明 eA SSSSSS kn SS k SS F eA 1 在原假设成立的条件下,统计量F服从第一自由度 为k-1,第二自由度为n-k的F分布,对于给定的显 著性水平,可以查表确定临界值满足 PFF(k-1,n-k) =。 2021-5-966 把计算的F值与临界值比较, 当F F时,拒绝原假设,不同水平下的效应有显著性 差异;当F F Wilks Lambda0.66413.0781080.0038 Pillais Trace0.36273.0581100.0039 Hotelling-Lawley Tra

34、ce0.46543.11874.8560.0044 Roys Greatest Root0.34994.814550.0021 从SAS的输出可以看出应该拒绝原假设,即 类间的有显著性差异。 2021-5-975 第三节 协差阵检验 如同一元随机变量检验方差情形,多元随机向 量通常也要对协方差矩阵进行检验,检验的方法是 似然比检验。似然比检验的思路是原假设成立的似 然函数与原空间的似然函数(极大似然估计的似然 函数)相比的比值。即 0 ( , ,|) ( , ,|) LH L X X 该比如越大越接受原假设,反之比如越 小越不能接受原假设。 2021-5-976 在原假设成立的条件下,统计量

35、2ln 渐近到自由度为p(p+1)/2的卡方分布。 00 :H 10 :H 2021-5-977 2 11 ()exp()()() 2 n p n 2tr n A X- X- 12 ( , )()()() n Lf Xf Xf X 为样本联合密度函数。 1 2 2 ( )( ) 1 1 (2 )exp 2 n p ii i 1 (x) (x) 1 2 2 ( )( ) 1 1 (2 )exp 2 n p ii i 1 (x) (x) 2021-5-978 原假设成立的条件下,似然函数为 2 1 000 (|)()exp() 2 n p n LH2tr n A X 全空间似然函数为 2 1 (|

36、)()exp() 2 n p n L2tr nnn AAA X 2 ()exp 2 n p np 2 n A 2021-5-979 将两个似然函数相比,有 2 1 00 0 2 ()exp() 2(|) (|) ()exp( ) 2 n p n p n 2tr nLH L n 2tr n A X X A I /2 /211 00 1 ( )exp() 2 n np e tr n AA 2 2ln( ) ( (1)/2)p p 2021-5-980 注:统计量是原假设成立的似然函数 除以全空间的似然函数(极大似然估计的 似然函数)。该统计量的值大于零小于等 于1。越靠近0,说明全空间的似然函数值

37、 越大,则拒绝原假设。 2021-5-981 例 假设某个公司有3种新生产 方法供员工执行任务时使用,公司 试图研究新生产方法对于完成生产 任务的影响。为此选择了四种不同 的生产任务,随机抽取了30个工人, 将其随机安排用三种不同的生产方 法完成4种生产任务。其完成任务的 时间如下表。 2021-5-982 生产方法1 5.38.310.25.4 4.57.05.44.4 4.75.54.44.7 12.117.718.810.9 15.916.318.611.0 12.715.917.912.6 9.49.49.910.4 14.818.015.212.1 9.911.314.213.5 1

38、7.718.720.318.1 2021-5-983 生产方法2 10.49.116.414.2 8.211.514.312.6 7.47.210.79.6 17.81723.120.1 12.713.718.220.2 17.817.827.523.9 1317.723.922.5 9.910.514.211.6 5.96.610.79.8 5.99.517.711.9 2021-5-984 生产方法3 10.813.511.312.5 20.520.924.522.4 18.121.118.421.2 17.821.320.722.2 1922.920.924.6 5.912.111.611.7 15.622.111.721.6 20.123.724.423.7 11.318.117.417.2 8.610.9910.0 2021-5-985 根据以往的经验所花时间的协方差矩阵为 24.28 24.09 23.98 25.14 24.09 28.55 25.20 26.89 23.98 25.20 32.82 30.33 25.14 2

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论