多元统计分析-1_第1页
多元统计分析-1_第2页
多元统计分析-1_第3页
多元统计分析-1_第4页
多元统计分析-1_第5页
已阅读5页,还剩60页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、1多元统计分析多元统计分析大连海事大学 林国顺林国顺 博士博士Tel 133422970182009年年9月月2课程计划课程计划 课程名称 多元统计分析(研究生) 学期2009-2010(一) 管理科学与工程学科 教师: 林国顺 教学时数:24学时 实验学时:12学时 周四 1-4节 文科楼 126 3课程大纲课程大纲周次 讲课课时3第1章 序论 24-5第2章 多元正态分布 46第3章 多元正态分布假设检验 47第4章 多元数据图表示法 28第5章 聚类分析 29第6章 判别分析 210第7章 主成分分析 211第8章 对应分析 212第9章 因子分析213第10章 典型相关分析214第11

2、章 多元线性回归24课程意义课程意义 多元统计分析是研究多个随机变量之间相互依多元统计分析是研究多个随机变量之间相互依赖关系以及内在统计规律性的一门统计学科赖关系以及内在统计规律性的一门统计学科。 利用多元分析中不同的方法还可以对研究对象进行分类 ( 如指标分类或样品分类 ) 和简化 ( 如把相互依赖的变量变成独立的 或降低复杂集合的维数等) 。 在当前科技和经济迅速发展的今天, 在国民经济许多领域中特别对社会经济现象的分析,只停留在定性分析上往往是不够的。为提高科学性、可靠性,通常需要定性与定量分析相结合。 实践证明,多元分析是实现定量分析的有效工具。 5第一章第一章 绪论绪论 (2学时)学

3、时) 1.1 1.1 什么是多元统计分析什么是多元统计分析 1.2 多元分析能解决哪些类型的实际问题多元分析能解决哪些类型的实际问题 6在工业、农业、医学、气象、环境以及经济、管在工业、农业、医学、气象、环境以及经济、管理等诸多理等诸多领域中领域中 , , 常常需要同时观测多个指标。常常需要同时观测多个指标。例如例如 , , 要衡量一个地区的要衡量一个地区的经济发展经济发展 , , 需观测的需观测的指标有指标有 : : 总产值、利润、效益、劳动生产率、万总产值、利润、效益、劳动生产率、万元生元生产值能耗、固定资产、流动资金周转率、物产值能耗、固定资产、流动资金周转率、物价、信贷、税收等价、信贷

4、、税收等 ; ; 要了解一种岩石要了解一种岩石 , , 需观测或化验的指标也很多需观测或化验的指标也很多 , , 如如 : : 颜色、颜色、 硬度硬度、含碳量、含硫量等等、含碳量、含硫量等等 ; ; 1.1 1.1 什么是多元统计分析什么是多元统计分析7要了解一个国家经济发展的类型也要了解一个国家经济发展的类型也需观测需观测很多指标很多指标 , , 如如 : : 人均国民收入人均国民收入 , , 人均工农业产值、人均消人均工农业产值、人均消费费水平水平等等。等等。在医学诊断中在医学诊断中 , , 要判断某人是有病还是无病要判断某人是有病还是无病 , , 也也需需要做要做多项指标的体检多项指标的

5、体检 , , 如如 : : 血压、心脏脉搏跳血压、心脏脉搏跳动的次数、白血球、动的次数、白血球、 体温体温等等。等等。 随机变量随机变量 8总之总之 , , 在科研、生产和日常生活中在科研、生产和日常生活中 , , 受多种指标受多种指标共同共同作用作用和影响的现象是大量存在的和影响的现象是大量存在的 , , 举不胜举。举不胜举。上述指标上述指标 , , 在数学在数学上通上通常称为变量常称为变量 , , 由于每次观由于每次观测的指标值是不能预先确定的测的指标值是不能预先确定的 , , 因因此此每个指标可用每个指标可用随机变量来表示。随机变量来表示。随机变量随机变量9多元正态总体的参数估计和假设检

6、验多元正态总体的参数估计和假设检验;主成分分析、因子分析、对应分析主成分分析、因子分析、对应分析;路径分析、多维标度法等。路径分析、多维标度法等。多元数据图表示法、聚类分析、判别分析多元数据图表示法、聚类分析、判别分析;本书重点介绍多元分析中常用的各种方法。本书重点介绍多元分析中常用的各种方法。 多元分析的主要内容多元分析的主要内容 多重多元回归分析、典型相关分析多重多元回归分析、典型相关分析;101928 1928 年年 WishartWishart 发表论文多元正态总体样本协发表论文多元正态总体样本协差阵的精确分布差阵的精确分布 , , 可以说是多元分析的开端。可以说是多元分析的开端。 2

7、0 20 世纪世纪 30 30 年代年代 R.A.FisherR.A.Fisher 、 H.HotellingH.Hotelling 、 S.N.RoyS.N.Roy 、许宝许宝碌、江泽培、张里千碌、江泽培、张里千等人作了一系等人作了一系列的奠基性工作列的奠基性工作, , 使多元分析在理论上得到了迅速使多元分析在理论上得到了迅速的发展。的发展。 我国我国50-6050-60年代涌现陈家鼎、钱敏、刘婉如等一批知名年代涌现陈家鼎、钱敏、刘婉如等一批知名教授。教授。 返回返回多元分析起源多元分析起源 11下面例举一些实际问题下面例举一些实际问题 , , 从中不仅可以看到多元分析能解决从中不仅可以看到

8、多元分析能解决哪些哪些不同类型的问题不同类型的问题 , , 而且还可以看到多元分析应用的广度而且还可以看到多元分析应用的广度和深和深度度 . .它将会引起学习者们的浓厚兴趣。它将会引起学习者们的浓厚兴趣。 1.2 1.2 多元分析解决的实际问题多元分析解决的实际问题 12对我国对我国 30 30 个省市自治区的社会情况进行分析个省市自治区的社会情况进行分析 , , 一般不是一般不是逐个逐个省市自治区去分析省市自治区去分析 , , 而较好地做法是而较好地做法是选取能反映社会情况的选取能反映社会情况的代表代表性指标性指标 , , 如如 : : 人口密度、城市和农村的平均每人每月收入和人口密度、城市

9、和农村的平均每人每月收入和支出支出情况、居住面积、城市绿化覆盖率等等情况、居住面积、城市绿化覆盖率等等。 根据这些指标对根据这些指标对 30 30个省个省市自治区进行分类市自治区进行分类 , , 然后然后根据分类结果对社会情况进行综合根据分类结果对社会情况进行综合评价。评价。 经济学 13如要考察北京、天津等几所大城市的企业情况如要考察北京、天津等几所大城市的企业情况 , , 首首先要先要选取选取企业方面有代表性指标企业方面有代表性指标 , , 如如 : : 企业个数、工业总产值、平均企业个数、工业总产值、平均人数人数、固定资产、固定资产净值、资金利税率、资金利润率、全员劳动生产净值、资金利税

10、率、资金利润率、全员劳动生产率率等等等。等。由于要考察的指标多由于要考察的指标多 , , 通常先对指标进行分类通常先对指标进行分类 , , 按按分类分类结果结果对指标进行综合分析给出企业的评价。如何对指标进行综合分析给出企业的评价。如何分类分类 ? ? 可用可用 Q Q 型型或或R R 型聚类分析法。型聚类分析法。 聚类分析聚类分析14可根据人均国民收入、人均工农业产值、人可根据人均国民收入、人均工农业产值、人均消费均消费水平等多种指标判定一个国家的经济发展程度所属水平等多种指标判定一个国家的经济发展程度所属的类的类型。型。又如在市场预测中如何根据以往调查所得的种种指又如在市场预测中如何根据以

11、往调查所得的种种指标判别下标判别下季度产季度产品是畅销、平常或滞销品是畅销、平常或滞销 , , 可用判可用判别分析法。别分析法。 判别分析法判别分析法15 如何研究国民收入变量如何研究国民收入变量 ( ( 工农业国民收入、运工农业国民收入、运输业国民收输业国民收入、入、建筑业国民收入等建筑业国民收入等 ) ) 与投资性变量与投资性变量 ( ( 劳动者人数、货物周转量劳动者人数、货物周转量、生产建设投资等生产建设投资等 ) ) 之之间的相关关系。间的相关关系。典型相关分析法典型相关分析法 如何研究全国所有制独如何研究全国所有制独立核算立核算工业企业的经济工业企业的经济效益指标与其资金、利税等主要

12、财务指标效益指标与其资金、利税等主要财务指标之间之间的关的关系系 , , 可用典型相关分析法。可用典型相关分析法。16概率基本概念概率基本概念1.随机事件 2.随机变量 3.概率 4.独立 5.分布函数 6.分布密度 7. 均值 8. 方差概率统计基本概念概率统计基本概念离散型随机变量离散型随机变量(1). 两点分布 (2). 二项分布 (3) Poisson分布(4). 几何分布连续型随机变量连续型随机变量(1). 均匀分布 (2). 正态分布 (3) 指数分布(4). 2分布分布 (5). t分布 (6). F分布 统计基本概念统计基本概念1. 总体 2. 样本 3. 统计量 4. 估计量

13、5. 无偏估计 6. 矩母函数 7.大数定律 8.中心极限定理 17测试1(10题)答题格式答题格式: 概率统计基础知识测试概率统计基础知识测试姓名姓名: 专业班级专业班级 : 学号学号: 测试日期测试日期: 年年 月月 日星期四日星期四 得分得分:12345678910答案答案测试10题,每题正确得1分,每错1题扣1分 18测试1-1(1分钟)1在概率论中,随机试验应满足下列个条件( )A 允许在相同的条件下重复地进行 B 不允许在相同的条件下重复地进行 C 试验之前不知道会出现哪种现象 D 每次试验结果不一定相同 2若X的分布律为:P(X = 1) = P P(X = 0) = 1P (

14、0P1 ) 则称X服从( )。A 两点分布 B 01分布 C 二项分布 D Poisson分布 19测试1-2(1分钟)3分布函数分布函数 F ( x )具有下列性质(具有下列性质( ):):A 0F ( x )1 B F ( x )是是X的减函数的减函数 C D 4设连续型随机变量设连续型随机变量(X1 ,X2)有联合分布函数有联合分布函数F(X1 , X2), X1 与与X2相互独立相互独立,则有(则有( )A F(X1 , X2) = B f(X1 , X2) = C F(X1 , X2) = D f(X1 , X2) = 0)(limxFx1)(limxFx)()(2121xFxFXX

15、)()(2121xfxfXX)()(2121xFxFXX)()(2121xfxfXX20测试1 -3(1分钟)5设X是一个随机变量, k为常数,均值具有下列性质( )A E(kX) = kE (X) B E (X+Y) = EX + EY C E(XY) = E(X)E(Y) D E (X - Y) = EX - EY 6如果 X1,X2,Xn, 是独立同分布的随机变量,E X1=,若成立 ,则称随机变量列 Xn 满足( )A 大数定律 B 弱大数定律 C 强大数定律 D 中心极限定理 1| )1|lim1niinXnP21测试1-4(1分钟)7统计量是随机变量。 (T/F ) 8估计量是统计

16、量, 是随机变量。 (T/F ) 9随机样本是统计量。 (T/F ) 10 统计样本是实验观测值,不是随机变量。(T/F ) 22测试测试1 1 参考答案参考答案12345678910答案答案23多元正态分布在多元统计分析中所占的重要地位,如同一元多元正态分布在多元统计分析中所占的重要地位,如同一元统计分析中一元正态分布所占的重要地位一样,多元统计分统计分析中一元正态分布所占的重要地位一样,多元统计分析中的许多重要理论和方法都是直接或间接建立在正态分布析中的许多重要理论和方法都是直接或间接建立在正态分布的基础上,多元正态分布是多元统计分析的基础。的基础上,多元正态分布是多元统计分析的基础。此外

17、,在使用中遇到的随机向量常常是服从正态分布或近似正此外,在使用中遇到的随机向量常常是服从正态分布或近似正态分布。态分布。因此现实世界中许多实际问题的解决办法都是以总体服从正因此现实世界中许多实际问题的解决办法都是以总体服从正态分布或近似正态分布为前提的。态分布或近似正态分布为前提的。第二章第二章. . 多元正态分布多元正态分布( (孟佳佳孟佳佳, , 周黎周黎) )242.1 2.1 基本概念基本概念 随机变量随机变量 总体总体 样本样本 随机向量的分布函数随机向量的分布函数 独立独立 随机向量的均值随机向量的均值 随机向量的协差阵随机向量的协差阵 25随机变量随机变量 对许多社会经济现象进行

18、认识和研究时,往往涉对许多社会经济现象进行认识和研究时,往往涉及多个随机变量。一般说来,这些随机变量之间及多个随机变量。一般说来,这些随机变量之间又有某种联系,因而需要把这些随机变量作为一又有某种联系,因而需要把这些随机变量作为一个整体(即向量)来研究。个整体(即向量)来研究。将将p p个随机变量个随机变量X X1 1,X,X2 2, ,XpXp 的整体称为的整体称为p p维随机维随机变量,记为变量,记为X X( X X1 1,X,X2 2, ,XpXp )。)。 26将所研究的对象称为总体,它是由许多(有限或无将所研究的对象称为总体,它是由许多(有限或无限)的个体构成的集合,如果构成总体的个

19、体是具限)的个体构成的集合,如果构成总体的个体是具有有p p个需要观测指标的个体,我们称这样的总体为个需要观测指标的个体,我们称这样的总体为p p维总体(或维总体(或p p元总体)。元总体)。由于从由于从p p维总体中随机抽取一个个体,其维总体中随机抽取一个个体,其p p个指标观个指标观测值是不能事先精确知道的测值是不能事先精确知道的, ,他依赖于被抽到的个体他依赖于被抽到的个体, ,因此因此p p维总体可用一个维总体可用一个p p维随机向量来表示维随机向量来表示. .这种表示这种表示便于人们用数学方法去研究便于人们用数学方法去研究p p维总体的特性维总体的特性. .这里这里”维维”( (或或

20、”元元”) )的概念的概念, ,表示共有几个分量表示共有几个分量. . 总体总体27设设X X是具有分布函数是具有分布函数F F的随机向量,若的随机向量,若X X1 1,X,X2 2, ,XpXp是具是具有同一分布函数有同一分布函数F F的、互相独立的随机变量,的、互相独立的随机变量,则称则称X X1 1,X,X2 2, ,XpXp为从分布函数为从分布函数F F得到的容量为得到的容量为p p的随机样的随机样本,简称样本。本,简称样本。 样本样本 28定义定义 设设X X(X X1 1,X,X2 2, ,XpXp)T T是是p p维随机向量维随机向量, ,它的多它的多元分布函数定义为元分布函数定

21、义为: : F(xF(x) ) F F(X X1 1,X,X2 2, ,XpXp) P P(X X1 1xx1 1,X,X2 2xx2 2, ,XpxXpxp p)记为记为X XF F(x x),),其中其中x x(x x1 1, x, x2 2, , x xp p)T TRRp p,R Rp p 表示表示p p维欧氏空间。维欧氏空间。 多维随机向量的统计特性可用它的分布函数来完整的多维随机向量的统计特性可用它的分布函数来完整的描述。描述。随机向量的分布函数随机向量的分布函数 29设设X X(X X1 1,X,X2 2, ,XpXp)T T是是p p维随机向量,维随机向量,若存在有限个或可列个

22、若存在有限个或可列个p p维数向量维数向量x x1 1, x, x2 2, , ,记记 P P(X XX Xk k)p pk k(k k1 1,2 2,) 且满足且满足 p p1 1p p2 21 1则称则称X X为离散型随机向量,称为离散型随机向量,称 P P(X XX Xk k)p pk k(k k1 1,2 2,)为为X X的概率分布。的概率分布。离散型离散型随机向量随机向量概率分布概率分布30若存在一个非负函数若存在一个非负函数 f f(x x1 1, x, x2 2, , x xp p),),使得使得 F F(x x)=F=F(X X1 1,X,X2 2, ,XpXp) 对一切对一切

23、xRxRp p,则称则称X X为连续型随机变量为连续型随机变量; ; f f(x x1 1, x, x2 2, , x xp p)为分布密度函数,简称为密度函数。为分布密度函数,简称为密度函数。随机向量分布密度函数随机向量分布密度函数 ppdtdtttf1xp1x1),(31一个一个p p元函数元函数f f(x x1 1,x x2 2,x xp p)能作为能作为R Rp p中某个随中某个随机向量的密度函数的主要条件是:机向量的密度函数的主要条件是: f(xf(x1 1,x x2 2,x xp p)0)0,(,(x x1 1,x x2 2,x xp p)RRp p; 密度函数的条件密度函数的条件

24、1),(2121ppdxdxdxxxxf32设设ABAB是两事件,如果具有等式是两事件,如果具有等式 P(AB)=P(A)P(B) P(AB)=P(A)P(B)则称则称ABAB为相互独立的事件。为相互独立的事件。 随机变量的独立性:随机变量的独立性:X,YX,Y是是2 2个随机变量,如果个随机变量,如果 ABAB是任意两个事件,有是任意两个事件,有P(XAP(XA,YB)=P(X A)P(YB)YB)=P(X A)P(YB)则称则称X,YX,Y相互独立。相互独立。独立的概念独立的概念 33X,Y X,Y 相互独立相互独立的主要判定条件:的主要判定条件: f(X,Y)=f(X) f(Y) X,Y

25、 相互独立的判定相互独立的判定F(X,Y)=F(X) F(Y) 34设设X=X=(X1,X2,X1,X2,XpXp), , 若若EXiEXi (i=1, (i=1, ,p) ,p) 存在且有限存在且有限, ,则则称称E(X)=(EX1,EX2,E(X)=(EX1,EX2,EXpEXp) ) 为为X X的均值或数学期望。的均值或数学期望。容易推得均值具有以下性质:容易推得均值具有以下性质:(1)E(AX+d) = AE(X) +d E(XB) = E(X)B (1)E(AX+d) = AE(X) +d E(XB) = E(X)B (2)E(AXB) = AE(X)B E(AXB) = AE(XB

26、)= AE(X)B(2)E(AXB) = AE(X)B E(AXB) = AE(XB)= AE(X)B(3)E(AX + BY) = AE(X) + BE(Y)(3)E(AX + BY) = AE(X) + BE(Y)随机向量的均值随机向量的均值 其中其中X X、Y Y为随机变量,为随机变量,A A、B B为大小适合运算得常数矩阵。为大小适合运算得常数矩阵。35DX= E(X-EX)(X-EX)DX= E(X-EX)(X-EX)T T =( =(ijij ) )p pp p称为随机向量称为随机向量X X的方差阵。的方差阵。其中其中 ijij =E=E(X Xi i - - EXEXi i)()

27、(X Xj j - -EXEXj j) Cov(X,YCov(X,Y)= E(X-EX)(Y-EY)= E(X-EX)(Y-EY)T T称为随机向量称为随机向量X X、Y Y的协差阵。的协差阵。随机向量的协差阵随机向量的协差阵 其实其实, ,我们可以看出我们可以看出 DX=DX= Cov(X,XCov(X,X) )36若若Cov(X,YCov(X,Y) = 0,) = 0,则称则称X X和和Y Y不相关不相关; ;由由X X和和Y Y相互独立易推得别相互独立易推得别 Cov(X,YCov(X,Y) = 0) = 0即即X X和和Y Y不相关不相关; ;随机向量的相关性随机向量的相关性 但反过来

28、,当但反过来,当X X和和Y Y不相关时,不相关时,一般不能推知它们独立。一般不能推知它们独立。37容易推得协差阵有以下性质:容易推得协差阵有以下性质:(1) D(1) D(X X)0 0,即,即X X的协差阵是非负定阵。特征值的协差阵是非负定阵。特征值0 0(2) (2) 对于常数向量对于常数向量a a,有,有D D( X + a X + a )=D=D(X X)。)。(3) (3) 设设A A为常数矩阵,则为常数矩阵,则D D(AXAX)=AD=AD(X X)A A 。(4) (4) CovCov(AXAX,BYBY)= =ACovACov(X X,Y Y)B B 。协差阵性质协差阵性质其

29、中其中a a,A A,B B为大小适合运算的常数向量和矩阵为大小适合运算的常数向量和矩阵38若若p p维随机向量维随机向量X=X=(X X1 1,X,X2 2, ,XpXp)的密度函数为:的密度函数为:其中其中X=X=(X X1 1,X,X2 2, ,X Xp p),是是p p维向量,维向量,是是p p阶正定阵,阶正定阵,则称则称X X服从服从p p元正态分布,也称元正态分布,也称X X为为p p维正态随机向量,简记为,维正态随机向量,简记为,显然当显然当p p1 1时,即为一元正态分布密度函数。时,即为一元正态分布密度函数。 2.2 基本性质基本性质 可以证明可以证明为为X X的均值,的均值

30、,为为X X的协差阵。的协差阵。 )()(21exp)2(1)x(f1xxp39当当|0 0时,时,-1-1不存在不存在; ;X X 也就不存在通常意义下的密度也就不存在通常意义下的密度; ;|0这也是如今人们不大采用密度函数来定义多元正态分布的原这也是如今人们不大采用密度函数来定义多元正态分布的原因。因。40X=X=(X1X1,X2X2,XPXP)N(N(,)(1) (1) 如果如果是对角矩阵,则是对角矩阵,则 X X1 1,X X2 2,X XP P 相互独立相互独立(2) Y = AX + d (2) Y = AX + d N(A+dN(A+d,AAAAT T) )多元正态分布性质多元正

31、态分布性质 (3) Y(3) Y1 1= =(X X1 1,X,X2 2, , ,XrXr),),Y Y2 2= =(Xr+1,Xr+2,Xr+1,Xr+2,XP,XP), , X= X=(Y Y1 1,Y,Y2 2)N(,N(,) )则则 Y Y1 1N(1)N(1),(1)(1),Y Y2 2N(2)N(2),(2)(2)41(1 1)多元正态分布的任何边缘分布为正态分布,但反之不)多元正态分布的任何边缘分布为正态分布,但反之不真真; ;(2 2)由于)由于1212=Cov(X(1),X(2)=Cov(X(1),X(2),故,故 1212=0 =0 表示表示X(1),X(2) X(1),X

32、(2) 不相关不相关; ;对于多元正态变量而言对于多元正态变量而言,不相关与独立是等价的不相关与独立是等价的由此可知,对于多元正态变量而言,由此可知,对于多元正态变量而言,X(1),X(2)X(1),X(2)的不相关与的不相关与独立是等价的。独立是等价的。42顺便指出,多元分析中的很多统计方法,大都假定数据来自多元正态总体。但是要判断已有的一批数据是否来自多元正态总体,并不是一件简单的事。可是反过来要肯定数据不是来自多元正态总体,倒是有一些简单方法.其依据是:如果X = (X1 , , Xp )T服从p元正态分布,则它的每个分量必服从一元正态分布,多元正态总体判定因此把某个分量的n个样品值作成

33、直方图,如果断定不呈正态分布,则就可以断定随机向量X =(X1 , , Xp )T也不可能服从p元正态分布。43在实际应用中,多元正态分布中均值向量和协差阵通常是未知的,需由样本来估计;参数的估计方法很多,这里用最常见的最大似然估计法给出其估计量,并借助一元统计中学过的估计量性质。 2.3 参数估计参数估计 需要指出,这里给出的估计量也满足通常要求的性质。 44 X X(1 1),),X X(2 2),), X X(N N) 相互独立,与总体同相互独立,与总体同分布。称分布。称X X(1 1),),X X(2 2),), X X(N N)为该总体的一)为该总体的一个多元随机样本,简称为简单样本

34、。个多元随机样本,简称为简单样本。除上述简单随机样本之外,还有其他样本,特别是在社会经除上述简单随机样本之外,还有其他样本,特别是在社会经济领域中,有些样本资料的来源就不一定总满足随机性的要济领域中,有些样本资料的来源就不一定总满足随机性的要求。求。 多元随机样本多元随机样本 本章中所用的多元样本特别是涉及到有关定理和性质的数本章中所用的多元样本特别是涉及到有关定理和性质的数学证明都是指简单随机样本。学证明都是指简单随机样本。 45每个样品 X(k)(X(k1),X(k2),X(kp)T (k1,2,n)称为一个样品。其中Xkj为第k个样品对第j个指标的观测值,显然每个样品都是p维向量,将n个

35、样品对p项指标进行观测,将全部观测结果用一个np阶矩阵X表示观测矩阵观测矩阵npnnppTnTTXXXXXXXXXXXXX212222111211)()2()1(46由于每个样品对由于每个样品对p p个指标的观测值是不能事先确定的,所以把个指标的观测值是不能事先确定的,所以把每个样品看成随机向量,因此每个样品看成随机向量,因此X X就是一个随机矩阵,称就是一个随机矩阵,称X X为观为观测矩阵或样本资料阵。测矩阵或样本资料阵。一旦观测值取定就是一个数据矩阵,多元分析的很多方法都一旦观测值取定就是一个数据矩阵,多元分析的很多方法都是运用各种手段从观测矩阵出发去提取有关信息。是运用各种手段从观测矩阵

36、出发去提取有关信息。 观测矩阵观测矩阵11211(1)12222(2)(1)(2)( )12( ),TTnTnTnTppnpnXXXXXXXXXXXXXXXX471.1.多元样本中的每个样品,对多元样本中的每个样品,对p p个指标的观测值往往是有相关个指标的观测值往往是有相关关系的,但不同样品之间的观测值一定是相互独立的。关系的,但不同样品之间的观测值一定是相互独立的。2.2.多元分析处理的多元样本观测数据一般都属于横截面数据,多元分析处理的多元样本观测数据一般都属于横截面数据,即在同一时间横截面上的数据,比如某一年的人口普查数据、即在同一时间横截面上的数据,比如某一年的人口普查数据、工业普查

37、数据,对某一年份,横向比较工业普查数据,对某一年份,横向比较3030个省市自治区工业个省市自治区工业的经济效益指标,或者分析某年城镇居民的消费结构等等,的经济效益指标,或者分析某年城镇居民的消费结构等等,对这类指标的观测数据都属于横截面数据,它不考虑时间因对这类指标的观测数据都属于横截面数据,它不考虑时间因素,即这些数据不是按时间顺序排列的。素,即这些数据不是按时间顺序排列的。观测矩阵观测矩阵48样本均值向量样本均值向量 样本离差阵样本离差阵 样本离差阵样本离差阵12()11(,)nTpKkXXXXXnppijTkknkppsXXXXS)()()()(149样本协差阵样本协差阵 样本相关阵样本

38、相关阵 样本协差阵样本协差阵ppijTkknkppvXXXXnV)()(1)()(1ppijpprR)(其中 vvijijiijjvr50样本均值向量也可用样本资料阵样本均值向量也可用样本资料阵X X直接表示直接表示 样本均值向量的表示样本均值向量的表示111TnpXXn1(1,1,1)Tn其中其中 1112112222121111nnppnpXXXXXXnXXX nTXnX111112112222121nnppnpXXXXXXnXXX12pXXX51样本离差阵用样本资料阵样本离差阵用样本资料阵X X直接表示直接表示 样本离差阵的表示样本离差阵的表示TkknkppXXXXS)()()(1TTX

39、XnXXXXnXXTnnTT111XnIXTnnnT)111( 其中其中 1001nI52通过样本来估计总体的参数叫做参数估计,通过样本来估计总体的参数叫做参数估计,参数估计的原则和方法是很多的,这里用最常见的且参数估计的原则和方法是很多的,这里用最常见的且具有很多优良性质的最大似然法给出具有很多优良性质的最大似然法给出和和的估计量。的估计量。和和的最大似然估计的最大似然估计最大似然法求出最大似然法求出和和的估计量分别为的估计量分别为 X1SVn53(2 2) , 分别是分别是 和和的有效估计;的有效估计; 和和估计量的基本性质估计量的基本性质 (3 3) , (或(或 )分别是)分别是 和和

40、 的一致估计(相合估计)。的一致估计(相合估计)。 (1 1) ,即是,即是的无偏估计;的无偏估计; ,即,即 不是不是的无偏估计;的无偏估计; 是是的无偏估计;的无偏估计;()E X11()nESnn1Sn111nVSnnX11SnX11Sn1Sn54设设 ,S分别是正态总体分别是正态总体 NP (,)的样本均值向量和的样本均值向量和离差阵,则离差阵,则定理定理2.1X1( ,)pNn(1) (2) (2) 离差阵离差阵S S可以写为:可以写为:其中,其中,Z Z1 1 , ,,Z Zk-1k-1独立同分布于独立同分布于NpNp(0 0,);); X11anTaaSZ Z(3) (3) 与与

41、 S S 相互独立相互独立 :X(4) S(4) S为正定阵的充要条件是为正定阵的充要条件是 n n p p 55均值向量的分布仍为正态分布,而离差阵均值向量的分布仍为正态分布,而离差阵S S的分布又的分布又是什么呢?是什么呢?为此提出为此提出WishartWishart分布,它是分布,它是X X2 2分布的推广,也是构成分布的推广,也是构成其他重要分布的基础。其他重要分布的基础。 WhishrtWhishrt分布是分布是WhishartWhishart在在19281928年推导出来的,为了年推导出来的,为了纪念这位多元分析的先驱者而命名为纪念这位多元分析的先驱者而命名为WishartWish

42、art分布。分布。 Wishart分布分布 56定义定义 设设X(k) = (Xk1,Xkp)T Np(,) , k 1,2,n且相互且相互独立,则由独立,则由X(k)组成的随机矩阵:)组成的随机矩阵: 的分布称为非中心的分布称为非中心WishartWishart分布,记为分布,记为WpWp(n n,Z Z),),其中其中z=z=k kT Tk k ,非中心参数定义为非中心参数定义为 k k=(=(k1k1, , , kpkp) )T T;当当k k0 0时称为中心时称为中心WishartWishart分布。分布。Wishart分布分布nkTkkppXXW1)()(57显然,当显然,当p1,2时,时,f(w)就是就是2X2 (n)的分布密的分布密度,此时度,此时WXkXTkX2k,有,有 因此,因此,WishartWishart分布是分布是X X2 2分布在分布在p p维正态情况下的推广。维正态情况下的推广。Wishart分布是分布是X2分布的推广分布的推广)(121)()(2nXXnkTkk

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论