




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、1多元统计分析大连海事大学 林国顺 博士Tel 133422970182009年9月2课程计划课程名称 多元统计分析(研究生) 学期2009-2010(一)管理科学与工程学科 教师: 林国顺 教学时数:24学时 实验学时:12学时周四 1-4节 文科楼 126 3课程大纲周次 讲课课时3第1章 序论 24-5第2章 多元正态分布 46第3章 多元正态分布假设检验 47第4章 多元数据图表示法 28第5章 聚类分析 29第6章 判别分析 210第7章 主成分分析 211第8章 对应分析 212第9章 因子分析213第10章 典型相关分析214第11章 多元线性回归24课程意义多元统计分析是研究多
2、个随机变量之间相互依赖关系以及内在统计规律性的一门统计学科。利用多元分析中不同的方法还可以对研究对象进行分类 ( 如指标分类或样品分类 ) 和简化 ( 如把相互依赖的变量变成独立的 或降低复杂集合的维数等) 。在当前科技和经济迅速发展的今天, 在国民经济许多领域中特别对社会经济现象的分析,只停留在定性分析上往往是不够的。为提高科学性、可靠性,通常需要定性与定量分析相结合。实践证明,多元分析是实现定量分析的有效工具。 5第一章 绪论 (2学时) 1.1 什么是多元统计分析 1.2 多元分析能解决哪些类型的实际问题 6在工业、农业、医学、气象、环境以及经济、管理等诸多领域中 , 常常需要同时观测多
3、个指标。例如 , 要衡量一个地区的经济发展 , 需观测的指标有 : 总产值、利润、效益、劳动生产率、万元生产值能耗、固定资产、流动资金周转率、物价、信贷、税收等 ; 要了解一种岩石 , 需观测或化验的指标也很多 , 如 : 颜色、 硬度、含碳量、含硫量等等 ; 1.1 什么是多元统计分析7要了解一个国家经济发展的类型也需观测很多指标 , 如 : 人均国民收入 , 人均工农业产值、人均消费水平等等。在医学诊断中 , 要判断某人是有病还是无病 , 也需要做多项指标的体检 , 如 : 血压、心脏脉搏跳动的次数、白血球、 体温等等。 随机变量 8总之 , 在科研、生产和日常生活中 , 受多种指标共同作
4、用和影响的现象是大量存在的 , 举不胜举。上述指标 , 在数学上通常称为变量 , 由于每次观测的指标值是不能预先确定的 , 因此每个指标可用随机变量来表示。随机变量9多元正态总体的参数估计和假设检验;主成分分析、因子分析、对应分析;路径分析、多维标度法等。多元数据图表示法、聚类分析、判别分析;本书重点介绍多元分析中常用的各种方法。 多元分析的主要内容 多重多元回归分析、典型相关分析;101928 年 Wishart 发表论文多元正态总体样本协差阵的精确分布 , 可以说是多元分析的开端。 20 世纪 30 年代 R.A.Fisher 、 H.Hotelling 、 S.N.Roy 、许宝碌、江泽
5、培、张里千等人作了一系列的奠基性工作, 使多元分析在理论上得到了迅速的发展。 我国50-60年代涌现陈家鼎、钱敏、刘婉如等一批知名教授。 返回多元分析起源 11下面例举一些实际问题 , 从中不仅可以看到多元分析能解决哪些不同类型的问题 , 而且还可以看到多元分析应用的广度和深度 .它将会引起学习者们的浓厚兴趣。 1.2 多元分析解决的实际问题 12对我国 30 个省市自治区的社会情况进行分析 , 一般不是逐个省市自治区去分析 , 而较好地做法是选取能反映社会情况的代表性指标 , 如 : 人口密度、城市和农村的平均每人每月收入和支出情况、居住面积、城市绿化覆盖率等等。 根据这些指标对 30个省市
6、自治区进行分类 , 然后根据分类结果对社会情况进行综合评价。 经济学 13如要考察北京、天津等几所大城市的企业情况 , 首先要选取企业方面有代表性指标 , 如 : 企业个数、工业总产值、平均人数、固定资产净值、资金利税率、资金利润率、全员劳动生产率等等。由于要考察的指标多 , 通常先对指标进行分类 , 按分类结果对指标进行综合分析给出企业的评价。如何分类 ? 可用 Q 型或R 型聚类分析法。 聚类分析14可根据人均国民收入、人均工农业产值、人均消费水平等多种指标判定一个国家的经济发展程度所属的类型。又如在市场预测中如何根据以往调查所得的种种指标判别下季度产品是畅销、平常或滞销 , 可用判别分析
7、法。 判别分析法15 如何研究国民收入变量 ( 工农业国民收入、运输业国民收入、建筑业国民收入等 ) 与投资性变量 ( 劳动者人数、货物周转量、生产建设投资等 ) 之间的相关关系。典型相关分析法 如何研究全国所有制独立核算工业企业的经济效益指标与其资金、利税等主要财务指标之间的关系 , 可用典型相关分析法。16概率基本概念1.随机事件 2.随机变量 3.概率 4.独立 5.分布函数 6.分布密度 7. 均值 8. 方差概率统计基本概念离散型随机变量(1). 两点分布 (2). 二项分布 (3) Poisson分布(4). 几何分布连续型随机变量(1).均匀分布 (2).正态分布 (3)指数分布
8、(4).2分布 (5). t分布 (6). F分布 统计基本概念1. 总体 2. 样本 3. 统计量 4. 估计量5. 无偏估计 6. 矩母函数 7.大数定律 8.中心极限定理 17测试1(10题)答题格式: 概率统计基础知识测试姓名: 专业班级 : 学号: 测试日期: 年 月 日星期四 得分:12345678910答案测试10题,每题正确得1分,每错1题扣1分 18测试1-1(1分钟)1在概率论中,随机试验应满足下列个条件( )A 允许在相同的条件下重复地进行 B 不允许在相同的条件下重复地进行 C 试验之前不知道会出现哪种现象 D 每次试验结果不一定相同 2若X的分布律为:P(X = 1)
9、 = P P(X = 0) = 1P ( 0P1 ) 则称X服从( )。A 两点分布 B 01分布 C 二项分布 D Poisson分布 19测试1-2(1分钟)3分布函数 F ( x )具有下列性质( ):A 0F ( x )1 B F ( x )是X的减函数 C D 4设连续型随机变量(X1 ,X2)有联合分布函数F(X1 , X2), X1 与X2相互独立,则有( )A F(X1 , X2) = B f(X1 , X2) = C F(X1 , X2) = D f(X1 , X2) = 20测试1 -3(1分钟)5设X是一个随机变量, k为常数,均值具有下列性质( )A E(kX) = k
10、E (X) B E (X+Y) = EX + EY C E(XY) = E(X)E(Y) D E (X - Y) = EX - EY 6如果 X1,X2,Xn, 是独立同分布的随机变量,E X1=,若成立 ,则称随机变量列 Xn 满足( )A 大数定律 B 弱大数定律 C 强大数定律 D 中心极限定理 21测试1-4(1分钟)7统计量是随机变量。 (T/F ) 8估计量是统计量, 是随机变量。 (T/F ) 9随机样本是统计量。 (T/F ) 10统计样本是实验观测值,不是随机变量。(T/F ) 22测试1 参考答案12345678910答案23多元正态分布在多元统计分析中所占的重要地位,如同
11、一元统计分析中一元正态分布所占的重要地位一样,多元统计分析中的许多重要理论和方法都是直接或间接建立在正态分布的基础上,多元正态分布是多元统计分析的基础。此外,在使用中遇到的随机向量常常是服从正态分布或近似正态分布。因此现实世界中许多实际问题的解决办法都是以总体服从正态分布或近似正态分布为前提的。第二章. 多元正态分布(孟佳佳, 周黎)242.1 基本概念 随机变量 总体 样本 随机向量的分布函数 独立 随机向量的均值 随机向量的协差阵 25随机变量对许多社会经济现象进行认识和研究时,往往涉及多个随机变量。一般说来,这些随机变量之间又有某种联系,因而需要把这些随机变量作为一个整体(即向量)来研究
12、。将p个随机变量X1,X2,Xp 的整体称为p维随机变量,记为X( X1,X2,Xp )。 26将所研究的对象称为总体,它是由许多(有限或无限)的个体构成的集合,如果构成总体的个体是具有p个需要观测指标的个体,我们称这样的总体为p维总体(或p元总体)。由于从p维总体中随机抽取一个个体,其p个指标观测值是不能事先精确知道的,他依赖于被抽到的个体,因此p维总体可用一个p维随机向量来表示.这种表示便于人们用数学方法去研究p维总体的特性.这里”维”(或”元”)的概念,表示共有几个分量. 总体27设X是具有分布函数F的随机向量,若X1,X2,Xp是具有同一分布函数F的、互相独立的随机变量,则称X1,X2
13、,Xp为从分布函数F得到的容量为p的随机样本,简称样本。 样本 28定义 设X(X1,X2,Xp)T是p维随机向量,它的多元分布函数定义为: F(x) F(X1,X2,Xp) P(X1x1,X2x2,Xpxp)记为XF(x),其中x(x1, x2, xp)TRp,Rp 表示p维欧氏空间。 多维随机向量的统计特性可用它的分布函数来完整的描述。随机向量的分布函数 29设X(X1,X2,Xp)T是p维随机向量,若存在有限个或可列个p维数向量x1, x2, ,记 P(XXk)pk(k1,2,) 且满足 p1p21则称X为离散型随机向量,称 P(XXk)pk(k1,2,)为X的概率分布。离散型随机向量概
14、率分布30若存在一个非负函数 f(x1, x2, xp),使得 F(x)=F(X1,X2,Xp) 对一切xRp,则称X为连续型随机变量; f(x1, x2, xp)为分布密度函数,简称为密度函数。随机向量分布密度函数 31一个p元函数f(x1,x2,xp)能作为Rp中某个随机向量的密度函数的主要条件是: f(x1,x2,xp)0,(x1,x2,xp)Rp; 密度函数的条件32设AB是两事件,如果具有等式 P(AB)=P(A)P(B)则称AB为相互独立的事件。 随机变量的独立性:X,Y是2个随机变量,如果 AB是任意两个事件,有P(XA,YB)=P(X A)P(YB)则称X,Y相互独立。独立的概
15、念 33X,Y 相互独立的主要判定条件: f(X,Y)=f(X) f(Y) X,Y 相互独立的判定F(X,Y)=F(X) F(Y) 34设X=(X1,X2,Xp), 若EXi (i=1, ,p) 存在且有限,则称E(X)=(EX1,EX2,EXp) 为X的均值或数学期望。容易推得均值具有以下性质:(1)E(AX+d) = AE(X) +d E(XB) = E(X)B (2)E(AXB) = AE(X)B E(AXB) = AE(XB)= AE(X)B(3)E(AX + BY) = AE(X) + BE(Y)随机向量的均值 其中X、Y为随机变量,A、B为大小适合运算得常数矩阵。35DX= E(X
16、-EX)(X-EX)T =(ij )pp称为随机向量X的方差阵。其中 ij =E(Xi - EXi)(Xj -EXj) Cov(X,Y)= E(X-EX)(Y-EY)T称为随机向量X、Y的协差阵。随机向量的协差阵 其实,我们可以看出 DX= Cov(X,X)36若Cov(X,Y) = 0,则称X和Y不相关;由X和Y相互独立易推得别 Cov(X,Y) = 0即X和Y不相关;随机向量的相关性 但反过来,当X和Y不相关时,一般不能推知它们独立。37容易推得协差阵有以下性质:(1) D(X)0,即X的协差阵是非负定阵。特征值0(2) 对于常数向量a,有D( X + a )=D(X)。(3) 设A为常数
17、矩阵,则D(AX)=AD(X)A。(4) Cov(AX,BY)=ACov(X,Y)B。协差阵性质其中a,A,B为大小适合运算的常数向量和矩阵38若p维随机向量X=(X1,X2,Xp)的密度函数为:其中X=(X1,X2,Xp),是p维向量,是p阶正定阵,则称X服从p元正态分布,也称X为p维正态随机向量,简记为,显然当p1时,即为一元正态分布密度函数。 2.2 基本性质 可以证明为X的均值,为X的协差阵。 39当|0时,-1不存在;X 也就不存在通常意义下的密度;|0这也是如今人们不大采用密度函数来定义多元正态分布的原因。40X=(X1,X2,XP)N(,)(1) 如果是对角矩阵,则 X1,X2,
18、XP 相互独立(2) Y = AX + d N(A+d,AAT)多元正态分布性质 (3) Y1=(X1,X2,Xr),Y2=(Xr+1,Xr+2,XP), X=(Y1,Y2)N(,)则 Y1N(1),(1),Y2N(2),(2)41(1)多元正态分布的任何边缘分布为正态分布,但反之不真;(2)由于12=Cov(X(1),X(2),故 12=0 表示X(1),X(2) 不相关;对于多元正态变量而言,不相关与独立是等价的由此可知,对于多元正态变量而言,X(1),X(2)的不相关与独立是等价的。42顺便指出,多元分析中的很多统计方法,大都假定数据来自多元正态总体。但是要判断已有的一批数据是否来自多元
19、正态总体,并不是一件简单的事。可是反过来要肯定数据不是来自多元正态总体,倒是有一些简单方法.其依据是:如果X = (X1 , , Xp )T服从p元正态分布,则它的每个分量必服从一元正态分布,多元正态总体判定因此把某个分量的n个样品值作成直方图,如果断定不呈正态分布,则就可以断定随机向量X =(X1 , , Xp )T也不可能服从p元正态分布。43在实际应用中,多元正态分布中均值向量和协差阵通常是未知的,需由样本来估计;参数的估计方法很多,这里用最常见的最大似然估计法给出其估计量,并借助一元统计中学过的估计量性质。 2.3 参数估计 需要指出,这里给出的估计量也满足通常要求的性质。 44 X(
20、1),X(2), X(N) 相互独立,与总体同分布。称X(1),X(2), X(N)为该总体的一个多元随机样本,简称为简单样本。除上述简单随机样本之外,还有其他样本,特别是在社会经济领域中,有些样本资料的来源就不一定总满足随机性的要求。 多元随机样本 本章中所用的多元样本特别是涉及到有关定理和性质的数学证明都是指简单随机样本。 45每个样品 X(k)(X(k1),X(k2),X(kp)T (k1,2,n)称为一个样品。其中Xkj为第k个样品对第j个指标的观测值,显然每个样品都是p维向量,将n个样品对p项指标进行观测,将全部观测结果用一个np阶矩阵X表示观测矩阵46由于每个样品对p个指标的观测值
21、是不能事先确定的,所以把每个样品看成随机向量,因此X就是一个随机矩阵,称X为观测矩阵或样本资料阵。一旦观测值取定就是一个数据矩阵,多元分析的很多方法都是运用各种手段从观测矩阵出发去提取有关信息。 观测矩阵471.多元样本中的每个样品,对p个指标的观测值往往是有相关关系的,但不同样品之间的观测值一定是相互独立的。2.多元分析处理的多元样本观测数据一般都属于横截面数据,即在同一时间横截面上的数据,比如某一年的人口普查数据、工业普查数据,对某一年份,横向比较30个省市自治区工业的经济效益指标,或者分析某年城镇居民的消费结构等等,对这类指标的观测数据都属于横截面数据,它不考虑时间因素,即这些数据不是按
22、时间顺序排列的。观测矩阵48样本均值向量 样本离差阵 样本离差阵49样本协差阵 样本相关阵 样本协差阵其中 50样本均值向量也可用样本资料阵X直接表示 样本均值向量的表示其中 51样本离差阵用样本资料阵X直接表示 样本离差阵的表示 其中 52通过样本来估计总体的参数叫做参数估计,参数估计的原则和方法是很多的,这里用最常见的且具有很多优良性质的最大似然法给出和的估计量。和的最大似然估计最大似然法求出和的估计量分别为 53(2) , 分别是 和的有效估计; 和估计量的基本性质 (3) , (或 )分别是 和 的一致估计(相合估计)。 (1) ,即是的无偏估计; ,即 不是的无偏估计; 是的无偏估计
23、;54设 ,S分别是正态总体 NP (,)的样本均值向量和离差阵,则定理2.1(1) (2) 离差阵S可以写为:其中,Z1 ,,Zk-1独立同分布于Np(0,); (3) 与 S 相互独立 :(4) S为正定阵的充要条件是 n p 55均值向量的分布仍为正态分布,而离差阵S的分布又是什么呢?为此提出Wishart分布,它是X2分布的推广,也是构成其他重要分布的基础。 Whishrt分布是Whishart在1928年推导出来的,为了纪念这位多元分析的先驱者而命名为Wishart分布。 Wishart分布 56定义 设X(k) = (Xk1,Xkp)T Np(,) , k 1,2,n且相互独立,则
24、由X(k)组成的随机矩阵: 的分布称为非中心Wishart分布,记为Wp(n,Z),其中z=kTk ,非中心参数定义为 k=(k1, kp)T;当k0时称为中心Wishart分布。Wishart分布57显然,当p1,2时,f(w)就是2X2 (n)的分布密度,此时WXkXTkX2k,有 因此,Wishart分布是X2分布在p维正态情况下的推广。Wishart分布是X2分布的推广58(1)若X(k)Np(,),k1,n且相互独立,则样本离差阵 基本性质 (2)若SiWp(ni,),i1,k,且相互独立,则 S=S1+ S2+ SkWp(n1+ n2+ nk ,)(3)若Xpp Wp(n,),Cpp为非奇异阵,则 CXCTWp(n,CCT)。 59测试2(10题)答题格式:多元统计课内测试姓名: 专业班级 : 学号: 测试日期: 2007年3月7日星期三 得分:12345678910答案测试10题,每题正确得1分,每错1题扣1分 6
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024成都工业职工大学辅导员招聘笔试真题
- 锻造车间安全员考试试卷及答案
- 2025年非接触式温度计项目发展计划
- 2025年PE电缆专用料项目发展计划
- 2025年江苏省常州市中考地理试题(原卷版)
- 2025年智能压力发生器项目合作计划书
- 2025年假肢、人工器官及植(介)入器械项目合作计划书
- 2025年精密箱体系统项目合作计划书
- 聊城市2025年农产品成本调查分析报告
- 湘艺版九年级上册音乐 第二单元 梁山伯与祝英台教案
- JBT 5300-2024 工业用阀门材料 选用指南(正式版)
- 2024年4月自考02613单片机与接口技术试题
- (2024年)诊疗规范培训课件
- 《大学法语简明教程》课件
- 2024年广东汕头市投资控股集团有限公司招聘笔试参考题库含答案解析
- 急性肺栓塞课件
- 高校中外合作办学人才培养机制
- 《肢体残疾评定》课件
- 停车场数据分析与管理
- 全等三角形经典辅助线做法汇总
- 客运列车保洁作业服务方案
评论
0/150
提交评论