多元统计分析期末复习_第1页
多元统计分析期末复习_第2页
多元统计分析期末复习_第3页
多元统计分析期末复习_第4页
多元统计分析期末复习_第5页
免费预览已结束,剩余4页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第一章:多元统计分析研究的内容(5点)1、简化数据结构(主成分分析)2、分类与判别(聚类分析、判别分析)3、变量间的相互关系(典型相关分析、多元回归分析)4、多维数据的统计推断5、多元统计分析的理论基础第二三章:下图的例子中的两个二元正态分布的各个分量是相同的,但这两个特征向量在空间的分布却不柏同n从下图工枯蝴,椒郝大蝴鹘闻出.邛砸两嘛乘藉就馥眦反过来看左图中的髓机变量为TU。与的-火购乘积的符号就可正可的那么以下是上西图特征向量分布的协方给眸Q;利Q;:1请问哪惬4图,哪个是右融前一个是左图)Lp如果是一个寺向量,的外方差矩阵是几乘几的矩阵?每个元素又对应什么含义?隹个3x3矩片,工=%)=

2、(同楂-泻)(工厂均亦)还需要指出的悬协方差矩阵并不只对正态分布有用它是多元随机变量中一个重要的数学统计表示方怯,它描述丁一个随机变量样本集中各个分量之间的相关性,校方勤巨阵还有一些很重要的属性,是经常用到的。其中一个特性是:它是一个对祢矩阵,如果它的第行第冽元素表示咸时,则应有时邪”这就是说与第舟第列的元素是相同以这就是腌性,另一怖性悬由于它的主对角元蠲是各分量的方差,酗T情况下龌大于零的值。因此协方第B是正定的,这一点也是十分有用的,二、多维随机变量的数字特征1、随机向量的数字特征随机向量X均值向量:随机向量X与Y的协方相源车二(EXi,EX2,,EXp)'=(t,匕,.,)

3、9;当X=丫时Cov(X,Y=D(X);当oCOv(巡Y)Y=0,/区(河才吠。EX)(Y-EY)'随机向量X与Y的相关系数矩阵:2、均值向量协方差矩阵的性质;(X,Y)=(rj)pq(1) .设X,Y为随机向量,A,B为常数矩阵E(AX)=AE(X);E(AXB=AE(X)B;D(AX)=AD(X)A'Cov(AX,BY)=ACov(X,Y)B(2) .若X,Y独立,则Cov(X,Y)=0,反之不成立.(3) .X的协方差阵D(X)是对称非负定矩阵。例2.见黑板三、多元正态分布的参数估计2、多元正态分布的性质(1) .若,则E(X)=,D(X)=.特别地XNP(匕为声角阵时,

4、N粕互独立。(2) .若R,不为XgXp描数矩阵,d为s阶向量,AX+dXNP(N,.工)即正态分布的线性函数仍是正态分布.(3) .多元正N分布A物缘吩d加态公彳,反之不成立.(4) .多元正态分布的不相关与独立等价.例3.见黑板.三、多元正态分布的参数估计(1) “为来自p元总体X的(简单)样本”的理解-独立同截面.(2)多海俞祥本XW2特征-常见多元统计量样本均值向量=样本离差阵s=Xn(元,冗2,二,Xp)'_样本协方差阵v=1S;样本相关阵R,v分别是2(x和)-丽最关似然估乐)了(4)而计的性质一L三是的无偏估计;,V分别是和的有效和一致估计;XX,_与5相互独立;XNP(

5、N,11)第五章领分抓:n-1,工)片n一、什么是聚类分析:聚类分析是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方法。用于对事物类别不清楚,甚至事物总共可能有几类都不能确定的情况下进行事物分类的场合。聚类方法:系统聚类法(直观易懂)、动态聚类法(快)、有序聚类法(保序).Q-型聚类分析(样品)R-型聚类分析(变量)变量按照测量它们的尺度不同,可以分为三类:间隔尺度、有序尺度、名义尺度。二、常用数据的变换方法:中心化变换、标准化变换、极差正规化变换、对数变换(优缺点)1、中心化变换(平移变换):中心化变换是一种坐标轴平移处理方法,它是先求出每个变量的样本平均值,再从原始数据中

6、减去该变量的均值,就得到中心化变换后的数据。不改变样本间的相互位置,也不改变变量间的相关性。2、标准化变换:首先对每个变量进行中心化变换,然后用该变量的标准差进行标准化。经过标准化变换处理后,每个变量即数据矩阵中每列数据的平均值为0,方差为1,且也不再具有量纲,同样也便于不同变量之间的比较。3、极差正规化变换(规格化变换):规格化变换是从数据矩阵的每一个变量中找出其最大值和最小值,这两者之差称为极差,然后从每个变量的每个原始数据中减去该变量中的最小值,再除以极差。经过规格化变换后,数据矩阵中每列即每个变量的最大数值为1,最小数值为0,其余数据取值均在0-1之间;且变换后的数据都不再具有量纲,便

7、于不同的变量之间的比较。4、对数变换:对数变换是将各个原始数据取对数,将原始数据的对数值作为变换后的新值。它将具有指数特征的数据结构变换为线性数据结构。三、样品间相近性的度量研究样品或变量的亲疏程度的数量指标有两种:距离,它是将每一个样品看作p维空间的一个点,并用某种度量测量点与点之间的距离,距离较近的归为一类,距离较远的点应属于不同的类;相似系数,性质越接近的变量或样品,它们的相似系数越接近于1或一l,而彼此无关的变量或样品它们的相似系数则越接近于0,相似的为一类,不相似的为不同类。样品之间的聚类即Q型聚类分析,则常用距离(统计量)来测度样品之间的亲疏程度;而变量之间的聚类即R型聚类分析,常

8、用相似系数(统计量)来测度变量之间的亲疏程度。1、距离的算法:明氏距离兰氏距离斜交空间距离马氏距离2、相似系数的算法:夹角余弦相似系数3、样品分类和指标分类:对样品分类常用距离,对指标分类常用相似系数4、明氏(Minkowski)距离的两个缺点:明氏距离的值与各指标的量纲有关,而各指标计量单位的选择有一定的人为性和随意性,各变量计量单位的不同不仅使此距离的实际意义难以说清,而且,任何一个变量计量单位的改变都会使此距离的数值改变从而使该距离的数值依赖于各变量计量单位的选择。明氏距离的定义没有考虑各个变量之间的相关性和重要性。实际上,明考夫斯基距离是把各个变量都同等看待,将两个样品在各个变量上的离

9、差简单地进行了综合.5、相似系数:通常所说相关系数,一般指变量间的相关系数,作为刻划样品间的相似关系也可类似给出定义,即第i个样品与第j个样品之间的相似系数定义为:p_-(x,-Xi)(Xjk-Xj)_k1'ij=S_、21rN、2实际上,就是两个向量中心化后的夹角余弦k(Xik-Xi)k,(Xjk-Xj)k肚k-16、距离和相似系数选择的原则:(1)所选择的亲疏测度指标在实际应用中应有明确的意义。(2)亲疏测度指标的选择要综合考虑已对样本观测数据实施了的变换方法和将要采用的聚类分析方法。(3)适当地考虑计算工作量的大小。练习:1.聚类分析是建立一种分类方法,它将一批样品或变量按照它们

10、在性质上的进行科学的分类.2. Q型聚类法是按进行聚类,R型聚类法是按进行聚类。3. Q型聚类统计量是,而R型聚类统计量通常采用。4. 在聚类分析中需要对原始数据进行无量纲化处理,以消除不同量纲或数量级的影响,达到数据间可同度量的目的。常用的无量纲化方法有以下几种:、。5. Q型聚类方法有、等。第六章判别分析:1 .四种判别方法:距离判别法、费歇判别法、贝叶斯判别法、逐步判别法。2 .贝叶斯Bayes判别法:距离判别方法简单实用,但没有考虑到每个总体出现的机会大小,即先验概率,没有考虑到错判的损失;Fisher判别法随着总体个数的增加,建立的判别式也增加,计算量加大,如果考虑各总体的重要性,问

11、题会突出而简单许多。既要考虑到各个总体出现的先验概率,又要考虑到错判造成的损失,Bayes判别就具有这些优点,其判别效果更加理想,应用也更广泛。基本思想:总是假定对所研究的对象已有一定的认识,常用先验分布来认识它,然后,基于抽取的样本对先验概率作修正,得到后验概率,最后采用相应的判别准则(如误判率最小准则,后验概率最大准则等)进行判别。Bayes判别法,对各类(总体)的分布有特定的要求,即已知先验概率和分布密度函数。3.4.各判别法之间的联系:在正态等协方差阵及先验概率相等的条件下贝叶斯判别与距离判别等价;不加权的F1sher判别法等价于距离判别法练习:1.判别分析是要解决在研究对象已的情况下

12、,确定新的观测数据属于已知类别中哪一类的多元统计方法。2 .用判别分析方法处理问题时,通常以作为衡量新样本点与各已知组别接近程度的指标。3 .进行判别分析时,通常指定一种判别规则,用来判定新样本的归属,常见的判别准则有、O4 .在p维空间Rp中,点与点之间的接近和疏远尺度用来衡量,最简单的就是或。5 .类内样本点接近,类间样本点疏远的性质,可以通过与的大小差异表现出来,而两者的比值能把不同的类区别开来。这个比值越大,说明类与类间的差异越,分类效果越。6 .Fisher判别法是找一个由p个变量组成的,使得各自组内点的尽可能接近,而不同组间点的尽可能疏远。简答题:1 .判别分析的分类:距离判别法、

13、费歇判别法、贝叶斯判别法、逐步判别法。2 .判别的基本思想:是根据已掌握的、历史上若干样本的p个指标数据及所属类别的信息,总结出该事物分类的规律性,建立判别公式和判别准则。根据总结出来的判别公式和判别准则,判别未知类别的样本点所属的类别。3 .简述两个总体的判别及判别准则:基本思路:(1)统计模型:设G1,G2是两个不同的P维已知总体,x=(x1,,xp)T是一个待判样品;(2)距离判别准则:_.n22/x=G1右D(x,G1)<D(x,G2)xG2若D2(x,G1).D2(x,G2)(3)判别函数:224 .简述Fisher判别法WMx判例岫1:(x,GiSh«eD另病,隔度

14、投影,将k组p维数投影到某一个方向,使得他们的投影组与组之间尽可能的分开。5 .简述逐步判别基本原理:逐步引入变量,每次把一个判别能力最强的变量引入,每引入一个新的变量,对老变量又逐个进行检验,如其判别能力因新变量的引入而变得不显著,应把它从判别式中剔除,最终建立的判别函数中仅保留判别能力显著的变量。6 .简述BAYESJ别分析与其它判别方法的优劣:(1)与距离判别的优劣比较:距离判别优于两个总体情况下的判别,对两个总体几乎没有任何要求,简捷,实用,易懂;距离判别法在多个总体时,没有考虑各总体出现的概率,对各个变量的重要性一视同仁,难免产生误判。Bayes判别法对的理论与方法严密而完善,对研究

15、对象的信息利用充分,误判率大大降低,但计算较复杂。(2)与Bayes判别法的比较:Bayes判别与Fisher判别的比较:对总体的分布要求不同;多个总体下,F1sher判别的计算量大,但均值向量共线性程度较好时,可以考虑用F1sher判别;各总体出现的重要性不同时应使用是Bayes判别。第七章、主成分分析1.主成分分析就是设法将原来变量重新组合成一组新的相互无关的综合变量来代替原来的变量,并尽可能多地反映原来变量的信息。数学表现为:Var(Yj)最大;cov(Yi,Yj)=0;2.主成分就是以协方差阵的特征向量为系数的线性组合,它们互不相关,其方差的特征根。主成分的名次是按特征根取值大小的顺序

16、排列的。3.主成分模型中各统计量的意义:X1x21)贡献率:第i个主成分的方差在全部方差中所占比重原来P个指标多大的信息,有多大的综合能力。2)累积贡献率:前k个主成分共有多大的综合能力,用这X3,称为贡献率,反映了ip'iJik个主成分的方差和在全部方差中所占比重来描述,称为累积贡献率。kP例:设'工的保方差矩阵为一120X,X2,X3工=250解得特征根为,1=5.832=2.0013=0-170.383-0.924U20.924U3=0.383第一部哦分的贡献率为5.83/(5.83+2.00+0000)=72.875%,尽管第一个主成分的贡献率并不小,但在本题中第一主成

17、分不含第三个原始变量的信息,所以应该取两个主成分。J02一4.1)从协方差阵和相关系数矩阵出发计算主成分一般是不同的。2)主成分是原始变量的线性组合,故而起着原始变量的综合作用。3)对总体分布类型没有特定要求。4)主成分个数的确定。5)主成分用于系统评估。6)除主成分分析之外,还有主成分回归和加权主成分分析。填空:1、对P元正态分布变量来说,找主成分的问题就是找P维空间中的椭球体的主轴问题。2、样本主成分的总方差等于。3、原始变量协方差矩阵的特征根的统计含义是。4、主成分表达式的系数向量是协方差阵的特征向量。5、主成分分析就是通过适当的变量替换,使新变量成为原变量的线性组合,并寻求主成分来分析

18、事物的一种方法。第八章、因子分析1 .什么是因子分析及基本思想多元数据常常包含大量的测量变量,有时这些变量是相互重叠,存在相关性。因子分析的目的就是从实验所得的数据样本中概括和提取出较少量的关键因素,它们能反映和解释所得的大量观测事实,从而建立最简洁、最基本的概念系统,揭示出事物之间最本质的联系。因子分析的基本思想是通过变量(或样品)的相关系数矩阵内部结构的研究,找出能控制所有变量的少数几个随机变量去描述多个变量(或样品)之间的相关关系。2 .主成分分析与因子分析的联系与区别?相同之处:都是多元数据处理降维的统计方法;求解过程的出发点是一样的;不同之处:主成分分析是变量变换:原始变量的线性组合

19、表示新的综合变量,即主成分;而因子分析需要构造因子模型:潜在的假想变量和随机影响变量的线性组合表示原始变量;主成分的系数是唯一的;而因子分析的载荷系数是不唯一的;3 .因子载荷aij的统计意义:因子载荷ay是第i个变量与第j个公共因子的相关系数载荷矩阵中第i行,第j列的元素)越大,相关的密切程度越高。例题:假定某地固定资产投资率反映了第i个变量与第j个公共因子的相关重要性。绝对值,通货膨胀率,失业率,相关系数矩阵为11/5-1/51/512/5试用主成分加“因?始川莫地。一特征根为:-1=1.552=0.853=0.60.4750.8830U=0.629-0.3310.707'-0.6

20、290.3310.7070.4751.550.8830.8500.569=0.629、诲-0.331,0.850.707/=0.7830.629、诲0.331<0.850.707、族;0.7830.8140-0.3050.5480.3050.548=0.56%前期中四居F1周中2.西狎网30蹄叫.龊8F3F1x物梆就飒吊,030X2勺网股8F31.55。第一公因子F2为投资因子,对X的贡献为0.85。共同度分别为1,0.706,0.706。4.为什么要旋转因子:由于因子载荷阵是不惟一的,所以应该对因子载荷阵进行旋转。目的是使因子载荷阵的结构简化,使载荷矩阵每列或行的元素平方值向0和1两极

21、分化。有三种主要的正交旋转法:四次方最大法、方差最大法和等量最大法。5.因子分析通常包括以下五个步骤:选择分析的变量;计算所选原始变量的相关系数矩阵;提取公共因子;因子旋转;计算因子得分。6 .变量共同度的统计意义:变量的共同度是因子载荷矩阵的第为Xi7 .因子分析数学模型:X=AF十名填空:1.因子分析是把每个原始变量分解为两部分因素,一部分是为特殊因子。2 .变量共同度是指因子载荷矩阵中变量所在行元素平方和。3 .公共因子方差与特殊因子方差之和为1。4因子分析和主成分分析在求解过程中都是从i行的元素的平方和。记公共因子,另一部分出发简答:1.比较因子分析和主成分分析模型的关系,说明它们的相

22、似和不同之处。2. .能否将因子旋转的技术用于主成分分析,使主成分有更鲜明的实际背景:不能,用了就是因子分析,旋转之后不叫主成分(这一句就行),公因子的方差不等于特征值,因此不能旋转。3. 因子分析中为什么要进行因子旋转?通过因子旋转,可以使每个变量只在一个公共因子上有较大的载荷,因此因子分析模型是适用的。4. 什么是因子得分?因子得分有何作用?在因子分析中,得出公共因子后,可以根据原始变量计算出各个样本(个体)在每个因子上的得分,称为因子得分,因子得分可以有多种求解方法,计算出因子得分后,可以把各个因子作为新的变量用于其他分析,也可以来进行综合评价等。第九章、对应分析1 .对应分析:也称关联

23、分析、R-Q型因子分析,通过分析由定性变量构成的交互汇总表来揭示变量间联系。可以揭示同一变量的各个类别之间的差异,以及不同变量各个类别之间的对应关系。对应分析的基本思想是将一个联列表的行和列中各元素的比例结构以点的形式在较低维的空间中表示出来。它最大特点是能把众多的样品和众多的变量同时作到同一张图解上,将样品的大类及其属性在图上直观而又明了地表示出来,具有直观性。2 .对应分析方法的优缺点:(1)定性变量划分的类别越多,这种方法的优越性越明显(2)揭示行变量类间与列变量类间的联系(3)将类别的联系直观地表现在图形中(4)不能用于相关关系的假设检验(5)维数有研究者自定(6)受极端值的影响第十章:1 .研究两组随机变量之间的相关性用典型相关分析。典型相关分析就是分别构造各组变量的适当线性组合,将两组变量的相关性转化为两个变量的相关性。数学表现为:PUV最大;U和V分别来自两组变量的线性组合。2 .课彳P21页例题。第十一章多重多元回归分析(或多个)因变量对于一个或多个其他变一.回归分析的功能及涵义:回归分析是研究一个量(即自变量)的依存关系,并用数学模型加以模拟,目的在于根据已知的或在多次重复抽样中固定的解释变量之值,估计、预测因变量的总体平均值。二.回归分析的研究思路和步骤:求得回归方程。对回归方程、参数估计值进行显根

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论