人民大学应用统计专硕多元统计分析部分总结_第1页
人民大学应用统计专硕多元统计分析部分总结_第2页
人民大学应用统计专硕多元统计分析部分总结_第3页
人民大学应用统计专硕多元统计分析部分总结_第4页
人民大学应用统计专硕多元统计分析部分总结_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、多元统计分析主成分分析一.主成分分析概念主成分分析是指通过考察变量间的相关性,找到少数几个主成分代表多个变量的一种多元统计方法。主成分分析是通过考察变量之间的相关性找到少数几个主成分来代表原来大多数的变量,同时使它们尽可能保留原始变量的信息。这些主成分之间彼此不相关,数量远远少于原始变量的个数,从而达到降维的目的(两个变量存在着相关关系,这意味着两个变量提供的信息有重叠,如果把两个变量用一个新变量来表示,同时这一新变量又尽可能包含原来的两个变量的信息,这就是降维的过程)。如果想把现有的变量变成少数几个新的变量(新的变量几乎带有原来所有变量的信息)来进入后续的分析,可以使用主成分分析。二.怎样选

2、取主成分?载荷:各主成分和原来变量的线性相关系数。系数越大说明主成分对该变量的代表性越强。统计上降维的处理过程是将原始的变量进行线性组合作为新的变量(主成分),原来有多少变量就有多少主成分。我们不能选择所有的主成分这样达不到降维的目的,选择的标准是所选择的主成分所代表的主轴长度之和应该占主轴总长度之和的大部分。所选的第一个主成分应该是主轴最长的(方差最大的,主成分所代表的原始变量的信息用方差来表示),如果第一个主成分不足以代表原来变量的信息在考虑第二个。主成分之间互不相关且方差递减。标准:1.选择的主成分的方差之和占全部方差的80%以上即可;2.此外还可以考虑特征根的大小,如果特征根小于1,就

3、不再选作主成分了,因为该主成分的解释力度还不如直接用原始变量的解释力度大;3.碎石图,从碎石图中我们可以看出主轴长度(特征根)的变化趋势,一般情况下,选择碎石图中主轴变化趋势出现拐点的前几个主成分作为原始变量的代表。原始变量之间相关程度越高降维的效果越好,所选着的主成分也就越少。如果原始变量之间不怎么相关不如用它们本身。三.主成分建模的步骤特征根:又称方差,反应主成分对原始变量影响程度的一个量,表示引入改主成分后可以在多大程度上解释原始变量的信息。主成分方差贡献率:某个特征根占总特征根总和的比例称为主成分方差贡献率。1. 对原有的变量进行标准化处理,以消除变量水平和量纲的影响。2. 根据标准化

4、后的数据计算相关系数矩阵。如果变量之间存在着较强的相关系数说明适合做主成分分析。3. 求出相关系数矩阵的特征根,即主轴或方差,及对应的单位特征向量。从各主成分的方差贡献率和累积方差贡献率来选择主成分。4. 确定主成分,并对主成分的含义做出适当的解释。对主成分进行解释主要根据主成分的因子载荷矩阵。通过因子载荷可以看出主成分分别主要代表哪些原始变量。但是主成分的这种解释模棱两可主要原因是因子载荷含义不清楚。因子分析一 因子分析含义因子分析是通过对变量之间关系的研究,找出能综合原始变量的少数几个因子代表多个原始变量的一种多元统计方法。二 主成分分析和因子分析的联系和区别联系:都是找出少数几个新的变量

5、来代表原始变量,从而达到降维的目的。区别:1.主成分中的主成分个数与原始变量的个数相同,有几个变量就有几个主成分而因子分析则需要事先确定要找几个因子,然后将原始变量综合和为少数的几个因子以再现原始变量与因子之间的关系。2.主成分是因子分析的一个特例,因子分析是主成分分析的推广和拓展。3.因子分析的计算较主成分分析更加复杂。4.因子分析在实际中广泛应用,而主成分分析通常只作为大型数据分析的中间步骤,不再单独使用,但它的思想对我们有很大的启迪。三 因子分析模型因子载荷:载荷为变量与因子之间的线性相关系数,反应变量与因子之间的相关程度。公因子:由于因子出现在每个原始变量与因子的线性组合中因此也成为公

6、因子。变量共同度量:它是公因子对特定的变量的方差贡献率。(计算方法为一个线性组合中相关系数的平方和);共同度量越大说明公因子对原始变量的解释能力越强。公因子的方差贡献率:指的是某个因子对变量所提供的方差总和,反映了某个因子的相对重要程度。方差贡献率越大表明该公因子对变量的贡献越大。因子分析模型把每个变量看成是个因子的线性组合。考察变量的信息能够被k个公因子所解释的程度。四 因子分析的步骤因子分析的步骤分为数据检验,因子提取,因子的命名和解释,计算因子得分并进行综合评价。1. 数据检验数据检验用语判断手头上的数据是否适合作因子分析。因子分析的目的是把原始变量降维,如果原始变量是独立的意味着每个变

7、量的作用都是不可替代的,也就无法降维了。条件一:用于因子分析的变量必须是相关的。方法一:计算变量之间的相关系数矩阵,并观察各相关系数。一般来说若相关矩阵的大部分相关系数小于0.3,就不适合作因子分析方法二:可以作KMO检验和Bartlett球度检验来判断;Bartlett检验是以变量的相关系数矩阵为基础,如果相关系数矩阵是单位阵,则变量是独立的,也就无法进行因子分析了。KMO检验用语检验变量间的偏相关性,取值范围在0-1之间,如果统计量取值接近于1,变量间的偏相关性越强,因子分析的效果就越好。一般来说,KMO统计量在0.7以上时因子分析的效果好;0.5以下效果很差。条件二:从样本量上来看,因子

8、分析要求样本的个数足够多。一般要求样本的个数至少是变量的5倍以上.同时样本总数据量也不能太少,理论要求应该在100个以上。2. 因子提取因子提取是根据原始变量提取出少数几个因子,使得少数几个因子能够反应原始变量的绝大部分信息。,从而达到降维的目的。因子的提取方法:主成分法;根据因子的方差贡献率来选择。一般情况下贡献率达到80%以上的前几个因子可以作为最后的公因子。实际应用中,因子的提取要结合具体问题而定,在某种程度上取决于研究者自身的知识和经验。3. 因子的命名和解释因子命名:考察因子究竟反映了原始变量的那些信息(代表了哪些原始变量)正交旋转:是指坐标轴始终保持垂直90度旋转,这样新生成的因子

9、仍可保持不相关。斜交旋转:坐标轴的夹角可以是任意的,因此新生成的因子不能保证不相关。对因子命名和解释之前需要对因子载荷进行因子旋转,以便旋转之后因子的意义更加明显,能够得到更加合理的解释。进行因子旋转,就是要使因子载荷矩阵中因子载荷的平方值向0和1两个方向分化,使大的载荷更大,小的载荷更小。方法有正交旋转和斜交旋转。4. 计算因子得分因子分析模型建立后,还有一个重要的作用是应用因子分析模型去评价每个样品在整个模型中的地位,即进行综合评价。例如地区经济发展的因子分析模型建立后,我们希望知道每个地区经济发展的情况,把区域经济划分归类,哪些地区发展较快,哪些中等发达,哪些较慢等。这时需要将公共因子用

10、变量的线性组合来表示,也即由地区经济的各项指标值来估计它的因子得分。五 因子分析的具体步骤1. 将原始数据标准化,以消除变量间在数量级和量纲上的不同。2. 求标准化数据的相关矩阵,判断数据是否适合用因子分析来进行分析。3. 求相关矩阵的特征值和特征向量;4. 计算方差贡献率与累积方差贡献率;从共同度量表中确定因子是否可以充分解释原始变量5. 确定因子:设F1,F2, Fp为p个因子,其中前m个因子包含的数据信息总量(即其累积贡献率)不低于80%时,可取前m个因子来反映原评价指标;6. 因子旋转:若所得的m个因子无法确定或其实际意义不是很明显,这时需将因子进行旋转以获得较为明显的实际含义。7.

11、用原指标的线性组合来求各因子得分:采用回归估计法,Bartlett估计法或Thomson估计法计算因子得分。8. 综合得分以各因子的方差贡献率为权,由各因子的线性组合得到综合评价指标函数。9. 得分排序:利用综合得分可以得到得分名次聚类分析一 聚类分析的概念在一些分类中,事先并不知道有多少类别,安全按照反映对象特征的数据把对象进行分类,这在统计上称为聚类分析;有的则是在事先有了某种分类标准之后,判定一个新的研究对象应该归属到哪一类别,这在统计上称为判别分析。聚类就是把对象分成不同的类别,这些类不是事先定的,而是直接根据数据的特征确定的。对象可以是所观察的多个样本,也可以是针对多个样本的多个变量

12、。如果是根据变量对所观察的样本进行分类称为Q类聚类;如果是根据样本对多个变量进行分类则称为R类聚类。聚类是把相似的东西放在一起,从而使得类别内部的差异尽可能的小,而类别之间的差异尽可能大。聚类中的相似是指对象之间关系或距离的远近。根据样本观测数据测度变量之间的相似性(r类聚类)可以用相似系数,计算方法有夹角余弦,变量间的相关系数越大说明它们越相近。根据变量来测度样本之间(q类聚类)的相似程度则使用距离。二 相似性的度量聚类分析中用“距离”或“相似系数”来度量对象之间的相似性。1. 样本之间的距离度量样本点间距离的计算方法:平方欧氏距离变量间相似系数的计算方法:夹角余弦,pearson相关系数。

13、2. 类间距离的度量常用的方法是离差平方和法。最短距离法:用两个类别中各样本点之间最短的距离表示两个类别之间的距离。最长距离法:用两个类别中各样本点之间最长的距离表示两个类别之间的距离。重心法:用两个类别的重心之间的距离表示两个类别之间的距离。组间平均距离:用两个类别各样本点之间的距离的平均表示两个类别之间的距离。离差平方和:先将所有的两个类别中的点当作一个类别计算离差平方和,再分别计算各类别的离差平方和。用总的离差平方和减去各离差平方和。三 聚类方法1. 层次聚类层次聚类分为合并法和分解法。合并法:1.将每个样本作为一类。 2.按照某种方法度量样本之间的距离,并将距离最近的两个样本合并为一个

14、类别。 3.计算新产生的类别和其他类别之间的距离,并将距离最近的两个类别分为一类。 4.一直重复进行分类指导类别数为1,所有类别都合并成为一类。分解法:将所有样本作为一个大类,然后度量对象之间的距离或者相似系数,然后将距离最远或相似系数最小的对象分离出去,然后形成两大类。再度量类别中剩余对象之间的距离或相似系数,并将最远的分离出去,不断重复过程,直到所有的对象都自成一类为止。合并法和分解法事先不确定分的组数,需要根据聚类的树状图以及需要来决定最后要分几组。再得到分类结果后,需要分析个类别中所属样本的变量特征,以判断所分的类别是否合理。通过对各类别所属地区的描述统计分析,可以检验所分的类别是否合

15、理。如果个类别差异显著意味着所分的类别基本上是合理的。此外还可以使用方差分析来检验各不同类别相同变量之间是否有显著差异。2. K-均值聚类K-均值聚类的含义是“K”即事先指定要分的类别个数,而“均值”则是指聚类的重心。计算量较层次聚类法小,效率高也称为快速聚类法。K-均值聚类法不是把所有可能的聚类结果都列出来,而是要求研究者先指定要划分的类别个数,然后确定各聚类中心,在计算各样本到聚类中心的距离,最后按距离远近进行分类。具体步骤:1. 首先如果原始变量取值差异较大,应先将原始数据进行标准化,以避免数量级和量纲上的差异。2. 确定要分的类别数目。这需要研究者自己确定。在实际应用中往往需要研究者根

16、据实际问题反复尝试,得到不同分类并进行比较,最后得到要分的类别数量。3. 确定k个类别的初始聚类中心。这一步要求在用于聚类的全部样本中,选择k个样本作为k个类别的初始聚类中心。与确定类别数目一样,原始聚类中心的确定也需要研究者根据实际问题和经验来综合考虑,选择的原则是中心点距离其他点尽可能远。4. 根据确定的k个初始聚类中心,依次计算每个样本点到k个聚类中心的欧式距离,并根据距离最近的原则将所有的样本分到事先确定的k个类别中。5. 根据所分成的k个类别,计算出各类别中每个变量的均值,并以均值点作为新的k个类别中心。根据新的中心位置,重新计算每个样本到新中心的距离,并重新进行分类。6. 重复第四

17、步,直到满足终止聚类的条件为止。终止聚类的条件包括:1.迭代次数达到研究者事先指定的最大迭代次数。 2.新确定的聚类中心点与上一次聚类形成的中心点的最大偏移量小于指定的量。7. 对所分类别的每个变量之间进行方差分析判断所分的类别是否合理。四 注意事项从数据要求上 1.参与分类的变量首先应符合要求,也就是选择与目标相关的变量。 2.各变量的去职不应有数量级上的过大差异,否则对分类结果产生较大影响。一般需要进行标准化处理。 3.各变量之间不应该有强的相关关系。从聚类方法的选择上1.首先看数据,如果参与分类的变量是连续变量,层次聚类法,k均值聚类法以及两步聚类法都是适用的;如果变量中包括离散变量(计

18、数变量),则需要对离散变量进行连续处理,否则应该使用两步骤聚类法;当数据量较少时三种方法都可以选用,当数据较多时,应考虑选用其他两种。2.其次要看分类对象。如果对样本进行分类三种方法都是可用的;如果是对变量进行分类则应该选择层次聚类法。3.注意对分类结果的检验。两种聚类方法的不同:1.层次聚类的分类是不确定的,k均值聚类事先确定类别数目。2.计算量以及效率上 3.具体的聚类步骤上。典型相关分析一. 典型相关分析解决的问题及其思想应用范围典型相关分析是研究两组变量之间整体相关程度的多元分析方法。它是将每一组变量作为一个整体进行研究,而不是分析每一组变量内部的各个变量。所研究的两组变量可以是一组变

19、量为自变量,而另一组变量为因变量,也可以处于同等地位,但典型相关分析要求两组变量都至少是间隔尺度的。思想典型相关分析借用主成分分析降维的思想,分别对两组变量提取主成分(原因在于使新生成的新的综合变量能代表原始变量大部分信息,同时与另一组变量生成的新的综合变量的相关程度最大;这样一组新的综合变量称为第一对典型相关变量,典型相关变量(不是一对)之间的简单相关系数称为典型相关系数,典型相关变量反映了x,y之间的线性相关情况)使两组变量提取的主成分之间的相关程度达到最大,而同一组内部提取的主成分之间互不相关。用两组分别提取的主成分的相关性来描述两组变量整体的线性相关关系。可以通过少数典型相关变量的研究

20、代替原来两组变量之间的相关关系研究,从而抓住为题的本质。可以通过典型相关分析找出几对主要的典型相关变量,根据典型相关变量相关程度及各典型相关变量线性组合中原变量相关系数的大小,结合对所研究实际问题的定性分析,尽可能给出较为深刻的分析结果。典型权重:传统的解释典型函数的方法包括观察每个原始变量在它的典型变量中的典型权重的符号和大小。有较大的典型权重则说明原始变量对它的典型变量贡献较大,反之则相反。原始变量的典型权重有相反的符号,说明变量之间存在一种反向关系,反之则存在正向关系。典型载荷:也称为典型结构相关系数,是原始变量和它的典型变量间的简单线性相关系数。典型载荷反映原始变量与典型变量的共同方差,它的解释类似于因子载荷,也就是每个原始变量对典型函数的相对贡献。典型交叉载荷:计算典型交叉载荷包括使每个原始因变量与自变量典型变量直接相关,提供了一个更直接地测量因变量组与自变量组关系的指标。判别分析一 判别分析解决的问题判别分析的主要目的是识别一个个体所属类别。在被解释变量是属性变量而解释变量是度量变量时判别分析是合适的统计分析方法。判别分析的基本要求是:分组类型在两组以上;每组案例的规模必须至少在一个以上;解释变量必须是可测的。第一个判别变量不能是其他判别变量的线性组合。各组变量的协方差矩阵相等。各判别变量遵从多元正

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论