版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
统计建模─多元分析主成分分析和因子分析
成绩数据(student.sav)100个学生的数学、物理、化学、语文、历史、英语的成绩如下表(部分)。SPSS数据形式从本例可能提出的问题目前的问题是,能否把这个数据的6个变量用一两个综合变量来表示呢?这一两个综合变量包含有多少原来的信息呢?能否利用找到的综合变量来对学生排序或据此进行其他分析呢?需要高度概括在多变量之中,有很多是相关的。人们希望能够找出它们的少数“代表”来对它们进行描述。需要把这种有很多变量的数据进行高度概括。两种把变量维数降低以便于描述、理解和分析的方法:主成分分析(principalcomponentanalysis)和因子分析(factoranalysis)。实际上主成分分析可以说是因子分析的一个特例。下面利用主成分分析成绩数据。降维问题例中数据点是六维的;即每个观测值是6维空间中的一个点。希望把6维空间用低维空间表示。降维问题先假定只有二维,即只有两个变量,由横坐标和纵坐标所代表;如果这些数据形成一个椭圆形状的点阵,该椭圆有一个长轴和一个短轴。在短轴方向上数据变化很少;在极端的情况,短轴如退化成一点,长轴的方向可以完全解释这些点的变化,由二维到一维的降维就自然完成了。椭圆的长短轴当坐标轴和椭圆的长短轴平行,那么代表长轴的变量就描述了数据的主要变化,而代表短轴的变量就描述了数据的次要变化。但是,坐标轴通常并不和椭圆的长短轴平行。因此,需要寻找椭圆的长短轴,并进行变换,使得新变量和椭圆的长短轴平行。椭圆的长短轴如果长轴变量代表了数据包含的大部分信息,就用该变量代替原先的两个变量(舍去次要的一维),降维就完成了。椭圆的长短轴相差得越大,降维也越有道理。主轴和主成分多维变量的情况和二维类似,也有高维的椭球,只不过不那么直观罢了。首先把高维椭球的主轴找出来,再用代表大多数数据信息的最长的几个轴作为新变量;这样,主成分分析就基本完成了。主轴和主成分和二维情况类似,高维椭球的主轴也是互相垂直的。这些互相正交的新变量是原先变量的线性组合,叫做主成分(principalcomponent)。
主成分之选取选择越少的主成分,降维就越好。什么是标准呢?那就是这些被选的主成分所代表的主轴的长度之和占了主轴长度总和的大部分。有些文献建议,所选的主轴总长度占所有主轴长度之和的大约85%即可,其实,这只是一个大体的说法;具体选几个,要看实际情况而定。主成分分析的数学要寻找方差最大的方向。即,使向量X的线性组合a’X的方差最大的方向a.而Var(a’X)=a’Cov(X)a;由于Cov(X)未知;于是用X的样本相关阵R来近似.要寻找向量a使得a’Ra最大这涉及相关阵和特征值。回顾一下吧!选择几个主成分呢?要看“贡献率.”对于我们的数据,SPSS输出为这里的InitialEigenvalues就是这里的六个主轴长度,又称特征值(数据相关阵的特征值)。头两个成分特征值累积占了总方差的81.142%。后面的特征值的贡献越来越少。特征值的贡献还可以从SPSS的所谓碎石图看出怎么解释这两个主成分。主成分是原始六个变量的线性组合。这由下表给出。
这里每一列代表一个主成分作为原来变量线性组合的系数(比例)。比如第一主成分为数学、物理、化学、语文、历史、英语这六个变量的线性组合,系数(比例)为-0.806,-0.674,-0.675,0.893,0.825,0.836。如用x1,x2,x3,x4,x5,x6分别表示原先的六个变量,而用y1,y2,y3,y4,y5,y6表示新的主成分,那么,第一和第二主成分为这些系数称为主成分载荷(loading),它表示主成分和相应的原先变量的相关系数。比如y1表示式中x1的系数为-0.806,这就是说第一主成分和数学变量的相关系数为-0.806。相关系数(绝对值)越大,主成分对该变量的代表性也越大。可以看得出,第一主成分对各个变量解释得都很充分。而最后的几个主成分和原先的变量就不那么相关了。可以把第一和第二主成分的载荷点出一个二维图以直观地显示它们如何解释原来的变量的。这个图叫做载荷图。因子分析主成分分析从原理上是寻找椭球的所有主轴。原先有几个变量,就有几个主成分。因子分析是事先确定要找几个成分,这里叫因子(factor)。这使得在数学模型上,因子分析和主成分分析有不少区别。而且因子分析的计算也复杂得多。根据因子分析模型的特点,它还多一道工序:因子旋转(factorrotation);这个步骤可以使结果更好。对于计算机,因子分析并不费事。从输出的结果来看,因子分析也有因子载荷(factorloading)的概念,代表了因子和原先变量的相关系数。但是在因子分析公式中的因子载荷位置和主成分分析不同。因子分析也给出了二维图;其解释和主成分分析的载荷图类似。主成分分析与因子分析的公式上的区别主成分分析因子分析(m<p)因子得分对于我们的数据,SPSS因子分析输出为这个表说明六个变量和因子的关系。为简单记,我们用x1,x2,x3,x4,x5,x6来表示math(数学),phys(物理),chem(化学),literat(语文),history(历史),english(英语)等变量。这样因子f1和f2与这些原变量之间的关系是(注意,和主成分分析不同,这里把成分(因子)写在方程的右边,把原变量写在左边;但相应的系数还是主成分和各个变量的线性相关系数,也称为因子载荷):这里,第一个因子主要和语文、历史、英语三科有很强的正相关;而第二个因子主要和数学、物理、化学三科有很强的正相关。因此可以给第一个因子起名为“文科因子”,而给第二个因子起名为“理科因子”。从这个例子可以看出,因子分析的结果比主成分分析解释性更强。这些系数所形成的散点图(在SPSS中也称载荷图)为可以直观看出每个因子代表了一类学科计算因子得分可以根据输出算出每个学生的第一个因子和第二个因子的大小,即算出每个学生的因子得分f1和f2。该输出说明第一和第二主因子为(习惯上用字母f来表示因子)可以按照如下公式计算,该函数称为因子得分(factorscore)。人们可以根据这两套因子得分对学生分别按照文科和理科排序。当然得到因子得分只是SPSS软件的一个选项。注意事项
因子分析和主成分分析都依赖于原始变量,也只能反映原始变量的信息。所以原始变量的选择很重要。如果原始变量都本质上独立,那么降维就可能失败。数据越相关,降维效果就越好。分析结果时与问题的性质、选取的原始变量以及数据的质量等都有关系。在用因子得分进行排序时要特别小心,特别是对于敏感问题。由于原始变量不同,因子的选取不同,排序可以很不一样。SPSS实现(因子分析与主成分分析)选Analyze-DataReduction-Factor进入主对话框;把math、phys、chem、literat、history、english选入Variables,然后点击Extraction,在Method选择一个方法(如果是主成分分析,则选PrincipalComponents),其余选项可以随意,比如画碎石图选Screeplot,另外在Extract选项可以按照特征值的大小选主成分(或因子),也可以选定因子的数目;之后回到主对话框(用Continue)。然后点击Rotation,在该对话框中的Method选择旋转方法(如是主成分分析就选None).在Display选Rotatedsolution和Loadingplot(以输出载荷图);之后回到主对话框(用Continue)。若计算因子得分点击Scores,选择Saveasvariables和计算因子得分的方法;要想输出ComponentScoreCoefficientMatrix表,就要选择Displayfactorscorecoefficientmatrix;之后回到主对话框(用Continue)。这时点OK即可。聚类分析
分类物以类聚、人以群分;但根据什么分类呢?如要想把中国的县分类,就有多种方法可以按照自然条件来分,比如考虑降水、土地、日照、湿度等,也可考虑收入、教育水准、医疗条件、基础设施等指标;既可以用某一项来分类,也可以同时考虑多项指标来分类。饮料数据(drink.sav)16种饮料如何分类?根据事物本身的特性研究个体分类的方法,原则是同一类中的个体有较大的相似性,不同类中的个体差异很大。不一定事先假定有多少类,完全可以按照数据本身的规律来分类。按照远近程度来聚类需要明确两个概念:一个是点和点之间的距离,一个是类和类之间的距离。
k-均值聚类k-均值聚类(k-meanscluster,也叫快速聚类,quickcluster)却要求你先说好要分多少类。假定你说分3类,这个方法还进一步要求你事先确定3个点为“聚类种子”(SPSS软件自动为你选种子);也就是说,把这3个点作为三类中每一类的基石。然后,根据和这三个点的距离远近,把所有点分成三类。再把这三类的中心(均值)作为新的基石或种子(原来“种子”就没用了),再重新按照距离分类。如此叠代下去,直到达到停止叠代的要求(比如,各类最后变化不大了,或者叠代次数太多了)。下面用饮料例的数据来做k-均值聚类。假定要把这16种饮料分成3类。利用SPSS,只叠代了三次就达到目标了(计算机选的种子还可以)。这样就可以得到最后的三类的中心以及每类有多少点
根据需要,可以输出哪些点分在一起。结果是:第一类为饮料1、10;第二类为饮料2、4、8、11、12、13、14;第三类为剩下的饮料3、5、6、7、9、15、16。SPSS实现(聚类分析)K-均值聚类以数据drink.sav为例,在SPSS中选择Analyze-Classify-K-MenasCluster,然后把calorie(热量)、caffeine(咖啡因)、sodium(钠)、price(价格)选入Variables,在NumberofClusters处选择3(想要分的类数),如果想要知道哪种饮料分到哪类,则选Save,再选ClusterMembership等。注意k-均值聚类只能做Q型聚类,如要做R型聚类,需要把数据阵进行转置。分层聚类分层聚类或系统聚类(hierarchicalcluster)。开始时,有多少点就是多少类。它第一步先把最近的两类(点)合并成一类,然后再把剩下的最近的两类合并成一类;这样下去,每次都少一类,直到最后只有一大类为止。越是后来合并的类,距离就越远。对于饮料聚类。SPSS输出为“冰柱图”(icicle)聚类要注意的问题聚类结果主要受所选择的变量影响。如果去掉一些变量,或者增加一些变量,结果会很不同。相比之下,聚类方法的选择则不那么重要了。因此,聚类之前一定要目标明确。
聚类要注意的问题另外就分成多少类来说,也要有道理。只要你高兴,从分层聚类的计算机结果可以得到任何可能数量的类。但是,聚类的目的是要使各类之间的距离尽可能地远,而类中点的距离尽可能的近,并且分类结果还
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- GB/T 42151.3-2024电力自动化通信网络和系统第3部分:通用要求
- GB/T 44753-2024超薄玻璃液相线温度试验方法
- 《医学统计学》课程教学大纲
- 《公共组织学》课程教学大纲
- 2024年伐木工地转让合同范本
- 2024年代销代付协议书模板范本
- 2024年传化物流商铺合同范本
- 卓有成效管理者培训
- ITIF报告:认真对待美国和欧洲的竞争
- 四只骨折护理常规
- (北师大版)2024-2025学年九年级数学上学期期中测试卷
- 01-专题一 信息类文本阅读
- 山东省济宁市-八年级(上)期中数学试卷-(含答案)
- 中小学-珍爱生命 远离毒品-课件
- 金融学期末试卷及答案
- 奢沟小学2024年春季学期法治副校长进校园开展安全、法制知识讲座实施方案
- 道法珍惜师生情谊教学课件 2024-2025学年统编版道德与法治七年级上册
- 奇妙的透镜说课课件-2024-2025学年沪粤版物理八年级上学期
- 农民工欠薪调解协议书模板
- 2024至2030年中国消防行业市场发展规模及投资机会分析报告
- 商铺出售回购协议书范本
评论
0/150
提交评论