实例说明利用Excel进行主成分分析_第1页
实例说明利用Excel进行主成分分析_第2页
实例说明利用Excel进行主成分分析_第3页
实例说明利用Excel进行主成分分析_第4页
实例说明利用Excel进行主成分分析_第5页
已阅读5页,还剩9页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

PAGE4方法:1利用Excel2000进行主成分分析第一步,录入数据,并对进行标准化。【例】一组古生物腕足动物贝壳标本的两个变量:长度和宽度。图1原始数据和标准化数据及其均值、方差(取自张超、杨秉庚《计量地理学基础》)计算的详细过程如下:=1\*GB2⑴将原始数据绘成散点图(图2)。主持分分析原则上要求数据具有线性相关趋势——如果数据之间不相关(即正交),则没有必要进行主成分分析,因为主成分分析的目的就是用正交的变量代替原来非正交的变量;如果原始数据之间为非线性关系,则有必要对数据进行线性转换,否则效果不佳。从图2可见,原始数据具有线性相关趋势,且测定系数R2=0.4979,相应地,相关系数R=0.7056。=2\*GB2⑵对数据进行标准化。标准化的数学公式为这里假定按列标准化,式中,分别为第j列数据的均值和标准差,为第i行(即第i个样本)、第j列(即第j个变量)的数据,为相应于的标准化数据,为样本数目。图2原始数据的散点图图3标准化数据的散点图图8协方差选项框=4\*GB2⑷计算特征根。我们已经得到相关系数矩阵为,而二阶单位矩阵为,于是根据公式,我们有按照行列式化为代数式的规则可得根据一元二次方程的求根公式,当时,我们有据此解得,(对于本例,显然,)。这便是相关系数矩阵的两个特征根。=5\*GB2⑸求标准正交向量。将代入矩阵方程,得到在系数矩阵中,用第一行加第二行,化为由此得,令,则有,于是得基础解系,单位化为单位化的公式为()。完全类似,将代入矩阵方程,得到用系数矩阵的第二行减去第一行,化为于是得到,取,则有,因此得基础解系为,单位化为这里、便是标准正交向量。=6\*GB2⑹求对角阵。首先建立标准正交矩阵P,即有该矩阵的一个特殊性质便是,即矩阵的转置等于矩阵的逆。根据,可知下面说明一下利用Excel进行矩阵乘法运算的方法。矩阵乘法的命令为mmult,语法是mmult(矩阵1的单元格范围,矩阵2的单元格范围)。例如,用矩阵与矩阵C相乘,首先选择一个输出区域如G1:H2,然后输入“=mmult(A1:B2,C1:D2)”,然后按下“Ctrl+Shift+Enter”键(图9),即可给出1.2060441.2060440.20817-0.20817再用乘得的结果与P阵相乘,便得对角矩阵1.705603000.294397如果希望一步到位也不难,选定输出区域如C3:D4,然后输入“=mmult(mmult(A1:B2,C1:D2),E1:F2)”(图10),同时按下“Ctrl+Shift+Enter”键,立即得到结果(图11)。显然,对角矩阵对角线的数值恰是相关系数矩阵的特征值。图9矩阵乘法示例图10矩阵连乘的命令与语法至此,标准化的原始变量x与主成分之间z之间可以表作显然与之间正交。图11乘法结果:对角矩阵=7\*GB2⑺根据特征根计算累计方差贡献率。现已求得第一特征根为,第二特征根为,二者之和刚好就是矩阵的维数,即有,这里m=2为变量数目(注意前面的n=25为样本数目)。比较图6或图10中给出的相关系数矩阵C与图11中给出的对角矩阵D可以看出,Tr.(C)=1+1=2,Tr.(D)=1.7056+0.2944=2,即有Tr.(C)=Tr.(D),可见将相关系数亦即协方差矩阵转换为对角矩阵以后,矩阵的迹(trace,即对角线元素之和)没有改变,这意味着将原始变量化为主成分以后,系统的信息量没有减少。现在问题是,如果我们只取一个主成分代表原来的两个变量,能反映原始变量的多少信息?这个问题可以借助相关系数矩阵的特征根来判断。利用Excel容易算出,第一特征根占特征根总和即矩阵维数的85.28%(见下表),即有特征根累计值百分比累计百分比1.7056031.70560385.28%85.28%0.294397214.72%100.00%也就是说::1.7056,:0.2944,:2,这表明,如果仅取第一个主成分,可以反映原来数据85.28%的信息——换言之,舍弃第二个主成分,原来数据的信息仅仅损失14.72%,但分析变量的自由度却减少一个,整个分析将会显得更加简明。=8\*GB2⑻计算主成分载荷。根据公式,容易算出=9\*GB2⑼计算公因子方差和方差贡献。根据上述计算结果可以比较公因子方差和方差贡献。再考虑全部的两个主成分的时候,对应于和的公因子方差分别为对应于第一主成分z1和第二主成分z2的方差贡献分别为可以看出(图12):第一,方差贡献等于对应主成分的特征根,即有第二,公因子方差相等或彼此接近,即有第一,公因子方差之和等于方差贡献之和,即有第一个规律是我们决定提取主成分数目的判据与之一,第二个规律是我们判断提取主成分数目是否合适的判据之一,第三个规律是我们判断提取主成分后是否损失信息的判据之一。去掉次要的主成分以后,上述规律理当仍然满足。这时如果第二个规律不满足,就意味着主成分的提取是不合适的。此外,上述规律也是我们检验计算结果是否正确的判据之一。图12公因子方差、方差贡献的计算结果及其与特征根的贡献=10\*GB2⑽计算主成分得分。根据主成分与原始变量的关系,应有或者对于本例而言,式中,,这里,为前面计算的标准化特征向量。于是有化为代数形式便是式中的x均为标准化数据。对进行转置,可得图13计算特征向量的公式及语法图14计算主成分得分根据这个式子,利用Excel计算主成分得分的步骤如下:=1\*GB3①将特征向量复制到标准化数据的附近;=2\*GB3②选中一个与标准化数据占据范围一样大小的数值区域(如G2:H26);=3\*GB3③输入如下计算公式“=mmult(标准化数据的范围,特征向量的范围)”,在本例中就是“=MMULT(B2:C26,E2:F3)”(图13);=4\*GB3④同时按下“Ctrl+Shift+Enter”键。=5\*GB3⑤计算主成分得分的均值和方差,可以发现,均值为0(由于误差之故,约等于0),方差等于特征根。=6\*GB3⑥最后,可以对主成分得分进行标准化。已知主成分得分的均值为0,我们不按总体方差进行标准化,而按样本方差进行标准化。图15主成分得分的标准化结果样本方差的计算公式为相应地,标准差为标准化公式同前面给出的一样。结果见表15。注意,这里之所以按样本方差进行标准化,主要目的是为了与SPSS的计算结果进行比较。分别以z1、z2为坐标轴,将主成分得分(包括标准化的得分)点列标绘于坐标图中,可以发现,点列分布没有任何趋势:回归结果表明,回归系数和相关系数均为零,即有,,(图16,图17)。这从几何图形上显示:主成分之间是正交的,即有(试将图16、图17与图2、图3

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论