利用Ecel进行主成分分析的具体操作_第1页
利用Ecel进行主成分分析的具体操作_第2页
利用Ecel进行主成分分析的具体操作_第3页
已阅读5页,还剩13页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、1利用Excel2000进行主成分分析举例如下: 第一步,录入数据,并对进行标准化。【例】一组古生物腕足动物贝壳标本的两个变量:长度和宽度。ABcDE1祥本编号长度釦宽度劭釦标准化蛊吨标准化抹2132-1.786045-1. 80607732410-1.559389-0.1414904365-1.106078-1. 1818575468-1.106078-0. 55763765610-1.106078-0. 141490?&72-0.379423-1. 8Q60778f713-山 8794230. 4827309Sg-0. 65276S-0. 34956310gg5-0.426112-

2、1. 1818571110gS-0. 426112-0. 5576371211g14-0.4261120. 6908041312107-0.199457-0. 7657101413iiL20.0271990. 274657151412100. 253854-0. 14149016IB12110. 2538540, 06658317161360.480509-0. 97378418IT13140. 4305090. 690804191813150. 4805090.898877201913L7Q. 4805091. 31502421201470.707165-0. 765710222115130

3、. 9338200. 482730232217L31.387131Q 48273024Z31717L 3871311. 315024252418191.6137871. 731171262520202.0670971. 93924427均值10. 8S10. S80. 0000000 OOOOOO28力差19.4656023. 0975011Z9标推差4.411984. 8060011图1原始数据和标准化数据及其均值、方差(取自张超、杨秉庚计量地理学基础)计算的详细过程如下: 将原始数据绘成散点图(图2)。主持分分析原则上要求数据具有线性相关趋势一如果数据之间不相关(即正交),则没有必要进行主

4、成分分析,因为主成分分析的目的 就是用正交的变量代替原来非正交的变量;如果原始数据之间为非线性关系,则有必要对 数据进行线性转换,否则效果不佳。从图2可见,原始数据具有线性相关趋势,且测定系数氏=0.4979,相应地,相关系数 R=0.7056。对数据进行标准化。标准化的数学公式为jXijXj这里假定按列标准化,式中ijj1 nXijXj,n i in 2j(XjXj)i 1.Var(Xj)分别为第j列数据的均值和标准差,Xij为第i行(即第i个样本)、第j列(即第j个变标准化数据的散点图y = 0.7056X + 2E-16图3标准化数据的散点图对数据标准化的具体步骤如下:求出各列数据的均值

5、,命令为average,语法为:average(起始单元格:终止单元格)。如图1所示,在单元格B27中输入 “ =AVERAGE(B1B26)”,确定或回车,即得第一列数据的均值x, 10.88 ;然后抓住单元格B27的右下角(光标的十字变细)右拖至C27,便可自动生成第二列数据的均值X210.68。 求各列数据的方差。命令为varp,语法同均值。如图1所示,在单元格 B28中输入“ =VARP(B2:B26)”,确定或回车,可得第一列数据的方差Var(x1) 19.4656,右拖至C28生成第二列数据的方差 Var(x2)23.0976。 求各列数据的标准差。将方差开方便得标准差。也可利用命

6、令stdevp直接生成标准差,语法和操作方法同均值、方差,不赘述。 标准化计算。如图1所示,在单元格 D2中输入“ =(B2-$B$27)/$B$29 ”,回车可得第一列第一个数据“3”的标准化数值-1.786045,然后按住单元格D2的右下角下拖至D26,便会生成第一列数据的全部标准化数值;按照单元格D2的右下角右拖至E2,就能生成第二列第一个数据“ 2”的标准化数据-1.806077,抓住单元格 E2的右下角下拖至 E26 便会生成第二列数据的全部标准化数值。 作标准化数据的散点图(图 3)。可以看出,点列的总体趋势没有变换,两种数据的相关系数与标准化以前完全相同。但回归模型的截距近似为0

7、,即有a0,斜率等于相关系数,即有b R。求标准化数据的相关系数矩阵或协方差矩阵。求相关系数矩阵的方法是:沿着“工具(T)” - “数据分析(D)”的路径打开“分析工具(A)”选项框(图4),确定,弹出 “相关系数”对话框(图 5),在“输入区域”的空白栏中输入标准化数据范围,并以单 元格G1为输出区域,具体操作方法类似于回归分析。确定,即会在输出区域给出相关数据分析分析工ili素复M>可无析析 莎素素描迷统计 指数平潸F-祓脸眾样本方差 傅利叶分析 直方图图4分析工具选项框图5相关系数对话框系数矩阵的下三角即对角线部分,由于系对称矩阵,上三角的数值与下三角相等,故未给 出(图6),可以

8、通过“拷贝一一转置一一粘帖”的方式补充空白部分。GHIJKL 1相关系数协方差列1列2列1列2列11列11m 20.7056031列20. 7056031图6标准化数据的相关系数和协方差求协方差的方法是在“分析工具”选项框中选择“协方差”(图7),弹出“协方差”选项框(图8),具体设置与“相关系数”类似,不赘述。结果见图 6,可以看出, 对于标准化数据而言,协方差矩阵与相关系数矩阵完全一样。因此,二者任取其一即可。图7在分析工具选项框中选择“协方差”图8协方差选项框计算特征根。我们已经得到相关系数矩阵为1C 0.70560.70561 ,而二阶单位矩阵为于是根据公式det( I1010.705

9、610.7056010.705610.705610 ,我们有C)0按照行列式化为代数式的规则可得(1)2根据一元二次方程的求根公式,当0.705622b 4ac20.50210时,我们有b2 4acR)。这便是求标准正父向量。将1代入矩阵方程(1 C)0 ,得到0.70560.70561 00.70560.70562 0在系数矩阵I C中,用第一行加第二行,化为0.70560.70561 0002 0由此得12,令11,则有21,于是得基础解系10.70712a据此解得1 1.7056,2 0.2944 (对于本例,显然1 1 R,2 1相关系数矩阵的两个特征根。1 '单位化为e10.

10、707111 '单位化为e20.70710.7071单位化的公式为 ei i (i 1,2 ):2 2/ 1 2完全类似,将 2代入矩阵方程(I C)0,得到0.70560.7056100.70560.705620用系数矩阵的第二行减去第一行,化为0.70560.7056100020于是得到12,取11,则有21,因此得基础解系为这里e-i、e2便是标准正交向量。求对角阵。首先建立标准正交矩阵 P,即有0.70710.7071P 6e20.70710.7071该矩阵的一个特殊性质便是PT P1,即矩阵的转置等于矩阵的逆。根据DPTCP,可知0.70710.707110.7056 0.7

11、0710.70711.70560D0.70710.70710.705610.70710.707100.2934下面说明一下利用 Excel进行矩阵乘法运算的方法。矩阵乘法的命令为mmult,语法是mmult (矩阵1的单元格范围,矩阵 2的单元格范围)。例如,用矩阵PT与矩阵C相 乘,首先选择一个输出区域如G1:H2,然后输入“ =mmult(A1:B2,C1:D2) ”,然后按下“Ctrl+Shift+Enter”键(图 9),即可给出1.206044 1.2060440.20817 -0.20817再用乘得的结果与 P阵相乘,便得对角矩阵1.705603000.294397如果希望一步到位

12、也不难,选定输出区域如C3:D4,然后输入“ =mmult(mmult(A1:B2,C1:D2),E1:F2) ” (图 10),同时按下“Ctrl+Shift+Enter ”键,立即得到结果(图11)。显然,对角矩阵对角线的数值恰是相关系数矩阵的特征值。SUNTX= =irnRdt (AlbcDEFG|H10. 707107o, vonor; l.oocojo0.7C5503! 0. 7U71OTo. ronor20, 707107-0.707107 ! 0.7056J3l.OOOOOOi 0. 707107-0. TO7107|l图9矩阵乘法示例SUMX= =imiiult (nnmilt

13、 (Al : B2, Cl; D2), El : F2)ABCDHF |10, 7071070. 7071071.0000000. 7056030.7071070. 707107:20. 707107-0. T0T1070. 7056031.000000:0.707107-0. 70710734MFJULT5678kS11121314Arrayl mnnilt (ALCl : C2)打.20&043T869442EArr4y2|£L FZ3忸 TnriceTeiiMS*=1.70560346031239, :返回两数爼楚阵的乘釈,武中 S 的行數与后廿邮2的列數相等°

14、;"幕蠶野时映第卄的腮应冷二说计直詰果=1- TO3QO340确定取消 |图10矩阵连乘的命令与语法10.7056 x11.70560X1X2cccZ1Z2小0.70561X200.2944Z2至此,标准化的原始变量 x与主成分之间z之间可以表作 Sg c T 嶋宋炼1C33=(=I1ULT(IMULTCA1 :B2f Cl: D2)f El: F2) k |B cE EF10.7071070. 7071071.1)00000d 7056030.707107G 7071072-0, 7071070. 705603L 0000000. 707107-070710731.705&

15、030400.29439T显然Z-I与z2之间正交。图11乘法结果:对角矩阵 根据特征根计算累计方差贡献率。现已求得第一特征根为11.7056,第二特征根为2 0.2944,二者之和刚好就是矩阵的维数,即有12 m 2,这里m=2为变量数目(注意前面的n=25为样本数目)。比较图 6或图10中给出的相关系数矩阵 C与图11 中给出的对角矩阵 D 可以看出,Tr.(C)=1+1=2,Tr.(D)=1.7056+0.2944=2 ,即有 Tr.(C)= Tr.(D),可见将相关系数亦即协方差矩阵转换为对角矩阵以后,矩阵的迹(trace,即对角线元素之和)没有改变,这意味着将原始变量化为主成分以后,

16、系统的信息量没有减 少。现在问题是,如果我们只取一个主成分代表原来的两个变量,能反映原始变量的多少 信息?这个问题可以借助相关系数矩阵的特征根来判断。利用Excel容易算出,第一特征根占特征根总和即矩阵维数的85.28% (见下表),即有特征根 累计值 百分比 累计百分比1.705603 1.70560385.28%85.28%0.294397214.72%100.00%也就是说:,:1.7056 ,/m 1.7056/285.28%2 : 0.2944 ,2 /m 0.2944/m 14.72%12 : 2, ( 12)/m2/2100%这表明,如果仅取第一个主成分,可以反映原来数据85.2

17、8%的信息一一换言之,舍弃第二个主成分,原来数据的信息仅仅损失14.72%,但分析变量的自由度却减少一个,整个分析将会显得更加简明。计算主成分载荷。根据公式j . j ej,容易算出0.70710.92351 1.70560.70710.92350.70710.38372 0.29440.70710.3837计算公因子方差和方差贡献。根据上述计算结果可以比较公因子方差和方差贡献。再 考虑全部的两个主成分的时候,对应于1和2的公因子方差分别为2 2 2V1ij 0.92352 0.38372 1jV ij20.92352( 0.3837)21j对应于第一主成分Z1和第二主成分Z2的方差贡献分别为

18、CV1耳 0.923520.923521.7056i2 2CV2ij 0.3837( 0.3837)0.2944i可以看出(图12):第一,方差贡献等于对应主成分的特征根,即有CVj j第二,公因子方差相等或彼此接近,即有V1 V2第一,公因子方差之和等于方差贡献之和,即有ViCVjm 2ij第一个规律是我们决定提取主成分数目的判据与之一,第二个规律是我们判断提取主成分 数目是否合适的判据之一,第三个规律是我们判断提取主成分后是否损失信息的判据之 一。去掉次要的主成分以后,上述规律理当仍然满足。这时如果第二个规律不满足,就意 味着主成分的提取是不合适的。此外,上述规律也是我们检验计算结果是否正

19、确的判据之OABCFG1记入全部(两个)主成分只考虑第一主成分2第一主成分第二主成分公因子方差第一主成分公因子方差3长度兀10.9234T2650. 383664251长度心0. 923472650.8528024宽度X20. 9234比65-0. 38366431宽度厂0. 923472650.8528025方差贡献1-7056030. 2943972方差贡献1_ 7056031.7056036特征根人1.7056030.294397特征根h1.705G03图12公因子方差、方差贡献的计算结果及其与特征根的贡献计算主成分得分。根据主成分与原始变量的关系,应有Z PTX 或者二"UL

20、T确走X PZ对于本例而言,式中、,XiZZiPe11ei20.70710.7071X,eie2X2Z2e21 e220.70710.7071这里U创ei2 T,e2e21e22T为前面计算的标准化特征向量。于是有Zi0.70710.7071x1Z20.70710.7071 x2化为代数形式便是Zi0.7071X10.7071X2Z20.7071X10.7071X2式中的X均为标准化数据。对ZPTX进行转置,可得ZT XTP1NMULT2Arr&yl5J = -1.7Sa044&64213JArrty2|EEiF3- 0.7O71OS70119&S<EUMEDEF

21、G5=-2. 5nOD13T05O891LO 返回两数霓矩阵的集釈 > 苴中Arvyl的行数与 Z垃的列勘相等.卄直踣果二-2 540013T05图13计算特征向量的公式及语法ABcDEFH |1样本騙号斷标屯标飙h特征向量引持征同量即谓分亞得分231-1.7860447-1. 8060771长度0. 7071068O'. 7071063-2. 540010. 0141652-1. 5593893-0.1414899宽度0. 7071058-0. 70711-1. 2027-1.0026143-1.1060784-1. 1818569-1, 617310. 05358354-1.

22、1060734-0. 55T636F-1.17642-0. 3878L65-1.1060784-0. 1414899-0. 88216-0 6820T7&-0. 879425-1. 8060771-L 呂9894CL 65524387-0. 8794230. 4827303-0. 2805-0. 9631993-0. 6527676-0. 3495633-0. 70375-0, 2144109-0. 4261122-1. 1318569-1.13701CL 5343921110-0. 4261122-0. 5576367-0. 695620, 0930021211-0. 4261122

23、0. 69030370.187165-0. 73978131412-0.1994S6S-0. 7657101-0. 6324S0. 4QQ402130. 027198650.274656890.213444-0.1749815140. 25385407-0. 14148990.0794530.2795516150. 253854070.066583490.2265840.1324217160. 4SO50948-0. 9737835-0. 34S81.028341S170.480509480. 69030370. 328243-0.148719180.480509480. 8988771097

24、5374-0. 29583201.9j. 430509421. 315023'Jl1. 269634-0.5900921200. 707164-0. 7657101-0. 04141.0414822210. 933820320. 4827303L001653CX 31896923221.307131150. 48273031.3221920, ,95082425231.38713115L315023911.910712605082241.613786571.731170722.365242-0. 08326242. 06709741.939244122.83291127、 > &

25、gt;力差11h差1.T05&0.2944图14计算主成分得分根据这个式子,利用 Excel计算主成分得分的步骤如下: 将特征向量复制到标准化数据的附近; 选中一个与标准化数据占据范围一样大小的数值区域(如G2:H26); 输入如下计算公式“ =mmult(标准化数据的范围,特征向量的范围)”,在本例中就是“ =MMULT(B2:C26,E2:F3) ” (图 13); 同时按下“ Ctrl+Shift+Enter”键。 计算主成分得分的均值和方差,可以发现,均值为 0 (由于误差之故,约等于 0),方 差等于特征根。 最后,可以对主成分得分进行标准化。已知主成分得分的均值为0,我们不

26、按总体方差进行标准化,而按样本方差进行标准化。ABCDE1祥本序号习得分氐得分标准化星标准化却21-2. 5400140.01416E-1.9056040. 025579332-1. 202703T. 002606-0.002308-1.81050543-L 6173150.0535S3-1.2137390. 096761J54-1.176424-0.387807-0.882593-0. 70030165-0. 882164-0.682067-0.66182-1. 23167N76-L 8989350.655243-1.4246451.183237687-0. 280504-0.963188-

27、0.210444-1.739323g8-0. 7018755-0.214398-0.531732-0. 387159109-L 137006山 534392-0. 855020. 96500471110-0. 6956160.093002-0.5218740.167942712110.187165-0.7097790.1404176-1. 4261811312-0. 6824760.400402-0.5120170. 7230446140. 2134440.1TU9T90.160133-0. 31597315140. 0794530.2795500.05960870. 5048117lfl15

28、0. 2265840.1324200.16999060. 2391244L7P 16-0. 3487971.02S340工 2&1681. 856975618抹0. 828243-0.1487000.6213762-0, 26352319180. 975374-0.2958310.7317582-0. 534212019L 269634-0.5900910.9525221-1. 065585212D-0. 0413981.041480-0. 0310581.88070282221L 0016530.3189690.75147350. 57599323L 3221920.63950869

29、9195281.15482224笳L 9107120.0509881_43348070. 092073225242. 365242-0.0830031.7744843-0. 8329110,0904062.12534560 163254927样本方差1.7766700.30666311图15主成分得分的标准化结果样本方差的计算公式为1 n - 2Var(Xj)区Xj)n 1 i 1相应地,标准差为jv'Var(Xj);(XjXj) n 1 i 1标准化公式同前面给出的一样。结果见表15。注意,这里之所以按样本方差进行标准化,主要目的是为了与 SPSS勺计算结果进行比较。分别以Zi、Z2为坐标轴,将主成分得分(包括标准化的得分)点列标绘于坐标图中, 可以发现,点列分布没有任何趋势:回归结果表明,回归系数和相关系数均为零,即有 a 0, b 0, R 0 (图16,图

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论