用SAS和SPSS软件进行主成分分析_第1页
用SAS和SPSS软件进行主成分分析_第2页
用SAS和SPSS软件进行主成分分析_第3页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、Chinese Journal of Health StatisticsMpr 20Q9, Vo). 261No. 2 213 用SAS和SPSS软件进行主成分分析Chinese Journal of Health StatisticsMpr 20Q9, Vo). 261No. 2 213 Chinese Journal of Health StatisticsMpr 20Q9, Vo). 261No. 2 213 安徽医科大学生物医学研究所(230032)杨中荣毛广运臧桐华徐希平°Chinese Journal of Health StatisticsMpr 20Q9, Vo).

2、261No. 2 213 Chinese Journal of Health StatisticsMpr 20Q9, Vo). 261No. 2 213 通讯作者:徐希平,xipingxul8 126. comVSaving asVariable主成分分析,又称主分量分析,是指将原始的多个 变量,通过线性组合,提炼出较少几个彼此独立的新变 量的一种多元统计分析方法。在医学科研和预防的工 作中遇到的一些问题,由于每个变量都在不同程度上 反映这个问题的某些信息,为了全面分析这个问题,往 往提出很多与此有关的变就(或因素)。但是,在用统 计分析方法研究这个多变量的问题时,由于变量个数 太多会增加解决

3、该问题的复杂性。在大多情况下,变 量之间存在一定的相关性,可以解释为这两个变量在 反映此问题的信息时有一定的重叠。人们希望变量个 数较少而得到的信息较多,主成分分析就是对于原先 提岀的所有变量,建立尽可能少的新变量,使得这些新 变量是两两不相关的,而且这些新变量在反映问题的 信息方面尽可能多地保留原有的信息。SAS和SPSS都能对多变量资料进行较完善的主 成分分析,但它们所提供的主成分分析过程不尽相同, 过程下的选项和相应的输岀结果也各有不同“,因 此有必要对两个软件的主成分分析功能做一个比较系 统的介绍。例 对某小学10名9岁男学生六个项目的智力 测量的得分如表1。我们习惯用各项目得分之总和

4、 (合计)来表示学生的智力,这种做法实际上是将各变 量等同地看待,各变量赋予相同的权重。表1某小学10名男学生六个项目智力测员计分表被测试者编号常识x.算术理解Xj填图X.財Xs译码X&合计114132814223913021014151434351223111219132439118477792023735131224122638125619142216233713172016262138691908910149314611999815131446105109912102346109一、几个相关的名词术语及统计疑1. 特征根:Var(CJ =A»各主成分所提供的信息最多少,

5、常用其方差的大 小(即特征根入)来衡量,入愈大,该主成分提供的信息 童就愈大,可见:入i >&> > AbO2. 贡献率及累积贡献率皿个主成分的特征根入之和为m,则:某主成分C: 的特征根入,在m中所占的比例,被称为G的贡献率。 显然,第一主成分G是贡献率最大的主成分,如果它 的贡献率越大,则表明G综合原始指标的能力越强。 前k个主成分的贡献率之和为前k个主成分的累积贡 献率。3. 特征向量及因子载荷特征向就是指主成分的线性组合中各系数勺; 因子载荷即第i主成分C,特征根的平方根与叫的 乘积即为= SQRT(入)实际上,因子载荷是G与原始指标X.之间的相关 系数,反映

6、了两者之间联系的密切程度。4. 主成分得分根据线性组合中各特征向量和各原始指标标化值 Z,的大小,可以求得各主成分得分大小,利用主成分 得分大小可以对研究对象的个体进行推断和评价。但是SPSS软件中得到的是各主成分C/SQRT (入J的值大小,以默认变星名FAC1 _ 1等来保存。二、主成分个数的确定1. 均数法:计算特征根的均数A(因为全部尬个待 征根之和为叫所以入=1),则取入大于1的主成分;2. 经验法:当前k个主成分的累积贡献率达到 80%以上,则取前k个主成分进行分析。三、SPSS中的程序及结果程序:Analyze*Data ReductionFactor AnalysisVaria

7、bles 框:Xj、x? Nx3 x4 Ax5 x6| Descriptive :VCoefficientsVKMO 的 Bartletts test of sphericityContinue |Extraction:/Scree plot;VNumber of factors:3Continue| Scores:VDisplay factor score coefficient matrixContinueOK结果见表2。由表2可知,六个变量之间的相关性很高,如果直 接用于分析,可能会带来严重的共线性问题。由表3可知,第一主成分的特征根为4. 147,它解 释了总变异的69.116% ;第

8、二主成分的特征根为 0862,它解释了总变异的14. 368% ;第三主成分的特 征根为0.602,它解释了总变异的10.035% o从特征 根来看,前三个主成分已经基本上反映了原资料的信 息,这六个变就只需要提取三个主成分即可。表2六个变就的相关系数矩阵可£心*61.0000. 8340.8120. 8730.4050.530X20. 8341.0000. 7820. 8300.6940.450£0.8120. 7821.0000. 7090.2780. 445£0. 8730. 8300. 7091.0000.4560.6370.4050.6940. 2780

9、.4561.0000. 5000. 5300.4500.4450.6370.5001.000Chinese Journal of Health StatisticsMpr 20Q9, Vo). 261No. 2 213 表3各主成分解释总变异的程度主成分相关矩阵的待征值捉取的因于载備的平方和各成分的符征值4丫成分所解释的方差占总方差的百分比累计百分比各因子的待征值页献累计贡献I4.14769.11669.1164.14769.11669.11620.86214.36883.4850.86214.36883.48530.60210.03593.5190.60210.03593.51940.257

10、4.28197.80050.10?1.77999.58060.0250.420100.000Chinese Journal of Health StatisticsMpr 20Q9, Vo). 261No. 2 213 四、SAS中的程序及结果SAS中用于主成分分析的过程为princomp。 程序:Data namcl ;input x, x2 x3 x4 x6;cards;14 13 28 14 22 39proc princomp ;run; 运行结果见表4。前三个主成分可表示为:C = 0. 450428Z, + 0.458403% + 0.408183Z)+0. 452656乙 +0.

11、31 5012Z5 +0. 340937Z6C2 = -0. 28870121Z, + 0. 004602 -0. 448122-0. 118657乙 +0.1747036爲 +0. 379046Z6C3 = -0.000116Z -0.4235lOZj -0.043682為 +0. 149879乙-0403637Zs +0. 795829Z6表4相关矩阵的主成分特征向歛特征向铁1特征向特征向債3特征向債4特征向员5待征向童60.450128-O.2S87OI-0.0001160.265691 0.8019280.009Z760.45W03O.OM6Q2-0.423510-0.11701 -a

12、 251201-0.7W610.408183-0.448122-O.M36820.710153 -0.1S89950.317913&0.452656-0.1186570.149S79-O.6Q5624 -0.5019230.373969a 3150120.747036-0.4036370.1214M a 1277260.385636O.iW70.30160.7W90.208376 a 017019-0.251061从主成分来看:第一主成分的各分斌之大小大致相当. 说明第一主成分是一个综合指标;第二主成分在扯上 有较大的系数,说明第二主成分反映的是动手操作能 力;第三主成分在X&

13、上有较大的负荷,说明第三主成 分反映的是归纳演绎能力。讨 论信息化时代的今天,随着计算机的普及和统计软 件的不断开发应用,要求统计方面的知识越来越高了, 但是医学领域的统计方法滥用现象仍比较严重,特 别是涉及到多因素的统计方法方面的知识需要重点加 强。如果忽略了不同统计方法应用的前提条件,则必 然会导致错误的结论。如主成分分析的应用条件是要 求变董间存在较大的相关性,当相关较小时,应用主成 分分析是没有意义的。目前,国际上应用较广的统计软件如SPSS、SAS 和STATA等有其各自的优缺点,它们为统计分析提 供了方便、快捷的方法,绝大部份的医学科研数据都可 用统计软件分析。特别是SPSS统计软件包,以界面 窗口、操作简单和简便易学而著称。即使是SAS和 STATA等统计软件,对常见统计量的编程分析主要涉 及与数据库类似的变量、函数、以及一些简单的条件和 循环语句,稍加学习即可掌握。作为一名医务工作者, 应当熟悉和掌握常用统计软件的常见统计分析的基本 操作,这将给医学科研和医学工作中带来很大的帮助。参考文献1朱道元帑编多元统计

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论