第17章因子分析_第1页
第17章因子分析_第2页
第17章因子分析_第3页
第17章因子分析_第4页
第17章因子分析_第5页
已阅读5页,还剩29页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第17章因子分析第第17章章 因子分析因子分析中国疾病预防控制中心第17章因子分析学习目标v熟悉因子分析的基本思想;v熟悉因子分析的基本原理;v了解因子分析的数学模型;v掌握因子模型的性质以及一些基本概念:公共度和方差贡献。v熟悉估计因子载荷的分析步骤、因子旋转和因子得分等;v掌握因子分析的步骤以及FACTOR过程实例。第17章因子分析因子分析基本思想 v前面章节讨论了多元线性回归分析、主成分分析等,它们的共同特点是讨论内容为可测量变量之间的相互关系,即所分析的这些变量是可以直接观察或测量得到的。但是,在医学研究中,很多情况下我们所要研究的变量是不能直接测量的。例如,研究家庭环境、社会环境和学

2、校环境对儿童智商的影响,这四个变量都是不能或不易直接观测得到的。我们称这种不能或不易直接观测得到的变量为潜在变量或潜在因子。虽然这些潜在变量不能直接测量,但是它们是一种抽象的客观存在,因此一定与某些可测量变量有着某种程度的关联。例如,脑部疾病患者的意识清醒状态是一个不可测变量,但可以通过患者的语言能力、辨识能力、记忆能力、理解能力等一系列可观测的指标来反映。 第17章因子分析因子分析基本思想v对于多指标数据中呈现出的相关性,是否存在对这种相关性起支配作用的潜在变量?如果存在,如何找出这些潜在因素?这些潜在因素是怎样对原始指标起支配作用的?这些问题都可以通过因子分析来解决。v因子分析是一种旨在寻

3、找隐藏在多变量数据中、无法直接观察到却影响或支配可测变量的潜在因子、并估计潜在因子对可测变量的影响程度以及潜在因子之间的相关性的一种多元统计分析方法。第17章因子分析因子分析基本思想v其基本思想是从分析多变量数据的相关关系人手,找到支配这种相关关系的少数几个相关独立的潜在因子,并通过建立起这些潜在因子与原变量之间的数量关系来预测潜在因子的状态,帮助发现隐藏在原变量之间的某种客观规律性。因子分析和主成分分析都能够起到清理多个原始变量内在结构关系的作用,但主成分分析重在综合原始变量的信息,而因子分析重在解释原始变量间的关系,是比主成分分析更深入的一种多元统计方法。第17章因子分析因子分析基本思想v

4、因子分析最初用于心理、智力测验的统计分析,随着计算技术的不断发展,如今已广泛应用于医学、气象、经济学等其他研究领域,在中医辨证论治研究中也有了初步成果。如李文林等利用因子分析法建立隐结构在慢性胃炎辨证中应用的初步分析,确定了28个原始变量中隐含的12个因子,并利用因子载荷最终分析出这12个因子(隐节点)所对应的症状信息。陈启光等在中医证候规范研究中以468例高脂血症的40个四诊信息指标进行因子分析,结果表明:提取的5个公因子能包含四诊信息指标中8392的信息,并提供所有测量指标在不同公因子载荷的大小,为医师评价该指标在不同证候中的主次关系提供了定量的分析手段。第17章因子分析因子分析基本思想v

5、因子分析法就是寻找这些潜在因子的模型分析方法,它是在主成分的基础上构筑若干意义较为明确的潜在因子,以它们为框架分解原变量,以此考察原变量间的联系与区别。v例如,随着年龄的增长,儿童的身高、体重会随着变化,具有一定的相关性,身高和体重之间为何会有相关性呢?因为存在着一个同时支配或影响着身高与体重的生长因子。那么,我们能否通过对多个变量的相关系数矩阵的研究,找出同时影响或支配所有变量的共性因子呢?因子分析就是从大量的数据中“由表及里”、“去粗取精”,寻找影响或支配变量的多变量统计方法。第17章因子分析因子分析基本思想v可以说,因子分析是主成分分析的推广,也是一种把多个变量化为少数几个综合变量的多变

6、量分析方法,其目的是用有限个不可观测的隐变量来解释原始变量之间的相关关系。v因子分析主要用于:1、减少分析变量个数;2、通过对变量间相关关系探测,将原始变量进行分类。即将相关性高的变量分为一组,用共同的潜在因子代替该组变量。第17章因子分析因子分析基本思想v可以说,因子分析是主成分分析的推广,也是一种把多个变量化为少数几个综合变量的多变量分析方法,其目的是用有限个不可观测的隐变量来解释原始变量之间的相关关系。v因子分析主要用于:1、减少分析变量个数;2、通过对变量间相关关系探测,将原始变量进行分类。即将相关性高的变量分为一组,用共同的潜在因子代替该组变量。第17章因子分析因子分析基本思想v因子

7、分析法是从研究变量内部相关的依赖关系出发,把一些具有错综复杂关系的变量归结为少数几个综合因子的一种多变量统计分析方法。它的基本思想是将观测变量进行分类,将相关性较高,即联系比较紧密的分在同一类中,而不同类变量之间的相关性则较低,那么每一类变量实际上就代表了一个基本结构,即公共因子。对于所研究的问题就是试图用最少个数的不可测的所谓公共因子的线性函数与特殊因子之和来描述原来观测的每一分量。第17章因子分析因子分析的基本原理 v下表给出了三个指标之间的相关系数,其中,x1是孩子的数学成绩,x2是孩子的语文成绩,x3是孩子的英语成绩。求影响支配这三个成绩指标变量的潜在因子。v 三个指标之间的相关系数x

8、1x2x3x11.00 x20.771.00 x30.720.861.00第17章因子分析因子分析的基本原理v令 是影响这三个指标变量的潜在因子。显然,每个成绩指标变量除了受这个潜在因子的影响外,可能还受其它因子的影响。把 以外的影响因子记为 ,从数学角度看,它们之间的关系可以表示为:333222111axaxax第17章因子分析因子分析的基本原理v如果假设 是方差为1,、 、 、 相互独立,并且假设指标变量被标准化为方差为1的变量 ,那么,123321,XXX21211221212121000)var(),cov(),cov(),cov(),cov(),cov(aaaaaaaaXX第17章因

9、子分析因子分析的基本原理v同理可以得到,v也就得到了a1、a2和a3的一个方程组:77. 0),(),cov(12212121rXXcorrXXaa86.072.023321331raaraa86.072.077.0233213311221raaraaraa第17章因子分析因子分析的基本原理v解上述方程组,得到一组解为:va1=0.897,a2=0.959,a3=0.803v从而得到三个标准指标Xi与潜在因子以及误差项之间的关系表达式,即:v从这个关系表达式可以看出这个潜在因子对孩子的三门课的成绩都有影响,而且,影响程度比较均衡。332211803.0959.0897.0XXX第17章因子分析

10、因子分析的基本原理v再看下面这组表达式,其中X1-X5是五个指标变量,它们分别表示收缩压、舒张压、心跳间隔、呼吸间隔和舌下温度。从医学知识可知,这5个指标是受自主神经的交感神经和副交感神经支配的,而交感神经和副交感神经状态又不能直接测定。用F1、F2分别表示交感神经和副交感神经这2个因子,则可测指标Xi是不可测因子Fj的线性函数,第17章因子分析因子分析的基本原理vFj对各Xi的影响是线性的,再加上其它影响因子ei,则各Xi与F1、F2的关系可表示为:5252151542421414323213132222121212121111eFaFaXeFaFaXeFaFaXeFaFaXeFaFaX第1

11、7章因子分析因子分析的基本原理v由于F1、F2与每一个Xi都有关,因此,研究这5个指标变量之间的关系可以转化为研究这两个潜在因子之间的关系。因子分析的基本原理就是依据可测指标变量之间的相关关系,从中寻找出合理的有实际意义的潜在因子,并估计出潜在因子对可测指标变量的影响程度。第17章因子分析因子分析的步骤 v因子分析的核心问题有两个:一是如何构造因子变量;二是如何对因子变量进行命名解释。因此,因子分析的基本步骤和解决思路就是围绕这两个核心问题展开的。第17章因子分析因子分析的步骤v因子分析常常有以下四个基本步骤:确认待分析的原变量是否适合作因子分析;构造因子变量;利用旋转方法使因子变量更具有可解

12、释性;计算因子变量得分。第17章因子分析因子分析的步骤v因子分析的计算过程:将原始数据标准化,以消除变量间在数量级和量纲上的不同;求标准化数据的相关矩阵;求相关矩阵的特征值和特征向量;计算方差贡献率与累积方差贡献率;确定因子:设F1,F2, Fp为p个因子,其中前m个因子包含的数据信息总量(即其累积贡献率)不低于80%时,可取前m个因子来反映原指标;第17章因子分析因子分析的步骤因子旋转v若所得的m个因子无法确定或其实际意义不是很明显,这时需将因子进行旋转以获得较为明显的实际含义。用原指标的线性组合来求各因子得分v采用回归估计法,Bartlett估计法或Thomson估计法计算因子得分。综合得

13、分v以各因子的方差贡献率为权,由各因子的线性组合得到综合评价指标函数。vF=(w1F1+w2F2+wmFm)(w1+w2+wm)v此处wi为旋转前或旋转后因子的方差贡献率。第17章因子分析因子分析的应用v在采用多元统计分析技术进行数据处理、建立宏观或微观系统模型时,需要研究以下几个方面的问题:v简化系统结构,探讨系统内核。可采用主成分分析、因子分析、对应分析等方法,在众多因素中找出各个变量最佳的子集合,从子集合所包含的信息描述多变量的系统结果及各个因子对系统的影响。“从树木看森林”,抓住主要矛盾,把握主要矛盾的主要方面,舍弃次要因素,以简化系统的结构,认识系统的内核。第17章因子分析因子分析的

14、应用v构造预测模型,进行预报控制。在自然和社会科学领域的科研与生产中,探索多变量系统运动的客观规律及其与外部环境的关系,进行预测预报,以实现对系统的最优控制,是应用多元统计分析技术的主要目的。在多元分析中,用于预报控制的模型有两大类。一类是预测预报模型,通常采用多元线性回归或逐步回归分析、判别分析、双重筛选逐步回归分析等建模技术。另一类是描述性模型,通常采用聚类分析的建模技术。第17章因子分析因子分析的应用v进行数值分类,构造分类模式。在多变量系统的分析中,往往需要将系统性质相似的事物或现象归为一类。以便找出它们之间的联系和内在规律性。过去许多研究多是按单因素进行定性处理,以致处理结果反映不出

15、系统的总的特征。进行数值分类,构造分类模式一般采用聚类分析和判别分析技术。 第17章因子分析因子分析的应用v如何选择适当的方法来解决实际问题,需要对问题进行综合考虑。对一个问题可以综合运用多种统计方法进行分析。例如一个预报模型的建立,可先根据有关生物学、生态学原理,确定理论模型和试验设计;根据试验结果,收集试验资料;对资料进行初步提炼;然后应用统计分析方法(如相关分析、逐步回归分析、主成分分析等)研究各个变量之间的相关性,选择最佳的变量子集合;在此基础上构造预报模型,最后对模型进行诊断和优化处理,并应用于生产实际。第17章因子分析因子分析SAS程序vSAS系统中利用FACTOR过程对数据进行主

16、成分分析。vFACTOR过程的语法格式如下:vPROC FACTOR DATA= N= OUT= OUTSTAT= METHOD= ROTATE= MAXITER= RECORDER HEY 选项;vVAR 变量/选项;vPARTIAL 变量;vRUN;第17章因子分析因子分析SAS程序vDATA语句指定要分析的数据集名及一些选项,它可以是原SAS数据集,也可以是corr、cov、ucorr、ucov等矩阵。vN用来确定潜在因子个数,该选择项缺省时,系统自动根据“特征值大于1”的原则确定潜在因子个数。vOUT选择项用来保存原变量和因子得分变量,变量名为factor1,factor2,。只有使用

17、了N选择项,OUT选择项才能起作用。第17章因子分析因子分析SAS程序vOUTSTAT指定输出结果的SAS数据集名,该数据集保存的是每一个指标的均值、标准差、样本数、相关系数矩阵或方差协方差矩阵、特征值和特征向量、事前共性方差、事后共性方差、未旋转因子载荷、旋转线性变换、旋转后的因子载荷以及因子得分系数。vMETHOD选择项用来确定因子分析的方法,可选用的有主成分分析法prin,最大似然分析法ml,主因子分析法prinit等,缺省是prin。第17章因子分析因子分析SAS程序vROTATE选择项用来指定因子旋转的方法,可选用的有最大方差旋转法varimax,正交最大方差旋转法orthomax,

18、相等最大方差旋转法equamax,比例最大方差旋转法promax等,缺省是none,不旋转。vMAXITER给出最大迭代次数,缺省是30。vRECORDER指令系统将指标变量按每一个潜在因子载荷的绝对值由大到小重新排序。vHEY表示将大于1的共性方差的值设定为1。第17章因子分析因子分析SAS程序vVAR语句用于列出要分析的原始变量。如果该语句缺省,系统分析其它语句中未涉及到的所有指标变量。vPARTIAL语句用于列出混杂变量,指定系统使用偏相关系数或偏方差、协方差来计算主成分。例如,PARTIAL X;它表示偏相关系数或偏方差、协方差是以变量X为混杂变量的,即所有的相关系数都表示的是在X不变的情况下,两个变量之间的关联程度。但是,该语句列出的变量不能出现在VAR语句中。v另外,freq语句、weight语句、by语句等也实用。第17章因子分析本章小节 v因子分析是主成分分析的推广,也是一种把多个变量化为少数几个综合变量的多变量分析方法,其目的是用有限个不可观测的隐变量来解释原始变量之间的相关关系。v因子分析主要用于:1、减少分析变量个数;2、通过对变量间相关关系探测,将原始变量进行分类。即将相关性高的变量分为一组,用共同的潜在因子代替该组变量。第17章因子分析本章小节v因子分析法是从研究变量内部相关的依赖关系出发,把一些具有错

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论