医学统计学-主成分分析及因子分析(第20章)课件_第1页
医学统计学-主成分分析及因子分析(第20章)课件_第2页
医学统计学-主成分分析及因子分析(第20章)课件_第3页
医学统计学-主成分分析及因子分析(第20章)课件_第4页
医学统计学-主成分分析及因子分析(第20章)课件_第5页
已阅读5页,还剩131页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

主成分分析与因子分析

PrincipalComponentsAnalysis&FactorAnalysis第二军医大学卫生统计学教研室张罗漫第20章1/9/20231医学统计学主成分分析PrincipalComponent讲课内容:第一节主成分分析第二节因子分析1/9/20232医学统计学讲课内容:1/8/20232医学统计学第一节主成分分析PrincipalComponentsAnalysis1/9/20233医学统计学第一节1/8/20233医学统计学一、基本思想数据的降维、数据的解释将原来众多具有一定相关性的指标,组合成一组新的相互无关的综合指标。

从中选取几个较少的综合指标尽可能多的反映原来众多指标的信息。这种既减少了指标的数目又抓住了主要矛盾的做法有利于问题的分析和处理。1/9/20234医学统计学一、基本思想1/8/20234医学统计学1/9/20235医学统计学1/8/20235医学统计学

如何利用这些指标对每一儿童的生长发育作出正确评价?仅用单一指标:结论片面;没有充分利用原有数据信息。利用所有指标:各指标评价的结论可能不一致,使综合评价困难;工作量大。1/9/20236医学统计学如何利用这些指标对每一儿童的生长发育1/8/20236医找出几个综合指标(长度、围度、特体),这些综合指标是原始指标的线性组合,既保留了原始指标的信息,且互不相关。各综合指标提供的“信息”量大小用其方差来衡量。衡量一个指标的好坏除了正确性与精确性外,还必须能充分反映个体间的变异,一项指标在个体间的变异越大,提供的信息量越多。1/9/20237医学统计学1/8/20237医学统计学二、数学模型及几何意义1/9/20238医学统计学二、数学模型及几何意义1/8/20238医学统计学Z=AX1/9/20239医学统计学Z=AX1/8/20239医学统计学第一主成分在所有Zi中最大1/9/202310医学统计学第一主成分在所有Zi中最大1/8/202310医学统计学第二主成分……理论上主成分个数最多为m个(指标个数)实际工作中确定的主成分个数总是小于m个在所有Zi中为第2大。

无关,互相垂直:1/9/202311医学统计学第二主成分……在所有Zi中为第2大。无关,互相垂直:1/8X1X2112-2-2-1-120相关变异1/9/202312医学统计学X1X2112-2-2-1-120相关1/8/202312医X1X2Z1Z2112-2-2-2-211-1-1-1-122201/9/202313医学统计学X1X2Z1Z2112-2-2-2-211-1-1-1-12Z1Z2-2-211-1-1220相关变异1/9/202314医学统计学Z1Z2-2-211-1-1220相关1/8/202314医三、主成分的求法及性质1/9/202315医学统计学三、主成分的求法及性质1/8/202315医学统计学(一)主成分的求法1.对各原始指标值进行标准化为了方便,仍用Xij表示Xij’。1/9/202316医学统计学(一)主成分的求法为了方便,仍用Xij表示Xij’。1/8/标准化后的数据矩阵X=1/9/202317医学统计学标准化后的数据矩阵X=1/8/202317医学统计学2.求出X1,X2,…,Xm

的相关矩阵RR=Cov(X)

=1/9/202318医学统计学2.求出X1,X2,…,Xm的相关矩阵RR=Pearson相关系数

标准化后的协方差协方差1/9/202319医学统计学Pearson相关系数标准化后的协方差协方差1/8/3.求出矩阵R的全部特征值(eigenvalue)i,第i个主成分的组合系数ai1,ai2,,aim满足方程组:(r11-i)ai1+r12ai2++r1maim=0

r21ai1+(r22-i)ai2++r2maim=0

rm1

ai1+rm2ai2++(rmm-i)aim=0

1/9/202320医学统计学3.求出矩阵R的全部特征值(eigenvalue)i,(r11-i)ai1+r12ai2++r1maim=0

r21ai1+(r22-i)ai2++r2maim=0

rm1

ai1+rm2ai2++(rmm-i)aim=0

i为矩阵R的第i个特征值,共有m个非负特征值,由大到小的顺序排列为:1≥2≥≥m≥0i=Var(Zi)1/9/202321医学统计学(r11-i)ai1+r12ai2+4.由以上方程组,求出相应于特征值i的特征向量(eigenvector)(ai1,ai2,,aim)’1/9/202322医学统计学4.由以上方程组,求出相应于特征值i的1/8/202(二)主成分的性质

1.各主成分互不相关

1/9/202323医学统计学(二)主成分的性质1/8/202323医学统计学2.主成分的贡献率与累积贡献率(原始指标值标准化)(指标个数)贡献率累积贡献率1/9/202324医学统计学2.主成分的贡献率与累积贡献率(指标个数)贡献率累积贡献率13.主成分个数的选取(1)前k个主成分的累积贡献率>70%。(2)主成分Zi的特征值i≥

1。4.因子载荷(第i主成分Zi与第j原始指标Xi间相关系数)

1/9/202325医学统计学3.主成分个数的选取4.因子载荷1/8/202325医学统计5.样品的主成分得分1/9/202326医学统计学5.样品的主成分得分1/8/202326医学统计学四、实例1/9/202327医学统计学四、实例1/8/202327医学统计学1/9/202328医学统计学1/8/202328医学统计学1/9/202329医学统计学1/8/202329医学统计学1/9/202330医学统计学1/8/202330医学统计学

1.主成分个数的选取

3很接近于1;

3与2的贡献率相差不大,为25%左右,若舍去3不合理。取前三个主成分。1/9/202331医学统计学1.主成分个数的选取1/8/202331医学统计学2.列出主成分表达式Z1为急性炎症成分(X1转氨酶、X2肝大指数)Z2为慢性炎症成分(X3硫酸锌浊度)Z3为癌变成分(X4甲胎球蛋白)1/9/202332医学统计学2.列出主成分表达式Z1为急性炎症成分(X1转氨酶、X2肝大3.求出因子载荷阵1/9/202333医学统计学3.求出因子载荷阵1/8/202333医学统计学4.主成分得分1/9/202334医学统计学4.主成分得分1/8/202334医学统计学标准化指标主成分还原为原始指标主成分1/9/202335医学统计学标准化指标主成分还原为原始指标主成分1/8/202335医学将该肝病患者的四项肝功能指标代入原始指标主成分表达式:

Z1=2.50865Z2=-1.06626Z3=-1.22943该肝病患者可能为急性炎症。1/9/202336医学统计学将该肝病患者的四项肝功能指标代入1/8/202336医学统五、主成分分析的应用

1.对原始指标进行综合以互不相关的较少个综合指标反应众多原始指标提供的信息。

主成分回归(解决多元共线问题)。

2.进行综合评价

1/9/202337医学统计学五、主成分分析的应用2.进行综合评价1/8/2023373.进行探索性分析利用因子载荷阵,找出影响各综合指标的主要原始指标。

4.对样品进行分类利用主成分得分对样品进行分类:

Z1为急性炎症成分

Z2为慢性炎症成分Z3为癌变成分1/9/202338医学统计学3.进行探索性分析1/8/202338医学统计学第二节因子分析FactorAnalysis1/9/202339医学统计学第二节1/8/202339医学统计学一、因子分析基本思想从分析多个可观测的原始指标的相关关系入手,找到支配这种相关关系的有限个不可观测的潜在变量。是多元分析中处理降维的一种统计方法。如:脑部疾病患者的意识清醒状态可由语言能力、辩识能力、记忆能力、理解能力与思维逻辑能力等可观测的指标反映。1/9/202340医学统计学一、因子分析基本思想如:脑部疾病患者的意识清醒状态可由语言能二、因子分析数学模型

X1:收缩压X2:舒张压X3:心跳间隔X4:呼吸间隔X5:舌下温度F1:交感神经F2:副交感神经

commonfactor1/9/202341医学统计学二、因子分析数学模型X1:收缩压F1:交感

specificfactor

commonfactor1/9/202342医学统计学specificfactorcommonfactorXi:观测指标(标准化数据)Fi:公因子ei:特殊因子aij:因子载荷(计算关键项)1/9/202343医学统计学Xi:观测指标(标准化数据)1/8/202343医学统计X=AF+e1/9/202344医学统计学X=AF+e1/8/202344医学统计学1/9/202345医学统计学1/8/202345医学统计学1/9/202346医学统计学1/8/202346医学统计学三、因子模型的性质

矩阵A的统计意义1.公共度(共性方差)1/9/202347医学统计学三、因子模型的性质1/8/202347医学统计学因子的共性方差1/9/202348医学统计学因子的共性方差1/8/202348医学统计学2.因子贡献与因子贡献率矩阵A第j列元素反映了第j个公因子Fj对所有原始指标的影响;数据标准化后全部原始指标的总方差为指标个数m。Fj对原始指标的方差贡献率1/9/202349医学统计学2.因子贡献与因子贡献率Fj对原始指标的方差贡献率1/8/2各因子的贡献1/9/202350医学统计学各因子的贡献1/8/202350医学统计学3.因子载荷及因子载荷阵A1/9/202351医学统计学3.因子载荷及因子载荷阵A1/8/202351医学统计学四、因子载荷阵的求解及计算步骤

1.收集原始数据并整理为下表1/9/202352医学统计学四、因子载荷阵的求解及计算步骤1/8/202352医学统计学2.对各指标进行标准化3.求指标间的相关系数矩阵RX4.求指标间的约相关系数矩阵R*

(1)R*的非对角线元素与相关矩阵RX的非对角线元素相等

(2)R*的对角线元素为共性方差1/9/202353医学统计学2.对各指标进行标准化1/8/202353医学统计学5.求出约关系数矩阵R*所有大于零的特征值及相应的特征向量6.写出因子载荷阵A,得出原始指标X的公因子表达式1/9/202354医学统计学5.求出约关系数矩阵R*所有大于零的特1/8/202354要求:1.保留公因子个数q小于指标个数m,原则:

j≥1前k个公因子累积贡献率≥70%2.各共性方差接近于1。3.各原始指标在同一公因子Fj上的因子载荷之间的差别应尽可能大。1/9/202355医学统计学要求:1/8/202355医学统计学五、实例1/9/202356医学统计学五、实例1/8/202356医学统计学1.主成分解1/9/202357医学统计学1.主成分解1/8/202357医学统计学1/9/202358医学统计学1/8/202358医学统计学1/9/202359医学统计学1/8/202359医学统计学主成分解:除因子1可初步认定为综合因子外,其余3个因子的专业意义不明显。2.主因子解:除因子1可初步认定为综合因子外,其余3个因子的专业意义不明显。1/9/202360医学统计学主成分解:1/8/202360医学统计学六、因子旋转当各公因子的专业意义难以解释时,可以通过因子旋转来解决。如求得的因子载荷阵A不甚理想,可右乘一个正交阵T,使AT有更好的实际意义,

使各原始指标在同一公因子上之间差别尽可能增大。称因子正交旋转。正交旋转可保持各指标的共性方差不变;各公因子互不相关。常用方差最大旋转法等。1/9/202361医学统计学六、因子旋转1/8/202361医学统计学1/9/202362医学统计学1/8/202362医学统计学1/9/202363医学统计学1/8/202363医学统计学七、几点注意

1.因子分析的解不唯一(1)同一问题可以有不同的因子分析解:主成分解、主因子解、极大似然解(2)进行因子旋转以获得更为满意的解。2.因子得分不能直接进行计算,但可以估计。1/9/202364医学统计学七、几点注意1/8/202364医学统计学3.主成分分析与因子分析间的关系(1)两者的分析重点不一致

Z=AX主成分为原始变量线性组合,重点在综合原始变量信息。

X=AF+e原始变量为公因子与特殊因子线性组合,公因子重点反映支配原始变量的不可观测的潜在因素。重要1/9/202365医学统计学3.主成分分析与因子分析间的关系重要1/8/202365医学(2)两者之间有密切的关系因子分析完全能够替代主成分分析,并且功能更为强大。主成分分析是一种思想,是一种得到目的的中间手段,是其它多元统计分析方法的基础,如因子分析常用主成分法求解。主成分分析单独应用有其独到之处,如应用于综合评价与主成分回归时非常实用、科学。1/9/202366医学统计学(2)两者之间有密切的关系1/8/202366医学统计学讲课内容:第一节主成分分析第二节因子分析1/9/202367医学统计学讲课内容:1/8/202367医学统计学Thankyou!1/9/202368医学统计学Thankyou!1/8/202368医学统计学主成分分析与因子分析

PrincipalComponentsAnalysis&FactorAnalysis第二军医大学卫生统计学教研室张罗漫第20章1/9/202369医学统计学主成分分析PrincipalComponent讲课内容:第一节主成分分析第二节因子分析1/9/202370医学统计学讲课内容:1/8/20232医学统计学第一节主成分分析PrincipalComponentsAnalysis1/9/202371医学统计学第一节1/8/20233医学统计学一、基本思想数据的降维、数据的解释将原来众多具有一定相关性的指标,组合成一组新的相互无关的综合指标。

从中选取几个较少的综合指标尽可能多的反映原来众多指标的信息。这种既减少了指标的数目又抓住了主要矛盾的做法有利于问题的分析和处理。1/9/202372医学统计学一、基本思想1/8/20234医学统计学1/9/202373医学统计学1/8/20235医学统计学

如何利用这些指标对每一儿童的生长发育作出正确评价?仅用单一指标:结论片面;没有充分利用原有数据信息。利用所有指标:各指标评价的结论可能不一致,使综合评价困难;工作量大。1/9/202374医学统计学如何利用这些指标对每一儿童的生长发育1/8/20236医找出几个综合指标(长度、围度、特体),这些综合指标是原始指标的线性组合,既保留了原始指标的信息,且互不相关。各综合指标提供的“信息”量大小用其方差来衡量。衡量一个指标的好坏除了正确性与精确性外,还必须能充分反映个体间的变异,一项指标在个体间的变异越大,提供的信息量越多。1/9/202375医学统计学1/8/20237医学统计学二、数学模型及几何意义1/9/202376医学统计学二、数学模型及几何意义1/8/20238医学统计学Z=AX1/9/202377医学统计学Z=AX1/8/20239医学统计学第一主成分在所有Zi中最大1/9/202378医学统计学第一主成分在所有Zi中最大1/8/202310医学统计学第二主成分……理论上主成分个数最多为m个(指标个数)实际工作中确定的主成分个数总是小于m个在所有Zi中为第2大。

无关,互相垂直:1/9/202379医学统计学第二主成分……在所有Zi中为第2大。无关,互相垂直:1/8X1X2112-2-2-1-120相关变异1/9/202380医学统计学X1X2112-2-2-1-120相关1/8/202312医X1X2Z1Z2112-2-2-2-211-1-1-1-122201/9/202381医学统计学X1X2Z1Z2112-2-2-2-211-1-1-1-12Z1Z2-2-211-1-1220相关变异1/9/202382医学统计学Z1Z2-2-211-1-1220相关1/8/202314医三、主成分的求法及性质1/9/202383医学统计学三、主成分的求法及性质1/8/202315医学统计学(一)主成分的求法1.对各原始指标值进行标准化为了方便,仍用Xij表示Xij’。1/9/202384医学统计学(一)主成分的求法为了方便,仍用Xij表示Xij’。1/8/标准化后的数据矩阵X=1/9/202385医学统计学标准化后的数据矩阵X=1/8/202317医学统计学2.求出X1,X2,…,Xm

的相关矩阵RR=Cov(X)

=1/9/202386医学统计学2.求出X1,X2,…,Xm的相关矩阵RR=Pearson相关系数

标准化后的协方差协方差1/9/202387医学统计学Pearson相关系数标准化后的协方差协方差1/8/3.求出矩阵R的全部特征值(eigenvalue)i,第i个主成分的组合系数ai1,ai2,,aim满足方程组:(r11-i)ai1+r12ai2++r1maim=0

r21ai1+(r22-i)ai2++r2maim=0

rm1

ai1+rm2ai2++(rmm-i)aim=0

1/9/202388医学统计学3.求出矩阵R的全部特征值(eigenvalue)i,(r11-i)ai1+r12ai2++r1maim=0

r21ai1+(r22-i)ai2++r2maim=0

rm1

ai1+rm2ai2++(rmm-i)aim=0

i为矩阵R的第i个特征值,共有m个非负特征值,由大到小的顺序排列为:1≥2≥≥m≥0i=Var(Zi)1/9/202389医学统计学(r11-i)ai1+r12ai2+4.由以上方程组,求出相应于特征值i的特征向量(eigenvector)(ai1,ai2,,aim)’1/9/202390医学统计学4.由以上方程组,求出相应于特征值i的1/8/202(二)主成分的性质

1.各主成分互不相关

1/9/202391医学统计学(二)主成分的性质1/8/202323医学统计学2.主成分的贡献率与累积贡献率(原始指标值标准化)(指标个数)贡献率累积贡献率1/9/202392医学统计学2.主成分的贡献率与累积贡献率(指标个数)贡献率累积贡献率13.主成分个数的选取(1)前k个主成分的累积贡献率>70%。(2)主成分Zi的特征值i≥

1。4.因子载荷(第i主成分Zi与第j原始指标Xi间相关系数)

1/9/202393医学统计学3.主成分个数的选取4.因子载荷1/8/202325医学统计5.样品的主成分得分1/9/202394医学统计学5.样品的主成分得分1/8/202326医学统计学四、实例1/9/202395医学统计学四、实例1/8/202327医学统计学1/9/202396医学统计学1/8/202328医学统计学1/9/202397医学统计学1/8/202329医学统计学1/9/202398医学统计学1/8/202330医学统计学

1.主成分个数的选取

3很接近于1;

3与2的贡献率相差不大,为25%左右,若舍去3不合理。取前三个主成分。1/9/202399医学统计学1.主成分个数的选取1/8/202331医学统计学2.列出主成分表达式Z1为急性炎症成分(X1转氨酶、X2肝大指数)Z2为慢性炎症成分(X3硫酸锌浊度)Z3为癌变成分(X4甲胎球蛋白)1/9/2023100医学统计学2.列出主成分表达式Z1为急性炎症成分(X1转氨酶、X2肝大3.求出因子载荷阵1/9/2023101医学统计学3.求出因子载荷阵1/8/202333医学统计学4.主成分得分1/9/2023102医学统计学4.主成分得分1/8/202334医学统计学标准化指标主成分还原为原始指标主成分1/9/2023103医学统计学标准化指标主成分还原为原始指标主成分1/8/202335医学将该肝病患者的四项肝功能指标代入原始指标主成分表达式:

Z1=2.50865Z2=-1.06626Z3=-1.22943该肝病患者可能为急性炎症。1/9/2023104医学统计学将该肝病患者的四项肝功能指标代入1/8/202336医学统五、主成分分析的应用

1.对原始指标进行综合以互不相关的较少个综合指标反应众多原始指标提供的信息。

主成分回归(解决多元共线问题)。

2.进行综合评价

1/9/2023105医学统计学五、主成分分析的应用2.进行综合评价1/8/2023373.进行探索性分析利用因子载荷阵,找出影响各综合指标的主要原始指标。

4.对样品进行分类利用主成分得分对样品进行分类:

Z1为急性炎症成分

Z2为慢性炎症成分Z3为癌变成分1/9/2023106医学统计学3.进行探索性分析1/8/202338医学统计学第二节因子分析FactorAnalysis1/9/2023107医学统计学第二节1/8/202339医学统计学一、因子分析基本思想从分析多个可观测的原始指标的相关关系入手,找到支配这种相关关系的有限个不可观测的潜在变量。是多元分析中处理降维的一种统计方法。如:脑部疾病患者的意识清醒状态可由语言能力、辩识能力、记忆能力、理解能力与思维逻辑能力等可观测的指标反映。1/9/2023108医学统计学一、因子分析基本思想如:脑部疾病患者的意识清醒状态可由语言能二、因子分析数学模型

X1:收缩压X2:舒张压X3:心跳间隔X4:呼吸间隔X5:舌下温度F1:交感神经F2:副交感神经

commonfactor1/9/2023109医学统计学二、因子分析数学模型X1:收缩压F1:交感

specificfactor

commonfactor1/9/2023110医学统计学specificfactorcommonfactorXi:观测指标(标准化数据)Fi:公因子ei:特殊因子aij:因子载荷(计算关键项)1/9/2023111医学统计学Xi:观测指标(标准化数据)1/8/202343医学统计X=AF+e1/9/2023112医学统计学X=AF+e1/8/202344医学统计学1/9/2023113医学统计学1/8/202345医学统计学1/9/2023114医学统计学1/8/202346医学统计学三、因子模型的性质

矩阵A的统计意义1.公共度(共性方差)1/9/2023115医学统计学三、因子模型的性质1/8/202347医学统计学因子的共性方差1/9/2023116医学统计学因子的共性方差1/8/202348医学统计学2.因子贡献与因子贡献率矩阵A第j列元素反映了第j个公因子Fj对所有原始指标的影响;数据标准化后全部原始指标的总方差为指标个数m。Fj对原始指标的方差贡献率1/9/2023117医学统计学2.因子贡献与因子贡献率Fj对原始指标的方差贡献率1/8/2各因子的贡献1/9/2023118医学统计学各因子的贡献1/8/202350医学统计学3.因子载荷及因子载荷阵A1/9/2023119医学统计学3.因子载荷及因子载荷阵A1/8/202351医学统计学四、因子载荷阵的求解及计算步骤

1.收集原始数据并整理为下表1/9/2023120医学统计学四、因子载荷阵的求解及计算步骤1/8/202352医学统计学2.对各指标进行标准化3.求指标间的相关系数矩阵RX4.求指标间的约相关系数矩阵R*

(1)R*的非对角线元素与相关矩阵RX的非对角线元素相等

(2)R*的对角线元素为共性方差1/9/2023121医学统计学2.对各指标进行标准化1/8/202353医学统计学5.求出约关系数矩阵R*所有大于零的特征值及相应的特征向量6.写出因子载荷阵A,得出原始指标X的公因子表达式1/9/2023122医学统计学5.求出约关系数矩阵R*所有大于零的特1/

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论