主成分分析讲解课件_第1页
主成分分析讲解课件_第2页
主成分分析讲解课件_第3页
主成分分析讲解课件_第4页
主成分分析讲解课件_第5页
已阅读5页,还剩81页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

主成分分析PrincipalComponentAnalysis11/21/20221Dept.ofEpidemio&Biostat,SPH主成分分析PrincipalComponentAnaly统计学研究的核心问题?没有变异就没有统计学变异VARIATION变异性的度量?方差Variance11/21/20222Dept.ofEpidemio&Biostat,SPH统计学研究的核心问题?没有变异就没有统计学变异变异性方差是什么?方差是信息多元世界的信息度量多元世界的每个变量的包含信息不同在单个变量方差不变的情况下,各变量相关性越高,则总信息量越小11/21/20223Dept.ofEpidemio&Biostat,SPH方差是什么?方差是信息11/21/20223Dept.of11/21/20224Dept.ofEpidemio&Biostat,SPH11/21/20224Dept.ofEpidemio两组变量:AB11/21/20225Dept.ofEpidemio&Biostat,SPH两组变量:AB11/21/20225Dept.11/21/20226Dept.ofEpidemio&Biostat,SPH11/21/20226Dept.ofEpidemio11/21/20227Dept.ofEpidemio&Biostat,SPH11/21/20227Dept.ofEpidemio11/21/20228Dept.ofEpidemio&Biostat,SPH11/21/20228Dept.ofEpidemio协方差矩阵样本的方差-协方差矩阵(variance-covariancematrix)如果有p个观测变量,则样本的协方差矩阵记为11/21/20229Dept.ofEpidemio&Biostat,SPH协方差矩阵样本的方差-协方差矩阵(variance-cova相关矩阵如果有p个观测变量,其相关阵(correlationmatrix)记为11/21/202210Dept.ofEpidemio&Biostat,SPH相关矩阵如果有p个观测变量矩阵的特征值和特征向量对于方阵A,如存在常数λ及非零向量x,使Ax=λx则λ为A的一个特征值,x为与λ对应的矩阵A的特征向量。n介方阵有n对特征值和特征向量11/21/202211Dept.ofEpidemio&Biostat,SPH矩阵的特征值和特征向量对于方阵A,如存在常数λ及非零向量x,正交向量(阵)、单位向量正交向量:a=(a1,…,ap)’,b=(b1,…,bp)’

如果a’b=a1b1+…+apbp=0,则称a、b正交单位向量:向量a=(a1,…,ap)’,如果

则称a为单位向量正交阵:n阶方阵A,如果AA’=A’A=I,则称A为n阶正交阵,其中A的列向量(或行向量)为正交向量,A’=A-111/21/202212Dept.ofEpidemio&Biostat,SPH正交向量(阵)、单位向量正交向量:a=(a1,…,ap)’11/21/202213Dept.ofEpidemio&Biostat,SPH11/21/202213Dept.ofEpidemi11/21/202214Dept.ofEpidemio&Biostat,SPH11/21/202214Dept.ofEpidemi11/21/202215Dept.ofEpidemio&Biostat,SPH11/21/202215Dept.ofEpidemi11/21/202216Dept.ofEpidemio&Biostat,SPH11/21/202216Dept.ofEpidemi11/21/202217Dept.ofEpidemio&Biostat,SPH11/21/202217Dept.ofEpidemi主成分的概念1设x1,x2,…xp为p维随机变量X1,X2,…,Xp的标准化变换如果其线性组合满足则称C1为第一主成分。11/21/202218Dept.ofEpidemio&Biostat,SPH主成分的概念1设x1,x2,…xp为p维主成分的概念2若满足则称C2为第二主成分。类似地,共可得到至多p个主成分。11/21/202219Dept.ofEpidemio&Biostat,SPH主成分的概念2若11/21/202219Dept.o主成分的性质主成分C1,C2,…,Cp具有以下性质:(1)主成分间互不相关Corr(Ci,Cj)=0ij

(2)组合系数(ai1,ai2,…,aip)构成的向量为单位向量(3)各主成分的方差是依次递减的,

即Var(C1)≥Var(C2)≥…≥Var(Cp)(4)总方差不增不减,即Var(C1)+Var(C2)+…+Var(Cp)=Var(x1)+Var(x2)+…+Var(xp)=p

11/21/202220Dept.ofEpidemio&Biostat,SPH主成分的性质主成分C1,C2,…,Cp具有以下性质:1主成分的计算1设R为X1,X2,…,Xp的相关矩阵,则存在1≥2≥…≥p≥0,和正交矩阵A,使其中i为相关矩阵R的第i个特征值(eigenvalue)(ai1ai2…aip)’则是相关矩阵R的第i个特征值对应的特征向量。

i是第i个主成分的方差11/21/202221Dept.ofEpidemio&Biostat,SPH主成分的计算1设R为X1,X2,…,Xp主成分的计算2记主成分C=(C1C2…Cp)’,则C=A’x即11/21/202222Dept.ofEpidemio&Biostat,SPH主成分的计算2记主成分C=(C1C2…Cp主成分的计算3因子模型(全分量模型)表达形式x=AC即矩阵A称载荷矩阵,反映各主成分对原始变量x各分量的贡献大小。11/21/202223Dept.ofEpidemio&Biostat,SPH主成分的计算3因子模型(全分量模型)表达形式11主成分的计算4因子模型(全分量模型)表达--主成分标准化变换11/21/202224Dept.ofEpidemio&Biostat,SPH主成分的计算4因子模型(全分量模型)表达--11x=Lclij是xj和ci的相关系数SPSS输出的系数矩阵是L矩阵11/21/202225Dept.ofEpidemio&Biostat,SPHx=Lclij是xj和ci的相关系数11/21/202225实例

城市男生形态资料

数据来自方积乾《医学统计学与电脑试验》第2版

11/21/202226Dept.ofEpidemio&Biostat,SPH实例城市男生形态资料

数据来自方积乾《医学统计学与电脑试实例主成分分析结果—

特征值(方差)及其比例11/21/202227Dept.ofEpidemio&Biostat,SPH实例主成分分析结果—

特征值(方差)及其比例11/21/20主成分分析结果—L矩阵注意L矩阵的下标,是列在前,行在后11/21/202228Dept.ofEpidemio&Biostat,SPH主成分分析结果—L矩阵注意L矩阵的下标,是列在前,行在后11主成分分析结果—L矩阵注意L矩阵的下标,是列在前,行在后11/21/202229Dept.ofEpidemio&Biostat,SPH主成分分析结果—L矩阵注意L矩阵的下标,是列在前,行在后11主成分和原变量的关系观察L矩阵,由相关系数做出解释主成分未必一定有明确的解释选取有明确解释的主成分做综合指标,主成分得分就是“综合指数”。11/21/202230Dept.ofEpidemio&Biostat,SPH主成分和原变量的关系观察L矩阵,由相关系数做出解释11/21实例的标准化第一主成分得分11/21/202231Dept.ofEpidemio&Biostat,SPH实例的标准化第一主成分得分11/21/202231Dept.实例的标准化第一、二主成分得分11/21/202232Dept.ofEpidemio&Biostat,SPH实例的标准化第一、二主成分得分11/21/202232Dep主成分数目的保留—降维问题保留多少个主成分取决于保留部分的累积方差在方差总和中所占百分比,它标志着前几个主成分概括信息之多寡。实际上就是看特征值λ的大小保留多少主成分为宜主要根据实际问题和经验决定,并无严格统计规则。11/21/202233Dept.ofEpidemio&Biostat,SPH主成分数目的保留—降维问题保留多少个主成分取决于保留部分的累主成分分析的应用综合指标的抽取主成分回归解决自变量严重共线性问题主成分判别解决解释变量的共线性问题变量聚类中计算相似系数因子分析11/21/202234Dept.ofEpidemio&Biostat,SPH主成分分析的应用综合指标的抽取11/21/202234Dep例--主成分回归22例胎儿受精龄(Y,周)与胎儿外型测量指标:均数标准差身高(X1,cm)33.059.71头围(X2,cm)23.266.86体重(X3,g)936.9690.3试求由X1、X2、X3推算Y的回归方程11/21/202235Dept.ofEpidemio&Biostat,SPH例--主成分回归22例胎儿受精龄(Y,周)与胎儿外型测量指标例--主成分回归结果1直接做多重回归结果11/21/202236Dept.ofEpidemio&Biostat,SPH例--主成分回归结果1直接做多重回归结果11/21/20X1、X2、X3与Y的相关阵X1X2X3YX11X20.9981X30.9440.9471Y0.9520.9430.970111/21/202237Dept.ofEpidemio&Biostat,SPHX1、X2、X3与Y的相关阵X1X2X3YX11X20.99主成分分析结果

(表中上半部的系数矩阵是矩阵A)C1C2C3x10.58-0.420.70x20.58-0.39-0.71x30.570.820.02Var2.930.070.00%97.542.380.08累积%97.5499.9210011/21/202238Dept.ofEpidemio&Biostat,SPH主成分分析结果

(表中上半部的系数矩阵是矩阵A)C1C2C3主成分回归分析结果11/21/202239Dept.ofEpidemio&Biostat,SPH主成分回归分析结果11/21/202239Dept.of主成分回归分析结果附:本例岭回归分析结果11/21/202240Dept.ofEpidemio&Biostat,SPH主成分回归分析结果附:本例岭回归分析结果11/21/2022主成分分析应用实例—综合指标选取计算主成分的两种方法

如果各变量具有同等尺度对角化相关阵还是协方差阵?

从协方差阵计算主成分的一个特点:方差大的变量倾向在第一主成分上占有更大的比重(与从相关阵计算比较)。11/21/202241Dept.ofEpidemio&Biostat,SPH主成分分析应用实例—综合指标选取计算主成分的两种方法11/2广州市某年空气污染指标的主成分分析结果从相关阵计算从协方差阵计算C1C2C3C1’C2’C3’iNOx0.63-0.17-0.760.93-0.30-0.21iTSP0.510.820.250.290.95-0.06iSO20.58-0.550.600.210.000.97λ1.880.700.424349891350%62.723.413.977.815.96.311/21/202242Dept.ofEpidemio&Biostat,SPH广州市某年空气污染指标的主成分分析结果从相关阵计算从协方差阵广州市某2个月的空气污染指数11/21/202243Dept.ofEpidemio&Biostat,SPH广州市某2个月的空气污染指数11/21/202243Dept主成分分析PrincipalComponentAnalysis11/21/202244Dept.ofEpidemio&Biostat,SPH主成分分析PrincipalComponentAnaly统计学研究的核心问题?没有变异就没有统计学变异VARIATION变异性的度量?方差Variance11/21/202245Dept.ofEpidemio&Biostat,SPH统计学研究的核心问题?没有变异就没有统计学变异变异性方差是什么?方差是信息多元世界的信息度量多元世界的每个变量的包含信息不同在单个变量方差不变的情况下,各变量相关性越高,则总信息量越小11/21/202246Dept.ofEpidemio&Biostat,SPH方差是什么?方差是信息11/21/20223Dept.of11/21/202247Dept.ofEpidemio&Biostat,SPH11/21/20224Dept.ofEpidemio两组变量:AB11/21/202248Dept.ofEpidemio&Biostat,SPH两组变量:AB11/21/20225Dept.11/21/202249Dept.ofEpidemio&Biostat,SPH11/21/20226Dept.ofEpidemio11/21/202250Dept.ofEpidemio&Biostat,SPH11/21/20227Dept.ofEpidemio11/21/202251Dept.ofEpidemio&Biostat,SPH11/21/20228Dept.ofEpidemio协方差矩阵样本的方差-协方差矩阵(variance-covariancematrix)如果有p个观测变量,则样本的协方差矩阵记为11/21/202252Dept.ofEpidemio&Biostat,SPH协方差矩阵样本的方差-协方差矩阵(variance-cova相关矩阵如果有p个观测变量,其相关阵(correlationmatrix)记为11/21/202253Dept.ofEpidemio&Biostat,SPH相关矩阵如果有p个观测变量矩阵的特征值和特征向量对于方阵A,如存在常数λ及非零向量x,使Ax=λx则λ为A的一个特征值,x为与λ对应的矩阵A的特征向量。n介方阵有n对特征值和特征向量11/21/202254Dept.ofEpidemio&Biostat,SPH矩阵的特征值和特征向量对于方阵A,如存在常数λ及非零向量x,正交向量(阵)、单位向量正交向量:a=(a1,…,ap)’,b=(b1,…,bp)’

如果a’b=a1b1+…+apbp=0,则称a、b正交单位向量:向量a=(a1,…,ap)’,如果

则称a为单位向量正交阵:n阶方阵A,如果AA’=A’A=I,则称A为n阶正交阵,其中A的列向量(或行向量)为正交向量,A’=A-111/21/202255Dept.ofEpidemio&Biostat,SPH正交向量(阵)、单位向量正交向量:a=(a1,…,ap)’11/21/202256Dept.ofEpidemio&Biostat,SPH11/21/202213Dept.ofEpidemi11/21/202257Dept.ofEpidemio&Biostat,SPH11/21/202214Dept.ofEpidemi11/21/202258Dept.ofEpidemio&Biostat,SPH11/21/202215Dept.ofEpidemi11/21/202259Dept.ofEpidemio&Biostat,SPH11/21/202216Dept.ofEpidemi11/21/202260Dept.ofEpidemio&Biostat,SPH11/21/202217Dept.ofEpidemi主成分的概念1设x1,x2,…xp为p维随机变量X1,X2,…,Xp的标准化变换如果其线性组合满足则称C1为第一主成分。11/21/202261Dept.ofEpidemio&Biostat,SPH主成分的概念1设x1,x2,…xp为p维主成分的概念2若满足则称C2为第二主成分。类似地,共可得到至多p个主成分。11/21/202262Dept.ofEpidemio&Biostat,SPH主成分的概念2若11/21/202219Dept.o主成分的性质主成分C1,C2,…,Cp具有以下性质:(1)主成分间互不相关Corr(Ci,Cj)=0ij

(2)组合系数(ai1,ai2,…,aip)构成的向量为单位向量(3)各主成分的方差是依次递减的,

即Var(C1)≥Var(C2)≥…≥Var(Cp)(4)总方差不增不减,即Var(C1)+Var(C2)+…+Var(Cp)=Var(x1)+Var(x2)+…+Var(xp)=p

11/21/202263Dept.ofEpidemio&Biostat,SPH主成分的性质主成分C1,C2,…,Cp具有以下性质:1主成分的计算1设R为X1,X2,…,Xp的相关矩阵,则存在1≥2≥…≥p≥0,和正交矩阵A,使其中i为相关矩阵R的第i个特征值(eigenvalue)(ai1ai2…aip)’则是相关矩阵R的第i个特征值对应的特征向量。

i是第i个主成分的方差11/21/202264Dept.ofEpidemio&Biostat,SPH主成分的计算1设R为X1,X2,…,Xp主成分的计算2记主成分C=(C1C2…Cp)’,则C=A’x即11/21/202265Dept.ofEpidemio&Biostat,SPH主成分的计算2记主成分C=(C1C2…Cp主成分的计算3因子模型(全分量模型)表达形式x=AC即矩阵A称载荷矩阵,反映各主成分对原始变量x各分量的贡献大小。11/21/202266Dept.ofEpidemio&Biostat,SPH主成分的计算3因子模型(全分量模型)表达形式11主成分的计算4因子模型(全分量模型)表达--主成分标准化变换11/21/202267Dept.ofEpidemio&Biostat,SPH主成分的计算4因子模型(全分量模型)表达--11x=Lclij是xj和ci的相关系数SPSS输出的系数矩阵是L矩阵11/21/202268Dept.ofEpidemio&Biostat,SPHx=Lclij是xj和ci的相关系数11/21/202225实例

城市男生形态资料

数据来自方积乾《医学统计学与电脑试验》第2版

11/21/202269Dept.ofEpidemio&Biostat,SPH实例城市男生形态资料

数据来自方积乾《医学统计学与电脑试实例主成分分析结果—

特征值(方差)及其比例11/21/202270Dept.ofEpidemio&Biostat,SPH实例主成分分析结果—

特征值(方差)及其比例11/21/20主成分分析结果—L矩阵注意L矩阵的下标,是列在前,行在后11/21/202271Dept.ofEpidemio&Biostat,SPH主成分分析结果—L矩阵注意L矩阵的下标,是列在前,行在后11主成分分析结果—L矩阵注意L矩阵的下标,是列在前,行在后11/21/202272Dept.ofEpidemio&Biostat,SPH主成分分析结果—L矩阵注意L矩阵的下标,是列在前,行在后11主成分和原变量的关系观察L矩阵,由相关系数做出解释主成分未必一定有明确的解释选取有明确解释的主成分做综合指标,主成分得分就是“综合指数”。11/21/202273Dept.ofEpidemio&Biostat,SPH主成分和原变量的关系观察L矩阵,由相关系数做出解释11/21实例的标准化第一主成分得分11/21/202274Dept.ofEpidemio&Biostat,SPH实例的标准化第一主成分得分11/21/202231Dept.实例的标准化第一、二主成分得分11/21/202275Dept.ofEpidemio&Biostat,SPH实例的标准化第一、二主成分得分11/21/202232Dep主成分数目的保留—降维问题保留多少个主成分取决于保留部分的累积方差在方差总和中所占百分比,它标志着前几个主成分概括信息之多寡。实际上就是看特征值λ的大小保留多少主成分为宜主要根据实际问题和经验决定,并无严格统计规则。11/21/202276Dept.ofEpidemio&Biostat,SPH主成分数目的保留—降维问题保留多少个主成分取决于保留部分的累主成分分析的应用综合指标的抽取主成分回归解决自变量严重共线性问题主成分判别解决解释变量的共线性问题变量聚类中计算相似系数因子分析11/21/202277Dept.ofEpidemio&Biostat,SPH主成分分析的应用综合指标的抽取11/21/202234Dep例--主成分回归22例胎儿受精龄(Y,周)与胎儿外型测量指标:均数标准差身高(X1,cm)33.059.71头围(X2,cm)23.266.86体重(X3,g)936.9690.3试求由X1、X2、X3推算Y的回归方程11/21/202278Dept.ofEpidemio&Biostat,SPH例--主成分回归22例胎儿受精龄(Y,周)与胎儿外型测量指标例--主成分回归结果1直接做多重回归结果11/21/202279Dept.ofEpidemio&Biostat,SPH

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论