第六讲,主成分分析_第1页
第六讲,主成分分析_第2页
第六讲,主成分分析_第3页
第六讲,主成分分析_第4页
第六讲,主成分分析_第5页
已阅读5页,还剩30页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

主成分分析(PrincipalComponentAnalysisPCA)1主成分分析主成分分析主成分分析是对多变量数据进行统计处理的一种数据线性投影方法,它在尽可能保留原有信息的基础上将高维空间中的样本映射到较低维的主成分空间。其基本思路是以一种最优化方法浓缩量测数据信息,使数据矩阵简化,降低维数,寻找少数几个由原始变量线性组合的主成分,以揭示数据结构特征,提取基本信息。该法具有变差最优性、信息损失最小性、相关最优性、回归最优性等特点。2主成分分析主成分分析的概念主成分分析的中心目的是将数据降维,以排除众多化学信息共相存相互重叠的信息。它是将原变量进行转换,使少数几个新变量是原变量的线性组合,同时,这些变量要尽可能多地表征原变量的数据结构特征而不丢失信息,新变量互不相关,即正交。文献中有许多种叫法:本征矢量投影、奇异值分解、karhunenloeve展开、和K-L投影3主成分分析主成分分析的基本原理在二维空间有一组测试点(y1i,y2i)(i=1,2,…,n),如下图,这组数据在二维平面上分布大致为椭圆形,若似将二维降为一维,实际上就是将二维空间上的点投影到一维空间中的一条线上。4主成分分析主成分分析的基本原理Y1Y2Y1Y2μ11O1‘μ25主成分分析主成分分析的基本原理在一维空间中的这条线必须包含原数据的最大方差。更准确些说,沿着这条线,使方差达到最大,其它方向使方差达到最小。从代数学的观点看,这些点的分布可以表达成它们到其重心O距离之平方加和:S2=|O1|2+|O2|2+…+|O6|26主成分分析主成分分析的基本原理现在引入一直线L,6个数据点在L上的投影分别为1`,2`,…,6`,那么有:|Oi|2=|Oi`|2+|ii`|2S2=|O1`|2+|O2`|2+…+|O6`|2+|11`|2+|22`|2+…+|66`|2第一部分即为沿直线方向的方差,必须使之达到最大;第二部分即为沿其它方向的方差,必须达到最小。为实现上述思想,选定的第一个新变量μ1(主成分1)应沿直线L方向,因为它可以表征最大的偏差量。第二个新变量μ2(主成分2)应与第一个新变量正交,即不相关。7主成分分析m维空间中的主成分分析在m维空间中,新变量μ1,μ2,…,μm表达为8主成分分析其系数矩阵为新变量μ和老变量x的列矢量分别为矩阵形式为:μ=VX9主成分分析m维空间中的主成分分析方差最大化等效于RxV=λVRx为数据矩阵的协方差矩阵,V为Rx的特征向量,λ为Rx的特征值。第一个主成分μ1对应于第一个最大的特征值和第一个特征向量,第二个主成分μ2对应于第二个最大的特征值和第二个特征向量。10主成分分析主成分的选取在m维空间中,可得m个主成分。在实际应用中一般可取前几个对偏差量贡献大的主成分,这样可使高维空间的数据降到低维如二维或三维空间。取前P个主成分的依据为:比率(%)11主成分分析注意事项当数据的来源不一,不同变量间数据差异较大或量纲不同时,应作标准化处理。标准化处理有以下方法:自动调整法(autoscaling):将变量与本列的均值之差被标准偏差来除。此时相当于应用相关矩阵RX来计算本征矢量和本征值:

RXV=λV12主成分分析注意事项归一化:对数据矩阵的列或整个矩阵进行归一化处理。用Matlab命令:normc(X)或norm(X)均值中心化:从每个变量中减去该列的平均值。值域调整法(rangescaling):13主成分分析数字实例试样测定值测定值标准化值(自动调节法)样品号y1y2y314826172442015340248438181053291262862272658824412样品号y1y2y311.4751.3350.83121.0210.6670.41630.5671.112-1.03940.3400.445-0.6245-0.340-0.556-0.2086-0.794-0.8901.8717-1.021-1.001-1.0398-1.248-1.112-0.20814主成分分析本征值及本征矢量的计算数据矩阵Cx=协方差矩阵Z=CxT×CxZ=15主成分分析本征值及本征矢量的计算通过协方差矩阵计算特征向量和特征值用Matlab的函数:[V,D]=eig(Z)本征矢量矩阵

V=本征值矩阵

D=16主成分分析主成分的选择从最大的本征值开始加和,使比率大于80%即:选择主成分1和主成分2比率(%)比率(%)17主成分分析新变量方程μ1=-0.7082C1-0.7046C2-0.0454C3

μ2=0.0465C1-0.1107C2+0.9928C3通过上述变换,将C1、C2、C3三维空间的各点,变为二维空间的点。18主成分分析不同采收期连翘的HPLC指纹图谱研究将22批连翘色谱图采用Chromafinger色谱指纹图谱软件进行数据处理,以各月份代表性样品生成的共有模式。(11号峰为连翘脂苷,17号峰为连翘苷)19主成分分析不同采收期连翘主成分分析贡献率及累计贡献率从主成分分析的贡献率来看:PC1的贡献率最大为85.42%,PC2的贡献率次之为9.12%。其他的贡献率较小。从累积贡献率来看,取前2个特征值时,累积贡献率为94.54%,故取前2个为主成分。20主成分分析标准化特征向量PC1得分值是11、17和21号色谱峰峰面积值的综合作用。PC2得分值是11、18和21号色谱峰峰面积值的综合作用峰号主成分表达式21主成分分析样本在2个主成分的二维平面分布图综上所述,根据各样本PC1和PC2得分和相似度分析结果,进行综合评价,可以确定连翘在8月底至9月份采收为佳。7月份连翘各主要成分含量也很高,但此时是果实生长初期,10月份连翘大都已经成熟,表皮开始发黄,传统上采收入药为老翘。22主成分分析主成分分析法研究新疆产6种红景天中无机元素在其功效中的协同作用景天科红景天属多种药用植物,具有滋补强壮、抗衰老、抗病毒、抗肿瘤、抗心率失常、保护心脏、抗辐射等功效。新疆6种红景天微量元素含量(μg/g)23主成分分析主成分分析结果通过求变量的相关矩阵确定特征值和特征向量,根据特征值来确定主成分个数。经计算,当主成分数达到3时,累计解释率已达到80.133%,故取3个主成分即可。3个主成分所对应的特征值为λ1为3.26、λ2为1.735、λ3为1.416。24主成分分析3个主成分所对应的戴荷矩阵25主成分分析Z1得分及排名和解释研究表明,人体Ca、Mg2种元素的含量与心脑疾病的发生密切相关:陈丽霞等的研究指出Ca、Mg能降低胆固醇含量,从而起到预防冠心病的作用。地奥心血康中Ca、Mg含量较高,有利于治疗冠心病。胡雪梅等研究了治疗心血管疾病的8种中药的功效与微量元素的关系,结果表明这8种中药Ca、Mg含量较高。第一主成分主要由Ca、Mg2种元素的含量按一定比例线性组合而成。26主成分分析Z2得分及排名和解释王健等研究了368种中药表明,抗菌抗肿瘤药中富含K,说明K有抗肿瘤作用。有研究表明,Mg具有抗癌抑癌作用,Cu的铬合物具有抗炎抗癌作用。表明K、Cu、Mg3种元素协同作用,共同起到抗炎抗癌作用。第二主成分主要由K、Cu、Mg3种元絮含量线性组合而成。27主成分分析Z3得分及排名和解释益气补血类药中Zn、Cu、Mn、Fe含量较高,其益气补血的作用与Zn、Cu、Mn、Fe的生化功能有着必然的联系。锰能促进铜的利用。铜能加速铁的吸收和利用,铁、锰、铜有生血协同作用。这4种元素按照一定的比例协同作用,共同起到益气补血的作用。第三主成分主要由Zn、Cu、Mn、Fe4元素含量线性组合而成28主成分分析基于主成分分析的中药色谱指纹图谱多维多息特征数据挖掘方法研究选择10批次不同产地的当归色谱指纹图谱作为实验样本,指纹图谱见图1。将10批指纹峰号为S01~S10的当归指纹图谱导入“中药色谱指纹图谱多维多息特征参数分析系统”,输入试验条件,进样量为10μl、检测波长为254nm,有效分离度最小值1.5、相对指数时间常数50,自动计算当归的37个多维多息特征参数。29主成分分析10批当归指纹图谱30主成分分析特征根分析31主成分分析主成分载荷矩阵第1主成分:试验条件优化指标;第2主成分:指纹图谱信息参数;第3主成分:指纹成分含量参数;第4主成分:指纹成分含量比例参数32主成分分析综合主成分得分33主成分分析主成分分析运用(1)降维(或称数据压缩),寻找几个主成分(也称潜变量)在低维空间表示高维数据;(2)数据的可视化和分类聚类,主成分的投影显示法即可用于分类判别又可用于聚类,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论