主成分分析PCA课件_第1页
主成分分析PCA课件_第2页
主成分分析PCA课件_第3页
主成分分析PCA课件_第4页
主成分分析PCA课件_第5页
已阅读5页,还剩37页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

主成分分析法(PCA)XX大学论文主要内容第一部分主成分分析方法的基本思想第三部分应用实例第二部分计算步骤第四部分应用改进主成分分析PrincipalComponentAnalysis基本思想找出数据里最主要的方面,用数据里最主要的方面来代替原始数据。n=2,n'=1,也就是将数据从二维降维到一维到某一个维度方向,它可以代表这两个维度的数据两个向量方向,u1和u2,哪个向量可以更好的代表原始数据集?基本思想人们在对某一事物进行实证研究中,为了更全面、准确地反映出事物的特征及其发展规律,通常会考虑尽可能多的指标,以避免遗漏重要的信息但过多的指标,会给研究带来一定困难,并且众多的指标之间可能存在一定的相关性,这样就造成了信息的重叠,给研究结果带来影响例如:衡量一个地区经济发展水平的指标有:人均GDP、第三产业比重、固定资产投入、城市化率、人均寿命、新生儿死亡率、绿地覆盖率、识字率、人均能源消费、基尼系数....基本思想基于上述问题,人们就希望在定量研究中涉及的变量较少,而得到的信息量又较多。主成分分析正是研究如何把原来多个变量转化为少数几个综合指标的一种统计分析方法。主成分分析是由Hotelling于1933年首先提出的,它是利用降维的思想,把多指标转化为少数几个综合指标的多元统计分析方法。主成分能够反应原有变量的绝大部分信息主成分个数远远少于原有变量的个数主成分具有命名解释性这里添加标题主成分分析方法的特点主成分之间应该互不相关主成分分析原理√确定原始数据矩阵,假设每个样本有m个评价指标,共n个水样,构成n×m阶样本举证X√求R阵的特征值λ1>λ2>λ3>λ4…>λp及单位特征向量

ej(e1j,e2j,…,epj),每个主成分的方差就是所求得的特征值√首先将各变量xij进行标准化处理,对同一变量减去均值再除以标准差,从而排除数量级和量纲的差异√以标准化数据矩阵X=(xij)为基础,计算相关系数矩阵

R=(rjk)√选取主成分的个数取决于主成分的累计方差贡献率,通常选取累计贡献率大于85%以上等主成分√在主成分的表达式中分别带入各个待评价水样点的标准化数据,计算得样点的主成分得分Fj,各项得分即为水质分析的定量化描述计算步骤

文献——基于主成分分析法的安庆市土地生态安全评价研究运用实例表1地区土地生态安全评价相关关系矩阵1、取得某地区生态安全评价各区域单元的有关数据2、将其处理并进行协方差运算如下表所示运用实例表2安庆市土地生态安全评价指标特征值与贡献率3、由相关系数矩阵计算特征值,以及各个主成分的贡献率与累计贡献率。由右表可知,前3项贡献率依次为60.907%、12.963%、11.335%,其累计贡献率85.205%,大于85%,表示前3项主成分具有较高的可信度,能够基本涵盖全部数据的信息,故将前三项作为主成分分析因子运用实例表3安庆市土地生态安全评价因子对原始指标的荷载状况4、将选定特征值对应的特征向量与原始值进行内积得到荷载状况。分析可以得出三个主成分中各指标变量所占的权重,比如:在第一个主成分中,占比较大的是城市化水平、人均GDP、亏损规模企业占比和第三产业占比,说明这四个因素对主成分1的作用较显著,说明人口快速增长和城市化进程快速推进的同时,人类生产生活对资源的需求量变大,开发利用程度加深,无疑会给资源环境带来威胁和压力,一些企业高投入低产出的生产模式也是导致资源浪费重要原因之一文献——基于主成分分析法的洞庭湖水质评价

利用2016年洞庭湖9个断面12个月溶解氧、高锰酸盐指数、五日生化需氧量、氨氮、总磷、铜、氟化物、六价铬和石油类等10个水质监测指标的月均值作为计算数,对洞庭湖水质进行评价基于主成分分析法的洞庭湖水质评价从表2相关系数矩阵中可以看出,大部分相关系数大于0.3,可见许多变量之间直接的相关性比较强,证明它们之间存在信息上的重叠,则这些原始变量适合进行因子分析。其中六价铬与铜和砷之间也具有较强的相关性,相关系数分别达到0.985,0.88和0.863。高锰酸盐指数与五日生化需氧量及氨氮有很强的相关性,相关系数分别达到0.951,0.861和0.851。基于主成分分析法的洞庭湖水质评价根据主成分分析法中主成分个数选取原则,从表3可见特征值λ>1时有3个成分图2分析特征根衰减的突变,可以确定应提取3个主成分基于主成分分析法的洞庭湖水质评价表4主成分荷载值初始因子荷载矩阵计算,计算结果见表4。从表4中可知,铜、六价铬和砷在第一主成分上荷载较大,说明第一主成分基本反映了这些指标的信息。从湖区实际污染来源看湖区水质受工业废水污染最为严重。主成分荷载值计算,计算结果如表4所示。即初始因子荷载矩阵除以对应成分特征值的平方根。基于主成分分析法的洞庭湖水质评价湘潭监测断面的第一主成分得分值远高于其他断面,说明该断面受工业废水污染相对较严重藕池口监测断面的第二主成分得分值最高,表明该断面高锰酸盐指数、氨氮等有机物浓度较高,主要受生活污水未经处理散排影响鹿角沱和城陵矶监测断面的第三主成分得分值相对较高,表明这2个监测断面水质污染主要由农业面源污染导致磷偏高引起基于主成分分析法的洞庭湖水质评价总结本文运用主成分分析法对洞庭湖2016年水质进行了评价,从原始10个水质数据中提取占总方差的88%的3个主成分反映洞庭湖区水体的污染程度,经过分析识别得到的3个主成分因子:六价铬、铜和砷;高锰酸盐指数、五日生化需氧量和氨氮;总磷。该结论与与洞庭湖区实际污染来源基本吻合,表明主成分分析是一种有效的水质评价方法。文献——基于主成分分析的德阳市平原区地下水质量评价实验概述

假定已知

n个待评价水体样点,每个水样点有x1,x2,x3…,xm共

m污染指标变量,在构造地下水质质量评价的主成分时,首先是研究这m个污染指标变量的相关性,再构造y1,y2,…,ym共m个不相关的综合指标,每一yi都由各原始指标xj

组成的线性组合表示,因此统计数据所反映的信息就不会重复,还能够把各单项指标的作用分离;再者,在上述m个综合指标中选取较少的p(p<m)个综合指标,原始指标所提供的绝大部分信息都能被这选中的p的指标表示出来,从而使系统得以简化。实例分析

本实验共收集79组水样,选取pH值、氯化物、氟化物、总碱度、总硬度、TDS、Na+、K+、Ca2+、Mg2+、HCO3-、硫酸盐、亚硝酸盐、硝酸盐、总铁(Fe)、锰(Mn)

16项指标作为参评指标表1特征值与累计贡献率

计算矩阵的特征值和特征值的累计贡献率可见前6项的方差贡献率达到了85%,表明前6项主成分基本上已经包含了原始指标所提供的绝大部分信息实例分析表2主成分的特征向量对于第一主成分其中最密切相关的是总硬度和TDS,相关系数分别为0.404、0.396第二主成分中贡献率最大的则是HCO3-、总碱度

第三主成分贡献率最大的是F-、pH的第四主成分Mn、Cl-指标贡献率最大第五主成分SO42-、K+指标贡献率最大第六主成分主要为Fe、Mn指标总结地下水质量评价是一个复杂多变的系统,不能只简单依靠单一指标来确定污染程度。本文采用的主成分分析法就是根据水质的污染情况,着重把地下水主要污染物进行类别分析,客观科学的确定权数。此次评价选择的16个评价指标存在一定的关联性,该方法的水环境质量分级标准还有待提高完善,导致计算所得的综合主成分分值表现出的只是地下水质量的一种相对关系。主成分分析方法注重遵循原始数据,尽量减少原始数据的损失,实际客观的确定权数,消除了指标选择时因人为而造成的差异,该评价方法科学严谨、体系完整,有较高的可靠性贺密,贾杰,张敏.主成分分析法在地下水质量评价中的应用[J].地下水,2015,37(06):6-8.文献——不同产地黄芫花中的5种有害元素测定及其无机元素的主成分分析和聚类分析实验方法03040501半定量分析、元素删选02线性关系考察一系列精密度、稳定性实验有害元素安全性分析主成分分析宏观元素:Mg、K、Ca毒性元素:Cu、As、Cd、Hg、Pb微量元素:Se、Zn、Cr、Mn、Ni精密度:RSD=0.55%~2.60%表明仪器的精密度良好重复性:RSD=

1.10%~4.20%表明方法的重复性良好稳定性:RSD=3.54%~4.85%,表明样品在制备后24h内稳定加样回收率:计算平均回收率在95.24%~101.21%,RSD均<5.0%(n=6)有害元素是中药安全性分析的重要内容。本文对我国7个产地的黄芫花中的有害元素进行了测定,结果均未超过限度。线性关系考察以对照品质量浓度为横坐标,对照品峰强度为纵坐标,绘制标准曲线得各元素的回归方程,相关系数和线性范围。返回主成分分析采用SPSS22.0分析软件对数据进行标准化处理。右图描述了主成分分析初始解对原有变量总体描述的情况。总方差的92.996%贡献来自4个因子。由主成分因子载荷矩阵可知,第1个主因子与Fe高度正相关,与Cd负相关,与Mn,K相关;第2个主成分因子表明与Zn高度正相关,与Fe负相关,与Se,Cd,Hg相关。总方差的63.

874%来自第1和第2个主因子,所以可将Fe,Cd,Zn,Se,Mn,K作为黄芫花的特征元素。李宝霞,董双涛,马郑不同产地黄芫花中的5种有害元素测定及其无机元素的主成分分析和聚类分析[J].中国新药杂志,2019,28(22):2548-2552.文献——PCA方法分析道路旁表土中重金属的影响因素PCA方法分析道路旁表土中重金属的影响因素目的:分析评估不同交通情况及使用期限的道路对路边耕地表层土壤中Cd、Zn、Pb、Cu的分布的影响ArturSzwalec,etal.Monitoringandassessmentofcadmium,lead,zincandcopperconcentrationsinarableroadsidesoilsintermsofdifferenttrafficconditions[J].EnvironMonitAssess(2020)192:155.采用主成分分析法(PCA)对采样点土壤中重金属浓度相关的环境因子进行评价。采样点:分别距离公路边缘6、11、21、38、70和125米,对称分布在道路两旁Jędrzejów-Kielcesection(JK,已使用50年,平均交通量为每天2万辆)EasternJędrzejówRingroad(EJR,已使用10年,交通量为每日1.8万辆)NorthernJędrzejówRingRoad(NJR,已使用1年,日交通量1万辆)采样道路PCA方法分析道路旁表土中重金属的影响因素研究道路的重金属、pH值、泥沙、有机质含量情况ArturSzwalec,etal.Monitoringandassessmentofcadmium,lead,zincandcopperconcentrationsinarableroadsidesoilsintermsofdifferenttrafficconditions[J].EnvironMonitAssess(2020)192:155.PCA方法分析道路旁表土中重金属的影响因素ArturSzwalec,etal.Monitoringandassessmentofcadmium,lead,zincandcopperconcentrationsinarableroadsidesoilsintermsofdifferenttrafficconditions[J].EnvironMonitAssess(2020)192:155.第一个变量主要与距离公路边缘的距离有关。第二个变量与土壤污染程度和道路类型(由交通量和使用时间定义。)有关结果:主成分分析(PCA)表明,研究区域11个环境条件中,2个主要变量影响了相邻表土中重金属的分布PCA方法分析道路旁表土中重金属的影响因素ArturSzwalec,etal.Monitoringandassessmentofcadmium,lead,zincandcopperconcentrationsinarableroadsidesoilsintermsofdifferenttrafficconditions[J].EnvironMonitAssess(2020)192:155.第三个坐标轴描述了16%的差异,与土壤中Cu的含量呈正相关第四个坐标轴描述了7%的差异,与坐标轴AX2在交通量和使用时间上呈负相关第一个坐标轴描述了47%的环境特征差异,其主要与距离呈正相关,与土壤pH呈负相关第二个坐标轴描述了25%的差异,与以下因素正相关:土壤质量参数,包括重金属(Zn、Pb、Cd)含量、泥沙分数(粒径<0.02mm)、有机质含量,以及道路特征参数:交通量、使用时间。主成分分析结果表明,与道路的距离和道路类型(交通量和使用时间)是影响旁边土壤中重金属浓度分布的因素。PCA方法的改进PCA方法的改进问题:(1)PCA方法降维后,主成分的各个特征解释性有所降低,(2)未被选择的非主成分也可能含有对样本差异的重要信息陈燕,陈亚林,郑军.一种改进的基于PCA的数据预处理方法[J].电子技术应用,2020,46(01):96-99.改进将均值计算转变为加权规范平均值计算,完成中心化数据(充分考虑各变量特征值的统计性能,保证生成的协方差矩阵质量)

通过Rayleigh商和Cattell碎石检验原则选择更合理的特征值数目。(选择更合理的特征值数目,尽可能避免出现非主成分含有对样本差异的重要信息丢失)协方差矩阵质量特征值的选取数量改进措施PCA方法的改进PCA算法描述改进后的PCA算法描述陈燕,陈亚林,郑军.一种改进的基于PCA的数据预处理方法[J].电子技术应用,2020,46(01):96-99.PCA方法的改进陈燕,陈亚林,郑军.一种改进的基于PCA的数据预处理方法[J].电子技术应用,2020,46(01):96-99.分别用PCA方法和改进的PCA方法对水质参数进行分析,比较两种方法所得结果数据集为长江流域夹江扬州三江营点位南水北调东线取水口断面2018年52期水质自动监测数据。水质监测指标包括pH值、溶解氧DO、高锰酸钾指数CODMn、氨氮NH3-N、总磷TP、总氮TN和总有机碳TOC共7个变量实验原始数据如图1所示。PCA方法的改进陈燕,陈亚林,郑军.一种改进的基于PCA的数据预处理方法[J].电子技术应用,2020,46(01):96-99.数据中心化PCA方法:对每个特征变量求均值改进后的PCA方法:对每个特征变量设置权重,计算其加权规范平均值PCA方法的改进陈燕,陈亚林,郑军.一种改进的基于PCA的数据预处理方法[J].电子技术应用,2020,46(01):96-99.主成分选择根据计算Rayleigh商和Cattell碎石检验原则根据特征值对应选择第1、2、3和7个特征变量即可以表示数据集,数据集由346×7降为346×4但注意到变量TP没有被解释对应选择第1、2、3、4和

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论