




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
PrincipalComponentAnalysis题目:主成分分析PCA
预习内容(1)均值的概念和定义,期望用来表示什么?(2)方差的概念和定义,方差用来表示什么?(3)协方差和协方差矩阵的概念和定义,协方差的作用及意义?请大家掌握:方差的数学运算,期望的数学运算,协方差矩阵的数学运算,方阵的特征值与特征向量的求解方法1前言假定你是一个公司的财务经理,掌握了公司的所有数据,比如固定资产、流动资金、每一笔借贷的数额和期限、各种税费、工资支出、原料消耗、产值、利润、折旧、职工人数、职工的分工和教育程度等等。实例1实例2你必须要把各个方面作出高度概括,用一两个指标简单明了地把情况说清楚。
4
(1)如何作主成分分析?当分析中所选择的变量具有不同的量纲,变量水平差异很大,应该怎样选择?
在力求数据信息丢失最少的原则下,对高维的变量空间降维,即研究指标体系的少数几个线性组合,并且这几个线性组合所构成的综合指标将尽可能多地保留原来指标变异方面的信息。这些综合指标就称为主成分。要讨论的问题是:2.问题的提出5各个变量之间差异很大6
(2)如何选择几个主成分。主成分分析的目的是简化变量,一般情况下主成分的个数应该小于原始变量的个数。应该保留几个主成分才能最大化的代表原始信息?
7
美国的统计学家斯通(Stone)在1947年关于国民经济的研究是一项十分著名的工作。他曾利用美国1929一1938年各年的数据,得到了17个反映国民收入与支出的变量要素,例如雇主补贴、消费资料和生产资料、纯公共支出、净增库存、股息、利息、外贸平衡等等。在进行主成分分析后,竟以97.4%的精度,用三个新变量就取代了原17个变量。实例1:经济分析8实例2:成绩数据100个学生的数学、物理、化学、语文、历史、英语的成绩如下表(部分)。9从本例可能提出的问题目前的问题是,能不能把这个数据的6个变量用一两个综合变量来表示呢?这一两个综合变量包含有多少原来的信息呢?能不能利用找到的综合变量来对学生排序呢?10PCA多变量问题是经常会遇到的。变量太多,无疑会增加分析问题的难度与复杂性.在许多实际问题中,多个变量之间是具有一定的相关关系的。因此,能否在各个变量之间相关关系研究的基础上,用较少的新变量代替原来较多的变量,而且使这些较少的新变量尽可能多地保留原来较多的变量所反映的信息?事实上,这种想法是可以实现的.11
原理:
主成分分析就是试图在力保数据信息丢失最少的原则下,对这种多变量的数据表进行最佳综合简化,也就是说,对高维变量空间进行降维处理。很显然,识辨系统在一个低维空间要比在一个高维空间容易得多。
PCA的目标就是找到这样的“主元”(即问题中的主元成分),最大程度的除冗余和噪音的干扰。问题描述如何确定PCA方法中,到底应该取几个主成分?请查阅文献并举例回答。HowtodefinethenumberofthecomponentsinPCA?Pleasefindthesolutionfromliterature.13
先假定数据只有二维,即只有两个变量,它们由横坐标和纵坐标所代表;因此每个观测值都有相应于这两个坐标轴的两个坐标值;如果这些数据形成一个椭圆形状的点阵(这在变量的二维正态的假定下是可能的).14•••••••••••••••••••••••••••••••••••••主成分分析的几何解释平移、旋转坐标轴15•••••••••••••••••••••••••••••••••••••主成分分析的几何解释平移、旋转坐标轴•16••••••••••••••••••••••••••••••••••••主成分分析的几何解释平移、旋转坐标轴•17•••••••••••••••••••••••••••••••••••••主成分分析的几何解释平移、旋转坐标轴•••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••18
椭圆有一个长轴和一个短轴。在短轴方向上,数据变化很少;在极端的情况,短轴如果退化成一点,那只有在长轴的方向才能够解释这些点的变化了;这样,由二维到一维的降维就自然完成了。19二维数据20进一步解释PCA当坐标轴和椭圆的长短轴平行,那么代表长轴的变量就描述了数据的主要变化,而代表短轴的变量就描述了数据的次要变化。但是,坐标轴通常并不和椭圆的长短轴平行。因此,需要寻找椭圆的长短轴,并进行变换,使得新变量和椭圆的长短轴平行。如果长轴变量代表了数据包含的大部分信息,就用该变量代替原先的两个变量(舍去次要的一维),降维就完成了。椭圆(球)的长短轴相差得越大,降维也越有道理。主要内容一、主成分的定义及导出二、主成分的几何意义三、主成分的性质和例子一、主成分的定义及导出设为一个维随机向量,,。考虑如下的线性变换希望在约束条件下寻求向量,使得达到最大,就称为第一主成分。设为的特征值,为相应的单位特征向量,且相互正交。则可求得第一主成分为它的方差具有最大值。?最大化方差法:
如果第一主成分所含信息不够多,还不足以代表原始的个变量,则需考虑再使用一个综合变量,为使所含的信息与不重叠,应要求
我们在此条件和约束条件下寻求向量,使得达到最大,所求的称为第二主成分。求得的第二主成分为
其方差为。 一般来说,的第主成分是指:在约束条件和下寻求,使得达到最大。第主成分为二、主成分的几何意义在几何上,表明了第主成分的方向,是在上的投影值(即投影长度),是这些值的方差,它反映了在上投影点的分散程度。记,则主成分向量与原始向量有如下关系:
该正交变换的几何意义是将中由构成的原维坐标轴作一正交旋转,一组正交单位向量表明了个新坐标轴的方向,这些新坐标轴彼此仍保持正交(或说垂直)。26三、主成分的性质一、两个线性代数的结论
1、若A是p阶实对称阵,则一定可以找到正交阵U,使其中是A的特征根。272、若上述矩阵的特征根所对应的单位特征向量为
则实对称阵属于不同特征根所对应的特征向量是正交的,即有令283、均值4、方差为所有特征根之和
说明主成分分析把P个随机变量的总方差分解成为P个不相关的随机变量的方差之和。
协方差矩阵的对角线上的元素之和等于特征根之和。?主成分选择总方差中属于第主成分(或被所解释)的比例为
称为主成分的贡献率。第一主成分的贡献率最大,表明它解释原始变量的能力最强,而的解释能力依次递减。主成分分析的目的就是为了减少变量的个数,因而一般是不会使用所有个主成分的,忽略一些带有较小方差的主成分将不会给总方差带来大的影响。前个主成分的贡献率之和
称为主成分的累计贡献率,它表明解释的能力。通常取(相对于)较小的,使得累计贡献达到一个较高的百分比(如80%~90%)。此时,可用来代替,从而达到降维的目的,而信息的损失却不多。主成分的性质和例子34主成分分析的步骤
第一步:由X的协方差阵Σx,求出其特征根,即解方程,可得特征根。一、基于协方差矩阵35
第二步:求出分别所对应的特征向量U1,U2,…,Up,第三步:计算累积贡献率,给出恰当的主成分个数。第四步:计算所选出的k个主成分的得分。将原始数据的中心化值:
代入前k个主成分的表达式,分别计算出各单位k个主成分的得分,并按得分值的大小排队。课堂作业:实例参数该实例符合三维高斯分布,具体参数如下:均值向量:μ=[0,5,2]T协方差矩阵:PCA实例
软木塞数据集37作业(1)给定Rock数据,请使用PCA方法,找出类marble和granite的主成分特征集合。线性判别分析(LDA)LinearDiscriminantAnalysis引入主要内容一、LDA介绍二、LDA基本思想三、LDA目标四、LDA与PCA区别五、LDA的公式推导六、LDA实例介绍
线性判别分析(Linear
Discriminant
Analysis,
LDA),也叫做Fisher线性判别(Fisher
Linear
Discriminant
,FLD),是模式识别的经典算法,1936年由RonaldFisher首次提出,并在1996年由Belhumeur引入模式识别和人工智能领域。基本思想
线性判别分析的基本思想是将高维的模式样本投影到最佳鉴别矢量空间,以达到抽取分类信息和压缩特征空间维数的效果。投影后保证模式样本在新的子空间有最大的类间距离和最小的类内距离,即模式在该空间中有最佳的可分离性。因此,它是一种有效的特征抽取方法。使用这种方法能够使投影后模式样本的类间散布矩阵最大,并且同时类内散布矩阵最小。可以看到两个类别,一个绿色类别,一个红色类别。左图是两个类别的原始数据,现在要求将数据从二维降维到一维。直接投影到x1轴或者x2轴,不同类别之间会有重复,导致分类效果下降。右图映射到的直线就是用LDA方法计算得到的,可以看到,红色类别和绿色类别在映射之后之间的距离是最大的,而且每个类别内部点的离散程度是最小的(或者说聚集程度是最大的)。LDA的目标:LDA的目标:我们分类的目标是,使得类别内的点距离越近越好(集中),类别间的点越远越好。LDA与PCA区别:LDA与PCA(主成分分析)都是常用的降维技术。PCA主要是从特征的协方差角度,去找到比较好的投影方式。LDA更多的是考虑了标注,即希望投影后不同类别之间数据点的距离更大,同一类别的数据点更紧凑。二分类LDA推导上式实际上就是一种投影,是将一个高维的点投影到一条高维的直线上,LDA最求的目标是,给出一个标注了类别的数据集,投影到了一条直线之后,能够使得点尽量的按类别区分开,当k=2即二分类问题的时候,如下图所示:红色的方形的点为0类的原始点、蓝色的方形点为1类的原始点,经过原点的那条线就是投影的直线,从图上可以清楚的看到,红色的点和蓝色的点被原点明显的分开了,这个数据只是随便画的,如果在高维的情况下,看起来会更好一点。下面我来推导一下二分类LDA问题的公式:首先给定特征为d维的N个样例,
其中有
个样例属于类别
,另外
个样例属于类别
。现在我们觉得原始特征数太多,想将d维特征降到只有一维,而又要保证类别能够“清晰”地反映在低维数据上,也就是这一维就能决定每个样例的类别。
假设这个最佳映射向量为w(d维),那么样例x(d维)到w上的投影可以表示为二分类LDA推导假设用来区分二分类的直线(投影函数)为:
LDA分类的一个目标是使得不同类别之间的距离越远越好,同一类别之中的距离越近越好,所以我们需要定义几个关键的值:二分类LDA推导类别i的原始中心点(均值)为:类别i投影后的中心点为:
我们首先发现,能够使投影后的两类样本均值点尽量间隔较远的就可能是最佳的,定量表示就是:二分类LDA推导J(w)越大越好。但是只考虑J(w)行不行呢?
样本点均匀分布在椭圆里,投影到横轴x1上时能够获得更大的中心点间距J(w),但是由于有重叠,x1不能分离样本点。投影到纵轴x2上,虽然J(w)较小,但是能够分离样本点。因此我们还需要考虑样本点之间的方差,方差越大,样本点越难以分离。我们使用另外一个度量值——散列值(Scatter)。二分类LDA推导对投影后的类求散列值,如下:从公式中可以看出,只是少除以样本数量的方差值,散列值的几何意义是样本点的密集程度,值越大,越分散,反之,越集中。而我们想要的投影后的样本点的样子是:不同类别的样本点越分开越好,同类的越聚集越好,也就是均值点间距离越大越好,散列值越小越好。正好,我们可以使用J(w)和S(w)来度量。定义最终的度量公式:衡量类别i投影后,类别点之间的分散程度(方差)分子为两个类别各自的中心点的距离的平方二分类LDA推导定义
该协方差矩阵称为散列矩阵(Scattermatrices)。利用该定义,上式可简写为:类内离散度矩阵即:二分类LDA推导展开分子:
那么J(w)最终可以化简表示为:
分母表示每一个类别内的方差之和,方差越大表示一个类别内的点越分散,分子为两个类别各自的中心点的距离的平方,我们最大化J(w)就可以求出最优的w二分类LDA推导
在我们求导之前,需要对分母进行归一化,因为不做归一的话,w扩大任何倍,都成立,我们就无法确定w。这里w并不是唯一的,倘若w对应J(w)的极大值点,则a*w仍旧可以达到J(w)的极大值点。即目标函数J(w)化简为等于其分子部分,且受约束。加入拉格朗日乘子并求导得到:二分类LDA推导利用矩阵微积分,求导时可以简单地把
当做
看待。如果
可逆(非奇异),那么将求导后的结果两边都乘以
,得
二分类LDA推导LDA多分类问题对于N(N>2)分类的问题,就可以直接写出以下的结论:这同样是一个求特征值的问题,求出的第i大的特征向量,即为对应的Wi。Fisher线性判别方法(Fisherlineardiscriminantanalysis,简称FLD)使投影后的模式样本的类间散布矩阵最大而类内散布矩阵最小,也就是说,投影后保证模式样本在新的空间中有最大的类间距离和最小的类内距离,即模式在该空间中有最佳的可分离性.LDA的应用A=作业
给出的Rock数据中区别花岗岩granite、闪长岩diorite和大理石marble的属性有18种,三类样本的数据共有92个,其中花岗岩类1有31个样本,大理石类2有51个样本,闪长岩类3有10个样本。请参考课件中的方法,用LDA解决Rock数据的3分类问题。谢谢!附录资料:不需要的可以自行删除防晒霜生产工艺配方油相
A
硬脂酸5%十八醇2.5%棕榈酸异丙酯1.5%凡士林5%防腐剂适量B石蜡油6%硅油Gy-2603.5%防晒剂POS-21%VE适量ME-40适量水相A钛白粉3.5%丙二醇3%B三乙醇胺1%二氧化钛其透过率小于氧化锌。对紫外线有散射作用,能减小紫外线对人体皮肤的幅射。覆盖力优良,增白皮肤。但涂抹性与透气性均差。加入量大于等于5%时,增白色泽不自然,固选用百分3.5。丙二醇丙二醇在化妆品中作湿润剂、保湿剂。三乙醇胺三乙醇胺在化妆品中还具有中和剂的作用,从而达到增稠和保湿的作用。硬脂酸
硬脂酸用于护肤品中起乳化作用,从而使其变成稳定洁白的膏体。十八醇化妆品中作为基质原料中的乳化剂、增稠剂应用棕榈酸异丙酯具有优良的保湿和滋润皮肤作用。皮肤对本品的吸收性很好,能在皮层内与毛囊有
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2019-2025年消防设施操作员之消防设备高级技能题库练习试卷B卷附答案
- 2025年度主管护师考试专项复习试题库50题及答案(四)
- 生物荧光知识培训课件
- 纪录片美丽的自然教学教案设计
- 工厂生产线产量进度表
- 解决方案推广计划
- 西游记唐僧取经之旅解读
- 企业内部信息安全技术保障服务合同
- 小红帽新编故事读后感
- 技术创新成果统计表
- 临时工雇佣合同范本2025年度
- (二调)武汉市2025届高中毕业生二月调研考试 地理试卷
- “艾梅乙”感染者消除医疗歧视制度-
- 2024-2025学年八年级地理下册第七章《南方地区》检测卷(人教版)
- 森林防火知识
- 2025年黑龙江林业职业技术学院单招职业适应性测试题库带答案
- 第二单元第1课《精彩瞬间》第2课时 课件-七年级美术下册(人教版2024)
- 2025年公共营养师三级理论试题及答案
- 煤矿防治水安全质量标准化评分表
- 小学语文常见的说明方法(四年级下册第二单元)
- 静设备安装课件(PPT 91页)
评论
0/150
提交评论