降维和特征选择_第1页
降维和特征选择_第2页
降维和特征选择_第3页
降维和特征选择_第4页
降维和特征选择_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据降维和特征选择的区别数据降维,一般说的是维数约简(Dimensionalityreduction)。它的思路是:将原始高维特征空间里的点向一个低维空间投影,新的空间维度低于原特征空间,所以维数减少了。在这个过程中,特征发生了根本性的变化,原始的特征消失了(虽然新的特征也保持了原特征的一些性质)。特征选择,是从n个特征中选择d(d<n)个出来,而其它的n-d个特征舍弃。所以,新的特征只是原来特征的一个子集。没有被舍弃的d个特征没有发生任何变化。这是二者的主要区别。在大部分情况下特征选择都是在冗余变量较多的情况下使用,特征之间并不是正交的,甚至还存在冗余坐标(即用p个特征表达了k(k<p)维空间),因此删除部分冗余坐标并不会显著降维。另一方面,若原来的特征本身就是正交坐标系,那么删除多少特征就降了多少维,此时与降维类似,只是这种降维方式限定了只通过删除某几个坐标轴来实现。降维,如果特指PCA这种线性降维方法,则降维所得的子空间是在原始坐标系旋转下不变的。而如果坐标系恰好选取为主向量,则PCA实际上等价于对这组特殊的坐标系进行特征选择,方式是根据样本在坐标轴上分散的程度来决定该坐标轴的去留。而在一般情形下,PCA降维所得的子空间是由几乎所有原始特征张成的,因此原始特征全部起作用。因此,有学者(Zou&Hastie)提出了sparsePCA,旨在强迫使用部分原始特征张成尽量“优质”的子空间,同时实现了降维+特征选择,从而能在分析主成分的同时还可以加入模型的解释性。特征选择方法:1)方差选择法使用方差选择法,先要计算各个特征的方差,然后根据阈值,选择方差大于阈值的特征。(有区分度)2)相关系数法上式走义了总体相关系飙常用希腊小写字母卩作対代表符耳估草祥本的th方差手nB准差』可輕刊皮Je懣相关系臥常用英文彳争母r代未:使用相关系数法,先要计算各个特征对目标值的相关系数以及相关系数的P值。Pearson相关系数的一个明显缺陷是,他只对线性关系敏感。如果关系是非线性的,即便两个变量具有——对应的关系,Pearson相关性也可能会接近0。3)卡方检验经典的卡方检验是检验定性自变量对定性因变量的相关性。过程:先假设两个变量确实是独立的(行话就叫做“原假设”),然后观察实际值(也可以叫做观察值)与理论值(这个理论值是指“如果两者确实独立”的情况下应该有的值)的偏差程度,如果偏差足够小,我们就认为误差是很自然的样本误差,是测量手段不够精确导致或者偶然发生的,两者确确实实是独立的,此时就接受原假设;如果偏差大到一定程度,使得这样的误差不太可能是偶然产生或

者测量不精确所致,我们就认为两者实际上是相关的,即否定原假设,而接受备择假设。假设自变量有N种取值,因变量有M种取值,考虑自变量等于i且因变量等于j的样本频数的观察值与期望的差距,构建统计量。巾嗥性别和代妆与占&有关系,四亍格子应该足括号里的数■:期望值,用枢大似黴怙计55=1巾嗥性别和代妆与占&有关系,四亍格子应该足括号里的数■:期望值,用枢大似黴怙计55=1口叶W20D,甘中“唤可理解为化肢的概車・恋侶用1他得刮男人化妆桩率的佩撚怙计;,弦和实际值■;希卜的樹)肖差距,遲论和卖际的差距说明这不是I適机的组合。方翊合曲式戸心卅--阿一刑」迁卅+阿二血+七4亦_293>-3.^J 55 55 45 45"c)=(1^2p)https://blog.csdn.net/ldcadai/article/details/72854462/yihucha166/article/details/50646615互信息正式地」两几■离散随机变量)<和¥的互信息可L屣义为:』(X;Y)』(X;Y)=工工巩餌切1跆讽叭期)p(^)p(y)经典的互信息也是评价定性自变量对定性因变量的相关性的。互信息是X和Y联合分布相对于假定X和Y独立情况下的联合分布之间的内在依赖性。于是互信息以下面方式度量依赖性:I(X;Y)=0当且仅当X和Y为独立随机变量。从一个方向很容易看出:当X和Y独立时,p(x,y)=p(x)p(y),因此:5)随机森林oob(加入噪声:随机改变样本在特征X处的值)1持征重要性宸量计算某个特征X的重要性时,具体步骤如下:1) 对每一颗块策树「选择相应时袋外数据(outotbagr00B)计算袋外散据误差「记为errOQBI.所谓袋外数据是指』每次建立决策树时「通过車复抽样得到一个数据用于训练决策轶L这日毎有犬细七的数鉛没有被利用「没育参与决第捌茁建立*这部渤B可以用=对决策树的性能进行评估』计真模型E勺预测错误率「称为袋外数据课差,这已经经过证明是无偏怙计的,所以在随机尋林算法中不需蔓再进行交置验证或者里独的测试隼来获取测试隼误差的无偏估计。2) 随机对総外数拒00目所肓样本的特征劭臥噪声干扰冋以随机改变样本在特征X处的值),再次计算袋外数据误差,记为errOOB2p3J假设森林中有IM棵树,则持征X的重妾性-》(errOOB2-errCOB1}/Nc这个数值之所以能够说期特征的車聲性是因为,如果加入陀机嗥由后‘裳外教摇准确率大幅度下降{即errOOB2±7+)「讲明这个咼征对于样本的隕测结果肓很大影响』进而说明垂要理度th®高口4)最后对每个特征计算后的结果归一化。6)信息增益等7)使用L1,L2正则化项L1正则化项使解更为稀疏,L2正则化项使解更为平滑。L1惩罚项降维的原理在于保留多个对目标值具有同等相关性的特征中的一个,所以没选到的特征不代表不重要。可结合L2惩罚项来优化。具体操作为:若一个特征在L1中的权值为1,选择在L2中权值差别不大且在L1中权值为0的特征构成同类集合,将这一集合中的特征平分L1中的权值。PCA简介2.1计算过程计算数据特征的协方差矩阵,求协方差矩阵的特征值,特征向量。选取特征值最大的K个特征值相对应的特征向量作为降维后的特征方向。最后将样本点投影到选取的特征向量上。假设样例数为m特征数为n减去均值后的样本矩阵为DataAdjust(m*n),协方差矩阵(svd右奇异矩阵)0是n*n,选取的k个特征向量组成的矩阵为EigenVectors(n*k)。那么投影后的数据FinalData为FinalData(10*1)=DataAdjust(10*2矩阵)x特征向量(-0.677873399,-0.735178656)T。去均值的意义:去均值化是为了方面后面的协方差,去均值化后各维度均值为零,协方差中的均值也就是零了,方便求解。目标与协方差矩阵的意义:对原始n维特征进行降维,获取最好的k维特征使得新的低维数据集会尽可能的保留原始数据。寻找k维特征的依据是:PCA根据最大方差理论,找到这样一组投影向量,使得数据投影后的方差最大。同时需要满足这些投影向量之间是正交的。所以pea的目标是选择K个单位(模为1)正交基,使得原始数据变换至U这组基上后,各向量两两间协方差为0,而投影后的方差贝V尽可能大(在正交的约束下,取最大的K个方差)。这也是要求协方差矩阵的原因我们知道协方差矩阵为实对称阵,可以正交相似对角化:。此时Q可以看为AA基的特征向量矩阵,丄为特征值集合。而特征值大的又是方差大的方向。因为特征值表示原始样本表示在特征向量方向上的缩放步长,所以,特征值越大,在对应的特征向量方向上,投影后的数据越分散,方差越大。PCA可以把可能具有相关性的高维变量合成线性无关的低维变量,称为主成分(prineipaleomponents)。PCA旋转数据集与其主成分对齐,就得到了降维后的数据集。2.2含义最大方差理论:在信号处理中认为信号具有较大的方差,噪声有较小的方差,信噪比就是信号与噪声的方差比,越大越好。如前面的图,样本在u1上的投影方差较大,在u2上的投影方差较小,那么可认为u2上的投影是由噪声引起的。因此我们认为,最好的k维特征是将n维样本点转换为k维后,每一维上的样本方差都很大。然后正交的意义。优缺点:优点:以方差衡量信息的无监督学习,不受样本标签限制。各主成分之间正交,可消除原始数据成分间的相互影响可减少指标选择的工作量用少数指标代替多数指标,利用PCA降维是最常用的算法计算方法简单,易于在计算机上实现。缺点:1、 主成分解释其含义往往具有一定的模糊性,不如原始样本完整2、 贡献率小的主成分往往可能含有对样本差异的重要信息3、 特征值矩阵的正交向量空间是否唯一有待讨4、 无监督学习PCA,特征值和特征向量/在A的作用下”保持方向不变/在A的作用下”保持方向不变"进行比例为入的伸缩特征值贏向44另外可以通过最小二乘的方法证明,最大特征值对应的特征向量的方向,就是第一主成分的方向,其他方向类比可得。3.特征值和奇异值奇异值都是非负的,因为他是从一个对称阵的特征值,我们知道实对称阵都是半正定的所以他的特征值都是非负的。经过了去除均值的操作之后,就可以用SVD分解来求解这样一个投影向量,选择特征值最大的方向。主成分方向为特征向量方向推到:利用最小二乘法。/zhongkelee/article/details/44064401任眼用持征向呈构成的空问中的13坦耳袤示为:RII:yx,x>=a:卜…+仗:L缶『:-<Ar.Ata=(般)『檢=x'A'Ar=<x.A'.4r>=<的刍 洛如・空+…一色屮丿生〉-<ffi<+…+碍显《A吕■+■■+叫舜札>=品+-+恥;“何十…十记)拘由匸怦甌蒯1BL®冲护=吟*炉,目融瞰時*气剧理yfi”ifefltS皿吗脅*4"庄持征值时「对应的持征向虽的方向」施皓一主Mui的方向!借(二向为W的券nmE<a对应的特征向虽的方向,lit此笑主成分所占整个信息的百分比可用下式计算式中分母为口广所有奇异营平方和,分子为所选取的前kA奇异值平方和口LDA(LinearDiscriminantAnalysis(线性判别分析))其是一种监督学习方法。目标是:将带上标签的数据(点),通过投影(线性变换)的方法,投影到维度更低的空间中,使得投影后的点,会按标签分成不同的类别,使得类别内的点距离越近越好(集中),类别间的点越远越好。/LeftNotEasy/archive/2011/01/08/lda-and-pca-machine-learning.html类内关系定义为L投影后距类中心点的距离的平方和。类间关系定义为投影后各类中心点之间的距离:假设用来更分二廿类的直能(按影函数〕为:LDA分黄的一个目标是使得不同娄别芒可的距融远越妊「同一秃别之中的励殛近越温F斤以我们需基走文几于关庭的谄"类别iMIB能口,□克为:〔DI表r扈于类另Li为京)卿严丄妾利I投影后的工心愿为:m.=Hbm.篁星期」i掾影己殊!I点之问的分埜程度〔方差)为:工(丫-叫丫伽一旳F绘终我们可二得頁一个下面的公艺,WTTT.DAJS^^JwfH伽一旳FJ(W)=£]+A\求解上式,使用朗格朗日函数进行变换求解。前面所述的投影函数就是降维用的。t-sne/blog/2017/02/05/t_sne_full.html是一种非线性降维算法,非常适用于高维数据降维到2维或者3维,进行可视化。SNE构建一个高维对象之间的概率分布,使得相似的对象有更高的概率被选择,而不相似的对象有较低的概率被选择。SNE在低维空间里在构建这些点的概率分布,使得这两个概率分布之间尽可能的相似。5独立成分分析(ICA)1)ICA与PCA之间的关系:ICA理论认为用来观测的混合数据阵X是由独立元S经过A线性加权获,ICA要做的是一个解混过程。ICA理论的目标就是通过X求得一个分离矩阵W,使得W作用在X上所获得的信号Y是独立源S的最优逼近,该关系可以通过下式表示:Y=WX=WAS,A=inv(W)逆矩阵。2)实现ICA第一步做白化预处理(whitening),让输出信号不相关而且同方差。先用PCA得到y,再把y的各个分量标准化(即让各分量除以自身的标准差)得到z。预处理后得到的z满足下面性质:z的各个分量不相关;z的各个分量的方差都为1。第二步找一个旋转矩阵W使Z独立(statisticallyinde

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论