版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
本文格式为Word版,下载可任意编辑——机器学习中的降维方法综述上海大学2023~2023学年春季学期研究生课程考试
文献阅读报告
课程名称:模式识别与机器学习课程编号:07SBE9004
论文题目:机器学习中的数据降维方法
研究生姓名:廖宇学号:14723542
评语:
成绩:任课教师:
评阅日期:
机器学习中的数据降维方法
1.引言
随着科技的进步,特别是数据采集和存储技术的飞速发展,不同行业和领域的数据如航天遥感数据,生物数据,网络数据以及金融市场交易数据等大量涌现,意味着大数据时代的来临。如何从繁杂多样,变化迅速的大数据中有效地挖掘和提炼人类感兴趣的信息,对数据进行分析和建立模型,成为了一个热门话题。
机器学习是近20多年兴起的一种从数据中自动分析获得规律,并利用规律对未知数据进行预计的算法,其大量的应用都与大数据高度耦合,是一种十分适用于大数据环境下的算法。从实践的意义上来说,机器学习是一种通过利用数据,训练出模型,然后使用模型预计的一种方法。
在机器学习算法中,降维算法是重要的一部分。由于机器学习算法在处理数据或特征时,过高的维数空间会包含有冗余信息以及噪音信息,在实际应用例如图像识别中造成了误差,降低了确凿率,因此需要通过降维算法来减少冗余信息所造成的误差,提高识别的精度。另外,通过降维算法还可以寻觅数据内部的本质结构特征,以及加速后续计算的速度,解决数据的稀疏问题等。
2.数据降维方法
2.1主成分分析(PCA)主成分分析(PCA)是最常用的线性降维方法,它的目标是通过某种线性投影,将高维的数据映射到低维的空间中表示,并期望在所投影的维度上数据的方差最大,以此使用较少的数据维度,同时保存住较多的原数据点的特性。通俗的理解,假使把所有的点都映射到一起,那么几乎所有的信息,如点和点之间的距离关系会丢失掉,而假使映射后方差尽可能的大,那么数据点则会分散开来,以此来保存更多的信息。可以证明,PCA是丢失原始数据信息最少的一种线性降维方式。设n维向量w为目标子空间的一个坐标轴方向(称为映射向量),最大化数据映射后的方差,有:
其中m是数据实例的个数,Xi是数据实例i的向量表达,X是所有数据实例的平均向量。定义W为包含所有映射向量为列向量的矩阵,经过线性代数变换,可以得到如下优化目标函数:
1mT2max(W(X?X))?i(1)wm?1i?1mintr(WTAW),
Ws.t.WTW?I(2)
其中tr表示矩阵的迹,1mTA?(X?X)(X?X)?ii(3)m?1i?1A是数据协方差矩阵。简单得到最优的W是由数据协方差矩阵前k个最大的特征值对应的特征向量作为列向量构成的。这些特征向量形成一组正交基并且最好地保存了数据中的信息。PCA的输出就是Y=W’X,由X的原始维度降低到了k维。PCA追求的是在降维之后能够最大化保持数据的内在信息,并通过衡量在投影方向上的数据方差的大小来衡量该方向的重要性。但是这样投影以后对数据的区分作用并不大,反而可能使得数据点揉杂在一起无法区分。这也是PCA存在的最大一个问题,这导致其在某些状况下的分类效果并不好。
2.2线性判别分析(LDA)
线性判别分析(LDA)是R.Fisher于1936年提出来的,也叫做Fisher’sLinear
Discriminant[1]。LDA是一种有监视的线性降维算法。与PCA类似,LDA也要寻觅一组投影向量,并将高维数据投影到低维空间以实现数据的降维。与PCA不同的是,LDA要使得原始数据投影到该低维空间后,不同类的数据尽可能地分开,同类的数据尽可能地紧凑,也就是在最小均方议一下选择能够最好分开各类数据的低维特征。由于数据降维的过程含有数据的判别信息,LDA所得到的低维特征更有利于分类。因此,LDA是目前在机器学习领域经典的一个方法。将LDA与PCA相比较的话,两者的动机不同,因此对于一致的数据所寻觅的投影向量也不尽一致,PCA在投影方向可以最大程度地保存原始数据信息,而LDA的投影方向更有利于区分两类数据,
(参与LDA的计算过程)
3.总结与展望
1901年K.Pearson首次提出了主成分分析这个概念[i],1933年H.Hotelling完善了其数学基础,所以PCA又称为Hotelling变换。PCA的目的是将原始变量转换为一小部分反映事物主要性质的变量,也就是主成分。从而将数据从高维空间投影到低维空间,并且保证投影后的低维数据能够在最小平方意义下最优地描述原有高维数据。PCA的各个主成分可通过求解基于数据协方差矩阵的特征向量得到。PCA的这些特点使得它成为分析多元数据的重要工具之一,并且在模式识别中得到广泛应用。例如,基于PCA的特征脸方法(Eigenfaces)方法已被证明在人脸识别中是相当成功的。众多研究者在此基础上进一步提出了大量扩展和变化方法,其中有代表性的有与和方法相结合得到的核主成分分析(KernelPrincipalComponentAnalysis,KPCA)、结合稀疏学习的稀疏主成分分析(SparsePrincipalComponentAnalysis,SPCA)、概率主成分分析(ProbabilisticPrincipalComponentAnalysis,PPCA)、可有效处理二维图像的二维主成分分析(2-DimensionalPrincipalComponentAnalysis,2DPCA)、局部主成分分析(LocalPrincipalComponentAnalysis,LPCA)等。[]
TurkM,PentlandA.Eigenfacesforrecognition[J].Journalofcognitiveneuroscience,1991,3(1):71-86.[]
Sch?lkopfB,SmolaA,MüllerKR.Nonlinearcomponentanalysisasakerneleigenvalueproblem[J].Neuralcomputation,1998,10(5):1299-1319.[]
ZouH,HastieT,TibshiraniR.Sparseprincipalcomponentanalysis[J].Journalofcomputationalandgraphicalstatistics,2023,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025工程围挡、大门及项目部拆除工程合同
- 2024年度版权许可使用合同:音乐制作人甲与影视公司乙关于背景音乐版权的许可使用合同2篇
- 2024年工程合同谈判技巧3篇
- 2024年技术服务合同标准模板版B版
- 2024厦门二手房买卖合同模板:包含交易资金监管账户设立协议3篇
- 2024年度舞台剧制作与巡演合同3篇
- 2024年度内衣品牌加盟店采购合同3篇
- 2024年度音响产品生产工艺改进与合作合同3篇
- 2024年度高科技制造普通员工劳动合同协议3篇
- 2024年度互联网医疗服务平台共建合同3篇
- 沟拐加油站试生产方案
- 介绍辽宁营口的PPT模板
- 山东省烟台市2023-2024学年三上数学期末含答案
- 食材配送供货计划方案(10篇)
- 主体幸福感模型的理论建构
- 广东建材产品见证取样检测要求及送检办法
- 领导干部的法治思维概论
- 高中物理-电场的能的性质教学设计学情分析教材分析课后反思
- 预防医学(第7版)PPT课件 第八章 临床预防服务概论
- 【基于PLC的抢答器控制系统设计8800字(论文)】
- 5S检查评分标准(总查表)
评论
0/150
提交评论