



下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
LLE及其改良算法介绍Locallylinearembedding(LLE)(SamT.RoweisandLawrenceK.Saul,2000)以及Supervisedlocallylinearembedding(SLLE)(DickandRobert,2002)是最近提出的非线性降维方法,它能够使降维后的数据保持原有拓扑结构。LLE算法可以有图1所示的一个例子来描述。在图1所示中,LLE能成功地将三维非线性数据映射到二维空间中。如果把图1〔B〕中红颜色和蓝颜色的数据分别看成是分布在三维空间中的两类数据,通过LLE算法降维后,那么数据在二维空间中仍能保持相对独立的两类。在图1〔B〕中的黑色小圈中可以看出,如果将黑色小圈中的数据映射到二维空间中,如图1〔C〕中的黑色小圈所示,映射后的数据任能保持原有的数据流形,这说明LLE算法确实能保持流形的领域不变性。由此LLE算法可以应用于样本的聚类。而线性方法,如PCA和MDS,都不能与它比较的。LLE算法操作简单,且算法中的优化不涉及到局部最小化。该算法能解决非线性映射,但是,当处理数据的维数过大,数量过多,涉及到的稀疏矩阵过大,不易于处理。在图1中的球形面中,当缺少北极面时,应用LLE算法那么能很好的将其映射到二维空间中,如图1中的C所示。如果数据分布在整个封闭的球面上,LLE那么不能将它映射到二维空间,且不能保持原有的数据流形。那么我们在处理数据中,首先假设数据不是分布在闭合的球面或者椭球面上。图1非线性降维实例:B是从A中提取的样本点〔三维〕,通过非线性降维
算法〔LLE〕,将数据映射到二维空间中〔C〕。从C图中的颜色可以看出
通过LLE算法处理后的数据,能很好的保持原有数据的邻域特性
LLE算法是最近提出的针对非线性数据的一种新的降维方法,处理后的低维数据均能够保持原有的拓扑关系。它已经广泛应用于图像数据的分类与聚类、文字识别、多维数据的可视化、以及生物信息学等领域中。1LLE算法
LLE算法可以归结为三步:(1)寻找每个样本点的k个近邻点;〔2〕由每个样本点的近邻点计算出该样本点的局部重建权值矩阵;〔3〕由该样本点的局部重建权值矩阵和其近邻点计算出该样本点的输出值。具体的算法流程如图2所示。图2LLE算法流程算法的第一步是计算出每个样本点的k个近邻点。把相对于所求样本点距离最近的k个样本点规定为所求样本点的个近邻点。k是一个预先给定值。SamT.Roweis和LawrenceK.Saul算法采用的是欧氏距离,那么减轻复杂的计算。然而本文是假定高维空间中的数据是非线性分布的,采用了diijstra距离。Dijkstra距离是一种测地距离,它能够保持样本点之间的曲面特性,在ISOMAP算法中有广泛的应用。针对样本点多的情况,普通的dijkstra算法不能满足LLE算法的要求。LLE算法的第二步是计算出样本点的局部重建权值矩阵。这里定义一个误差函数,如下所示:其中为的k个近邻点,是与之间的权值,且要满足条件:。这里求取W矩阵,需要构造一个局部协方差矩阵。
将上式与相结合,并采用拉格朗日乘子法,即可求出局部最优化重建权值矩阵:
在实际运算中,可能是一个奇异矩阵,此时必须正那么化,如下所示:其中r是正那么化参数,I是一个kxk的单位矩阵。LLE算法的最后一步是将所有的样本点映射到低维空间中。映射条件满足如下所示:其中,为损失函数值,是的输出向量,是的k个近邻点,且要满足两个条件,即:其中I是的单位矩阵。这里的可以存储在的稀疏矩阵W中,当是的近邻点时,,否那么,。那么损失函数可重写为:其中M是一个的对称矩阵,其表达式为:要使损失函数值到达最小,那么取Y为M的最小m个非零特征值所对应的特征向量。在处理过程中,将M的特征值从小到大排列,第一个特征值几乎接近于零,那么舍去第一个特征值。通常取第间的特征值所对应的特征向量作为输出结果。2SLLE算法Dick和Robert提出一种针对有监督的LLE算法,即SLLE。传统的LLE算法在第一步时是根据样本点间的欧氏距离来寻找个近邻点。而SLLE在处理这一步时,增加了样本点的类别信息。SLLE的其余步骤同LLE算法是一致的。SLLE算法在计算点与点之间的距离时,采用如下公式:其中是计算后的距离;在本文中是定义为dijkstra距离;是表示类与类之间的最大dijkstra距离;取0或者1,当两点属于同类时,取为0,否那么取1;是控制点集之间的距离参数,是一个经验参数。当取为零时,此时的SLLE和LLE算法相同。3SLLE参数设置SLLE算法中有4个参数需要设置,即近邻点的个数k、输出维数m、正那么化参数r和距离参数。k的选取在算法中起到关键因素,如果k取值太大,LLE不能表达局部特性,使得LLE算法趋向于PCA算法;反之取得太小,LLE便不能保持样本点在低维空间中的拓扑结构。本文中k没有作出进一步的改良,相当于一个经验参数,预先取值为12。
本文的输出维数m,采用类似于PCA算法求取固有维数。SLLE算法在计算每个样本点的重建权值矩阵时,都要构造一个局部协方差矩阵,可以通过如下式子求出该样本点的输出维数。其中为的特征值,且以从大到小排列。对于每个样本点,都需要计算一次样本点的输出维数。所有点输出维数的平均值规定为样本的输出维数。
正那么化参数r可以取一个特别小的值,或者采用自适应调整的方法得到。当采取自适应调整的方法来选定r的值。对于每个样本点,都要校正矩阵,此时正那么化参数采取如下式子:其中为的最小的个特征值。
距离参数是一个经验参数。在求取点间的距离时,可以增加不同类点之间的距离,从而增加类类之间的距离。4SLLE的测数数据处理设训练样本为,训练样本的输出为,为训练样本的维数,m为训练样本的输出维数,N为训练样本的个数。设为测试样本的集合。主要算法分为三步:〔1〕选取一个,将x参加X矩阵中,那么X变为的矩阵。在训练样本中寻找的k个近邻点,此时还时采用dijkstra距离,但是不能像SLLE算法那样加上样本点的类别信息。〔2〕求与其k个近邻点间的权值系数,且满足以下条件:其中是的k个近邻点,是与其近邻点之间的权值。〔3〕计算的输出向量:其中为的输出向量。参考文献:[1]SamT.RoweisandLawrenceK.Saul.NonlinearDimensionalityReductionbyLocallyLinearEmbedding,Science,Dec222000:2323-2326[2]LawrenceK.Saul,SamT.Roweis.AnIntroductiontoLocallyLinearEmbedding.:///~roweis/lle/,2001[3]LawrenceK.Saul,SamT.Roweis.ThinkGlobally,FitLocally:UnsupervisedLearningofLowDimensionalManifolds.JournalofMachineLearningResearch4(2003)119-155[4]DickdeRidder,OlgaKouropteva,OlegOkun,etal.Supervisedlocallylinearembedding.ArtificialNeuralNetworksandNeuralInformationProcessing,ICANN/ICONIP2003Proceedings,LectureNotesinComputerScience2714,Springer,333-341[5]KouroptevaO,OkunO&Pietik?inenM.Classificationofhandwrittendigitsusingsupervisedlocallylinearembeddingalgorithmandsupportvectormachine.Proc.ofthe11thEuropeanSymposiumonArtificialN
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 广告投放策略实战作业指导书
- 物流行业绿色物流标准化建设案例分享
- 农村金融服务投资决策指南
- 网络系统管理与维护作业指导书
- 在线教育与网络学习资源开发指引
- 汽车行业售后服务实战指南
- 三农信息化技术应用作业指导书
- 酒泉2025年甘肃敦煌市市直机关及党群口事业单位选调21人笔试历年参考题库附带答案详解
- 贵州2025年贵州省财政厅厅属事业单位招聘5人笔试历年参考题库附带答案详解
- 湖南2025年湖南女子学院高层次人才招聘22人笔试历年参考题库附带答案详解
- 2025年度智慧养老服务平台开发与运营服务合同
- 2025中国铁塔甘肃分公司社会招聘60人易考易错模拟试题(共500题)试卷后附参考答案
- 儿童口腔接诊流程
- 2025社区医保工作计划
- 社会责任内审评估报告表
- 个人借款分期还款合同
- 院士工作站合作框架协议书
- 船舶起重吊装作业安全方案
- T-GXAS 395-2022 蒜头果栽培技术规程
- 2024年山东省济南市中考英语试题卷(含答案解析)
- 2024年电梯销售工作计划(三篇)
评论
0/150
提交评论