




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、LLE杨浩LLE的背景意义 传统的降维方法主要有PCA、LDA。PCA的基本思想是通过线性变换寻找一组最优的基,来重构原始数据样本,以使重构后的样本与原始样本误差最小。LDA是以样本的可区分性为主要目标,通过线性变换以达到类内的散度最小,类间的散度最大的目的。但是当数据集在高维空间呈现高度扭曲时,它们很难发现嵌入在数据集中的非线性结构和恢复内在结构。 LLE算法 LLE算法是是流形学习的一种。流形学习方法提供了一种新的研究途径,它能够对数据集中高维数据空间进行非线性降维,揭示其中的流形分布。LLE是属于流形学习的一种。 一个流形降维的过程如下图:LLE的算法思想 LLE首先假设数据在较小的局部
2、是线性的,也就是说一个数据可以由它邻域的几个样本来线性表示。 假设有样本 ,我们在该样本的原始邻域中用K近邻的思想找到其中的K个样本 ,假设 可以由 线性表示,即: 其中, 为权重系数,我们通过LLE降维后,希望 在低维空间对应的投影 和 对应的投影 也尽量保持同样的线性关系,即: 从上面看出,线性关系只在样本附近起作用,离样本远的样本对局部样本的线性关系没有影响,大大降低了降维的难度。1x132,.,xkxx1x132,.,xkxx1113132121.xkkxwxwxw111312,.,wkww1x1x132,.,xkxx121x,.,x,xk1113132121xw.xwxwxkk LL
3、E的推导 对于LLE,首先需要确定邻域的大小,即需要多少的邻域样本来线性表示某个样本。假设这个值为K,我们可以通过欧式距离来选择样本点的K个邻居。 找到K个邻近样本后,需要找到 与K个样本点的线性关系,也就是找到线性关系中的权重系数。因此我们可以通过回归来求权重系数。假设我们有N个D维样本 我们用均方差来定义损失函数:为了后面计算方便,先对系数进行归一化限制,即有ix211)(NiKjjijixwxwJx,.x,xN21Kjijw11 LLE算法推导iTjiNiTjiTiNiijiNiKjjijKjiijNiKjjijiNiKjjijiWxxxxWWxxxwxwxwxxwxwJ)()()()(
4、1212111211211ijiiKiiKiiiKjjiijKjjijKjiijWxxwwwxxxxxxxxwxwxw)(.)(2121111ijiNiTjiTiiKiiKiiiKiiiNiiKiiiKiiKiiiiKiiNiKiiiNiijiWxxxxWwwwxxxxxxxxxxxxwwwwwwxxxxxxwwwxxxxxxWxx)()(.)(121212112121212112121 令 则 为 的局部协方差矩阵 , 为 的局部重建权值)()(jiTjiixxxxZiiNiTiNiKjjijiWZWxwxwJ1211)(iZixiWixLLE的算法推导 因此,我们最终的目的是使得 取得最小
5、值情况下 的值。 又因为: 可以化简为根据约束条件,可以用拉格朗日乘子法:iiNiTiWZWWJ1)(iW11.11.121KiKiiKTiwwwW11Kjjw11)(1KTiiiNiTiWWZWWJ) 11()(L1KTiiiNiTiWWZWW LLE算法推导 对W求导并令其值为0 ,求得 : (1) 前面已知 ,则 连立(1)式得解得:因为 ,因此可以根据上述公式,迭代K个近邻数据点,依次可以求得 ,然后在迭代所有的数据点,求得W的权重矩阵。01Z2iKiW11 KTiWTiKiWKT1111WKiTKKiiZZW11111)()(jiTjiixxxxZ,.,21iKiiiwwwWLLE算
6、法推导 得到权重矩阵后,将原始的数据映射到低维空间中。映射的条件满足: 此时,权重系数我们上一步已经求得,要求得满足最小损失函数条件下的数据 ,而且满足以下条件: (1) 其中, 是单位矩阵211)(minNiKjjijiywyYJy,.,y,YyN21Niiy10I1TiNiiyyILLE算法推导T1212)()()(minYWIWIYWIYYWYIYJTNiiiNiii令结合上述约束条件: TWIWIM)(I0)(min11TiNiiNiiTyyyYMYYJ 根据拉格朗日乘子法有:对Y进行求导令其为0,得: 根据矩阵特征值得定义: 设A为n阶矩阵,若存在常数 和n维 非零向量, 使得则 为
7、A的一个特征值, 为 对应的特征向量。 因此, 为M矩阵的特征向量组成的矩阵。)N-()(IYYYMYYLTT-M02M2TTTTTTYMYYYYYxxAxTY 将 带入到 得: 即:若要求 最小,则 最小,即取M的最小特征值。 TTYY-M)N-()(IYYYMYYLTTNIYL)( -NIYL)()(YLnnnnnnnndnnnnnnnyyymmmmmmmmmmkkkmmmmmmmmmm.,.,.213212222111211213212222111211 SLLE 传统的LLE在第一步时根据样本点间欧式距离来寻找k个近邻点,而SLLE在处理这一步增加了样本的类别的信息,SLLE算法的其余步骤与LLE相同。 SLLE在计算点与点之间的距离采用以下两种方法: 1.第一种是采用以下公式来修正点与点之间的距离公式: 是直接采用欧式距离计算出的距离, 表示类与类之间的最大距离; 取0或者1,当两个点属于同一类时 否则 是控制点集之间的距离参数, ,是一个经验参数。)max(DDDD)ma
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 中医护理学(第5版)课件 第十章 其他常用中医护理技术
- 三农产品包装与运输管理手册
- 物理力学概念引入与实践活动设计
- 政府部门信息化建设和数据治理方案
- 销售员工心态培训课程
- 可行性研究报告封面格式
- 建筑智能化系统设计技术规范
- 零售业O2O营销模式创新与实施策略
- 绿色建筑材料应用技术规范书
- 机器人技术及其在物流行业的应用手册
- 人才招聘与培养策略优化方案
- 2025年湖南高速铁路职业技术学院单招职业适应性测试题库带答案
- 江西南昌市2025届高三语文一模作文:对“差不多”“尽力了”的思考
- 《桥梁健康监测》课件
- 公司员工手公司员工手册
- 自媒体运营实战教程(抖音版) 课件 第7、8章 短视频运营;直播运营
- 中国对RCEP国家机电产品出口贸易潜力研究
- 2025年陕西西安康本材料有限公司招聘笔试参考题库含答案解析
- 音频内容创新策略-洞察分析
- 2024年陕西财经职业技术学院高职单招职业技能测验历年参考题库(频考版)含答案解析
- 2025年苏教版三年级数学下册阶段测试试卷
评论
0/150
提交评论