![郑州大学-机器学习 潜在语义分析_第1页](http://file4.renrendoc.com/view4/M00/1B/04/wKhkGGYlvSCAF2nzAAC34lzswU4695.jpg)
![郑州大学-机器学习 潜在语义分析_第2页](http://file4.renrendoc.com/view4/M00/1B/04/wKhkGGYlvSCAF2nzAAC34lzswU46952.jpg)
![郑州大学-机器学习 潜在语义分析_第3页](http://file4.renrendoc.com/view4/M00/1B/04/wKhkGGYlvSCAF2nzAAC34lzswU46953.jpg)
![郑州大学-机器学习 潜在语义分析_第4页](http://file4.renrendoc.com/view4/M00/1B/04/wKhkGGYlvSCAF2nzAAC34lzswU46954.jpg)
![郑州大学-机器学习 潜在语义分析_第5页](http://file4.renrendoc.com/view4/M00/1B/04/wKhkGGYlvSCAF2nzAAC34lzswU46955.jpg)
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
潜在语义分析汇报人:李文哲、张润羲01非负矩阵分解的定义02非负矩阵分解的应用非负矩阵分解学习内容03非负矩阵分解的算法实现什么是非负矩阵分解?非负矩阵:一个矩阵X的所有元素非负,记作X≥0非负矩阵分解:给定一个非负矩阵X,找到两个非负矩阵W≥0和H≥0,使得X,即将非负矩阵X分解为两个非负矩阵W和H相乘的形式。又因为WH和X完全相等很难实现,所以只要求WH和X近似相等我们通常将W矩阵称为基矩阵,H矩阵称为系数矩阵ABCD
分解前后可理解为:原始矩阵的列向量是分解后对左矩阵中所有列向量的加权和,而权重系数就是分解后右矩阵对应列向量的元素,故称W(左矩阵)为基矩阵,H(右矩阵)为系数矩阵。一般情况下W的列数(即话题或特征)k的选择要比原始矩阵的行和列小,即满足k<min(m,n),所以非负矩阵分解是对原数据的压缩,就比如在话题分析中我们可以用分解后的表示所对应的原文本的相似度非负矩阵分解与潜在语义分析的联系:非负矩阵分解也可以用于话题分析。在潜在语义分析中,对单词文本矩阵进行非负矩阵分解,将其左矩阵作为话题向量空间,将其右矩阵作为文本在话题向量空间中的表示。班级1班级2班级3班级4短发有喉结短发有喉结男生女生
班级1班级2班级3班级4男生女生矩阵X中班级1、班级2、班级3、班级4为四个列向量,其元素为属于这某些特征所占的权重原来的矩阵X中的元素表示某一特征在班级的人中所占的权重,矩阵W选择出了我们关心的两个特征(或者说话题);在这里我们选出男女这两个新的特征(话题),将原来班级中的人信息映射到男女这两个新的基底上。这样原来的一个X矩阵就拆成了一个基矩阵W和一个系数矩阵H这样我们丢掉了原来X矩阵中每个class列中一些信息,但由于我们关心的是男女比例,对一些关于相貌特征的信息并不关心,因此可以丢掉,这样,我们将矩阵X映射到我们所关心的男女比重这两个新的基底上了同时,矩阵分解具有不唯一性:甲乙丙丁大眼鹰钩鼻大眼鹰钩鼻俊俏美丽俊俏美丽甲乙丙丁基底线性组合系数X矩阵的列为甲、乙、丙、丁四个人的一些相貌特征,可以将其认为是单词文本矩阵,我们选取俊俏和美丽这两个特征来将甲、乙、丙、丁四个人的相貌特征映射到新的基底上去,这样我们不免的将丢掉一些描述甲、乙、丙、丁相貌的一些详细特征,但我们可以用我们想要的俊俏和美丽这两个特征去描述甲、乙、丙、丁这四个人的相貌。同时,由于可以选取的特征(或者说话题不唯一),因此,矩阵的分解也是不唯一的。比如说我们可以用选用吴彦祖和赵四作为新的特征。选取不同的特征:我们选取吴彦祖和赵四作为特征,这样,矩阵X就可以分解为甲乙丙丁大眼鹰鼻钩大眼鹰鼻钩吴彦祖赵四甲乙丙丁吴彦祖赵四基底线性组合系数因此,我们就选择了一个新的基底,将矩阵X用一种新的方式表示出来。这样一来,我们就将甲的相貌特征这一文本向量用吴彦祖和赵四的非负线性组合表示出来了这一想法在人脸识别、文本分析中等有很大的作用比如在图像的应用中或者也可以从如下角度理解非负矩阵分解用户1用户2电影A电影B矩阵中的元素为用户1、2对电影A、B的评价,现在我们的任务是想看出电影A、B中的什么因素影响了用户1、2对其的评价例如:我们如果只考虑电影中的动作和喜剧因素、那么可以对矩阵做如下分解用户1用户2电影A电影B用户1用户2动作喜剧动作喜剧电影A电影B这样,用户1对电影A的评分可以认为是电影A在动作方面和在喜剧方面的非负线性组和说白了就是一个人喜欢某个电影是因为这个电影的某些特点,矩阵分解做的就是:找到这个人和这些特点的关系,以及这些特点和这部电影的关系对应于语义分析中就是,我们找到单词文本矩阵所包含的话题,然后将每一个文本向量分解为话题向量的线性组合,即将文本在单词空间的表示映射为在话题空间中的表示同时,根据约束条件的不同,矩阵分解也有很多种类型,如:常见的NMF分解、VQ分解、PCA分解得到的是一个个的面部特征第一列信息第二列信息大眼浓眉大眼浓眉柳叶眉第一列信息第二列信息桃花眼也就是说,本例中,我们可以不太准确的理解为,NMF分解就将是不属于这张人脸原图的鼻子、嘴巴、眼睛拼到一块来做一个对原图人脸的近似(因为我们选择的桃花眼、柳叶眉等相貌特征都不是原图人脸所具有的)这就是说,对原图像中的每一张的图像,必须由基图像中的某一张认过去VQ分解:这样的好处是信息量集中,很快的就可以将信息量浓缩在前几个基底中,这样在描述数据集时进行压缩很有效其缺点是可解读性差,因为其系数矩阵H中的元素可能出现负数(即权重为负数),这在人脸图像识别中是无法解释的非负矩阵分解的算法:首先我们定义损失函数,损失函数的定义有多种,在这里就采用平方损失接下来针对非负矩阵分解定义最优化问题:算法:从而目标函数变为:由于原始问题满足李航课本定理
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025股份转让合同
- 2024-2025学年高中历史 专题八 当今世界经济的全球化趋势 第三课 经济全球化的世界说课稿 人民版必修2
- 净化设备合同范例
- 28 枣核 说课稿-2023-2024学年统编版语文三年级下册
- Unit 3 Fit for life Welcome to the unit 说课稿-2024-2025学年高中英语译林版(2020)选择性必修第二册
- 住建部测绘合同范例
- 以物担保合同范例
- 个人自愿转让土地合同范例
- fidic合同与普通合同范例
- 《12 爱心在行动》(说课稿)-2023-2024学年四年级下册综合实践活动长春版001
- 数字营销广告技术行业rta巨量引擎实时接口
- 化工企业静电安全检查规程
- 线性系统理论郑大钟第二版
- 宁骚公共政策学完整版笔记
- 项目负责人考试题库含答案
- GB/T 7251.5-2017低压成套开关设备和控制设备第5部分:公用电网电力配电成套设备
- 2023年湖南高速铁路职业技术学院高职单招(数学)试题库含答案解析
- 勇者斗恶龙9(DQ9)全任务攻略
- 经颅磁刺激的基础知识及临床应用参考教学课件
- 小学语文人教四年级上册第四单元群文阅读“神话故事之人物形象”PPT
- ISO 31000-2018 风险管理标准-中文版
评论
0/150
提交评论