Python机器学习项目化教程(微课视频版)课件 第9章 降维分析_第1页
Python机器学习项目化教程(微课视频版)课件 第9章 降维分析_第2页
Python机器学习项目化教程(微课视频版)课件 第9章 降维分析_第3页
Python机器学习项目化教程(微课视频版)课件 第9章 降维分析_第4页
Python机器学习项目化教程(微课视频版)课件 第9章 降维分析_第5页
已阅读5页,还剩15页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第9章降维分析目录CONTENTS9.1PCA9.2奇异值分解9.3本章小结9.1PCA学习基础学习认知能力信息素养高降维的目的就是要找出更准确、简洁描述样本属性的组合方式。方差过滤作为特征工程中一种重要的特征选择方法,它认为如果一个特征的方差很小,则意味着这个特征上很可能有大量取值都相同,则该特征的取值对样本而言就没有区分度,该特征就不包含有效信息;如果一个特征的方差很大,则说明该特征上拥有大量有效信息。9.1PCA这组数的均值都为(2.5,2.5),方差为(3,3),方差计算过程为:将原本的直角坐标系逆时针旋转45°,形成了新的特征向量x1和x2组成的新平面,9.1PCA选择其中一个特征进行分析,则优化目标就是要最大化每个特征的方差,即:目标函数为:9.1PCA利用拉格朗日乘子法求解:9.1PCA(1)计算样本每个特征的平均值,将每个样本数据减去该特征的平均值,即进行归一化处理;(2)计算归一化处理后的样本的协方差矩阵;(3)找到协方差矩阵的特征值和特征向量;(4)对特征值按照从大到小排序,特征向量相应排序;(5)计算特征值的累计贡献率,并求前k行构成的特征向量构成的矩阵P;(6)计算Y=PX,即为经过PCA降维后的k维数据。9.1PCA根据PCA算法的实现原理,对于给定的矩阵X,先计算出协方差矩阵mat_cov,然后得到特征值和特征向量,选取前k个特征向量,就得到变换后的矩阵X_mat。9.1PCA为了验证经过pca降维过的数据能表示原数据的特征,随机生成一组数据,并观察降维后每个特征方差占的比例,并进行可视化。9.1PCA9.2奇异值分解奇异值分解(SingularValueDecomposition,SVD)是一种矩阵因子分解方法回顾一下特征值分解。设A为n阶方阵,若存在数λ和非零向量x,使得:9.2奇异值分解矩阵的奇异值分解是指,将一个非零的m×n实矩阵A,表示为以下三个实矩阵乘积形式的运算,即进行矩阵的因子分解:9.2奇异值分解9.2奇异值分解9.2奇异值分解SVD是通过求ATA的特征值和特征向量进行降维。实际上,scikit-learn的PCA算法的背后真正的实现就是用的SVD,而不是我们我们认为的暴力特征分解。假设我们的样本是m×n的矩阵A,如果我们通过SVD找到了矩阵ATA最大的d个特征向量张成m×d维矩阵U,如果进行如下处理:左奇异矩阵可以用于行数的压缩。相对的,右奇异矩阵可以用于列数即特征维度的压缩,也就是我们的PCA降维。9.2奇异值分解9.2奇异值分解9.2奇异值分解对于文本检索和推荐系统,都会涉及到大量的文本数据需要处理。文本检索和新闻分类其实就是一个聚类问题,关键是如何计算查询与文档的相似度、两篇新闻的相似度。查询、文档、新闻均可看作是一个文本,可表示成由一系列词汇组成的向量,夹角越小,表明两篇新闻越相关;当它们垂直正交时,表示两篇新闻无关。为了提高计算效率,往往需要先对特征进行降维,SVD就是一种常见的降维方法。9.2奇异值分解9.3本章小结PCA和SVD作为两种常用的降维方法,被应用于数据压缩、去噪等方面。PCA和SVD都属于无监督的学习算法,都可将原始数据投影到新的低维空间中,以最大程度地保留原始数据的方差信息。其中,PCA通过构建一种被称为主成分的变量,并将所用到的所有向量映射到由主成分变量构建的空间上去。SVD用于将矩阵分解为三个矩阵的乘积:左奇异矩阵、右奇

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论