商业数据分析·SVD_第1页
商业数据分析·SVD_第2页
商业数据分析·SVD_第3页
商业数据分析·SVD_第4页
商业数据分析·SVD_第5页
已阅读5页,还剩15页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、商业数据分析20161124线性降维线性降维21PCAPrincipal Component Analysis主成分分析法线性降维2PCA主成分分析(PCA)的方法可以解决数据降维和解相关性的问题。PCA的思想是:将p维的样本线性映射到k维空间上(kXc2、计算Xc的协方差矩阵S:3、计算协方差矩阵S的特征向量和特征值;求每个特征值lj求aj构成的特征向量线性降维4、将特征值从大到小排列,选取前k个大的特征值对应的特征向量,也就是选出这p个特征中最重要的k个特征对应的特征向量。5、将Xc映射到第4步计算出来的特征向量上,即Xc乘以这个特征向量,得到新的数据集Z。这个新的数据集Z就是我们通过PC

2、A处理原始数据后的结果啦!那么问题来了?2K是多少?线性降维画个图,告诉你k是多少2理论上来讲,选的前K个特征值的总和,应该至少在全部特征值总和的70%以上,才能在降维的同时,保证数据没有丢失过多的有用信息。线性降维碎石图(scree plot)2刚才已经把特征值从大到小排列了, 假设有a个特征值,那么横轴就是从1到a递增,纵轴就是特征值的数值,如下图,就可以看到特征值刚开始变化很陡峭,之后慢慢就平坦了,用数学语言来讲,就是斜率逐渐减小。这张图的“拐点”位置对应的横坐标,就是我们要取的k。线性降维拐点为什么叫碎石图呢?就好像小石头从山顶上滚下来,刚开始很陡,小石头连滚带爬的往下滑,后来就到了平

3、地,大家都挨在了一起,而K的值就是:山脚下进入平地的那个点的值。P.s P.s 具体具体K K的选择还是要看实际应的选择还是要看实际应用的情况,如果是为了画图,那么用的情况,如果是为了画图,那么直接选择直接选择K=2K=2或者或者K=3K=3就可以了。就可以了。MATLAB实例(Example 2.2)2 我们对酵母细胞周期数据集(yeast.mat)进行主成分分析。对酵母细胞,我们针对384个基因在17个时间点进行验测获得数据。即:384个样本,17个特征。 下面打开matlab我们进行PCA实战!线性降维PCA的总结2u假设我们想要将原本p维的特征映射到k(kXc2、计算Xc的协方差矩阵S

4、;3、计算协方差矩阵S的特征向量和特征值;4、将特征值从大到小排列,选取前k个大的特征值对应的特征向量;5、将Xc映射到第4步计算出来的特征向量上。线性降维Singular Value Decomposition奇异值分解SVD什么鬼2线性降维任何一个矩阵都可以表达为:这就叫做把矩阵X进行奇异值分解。假设X是np的矩阵,那么U是一个nn 的矩阵,而D是一个np对角矩阵(对角线上才会有非零元素),而V是一个pp的矩阵。而U和V各自的列向量都是单位正交向量。因此X UDVTXTX = VDTUTUDVT = VDTDVTVT XTXV=DTDSVD什么鬼2线性降维因此,SVD分解后得到的V就是XT

5、X的特征向量,而DTD对角上的元素就是XTX的特征值。 XTX = VDTUTUDVT = VDTDVTVT XTXV=DTDSVD是什么2线性降维任何一个矩阵都可以表达为:这就叫做把矩阵X进行奇异值分解。X UDVT新的PCA步骤:1、每列中心化:XXc2、把Xc进行奇异值分解,得到U、D、V3、将U、D、V都从大到小排列,选取前k个大的Uk、Dk、Vk ;4、计算XkUkDkVKT;小问题:这样得到的Xk和直接把X投影都k个特征向量上是一样的吗?MATLAB实例LSI2 为了说明SVD的方法,我们来看一个信息检索的例子,称为潜在语义索引(或LSI)。 信息检索(IR)的许多应用程序依赖于词

6、汇的搭配,用户输入了几个词语在一些文档中进行检索。然后用户用来检索的词可能是各种各样的,甚至是不准确的。所以,有时候检索结果不尽人意。潜在语义索引使用SVD的方法来求解输入检索词和文档的相关性,使得检索结果更为准确。线性降维MATLAB实例(Example 2.3)2 我们使用数据集lsiex.mat进行实验,这里有一些文档,里面包含一个书名的列表,然后还有个术语集包含一些词汇。我们把他们变成一个矩阵,每一列是一个文件,每一行是一个术语在这个文件中出现的次数。 然后将用户的搜索输入变成一个向量,包含对应术语的为1,不包含的为0。 下面打开matlab我们进行PCA实战!线性降维作业课后作业2.8题 2.9题课本作业分别写在不同的文件,压缩为zip文件。在11月29日00:00前发送至助教邮箱。作业课后作业2.8 Apply PCA to the following data sets. What value of d would you get using the scree plot for choosing the number of dimensions? a. Other gene expression data sets. b. oronsay data. c. sparrow data. 2.9 Repeat Example

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论