版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、 PCA降维在MATLAB上的实现 学 院 计算机科学与技术 专 业 计算机科学与技术 年 级 2011级 姓 名 周忠儒 /王云标 学 号 30111216058/051 指导教师 魏建国 2014年 5月 28日PCA降维在MATLAB上的实现一 实验目的2二 实验环境2三 实验原理21、PCA降维方法原理22、MATLAB33、PCA降维方法详解31) 、原始数据:32)、协方差矩阵的求法:43)、计算协方差矩阵的特征向量和特征值:64)、选择成分组成模式矢量:65)、得到降维后的数据:7四 实验代码详解7五 实验结果8六 实验总结9PCA降维在MATLAB上的实现一 实验目的1 掌握P
2、CA降维的基本内容2 了解MATLAB的基本用法3 用PCA降维算法处理图像数据 二 实验环境Matlab 7.0三 实验原理1、PCA降维方法原理PCA的原理就是将原来的样本数据投影到一个新的空间中,相当于我们在矩阵分析里面学习的将一组矩阵映射到另外的坐标系下。通过一个转换坐标,也可以理解成把一组坐标转换到另外一组坐标系下,但是在新的坐标系下,表示原来的原本不需要那么多的变量,只需要原来样本的最大的一个线性无关组的特征值对应的空间的坐标即可。PCA即主成分分析,是图像处理中经常用到的降维方法,大家知道,我们在处理有关数字图像处理方面的问题时,比如经常用的图像的查询问题,在一个几万或者几百万甚
3、至更大的数据库中查询一幅相近的图像。这时,我们通常的方法是对图像库中的图片提取响应的特征,如颜色,纹理,sift,surf,vlad等等特征,然后将其保存,建立响应的数据索引,然后对要查询的图像提取相应的特征,与数据库中的图像特征对比,找出与之最近的图片。2、MATLABMATLAB(矩阵实验室)是MATrix LABoratory的缩写,是一款由美国The MathWorks公司出品的商业数学软件。MATLAB是一种用于算法开发、数据可视化、数据分析以及数值计算的高级技术计算语言和交互式环境。除了矩阵运算、绘制函数/数据图像等常用功能外,MATLAB还可以用来创建用户界面及与调用其它语言(包
4、括C,C+和FORTRAN)编写的程序。3、PCA降维方法详解1)、原始数据:由于本实验数据过于庞大,为了方便,我们假定数据是二维的,借助网络上的一组数据,如下:x=2.5, 0.5, 2.2, 1.9, 3.1, 2.3, 2, 1, 1.5, 1.1Ty=2.4, 0.7, 2.9, 2.2, 3.0, 2.7, 1.6, 1.1, 1.6, 0.9T2)、计算协方差矩阵(1)协方差矩阵:以下是含有n个样本的集合中,一些数理统计的相关概念:均值:标准差:方差:在这里,标准差和方差一般是用来描述一维数据的,但现实生活我们常常遇到含有多维数据的数据集,例如上学时免不了要统计多个学科的考试成绩。
5、面对这样的数据集,我们当然可以按照每一维独立的计算其方差,但是通常我们还想了解这几科成绩之间的关系,这时,我们就要用协方差,协方差就是一种用来度量两个随机变量关系的统计量,其定义为:从协方差的定义上我们也可以看出一些显而易见的性质,如:1. cov(X,Y)=var(X);2. cov(X,Y)=var(Y,X);需要注意的是,协方差也只能处理二维问题,那维数多了自然就需要计算多个协方差,比如n维的数据集就需要计算个协方差,那自然而然的我们会想到使用矩阵来组织这些数据。给出协方差矩阵的定义: 这个定义还是很容易理解的,我们可以举一个简单的三维的例子,假设数据集有三个维度,则协方差矩阵为:可见,
6、协方差矩阵是一个对称的矩阵,而且对角线是各个维度上的方差。2)、协方差矩阵的求法:协方差矩阵计算的是不同维度之间的协方差,而不是不同样本之间的。下面我们将在matlab中用一个例子进行详细说明:首先,随机产生一个10*3维的整数矩阵作为样本集,10为样本的个数,3为样本的维数。MySample = fix(rand(10,3)*50)根据公式,计算协方差需要计算均值,那是按行计算均值还是按列呢,我一开始就老是困扰这个问题。前面我们也特别强调了,协方差矩阵是计算不同维度间的协方差,要时刻牢记这一点。样本矩阵的每行是一个样本,每列为一个维度,所以我们要按列计算均值。为了描述方便,我们先将三个维度的
7、数据分别赋值:dim1 = MySample(:,1);dim2 = MySample(:,2);dim3 = MySample(:,3);计算dim1与dim2,dim1与dim3,dim2与dim3的协方差:sum(dim1-mean(dim1).*(dim2-mean(dim2)/(size(MySample,1)-1)sum(dim1-mean(dim1).*(dim3-mean(dim3)/(size(MySample,1)-1)sum(dim2-mean(dim2).*(dim3-mean(dim3)/(size(MySample,1)-1)搞清楚了这个后面就容易多了,协方差矩阵的
8、对角线就是各个维度上的方差,下面我们依次计算:std(dim1)2 std(dim2)2std(dim3)2这样,我们就得到了计算协方差矩阵所需要的所有数据,调用Matlab自带的cov函数进行验证:cov(MySample)可以看到跟我们计算的结果是一样的,说明我们的计算是正确的。但是通常我们不用这种方法,而是用下面简化的方法进行计算:1,先让样本矩阵中心化,即每一维度减去该维度的均值。2,然后直接用新的样本矩阵乘上它的转置。3,然后除以(N-1)即可。其实这种方法也是由前面的公式通道而来,只不过理解起来不是很直观而已。其Matlab代码实现如下:X = MySample repmat(me
9、an(MySample),10,1);% 中心化样本矩阵C = (X*X)./(size(X,1)-1)其中B=repmat(A,m,n)%将矩阵A复制mn块。即把A作为B的元素,B由mn个A平铺而成。B的维数是size(A,1)*m, (size(A,2)*nB = mean(A)的说明:如果你有这样一个矩阵:A = 1 2 3; 3 3 6; 4 6 8; 4 7 7;用mean(A)(默认dim=1)就会求每一列的均值ans = 3.0000 4.5000 6.0000用mean(A,2)就会求每一行的均值ans = 2.0000 4.0000 6.0000 6.0000size(A,n
10、)%如果在size函数的输入参数中再添加一项n,并用1或2为n赋值,则 size将返回矩阵的行数或列数。其中r=size(A,1)该语句返回的是矩阵A的行数, c=size(A,2) 该语句返回的是矩阵A的列数)上面我们简单说了一下协方差矩阵及其求法,言归正传,我们用上面简化求法,求出样本的协方差矩阵为:3)、计算协方差矩阵的特征向量和特征值因为协方差矩阵为方阵,我们可以计算它的特征向量和特征值,如下:eigenvectors,eigenvalues = eig(cov)我们可以看到这些矢量都是单位矢量,也就是它们的长度为1,这对PCA来说是很重要的。4)、选择成分组成模式矢量求出协方差矩阵的
11、特征值及特征向量之后,按照特征值由大到小进行排列,这将给出成分的重要性级别。现在,如果你喜欢,可以忽略那些重要性很小的成分,当然这会丢失一些信息,但是如果对应的特征值很小,你不会丢失很多信息。如果你已经忽略了一些成分,那么最后的数据集将有更少的维数,精确地说,如果你的原始数据是n维的,你选择了前p个主要成分,那么你现在的数据将仅有p维。现在我们要做的是组成一个模式矢量,这只是几个矢量组成的矩阵的一个有意思的名字而已,它由你保持的所有特征矢量构成,每一个特征矢量是这个矩阵的一列。对于我们的数据集,因为有两个特征矢量,因此我们有两个选择。我们可以用两个特征矢量组成模式矢量:我们也可以忽略其中较小特
12、征值的一个特征矢量,从而得到如下模式矢量:5) 、得到降维后的数据其中rowFeatureVector是由模式矢量作为列组成的矩阵的转置,因此它的行就是原来的模式矢量,而且对应最大特征值的特征矢量在该矩阵的最上一行。rowdataAdjust是每一维数据减去均值后,所组成矩阵的转置,即数据项目在每一列中,每一行是一维,对我们的样本来说即是,第一行为x维上数据,第二行为y维上的数据。FinalData是最后得到的数据,数据项目在它的列中,维数沿着行。这将给我们什么结果呢?这将仅仅给出我们选择的数据。我们的原始数据有两个轴(x和y),所以我们的原始数据按这两个轴分布。我们可以按任何两个我们喜欢的轴
13、表示我们的数据。如果这些轴是正交的,这种表达将是最有效的,这就是特征矢量总是正交的重要性。我们已经将我们的数据从原来的xy轴表达变换为现在的单个特征矢量表达。说明:如果要恢复原始数据,只需逆过程计算即可,即:四 实验代码详解按照上述PCA降维算法的原理编写代码如下:load im.mat将im中的数据导入MATLAB;m = mean(im,2);求im数据每一行的平均值,即得数为一列向量,每一元素为im每一行的平均值。Train_Number = size(im,2);求im数据每一行数据的元素个数A = ;定义一个空矩阵A for i = 1 : Train_Numbertemp = im(:,i) - uint8(m);定义一个中间矩阵变量,其值为im中每一列减去m的得数A = A temp;将中间矩阵变量temp的值存入A中endfor循环的作用是将im每一列都减去m并存入A中L = A*A;L=A矩阵与其转置矩阵的乘积V D = eig(L);求矩阵L的特征值与特征向量L_eig_vec = ;定义一个空矩阵for i = 1 : 15 L_eig_vec = L_eig_vec V(:,i);End将特征矩阵存入L中PCA = A * L_eig_vec;PCA为A矩阵与特征矩阵的乘积,结果
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 高职院校可视化综合管理平台
- 开业流程策划方案
- 酒店服务员经营方案
- 吉林公务员面试模拟20
- 2011年7月2日湖北省公务员面试真题
- “双减”背景下乡村教师队伍素质提升路径探索
- 吉林公务员面试模拟68
- 2011年2月20日税务局面试真题
- 山东省潍坊市2023-2024学年高三上学期期末考试 地理 含答案
- 2024大学生策划书26篇
- 《创想候车亭》课件2024-2025学年岭美版(2024)初中美术七年级上册
- 安全环保职业健康法律法规清单2024年
- 地 理《世界的地形》第一课时课件-2024-2025学年人教版七年级地理上册
- 广西岑溪市2025年高三高考化学试题系列模拟卷(3)含解析
- 2024-2030年中国燃气表行业市场发展分析及发展趋势预测研究报告
- (新版)烟草行业法律法规知识竞赛参考试题库-下(判断、简答题)
- 微专题(三) 光合作用和细胞呼吸的综合问题教学设计-2024-2025学年高一上学期生物人教版必修1
- 2024-2025学年一年级语文上册第一单元测试卷(统编版2024新教材)
- 恙虫病护理查房模板
- 2023年云南省红河州同舟社会工作服务中心招聘笔试真题
- 红色简约中华人民共和国成立75周年演讲
评论
0/150
提交评论