版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
天浑火孽《电子商务》实验报告降维题目()成员为了提高统计模式识别的正确识别率,人们通常需要采集数量巨大的数据特征,使得原始空间或输入空间的维数可能高达几千维或万维。如果直接在输入空间上进行分类器训练,就可能带来两个棘手的问题:(1)很多在低维空间具有良好性能的分类算法在计算上变得不可行;(2)在训练样本容量一定的前提下,特征维数的增加将使得样本统计特性的估计变得更加困难,从而降低分类器的推广能力或泛化能力,呈现所谓的“过学习”或“过训练”的现象。要避免出现“过学习”的情况,用于统计分类器训练的训练样本个数必须随着维数的增长而呈指数增长,从而造成人们所说的“维数灾难”。这一问题可以通过降维来解决。因为高维数据中包含了大量的冗余并隐藏了重要关系的相关性,降维的目的就是消除冗余,减少被处理数据的数量,同时还能保持数据的特征完整性,本次实验使用2维度的语音参数验证降维算法。关键字:降维、、1.算法分析PCA简介PCA的目标是为了发现这种特征之间的线性关系,检测出这些线性关系,并且去除这线性关系。称为主成分分析或者主元分析。是一种数据分析的降维方法,一般常用于图像处理,它可以从多元事物中解析出主要影响因素,揭示事物的本质,简化复杂的问题。计算主成分的目的是将高维数据投影到较低维空间。一类事物的特征会很多,而每个特征也有很高的维数。但有些维数之间有很大的相似性,相同的维数难以区分特性,所以的目标是为了发现这种特性维度之间的线性关系,检测出这些线性关系,并且去除这线性关系。PCA算法设1、2•••.,为原始变量,1、2…,为个主成分因子F=aX+aX+...+aX1111212p1p其使方差i越大,表示i包含的信息越多,故称i为第一主成分。「F=aX+aX+...+aX1111221ppF=aX+aX+...+aX2112222ppF=aX+aX+...+aXmm11m22mpp与互不相关,,1是1,2,…,的一切线性组合中方差最大的……即是与1,2,……,-1都不相关的1,2,•…的所有线性组合中方差最大者。1,2,•…(W)为构造的新变量指标,即原变量指标的第一、第二、……、第个主成分。
1.3PCA降维步骤(1)计算原变量协方差矩阵,.、工(s)1nijpXps=^E(x—X)(x—x)i,j=1,2,,pijn—1kiikjk=1(2)求出W的特征值及相应的正交化单位特征向量1U的前个较大的特征值12,就是前个主成分对应的方差,对应的单位特征向量就是原来变量在主成分上的载荷系数(数学上可以证明),则原变量的第个主成分为:F=qtXiii主成分的方差(信息)贡献率用来反映信息量的大小,为:()选择主成分最终要选择几个主成分,即1,2,率()来确定当累积贡献率大于时是抽取的前个主成分。2.实验过程2.1实验环境214中的确定是通过方差累计贡献()选择主成分最终要选择几个主成分,即1,2,率()来确定当累积贡献率大于时是抽取的前个主成分。2.实验过程2.1实验环境214中的确定是通过方差累计贡献£九G(m)=i=11£九kk=1就认为能足够反映原来变量的信息了,对应的就操作系统是一种用于算法开发、数据可视化、数据分析以及数值计算的高级技术计算语言和交互式环境。除了矩阵运算、绘制函数/数据图像等常用功能外,还可以用来创建用户界面及与调用其它语言(包括,和)编写的程序。而214是第一个支持中文的版本。Windows8是由微软公司于2012年10月26日正式推出的操作系统。系统独特的开始界面和触控式交互系统,旨在让人们的日常电脑操作更加简单和快捷,为人们提供高效易行的工作环境。其支持来自、的芯片架构,被应用于个人电脑和平板电脑上。该系统具有更好的续航能力,且启动速度更快、占用内存更少,并兼容所支持的软件和硬件。2.2实验步骤2.双击,将数据加载到工作区。2.双击,将数据加载到工作区。工作区(foubfefl1887x26do111887x26do1887x-idon自带的算法运行后的数据,如下图:并回车,工作区(foubfefl1887x26do111887x26do1887x-idon自带的算法运行后的数据,如下图:并回车,并回车,得到特在命令行窗口输入命令:得到名称上上coeff二latentXjmfcc二score上tsquared图2-2在命令行窗口输入命令:rat征值的累计贡献率,如下图:
嘘-rateUrate田26dc1double12345160.3&79170.8B8918O.5O73叩0.9251200.9402210.9543220.9&7223o.szai242509g482&1<命令行窗口>>load(Jmfcc.)>>[coeffscore,,Latent^tsqua.red]=pca(mfcc);rate=cmnsuni■latentj./sum(1atentj;A»图2-3根据贡献率分析,需要保持95%以上的特征,所以选择前21个特征向量。在命令行窗口输入命令:并回车,得到主成分变换矩阵,则从原来的26维空间降到21维空间。在命令行窗口输入命令:mfcc_result=bsxfun(@minus,mfcc,mean(mfcc,1))*tranMatrix;并回车,得到降维结果。选中工作区,点击右键,选择“另存为”保存在.同一文件夹下,命名为^,如下图:工作区®名称上值coeff26x26double-工作区®名称上值coeff26x26double-latent252double-mfcc//1887x26do-rnfcc_r-esuIt储fSSZxZFdo-rate26x1double-scoreff1887x26do.IranMatrix26x2^dauhlwtsquared11lB87x1dou.<〉国变量二mfcjresult(mfcc_resLilt当前文件夹©□名称上承bank-data.arff上了bank-new.arff土|imfcc.mat±mfcc_result.mat12345159.32^534.71S2-6.A0464.22g-0.4&77256,594733,89863.0973-3.30954.5375361525533,2386-4.4212-0.51766.3767458,065336,56382.4012-0.7021-1.0022561,752226,4265-5.5334-3.76720.66&7668.70^334,8022-10.3295-12.3318-0.71411&4.774133,7058-10.1349-1.27352.3O52866,733723,1325413471.80646.3870971,879132,0603■a.0790■0.523011,921110&4.7O3629,1310-0.8056-3.33S37.73091166l151818,3875-2.7751-7.64162.9612<FR11lS87x2ldouble命令行窗口>load(Jmfez.mat")>[coeffszorgjlatenttsquared]=pca(mfcc);>rale=cuusum(latent)./sum(latent):»tranMatris=coeff(:j1:21);>mfcc_result=mfcc*tranMatrix;实验分析MATLAB的PCA函数分析为自带的函数,其各个变量代表的意义如下::为要输入的维原始数据。:是矩阵所对应的协方差阵的所有特征向量组成的矩阵,即变换矩阵或称投影矩阵,每列对应一个特征值的特征向量,列的排列顺序是按特征值的大小递减排序。:也就是说原矩阵在主成分空间的表示。它是对原始数据进行的分析,进而在新的坐标系下获得的数据并将这维数据按贡献率由大到小排列。:是一维列向量,是所对应的协方差矩阵的特征值向量,每一个数据是对应里相应维的贡献率,因为数据有维所以列向量有个数据,由大到小排列。:是表示对每个样本点的方统计量。3.2实验代码行分析通过自带的函数,得到数据的通过自带的函数,得到数据的果。函数分析结计算特征值的累计贡献率,算出降维后的空间所能表示原空间的程度。tranMatrix=coeff(:,1:21):根据得到的累计贡献率,分析需要保留的维度数,因为只需要能表示原空间以上的特性,就可以保证数据完整性。通过查看的结果,前21个特征值就可以表示原空间95%的特性,同时原空间所有的特征向量组成的矩阵为,所以保留的前21个列向量。mfcc_result=bsxfun(@minus,mfcc,mean(mfcc,1))*tranMatrix:score为原空间在主成分空间的表示,但是进行了维数据按贡献率,其计算表达式为1。由于的特征维度数也是经过排序的,所以不能直接用原数据得到降维后的空间,只能通过1来计算。实验结果实验得到的结果保存在^文件中,最终降维后的数据有以下变化:结果数据没有打乱样本的排列顺序。结果数据的维度排列顺序进行了改变,按维度对数据的贡献度进行降序排列。结果数据保留了原始数据至少95%的特性,并且减少了5个维度,总体降维很成功。本次实验采用的算法在数据进行降维的同时对数据进行了处理,所以最终数据与原始数据不能进行直接对比,需要使用本结果数据进行数据识别时,请参照“1.3降维步骤”进行测试数据的处理。以下为结果数据的部分显示截图:wrfac_riwiA.|田TI«WT®的通|e34TE0w11iz15H1914-1713192D21221尊■用。-UlTfl心?ranl«MJJfW•13翎心也再-3.WK1收|距-1咏中皿MW00<W2JJS3TiOJiM;•ZMIE^tDM3i.3»l■CL3E2HDJ-3E&-Z.I3UTEWZ.ZTCI3X班■EL4CM3需以4」阖击a.^iS5Mid益4-1.的打阖DS42T-ljStJ+7业的巧-上卬工17E4il与1苑i3.JD&S■uni$勇的4咂9S72323总”j.D7»-1J5SJD.42E4■9-544L14W1$瓶|■ftSM?之拈得.3l?6W■i犯:5-MJDl-1-iWTT7却3Z.1I3P冢gl■TMM■MM•114336■<M471(MM140IM3.ZTM•口M3fl192Md•UlTdduand.n»74LSGK-4127lM.口wihiki.iniT3.11?Qo■3口aasm-I.IDId1.3TU1.5JO97-MMa1.W553-J«9T.75DO■acmji.4m5.2口17MISU3-J3GSIJH35-JJ4JEUM,-JS.9149-CLZU7a之事副.口和柚心际工[.他L5M2-lJ>b=•打12:治医4翊,a«4-]-AI45e.a的-IJUig3届招S-iTifiJ-i.EM.3i.SB^•B177n■3.75«iMM?T,0rnftKTO嘘海a"能IDMZTfl7,7253O.IWO出盘落■l.FTdFQ焙73■1哂冢您am配z副HaiE=-7睦1■IJZMDWM«WK3ii□J3曰-■LainT-ua?2T-11^731-LUS?-2.11JJuaQiif.ld跑口Jdd7-3JKLauiiQJTTflI.lCTd[U7DIIZ■Z.«rj1JZZI■3J44+-JPM5±CZ4Z-ZSEH-i.giDi~1.7-2.777Bq叫eAmiDL27TMU4O5IS二百-737£&4。1颦-1.ESM金诵皿1.72»qmnJdSMTq涧g喇l.l^MA值安BitMIM-3jWiCas™->.0-?]1.30MZ20Ma岫bP55吟2.7^1hWW1.5K54>4n&5■52M3M何-3.13212M5T-0Z2M2孙3■I3K5"2项T141Tl121MM-CCT31I.DH1-I3D55I,^STd-1.U29IE■1.71MS.I3MJJ49D1P1I&-1.1T73-Q.4U93.KAIajff73H■apuz•CUH•1JZM■Zd7K1T斓怡£曲甘邛报三岫,-1L4T4I管如^i£»百触心回乩蓊匕-上图J41%.liiTSIB仃密-i.US.生MM■I.QIEa1就越ajfi370>不强上住03177■?"MflIO4即9-i.MJ-13W6荤N-1.P»43mww■翻・0■ft1W2■1.MK2-&11??an■{M1«-■月涮-aiEli5.1331■2WW■QMH1.7;19-SB33S04131iOSSTasmaswjM3TI图4-1结论PCA的原理就是将原来的样本数据投影到一个新的空间中,相当于在矩阵分析里面学习的将一组矩阵映射到另外的坐标系下。通过一个转换坐标,也可以理解成把一组坐标转换到另外一组坐标系下,但是在新的坐标系下,表示原来的原本不需要那么多的变量,只需要原来样本的最大的一个线性无关组的特征值对应的空间的坐标即可。PCA还具有以下一些优缺点:优点:它利用降维技术用少数几个综合维度来代替原始特征的多个维度,这些综合维度集中了原始维度的大部分信息;它通过计算综合主成分函数得分,对客观现象进行了科学评价,得到维度贡献率的排名,对维度重要性的估算非常理性化。缺点:当主成
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 第19课 科学技术的重大成果课件
- 2024年专业电工施工协议典范
- 中国特色社会主义基本原理(上)
- 2024年度层电梯厅装潢协议模板
- 2024年无薪实习劳动协议
- 2024年仓库租赁法律协议细则
- 2024年型车辆采购协议
- 2024届安徽省合肥高升学校高三八校第一次适应性考试数学试题试卷
- 2024建筑业劳务施工协议文本
- 2023-2024学年浙江省温州市九校下期第二次质量考评(3月)高三数学试题
- 《一只窝囊的大老虎》名师教案(第二课时)
- 高中生心理健康教育课教案(15篇)
- 公司隐私保护管理制度
- 2023-2024学年全国初中八年级上政治人教版期中考卷(含答案解析)
- 公园绿化保洁管理制度方案(2篇)
- 2024年高考数学(理科)全国3卷(精校版)
- 中国新闻事业史 知到智慧树网课答案
- 新质生产力-讲解课件
- 形势与政策(论当前国际形势和中国外交)
- 第六章常微分方程
- 《研学旅行课程设计》课件-体验式学习课程内容设计
评论
0/150
提交评论