2020年论文:主分量分析和线性判别分析在分类问题中的应用.doc_第1页
2020年论文:主分量分析和线性判别分析在分类问题中的应用.doc_第2页
2020年论文:主分量分析和线性判别分析在分类问题中的应用.doc_第3页
2020年论文:主分量分析和线性判别分析在分类问题中的应用.doc_第4页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

论文:主分量分析和线性判别分析在分类问题中的应用 【摘要】对于维数较多的研究对象,为了研究的方便,总希望先将维数降低。主分量分析(PCA)和Fisher线性判别分析(FDA)是广泛应用于模式识别各个领域的两种常用方法。本文先利用主分量分析,将原始数据维数降低,然后再利用Fisher线性判别分析将维数再次降低,得到低维的数据,实验结果表明了两种方法结合的有效性。 【关键词】主分量分析;Fisher线性判别;距离判别法 【Abstract】Astoanobjectofmultidimension,wealwayshopetomakeitsdimensionreducedinordertofacilitatethestudyonit。PrincipalponentanalysisandFisherlineardiscriminantanalysisaretwomonmethodswidelyusedinvariousfieldsofpatternrecognition。Thisarticlereducedthedimensionoforiginaldata,bytheprincipalponentanalysisatfirst,andthenuseFisherlineardiscriminantanalysistoreducethedimensiononceagain,obtaininglower-dimensionaldata,finallyexperimentalresultsdemonstratedtheeffectivenessoftwomethodsbination。 【Keywords】Principlepomentanalysis;Fisherlineardiscriminantanalysis;Amethodofdifferentiatingdistances 引言 在生产p科研和日常生活中我们经常会遇到判别分类问题,在这些问题中,已经知道研究对象可以分为几个类,而且对这些类别也已经作了一些观测,取得了一批样本数据。我们需要对这些数据进行处理,找到不同类别之间的显著性区别和判别方法。 1主分量分析和线性判别分析的原理 主分量分析的基本原理:把原来多个变量划为少数几个综合指标的一种统计分析方法,是一降维处理技术。主分量分析的基本思想:主分量分析是设法将原来众多具有一定相关性的指标(比如p个指标),重新组合成一组新的互相无关的综合指标来代替原来的指标。通常数学上的处理就是将原来p个指标作线性组合,作为新的综合指标3。 Fisher线性判别分析的基本原理:将高维空间中的类映射到低维空间,并且要求在低维空间类与类之间较好区分,是一降维处理技术。Fisher线性判别分析的基本思想:对于多个类来讲,我们希望类内离散度越小越好,类间离散度越大越好。对于原始的类,我们想通过将其投影到低维空间,并且要求经过投影后达到类内离散度最小,类间离散度最大。在投影的过程中,如果投影到一维空间效果不是很好,我们可以将其维数增多4。 2实例 现对三类品种的鸢尾属(Iris)植物进行研究,希望通过研究鸢尾属植物的几个主要指标,可以将一个样本进行归类。对鸢尾属植物的四个指标进行了统计。对统计数据作如下变换: 对所有样本数据X进行中心化标准化。 对处理后的数据求解相关系数矩阵R得 求解R的特征值i和特征向量ei。 由上表可以看出,前三个特征值的累积贡献率已达到99。485%,所以我们选取前三个特征值所对应的特征向量为主成分,这样我们就将四维空间降到三维空间。原始数据经过主分量分析,位数降低,得到变换Y=X*E。 经过主分量分析,原始数据已经降到三维,我们将对得到的三维空间里的数据再次进行降维处理。我们选取各类中的前40个样本代表该类进行研究。 分别计算出各类的样本均值mk和所有样本的均值m 计算类内离散度矩阵Sw和类间离散度矩阵Sb 计算Sb和Sw的广义特征值和特征向量 对Y进行Fisher线性判别,得到变换Z=Y*W。 计算经过变换后所得到的类的均值 通过主分量分析和Fisher线性判别,我们将样本由四维空间降到一维空间。由上面的计算,我们可以得到公式Z=X*E*W。 随机选取45个样本得到样本组x,在选取样本时,前15个样本是从第一类中抽取的,中间15个样本是从第二类中抽取的,最后15个样本是从第三类中抽取的。我们首先对需要判别的样本进行变换,然后分别计算这45个样本到三类均值的距离 表2中加粗的数字表示该样本距离某类均值距离最小,也就是样本属于这个类。判别结果为前15个样本判为第一类,中间16个样本判为第二类,最后14个样本判为第三类。其中第31个样本通过距离判别判为第二类,而这个样本是从第三类中抽取的;其他样本判别均正确。在这次判别中,错误率为1/45,我们认为判别是比较合理的。对所有的样本都进行分类判别,其错误率为4/150,我们认为对数据的处理以及距离判别的方法是比较合理的。 3小结 我们在研究鸢尾属植物的三个品种时,首先运用主分量分析,在这个过程中维数降低了一维,但我们保留了99。485%的原有信息,可以说这一数据变换很有意义。在主分量分析之后,我们再运用Fisher线性判别分析,将数据进行投影,投影到一维空间。然后我们选取了45个样本进行分类判

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论