基于主成分分析的特征提取方法研究外文翻译_第1页
基于主成分分析的特征提取方法研究外文翻译_第2页
基于主成分分析的特征提取方法研究外文翻译_第3页
基于主成分分析的特征提取方法研究外文翻译_第4页
基于主成分分析的特征提取方法研究外文翻译_第5页
已阅读5页,还剩20页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

本科生毕业设计外文资料翻译题目基于主成分分析的特征提取方法研究电电子信息工程所在学院信息科技学院附件I.外文资料翻译译文2外文原文外文译文1内核PCA算法第二部分:快速交叉验证和近红外光谱数据分类中的应用摘要:尹CA算法,即N伊盍us,电力法〔电力》,奇异值分解(SVD)和特征值分解(EVD),其内核版本是三个近红外数据系统地应用。交叉验证用于确定作为输入所需的线性判别分析LEA)的pc因素。作为降维方法pc巛LD盍的成动分类所有三个数据集。内核算法的速度比其相应的经典算法。四个经典的算法,的是最快的。只有少数的电脑需要时,内核劝率的测量方氵去是最快的算法。当所有的电脑是必需的1EVD是最有效的四个内核算法,应用交叉验证时,内核的EVD相比大人降低了运行时间的经典算法。为了进一步加快交叉验证,提出了两个矩阵的更新方法。正常的交义验证过程相比,第一种方法略有提高使用正常内核的交叉验证的速度。第二种方法大大师快了交叉验证,但需要修改内杉的EVD算法。1介绍近红外光谱0皿、)己成为一种广泛使用的分析技术在制药、食品等行业。例如,在临床研宄中,近红外可积极识别不同剂量的药物用于快速非破坏性测量片剂或脛囊“强大的化学计量学工具,如主成分分析0“)经常被用来分析近釘外光谱数据两。在以往的工作中,我们使用的pc因素作为输人的线性判别分析(LDA)二次判别分析(QDA),正规化的判别分析(RDA)的。然而,我们发现,近红外数据“是缓慢的,尤其是当交义验证用于确定因素,在分类的数目。四个经典PCA算法已被改装成快速和节省计算机内存内核一pc盍的叫在本文第一部分所述的版本。在第二部分中,内核“算法应用于三个工业近红外数据集应用到真实的数据时,以展示他们的效率。快速的交叉验证方法的基础上最的有利内核虬盍算法被提出。2理论21符号屿×p数据矩阵行丐(对象〕和列p(变量龙X n×p数据矩阵有n行和p列交叉验证步骤期间使用的变量。ntxp临时测试集数据矩阵与行(左出的对象〕和p列用于预测的变数在交叉验证步骤。L pxt、在x上获得pc盍的的载荷矩阵。在上获得的得分矩阵。s xr预测的得分矩陈\U n×r异向量矩陈的行特征向量矩阵为x22回顾内核盍算法经典PCA算法是有效的数据集,其中有多个对象比变量。对于范围内的数据,如近红外数据,变量的数目(是比对象的数目〔n〕高得多。经典的算法,然后变得很慢,需要一个大的内存空间,因为这些算氵去估计载荷矩陈列特征向量矩阵x叹()X。当p高,规模较大的矩阵xx,内杉算法是基于矩阵冫(过×过的〕。当p>冫N,矩阵)的规模也比较小。因此,内杉算法有利于有许多变数和丿L个对象0>>0的数据集。即四个经典算法1盍,电力法(电力),奇异值分解(SVD)和特征值分解(EVD)被改装成自己的内核版本,在第一部分。仿真研兖表明,SVD的范围内的数据,是最高效的四个经典算法,是最有利的些个内杉算法。内核算法给出了相同的分数,负荷和经典算法的特征值,当p>时更快。23交叉验证和更新程序当pc盍被用于降维方法的分类,交叉验证通常被用来确定的一些因素,如凵盍模型。对于小规模的数据集(即lown),交叉验证(LO通常被应用“在同一时间作为验证对象留下一个对象。其余对象用十设置进行了PCA的培训。主成分分析后,给定数量电脑因素用于建立LDA。对象的分类结果是由pcIDA的模型预测。然后另一个对象被省略了上述程序。这是重复,直到所有的对象都一度被冷落。在最后,所有的对象都被列为一次一正确分类记录。为不同数量的虬因素(),即所谓的分类正确率(CCR)获得,最佳的个人电脑数量由最好的分类结果,即最高CCR的决定。请注意,这里不使用交又验证树立止确的pc盍模型描述的光谱数据。相反,交叉验证选择最佳数量电脑进入LD盍分类模型的因素的。对于较大规模的数据集,是非常耗时的,而且,结果不乐观。每次只有一个对象是离廾n很大时,剩下的很难在设置上发生变化。因此,Loo的结果通常是过于乐观,获得一个独立的测试集。你也可以使用交叉验证(莱索托)。在莱索托的对象,每次一个段被冷落,数据集x被划分成数段或删除组0G〕,例如,髯每个段中包含的所有类和或多或少平等的每类对象。它是通过随机分成组分别为每个类的对象。如果一个人随机选择的对象,而不是挑选对象的定义类,它可能会发生有一些缺失组中没有对象。其他步骤是和似的,除了一个人离开,并预测一个对象,而不是只有一个对象的段L00。当删除组(ND&)是相等的对象的数目(n),莱索托是相同的L00024分类可以用不同的方法,如LDA的,QDA和RD盍后02A的分类。LD盍,QDA和k上.A之间的区别是,它们适用于不同的协方差矩阵,这是用来分类对象分类的分数。IDA是最简单的三种方氵去,并使用合并协方差矩阵。在这项研宄中,只有LDA是作为一个例子。其他分类可以用类似的方式。作为分类标准的分类正确率(CCR)的交义验证的基础上计算。变量主成分分析后,降低其相应的特'正值的顺序排名“高特征值对应的pc因素不一定包含的大部分信息分类。它有时会发生,最初的几个电脑主要类内方差的解释。在这项研宄中,我们首先选择根据翔实的PC/类内方差作为IDA的输入之间的比例。5速度算法速度算法可用执行算法或触发器的数量(浮点运算〕所需的时间来量。所用的时间是简单和容易理解的,但依赖十计算机和编程语言的速度,而触发器的数量不会改变时,不同的硬件和软件使用。然而,当触发器的数量比010更大,Matlab的内置计数器(40版)提供错误的结果。当用于近红外光谱数据集,尤其是当应用交叉验证,触发器的数量往往是非常人的,所以,速度算法在这项宄中所用的时间比较。触发器数量也被用来作为在某些情况下的参考。8的RAM内存,所有计算均在赫兹的486DX计算机。所有的算法编程使用WmdowsMATLAB(40版)。3.实验]数据三大产业的近红外敖据集分析PCA比较算氵去。所有数据集预处理(SNV),纠正散射光的影响及粒径。图la还三套数据显示各阶层的平均光谱。他们列集中在建模一三个相同的数据集,在这里,我们只是简要介绍。0000000图I.设置的所有数据类的平均光数据集1《a),数集20〕和数据集3忙)数据集]包含近红外光谱0376.2398m№到2波长)的三批辅料(排除活性物质的药物配方的化合物)是山混合纤维素,甘露醇,蔗糖,糖精钠,柠懞酸制成在不同的比例。每类包含20辅料同一批次的样品测得的光谱。目的是为了迅速区分不同批次的辅料。数据集2包含83近红外光谱03一2352nm,5]2波长)4polymerproducts质量等级。第类包含22光谱,类2和3各20光谱,和4类包含2]光谱。这组数据的目标是建立一个快速的方法来评估一个产品的质量。数据集3包含]35近红外光谱(]佣250,700波长〕含实验的活性成分,安慰剂和临床比较不同剂量00,50,100和200毫克)的药片。分别有巧,17,巧和21类不同剂量,在安慰剂类47光谱在比较类和20个光谱的光谱。通过泡罩包装,这有助于到]7閬纳米的光谱测量光谱。4结果与讨论4]主成分的提取对于近红外光谱数据集,通常使用的前丿.L个电脑,可视化的数据。例如,第3个估计研究的数据结构(图2A一0。图3A-B显示PCI-PC2的和PCI-PC3的,图的得分图。3C显示,第3电脑数据与经典的SVD算法加载模式设置1。提个的所有算法产生相同的分数,负荷和特征值:綹2三个数据的快速电脑的得分情节设置〔以数据设置2儲)和数据集3咤)拖的时间和数量的数据集1.3。结果表明,对其三个数据集,内核算法速度比其相应的经典算法。对于数据集3,经典的电力和嘞不能被应用,因为内存的问题,而其内核版本仍表现良好。SVD的是最快的四个经典算法,而电力是最有效的四个内核算法。所有8个测试算法,内核POWER是最快的。。通过更新的交叉验证图3A-c从LOO获得三个数据分类结果分别设置,图。4D是从莱索托获得5删除数据集3组。这些结果表明,LDA的成功分类所有三个近红外数据集作为输入变量使用个人电脑。当亻吏用交叉验证,触发器的数量是如此之大,它不能正确Matlab的内置计数器,计数,因为PCA的梳理出多次:因此,只有经过时间用来比较的算法。定心使用过程中的交叉验证。给出了正常的交叉验证程序时亻吏用的算法的比较结果。结果表明,内核算氵去相比,其相应的经典算法的计算时间减少2到75的一个因素。4比较正常的速度和更新的两个交叉验证的程序,我们使用的内核的EVD进行主成分分析。结果表明,第一个史新的过程是速度比正常程序,但不是很。第二次更新过程大大加快了交叉验证因素。分类都更新程序得到的结果是相同的,那些正常的程序。图3。分类结果与电脑数据设置为1(—),数据集2(B)和数枞集基础上LOO(过,数枞集3根据莱索托5删除组(些〕使用常的交叉验证过程5结论结果表明,与降维方法主成分分析LDA的成功送给所有3数据集分类。内核算法的速度比其相应的经典算法。四个经典的算氵去,SVD的是最快的。当所有的电脑都需要,EVD和SYD的四个内核算法更高效。应用交义验证时,内核的“D相比大大降低了运行时间的经典算法。内核EVD的速度进一步提高使用的更新,而不是正常的程序交叉验证“当第3个是必需的,内核电源是所有算法中最快的。然面,内核的EVD的一部分,我的模拟数据,是最快的前几电脑所需。由于pc盍是通常只执行一次时,最初的几个电脑,如显示数据的需要1在经过电力内核和内核的EVD之间的时间差异并不丿0·于内核EVD是要求所有的2时的首选方法,它是最简单的使用在所有情况下,内核的EVD这一结论也适用于广泛的数据校准设置虽然本文一直只用于仅在近红外光谱数据集的分类。外文译文2人工神经网络在近红外光谱数据分类.输入的选择摘要.人工神经网络0“〕通过近红外光谱,以确定药物配方的不同优势,不同溶剂和聚合物的资格,作为分类器识别的一个分类。为了消除一些无关紧要的信0减少变量的数目,根据单因素特征选择的几种预处理方法,如主成分分析()c盍)和费舍尔变换(T艽对9个数据集的处理,宄不同的数据顸处理方法的效果,选择经网绍的输入。利用主成分分析法@CA〕方法大大降低了新经网络9个数据集结构。我们的研宄结果表明,主成分分析/T是有效的方氵去进行预处理,作为神经网络的输入数据。I介绍人工神经网络(NH)己成为一种流行的分类和校准工具。zupan和Gasterger在应用化学审查提出了一个优秀的新经网络。在监督分类,要求先验知识对品类加入一组对象来开发一个分类觐则,前馈网训练的反向传播学习算氵去是最流行的:神经网络在化学垢长的原因是由于几个经典的分类方法,需要一些有关数据分布(egnomal分布)假设的事实“人工神经网络可以应用到任何的分类问题,雎一的要求(线性,非线性,模糊等〕训练集是代表和包含是够的对象。训练集应包含隐式依賴和独立变量之间的关系有关的必要信息。多层网的架构(隐藏层的数量,节点数量〕是依赖问题。1T架构的选择,虽然仍是一个悬而未决的问题,我们在这一领域的经验表明,最小的净架构的数据关系提供了一个更好的泛化。减少网络结构的可行办法之一是重修剪,另一个是数据顸处理(可变预选和7或转换〕。主成分分析02却是最流行的数据预处理方法。它允许数据缩减和正交与多维敖据,如光谱数据进行处理时,这是特别有用。pc的成绩,而不是为净输入的原始变量的应用,导致诤架构有效减少〔即输入层节点的数量和数量的权重降低),通常是提高速度的训练阶段。为諍输入使用个人电脑的数量也有优化。减少电脑数量时,我们通常会消除与最小特征值相关的个人电脑。然而,在模式识别,也不能保证方差最人的电脑反映在阶级差别人之间的阶级差别和小。系统净投人使用个人电脑的数量减少,从这一观点似乎没有不合理的。因此,有必要修改这种类型的数据顸处理。在本文中1选择不同的数据预处理方法的研宄,在近红外光谱数据分类神经网绍的输入。2理论2过数据预处理在这项研宄中所使用的近红外光谱包含约7開个波长“如果这样的高维数据直接输人到神经网络,权重的数量是非常大的。这需要一个高容量的储存记忆体的电脑,成本的计算时间训练净。此外,神经网络的结果将是不稳定的,因为对象的数量相比是非常小的变量的数目。另一个问題是,近红外光谱数据的共线性。随着反向传播学习规则,适应经网络的权重中的错误表面最深的梯度方向。如果输入变量是止交的,学习的速度快。然而,变量之间的相关性,使培训是非常缓漫。因此,有必要减少近红外数据的维数。2.2与PCA相结合的特征选择()S/PCA)有两种方法来处理高维问题。一个可以选择的变量(特征选择),以达到史好的识别。山维数据特征选择,可以减少,不相关的信息可以在同一时间消除。然而,数据的特怔选择后,仍然不正交,使人们可以预期的训练阶段,仍然是费时。特征选择和PCA相结合,可以解决这个问湖。在功能选择,多元战略,如逐步回归方法,遗传算法,模拟退火法的报道。然而,所有这些都难以适用。在这里,我们仅适用于根据费舍尔的系数标准,这是类内方差类间方差的比率,即单变量的特征选择方法,最简单的单因素的战略。特征选择后,减少了数据止交。甴的得分,然后用神经网络的输入。在极端的情况下,当没有功能,可以消除和所有选择,这个过程是相同的主成分分析,这是这里没有结合“A0下s/PCA)的特征选择常用的程序,以避免主成分分析与其他用途混乱。23F旺与PCA相结合(PCA/FIT)另一种方式来减少变量的数目是提取潜在的或其他的全局变量,以减少维数。傅里叶变换可以用来减少变量的数目。但是,傅立叶系数不止交。其他两个行之有效的技术可供选择:主成分分析()C却,费舍尔变换(T〕的。在p“提取第一部分,因此,它最大的差异。第二部分最大方差之间的正交第一1依此类推。在F惯,在pc盍提取的组件(或规范功能)是原始变量的线性组合,组件类间方差最人类内方差的比率,是不相关的彼此。第一判别元件的方向貝有最人费舍尔的标准。第二个判别元件的线性组合,这是不相关的第一个组件,并拥有最大的费舍尔的标准。第三判别组件实现与丽两部分,这是不相关的,具有最大的费舍尔的危机聚四氟乙烯。它继续进行,直到得到g-l费舍尔判别元件,其中g是班级数目。这些费舍尔组件是正交的,如果数据中心。费舍尔线性鉴别分析,最后一步是建立一个线性类的边界,这需要每个类的协方差矩阵iE态分布和平等的假设。在这里,我们也预计到g-l维判别空间的原始数据,但生成的类使用神经网络的边界:pc盍和FIT都有一些缺点。主成分提取的信息,这是具体的分类比。FIT的对象必须是大于变量的数目是有限的。因此,我们结合这些技术进行顸处理近红外数据。我们首先运用主成分分析的原始变量的数量减少,然后用电脑输入F的步骤,然后产生新7经网络的输入分数。总数等于的因素变量或对象的数量,以较小者为准。在我们的例子中,这意味着pc的因素总数是相等的对象数量。根据我们的经验,如果对象的数量是00多家大,第一季度的pc因素包括几乎所有的数据差异。因此,我们用PCA来减少变量的数目,以1/(为对象的数量〕FIT之前,作为神经网络的输人和应用费舍尔判别元件。3实验从工业实践进行了分析得到9个近红外光谱数据集。我们以往的研宄表明,前4个数据集是相对简单的。正则化判别分析(RD却可以正确分类所有对象当一个傅里叶变换或pc用于减少变量的数目。数据集,一股5,6很难分类,因为较大的班级数(>(0).数据集6一9是非常难以归类,因为在这些数据中设置至少一个类甴两个以上的子群,这违反了一正态分布假设。这些数据集的人部分已在我们以前的论文。这里只是一个简要说明;它包含40片含有药物在不同剂量(0025,005,“75和0巧毫克〕和3种安到剂,每类包含20光谱的光谱(749汲长),它包含60片含有药物在不同剂量01,025,“,10和25毫克)和3种安慰剂,每类包含20光谱的光谱(749汲长),它包含光谱片含有不同剂量的活性成分,比较和安慰剂组00,到,1的和2閬k引(670波长)每一类分别包含巧,7,巧,21,20和47光谱。它包含95片含有不同剂量的药物0,5,5,10和12毫克)和5种安慰剂的光谱049汲长)。每个类包含20个光谱除第8类,其中包含巧。它含有3种聚合物产品159光谱巧12波长).13类包含分别为22,20,2022,5,5,5,5,5,10,20,20和10个谱。它包含5种溶剂含有2个亚组,每溶剂(纯和不纯〕252谱巧〕2波长)。2类包含5,31,5,0,]5,30,15,315,30,4和3]光谱每个“数据设置7是相同的数据集1,但为了有严重违反了正态分布假设的数据把它作为一类三种安慰剂。数据设置8是相同的数据集2,安@剂三种放在一起作为一类数据集7同样的原因。数据设置9是相同的数据集4,但把它作为一类中于同样的原因,如上所述五种安慰剂。4数据设置的选择甴于一些技术(如CAFIT相结合,以获得最终的结果,需要设置一个独立的测试,以验证神经网络的结果。我们还需要设置一个独立的测试,以监测神经网络的训练,克服过拟合。这意味着必须至少有两个数据集(训练集和测试集)划分数据集。我们应用的肯纳德石方法来选择训练集。用这种方法,3/4的对象分别选择每个类,并作为训练集,余下的对象构成的测试集。5.神经网络神经网络是误差反向传播的多层前馈网络应用。误差反向传播是一个这代梯度下降的过程,最大限度地减少根均方误差之间所需的输出和实际输出(RhiS)的训练集,被称为根识别(RMSER)平均平方误差,为测试集,它被称为根的预漁均方误差(。这里使用的网络山两个活性层,其中包扌叾s型传递函数的隐层。皿是使用配料输入,自适应学习率和动量训练。学习率和动量的初始值是固定在01和0描述一类对象的归属感目标向量设置为二进制值(对应的类)和0(其他类)。缩小到01一“每个变量的输人和输出。神经网络结构优化的修剪方法。实际输出被分配到类,其和应的节点,拥有国内最人的产值和值小于05“神经网络的性能评估测试集。该模型产生的最小测试集的“然后作为最佳的选择。在我们以前的工作,努力作出检查后,最终的分类结果净重随机初始化的影响。例如,设置数据重新运行一个神经网络00与4个隐藏节点的输人节点)与随机初始权重的结果在训练和测试集的分类正确率(CCRS),每次等于百分之百的倍,而RI的培训和测试集的平均值为00565和005四,标准差为0開6]和0開59,分别是平等的“它表明,培训和测试集CCRS不同的种子随机发生器的稳定,虽然“的变化。自适应学习率和动量,使神经网络容易成为固定的局部极小,从而使结果更加独立权的初始值。6结果与讨论最佳架构设定不同的输入预处理的神经网络的所有9个数据列于表10数据结果集13Thc0萨inaarchitcct"le就NNwithdifferentinput尹r“百a“.《nethodsD00NFS/PCAPCA/FIT从我们以前的工作中采取的3/烁9个3x4×73×4×734×22o区586凶5区83諷3x8数据集的结果表明,盍/散客减少为8个数347k5区№5×3又,6又5×Il23x54410据集的神经网络的复杂性,并保持它的一个数5巧区6区1320区6以13巧5×0X只116又0710《4X59K×5445据集相比的1PCA和FS/pc盍的相同·区《h•6崆跹4区看920区5又6 2黑4XFS/主成分分析与NFS相比,减少为六个数据神经网络架设置并不会改变这三个数据集:第一个数据集被用来作为例子,说明详细纟占果。Featureg仆ERMSEPcc嫔0CCRt〕Time(s)255074902m7.079300810〔B33018002312013巧0m0007巧007》o明00931031区8,5764四.仍1001001001001008259能29111的1的5145]35口52j531从我们以往的研宄中,我们知道,前三电脑输入4〕隐藏节点(用于上s/PCA的最佳结构因素是神经网络有足够的正确分类,无论是在训练集和测试集的所有对象。因此,这种神经网络的架构是第一次使用比较所选功能的不同数量的影Il矶表2列出了不同数目由财政司司长/pc盍预处理的功能与神经网络的结果。它显示的RMSEP减少为特怔的数量和RMSER增加,从25到巧0,而RMSER和的RMSEP增加多项功能,是比1跹更大。正确分类的训练集(CCR)和测试集(cc)的速度与动能类似的止相关关系。的提高到1佣%,并保持恒定后到达150多项功能。CORT达到1開%,并保持恒定时,100的功能己被纳入。这表明,该数据设置50个功能包含最佳的分类信0多项功能,如果是低于巧0,信息内容是不够的。选择更多的功能时,增加RMSER和的RhffSEP表示,包括一些无关紧要的信息,但是,这有没有影响和cc与功能的最圭数量(巧的,我们尽量选择神经网络的结构,使用修剪方法与寒春图。表3表30引明,神经网络结构不能得到改善。神经网络与FS/pc盍的最佳架构,基于巧0的功能是为NFS/PC盍0又4×刀相同,,在“烁啊T应用于所有功能数据。主成分分析后,第n/4因素输人到散客。散客后,我们首先输入数量最大的Fisher判别分数(即班数1一6),并增加一些隐藏节点。表4表明,神经网络能够正确分类训练集和测试集对象时,3珀3珀构可以优化(3×4×7)。对于这组数据,预处理的神经网络优化结构不受影向。原因是,这组数据的差异,主要是类间方差和无关的信息是韩常小的。7.结论FS爳2和}下s/相比,减少了六个数据的神经网络结构的大小设置,并保持相同的三套数据结构。然而,通常情况下,所不同的是不是很大,因此在许多情况下,FS/PCA的变种不会是韩常有用的。然而,盍T可以减少神经网络的结构,在史人程度上,八九个月的数据集。山此可以得出结论,PCAFIT联合使用,可作为神经网络在提出中请前至少在这里学习的数据集类型的顸处理建议:这不是显而易见的,然而,这种做法也将是高度韩线性的数据非常有用。1Kemel-PCAalgolithmsforwidedataPanIl:Fastcross-validationandapplicationinclassificationofNIRdataAbstractFourPCAagortthms,namelyNIPALS,thepowermethod(POVER),singularvaluedecomposition(SYD)andeigenvaluedecomposltwn(EVD),andtherkemelversionsaresystematcallyappliedtoEm-eeNIRdatasetsfromthephannaceuhcalindustryCross-validationsusedtodatermmethenumberofPCfactorsneededastheInputfoplineardscrtmmantanalysisLDA)LEAwithPCAasthedimensionreductionmethodsuccessfullyclassifiesallfreedatasetsThekemelalgorithmsarefasterthanthemcomespondmgclassicagorthmsOfthefourclassmalgorithms,SVDisthefastest.'WhenonlythefirstfewPCsaredesired,thekernel-PO»JERmethodthefastestofaIthealgorithmsV.nmenallPCsrequired,EVDthemostefficientofthefourkemelalgorithms,whencross-validationisapplied,kemel-EVDgreatlyreducestheelapsedtamecomparedtotheclassicalgorithmsTofultherspeedupcross-validation,twomatrixupdatingmethodsareproposedComparedtothenormalcross-validationprocedure,thefirstmethodslightlyImprovesthespeedofcross-validationbyusmgthenormalkernel-EVDThesecondmethodgreatyspeedsupcross-validation,butneedsamodifiedkemel-EVDalgorithm.l.IntroductionNear-infraredspectroscopy@TIR)hasbecomeawideyusedana'BicaltechniqueinthephanmaceuffcalandfoodLndustmesForInstance,mclinicalstudies,NIRcanbeusedforpostweidentificationofdfferentdosagesofdrugsbyrapidnondestructivemeasurementoftabletsorcapsulesPowerfulchemometmctoolssuchasprmctpalcomponentanalysis(PCA)arefrequentlyusedtoanalyseNIRspectraldataInpreviousworkweusedthePCfactorsastheInputoflineardiscrtmmantanalysisLDA),quadraticdtscrmunantanalysts(QDA)andregulariseddiscrmmantanalysis(RDA)However,wefoundthatforNIRdataPCAisslow,espectallywhencross-validationisusedtodetenninethenumberoffactorsIntheclassifierFourclassicPCAalgorithmshavebeenmodifiedintofastandcomputer-memotysavmgkemel-PCAverstonsasdescrlbadinthafirstpartofthispaparInthissecondpart,thekemel-PCAalgorithmsareappiedtothreeIndustrialNIRdatasetstoshowthewefficiencywhenappliedtoreadata.Fastcross-validationmethodsbasedonthemostfavourablekernel-PCAalgorithmareproposed.2.Theory2.1.NotationXo1kxpthedatamatrixwithIIDrows(0bects)andpcounms(variables).Xnxpte:mporatytrammgsetdatamatrixwithnrowobjectsandpcolumnvamablasuseddumngthecrass-validationstepXtn,xptemporarytestsetdatamatrixwithntrows(leff-outobjects)andpcounmvanabesusedforpredictionduringthecross-vaidationstepL pxrtheloadmgmatt-I*obtainedbyPCAonX.S nxrthescoremat-rxObtaznedbyPCAonX.S, litxrthepredictedscorematrrxforXtU nXrleftsingularvectorsmatrrxortheroweigenvectormatrixforX22Reviewofthekernel-PCAalgorithmsTheclassicPCAalgorthmsareefficientfordatasetswhichhavemoreobjectsthanvariables.ForwidedatasuchasNIRdata,thenumberofvarables(p)LSmuchhigherthanthenumberofobjects(n)Theclassicalgorithmsthenbecomesow,andneedalargememoryspacebecausetheseagorithmsestimatetheloadingmatr:xfromthecolumneigenvectorsthematrtxX'X(pXp).Vdhenpislugh,thesizeofthematrixX'XlatgeThekamelalgorithmsarebasedonthematrtxXX"(nXn).V•lhenp>>n,thesueofthematrtxXX'relativelysmall.Therefore,thekemelalgorithmsarefavourabletodatasetswithmanyvariablesandfewobjects(p>>n)Fourclass'calgor•thmsnamelyNIPALS,thepowermethod(P(NVER),sangularvaluedecompostron(SVD)andelgenvaluedecomposatron(EMD)weremodfieduntotheirkemelversionsInthefirstpart11Asimulationstudyshowedthatforwidedata,SYDisthemostefficientofthefourclasstcalgorithms,andETDisthemostfavourableofthefourkemelalgorithms.Thekernel-algorithmsgwethesamescores,loadingsandeigenvaluesastheclassicalgorithms,butarefasterwhenp>n2.3Cross-va11daticnandItsupdatmgprocedurePCAisusadasadimensionreductionmethodforclassification,cross-validationISoftenusedtodetemunethenumberoffactorsmthemodelsuChasLEA.Forsmallsuedatasets(i.e,lown),leave-one-ontcross-validation000)isnomnallyappliedInLOO,onaobjectisetoutasthevalidationObjectatonetme.TheremanzngobjectsareusedasthetrammgsettocanyoutPCA.AfterPCA,avennumberofPCfactors(npc)isusedtobuildIDATheclassificationresultoftheleft-outobjectISpredictedbythePCA-LDAmodel.ThenanotherobjectisleftoutandsubjectedtotheaboveproceduresThisisrepeateduntilallobjectshavebeeneffoutonceIntheend,all0bectshavebeenclassifiedonce,andthenumberofccn•ectcassiflcatlonsISrecordedFordifferentnumberofPCfactorsso-calledcorrectrates(CCR)areobtamed,andtheoptimalnumberofPCsisdecidedbythebestclassificatonresults,iethehighestCCRNotethatcross-validationsnotusedheretoestablishthecorrectdimensionaatyaPCAmodeldescribingthespectraldataas,forexample,inRefsRather,cross-validationisappliedtochoosetheoptimumnumberofPCfactorsenteringtheLDAclassficat:onmodel.Forlargesizedatasets,LOOsverytimeconsumingand,moreover,leadstooptimisticresultsEverytime,anyoneobjectislatoutandwhannislange,therematmngtramingsethardlychangesdurmgtheLOOTherefore,theresultsofLOC)areusuallytoooptimisticincomparisontothoseobtamedwithanIndependenttestsetOnecanalsousealeave-segment-cutcross-validationLSO)13]InsteadofLOO.InLSO,onesegmentofobjectsISleftouteachtme.ThedatasetXisdwtdedintoagivennumberofsegmentsordeletongroups(nag),eE,nag5.Eachsegmentcontainsallclassesandamoreorlessequalnumberofobjectsperclass.ItisachievedbyrandomlydwidmgtheobjectsIntonaggroupsforeaOhcassseparatelyIfonedoesarandomselectionofobjectsratherthanhavingtopickfromthedefinedclassesofobjects,ItmayhappenthatsomeclasseshavenoobjectsInsomedeletiongrous.TheotherstepsaresimilartoLOC)exceptthatoneleavesoutandpredictsonesegmentofobjectsInsteadofonlyoneobjectV,menthanumberofdeletiongroups(nag)ISequaltothenumberofobjects(n),LSOISIdenticaltoLOO.24ClassifierDifferentmethodssuchasLDA,QDAandRDAcanbeusedasclassifierafterPCA.ThedifferencesbetweenIDA,QDAandRDAarethattheyapplydifferentcovamancematmcestoestimatetheclassificationscoreswhichareusedtocassifytheobjects.LDAISthesimplestoftheåreemethods,andusesthepooled-covariancemat-rxInthisstudy,onlyLDAisusedasanexampleOtherclassifierscanbeusedtnastmllarway_Thecorrectclassificationrate(CCR)calculatedbasedonthecross-vaidationLSusedastheclassificationcriterionAfterPCA,thelatentvamablesarerankedtndacreasmgorderofthewconespond:ngeigenvalues.ThePCfactorscorrespondingtothehighetgenvauesdonotnecessarilycontamthemostinfommatlonforclassificationItsometimeshappensthatthefirstfewPCsmainlyexpla:nthewithinclassvariance.Lnthisstudy,wefirstselected:nf01mat1vePCsaccordingtotheratwofbetween/v.rithlnclassvarianceandusedthemastheinputofLDA_2SpeedofalgorithmsThetimeneededforperformingthealgorithmorthenumberofflops(floatingpomtoperations)canbeusedtomeasurethaspeedofalgorithmTheelapsedtmesmplaandeasytounderstand,butdependsonthespeedofthecomputerandtheprogramminglanguage,whilethenumberofflopsdoesnotchangewhendifferenthardwareandsoftwareareusedHowever,whenthenumberofflopsISlarger10than10'theMatlabbuilt-incounter(verswn4.0)giveserroneousresults.LilhenNIRdatasetsareused,especialywhencross-validationisapplied,thenumberofflopsisoftenextremelylarge,sothattheelapsedtuneisusedLnthisstudytocomparethespeedofagarlthms.Thenumberofflopsisalsousedasreferenceinsomecases.Allcalculationsareperfommedona50HzPC486DXcomputerwith8WIBRAMmemoryAllalgorithmsareprogrammedus:ngWindowsMatab(verston40)3.Experimental3.1.DataThreeIndustrialNIRdatasetsareanalysedbyPCAtocomparethealgorithmsAldatasetsarepretreatedbySNMtocorrecttheeffectsofscatterightandparticlesize[15]la-cshowthemeanspectraofallcassesforthefreadatasetsTheyapecolumn-centreddurmgmodelling_ThesamethreedatasetshavebeenusedmRefsherewejustbrieflydescribethemDataset1consistsof60NIRspectra(13762398nm,512wavelengths)ofthreebatOhesofofadrugfomulatianwithexclusiontheactwesubstance)whicharemadebym11Lngcellulose,mannitol,sucrose,sodiumsaccharunandcutl'lcacidindfferentpropoltionsEachcasscontamsthespectrameasuredfor20samplesofthesamebatchofexcipiantsTheamstoqucklydistinguishdifferentbatchesofexciplents.Datasetcontains83NIRspectra(1330-2352nm,512wavelengths)of4qualtyclassesofpoymelproducts.ClassIcontamsspectra,classesZand3each20spectra,andclass4contams21spectraThegoalofthisdatasetistosetupafastmethodtoassessthequal'tyofaproduct.Dataset3contams135NIRspectra(1100-2500nm,700waveengths)oftabletscontammgdifferentdosagesCO,50,00and200mg)oftheexpenmentalactwemgredlent,apaceboandacltmcalcomparatorTherearerespectivey15,17,5and21spectraIntheclassesofdifferentdosages,47spectratheclassofplaceboand20spectramthecomparatorclass.Spectraaremeasuredthroughthe131•sterpackage,whichcontributestothespectrumaround1700nnm4.Resultsanddiscussion41TheextractionofprmcpalcomponentsForNIRdatasets,onenotmallyusesthefirstfewPCstovisualisethedataForInstance,thafirst3PCsareestimatedtostudythedatastructure(Fig2a-c)_Fig3a-bshowthescoreplotsofPC-PC2andPCI-PC3,andFig3cshowstheloadingpattemsofthefirst3PCswiththeclassicSYDalgorithmfopthedataset1Allalgorthmsmentionedy:eldthesamescores,loadingsandeigenvalues.Tables1-3comparetmeandnumberofflopsfordatasets1-3.Theresultsdemonstratethatforallthreedatasets,thekemelalgorithmsarefasterthanthen-correspondingclassicalgorithmsFordataset3,theclasslePOVERandEVDcouldnotbeappliedbecauseofout-of-memoryprobems,whiletheirkemelversionsstilperformwel_SVDisthefastestofthefourclassicalgorithms,whilePOIVERISthamostefficientofthafourkernealgorithmsOfaIeghtalgorithmstested,kemel-P01%ERsthefastest42Cross-validationbyupdatingFigSacshowtheclassificationresultsobtainedfromLOC)forthefreedatasetsrespectively,andFig_4disobtamedfromLSOwithdeletiongroupsforthedataset3TheseresultsshowthatLDAsuccessfulyclassifiesallureeNIR-datasetsbyusLngPCsastheInputvariables.16cross-validationISused,thenumberofflopsISsoargethatitcannotbecorrectlycountedbytheMatlabbuilt-mcounter,becausePCAiscardedcutmanytimes.Therefore,onlytheelapsedtuneareusedtocomparethealgorithmsColunm-centxmgisuseddunngthecross-validationTable7liststhecomparisonresultsofthealgorithmswhenthenormalcross-validatcnprocedureisused.Theresultsshowthatthekemelalgorithmsreducethecomputingtimebyafactor2to75comparedtothenclasscagotlthmsTocomparethespeedofthenorm.alandthetwoupdatingcross-vaidatlonprocedures,weusedkernel-EVDtoperformPCATheresultsforthethreedatasetsareshownmTable8.TheresutsdemonstratethatthefirstupdatmgprocedureISfasterthanthenomuprocedurebutnotverymuchso.Thesecondupdatingproceduregreatlyspeedsupcrossvalidation(factor5).TheclassificationresutsobtamedwithbothupdatmgproceduresareIdenticaltothoseWiththenomulprocedure5.ConclusionTheresultsshowthatLDAWithPCAasthedimenswnreductionmethodsuccessfulyclassifiesalltheHureedatasetsThekemelalgorithmsarefasterthanthewcon-espondmgclassicalgorithmsOfthefourclasscalgorthms,SVDISthefastestallPCsarerequred,EVDandSVDarethemoreefficientofthefourkernelalgorithms.lithenthecrossvahdatwnisapplied,kemel-EVDg:eatlyreducestheelapsedtimecomparedtotheclass'calgorithmsThespeedofkemel-EVDisfurtherimprovedbyusingtheupdatmgcross-validationInsteadofthenonnaprocedure'Whenthefirst3PCsarerequzred,kemel-PO%VERisthefastestofallalgorithmsForthesmulationdataofpartI,however,kernel-EVDwasthefastestwhenthefirstfewPCswaredestredSmcePCAisusuallyperformedonlyoncewhanthefirstfewPCsarerequredsuchastodisplaythedata,thedifferenceInelapsedtunebetweenkernel-POIVERandkernel-EVDisnotlarge.Sincekema1-EVDISthemethodpreferredwhenallPCsarerequired,its:mplesttousekemel-EVDmaIInstances.ThisconclusonalsoapplestocalibrationofwidedatasetsalthoughinthispaperithasbeenonlyusedonlymclassificationofNIRdatasets17ArtificialneuralnetworksmclassificationofNIRspectraldata:SelectionoftheinputAbstractArtificialneuralnetworkswthbackamorpropagationarausedasacassifiertoidentifydifferentstrengthsd:ugsinformulations,differentqualifiesofsolventsandpolymerstroughNIRspectraToelimmatesomermelevantinfommatlonandreducethenumberofvariables,severalpretreatmentmethodsbasedumvartatefeatureselection,prmcmpalcomponentanalysis(PCA)andFishertransfonnation(FIT)andsomecombinationsaredevelopedNinedatasetsaretreatedtostudytheeffectofdifferentdatapretreattnentmethodstoselecttheInputofNNPCAfollowedbyFITgreatlyreducesthearchitectureofI-TNforeightthemnedatasets.OurresultssuggestthatPCA/'FITisusefulwaytopretreatthedataasInputofFNl.IntroductionArtificalneuralnetworkshavebecomeapopularclassificationandcalbrationtoolAnexcellentreviewofthepossibleapplicatonsofNNmchemtsttyISpresentedbyZupanandGasteigepInsuperusedclassificationwhichrequiresaproriImowledgeaboutthecategorymembershipofasetofobjectstodevelopaclassificationrule,thefeedfotwardnetstrainedbythabackpropagationleammgalgorithmarethemostpopularones.ThereasonofgrowmgInterestofNNsInchemistryduetothefactthatseveralclasscalclassificationtechniquesrequwesomeassumptionsaboutthedatadistribution(e.gnormaldistribution)NI•Tscanbeappiadtoanyclassificationprobem(linear,non-linear,fuzzyetc)withtheonlyrequirementthatthetramungsetisrepresentativeandcontamsenoughobjectsThetrammgsetshoudcontamImplicitlythenecessarymotmatlonabouttherelationbahveenthedependentandtheIndependentvariables.Thearchitectureofthemultilayernet(numberofhddenayer,numberofnodes)ISproblemdependentAlthoughtheselectionofthenetarchitectureisstillanopenquestwn,ourexper:encethisfieldsuggeststhatmntmalarchitectureofthenetprovidesabettergeneralizationofthedatarelationOneofthepossibleapproachestoreducethenehM01kstructureISweightprunmg,andanotheronecanbedatapretreatment(variablepreselectionand/ortransformation)Principalcomponentanalysis(PCA)isthemostpopularmethodofdatapretreatmentItalowsdatareductionandorthogonahzatton,whichisparticularlyusefulwhendealmgWithmultidmenstonaldatasuchasspectraldata.ApphcatwnofthePCscoresInsteadoftheorig:nalvariablesasthenetInputleadstoefficientreductonofthenetarchitecture(ielowersthenumberofnodesintheInputlayerandthenumberofwe:ghts)andusuallyenhancesthespeedofthetrammgphase.ThenumberPCsusedasthenetinputalsohastobeoptumzedIVhenreducingthenumberofPCs,weusuallyeliminatethePCsassociatedwiththesmallesteigenvaluesHowevermpattemrecognition,thereISnoguaranteethatthePCsWiththelaigestvariancereflectthelargebetween-classdifferencesandthesmalwithin-classdifferencesFromth1SviewthesystematicreductionofthenumberofPCsusedasthenetinputsdoesnotseemtobejustlfred.Therefore,itisnecessarytomodifythistypedatapretreatment.Intluspaper,differentdatapretreatmentmethodsarestudedtoselectheunputofNNIncassificationofNIRdata2.Theory21Datapre-processingTheNIRspectrathatareusedmthisstudycontamabout700wavelengthsIfsuchhghdimensionaldataaredirectlyInputintotheNM,thenumberofweights'sextremelylarge.ThsneedsacomputerWithlughcapacityofstoragememory',andcostsnuchcomputingtmetotramthenetMoreovertheresutscfNNwoudbeunstable,becausethenumbercfobjectsISextremelysmallcomparedtothenumberofvariables_AnotherpröblemisthecollmearltyofNIRdataWiththebackpropagationeamingrule,theweightsoftheNNareadaptedthedirectionofthedeepestgradientoftheenorsurfaceIftheInputvariablesareorthogonal,thespeedofleammgisfastHowever,con-elationbetweenvariablescausesthetratningtobevet-yslowTherefore,ItISnecessarytoreducethedimenstonoftheNIRdata22FeatureselectioncombinedWIthPCACFS/PCA)Thereareb.vowaystodealwithhighdimensionalityproblemsOnecanselectvariables(featureseectton)

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论