红外与近红外光谱常用数据处理算法_第1页
红外与近红外光谱常用数据处理算法_第2页
红外与近红外光谱常用数据处理算法_第3页
红外与近红外光谱常用数据处理算法_第4页
红外与近红外光谱常用数据处理算法_第5页
已阅读5页,还剩19页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、数据预处理(1)中心化变换(2)归一化处理(3)正规化处理(4)标准正态变量校正(标准化处理)(StandardNormalVariate,SNV)(5)数字平滑与滤波(Smooth)(6)导数处理(Derivative)(7)多元散射校正(MultiplicativeScatterCorrection,MSC)(8)正交信号校正(OSC)2、 特征的提取与压缩(1)主成分分析(PCA)(2)马氏距离3、 模式识别(定性分类)(1)基于fisher意义下的线性判别分析(LDA)(2) K-最邻近法(KNN)(3)模型分类方法(SIMCA)(4)支持向量机(SVM)(5) 自适应boosting

2、方法(Adaboost)4、 回归分析(定量分析)(1)主成分回归(PCR)(2)偏最小二乘法回归(PLS)(3)支持向量机回归(SVR)一、数据预处理(1)中心化变换中心化变换的目的是在于改变数据相对于坐标轴的位置。一般都是希望数据集的均值与坐标轴的原点重合。若Xik表示第i个样本的第k个测量数据,很明显这个数据处在数据矩阵中的第i行第k歹U。中心化变换就是从数据矩阵中的每一个元素中减去该元素所在元素所在列的均值的运算:Xu=为卜%,其中凡是n个样本的均值。(2)归一化处理般为单位长度。其公式为:归一化处理的目的是是数据集中各数据向量具有相同的长度,对分析信号的浅波可以采用萋种方法在这里主要

3、介绍多项式平南.归一化处理能有效去除由于测量值大小不同所导致的数据集的方差,但是也可能会丢失重要的方差。(3)正规化处理正规化处理是数据点布满数据空间,常用的正规化处理为区间正规化处理。其处理方法是以原始数据集中的各元素减去所在列的最小值,再除以该列的极差。Xikxik-min(xk)max(xk)-min(xk)该方法可以将量纲不同,范围不同的各种变量表达为值均在01范围内的数据。但这种方法对界外值很敏感,若存在界外值,则处理后的所有数据近乎相等。(4) 标准化处理(SNV)也称标准正态变量校正该处理能去除由单位不同所引起的不引人注意的权重,但这种方法对界外点不像区间正规化那样的敏感。标准化

4、处理也称方差归一化。它是将原始数据集各个元素减去该元素所在列的元素的均值再除以该列元素的标准差。xikxik-xkSk1 J2;Sk俑-xk),n-1i(5) 数字平滑与滤波数字平滑与滤波的目的在于消除随机误差与仪器的噪声,它是一种最简单的滤波方法。平滑的实质是略去数据中较小的偏离,而保留具有较大偏离的部分。设滤波值为y*k,原始信号值为yk,两者间的关系如下:y*k12m1m'ykjjzz-m式中,k为原始数据点的序号,2m+1表示窗口(滤波带宽)的大小,m为调节滤波带宽的参数。随着窗口的移动,即得到经过滤波后的7一系列信号值。滤波使数据的噪声减小,但在实际应用过程中应慎重选择滤波带

5、宽,否则会扭曲数据结构。在移动商口均值波波中.所有原始数据均给以相同的权重,这样的滤波往往使数据扭曲“若给数据以不同的权重,则回获得更有效的数据平滑口Savitzky-do-渔波就是这样抑方法,它是一种基于最小二兼原理.能够保留分析信号中的有用信息,消除随机臊声的有效的数据平滑方法.它是利用高次多项式来进行数据的平滑.其冥质是一种去卷积运算,设有M=m十】各等同距(即各相邻变量间的第离相容)最询点心<<=->«,-m+U+2.。,m1,m3在这些实验点处的测量值可对应写作:,=一07»-穆+1,-m+2*0,.J?-1.my,这里,2j?i+1称为滤波窗口

6、的宽度,或流波带宽口霜是滤波使用的原始数据的数目.通常,从量测点组成数据集中取一子集作为窗口.而不是用整个数据点.现考虑采用人一1次多项式进行拟合.即,y十门1+文/+2*+“+#7=x(2j?t+IIx*+1+®(2jw+I),<J于是就有了曾个这样的方程,料表4无线性方程组,要求解其中上个拟合参数勺。工。,八2,,AD,选取的滤披器宽度把应大于或至少等于3当冲=*时,可用线性代数的方院求解其参数,而当“点时.则必须采用最小二乘法求解.因此就有用矩阵表示为A的最小二来解为4(丫,*)】X丁,V¥的模型预测或滤波值为Y=X'AX'(XT*X)XT-y=

7、B*Y(101)这里.B仅与*矩阵有关,这样只要给用滤波带宽(25+)和多项式的次解。一1)就惟一地确定了X矩阵."矩阵是一个(2m+l)12机+】)阶矩阵,其元素称作浊波系数,式ZML)即为漉波公式,它体现滋波值与原始数据V蛆悌之间的线性关系,包含了,一1)个表达式,用于计算滤波窗口内各点的潴波值。确定滤波带宽”和多项式的最高次标11),由上述所述即得相应滤波公式.如算=5和4=3,得5点2次渡波模型,涉及的5个滤波公式如下5y)-29一=袅9、一之十】3»一1412%+6y|?Q=成(-3/2+12y1+1了,口+12了13岁)0J*5yz+63+12M+138+9斗&

8、gt;£?=云3了?一行了1-33十93+31区)其中5r,小川小和我为当前街口前端的速波值认为窗口中心点的漉波值.同理,可以得到其它滤波模型的滤波参数.对于量测数据点数大于谑波带宽打的量测数据集.则先求出中心点和两端的渔波公式.然后将窗口向前移动,按中心点滤波公式求每个窗口中心点的滤波值,对于处于原始数据集两端的2加个数据,则利用两端的点滤波公式计算相应的谑波直.数值滤波的美健参数是谑波带宽.为了进行适当的滤波,须遵循下列准则,淀波带宽取决于潜带或谐峰的最人半宽度.太小的带宽不能满足平滑要求,太大则会扭曲原始数据的结构.池波对峰高的fll曲较蜂面粗更为严重,因此在进行以峰高为基准的

9、定量分析时心应采用较小的滤波带宽,旋波带宽时谱带扭曲的影响可用相对滤波带宽来描述,即匕=式中.力为滤波带宽*M为喑峰的最大半峰宽.若测定峰面积.只有在相对漉波带宽大于1时才存在明感误差,当测定峰岛时,相对滤波带宽应小于。.5,(6) 导数处理苔求梅多坝式帔波公式的拟合参数矢量后.就可利用倒口的2m+1个数据时街口中心点=求信号的户阶导数*对平滑多项式求导有=+2吗+*+(*-)&*ii*T如仅在窗口的中心点处评怙导数则求p阶导散>(o=i,2,.改一1)UjT出即在窗口中心求鳍渤数据y的p阶导敢等于用矩阵的第2+1个元素占,乘以P的阶乘“信号求导是非常有用的一种信号处理方法.它可

10、以梢除信号的背景.确定谱峰的位肾”以及改善造峰的分髀率(如莫小峰的分解兀(7) 多元散射校正(msc)由于样品的不均匀性(粒度分布)常导致所测的样品光谱具有很大的差异性,不同批号的同一样品所测的光谱从表面看,也可能有很大的差异。在许多情况下,散射引起的光谱变化可能要大于样品成分引起光谱的变化。散射的程度与光的波长、颗粒度和样品的折射指数等有关,因此在整个光谱范围内,散射的强度是不同的,通常表现为基线的平移、旋转、二次和高次曲线。MSC是由Geladi等人提出的,目的是校正每个光谱的散射并获得较理想的光谱。MSC法假定与波长有关的散射对光谱的贡献和成分的贡献是不同的,理论上,通过光谱上许多点的数

11、据分析,可以把这两部分分开。MSC方法认为每一条光谱都应该与“理想”光谱成线性关系,而真正的“理想”光谱无法得到,可以用校正集的平均光谱来近似。因此每个样品的任意波长点下反射吸光度值与其平均光谱的相应吸光度的光谱是近似线性关系,直线的截距和斜率可由光谱集线性回归获得,并用以校正每条光谱,截距(即附加效应)大小反映样品独特反射作用,而斜率大小则反映样品的均匀性。平均光谱:线性回归工1.ISCftiE:上述公式中,A1校:二集的三3;k此为第I个样式的光谱,叫和是第I个光谱49平均光谱彳的线性回归的斜率与截距,都是列向量0通过调整"和的不同.使得在减少光谱差异的同时,尽量保留原有的。化学

12、成分有关的信息通过校正,随机变异得到最大可能的扣除.在光谱与法度线性关系良好和化学性质相似的情况下,MSC校正的效果良好二、特征的提取与压缩(1)主成分分析(PCA)又称抽象因子分析,主成分分析是把原来多个变量划为少数几个综合指标的一种统计分析方法,从数学角度来看,这是一种降维处理技术。思想:利用降维的思想,把多指标转化为少数几个综合指标。在研究多变量问题时,变量太多会增大计算量和增加分析问题的复杂性,人们自然希望在进行定量分析的过程中涉及的变量较少,而得到的信息量又较多。主成分分析是解决这一问题的理想工具。(主要分析众多变量之间的相关性)一、数据结构送合用主成分分析的数据具有如下站痴;指标境

13、号XIX2X3X4Xm1?一3D%*X-XXij/1)2q/=1m",同主成分分析谈大的问题是更量纲的影响,因此,实际应用中,需要对数据叱行标准化C一般使用体力差矩阵E或相美宗教矩阵R进行分析口在实标研究中,由于主成分的团的是为了降维,减少变量的小数,故一般选取少量的生成分r不超过5或6个),只要它们能包含痂变量信息量的80%以上即可口三.主成分分析的具体实现设相关矩阵为Rpxp,求特征方程|R一入I|=0,其臀为特征根8将解由小到大进行排序为:42人之一之兄01上P1)(C,1,.C砂实际上是耐应于的特征向量©若鹿变量服从正态分布,则各主成分之间相互推立;2J全部p个主战

14、分圻反映的n例样本的总信息,等于P个原叟量的总信息由信息量的多少,用变量的方差来度量二3)各立成分的作用大小是:)工工学学乙/4J第i个主成分的贡献率是九,1XI00%5J前m个主成分的累计贡状率是:Z4上X100%P工在应用时,一般耿累计贡献率为8。%以上比较好°四、MATLAB软件实现pc,score,variance,t2J=princomp(X)输入数据矩阵:x,x,x一般地,要求n>p。模型:要求m<p口:输出更重: pc主分量的免散9”,),也叫因子巢戴;立意:pcTpC=单位阵 store是主分量下的得分值;得分矩阵与教据矩阵X的阶敦是一致的三 varian

15、ce是5core对应时的方差向量,即相关维教矩阵R的特征休;宏3计算方差所占的百分比percent-v=100-variance/sum(variance): t2未示检粉的t2-鸵计量f主要用于方爰分析)关于主成分的实际急义要结合具体问题和有关专业知识才能给出合理的解释口虽然利用主成分本身可对所研究的问题在一定程度上作分析,但主成分分析本身往往并不是最终目的,更重要的是利用主成分综合原始变量的信息,达到降维的目的.然后对数据作进一步的分析,如回归分析*聚类分析,判别分析等口1.1主成分分析计算步骤(1)在(3.5.3)式中,rij(i,j=1,2,,p)为原变量的xi与xj之间的相关系计算相

16、关系数矩阵一11r12r1p21r22*mr2Pa15rpp1R二数,其计算公式为r1ijn'(Xki-Xi)(Xkj-Xj)k1n-(xki-,k1nx)2%(Xkj-Xj)2k1(2)因为R是实对称矩阵(即rij=rji),所以只需计算上三角元素或下三角元素即可。计算特征值与特征向量首先解特征方程|*J-R=0,通常用雅可比法(Jacobi)求出特征值%(i=1,2,p),并使其按大小顺序排列,即九1之之2”之0;然后分别求p出对应于特征值区的特征向量e(i=1,2,,p)。这里要求同=1,即£ej=1,其jj中马表示向量ei的第j个分量。计算主成分贡献率及累计贡献率主成

17、分zi的贡献率为1p|(i=1,2,p):一kk4累计贡献率为(i=1,2,p)kk1般取累计贡献率达8595%的特征值%,%1,心所对应的第一、第,,第m(m<p)个主成分计算主成分载荷其计算公式为lij=p(z,xj)=Vej(i,j=1,2,p)得到各主成分的载荷以后,还可以按照(3.5.2)式进一步计算,得到各主成分的得分(4)1.2matlab中主成分分析的函数:l.princomp功能:主成分分析格式:PC=princomp(X)PC,SCORE,latent,tsquare=princomp(X)说明:PC,SCORE,latent,tsquare=princomp(X)对

18、数据矩阵X进行主成分分析,给出各主成分(PC)、所谓的Z-得分(SCORE)、X的方差矩阵的特征值(latent)和每个数据点的HotellingT2统计量(tsquare)o2.pcacov功能:运用协方差矩阵进行主成分分析格式:PC=pcacov(X)PC,latent,explained=pcacov(X)说明:PC,latent,explained=pcacov(X)通过协方差矩阵X进行主成分分析,返回主成分(PC)、协方差矩阵X的特征值(latent)和每个特征向量表征在观测量总方差中所占的百分数(explained)。3.pcares功能:主成分分析的残差格式:residuals=

19、pcares(X,ndim)说明:pcares(X,ndim)返回彳留X的ndim个主成分所获的残差。注意,ndim是一个标量,必须小于X的列数。而且,X是数据矩阵,而不是协方差矩阵。4.barttest功能:主成分的巴特力特检验格式:ndim=barttest(X,alpha)ndim,prob,chisquare=barttest(X,alpha)说明:巴特力特检验是一种等方差性检验。ndim=barttest(X,alpha)是在显著性水平alpha下,给出满足数据矩阵X的非随机变量的n维模型,ndim即模型维数,它由一系列假设检验所确定,ndim=1表明数据X对应于每个主成分的方差是相

20、同的;ndim=2表明数据X对应于第二成分及其余成分的方差是相同的。(2)马氏距离主成分分析(PCA)的目的就是将数据降维,以消除众多信息共存中相互重叠的信息部分.PCA方法得到光谱的主成分和得分,得分为压缩后的光谱数据.使用得分数据代替原始光谱数据计算马氏距离,不仅能反映全谱数据信息,而且也能压缩参加计算马氏距离的变量数,并能保证肿矩阵不存在共线问题.具体方法如下:计算得分:丁由二XqXJflX尸足4(1)式中或为光谙矩阵仍为载荷矩阵述为样品数仍为变量数J为主成分数.计算校正集样品到平均光谱的马氏矩阵:T-力朋-“匕(2)式中M为标准光谱集因子分析中得分阵(Scor钉的协方差阵:工为样本i的

21、得分向量;牙为m个样晶的平均光谱.检验这几会抽艮虫的流舁样品存在的阈值范Dl=D=e-erD(3)式中a为分别是r的平均值和标准差得为调整阚值范围的权重系数.如果当。,则认为样品i与样品平均光谱在主成分空间中相似,。值越小,相似度越高;反之亦然.设置不同的阈值范围参数。,从而调节相似度的高低,当。值越大,相似度越高;反之,相似度越低,成为异常样品的可能性就越大,针对以上不同的E值所选取的阈值范围,分别使用PLS建模回归预测,来进行阈值范围的选取在MATLAB中有函数mahal可以调用求解马氏距离。三、模式识别(定性分类)(1)基于fisher意义下的线性判别分析(LDA)Fkh.r在2。世纪3

22、0年代提出的一种物别方法,即Fiidm分析这种方法的中心思想是设法找出一最佳投制方向,将m维空间中的点投影到低维空间,如一维空间中,使不同类的点尽可能分离开来,然后在低堆空间中再分类.以两关样本的分类为例.对两类样本的空间,可以将样本的数据汜为工31=1+2*.jmj«=12»*5=1»2*;升j_+股-I-*工通*-N其中E表示类.后表示类度中的样韭数,而多维空间向一维空间的投影可写为FN比胪=£巧工年$S=1,2稣=1*2.2*若£1式中.0=(%吗,j)'就是要寻找的投影方向.令*(Z)和MZ)分别为量Z的组内和蛆间的离差卬(W)

23、=SS(八一".I上】G伏。-S/(4一万4T可以证明.可以从下式求洱出其中1叫叫r,一一、C:?j(工一工是卜r界】十的rM",与,无关,对所求的便起放大或缩小碣作用,求得犷后,则可计算两组样本在投影空间上的均倍五=Eq心及在直线上的分界点,Z'=萍,十等2对于任意给定的样本,算出它们的判别函数.即投影点Z(JT)=巧工当4工)Z时.IE样本归为第一类国体,反之则为第二类母体.一、相关知识已知N个d维样本数据集合X=IXi,X2,,xN'j其中,Ni个属于%类,N2个属于,类。Fisher线性判别的基本原理是:把d维空间的样本投影到一条直线上,形成一维空间

24、。找到某个最好的、最易于分类的投影方向,使在这个方向的直线上,样本的投影能分开得最好。这就是Fisher法所要解决的基本问题。对x0的分量作线性组合yn=wTXn,n=1,2,N(F2.1)从几何意义上看,若|WI=1,则每个yn就是相对应的Xn到方向为w的直线上的投影。W的方向不同,将使样本投影后的可分离程度不同,从而直接影响识别效果。寻找最好投影方向w,Fisher准则函数为JFW=wTSbwwTSww(F2.2)式中,Sb为样本类间离散度矩阵,Sw为样本总类内离散度矩阵。使Jf(w)取极大值时的w*即为d维空间到一维空间的最好投影方向:w*=Swmi-m2)(F2.3)式中,mji=1,

25、2为在d维空间的两类样本的均值向量。利用先验知识选定分界阈值点y0,例如选择y:二41,一N1m1N2m2N1也,)二m1+m202lnP1/P2N1N2-2(F2.4)(F2(F2.6)式中,宿,i=1,2为投影到一维空间的两类样本的均值,P(%),i=1,2为两类样本的先验概率。对于任意未知类别的样本x,计算它的投影点y:Ty=wX(F2.7)决策规则为y>y0,xw叫NT。,x2、classify可以调用MATLA呻有函数fisheriris(2) K-最邻近法(KNN)MATLAB里面的函数knnclassify可以调用K最邻近法在化学匕应用极为广泛,它是直接以模式识别的基本假设

26、即同类样本在模式空间相互靠近为依据的分类方法。这种算法被为直观,即使所研究的体系线性不可分,这种方法仍可应用AKNN法对每一个待判别的未知样本,逐一计算与各训练样本之间的跟离,找出其中最近的K个进行判决。如K=l,很自然未知样本的因属与这一个显近邻样本相同.如K>1,则未知样本与这K个最近邻样本不一定属于一类,这时要采用*表决”的方法,对这K个近邻的情况按少数服从多数进行表决“一个近邻相当于票,但考虑K个邻近与未知样本的距离有所判别,所以对各里进行加权.距离最近的近邻的类属,应较嵬的权。V=V殳或y=4乌式中,修为近邻的类属取值,对两类分类,f属于第一类时取“+1J属于第二类时取“一5为

27、未知样本与第,个近邻的距离.K为最近邻数当V。时,则未知样本归入为类1否则归于类2.这种方法因采用获多数“票”的方法确定未知样本的口厘.所以K一般采用奇数。K值不同时,未知样本的分类结果可能不同。KNN法结果的准确性与K值的关系较大.虽然现在K值的选择尚无规律可渊,但实际中K俏的选择一般可果用类诚心法,即将训练藁中每类的由心求出,比较未知样本与类重心的距离,并根据最小距离来判别未知祥本的类别归属,此时因判别未知样本时仅需计算它与类重心的用离,所以计算量可以大大减少.K、'法尤需要求对不同类的代质点线性可分,只要用每个未知点的近邻类来判别就可以°KNN法也不需要作训练过程,KN

28、N法的缺点是它没有对训练点作信息压缩,因此每判别一个新的未知点语需要把它和所有已知代表点的即离全部筲一遍,因此计算工作量大,对已知代表点太多的情况不甚合适.但正是因为没有作信息压妨,而用全体已知点的原始信息作判据,故有时可得到极好的陆报睢确率,其效果一般优于或等于其它摸式识别方法。(3) 模型分类方法(Softindependentmodellingofclassanalogy,SIMCA)SIMCA1independentmodelingofclassanalogy)法是模型分光方法,即对每一类构造一个主成分模型.在此基础上迸行样本的分类.此法在1976年由瑞胆学酉KWold提出.SIVCA

29、方法的特点是按样本类别分别处理样本的数据,假定每一类样本的分布有其特有的规律性,我们可以用一个统一的线性方程近似地描述其分布.则可按S1MCA方法处理口假定有"个样本点分布在距维空间中,已知有0类,还包括未分类的样本,/为样本数:加为变显数L如波长数):if为类数:q为类内部的样本数,对美中其主成分回归模型为:(3-4)式中。一主成分数;/?一主:成分参量,时应变量F:日一得分变量.对应手样本数h4一冬样本的诸变后张开的模式空间的实际维数;5一拟合误差Q步泵L对X进行标准化.2.交互验证法确定主成分数4招训练集卜的某类进行分组,分组应考讴到样本的代表性,即将划分的任何一组样本从训练集

30、中除去后,应不会影响到原训练集的代表性。首先将该类的第一组样本从训练集中除去.以剩余样本做训练集,建立主成分模型迸行拟合*使用中建立的模型去拟合被除去的样本,令"12刈-】或"1(取其中较小的),对应于每个口值,计竟这些样本的光谱与其拟合的光谱间的残差,求出对应于。的残差平方和心.将这些样本重新放回到训练集中。再从训练集中除去该类的另外一组样本,重复步骤,直到该类中的每一组样本恰好被除去1次为止。料上述计算得到的各组的残差平方和相加,得到残差平方和根据F式进行尸检脸,从而确定最佳"值.以同样方式确定各类的最佳主成分数,即建立起各类的拟合模型。井计算训练集的残差标准

31、差:1S”忖£(琮)4%-4一麻-436)Jtd>=1/3.未知样本的分类在为训练集的每一类1建立了模型后,得到了一套参量如F,夕和使用校验集样本进行号察,用类的主:成分模型对未知样本p做同收拟合:/T=L+%(3-7)<>=1其中,为回归得到该样本的得分向量,这时可考察它是否落在第g类的得分范围内.同时,由各变量/",个)的E和自由度计算残差标准差:13-8)判别样本是否属下第,/类,使用F检验:产/(%胎/(s炉0-9)将计算得到的“值和心啊比较.如果心肆,则样本属上夕类:否则,样本将归于其它类,再用训练集中另一类的模型去做上述的里夏拟合过程,直到确定

32、类属为止口如果样本不屈于训练集中的任何一类,则将其归类于训练集外的一新类。SIMCA法属于类模型方法,即对每类构造-个主成分的网门模型,并在此基础上进行样本的分类。例如有如F的数据斯眸:ft12IrikN1Mi?1.-BH事IX2*13*鼻iy»v3Ma*«iBd>4(丫情予*,a.hi9a*m1B«11i,%,iB4H-I->由a'B,)«3'*IB-li$M|Nm!>MKXMv-2-7F,-¥*K1美Q未分丧样小训除集艳过集其中,N为样本教,M为变量,即维数.Q为类数.对于某一类样本.主成分回归模型为Ay*

33、=ai+X应戛+e3 -J式中。为变量f的均值F4为主成分数*力和。是为使偏差5达到极小的参数.对于多类样本,则主成分回归模型为:W-。了+支磨8享+啜,0LI其中。表示类,SICMA方法的计算步骤如下.第1件数据标准化,第Z步:主成分数A的确定.第3步:主成分模型中户和8等参数的确定.这两个参数可以由矩阵对角化求得,Z3矩阵为第q类训海集中每一个变量减去平均值后所形成的数据降*,F可由Z值减去公式中尸和。和果根项得到,则方差可由下式求得:,M经产=£X(£里A】)讣4一AM一旦每i类中上述参数求出之后,即可运用主成分回归模式去预测未知样本能第4步:未知样本预测用主成分回归

34、模式去拟合未知样本*拟合方法与一般多元回归相同.此时匕=加一为因变量./S=2,/A)为自变量Z一加一守=£c*十曙玷F)式中,Q为回旧系数.样本的货合程度可由下式表示M即=Z3,)“m-4)判别样本p是否寸类,可用芦显著性检骗,其公式为F-%-44T订/斗产局一将尸值的计算值与临界值自由度分别为CM-A”)和<Af-A/相比较,若F<F临界,则祥本亦归入4类,否则将拟合于其它类,此时F检臆性公式为;尸=5"'局端'第3步,两类间相似度用类f中的所有样本去拟合类q主成分模型,则可以得到类间的相似度测量。类和类间的方差为,£3-玄Wl&q

35、uot;/%(M-4)t-1A-J将计算得到的方整与第a步中计算得到的方差相比较,口r以卷到两类间相似度的渣量第6步士变显垂壑性的测鼠变最在判别中的重要件可由残余方差与谏始数据的方差相比较而得.若原始数据经过标推化处理.则所有变局,的方差梢同:=Uw-,。界Q-i小二1"<?-%aZ捷心'f11q%"自京化”(SX-儿T)4 *I/-IV由此可得t5-1率VmJ5值越大即残余方并与原始数据力般的比值愈小.该变量在主成分模型中的作用就越大.第步样本相关性测鱼与变量相同类.即将样本的残余方差计算式(第4第中)与某”类的整个方差计笥式(第3步中)相比按(F检验),其

36、残余方差越小,该样本与此类的相关性越大.(4)支持向量机(SVM)一、相关知识已知数据xi,yi,X2,y2,,x,yX;:二1;其中,X=4j=1,2,,分二in表示个n维样本集,Y=y,i=1,2,用,y=1或-1标记两类样本。对于一个新的数据x,判别x属于哪一类,即判断(x,y)中的y是+1还是-1。支撑向量机可表示为如下的二次规划问题:mina1,£工a。jyyjK(冷5)-Z%2i4j4i1而相应的判别函数式为其中:s.t.二yi-:i=0,i40MLMC,i=1,2,r£f(x)=sgn(w率仲(x)+b*)=sgn工yiyK(xi,x)bIt(F6.1)(F6

37、.2)£w*=Ecc*y*a)=£a*yi*(x>max£ct:2偿髭yjKxi,xj'yjKxi,xjJJ不同的核函数表现为不同的支撑向量机算法,常用的内积函数有以下几类:(1)d阶非齐次多项式核函数和d阶齐次多项式核函数dd(F6.3)K(x,xi)=(x为)+11与K(x,xi)=(xx1(2)高斯径向基核函数K(x,xi户exp(F6.4)S型核函数(F6.5)Kx,xi=tanhvxxi一c指数型径向基核函数Kx,xi=exp-xxi(F6.6)(5)线性核函数(F6.7)Kx,xi=xx线性核函数是核函数的一个特例。自适应boosting

38、方法(Adaboost)四、回归分析(定量分析)多变景校王(多元校王)方法是同时芳虑多个测量系统(称为响应向第或矩降Y)与多个组分含量(称为浓度向届或矩阵*)之间的对应关系,即y=X8+E.通过一定的数学方法建立校正模型,并确定模型参数。多元校正并不是单变量校正的简用推广.它可以解决很多单变量校正中被认为不可能实现的问翦.多安最校正多种多样如多元线性回归、因子分析、主成分回归法和牖最小二乘法等,化学计信学主要就是解决多变量校正问题,即研究室组分不经分离或掩蔽进行同时测定的问题.计算机科学与技术的发屣使人们能在解间获得大量的富含信息的多维化学量澧数据.也使豆杂的数学姓理过程将以航利进行,使大批不

39、论是否对数学知识精通的技术人员郡能够应用化学计景学的方法去解决复杂问题,进而促进工化学校正理论的进一步发展.(1)主成分回归(PCR)主成分回归是在因子分析的基础上进行的最小二案回归分析.以实现妻组合混合体系同转测定时的多元校正,它可以根好地解决线性回归所遇到的变量线性相关,矩阵病态或变量过多所带来的相关问题,设有化学量测模网;1川翼启xftiRm-xi*E*乂,首先对夏降进行主成分分析:T-XPT阵的缙数可以与X阵相同,如果使用整个T阵参加回口,这样得到的靖果与多元缓性回归没存多大的区别,而主成分回归一般只有前面支个主成分参与回归,因为前面的上个生成分包含k矩降的绝大部分有用的信息1而后面的

40、主成分则往往与嚎声和干扰因案有关,这样参与主成分回归的是少败主成分组成的短阵,在堆数上要远远小于X阵口将降维后的T阵与产阵进行多元线性回归工F=TB+Eb-Tt”丁丫对于未知样品有;Km-TuriB=X.nPB由此可见,主成分回归通过对参与回归的主成分的合理林选.充分利用了数据信息,有效地去掉噪声而报高模型的抗干扰能力事主成分间相交正交的性质,解决了宝元线性同门中的共线性问题.主成分回归的算法f输入校正集弱降x与相应的恻星矩阵(响应也眸)yt对,阵进行主成分分析得到因子数人以及抽象因子T和T二TV丁根据下式计算系数阵:G=C“TLOx输入未知样品的测量数据,并根据下式计算转换矩PiFg工根据转换哥防工门,计算未知样品中各组分的浓度Xz(2)偏最小二乘法回归(PLS)偏最小二乘是主成分回归的发展主成分回归只对化学测鼠矩阵Y进行主成分分析.电浓度矩阵*未加任何处理.事实上*矩阵也包含某种信息.很明显在进行回归分析时能同时考虑y降和工阵的作用,将能进一步提高方法的可靠性,修最小二乘正跑基于这样的思想,它同时时X矩阵和V矩阵迸行主成分分析.并以主因子进行回归.偏最小二乘和主成分分析很

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论