多变量光谱分析-自学教程_第1页
多变量光谱分析-自学教程_第2页
多变量光谱分析-自学教程_第3页
多变量光谱分析-自学教程_第4页
多变量光谱分析-自学教程_第5页
已阅读5页,还剩31页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

拉曼多元曲线分辨技术RamanMultivariateCurveResolution

(MCR)拉曼多元曲线分辨技术是通过研究溶质溶解对溶剂结构的影响来研究溶液中分子之间的相互作用。其结果能够揭示溶质溶剂化层的振动光谱的变化,从而从新的角度来研究溶剂化。这种方法在很多关键的方面不同于以往的差别,溶剂化层,和溶剂化层扰动光谱。特别地,就溶剂或者溶质产生光谱的形状,这种方法也不做任何假设。1与传统方法不同的是,这种方法提取出来的结果都为正的光谱,对应于溶质诱导产生的振动光谱。这种光谱的特征峰与孤立溶质(要求溶液为稀溶液)的溶剂化层有关,不等同于在高浓度溶液下的光谱。2更确切地说,溶质诱导光谱不仅包含溶质本身的特征峰而且包含受溶质扰动的溶剂的特征峰。1首先我们测得需要导入的不同浓度溶液(通常为l-5wt%)的拉曼光谱。然后我们利用多元曲线分辨(Multivariatecurveresolution,MCR)的方法3来提取溶剂本体以及不同浓度溶液的溶质诱导光谱。在应用MCR的方法来提取测量光谱中的溶质扰动部分时涉及到以下关键的假设:每套光谱都是两种组分的线性组合,并且这两种组分的权重都为非负;这两种组分中的其中一种必须和溶剂本体的光谱相同,而另外一种组分包含溶质扰动的信息。这就要求溶液的浓度要足够稀,以至于可以忽略溶液中溶质与溶质之间的相互作用。应用实例DorBen-Amotzi利用MCR技术研究了多种溶质(乙腈,丙酮,吡啶,四氢咲喃和环己烷)对水结构扰动的振动光谱特征。经过MCR处理的光谱能够揭示新的OH伸缩振动峰。这种新峰来自于水分子与极性溶质的相互作用。产生的新峰的振动频率较高,表明与本体溶液中的水分子相比这些水分子收到较弱的氢键作用。在一些情况下,会出现两个清晰的OH伸缩振动峰。这表明有两种不同的水的结构或者两种不同的氢键。另外,DorBen-Amotz发现溶质的极性会扰动1,2-二氯乙烷溶剂中溶剂化层的斜式-反式构象平衡。MCR数据处理方法1多元曲线分辨-交替最小二乘法(MCR-Alternatingleastsquares)MCR-ALSMCR-ALS是一种基于双线性的化学计量学方法,对于一个二维光谱数据矩阵D表示如下:D=CSt+E其中D和E分别是光谱矩阵和误差矩阵,C(m*N)是浓度变化矩阵,St(N*n)是纯物种光谱矩阵,m是时间扫描点数,n是波数点数,N是化学组分数。2多元曲线分辨多元曲线分辨对数据的要求是3:实验产生的数据为双线性的数据矩阵,各个数据矩阵所代表的化学成分相同并且矩阵之间相互独立。多元曲线分辨首先将各个数据矩阵堆叠从而建立一个扩展的二维数据矩阵。新产生的二维数据矩阵其中的一维与扩展前相同。具体的扩展方法见图1。然后可以对新生成的扩展矩阵进行多元曲线分辨分析。在利用交替最小二乘法优化解时,可以加入来自于数据结构的限制条件。3

图1•将几个二维矩阵扩展成为一个新的二维矩阵的方法。la列式的扩展矩阵;1b行式的扩展矩阵;lc管式的扩展矩阵多元曲线分辨分析方法是基于展开的扩展的列式数据矩阵。以下是这种方法的简介。多元曲线分析假设实验数据遵循线性模型,如同吸收光谱遵守比尔吸收定律(Lambert-Beer'slaw)—样。按照矩阵的方式,这种模型可以写成D=CSt+E(1)D为在某一变量(时间,pH,浓度等)为不同值时采得的光谱所组成的数据矩阵。C和S为与浓度和物种光谱有关的数据矩阵。E为实验误差。以上三矩阵的维数分另U为D(I*J),C(I*N),S(J*N)和E(I*J)。I为被用来分析的光谱的数量。J为每个光谱的点数。N为样品中物种的种数。曲线分辨的主要目的是通过对D矩阵分析反解出真实的C矩阵和S矩阵。可以从测试纯的物质或者从渐进因子分析中可以获得C矩阵和S矩阵的初始值。进而通过利用交叉最小二乘法迭代地解方程(1)而优化C矩阵和S矩阵。在优化的过程中,每次迭代都会产生一个新的C和S矩阵:C+D*=C+CST=STandD*(ST)+=C(ST)(ST)+=CiiD*是PCA产生的数据矩阵,用来选择组分数。C+是C的伪逆矩阵。(St)+是St的伪逆矩阵如果能够正确地选择物种的数量,C和St就分别为满秩列矩阵和满秩行矩阵。在每次迭代循环中都可以加入以下限制条件(1)非负性;(2)选择性和零浓度窗口;(3)单峰性;(4)封闭性。3主元分析^principalcomponentanalysis(PCA)主成分分析是把各变量之间互相关联的复杂关系进行简化分析的方法。即在力保数据信息丢失最少的原则下,对多变量的数据进行最佳综合简化。主元分析被广泛地用来处理光谱数据而获得样品中的主要信息。4-7下面以一个简单的模型来介绍主元分析。假设有m假设有m个变量来描述n个样本,这样得到的数据就形成了一个mXn的矩阵XmXnmXnx11x21x12x11x21x12x22x1mx2mxn1xn2xnm假设X有p个特征值以及对应的特征向量为:,u22九2,u22九211,九1u1iu2iumi由特征向量组成的载荷矩阵为U由特征向量组成的载荷矩阵为U=U,u…u]=12puu•…u11121puu•…u21■••22■••2p••••••uu•…um1m2mp主元分析就是把一组变量X通过线性变换,转换成一组线性无关的变量Y:>>>>=uX+uX+•…+uXTOC\o"1-5"\h\z111212mlm>>>>=uX+uX+•…+uX121222m2m>>>>=uX+uX+•…+uXp1p12p2mpm写成矩阵的形式为Y=XU主成分分析的目的就是使得Y的协方差矩阵Cov(Y)为对角阵,即匕之间不相关。这样就可以以少量的变量来研究数据,使得数据中的变化规律更清晰。Y•为主成分,Y为主成分矩阵。i3.1数据的预处理3.1.1数据的缩放(data-scaling)因为PCA—种突出发生最大变化的变量的一种方法,所以在最终的模型中发生大的变化的变量比发生小的变化的变量占有更大的比重。但是一个均值较大而方差较小的变量会掩盖一个均值较小方差较大的变量。所以,需要对数据进行缩放。最常见最客观的数据缩放方式是单位方差缩放(UV)。具体的操作方式是:首先计算每一变量的标准方差(sk);然后计算出标准方差的倒数并以此为数据缩放的比例;最终将每一变量乘以缩放比例,得到的每一变量都具有相同单位的变化。8跨电5.6IheJriiiuf说ThveEtHav/.tffjhvaM土tfje'length'酹恤Mvffmmerreal*百治mEachMremcypoMtoutrcI'anaMetwft/iArj/nst/

仙nrfWE-tfwwprcwpN.T旳fmemWx如痹卩的严严咤『腳現霄the审肿站加Atnr迦菠.'厂刃萌讥AndvTrrr*midmi叨臨vuluex,-|/L*rsriir/irr^Jr3-jfjyJbwruncr.the'気rjfmc/hvaraifi^职Nitmzl.TAemeurieIm曲snUfe用imiff3.1.2数据的中心化数据的中心化即为计算出每个变量的均值,然后将每个变量都减去相应的均值。

卜讹gJ7:.界rerj/pc'n*阳F7e耳imfimfiwf^fkv冀uHiwhiWomjWdw■闿酣卅'论料耳rh"atnf腋huppI'dJjn1z<m).3.1.3主元分析假设有一矩阵X拥有K个变量(此处为了做图方便假设K=3)和N个观察值。为此矩阵我们建立一个变量空间(空间的维度等于变量的个数)每个维度的长度都根据UV规则进行缩放。然后将每个观察值(X矩阵的每一行)都对应到此K维空间中,如下图。其中红点的坐标对应于X每个维度的平均值。8x3#oox2oXjoox3#oox2oXjooo°上图经过数据中心化处理后,得到下图:ooooX2Q°0ooooX2Q°0最终对处理后的数据进行主元分析(PCA)。下面将以两个主元来示意主元分析的结果图。利用两个主元对以上数据进行分析。PCfQ009ProjectioqofPC2PCfQ009ProjectioqofPC2用此两个主元定义一个平面就会在K维空间中创建一个窗口。然后将所有的观察值都投影到此低维子空间并画出结果图,我能就能够很清晰的看到数据变化的规律。观察值在此低纬空间的坐标乘坐scores,相应的结果图为scoreplot。下面以一个示意scoreplot来讲解scoreplot的含义。啡曲口叶科31¥啡曲口叶科31¥7]*lla如上图所示,在此scoreplot中每个欧洲国家(16个国家)都被两个值所表示:一个为第一主元,另一个为第二主元。在scoreplot中两个距离较近的国家具有相似的性质,而相距较远的国家的性质相差较大。那些北欧国家(Finland,Norway,Denmark和Sweden)都处在右上角,因此代表一组具有相似性质的国家。Belgium和Germany都靠近中心,说明这两个国家比较接近欧洲的平均水平。在多元分析当中,我们想了解在原来的X中哪个变量更具有影响力,以及这些变量如何相关。这些信息会在principalcomponentloadingplot中给出,以下面的loadingplot为例讲解。8上图同时展示了20个变量之间的相互关

cuppm-0.40aao-QJ2Q-4JO0.000.100.20C.3Q0,40^hAargarine^Tea^Buttercuppm-0.40aao-QJ2Q-4JO0.000.100.20C.3Q0,40^hAargarine^Tea^ButterAjamSo^Biscuits^Oranges^Apples界SoupdnstCoffe心_8快血Fotat*Sweetner^unve5iI■Garlic:—4系。携带相似信息的在componentloadingplot会处的位置相近,并且它们是相关的。Crispbread(Crisp_Br)和frozenfish(Fro_Fish)拥有正相关的关系。当其中的一个变量增加或减小时,另外一个变量也会相应的增加或减小。当两个变量处在相近的位置而且又处在原点的两侧时(例如garlic和sweetener),这两者是负相关的关系,即当一个变量增加或减小时,另外一个变量相应地减小或增加。变量到原点的距离也会承载着一些信息。距离原点越远的变量对此模型的影响越大用几何语言来讲,principalcomponentloading表达的是这个模型平面在原变量空间中的曲线。主元的方向与这些a的cosine值相关。这些值表面了原变量如何组装模型窗口中的主元。84因子分析-FactorAnalysis往往会有一些共同的因子支配着几种分析变量,造成这些分析变量之间往往存在相关性。因子分析就是通过对多个变量的相关系数矩阵的研究,找出同时影响或支配所有变量的共性因子。因子分析的应用有:(1)通过对变量相关关系探测,寻找作用于这些有强相关关系的变量的共同因子。用这些较少的几个因子代表原数据的基本结构;(2)用个数较少的几个因子变量代替原变量进行回归分析、聚类分析等。因子分析的基本思想是:(1)假定可用变量间的相关性把它们分组,即假设组内所有的变量之间是高度相关,而不同组变量间是弱相关;(2)假定每一组变量存在一个导致其组内变量高度相关的潜在(不能观察)公共因子;(3)假定因子对观测变量的影响是线性的。这些潜在的公共因子有以下特点:(1)因子变量的个数远远少于原始变量的个数;(2)因子变量并不是原始变量的简单取舍,而是一种新的综合;(3)因子变量之间没有线性关系;(4)因子变量具有明显的解释

性,可以最大限度地发挥专业分析作用。4.1数学模型设有p个经过标准化的观测变量x1,x2,^,xp,每个变量可由一组因子变量f],f2,...f的线性组合表示,即:12mx1x2=af+afx1x2=af+af111122=af+af2112221mm1+...+af+£=af+afp11p=af+afp11p22+...+afpmm利用矩阵记号:pxlPxmmxlpxl各个指标变量都受到f的影响,因此f称为公共因子,a称为因子载荷矩阵,eiii是单变量X所特有的因子,称为X的特殊因子(uniquefactor)。设f,f,…,ii12f分别是均值为0,方差为1的随机变量,即D(f)二I;特殊因子e,e,…,mm12e分别是均值为0,方差为d2,d2,…,d2的随机变量,即p12pD(e)=diag(d2,d2,…,d2)=D;各特殊因子之间及特殊因子与公共因子之间都是12p相互独立的,即Cov(e,e)二0,i丰j及Cov(e,f)二0。%是第j个变量在第i个公ij=共因子上的负荷,从投影的角度看,a就是X在坐标轴f上的投影。jiji主成份分析的目标是降维,而因子分析的目标是找出公共因素及特有的因素,即公共因子与特殊因子。在主成份分析中,残差通常是彼此相关的。在公因子分析中,特殊因子起到残差的作用,但被定义为彼此不相关且和公因子也不相关。而且每个公因子假定至少对两个变量有贡献,否则它将是一个特殊因子。在开始提取公因子时,为了简便还假定公因子彼此不相关且具有单位方差。在这种情况下,向量x(其每一个元素是一个向量,所以X实际上是一个矩阵)的协方差矩阵工可以表为丫二D(X)二D(Af+e)二AA'+D(D是对角阵)这里D=diag(d2,d2,…,d2),diag表示对角矩阵。如果假定已将X标准化(类似上面的数据的中心化))也就是说的X每一个分量X的均值都为0,方差都是1,即iD(X)二1,那么iX=af+afHFaf+eTOC\o"1-5"\h\zii11i22immiv1=Var(X)=£a2+d2ijij=11=h2+d2,i=1,2,…,piih2反映了公共因子/对X的影响,称为公共因子/对X的“贡献”h.2实际反映了变量X对iiiii公共因子的依赖程度。另一方面,还可以考虑指定的一个公共因子f对各个变量X的影响。实际上,f对各个变jij量X的影响可由A中第j列的元素来描述,那么ig2=£a2jiji=1称为公共因子f对X的“贡献”显然g2越大,f对X的影响就越大,g2成为衡量因子jjjj重要性的一个尺度。实际上Cov(X,f)=£aCov(f,f)+Cov(e,f)=aijikkjijijk=1那么矩阵A的统计意义就非常清楚:aij是X和f的相关系数;ijh2是X对公共因子f的依赖程度;iig2是公共因子f对X的各个分量总的影响。jj下面我们来看怎样求解因子载荷矩阵。因子载荷矩阵的求解如果已知X协方差矩阵丫和D,可以很容易地求出A。一D=AA'。记工*=工-D,则E*是非负定矩阵。若记矩阵丫*的p个特征值九三九三…三九>九=…=九=0,且m12mm+1p个非零特征值所对应的特征向量分别为丫,丫,…,丫个非零特征值所对应的特征向量分别为丫,丫,…,丫,则D12mZ*二九丫丫,+九丫丫,+…+九丫丫,111222mmm=\;可,#"Y,…,J门机Y,阿,…,J厂丫22mm1122m1,闪2,…/厂YI就可以求出因子载荷矩阵A。只要令A=>:的谱分解式为(36.9)(36.10)但在实际问题中,我们并不知道丫、D,即不知道E*,已知的只是n个样品,每个样品测得p个指标,共有np个数据,样品数据见表6.1所示。为了建立公因子模型,首先要估计因子载荷A和特殊因子方差d2。常用的参数估计方法有以下三种:主成份法、主因子解i法和极大似然法。主成份法主成份法求因子载荷矩阵A的具体求法如下:首先从资料矩阵出发求出样品的协方差矩阵,记之为£,其特征值为九'九>…'九>0,相应单位正交特征向量为Y,Y,…,Y,当TOC\o"1-5"\h\z12p12p最后p-m个特征值较小时,则对壬进行谱分解可以近似为八Y=九丫丫'+九yy'+•••+九Y屮+D(36.11)111222mmm其中九三九三…三九>0是协方差矩阵壬相应的前m个较大特征值。先取a=,:Xy,然12m1^11后看£-aa1是否接近对角阵。如果接近对角阵,说明公共因子只要取一个就行了,所有指11标主要受到这一个公共因子的影响;如果£-aa'不是近似对角阵,就取a=:厂y,然后112*22看£-aa'-aa'是否接近对角阵,如果接近对角阵,就取两个公共因子;否则再取1122a=、口,…,直到满足“要求”为止。这里的“要求”要视具体情况而定,一般而言,333就象主成分分析一样,直接取前q个特征值和特征向量,使得它们的特征值之和占全部特征值之和的85%以上即可。此时,特殊因子方差d2=£-£a2,i=1,2,…,p。iiitit=1主因子解法是一种迭代法主因子解法是主成份法的一种修正,它是从资料矩阵出发求出样品的相关矩阵R,设R=AA'+D,则R-D=AA'。如果我们已知特殊因子方差的初始估计(d*)2,也就是已i知了先验公因子方差的估计为(h*)2=1-(d*)2,则约相关阵R*=R-D为i(h*)21r21r(h*)21r21r12(h*)22・・・r1p・・・r2p类同AA')(36.12)rrp1p2…(h*)2pTOC\o"1-5"\h\z计算R*的特征值和特征向量,取前m个正特征值九*'九*>…'九*>0及相应特征向量为12mY*,Y*,…,Y*,则有近似分解式12mR*=AA'(36.13)其中A二(“丫*J*y*,•••,#*y*),令d2二1—a2,i二1,2,…,p,则A和*11V22'mmitit=1D*=diag(22,d2,…,d2)为因子模型的一个解,这个解就称为主因子解。12p上面的计算是我们假设已知特殊因子方差的初始估计(d*)2,那么特殊因子方差的初始i估计值如何得到呢?由于在实际中特殊因子方差d2(或公因子方差h2)是未知的。以上得ii到的解是近似解。为了得到近似程度更好的解,常常采用迭代主因子法。即利用上面得到的D*=diag(22,d2,…,d2)作为特殊方差的初始估计,重复上述步骤,直到解稳定为止。12p公因子方差(或称变量的共同度)常用的初始估计有下面三种方法:h2取为第i个变量与其他所有变量的多重相关系数的平方(或者取d2=1/r.,其ii中rn是相关矩阵R的可逆矩阵R-1的对角元素,则h2=1-d2);iih2取为第i个变量与其他所有变量相关系数绝对值的最大值;i取h2=1,它等价于主成份解。i极大似然法假定公共因子f和特殊因子e服从正态分布,那么我们可得到因子载荷阵和特殊方差的极大似然估计。设p维的n个观察向量x,x,…,x为来自正态总体N(卩,E)的随机样本,则(1)(2)(n)p样本似然函数为卩和丫的函数L(卩,Z)。设E=AA'+D,取r=X,对于一组确定的随机样本,卩已经变成了确定已知的值,则似然函数L(卩,为)可以转换为A和D的函数甲(A,D)。接下来就可以求A和D取什么值,函数甲(A,D)能达到最大。为了保证得到唯一解,可以附加唯一性条件AD-iA=对角阵,再用迭代方法可求得极大似然估计的A和D的值。因子旋转因子模型被估计后,还必须对得到的公因子f进行解释。进行解释通常意味着对每个公共因子给出一种意义明确的名称,它用来反映在预测每个可观察变量中这个公因子的重要性,这个公因子的重要程度就是在因子模型矩阵中相应于这个因子的系数,显然这个因子的系数绝对值越大越重要,而接近0则表示对可观察变量没有什么影响。因子解释是一种主观的方法,有时侯,通过旋转公因子可以减少这种主观性,也就是要使用非奇异的线性变换。设p维可观察变量X满足因子模型X二Af+e。设是「任一正交阵,则因子模型可改写为X二A「「f+e2A*f*+e其中,a*=Ar,f*=rf。根据我们前面假定:每个公因子的均值为o,即E(f)二0,每个公因子的方差为1,即D(f)2I,各特殊因子之间及特殊因子与公共因子之间都是相互独立的,即Cov(e,e)=0,i丰j及Cov(e,f)=0。可以证明ije(f*)二E(rf)二rE(f)0d(f*)二D(rf)二rd(f)r二rir二iCov(e,f*)二Cov(e,rf)二「Cov(e,f)二0D(X)二D(A*f*+e)二D(A*f*)+D(e)二A*(A*)'+D因此,X二AA'+D二A*(A*)'+D。这说明,若A和D是一个因子解,任给正交阵ra*=Ar和d也是因子解。由于正交阵r是任给的,所以因子解不是唯一的。在实际工作中,为了使载荷矩阵有更好的实际意义,在求出因子载荷矩阵a后,再右乘一个正交阵r,这样就变换了因子载荷矩阵,这种方法称为因子轴的正交旋转。我们知道,一个所有系数接近o或±1的旋转模型矩阵比系数多数为o与±1之间的模型容易解释。因此,大多数旋转方法都是试图最优化模型矩阵的函数。在初始因子提取后,这些公因子是互不相关的。如果这些因子用正交变换(orthogonaltransformation)进行旋转,旋转后的因子也是不相关的。如果因子用斜交变换(obliquetransformation)进行旋转,则旋转后的因子变为相关的。但斜交旋转常常产生比正交旋转更有用的模型。旋转一组因子并不能改变这些因子的统计解释能力。如果两种旋转模型导出不同的解释,这两种解释不能认为是矛盾的。倒不如说,是看待相同事物的两种不同方法。从统计观点看,不能说一些旋转比另一些旋转好。在统计意义上,所有旋转都是一样的。因此在不同的旋转之间进行选择必须根据非统计观点。在多数应用中,我们选择最容易解释的旋转模型。应注意的几个问题•因子分析是主成分分析的推广,它也是一种降维技术,其目的是用有限个不可观测的隐变量来解释原始变量之间的相关关系。因子模型在形式上与线性回归模型很相似,但两者有着本质的区别:回归模型中的自变量是可观测到的,而因子模型中的各公因子是不可观测的隐变量。而且,两个模型的参数意义很不相同。因子载荷矩阵不是唯一的,利用这一点通过因子的旋转,可以使得旋转后的因子有更鲜明的实际意义。因子载荷矩阵的元素及一些元素组合有很明确的统计意义。因子模型中常用的参数估计方法主要有:主成分法,主因子法和极大似然法。在实际应用中,常从相关矩阵R出发进行因子模型分析。常用的因子得分估计方法有:巴特莱特因子得分和汤姆森因子得分两种方法。多元曲线分辨引言:概念,模型和相关方法多元曲线分辨是对一系列分析混合物方法的统称。对一套光谱分析是多元曲线分析的一个范例。例如一套HPLC-DAD分离的数据D。其行代表流出时间,列代表的是光谱通道。在D中每行为在一个流出时间记录的光谱,而每一列为每一个波长的光谱值。(例如Fig.l)多元曲线分析将每套数据描述成每一淋洗组分对波普贡献的加和(公式1))每种淋洗组分对波普的贡献可以写成这种组分的光谱ST和淋洗权i重C的乘积(公式2)。最后,这种双线性加和的模型可以表达成一个i压缩的形式(公式3)。其中c包含了所有组分的淋洗曲线,st为每种

组分的光谱。而矩阵E则包含了噪音以及不能够被双线性模型表达的部分。尽管多元曲线分析不仅仅局限于光谱数据的分析,公式3经常被用来表达双线性多元曲线分析模型。在很多多元曲线分析中,ST与体系中组分的定性信息有关,而C则表达了每种组分的含量。D=YD+E(1)iiD=YCSt+E⑵iiblAiD二CSTblAiD二CST+E(3)Fig.1BriireairrrocelobligedfromMCRToranHPLC-CMD型i阳sei.Etpress^daseApure-convibuvoriijiuinofmedymeworpureconcenLraiianprofile枷d*亡山比and片计preduLLofmalric-esolpureco>r>cenijrat»anprD4ile5sndspe^ra]11多元曲线分析的突出点在于其提供了有实际意义的模型。因为多元曲线分析中的C代表了化学组分的自然性质,所以这种模型可以提供化学家或者科学家可以识别的组分曲线。这一特点在很大程度上帮助我们对实验结果的解释,并且解释的结果也很容易被别人理解。这是多元曲线分析与其他分析放大最大的区别。多元曲线分析适用的场合习惯上,多元曲线分析是为分析一个过程或者以个分析测试的衍化分析数据而设计的。很多分析测试,特别是所有的基于光谱方法的测试

特别适合多元曲线分析,因为其中潜在的分析模型(Beer-Lambert定律)是一双线性模型。如今,不仅多元曲线分析的用途越来越多,而且应用的领域也越来越广。从结构上来说,浓度的变化已经不是必须的了。这就使得对高光谱图像分析称为可能。这种高光谱图像具有两个空间维度(x-和y-)和一个光谱维度。为了不使数据混合,我们首先要将三维数据展开成一个数据矩阵。此数据矩阵的行代表像素光谱而列代表测量的光谱通道。在进行完多元曲线分析后,要将浓度轮廓还原成三维分布结构。FigZMCFtdecompositionofaHyperspectraiImagedatasei.多元曲线分析的算法多元曲线分析的算法有很多种,大体可以分为两种即为迭代法和非迭代法。大多数的非迭代方法,女口HeuristicEvolvingProjections(HELP)法,WindowFactorAnalysis(WFA)法和SubwindowFactorAnalysis(SFA)在多变量分析用来分析但过程数据时出现了。在这些方法中,浓度曲线用来定义存在不同成分的窗口。然后,子空间合适地结合不同的条件来修饰浓度曲线或者光谱,而与双线性模型想对应的可以通

过一部最小二乘拟合得到。因为设置这种组分较多,不连续或者无固定浓度方向的浓度窗口妨碍了这些方法的使用,所以这些程序如今很少使用。迭代多元曲线分析方法(MCR-ALS):运算程序用这种方法时,首先要对浓度曲线和光谱有一初步的估计,在每次迭代循环中在合适的限制条件下对初始估计进行优化直到达到收敛条件。收敛条件可以是预先设定的迭代次数或者两次优化差值的阀值。一旦优化完成,多元曲线分析的结果是一组浓度曲线和光谱曲线和拟合模型的质量参数,如方差或者欠合度(LOF)%LOF二%LOF二100ij一其中dj是数据矩阵D的元素,e..是相关的残差。为了得到令人满意的ijij结果,我们应该注意初始值的估计和限制条件。初始值估计是优化进程的起点,明智的估计是合理优化的开始。相反地,限制条件是浓度曲线必须遵守的性质。所以选择合适地限制条件并且知道如何利用它们为了保证得到有意义和可靠解的最重要的部分。a、初始估计MCR-ALS的初始估计可以使浓度曲线或者光谱。初始估计的黄金原则是在限制条件下做出明智的从猜测。另外也有方法来帮助我们做初始估计。在所有为类似过程数据设计的方法中,渐进因子分析9(evolvingfactoranalysis)是最为出名的。EFA是一种本地排名分析方法,这种方法可以探测数据表中一个组分的出现和衰减并且为此系统以所有组分循序出现-衰减的顺序提供浓度曲线。渐进因子分析在常规因子分析计算系统的成分(因子)数,它相当于求数据阵X的秩,即协方差Z=X'X的对角化阵的非零特征值数。Z的特征值与其行和列的次序无关。某些测定系统中(如色谱),所得谱图是随着洗脱过程按一定次序排布的,就是说在数据X中隐含着“顺序”的信息,这种信息在常规因子分析中未被利用。渐进椅子分析的基本思想是按照洗脱过程的进展,来跟踪X子阵的秩的变化。洗脱过程中,当某一成分出现时,子阵的秩会显著的增大,当某一成分消失时,子阵的秩会显著的减小。初级渐进因子分析首先对原始数据阵[X]进行主因子分析或奇异值分解,便可产生S个有意义的因子。第一个子阵X]由原数据阵X的第一列组成,第二子阵x2由[X]的第一、二列组成,第三子阵X3由[X]的第一、二、三列组成,依此类推。计算各个子阵的特征值。洗脱过程测定长常数洗脱过程测定长常数把计算得到的特征值作为洗脱过程的函数作图。因为特征值通常跨越几个数量级,所以取其对数值更适合于图形的表示:一个较大的有意义的特征值出现就意味着一个新的吸光化合物在洗脱过程中形成;在洗脱过程的任意阶段,如果有新的与已有化合物线性无关的化合物流出,则就有一个新的特征值开始以较大的正值出现;如果新加的测量值只包含原来就有的混合物的信息,那么,将会计算出另外的新的特征值。在完成以上的分析步骤后,再从数据矩阵相反方向重复类似于步骤2和3的方法重新计算特征值,即对数据矩阵的后i个列组成的子矩阵重新进行特征值分析:得到特征值的对数对洗脱过程的逆过程作图,这一步称为反向EFA;在此过程中新的因子(较大特征值)的逐渐出现表示成分随洗脱过程而消失。将第j条正向EFA所得的曲线和反向EFA的第(s+1-j)条曲线合并,这样就得到如图所示的多个成分的相切范围,这一范围被称为,浓度窗口”。用这种方式联结成的曲线类HPLC-DAD的结果为一数据点表X(PXQ),在数据表中,行P为在规定的时间间隔侧得的吸收光谱。列Q为在不同波长上测得的的吸收。图1数据表拥有时间和波长两个坐标轴。每一行对应于一个在一特定时间测定的光谱(Fig.la)。每一列可以看成一张在特定波长下侧得的色谱图。对应的,可以将这一数据点表看成一组连续测量的光谱;或者看成在不同波长下侧得的色谱图的堆积。HPLC有两种方法将混合物分离成不同的纯的物质。大部分情况下,人们会采用优化色谱仪参数,如固定相和流动相的组成以及温度,来达到分离的目的。这种方法比较繁琐。在这种情况下数值反褶积的方法应运而生。依据一些对根本数据的基本假定,如非负假定,各种各样的自模拟曲线分辨方法被用来将重叠的峰分成单独的化学物质。这些方法的最终目的是在不对化学组分以及每种组分的光谱和浓度曲线的形状和位置进行假设的前提下计算出它们。在进行计算时有两个步骤:1)探测化学组分数和它们相应的位置;2)确定浓曲线和光谱。EFA特别适合用来进行第一步的计算。为了对分析系统进行详尽的数学描述,数据矩阵X必须分解成C(PXN)列因素矩阵(如一浓度矩阵)A(NxQ)行因素矩阵(如一摩尔吸收系数矩阵)和一噪音矩阵E(NxQ)o其中N为出现的物质种类数,写成矩阵的形式为X=CA+E。对增加的数据矩阵进行PCA分析。从数据矩阵的第一行开始,如第一个测量的光谱,计算出所有子矩阵Xi的特征值(eigenvlues)。X:是通过X前i=1...P行形成的。根据X.二SL+E,其中s(iXN)为得分矩阵,L(NXN)为装载矩阵。正确i地确定N是最先和最重要的一步。首先要计算出所有的Q个特征值;举例来说,矩阵S的大小开始时iXQ,矩阵L为QXQ。对于第一个子矩阵Xi(由X数据表的第一行组成Fig.2a),要计算出其特征值。然后加上第二行并计算出此矩阵的特征值(Fig.2b.)。然后对前三行进行PCA分析(Fig.2c.),等等。在每一步都要加上一行并且对其进行PCA分析,直到对整个数据矩阵X进行分析。此一步为前向渐进因子分析。abcF(g.liflTniirJEfZ.SLsnm^L^」ih白阳I零比bun:(jl>,ixk*uJJeJiu.liind[bhfnijoLibcninsubmsnrkX.!lMsiisrt-pi'iikhiunii!wpixzrr白nr^iitclnd^YiinX.*1he时wrqjfu^mrni:rTMlrkrwKn^丹:ikhPCjV\9pvrA'n:wd-这些特征值或者它们的对数被用来对观察变量的顺序进行作图。为了使图像清晰,我们用先将所有顺序点的第一个特征值链接起来,再将所有顺序点的第二个特征值链接起来,等等。当特征值增加并大于噪音水平时,意味着一个新的成分的出现,导致秩的瞩目增加一个。实际上,理论上化合物的种类很容易地能够从EFA上找出,即为特征值高于噪音水平的数目,数据矩阵的秩,等于潜在的化合物种类数目。类似EFA,我们可以进行反向渐进因子分析。结束b、限制条件非负性:这一限制条件要求生成的浓度曲线为正值。可以在计算时将负值用0替换或者直接利用相应的程序,如非负最小二乘法或者快速非负最小二乘法。单峰态:每一物质的浓度曲线要求只有一个峰值出现。封闭性:即为质量守恒。与已知纯物质的光谱相吻合。多元曲线分析结果的不确定性多元曲线分析中的不确定性与不确定性和噪音的传播有关系。不明确的概念意味着浓度曲线和光谱的不同组合可以以同样的拟合效果再生出原始数据表。我们可以观察到三种不同的不确定性:1、排列的不确定性MCR组分的排列是无规则的。所以,它们可以在浓度矩阵和光谱矩阵内进行互换位置,但是浓度矩阵和光谱矩阵要一一对应。2、强度的不确定性一对组分在浓度曲线和光谱上拥有同样的形状但是不同的相对比例可以再生出同样的原数据矩阵。这就解释了为什么Ci和SiT中浓度值和纯光谱强度可以选择任意强度,除非有可用的实际强度的参考信息对浓度曲线或者分析出来的光谱进行归一化或者参考光谱的使用可以抑制强度的不确定性。

D二工cst+EiiiD二工(ck)stiiii<3、旋转的不确定性不同形状的浓度曲线和光谱可以以相同的拟合质量再生出原始数据这是最相关的一种不确定性:D=CSt才E、D二S片-iSt丿+E其中T是任意一种转换矩阵。减少或者压制多元曲线分析中的不确定性最主要的选择还是通过引入限制条件。有些限制条件可以保证对曲线中不确定性的压制,如trilinearity和hard-modeling。其他的限制条件,如1ocalrank也能压制不确定性。有许多评估多元曲线分析中不确定性的方法。寻找出一特定函数最大值和最小值边界:fi,minfi,min二minlCiST||cSTfi,maxmaxfi,maxmaxCSt这组方程能够提供目标方程中的极值,这种方法可以应用于拥有几个a)b)123456789组分的系统,并可以很好的描述:通过计算ff来确定其不确定性的程度。如果此值为0,那么i,maxi,min目标解就是唯一的。此差值越大,那么目标函数的不确定性就越大。不确定性的位置。将一个特定组分中与f.和f••相关的浓度曲线i,maxi,min和光谱作图,可以看到这种不确定性是否影响特定组分的浓度曲线和光谱。Perera,P.,Wyche,M.,Loethen,Y.&Ben-Amotz,D.Solute-inducedperturbationsofsolvent-shellmoleculesobservedusingmult

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论