苹果糖度近红外光谱的数据预处理_第1页
苹果糖度近红外光谱的数据预处理_第2页
苹果糖度近红外光谱的数据预处理_第3页
苹果糖度近红外光谱的数据预处理_第4页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

苹果糖度近红外光谱的数据预处理

1光谱数据预处理近年来,近红外光谱检测技术已广泛应用于生物内部质量的检测中。但由于近红外区的谱带复杂、重叠多,生物体光谱中对待测品质毫无价值的信息(包括来自生物体内部以及来自外部环境的干扰信息)必定会对待测品质的近红外预测产生影响。为了获得满意的预测精度,通常都要先对原始光谱进行预处理,然后再利用多元统计分析技术建立预测模型。在利用近红外光谱技术检测苹果糖度的研究中发现,用常用的光谱数据预处理方法如塞维兹-戈莱(Savitzky-Golay)卷积、多元散射校正及二阶求导等对光谱进行预处理后,虽然糖度模型的预测精度较高,但模型依然过于复杂(模型采纳的因子数过多)。为此,尝试采用两种能简化模型的光谱预处理算法——正交信号校正法(Orthogonalsignalcorrection,OSC)和净分析物预处理法(Netanalytepreprocessing,NAP)对苹果的近红外原始光谱进行预处理,希望能获得理想的简化模型。2算法的总结2.1fearn算法正交信号校正法由Wold首先提出,随后Sjoblom、Andersson、Fearn、Westerhuis及Feudale等先后对这种预处理法作了改进与发展。正交信号校正法的基本思想是:利用数学上空间正交的原理,将原始光谱矩阵中与待测品质不相关的部分信息特别是系统噪声滤除。本研究中采用Fearn的正交信号校正法对苹果光谱进行预处理:设苹果校正集的近红外原始光谱数据矩阵为X(I×J,I为测试集样本数,J为波长数),该矩阵中的某一元素xij(i=1,2,…,I;j=1,2,…,J)为第i个样本在第j个波长处的反射率,苹果糖度实测值向量为y(I×1)。Fearn算法的关键在于寻求一个J×A阶权重矩阵WOSC,该矩阵的每一列为权重向量wl(l=1,2,…,A),也称为正交信号校正因子,与之相应的分向量tl应最大程度地反映苹果原始光谱X中与糖度实测值向量y正交的那部分变化,即yTtl=0(上标“T”表示矩阵或向量的转置)。权重向量wl(l=1,2,…,A)的求解过程是:1)构造一个与糖度向量y正交的矩阵Z=X[I-XTy(yTXXTy)-1yTX](I为J×J阶单位矩阵);2)求出平方矩阵[ZTZ]的前A个特征向量即为权重向量wl(l=1,2,…,A)。求出wl后,根据tl=Xwl及pl=XTtl(tTltl)-1得到J×A阶载荷矩阵POSC(该矩阵的每一列为载荷向量pl)。然后将原始光谱矩阵X向权重空间WOSC作正交投影就可得到经A个正交信号校正因子处理后的光谱矩阵XO,A,即XO,A=X(I-WOSCPΤΟSCTOSC),此式中I为J×J阶单位矩阵。预测集苹果光谱XUN的正交信号校正按式XUN,O=XUN(I-WOSCPΤΟSCTOSC)进行,XUN,O为经正交信号校正法预处理后的预测集苹果光谱。2.2近红外原始光谱矩阵的求解净分析物预处理法由Goicoechea等首先提出,该法基于净分析物信号(NAS)理论,主要用于提取混合物光谱中某一纯组分的光谱信息。其基本思想是:利用数学上空间正交的原理,将原始光谱矩阵中待测组分的净分析物信号(NAS)提取出来。苹果光谱的净分析物预处理(NAP)算法如下:同样设苹果校正集的原始光谱矩阵为X(I×J),苹果糖度实测值向量为y(I×1)。由于苹果糖度是反映多种物质综合作用的一项指标,因此在运用净分析物预处理法时将苹果的近红外原始光谱矩阵X分为两部分,其中一部分是与糖度相关的信息,而另一部分是与糖度不相关的所有干扰信息(包括来自苹果内部以及来自环境的干扰信息)的综合,即X=XSC+X-SC,(1)式中XSC表示苹果光谱中与糖度相关的信息,X-SC则表示光谱中糖度之外的所有其它干扰信息的综合。寻求一个与X-SC正交的J×J阶矩阵FNAP(即X-SCFNAP=0),使(1)式两边同乘以FNAP后有XFNAP=XSCFNAP成立,这一步是该算法的关键步骤。矩阵FNAP的求解过程为:1)将原始光谱矩阵X向糖度实测值向量y作正交投影得到X-SC=[I-y(yTy)-1yT]X(式中I为I×I阶单位矩阵);2)求出平方矩阵[(X-SC)TX-SC]的特征向量矩阵U(U为J×A阶矩阵,U中的每一列为一个净分析物预处理因子);3)构造矩阵FNAP=I-UUT(式中I为J×J阶单位矩阵)。然后即可求出经A个净分析物预处理因子处理后的光谱X*SC=XFNAP=X(I-UUT),式中X*SC为经净分析物预处理法处理后得到的光谱矩阵,也即糖度的净分析物信号矩阵。预测集苹果光谱XUN的净分析物预处理按式X*UN,SC=XUN[I-UUT]进行,X*UN,SC为预测集苹果光谱中糖度的净分析物信号矩阵。分析上面的算法步骤可以发现,两种算法都经过了两次正交投影的过程,第一次正交投影分别得到Z和X-SC,第二次则得到XO,A和X*SC。3苹果初始光谱的制备实验选用市售陕西白水水晶富士39个,从中随机地选取28个作为校正集,余下的11个作为预测集,分别编号后置于4℃冰柜中贮藏。光谱检测实验在环境温度可控的实验室(实验环境温度控制为26℃)内进行。实验前,将冰柜中取出的苹果置于试验室中12h,以使苹果整体温度达到与环境温度的一致;由近红外光谱仪(Nexus670FT-IR,美国Nicolet公司)在每个苹果的最大横径上等距离地选取四个点进行光谱扫描,扫描波长范围为1300~2100nm,波长间隔为0.5nm(即波长数J=1600);扫描时光纤探头与苹果果皮直接接触,并尽量避开表面缺陷处;取这四个点的平均光谱作为整个苹果的原始光谱。然后将该苹果削皮,取可食用部分榨汁,并用手持式糖度计(WYT0-32型,泉州韦达计量仪器厂)测定其糖度值。图1为校正集28个苹果的原始光谱图。表1列出了所有39个被测苹果糖度实测值的变化范围、平均值及标准偏差。4结果与讨论4.1净分析物预处理法主要特点分别采用正交信号校正法和净分析物预处理法对苹果的原始光谱进行预处理,图2分别为采用前3个正交信号校正因子和3个净分析物质处理因子处理后的校正集苹果光谱。由图可以看出,经正交信号校正法预处理后的光谱[图2(a)]形状与原始光谱(见图1)没有太大的区别,只是在排列上更为紧密。而经净分析物预处理法预处理后的光谱[图2(b)]形状则发生了巨大的变化,光谱曲线变得更加粗糙。同时,在约1400nm、1740nm和1880nm处出现了三个较为明显的峰(苹果的原始光谱是平缓、光滑的曲线)。这是因为正交信号校正法主要用于滤除原始光谱中的部分系统噪声(如光的散射及光程差异等),该法在去噪的过程中仍保留了光谱中的主要信息,因此处理后的光谱形状与原始光谱形状相比没有太大的区别。而净分析物预处理法则主要用于提取光谱中糖度的净分析物信号。在信号提取过程中,与糖度不相关的所有信息(包括来自苹果内部的其它成分的信息以及来自外部环境的干扰信息)被最大程度地从原始光谱中剔除,因此,光谱中只含有糖度信息和少量干扰信息,这就导致光谱形状发生了变化,并出现了较为明显的峰。4.2最佳因子数主成分数的确定在采用偏最小二乘法(PLS)建立模型前,先按校正集和预测集分别将经过正交信号校正法和净分析物预处理法预处理的苹果光谱中心化。校正模型的最佳因子数(主成分数)由交互验证法(Cross-Validation)确定,即由最小的预测残差平方和(PRESS,物理量用s表示)确定。表2和表3分别列出了经正交信号校正法和净分析物预处理法预处理前后,实验数据的偏最小二乘校正结果(表2、表3中分别列出了采用0~12个两种因子预处理苹果光谱后的校正结果)。4.3最佳模型糖度模型的比较对原始光谱进行预处理前,偏最小二乘(PLS)模型已能较好地预测苹果的糖度。其校正时的相关系数r2和标准偏差分别为0.92190和0.41473,预测时的相关系数r2和标准偏差分别为0.86572和0.50473。但该模型采纳的最佳因子数为11,这使得模型显得过于复杂。对原始光谱分别进行预处理后建立的偏最小二乘法糖度模型(相应称为OSC/PLS模型和NAP/PLS模型)所采纳的最佳因子数会随着预处理过程中所用正交信号校正因子和净分析物预处理因子数的逐个增加而逐渐减小,甚至可减少至1。最初时,预处理过程中所用的因子每增加1个,模型所采纳的最佳因子就减少1个,采用8个因子分别对苹果原始光谱进行预处理后,两种模型的最佳因子数都减到3。采用12个正交信号校正因子和11个净分析物预处理因子时,两种模型的最佳因子数均减到了1。此后即使采用更多的因子预处理光谱,模型的最佳因子个数都保持为1(表中未列出)。之所以都能使糖度模型的最佳因子数减少,是因为这两种方法在预处理苹果原始光谱的过程中,随着正交信号校正因子或净分析物预处理因子的逐渐增加,与糖度不相关的干扰信息也逐渐减少的缘故。从表2和表3中还可以看出,与原始光谱的偏最小二乘法糖度模型相比较,OSC/PLS糖度模型和NAP/PLS糖度模型的精度都只有很小的波动。OSC/PLS糖度模型在采用10个正交信号校正因子预处理光谱时达到最佳性能,最佳模型采纳的偏最小二乘因子数为2,校正时的相关系数r2和标准偏差分别为0.92644和0.40250,用于预测时的相关系数r2和标准偏差分别为0.86701和0.50229。而NAP/PLS糖度模型在采用11个净分析物预处理因子预处理光谱时达到最佳性能,最佳模型采纳的偏最小二乘因子数为1,校正时的相关系数和标准偏差分别为0.93089和0.39014,用于预测时的相关系数r2和标准偏差分别为0.87260和0.49161。可以看出,与原始光谱的糖度模型相比,最佳OSC/PLS糖度模型和最佳NAP/PLS糖度模型都显得更加简洁,因此从总体上评价,性能都明显优于原始光谱的糖度模型。而前两者中,最佳NAP/PLS模型又略优于最佳OSC/PLS模型。图3为以最小预测残差平方和值确定模型最佳因子数的示意图[为更易看清,图中采用log(s)值],图中下部自左至右的“☆”、“○”和“□”处的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论