土壤有机质nir光谱分析的偏最小二乘模型_第1页
土壤有机质nir光谱分析的偏最小二乘模型_第2页
土壤有机质nir光谱分析的偏最小二乘模型_第3页
土壤有机质nir光谱分析的偏最小二乘模型_第4页
土壤有机质nir光谱分析的偏最小二乘模型_第5页
已阅读5页,还剩1页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

土壤有机质nir光谱分析的偏最小二乘模型

1pls因子数结合光谱预处理方法的选择土壤是农业生态环境的重要组成部分。土壤有机质含量是衡量土壤肥力的重要指标。常规的土壤有机质的测定通常在实验室进行,需要化学反应,操作繁琐。建立土壤有机质的无试剂、直接快速的测定方法在现代农业中具有重要意义。随着光谱技术和化学计量学的快速发展,近红外(NIR)光谱以其简便、快速、非破坏性和易于在线分析等特点已广泛应用于农业、食品、环境、生物医学等领域。近年来,国内外已有土壤NIR光谱分析的应用研究。但土壤是具有多组分的复杂体系,它的光谱包含有很多噪音和其他未知成分的吸收干扰,因此,优选适当的光谱预处理方法,利用有效的化学计量学方法降低噪音干扰,提高土壤NIR光谱分析的精度是进一步需要解决的重要课题。偏最小二乘法(PLS)是融合主成分分析和多元线性回归的一种应用广泛的光谱建模方法[1,2,3,4,5,6,7,8,2,7,8],其中PLS因子数对应了代表样品信息的光谱综合变量的个数,合理选择PLS因子数对于充分利用光谱信息和消除噪声非常重要。另一方面,光谱预处理的目的也是为了充分利用光谱信息和消除噪声,因此,PLS因子数结合光谱预处理模式来联合筛选将是更有效的。光谱预处理方法有很多种,Savitzky-Golay(SG)平滑是一种可以有效消除基线漂移、倾斜等噪声的应用广泛的光谱预处理方法[9,10,11,12,10,11,12]。它包含多种不同的平滑模式,其参数包括导数阶数、多项式次数和平滑点数,其中平滑点数是一个重要参数,平滑点数过少容易产生新的计算误差,从而造成模型精度下降,平滑点数过多则会使得包含样品信息的光谱数据磨光丢失,同样也会造成模型精度下降。因此,合理选择平滑点数是非常重要的。但是,只有根据PLS模型的预测效果,结合PLS因子数的优选,才能选择合适的平滑点数。另一方面,由于土壤的NIR光谱是采用漫反射方式收集的,由于样品的不均匀性,土壤NIR漫反射光谱中包含有散射造成的噪声。多元散射校正(MSC)是将光谱中的散射信号与化学吸收信息进行分离的一种预处理方法,它可以消除在漫反射过程中由于样品颗粒不均匀而造成的同批样品近红外光谱的差异。SG平滑和MSC都是有潜力的光谱预处理方法,然而,单独(或联合)采用MSC和SG平滑预处理方法,其预处理效果各不相同,而且,在SG平滑中,还需要从众多的平滑模式中筛选出适当的模式。对于土壤有机质的NIR光谱分析,单独采用还是联合采用上述两种光谱预处理更有效,必须通过大量的计算机对比实验,根据模型预测效果来判断。由于MSC与多种SG平滑模式的组合优选的工作量很大,这方面的深入研究还不多,但这是改善NIR光谱分析预测能力的一个重要措施,特别是对于土壤这样的复杂体系。根据上述目标,为了建立土壤有机质NIR光谱分析的优化模型,深入讨论光谱预处理模式对NIR分析能力的影响,本文分别对下列5种情形进行详细的对比讨论:(1)未做任何预处理;(2)单独做MSC预处理;(3)单独做SG平滑预处理;(4)先做MSC后做SG平滑预处理;(5)先做SG平滑后做MSC预处理。在SG平滑预处理过程中,考虑到一些实际系统可能需要更多的平滑点数和多项式次数,本文对SG平滑的平滑点数和多项式次数都做了扩充,并计算出相应的平滑系数组合,使得平滑模式由原来的117种扩充到483种,是适用范围更宽的SG平滑预处理群。结合PLS方法,构建了根据模型预测效果进行SG平滑模式与PLS因子数联合优选的计算机算法平台,使光谱预处理方法的选择更加全面,并能够有效地改善NIR分析的预测能力。2实验部分2.1光谱实验方法收集91个广东农田土壤样品,在常规实验室里采用重铬酸钾氧化法测定样品中的有机质含量,作为光谱分析的参考化学值。全体样品化学值范围0.676%~2.830%,均值、标准偏差分别为1.622%、0.520%。光谱实验仪器为丹麦FOSS公司的XDSRapidContentTM光栅型近红外光谱分析仪,探测器为Si(400-1100)nm和PbS(1100~2500)nm。采用漫反射圆池附件测量光谱,每个样品测量3次,计算平均光谱作为该样品的测量光谱。光谱扫描谱区为(400~2500)nm,相邻波长点间隔为0.5nm。实验温度为25±1℃,湿度为46±1%RH。2.2测定波长和预测集的确定为了建立客观的、具有代表性的分析模型,基于样品的吸光度和参考化学值,把全部样品划分为2个相似的集合,分别作为定标集和预测集。根据比尔定律,我们考虑样品的吸光度与有机质含量的每一个单波长线性模型,根据预测效果选出最优单波长模型,进一步计算每个样品的最优单波长预测偏差(optimalsinglewavelengthpredictionbias,OSWPB),它是结合吸光度和有机质含量的一个综合指标,用来评价定标集和预测集样品的相似性。本文把全部91个土壤样品划分为定标集(64个)和预测集(27个)。具体过程如下:考虑土壤样品吸光度与有机质含量化学值的单波长线性模型其中,A(v)为土壤样品在波长v的吸光度,k(v)为在波长v的有机质单位浓度吸光系数,C为土壤样品的有机质含量化学值,ε为其它未知干扰。在每一个波长vi(i=1,2,..,K,K是全谱段波长点个数),利用样品的吸光度Aj(vti)和参考化学值Cj(j=1,2,...,M,M是样品个数)做回归计算k(vi),然后利用k(vi)和Aj(vi)计算样品j的有机质含量预测值Cj(vi)计算波长vi上的均方根偏差:根据RMSE最小筛选出最优单波长模型以及对应的波长vOptinmal,计算每个样品的OSWPB:本文根据OSWPB划分定标集和预测集,采用计算机算法程序,使定标集样品和预测集样品的OSWPB的均值和标准偏差都充分接近,相对误差小于1%,这样的划分使得定标集和预测集具有相似性,从而具有建模代表性。2.3光谱预处理方法土壤样品的光谱是采用漫反射方式测量得到的,由于样品的不均匀性,待测组分含量较低而引起的光谱变化可能被散射效应所覆盖,为了克服这方面的噪音干扰,本文利用MSC方法对光谱进行预处理。具体过程如下:计算需要校正光谱的平均光谱,利用平均光谱数据计算回归系数,利用回归系数计算MSC校正后的光谱,其中Aj(j=1,2,...,M)为每一个样品的原测量光谱,为所有样品的平均光谱,mj和bj是回归系数,为每个样品经过MSC后的校正光谱。2.4基于常系数k的平滑模式计算SG平滑的参数包括导数阶数d(原谱平滑看成0阶求导)、多项式次数p和平滑点数2m+1。SG平滑把光谱区间的2m+1个连续点作为一个窗口,用多项式(自变量为点的编号i,i=0,±1,±2,…,±m)对窗口内的光谱数据做最小二乘拟合,得到相应的多项式系数,然后采用得到的多项式系数计算出该窗口中心波长点(i-=0)的平滑值和各阶导数值。使窗口在全谱范围内移动,计算原光谱的SG平滑光谱和SG导数光谱。根据上述方法,窗口中心点的平滑值和各阶导数值可以表示为窗口内各点实测数据的线性组合,线性组合的系数(即平滑系数)由导数阶数、多项式次数和平滑点数(即窗口内的点数)唯一确定。在原文中,导数阶数d=0,1,2,3,4,5,多项式次数p=2,3,4,5,平滑点数为5到25之间奇数,不同的参数组合对应不同的平滑模式(对应不同的平滑系数组合),总共有117种平滑模式(即117组平滑系数)。对于一些实际系统,如果光谱波长间隔较小,平滑点数也不多,平滑窗口会很小,所包含的信息量不够,在这种情况下,较难得到好的平滑效果,因此,SG平滑点数的扩充是很有必要的。本文将平滑点数扩充为5到81之间的奇数,多项式次数扩充为p=2,3,4,5,6,共有483种平滑模式(包含原有的117种),计算相应的平滑系数,是适用范围更宽的SG平滑预处理群,可以根据研究对象从中选择适当的平滑模式。下面以3阶导数、5次多项式、21点平滑的平滑模式为例,介绍平滑系数的计算过程。实际上,这里需要利用5次多项式、21点平滑来计算3阶导数光谱。首先,窗口内的21个连续波长的编号为i=0,±1,±2,…,±10,对应的光谱数据为Aj,5次多项式可定义为:利用光谱数据Ai来拟合多项式系数b5k,k=0,1,2,…,5。然后计算窗口中心点(i=0)的3阶导数光谱值,因此,下面只需要确定b53。根据最小二乘原则,化简得到,上式是b5k(k=0,1,2,...,5)的常系数线性方程组,方程组所有的右端项都是光谱数据Ai的线性组合,可以唯一确定b53(也是光谱数据Ai的线性组合),对应得到窗口中心点(i=0)的3阶导数光谱值a53,求解上述常系数线性方程组,可以计算出21个平滑系数ki,结果如下:8.802,-7.365,-10.684,-7.037,-0.737,5.282,9.265,10.438,8.817,5.006,0,-5.006,-8.817,-10.438,-9.265,-5.282,0.737,7.037,10.684,7.365,-8.802(×10-3)。其他的每一种SG平滑模式的平滑系数组合都可以按照上述方法类似地计算出来。2.5预测集的数量模型评价指标主要包括预测均方根偏差(RMSEP)和预测相关系数(RP)其中,Cjp、Cjp分别为预测集中第j个样品的预测值和化学值,Cmp、Cmp分别为预测集样品的预测值均值和化学值均值,Mp为预测集的样品总个数。本文以RMSEP为指标进行参数优化和模型优选。3最优模型pls建模91个农田土壤样品的近红外光谱如图1所示。光谱扫描的全谱波段为(400~2500)nm,本文基于这个波段建立定标预测模型,并进行光谱预处理模式的优选。按照2.2节的方法,建立每个波长点的吸光度和化学值的单波长模型,由RMSE最小找到最优波长vOptimal为1072nm,根据1072nm对应的最优单波长模型计算每个样品的OSWPB,从而将91个样品划分为定标集(64个)和预测集(27个)。定标集和预测集的化学值、OSWPB的均值和标准偏差如表1所示,定标集和预测集的OSWPB均值和标准偏差非常接近,化学值均值和标准偏差也比较接近,2个集合在这个意义上具有相似性。利用PLS回归方法,结合土壤的光谱数据和有机质的参考化学值,建立土壤有机质NIR光谱分析的定标预测模型,深入讨论光谱预处理模式对NIR分析能力的影响。本文对于单独(或联合)采用MSC、SG平滑预处理以及不做光谱预处理,分为下列5种情形具体讨论:(1)未做任何预处理;(2)单独做MSC预处理;(3)单独做SG平滑预处理;(4)先做MSC后做SG平滑预处理:(5)先做SG平滑后做MSC预处理。在SG平滑预处理中,本文把SG平滑模式扩充为483种,每一种平滑模式所对应的平滑系数组合都可以按照2.4节的方法计算。每一种平滑系数组合都可以计算出来,但具体计算过程仍然是不尽相同的,没有统一的解析表达式,要把所有平滑模式所对应的平滑系数组合都计算出来,进一步把每一类平滑光谱分别建立PLS模型,再进行模型优选,总体运算量很大,为此,本文构建了包括所有SG平滑模式的平滑系数组合的计算过程以及SG平滑模式与PLS因子数联合优选的化学计量学算法平台,构建相应的数据库。在此平台上,对于扩充的平滑点数和多项式次数,可以快速计算出每一种SG平滑模式所对应的平滑系数,并自动分别用于建立PLS模型,然后可以进行SG平滑模式的大范围优选。在后3种光谱预处理情形中,需要对SG平滑模式进行大范围筛选,利用所构建的算法平台,计算出所有483种SG平滑模式相应的平滑系数组合,并结合PLS方法,把全部483种SG平滑模式和不同PLS因子数(设置为1~30)分别组合,共建立14490个PLS模型,根据模型预测效果同时优选SG平滑模式和PLS因子数。对上述5种不同的光谱预处理情形分别建立PLS模型,根据模型预测效果联合优选SG平滑模式和PLS因子数,分别得到这5种情形所对应的最优PLS模型,其RMSEP值、RP值、PLS因子数和SG平滑参数(不同导数平滑、不同多项式次数、SG平滑点数)如表2所示。由表2可见,最优的预处理方法是先做SG平滑后做MSC的预处理,其中最优的SG平滑模式是从全部483种模式中筛选,平滑参数为:3阶导数、5次多项式、21点平滑,预处理后的光谱用于建立PLS模型,对应PLS因子数为5,RMSEP为0.246(%),RP为0.883。这里的最优平滑模式的21个平滑系数已经在2.4节中作为例子给出,先做该模式的SG平滑后做MSC处理所得到的91个土壤样品的NIR光谱如图2所示,上述最优模型的预测效果是基于这些处理后的光谱数据获得的。为了分析平滑点数对于模型预测效果的影响,图3给出了各平滑点数对应的最优RMSEP(从不同导数阶数、不同多项式次数、不同PLS因子数中优选),21点平滑的模型明显优于其他平滑点数的模型。此外,为了分析PLS因子数的设置对模型效果的影响,在SG平滑模式为上述最优模式的情形,图4给出了不同PLS因子数对应的RMSEP,因子数为5时的模型预测效果最好。本段的结果都是在先做SG平滑后做MSC预处理的情形下得到。从表2还可以看出,光谱经过MSC预处理之后,模型的预测效果比未经预处理前有所提高;而光谱经过SG平滑预处理之后,由于SG平滑的可选模式很多,按照模型预测效果来筛选平滑参数,相应的模型预测效果比未经预处理前有更大的改善,结果表明,只做SG平滑预处理的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论