互信息诱导子空间集成偏最小二乘在近红外光谱定量校正中的应用_第1页
互信息诱导子空间集成偏最小二乘在近红外光谱定量校正中的应用_第2页
互信息诱导子空间集成偏最小二乘在近红外光谱定量校正中的应用_第3页
互信息诱导子空间集成偏最小二乘在近红外光谱定量校正中的应用_第4页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、互信息诱导子空间集成偏最小二乘在近红外光谱定量校正中的应用         11-04-22 15:34:00     作者:谭超 覃鑫 李梦龙    编辑:studa20【摘要】  在集成框架下,提出了一种联合自助采样和基于互信息变量选择的子空间回归集成偏最小二乘算法MISEPLS。此算法的核心是通过训练集自助采样和随后计算互信息的方式来引入成员模型的差异性。由于互信息量小于一个特定阈值的变量被淘汰,每个成员模型在原始变量的

2、一个子空间得到训练。模型融合考虑了简单平均和加权平均两种方式。通过两个近红外光谱定量校正实验,与建立单模型的全谱偏最小二乘算法(PLS)和基于互信息变量选择的偏最小二乘算法(MIPLS)进行了比较。结果表明,在不增加模型复杂度的情况下,MISEPLS能建立起更精确、更稳健的校正模型。 【关键词】  互信息,子空间,集成,校正,近红外光谱1  引言    近年来, 近红外光谱(NIR)技术以其简便、快捷、低成本、无污染以及不破坏样品等优点,被越来越多地应用于石油、化工、医药、食品等领域1。近红外光谱对应分子中含氢基团的振动倍频与合频,加之各种干扰

3、存在和物理因素影响,具有背景复杂、谱峰重叠、变动、信号弱的特点,其中的有效信息率非常低。因此,从复杂、重叠、变动的光谱信号中提取微弱的有用信息,并建立校正模型是应用近红外光谱技术的难点和关键,直接决定了其可用性。化学计量学算法已成为近红外光谱技术的核心技术之一。具有代表性的化学计量学算法包括偏最小二乘(PLS)、人工神经网络(ANN),、支持向量机(SVM)1等。    传统的校正技术一般基于建立单一模型,在很多情况下,特别是当训练集较小时,单一模型的预测能力与稳健性难于达到要求1。起源于机器学习的集成或共识(Ensemble or consensus)策略为解决

4、该类任务提供了新思路1。所谓集成就是利用多个模型来解决同一个问题。对于模型设计者,不必试图采用复杂算法建立单个复杂模型,而是利用多个简单模型某种互补,可达到同样的目标。通常,在集成框架下,需要通过某种扰动(如对样本或变量重采样)产生分散的训练子集,并建立相应的成员模型,再通过简单平均或加权平均等方式将多个成员模型整个合起来,最终产生一个所谓的集成模型。集成最早应用于模式识别,由于其呈现出的众多优势,在化学计量学领域也已受到广泛关注。文献中报道了一些有效的集成算法,如BaggingPLS 1, Boosting KPLS 1, Subagging PLS 1, Consensus PLS1等。与

5、单模型算法相比,集成类算法能更充分地利用训练样本信息,因而能产生更精确和更稳健的校正模型。    在集成框架下,本研究提出了一种联合自助采样和基于互信息变量选择的子空间回归集成算法MISEPLS。其主要特点是综合训练集自助采样(Bootstrap) 1和互信息(Mutual information) 1变量选择来引入成员模型的差异性。由于互信息量小于一个特定阈值的变量被淘汰,每个成员模型在原变量集的一个子空间训练,因此可避免多元共线性带来的诸多问题。同时,也比较了简单平均和加权平均两种模型整合(融合)方式。通过两个近红外光谱定量分析实例及与建立单模型的全谱偏最小二

6、乘算法(PLS)、基于互信息变量选择的偏最小二乘算法(MIPLS)比较,验证了其综合性能:该算法能在不增加模型复杂度的前提下,显著提升校正模型的预测精度和稳健性。2  原理与算法    近红外光谱定量分析需借助校正模型。构建模型的过程即是校正,需根据校正集样本求回归系数b。不同的回归系数代表了不同的模型,具有不同的性能。在集成框架下,设计一个算法需考虑3个基本问题19:(1)成员模型类型  “成员模型”即用于集成的单个模型,是与集成模型相比较而命名的。成员模型类型由基算法决定(基算法是训练成员模型的算法),所以成员模型也被称为基模型。本研究采用

7、偏最小二乘(PLS)为基算法; (2)生成多个不同的成员模型  本研究用自助(Bootstrap)重采样结合基于互信息计算的变量筛选方法。互信息是信息论中的重要概念,它可作为两个变量间相关性的量度,或一个变量包含另一个变量的信息量的量度。设有随机变量x和y,它们的边缘概率分布和联合概率分布分别为Px(x), Py(x)和Pxy(x,y),这两个变量间的互信息定义为:(x,y)=Px,y(x,y)Px(x)·Py(y)Px,y(x,y)(1)可见,计算MI需先估计概率密度。一般先将x和y的取值范围细分为一定数量的小区间,并将XY平面划分为若干个方块,再通过统计直方图来近似概率

8、分布。若x和y分别表示光谱某波长(波数)处响应和浓度,则MI(x,y)表示在获知样本在该波长变量的响应后,浓度值的不确定性减少的量。与相关系数相比,互信息能兼顾变量间的线性和非线性,而光谱响应与物质浓度间的非线性是普遍存在的;自助采样又使变量间的互信息有所变化,这恰是集成建模所需的分散性,因此将互信息用在光谱集成校正中是可行的; (3)多个成员模型的融合  本研究采用简单平均与加权平均两种方式。    提出的MISEPLS算法主要包括以下步骤:(1)在训练样集上采用交叉验证的方式确定出最优全谱PLS模型的潜变量数Lvs(所有成员模型的潜变量数将设为这个数

9、),并确定集成规模成员模型数(M)和候选成员模型总数。根据文献2,集成超过25个成员模型并无必要。因此,本研究固定这两个参数分别为30和100 ,即仅30%候选成员模型用于最后集成。 (2)用自法助对原训练集重采样(随机有放回采样),产生一个同样大小的当前训练集。 (3)在当前训练集上,计算光谱变量和因变量(浓度)的互信息,产生互信息谱,并计算该谱的平均值(mean)和标准偏差(std.)。然后,定义阈值为:mean+1.5std.(根据前期实验研究)。通过仅保留互信息大于该阈值的变量,原光谱空间被削减为一个子空间,训练集光谱矩阵变为一小的子矩阵。 (4)在子空间内,建立一个成员PLS模型fm

10、(x),并用其预测原始训练集样本,得RMSEC值;(5)重复步骤(2)(4),直至候选成员模型数达到指定要求(100)。 (6)根据RMSEC值从小到大对候选成员PLS模型排序,并保留前30个PLS模型用于集成。 (7)用两种方法融合PLS模型为集成模型:(A)简单平均融合(SAF); (B)加权平均融合(WAF)。 对于后者,还需求加权系数m。若用F(x)表示集成模型,则这两种融合方法可统一表示为:(x)=Mm=1mfm(x)(2)   假设有N个训练样本,并用fm(xi)表示第m个成员PLS模型对第i个样本的预测值, yi 表示浓度的参考值,则通过求解线性方程

11、组:f1(x1)f2(x1)fM(x1)f1(x2)f2(x2)fM(x2)  f1(x)f2(x)fM(x)·  yy  yN(3)可得加权系数m。当m=1(m=1,2,M)时,即为简单平均。可见,简单平均是加权平均的特例。一旦获得集成模型(系数向量),通过光谱与系数向量间的点积运算即可对未知样品的浓度进行预测。两种融合策略SAF、WAF产生了MISEPLS算法的两个版本,分别用MISEPLS1和MISEPLS2表示。此外,基于互信息变量选择的建立单个PLS模型的算法用MIPLS表示。3  实验部分3.1  数据集 

12、60;  本研究使用两个近红外光谱定量分析数据集:(1)烟草数据Cigarette:包含148个某卷烟厂的烟丝样本,扫描光谱范围为8302500 nm(德国BRUKER公司MarixE仪器),每个光谱由691个数据点组成。每个样品的总糖(TS)和尼古丁(NIC)由连续流动分析仪(荷兰SKALAR公司San+仪器)给出,以质量百分数表示。所有样本均有TS参考值,仅81个样本有NIC参考值。TS浓度范围为20.93%26.98%,标准偏差为1.46%;NIC浓度范围为1.59%2.76%,标准偏差为0.30%。对每一光谱均实施了变量标准化处理(SNV),以去除微粒尺寸和附加散射等物理效应

13、的影响;(2)酒类数据Wine:该数据集来至文献2,包含124个酒类样本,扫描光谱范围为4004000 cm1,每个光谱由256个数据点组成,并提供样本酒精(Alcohol)含量。3.2  样本分割    为构建校正模型并对其进行有效评价,需实施训练集和测试集分割。本研究采用样本排序与交替重采样相结合的方法来实现。排序采用Galvo等提出的SPXY算法22。该算法是在样本距离定义中引入了化学值(浓度),是对经典KS算法的扩展,特别适合于定量任务。在该分割方案中,先计算所有样本间的欧氏(Euclidean)距离,并挑选出相距最远的两个样本,再依次挑选出与已挑出样本具有“最大最小距离”的样本,直到所有的样本被挑出。按被挑出的次序,样本排列成一个序列;再用间隔采样,以21的比例产生训练集和测试集,结果如表1第3列所示。4  结果与讨论4.1  算法性能比较    采用两个基于均方误差(RMSE)的指标评价和比较不同算法的性能,对训练集和测试集,RMSE分别表示为RMSEC与RMSEP。表1总结了4种算法所产生

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论