




下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
近红外光谱pcrpls建模中的异常样品检测
异常样品对光谱建模的影响小采用主成分回归或最小二乘法方法(plf)对近红外光谱数据进行建立光谱预测模型时,预测值和标准值之间的相关性较低。在选择最佳主要成分时,浓度预测值和标准值之间的浓度差很大。引起上述问题的原因主要是因为训练集样品中混有不适合参与建立近红外光谱建模的异常样品(outliersample)。异常样品对模型的影响绝对不可忽视,必须将其从训练集中剔除。剔除异常样品的方法,常采用“一审”剔除法,但容易把非异常样品错误地当作异常样品剔除。本文提出了一种采用“回收”算子的“二审”剔除法。1小麦样品的光谱预处理用近红外光谱数据建立光谱预测模型时,异常样品的存在将严重影响模型的预测精度。所谓异常样品,是指浓度标准值或光谱数据存在较大误差的样品。浓度标准值误差产生原因很多,主要是在测试浓度标准值时采用的方法不当或人为因素引起的浓度值抄写错误等;光谱数据的误差主要是由于光谱仪本身有误差、样品前处理不当、环境温度和湿度的影响等。图1为120个单粒小麦样品光谱(Jasco公司FT/IR470Plus光谱仪,加装近红外短波段Si检测器,波长范围:800~1176nm,2076波长点)。图2为该120个样品全部作为训练集,使用留一(leaveoneout)交叉校验(crossvalidation)PLS法预测的蛋白质浓度与标准值相关性图。从图中可知,预测值与标准值的相关系数为0.4812(测定系数为0.2316,最佳主成分数为8),相关系数很低是因为存在异常样品,必须将其剔除。2小麦蛋白质的浓度异常剔除训练集中异常样品的准则,有基于预测浓度残差、基于重构光谱残差、光谱PLS分解主成分得分的聚类分析,以及杠杆值与学生T检验等准则。通常在剔除异常样品时,可以选择一种或几种准则。下面只介绍最常用的基于预测浓度残差的剔除异常样品准则。在进行近红外光谱建模时,当使用留一交叉校验方法,利用残差平方和(PRESS)选择了最佳主成分fopt以后,对特定组分,称每一个留下的样品i,其组分浓度标准值与预测值之差为浓度残差(concentrationresidual),记为rCifopt=cOi-cPifopt(1)对于训练集所有的样品的浓度残差,组成一个n维的浓度残差向量RCfopt=(rC1fopt,…,rCifopt,…,rCnfopt)T(2)(i=1,2,…,n)式中cO——组分浓度标准值cP——组分浓度预测值rC——浓度残差文献提出了一种基于浓度残差的F统计显著性检验的方法,其统计量构成为FCiCi=|rCifopt|1n-1n∑j=1j≠i|rCjfopt||rCifopt|1n−1∑j=1j≠in|rCjfopt|=(n-1)|rCifopt|n∑j=1j≠i|rCjfopt|(3)(n−1)|rCifopt|∑j=1j≠in|rCjfopt|(3)分子自由度为1,分母自由度为(n-1),通过查F检验表得F0.01(1,n-1)(通常取显著性水平为0.99),如果FCiCi≥F0.01(1,n-1)(4)即可认为样品i为浓度异常样品,建模时应该从训练集中剔除。另外也可以给定某一硬阈值FC0(通常取1~5),根据下式判断出浓度异常样品。FCi≥FC0(5)图3显示了从图1中120个小麦样品中,采用基于预测浓度残差的准则剔除了44个异常样品之后,余下的76个样品的蛋白质的预测浓度与标准值的相关性。从图中可以看出,相关系数已显著提高到0.9109(测定系数为0.8297,最佳主成分数为8)。图4为图3中76个小麦样品的蛋白质浓度残差分布图,继续使用基于预测浓度残差的准则,如选取硬阈值FC0为3.25,根据式(5)又可以判断出5个异常样品。剔除这5个异常样品(标号为6、37、61、72、80)后余下的71个小麦样品PLS-CV预测的蛋白质浓度与标准值的相关系数又提高到0.9244(测定系数为0.8546)。3去除异常训练的方法3.1pcr/pls建模方法上节剔除异常样品时使用的方法,实际上是根据剔除异常样品准则,一旦鉴定出某些样品为异常样品后,就永久剔出该样品,笔者称为“一审”剔除法,其算法如下:(1)首先使用全部训练集样品,利用留一交叉校验的PCR/PLS建模方法,预测出每一个被保留下来的样品的组分浓度,求出预测值与标准值的相关系数。如果相关系数已经满足了要求(通常应大于或等于0.95),则就使用该训练集样品建立最终的PLS预测模型。否则继续下一步。(2)求出预测值与标准值的浓度(或光谱)残差,按某一种或几种剔除异常样品准则,鉴定出异常样品。(3)重新以剔除异常样品后的样品集作为新的训练集,返回第一步。“一审”剔除法的流程图如图5所示。“一审”剔除法,是剔除训练集中异常样品所采用的通用方法,可以有效地鉴定和剔除训练集中的异常样品,从而有效改善预测模型的预测能力。但一次剔除过多样品,易把非异常样品错误地当作异常样品剔除了。3.2异常样品的回收使用“一审”剔除法,一个样品一旦被鉴定为异常样品,并从训练集中剔除后,就没有机会再次参与建模了,“没有申辩的权利”。实际上,往往会出现这样的情况,某几个样品,当它们同时包含在训练集中时,都表现出异常样品的特征,传统方法就把它们全部去掉,但实际上它们之中只有部分样品是异常样品,如果仅仅去掉这些样品,其余的仍然留在训练集中参与建模,这些留下的样品并不表现出异常样品的特征。因此应该给予被鉴定为异常样品一定的继续参与建模即继续鉴定的机会。本文提出一种“二审”剔除异常样品的方法,其基本思想就是,如果某次检测出一部分异常样品后,并不马上把它们剔除,而是一次取一个被检出的异常样品,重新放回训练集中,再进行一次PCR/PLS-CV运算,看该样品是否仍然为异常样品,如果仍然为异常样品,才永久地从训练集中剔除该样品,否则,保留并回收该样品,即所谓“回收”算子。“二审”剔除法的流程图如图6所示。其算法如下:(1)首先使用全部训练集样品,利用留一交叉校验的PCR/PLS建模方法,预测出每一个被保留下来的样品的组分浓度,求出预测值与标准值的相关系数。如果相关系数已经满足了要求(通常应大于或等于0.95),则就使用该训练集样品建立最终的PLS预测模型。否则继续下一步。(2)求出预测值与标准值的浓度(或光谱)残差,按某一种或几种剔除异常样品准则,鉴定出异常样品。(3)如果鉴定出的异常样品只有一个,直接剔除该样品形成新的训练集,返回第一步。(4)如果鉴定出的异常样品不只一个,依次从异常样品中取出一个,重新放回训练集,对增加了一个异常样品的训练集,使用PCR/PLS-LOO-CV方法,再次鉴定该样品。(5)如果该异常样品仍为异常样品,就继续标记为异常样品,否则就标记为正常样品。(6)把所有二次鉴定为异常样品的样品,从训练集中剔除,二次鉴定为正常样品的样品保留并回收,形成新的训练集,返回第一步。3.3预测的质量与标准值的相关性分析对图4所示的76个样品的浓度残差图,如前所示,如采用“一审”剔除法,一次循环(如图5)就剔除了标号为6、37、61、72、80的5个样品,剔除这5个异常样品后余下的71个小麦样品PLS-CV预测的蛋白质浓度与标准值的相关系数为0.9244。如采用“二审”剔除法,将这5个样品的每一个依次(图6内层循环)放回到由71个样品组成的训练集中,再使用PLS-CV方法进行二次鉴定(仍选取硬阈值FC0为3.25),二次鉴定的结果如表1所示。现在第6、80号样品已不再是异常样品了,把这两个样品重新回收到由71个样品组成的训练集中,形成由73个样品组成的新的训练集,使用PLS-CV方法预测的蛋白质浓度与标准值的相关系数为0.9235(测定系数为0.8529)。对所有的120个样品分别使用“一审”剔除法和“二审”剔除法,当预测的蛋白质浓度与标准值的相关系数达到0.95以上时,停止运算,最终建立的模型结果如表2所示。从表中可以看出,“二审”法回收了9个样品。表2中参数计算式如下:测定系数(coefficientofdetermination)R2=n∑i=1(cΡi-¯cΟ)2n∑i=1(cΟi-¯cΟ)2=[n∑i=1(cΡi-¯cΡ)(cΟi-cˉΟ)]2n∑i=1(cΡi-¯cΡ)2n∑i=1(cΟi-¯cΟ)2相关系数(correlationcoefficient)R=n∑i=1(cΡi-¯cΡ)(cΟi-¯cΟ)√n∑i=1(cΡi-¯cΡ)2√n∑i=1(cΟi-¯cΟ)2=√R2交叉校验标准差(standarderrorofcrossvalidation)δSECV=√1nn∑i=1(cΟi-cΡi)2均方根误差(rootmeansquareddeviation)δRMSD=√1nn∑i=1(cΟi-cΡi)2=δSECV4清除异常样品的一般方法(1)采用基于预测浓度残差等剔除异常样品准则,可以有效地鉴定训练集中的异常样品。(2)剔除异常样品的“一审”法,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 律所托管辅合同范本
- 书桌采购合同范本
- 制定合同范本意义
- 瓷砖铺贴施工合同范本
- 南水北调供水合同范本
- 苏州市劳动合同范本
- 包月鲜花合同范本
- 乐队驻唱合同范本
- 合作养鱼协议合同范本
- 合伙安装水电合同范本
- 安徽2025年安徽医科大学第一附属医院临床医技护理管理岗位招聘156人笔试历年参考题库附带答案详解
- 旅游景区股份合作开发协议书范本
- 2025年湖南有色金属职业技术学院单招职业技能测试题库汇编
- 学情分析方案及学情分析报告范文
- 《急性冠状动脉综合征》课件
- 【博观研究院】2025年跨境进口保健品市场分析报告
- 游戏直播平台推广合作协议
- 《高科技服装与面料》课件
- 《马克思生平故事》课件
- 2024-2025学年四川省成都市高一上学期期末教学质量监测英语试题(解析版)
- HRBP工作总结与计划
评论
0/150
提交评论