近红外光谱预测汽油辛烷值_第1页
近红外光谱预测汽油辛烷值_第2页
近红外光谱预测汽油辛烷值_第3页
近红外光谱预测汽油辛烷值_第4页
近红外光谱预测汽油辛烷值_第5页
已阅读5页,还剩36页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

刖言烃加工工业中,连续在线监测关键石油物流的性质,是强化过程控制和炼厂信息系统集成的重要环节,为表征石油物流这一高度复杂的烃类混合物,引入了一系列测试手段和标准指标,总的来说,这些指标测试费用高、重复性差、试样用量大,在线实现时维护代价高,响应速度慢。七十年代以来,近红外光谱(NIR)技术在分析机理、仪器制造、数据处理方面有了很大发展,与传统分析仪器相比,近红外分析仪有显著优势:光纤远程信号传输,可实现非接触式测量;一谱多用,只要建立模型,可同时测量多个指标;预处理简单,分析中不需化学试剂;响应速度快;易于制成小型紧凑的过程分析仪,在农作物分析等方面已建立实用标准[47]。八十年代末,西雅图华盛顿大学过程分析化学中心(CPAC)进行了将近红外技术用于石油化学领域的研究,最重要的工作是测量汽油辛烷值,族组成和其它几个关键指标,随后在世界范围内的众多试验室和炼厂开展了这方面的研究工作,例如位于法国的BP拉菲尔炼厂将近红外技术大量用于过程控制,效益显著:在调合工艺中,一套近红外分析仪可替代两台辛烷机和一套雷德蒸汽压测试仪和其它蒸馏测试装置,月维护时间减小到数小时,光学仪器发生故障的平均时间间隔能够提高到几百小时,辛烷值测量范围增宽,重复性偏差小于0.1,该厂借助于近红外分析系统对乙烯蒸汽裂解炉的进料进行高频监测和优化,年收益百万美元,分析设备的投资可很快回收,还有利于下游分馏塔的稳定操作尽管NIR预测的重复性很好,在数学模型的设计上仍要谨慎从事。因为近红外技术用于石油物流性质的预测是基于ASTM系列测定的二次方法,NIR模型只有在其适用范围内,才能获得与ASTM测试一样的准确性,当对象物流由于进料、工艺等原因偏离原模型的适用范围时,NIR模型必须重新标定。如何提取NIR光谱和目标性质的统计关系是这门技术软件方面的关键。一些典型的数学方法有主因子分析(PCA)、偏最小二乘法(PLS)、多元线性回归(MLR)、判别分析(DA)、聚类分析和人工神经网络(ANN)等,这些基本属于计量化学问题。一个有工业价值的模型,是基于工艺、产品、光谱和数学知识,适用范围宽、预测准确、重复性好、易于维护的模型。与国外近红外技术的应用相比,国内做的工作还很不够,红外光谱的应用主要停留在中红外光谱的定性分析上,计量化学方法的使用还较少。毋庸质疑,NIR的最大收益将来自在线监测,需要控制环节的配套投资。但是,诸如减少辛烷值测试频度的离线应用,投入小,见效快,还可为在线应用积累经验,完全可在现有试验室基础上开展。就硬件方面,国外较新的红外仪器都具备或可括充至近红外波段,数据可转至微机处理,也有具备条件的国产仪器开始推出。由于近红外光谱数据处理的复杂性,表1所示众多性质模型的建立和维护将是一个瓶颈问题,本课题的目的在于,将传统计量化学模型与人工神经网络模型结合起来,探索通用性、鲁棒性好,易于推广使用的NIR建模方法和计算程序,促进近红外技术在石化生产中的应用。由于辛烷值预测在石油化工中的重要作用,本工作的试验和理论工作集中于汽油辛烷值与近红外光谱的关系,但是所建立的方法毫无疑问可推广到其它油品质量指标与近红外光谱的模型关联,只要这些质量指标与红外光谱存在内在联系。同样这些方法也可应用到中红外光谱。第一章近红外光谱预测汽油辛烷值综述发动机爆震现象是一个传递和反应强交互作用的复杂过程,构成了发动机运作的重要约束条件,因此衡量爆震强度的辛烷值成为汽油燃料最重要的质量指标,在控制、调合、科研试验和商检等场合及时获取辛烷值信息有重大价值。但是,传统的汽油辛烷值测定标准方法是在CFR发动机上进行的,此种方法耗样量大,周期长,测试和维护费用高。Horowitz曾预测过,到本试纪末辛烷值调合增量的问题很可能仍不能得到解决[51]。目前的爆震机理主要是定性的解释:由于一部分燃料和空气的混合物多次自燃从而极迅速地完成了燃烧过程,同时伴随着冲击波的产生和残余混合物的超声速燃烧[52]。虽然已有大量单体烃和混合烃的辛烷值数据[5]-[8],从机理出发的物理化学模型或从分子结构出发的构效关联远未达到实用[53]-[57]。改进的方法主要分为物理模拟和化学分析两种,物理模拟如热反应仪,化学分析可利用多种仪器分析方法,如汽相色谱(GC),核磁共振(NMR),近红外(NIR)等。这些方法在成为工业标准以前必须用ASTM标准的发动机测试方法来标定,所以又称为二次方法。第一节近红外与其它方法的比较一、 色谱法计算汽油辛烷值J.P.Durand等指出,气相色谱用于汽油分析应解决的问题有:(1)谱图复杂,有200个峰以上。(2)不同谱峰间停留时间短,⑶对程序生温控制,同一规格的不同色谱柱停留时间不易复现[9]。1967年Jenkins最先提出将气相色谱组成分析用于计算催化重整产物的研究法辛烷值(RON)和马达法辛烷值(MON)等理化指标,对抗爆性相近的化合物谱峰进行合并,分成12组,以各组化合物含量为自变量,用多元线性回归的方法确定系数[57]。以后的数据处理基本沿用此法。程桂珍等人采用高分辨率毛细管气相色谱法,分析了国内20多个炼厂的200多个汽油样品,并用标准CFR发动机法测取了辛烷值,用多元逐步线性回归程序分析数据,针对催化裂化,宽馏份重整及其它混合汽油,分为MON和RON两类,共建立了六个计算公式[59]-[60]。色谱法用来替代辛烷机,国内已有在线和试验室应用,与近红外光谱法比较,不足之处在于:采样回路和色谱分离时间根本限制了色谱法的响应速度;色谱柱分离条件的优化和控制也是一个问题,尤其是在线长期使用情况下;由色谱峰得到分组,再用多元线性回归关联辛烷值,有其不合理之处,因为不同烃类分组对辛烷值的贡献一般是非线性的,另外由于汽油组成之多变及色谱图的复杂性,使得特征谱峰的分组过于主观。二、 核磁法计算汽油辛烷值Myers等(1972年)以异构链烷指数,芳烃含量,铅含量,硫含量为自变量预测RON和MON,设M,N分别是核磁共振谱中甲基峰区和次甲基峰区的氢积分值,则异构链烷指数(CH3/CH2)=2M/3N。芳烃含量由芳氢谱区的氢积分推算,铅含量用X荧光或原子吸收光谱测定。预测MON和RON的标准偏差为+/-1.1。样品应含有汽油馏分内的各种正常组分,RON范围超出91-103后,各变量的交互影响会增大[57]。JasenkaMuhl等(1989年)由核磁共振数据得到汽油的功能团和烃类组成,然后用线性回归分析研究了它们和辛烷值的关系,汽油样品来自催化重整装置,对62个样品的分析表明,RON的标准差为0.713[10]。M.Ichikawa等人由质子磁共振(PMR)谱数据,运用模式识别和线性回归分析法预测其辛烷值。在此基础上,他们又建立了含MTBE汽油辛烷值的预测方法,MTBE的含量由PMR数据确定。得到的预测辛烷值的线性方程包括MTBE对辛烷值的贡献项[11]-[13]。国内方面,文献[58]介绍了各种无铅汽油的HNMR谱及由各谱区相对积分值计算MON,烃族组成异构指数和氢碳比的分析方法,试样用量仅0.5ml,文中介绍的由判别因子自动分类计算程序的适用范围很广。对不同来源及不同工艺的84个汽油样品(MON为:50-100)分析结果中,MON与标准实验方法对照,烃族组成与气相色谱法对照,绝对标准偏差分别为+/-0.16-0.93和+/-0.41-3.44%。通过核磁共振谱得到的汽油平均分子结构,能准确揭示许多与辛烷值密切相关的结构因素,但其最大的不足是仪器昂贵,不易在线实现三、红外法计算汽油辛烷值Honigs等用NIR同时测定了烃类混合物的生成热,分子量和甲基数。其中,生成热可准确到1.2Kal/mol,分子量准确到1.5g/mol,平均分子中甲基的基团数准确至0.057,波长范围1250-2500nm[14]。这一研究有力地提示,烃类混合物的近红外光谱,可很好地表征烃类混合物的复杂物理化学性质。这一设想随后得到Kelly等人(1989年)的验证,例如,他们在660-1215nm的近红外波段上观察到甲基,亚甲基,芳烃和烯烃功能团的谱峰,以三个波长为自变量进行多元线性回归分析(MLR),辛烷值预测的标准偏差为0.3--0.4个单位。另外九个样品的回归分析还表明,可用NIR谱峰关联RON,MON,RVP,API比重,漠价铅含量,硫含量,芳烃,烯烃和饱和烃含量,关联的偏差与实验测定偏差相近[15]。随后扩展到汽油族组成的同时预测[21]-[22]。N.Asker和S.Kokot提出了一种由NIR快速预测重整汽油辛烷值的方法,用PCR方法确定关联的最佳谱图区间,并能对不同原料来源的重整汽油进行分类。分析表明,在2000-2500nm区间上,有甲基,亚甲基和芳烃的C-H峰,关联公式能很好反映出:长侧链烃有较低的辛烷值,短侧链烃和芳烃有较高的辛烷值[16]。Fields等提出在1200-1236nm的近红外区间,关联MON和RON,以实现汽油调合的在线控制和优化,此项技术已获专利,适宜测量的汽油抗爆指数((RON+MON)/2)区间为84-95,亦可扩展到75-120。为提高关联效果对红外谱图作了导数光谱,各波长上的吸收作了规一化处理,并且使用了差谱技术,关联偏差为+/-0.3个单位[19]。NazaneenAsker和SergeKokot(1991年)用主因子分析(PCA)和多元线性回归(MLR)方法,从轻质裂化汽油的FT-IR谱图数据预测其挥发性指数,关联效果最佳的红外吸收区域为5800-6500nm,主要反映了芳烃和烯烃双键的吸收。此类方法,用因子分析找出最佳吸收区域很关键[18]。文献[35]用神经网络方法分析汽油的近红外光谱图以预测汽油的辛烷值,四个波长作为输入参数,经过训练后,标准偏差为0.25个辛烷值单位。A.D.Stuart等将FT-IR用于润滑油质量指标的快速检测,他们的工作证实,近红外区的谱峰能获得很好的关联,中红外区使用离散谱峰关联效果较差,但是经CIRCOM软件做因子分析和多元线性回归后,表明中红外区的谱峰亦可很好关联润滑油的质量指标[20]。国内外已建立了不少辛烷值预测模型,北京第二光学仪器厂于95年10月份推出的FT-NIR辛烷值仪提供了近红外组件,辛烷值专用测量软件由石油化工科学研究院提供,测量准确度小于0.7辛烷值单位,精确度小于0.3辛烷值单位,样品适用范围:催化裂化汽油、直馏汽油、重整汽油及其调合产品。国外的辛烷值模型突出的是Core试验室的工作,他们的模型包括了全美各地1000多个成品汽油,并且将NIR分析仪与辛烷值发动机在线安装经数月运转取得一万多个数据用于模型标定和检验,经与其它试验室模型的对比,Core试验室认为已解决了问题。也有的试验室认为还需要在各自的炼厂和仪器上重新标定模型。Core试验室还观察到,有时对相近的谱图,辛烷值相去甚远,有时对不同的光谱,辛烷值反而相近。因此NIR的辛烷值模型是基于大量样本的统计模型,这是由于汽油组成和爆震机理的复杂性决定的。对于化学组成如汽油的族组成等,则较易得到通用性较强的模型,因为这些指标与光谱有直接的联系[17]。随红外光谱波长增加,数据处理方法也相应复杂,能够得到的信息也越多。与其它分析仪器相比,近红外光谱在费用,速度方面有显著的优越性,更适于在线。第二节近红外光谱机理及数据处理方法一,近红外光谱机理和特点分子在近红外区出现的谱带都是由于分子的振动能级变化而造成的,对最简单的双原子分子,假设为理想的谐振子,其振动能量为EMBEDEquation;分子的基频振动频率由霍克定律决定,对最轻的分子,其谱带出现在2526nm据此推算其它更重的分子基频谱带出现在波长大于2500nm红外区实际分子振动并不是理想的简谐振动,当分子具有高能势时将偏离谐振子特性,其振动能量方程按级数展开:EMBEDEquation.2\*mergeformat分子振动的非谐振性导致倍频振动,其频率大致为基频频率的整数倍,正是分子的倍频振动形成分子的近红外光谱,第一倍频谱带强度减少10倍以上,更高频的谱带强度更弱。这意味着只有在4000〜2000EMBEDEquation(2500-5000nm)范围内的基频带才能在NIR区形成有适当强度的倍频带;而根据实际分子基频带的分布又推知只有与氢有关的功能团,主要是OH一、CH—、NH—才能在NIR区形成有适当强度可检测的倍频振动谱带[47]-[48]。分子振动的非谐振性还会形成分子的联合振动一分子各振动间的和频或差频振动。分子的联合振动谱带可出现在NIR区。表1-1为烃类主要基团的近红外谱峰指定,图1-1和图1-2是一组汽油样品的近红外谱图。图1-3是直馏汽油和苯的红外光谱图,由此可看出近红外谱区由于谱峰的重迭呈现的表观谱图有别于中红外区的尖峰。NIR富含甲基,亚甲基,烯烃和芳烃C-H的倍频和组合频振动谱峰,并与分子结构中的其它部分隔离,石油产品恰恰主要是由这些基团构成的,并且这些基团的相对含量与油品的各种性质有密切的联系,这正是NIR能够用于油品诸多性质定量预测的重要前提。由于在NIR区出现的谱带只限于若干含氢基团,限制了NIR的分析对象,不适合未知物的定性分析。对一般的样品,谱图非常近似,如图1-1,1-2是三个调合汽油样品谱图的叠合,研究法辛烷值分别为87.2,90.7和92.5,谱图间细微差别和辛烷值的关联是通过特殊的数据处理方法实现的。近红外谱图所含信息本质上与中红外波长的信息相同,从吸收强度易于检测的角度来看,似乎使用中红外定量更合适。但由于光源、检测器、光导传输方面的技术限制,目前近红外仪器技术更适于在线应用。另外还有一些特殊场合需要使用近红外技术,如测定葡萄酒中的酒精浓度、全糖浓度及挥发酸浓度,试样所含大量水份对长波长红外光谱的强吸收作用形成的干扰使得定量组份测定无法进行[72]。近红外分析不需使用试剂也是一大优点。近年来,红外光谱分析中基于吸收强度计算的定量分析方法日趋普遍,这很大程度上归因于计算机性能价格比的提高,另外,现代红外分析仪器的进展、微机控制和数字化也很大程度上提高了谱图的可靠性和重复性。在此以前,一般的红外定量分析只是简单地估算某一谱峰相对于基线的强度值,此种方法只在组分数目不多,并且各个组分的特征峰不与其它组分的谱峰重叠的情况下适用,至于利用整个谱图数据点的矩阵计算方法,虽然在七十年代已发展起来了,但受到计算机硬件和软件的限制,直到近十年才普遍使用起来[28]。近红外光谱模型分标定和使用两个过程,如图1-4所示。模型标定的目的在于从已有的标样数据集中提取光谱和目标性质的关系,并以模型参数的形式确定下来,这里模型参数广义地还包括模型特有的预处理、数据变换和控制参数等。为检验模型的预测或识别能力还有一个检验过程,实际上是一个已知目标性质的模型使用过程,模型的使用相对简单,由未知样品的光谱通过相应模型的计算即可确定该样品的目标性质。EMBEDMSDraw\*mergeformat图1-4,近红外光谱模型的标定和使用过程示意模型的非线性问题是当前的热点,文献[26]-[27]回顾了大多数计量化学模型,如LWR,PPR,ACE,MARS,NN,PCR和PLS。其中常用的偏最小二乘(PLS)和主因子回归分析(PCR)用来处理非线性问题有两种途径:增加因子数以及引入非线性的基函数[31]-[33]。上述方法多是建立在线性模型的基础上的,它对于解决非线性问题有一定困难,而人工神经网络(ANN)在解决非线性问题则显示出一定的优越性[49]。使用最多的神经网络模型是反向传播模型(BP)[34],由于神经网络在理论上还不尽成熟,在使用中有许多经验性的环节,也由于与其它模型比较时使用的数据集不同,各文献的结果不尽相同[29]-[30]。本课题中对此作了考察。在具体的应用中还要判断样品的大致类型,检查未知样品的光谱是否满足模型的要求、仪器工作是否正常,为此引入判别分析方法[44]-[46]。蔡煜东等将Kohonen自组织神经网络用于氟化物非晶态形成的判别,证实Kohonen的自学习算法对于聚类问题有普遍的适用性,与一般多元判别方法相比,具有容错能力强,识别速度快的特点[68]。文献[73]根据原油的六项性质指标(密度、粘度、酸值、凝点、残碳、硫含量对不同来源的原油进行聚类分析,以识别待加工的原油的属性。与光谱识别方法比较,这种方法的不足在于六项指标能否充分表征原油,而且测定待加工原油的六项指标也不是很容易的。以润滑油监测为例,传统的指标分析法只能得到油品一方面信息,而本质的问题是油品化学组成的变化,光谱分析可较全面获取油品化学组成的信息[75]。第二章计量化学模型及数值检验计量化学(Chemometrics)在1970年由瑞典的S.Wold教授首先提出:"计量化学是一门化学分支学科,它应用数学和统计学方法(借助计算机技术),设计和选择最优的测量结果和试验方法,并且通过解释化学数据而获得最大限度的信息。"[81]采用有效的计量化学手段可使数据的获取、处理及由分析数据加工成有用的分析信息的过程日趋自动化与智能化,计量化学还可帮助化学家发展许多新的测量方法,如油品性质预测。第一节计量化学模型基础传统的多组份光谱分析(MCA)往往将谱线离散化,使用个别的谱峰关联混合物中的组份,当谱峰重叠时,选择合适的谱峰位置甚为困难,不幸的是,对有机和生物分子,分子间的交互作用强,而且此类交互作用随组分浓度不同而变化,当组份增多,谱峰重叠严重时,MCA几乎不能使用。相比之下,将整个谱图加入数据处理,可充分利用信息,从而大大提高计算精度。一、主因子分析从真实样本得到的谱图不可避免包含有谱图线性相关、空气吸收干扰、测量仪器的影响及其它随机噪声,主因子分析至少有两个显著的作用:通过因子的隔离,在一定程度上滤除噪声;基于主因子之上,可建立鲁棒性增强的谱图和其它指标之间的数学模型。在这个意义上,有人将直接由试验数据构造的数学模型称为硬模型,将基于主因子上的数学模型称为软模型。由于主因子分解过程是PCA,PCR,PLS算法的基础,也是模式识别和神经网络用于近红外光谱的重要预处理手段,这里作详细的展开设原始数据矩阵为D(mXn),为讨论方便,不妨假设m>n则其协方差阵Z有两种构造方法EMBEDEquation(2.1.1)EMBEDEquation(2.1.2)二者出发得到的特征值和特征向量是一样的,设第k个特征值为EMBEDEquation,相应特征向量为EMBEDEquation根据特征向量的定义EMBEDEquation(2.1.3)使的Z对角化EMBEDEquation.2\*mergeformat(2.1.4)EMBEDEquationQ的列归一化后形成正交归一向量集合,则EMBEDEquation设EMBEDEquation(2.1.5)则有EMBEDEquation (2.1.6)令EMBEDEquation,则EMBEDEquation (2.1.7)R(mXh)的列数或C(hXn)的行数即称为因子数。这个过程的重要意义在于原始数据矩阵分解为两个较小的矩阵,前边的因子尽可能多表达了原始数据矩阵的方差,当选取h<n时,起到压缩数据和滤除噪声的作用。在因子分析模型,通过因子空间的旋转还可得到有物理意义的R,C矩阵。D的最直接分解方法是用Jacobi法对角化Z,得到特征向量矩阵Q,进而得到U另一种更有效的方法是迭代求解,可连续计算特征向量,第一个特征向量在最小二乘意义下说明原始数据矩阵尽可能大的方差,即使这一向量穿过数据点最集中的部分,第二个特征向量与第一个正交,并尽可能说明剩余方差的最大部分,直至第n个特征向量说明最后的方差。EMBEDEquation(2.1.8)设EMBEDEquation表示用前个因子复原得到的数据矩阵的元素,EMBEDEquation表示前个因子下复原数据矩阵与原始数据矩阵差值矩阵的元素EMBEDEquation(2.1.9),EMBEDEquation(2.1.10)当h=1,EMBEDEquation在最小二乘意义上确定使e最小的cEMBEDEquationEMBEDEquation矩阵表示为EMBEDEquation(2.1.11)设EMBEDEquation则有EMBEDEquation,取转置得到EMBEDEquation(2.1.12)由于特征向量的正交性EMBEDEquation其中EMBEDEquation是KroeneckerEMBEDEquation,EMBEDEquation式(2.1.8)右乘EMBEDEquation得到EMBEDEquation代入(2.1.12)得EMBEDEquation根据协方差定义有EMBEDEquation(2.1.13)至此得到第一个特征值及特征向量当h=2,EMBEDEquationEMBEDEquationEMBEDEquationEMBEDEquation定义EMBEDEquation则EMBEDEquation(2.1.14)其中EMBEDEquationEMBEDEquation代入(2.1.14)得EMBEDEquation(2.1.15)设剩余矩阵E的方差为S,则EMBEDEquationEMBEDEquation(2.1.16)得到第二个特征值和特征向量,同理有第h个特征值和特征向量EMBEDEquation其中EMBEDEquation这一过程可以在不求协方差阵的情况下迭代求出前h个特征向量和特征值,适于计算机实现。非线性迭代偏最小二乘法(NIPALS)即在此基础上实现的,算法的C++语言描述见表2-1,有关符号说明见附录一。表2-1,NIPALS算法的程序语言描述Tabel2-1AlgorithmofNIPALSfor(k=0;k<h;k++){EMBEDEquation //initilizetwithrandomcolumnofXdo{EMBEDEquation //calculationofloadingvectorEMBEDEquation //normalizeofloadingvectorEMBEDEquation//calculationofnewscorevector}while(EMBEDEquation)EMBEDEquation //calculationofresidualdatamatrix}二、主因子回归(PCR)和偏最小二乘法(PLS)用于谱图与目标性质关联的方法显然与传统的多组分分析有密切的关系。全谱图处理方法一个很重要的用途是多组分分析,传统的多组分分析方法有K-矩阵法,P-矩阵法,简介如下:设A为光谱矩阵,C为浓度矩阵,K,P为系数矩阵K-矩阵法基于Beer定律上,即每一波段上的吸收度正比于组分浓度EMBEDEquation.2\*mergeformat假定模型误差由谱图引起,即认为标准物的浓度是准确的EMBEDEquation(标定过程)EMBEDEquation(预测过程)在标定过程中各组分浓度必须同时已知。可认为是一种因子分析方法,因子数等于组分数P-矩阵法假设浓度是吸光度的函数,即逆比耳定律成立EMBEDEquation假定模型误差由浓度数据引入,模型标定中减少浓度误差平方和EMBEDEquation(标定过程)EMBEDEquation (预测过程)在标样混合物中只有一个组分浓度已知的情况下仍可使用,但是要求谱图数字化点数小于等于样本数,因此波长点数不易选取。当波长点数选取不当,基线漂移,噪声,共线性,过度拟合等问题会引入大的误差到模型中。上述两种方法都不适合本工作的模型需求主因子回归分析(PCR)和偏最小二乘分析(PLS)是使用主因子分析作定量计算的两个相近但又有区别的方法,它们都包括对谱图进行特征向量分析这一步,需确定主因子数,另外它们都使用某种形式的多元线性回归(MLR)以达到最终分析结果,所不同的是原始光谱矩阵的分解过程。PLS和PCR算法均将原始光谱矩阵分解为得分矩阵和载荷矩阵,并在最小二乘意义上确定得分向量和目标性质向量的关系EMBEDEquationEMBEDEquation其中T-得分矩阵,P-载荷矩阵,b-模型参数两者的得分矩阵T的列都是两两正交的。PCR得到的载荷向量是抽象数值解,它们的线性组合可很好地表达X,但对于关联目标性质则不是最优的,PCR的载荷向量间是正交的。PLS的载荷向量在迭代求解过程中与目标性质相关,但载荷向量间不再具有正交性Fredricks等人对PCR算法作了些技术上的该进,以挑选那些对被关联的性质有显著影响的因子,这一思想在CIRCOM软件中实现,下面据此对PCR算法作一说明,对谱图矩阵D(mX

n),根据比耳定律有,EMBEDEquation其中n为样本数,m为谱图点数,k为组分数,当谱图点数远远大于样本数,使用多元线性回归求解上式的K矩阵是不可能的,当然可选择少量的谱峰但是选多少谱峰,选哪些谱峰是个困难的问题PCR法可避免上述问题,首先通过取原谱图矩阵的协方差阵Z,EMBEDEquation.2\*mergeformat通过Jacobi变换,得到使Z对角化的特征值和特征向量矩阵Q(nXh)EMBEDEquationQ的h个列向量对应于E的对角线上的h个特征值,其中因子数EMBEDEquation;相应于h个抽象因子的谱图矩阵F(mXh)为EMBEDEquation.2 \*mergeformatEMBEDEquation.2 \*mergeformat表明原始谱图矩阵可由因子的抽象谱图矩阵复原得到上式取转置,并令,EMBEDEquation则得到数据矩阵分解的更常用的一种表达EMBEDEquation一般地,我们称T为得分矩阵,P为载荷矩阵则目标性质矩阵Y(nXk)与得分阵Q(nXh)的关系可由下式确定EMBEDEquation为使EMBEDEquation(nXk)最小,由最小二乘法得EMBEDEquation.2\*mergeformat因子数h可能不同,上式中B(hXk)包括因子数h可能不同,对于性质指标未知的谱图,首先求取其得分矩阵EMBEDEquationEMBEDEquation.2\*mergeformat由模型参数B可得目标值EMBEDEquation.2\*mergeformat对大样本集合运算再用多元线性回归上述PCR法中要用Jacobi变换求解协方差阵的全部特征值和特征向量量很大。在本文工作中,另外还采用了NIPALS算法迭代求解得分矩阵(MLR)求解模型参数的方法。对大样本集合运算再用多元线性回归PLS1算法是对NIPALS的改进,在迭代过程中使数据矩阵与目标性质相关,并且每次只与个目标性质关联。算法的C++语言描述见表2-2,2-3。表2-2PLS1算法标定过程的语言描述forCalibrationk<h;k++)Tabel2-2,PLS1AlgorithmmeancenterofXandfor(k=0;{forCalibrationk<h;k++)EquationEquationEquationEquationEquationEquationEquationEquationEquationEquation//calculationofweightvector//normalizeofweightvector//calculation。ofscorevector//realtescorevectortoproperties//calculation。ofloadingvector//calculation。ofresidualsinXandy//EMBEDEMBEDEMBEDEMBEDEMBEDEMBED表2-4,PLS1算法预测过程的语言描述Tabel2-4,PLS1AlgorithmforPredictioncenterxusingcalibrationdatay=meanofyincalibrationfor(k=0;k<h;k++){EMBEDEquation //t[k]isascaleEMBEDEquation //b[k]ismodelparameterEMBEDEquation //}returny第二节计量化学模型的数值检验必须确定有物理意义的因子的数目,才能达到过滤噪声的目的,针对本工作中样品集合小的特点,我们采用一种交叉检验的方法,对n个样本的数据集,每次选取(n-1)个样本回归模型,用剩余的一个样本检验,在因子数水平pcn下这个过程进行n次,得到预测残差平方和(PRESS)0这个指标可基本反映模型在回归和预测两方面的性能。通过考察PRESS与因子数pcn的关系,可确定适宜的因子数。一般选取使PRESS最小的因子数,并且同时使因子数尽可能小。EMBEDEquation为横向比较不同算法,引入SEC%,SEP%EMBEDEquation.2 \*mergeformatEMBEDEquation.2 \*mergeformat上述指标与PRESS可得到一致的结论。为考察不同算法的数值性能,引入一系列模拟数据集。模拟谱图由Lorentz函数产生的波峰迭加而成EMBEDEquationEMBEDEquation其中A一最大吸收度,W一波峰半高宽度,Xc—波峰中心位置EMBEDEquation—第个模拟谱峰,EMBEDEquation—第个组分的浓度EMBEDEquation—合成的模拟谱图EMBEDMSDraw\*mergeformat图2-1,模拟谱图谱峰以组分二的浓度为目标性质,浓度区间在[0.5,0.8],为考察谱图噪声、浓度噪声和非线性对算法性能的影响,产生如表2-5的五组模拟数据集,随机选取50个样本为标定样本,50个样本为检验样本。图2-2,模拟数据集的部分合成谱图(含谱图噪声和非线性关系)EMBEDMSDraw\*mergeformat图2-3,PLS和PCR交叉检验对比(无干扰数据集)EMBEDMSDraw\*mergeformat图2-4,不同模拟数据集合的PLS交叉检验结果表2-5显示不同数据集下对组分二的模型回归(SEC)和预测结果(SEP)图2-5显示综合数据集PLS回归的前四个载荷向量,显然这个组成系统可用三个独立变量描述,第四个载荷向量已近于噪声。图2-5,综合数据集PLS载荷向量1图2-6,综合数据集PLS载荷向量2图2-7,综合数据集PLS载荷向量3图2-8,综合数据集PLS载荷向量4表2-5PCRPLS的数值性能比较PLSPCR数据集因子数SECSEPSECSEP(无噪声)32.1XEMBEDEquation2.1XEMBEDEquation2.1XEMBEDEquation2.3XEMBEDEquation(5%谱图噪声)30.76520.81830.78450.824040.39470.73180.78450.824050.26410.73730.78380.8231(2%浓度噪声)31.10191.13431.10191.134341.08841.16301.09291.1555(非线性)30.15580.30010.15580.300240.000190.000230.000190.0002450.0001020.000280.000190.00024(综合数据)31.33551.40161.36711.399540.57121.77041.36221.410350.30531.88381.35931.4159*注:综合数据的因素包括5%谱图噪声,2%浓度噪声,非线性交互小结1、与谱图噪声相比,目标性质的噪声(误差)显著提高了预测残差平方和,对模型效果的影响是直接的。2、对PLS和PCR,简单的非线性关系可通过增加因子数来拟合。3、 在最初的因子个数内,PLS的预测残差平方和比PCR下降更快。这是由于在PLS的数据矩阵分解过程中,数据矩阵与目标性质相关联的原因。而PCR的因子求解过程和关联过程是分别进行的。4、 因子数选取过多,模型引入噪声,标定集合过度拟合,倾向于增大SEP。第三章人工神经网络模型及数值检验第一节人工神经网络模型一般认为,目前人工智能领域有两个重要分支,或者两种研究方法:一是生理结构的模拟,一是宏观功能模拟,前者表现为人工神经网络方法,后者表现为符号处理方法,如专家系统。文献报道的光谱分析专家系统多为定性分析的,通过将规则库与谱图检索技术联用,模拟分析化学工作者对谱图的解释过程,通常这依赖于纯化合物的谱图库[42]-[43]。用于汽油性质指标预测的近红外光谱模型则不具有传统意义上的标准谱库,而且模型本身要求严格定量。本课题需建立的是一个基于数据处理的(而不是基于知识的)、预测模型和模式识别相结合的系统。一般将这样的系统称之为计算智能系统(CI),以区别于传统的人工智能系统(AI)。人工神经网络是由大量简单的处理单元互连而成的计算网络结构,是一个高度复杂的非线性动力学系统,是人脑神经网络的简化、抽象和模拟。1943年首先提出神经元的数学模型以来,人工神经网络的研究几经起落,直到Hopfield在1982,1984年的工作中引入Lyapnov函数,使网络稳定性有了明确的判据,神经网络的研究才开始迅速发展,其中1985年美国MIT的PDP小组提出的反向传播模型是近年来用的最多的网络之一。这一训练算法把一组样本的输入-输出问题变为非线性优化问题,使用了最速下降法。由于此神经网络可以通过任意N维空间到M维空间的映射,对N和M的大小并没有限制,这使得众多的现实世界中的问题可化成为这种神经元网络,如模式识别,系统辩识,预测,控制,图象处理,数据压缩,函数拟合等问题。它具有很强的自组织,自适应能力,通过对有代表性例子的学习,训练,能够掌握事物的本质特征,目前对神经网络的研究热潮,反向传播(BP)模型是起了重要作用的模型之一,这也表明我们的世界还有大量无法用传统建模方法解决的问题反向传播模型的拓扑表示是一个前馈全互联的网络结构,如图3-1,3-2所示,它由大量简单的处理单元(神经元)组成,EMBEDMSDraw\*mergeformat图3-1前馈神经网络拓扑图EMBEDMSDraw\*mergeformat图3-2处理单元(神经元)示意图第二节反向传播模型学习算法令某一训练输入矢量为Xk,网络实际输出为Yk,对应输入Xk的理想输出为Dk(即导师信号),输出误差和为:EMBEDEquation(3.2.1)j为输出层的第j个神经元。由最速下降法知各层神经元的权重系数迭代方程为EMBEDEquation.2 \*mergeformat (3.2.2)EMBEDEquation.2 \*mergeformat (3.2.3)由EMBEDEquation,得EMBEDEquation, (3.2.4)对输出层有EMBEDEquation将EMBEDEquation代入(3.2.4)式,得到:EMBEDEquation(3.2.5)其中EMBEDEquationEMBEDEquation显然EMBEDEquation令EMBEDEquation,则网络权重的调整规则为EMBEDEquation(3.2.6)EMBEDEquation由EMBEDEquation对于输出层有:EMBEDEquation,EMBEDEquationEMBEDEquation其中转递函数为EMBEDEquation对于中间层,EMBEDEquation(3.2.7)EMBEDEquation(3.2.8)上述算法在各训练样本相差较大时,易引起网络参数振荡,为稳定学习效果,在式(3.2.6)引入一个记忆(动量)项EMBEDEquation。EMBEDEquation(3.2.9)其中EMBEDEquation一学习速率,EMBEDEquation—动量因子表3-1神经网络算法语言描述Table3-1AlgorithmofBackpropagationAssignnetworkstructure,learningparametersEMBEDEquationEMBEDEquation//Assignrandomvaluetothresholdsandwreightsdo{EMBEDEquation//kistheindexoftrainingpatterns,EMBEDEquation//calculateoutputsintheoutputlayerEMBEDEquation。//calculateerrortermofoutputlayerEMBEDEquation//calculateerrortermofhiddenlayerEMBEDEquation//adjustweightandthresholdEMBEDEquation}while(EMBEDEquation)第三节反向传播算法的数值检验神经网络模型的主要问题涉及学习的局部最小问题,过度拟合问题、学习参数的选择等。数值检验总的结果是,在学习参数选择适当的情况下,对非线性模拟数据集,得到与PLS相当的结果,与PCR相比,能用较少的因子达到相同的预测能力。下面以上一章模拟数据集E(见表2-5)为例讨论我们的计算结果。其中由主因子分析得到的前三个得分量作为网络的入口参数,以组分二(A2)的浓度值作为网络出口。作为学习样本,样本数仍为50。检验集合样本数为50个。图3-3表明,在学习速率为0.1,动量因子为0.0,学习次数100000下,最初的隐含层单元个数的增加可提高预测性能,随后增加隐含层单元数目则改进不大。隐含层单元个数往往与具体数据集的特性有关。对本问题应选取3—4—1结构。图3-4和图3-5考察学习速率和动量因子的影响,网络结构取为3—8—1。图3-4的动量因子取为0.0,学习速率依次取0.1,0.5,0.8,可见过高的学习速率引起网络振荡,使网络参数的调整停留在局部最小。图3-5则在学习速率取为0.8时调整动量因子依次为0.1,0.3,0.5,可见适宜的动量因子可稳定和加快学习过程,取值过大时反而使网络更易停留在局部最小。图3-3隐含层单元数对网络性能的影响举例EMBEDMSDraw\*mergeformat图3-4,不同学习速率对网络性能的影响举例EMBEDMSDraw\*mergeformat图3-5,不同动量因子对对网络性能的影响举例EMBEDMSDraw\*mergeformat图3-6,网络过度拟合举例一EMBEDMSDraw\*mergeformat图3-6,网络过度拟合举例二图3-5,3-6显示SEC和SEP随网络训练次数N的变化情况,当训练集合(学习样本)与检验集合相近时,随学习系数增加,SEC与SEP趋于一致如图3-5;对两个样本集合差异较大的情况(尤其在样本数很小的时候)下,训练集合虽可进一步拟合,但是此时检验样本的预测偏差已开始上升,此时称网络已过度拟合。小结1、 直接使用谱图数据作为BP网络入口参数,使网络规模过大,网络学习过程中陷入局部最小,为此先对谱图作主因子提取,作为网络的入口。2、 在网络规模过大的情况下,易引起过度拟合,为此在学习过程中同时显示SEC与SEP,以控制网络停止学习的时机。3、 对非线性模拟数据集,BP得到与PLS相当的结果,与PCR相比,能用较少的因子达到相同的预测能力。对典型的线性问题,则建议使用线性的方法4、 采用低学习速率和动量因子有利于网络稳定第四章汽油辛烷值预测模型第一节试验概况一、 近红外光谱试验简介对40个已知辛烷值数据的汽油样品,分别采用清华仪器分析中心的PE-2000和北京第二光学仪器厂由WQF—400型付立叶变换红外光谱仪改装后的FT-IR辛烷值仪测取了近红外光谱数据,样品集合主要由催化裂化、烷基化、重整及调合汽油及成品汽油组成。样品来源于东炼和石化研究院。其中WQF—400型选用波数范围10000—6000EMBEDEquation,分辨率取8EMBEDEquation,检测器为InGaAs,石英液池,分束器为GaF2晶体镀Fe2O3。PE—2000型选用波数范围为7000—1000EMBEDEquation,分辨率取4EMBEDEquation,DTGS检测器,窗片采用GaF2,KBr分束器。汽油样品光谱测试前在0—5°C下避光保存,红外光谱测试结果以数据文件的形式保存在软盘上。其中PE-2000型红外光谱仪测得的数据文件为Lotus的WK1格式,采用Origin绘图软件转化,透过率取至小数点后第5位。二、 汽油辛烷值数据来源及测定根据GB/T—5487试验标准,一种燃料的辛烷值是在标准操作条件下,将该燃料与已知辛烷值的参比燃料混合物的爆震倾向相比较而被确定的。具体的做法是,借助于改变压缩比,并用一个电子爆震表来测量爆震强度而获得标准爆震强度。研究法辛烷值与全尺寸点燃式发动机低速运转下的抗爆性相关,马达法辛烷值与全尺寸点燃式发动机高速运转下的抗爆性相关联。测定精密度由重复性和再现性两个指标衡量,在95%置信水平下重复性是指:在同一试验室,由同一操作人员,用同一仪器和设备,对同一试样连续做两次试验,对测定90至95研究法辛烷值范围内的试样时,其差值不得超过0.2辛烷值;再现性是指:在任意两个不同实验室,由不同操作人员,用不同仪器和设备,在不同或相同的时间内,对同一试样所测得的偏差不应超过以下数值平均研究法辛烷值范围80.085.090.095.0100.0105.0110.0辛烷值评定最大偏差2.3图4-1催化(FCC),烷基化(ALK),重整(REF)汽油组分的近红外光谱图(1000-1600nm),WQF-400测定图4-2催化(FCC),烷基化(ALK),重整(REF)汽油组分的近红外光谱图(1600-3000nm),PE-2000测定如图4-1和图4-2是催化(FCC),重整(REF),烷基化(ALK)汽油组分的近红外光谱图,研究法辛烷值分别为88.5(FCC)、94.0(REF)、96.5(ALK),可见在各个谱峰上,光谱吸收度与辛烷值并不是成简单的正比关系,这是由于增进辛烷值的两种基团(芳烃C-H和端甲基C-H)都起作用的缘故。各谱峰的指定可参照表1-1,这里显示的是有典型差异的三个样品。其它一些典型的汽油近红外光谱见附录二。第二节试验数据处理结果一、 不同模型主因子数的确定为考察不同近红外模型预测辛烷值时合理的因子数,采用一个含17个样本的数据集,谱图区间10000—6500EMBEDEquation,分别对研究法辛烷值和马达法辛烷值作PCR和PLS模型的交叉检验。EMBEDMSDraw\*mergeformat图4-1PLS,PCR对研究法辛烷值的交叉检验结果EMBEDMSDraw\*mergeformat图4-2PLS,PCR对马达法辛烷值的交叉检验结果由图4-1,4-2可看出,对两种模型,两种辛烷值,主因子数均为六,并且在前六个因子内,PLS比PCR的预测残差平方和下降更快,与模拟数据集的结论一致。二、 不同谱图区间对辛烷值关联的比较为比较不同谱图区间上及不同仪器上模型的关联效果,将整个谱图划分为五个区间:A(9000—7500EMBEDEquation),B(7500—6500EMBEDEquation),C(6500—5000EMBEDEquation),D(5000—3500EMBEDEquation),E(2500—2000EMBEDEquation)如图4-3,4-4,其中A,B区WQF-400仪器测得,谱图的数字化间隔取为3.8EMBEDEquation。C,D,E区由PE-2000仪器测量,谱图数字化间隔取为4EMBEDEquation。汽油样本由以催化组分油为主的调合油构成,共13个样本,为减少辛烷值测量偏差的影响,采用爆震指数作为目标性质爆震指数=(研究法辛烷值+马达法辛烷值)/2EMBEDMSDraw\*mergeformat图4-3典型汽油组分的近红外光谱(WQF仪器测定)EMBEDMSDraw\*mergeformat图4-4典型汽油组分的近红外光谱(PE-2000仪器测定)由上述条件下作五个谱图区间上PLS模型的交叉检验,结果如图4-5,4-6图4-5,WQF-400谱图交叉检验图4-6,PE-2000谱图交叉检验由于谱图数字化间隔基本相同,目标性质相同,检验结果基本反映谱图质量对模型的影响。对WQF-400,两个谱图区间效果相当,在因子数为3时达到PRESS=0.8,PE-2000的中红外区间E与近红外区间D在因子数为2时达到PRESS=0.7,区间C显然由于吸收强度过弱,关联效果不好。上述结果证实汽油的中红外区由于信号强,信息丰富,可很好地与辛烷值关联。三、不同模型对辛烷值预测的比较为考察不同模型对汽油辛烷值预测能力,选取近红外试验的16个样本作回归模型的标定集合,另外9个样本作检验集合,目标性质是研究法辛烷值。分别建立三种模型:PLS,PCR,NN,如表4-1。预测结果如表4-2。由于样本范围宽,近红外试验的仪器原因以及辛烷值数据的来源不同等因素,如图4-7,对PCR因子数为9,对PLS因子数为7。标定集合平均辛烷值为90.99,检验集合平均辛烷值为90.62近红外光谱数据选用10000—6500EMBEDEquation波数范围的谱图。每个谱图数据点数为908个。EMBEDMSDraw\*mergeformat图4-7,PLS,PCR对标定集合的交叉检验结果表4-1几种模型对研究法辛烷值的回归偏差比较*汽油样品类型实验RONPLS预测值PLS回归偏差PCR预测值PCR回归偏差NN预测值NN回归差催化调合87.687.90.2988.10.4887.80.25催化调合88.289.10.8788.90.7088.60.35催化调合87.287.50.3087.2-0.0187.70.47催化重整90.790.3-0.4390.5-0.1890.1-0.62催化重整91.090.9-0.0590.6-0.3691.10.06催化重整91.790.8-0.8590.8-0.9290.9-0.77催化烷基化90.290.30.1090.50.3090.60.42催化烷基化91.491.90.4692.00.5791.90.53催化烷基化92.591.3-1.2291.0-1.4691.6-0.93催化组分油88.588.60.1489.20.6689.20.70烷基化油96.596.60.1396.60.1596.1-0.37重整汽油94.094.40.3894.40.3894.50.51成品汽油93.093.40.4193.20.2493.30.32组分油86.586.60.1286.5-0.0287.30.76未知油96.696.60.0196.6-0.0295.9-0.68组分油(伊朗)90.289.5-0.6689.7-0.5189.5-0.69注:*其中模型参数PLS因子数=7,SEC=0.57,SEP=0.71PCR因子数=9,SEC=0.63,SEP=0.69NN网络结构为8—4—1,入口数据采用PCR分析的前8个主因子得分,学习速率=0.3,动量因子=0.01,训练次数=20000,SEC=0.64,SEP=0.70,表4-2.几种模型对研究法辛烷值的预测偏差比较*汽油样品类型实验RONPLS计算结果PLS预测偏差PCR计算结果PCR预测偏差NN计算结果NN预测偏差催化调合87.788.40.6888.40.6788.40.67催化调合87.587.60.1488.00.4687.70.20催化重整91.690.6-1.0191.0-0.6490.1-1.52催化烷基化90.691.30.6891.20.6091.00.38重整汽油94.094.40.3894.40.3894.50.51组分油86.786.3-0.3586.1-0.5887.10.43成品汽油91.792.40.6991.2-0.4891.6-0.05组分油(伊)90.191.00.9291.31.1890.60.55未知油95.796.10.4495.80.1295.7-0.04根据PLS和PCR中各因子的载荷向量与原始谱图的关系,可考察各因子在模型中的物理意义。作为对照,图4-8是标定集合中部分样本的谱图。图4-9一图4-14为PLS模型的前6个载荷向量,横坐标为波数,与图4-8相同,纵坐标单位不等同于吸收度,因为谱图数据矩阵在回归前作了平均标准化处理,但能反映谱图的趋势。EMBEDMSDraw\*mergeformat图4-8,标定集合中的典型谱图样本图4-9与图4-8对照,主要反映了芳烃基团与辛烷值的正关联(8750-8500EMBEDEquation)和亚甲基(8250EMBEDEquation)与辛烷值的负关联,图4-10与图4-8对照,主要反映了甲基(8500-8250EMBEDEquation)与辛烷值的正关联。总的来说,前边的载荷向量反映谱图与目标性质的关联,后边的载荷向量趋于带有更多的噪声。EMBEDMSDraw\*mergeformat图4-9载荷向量1EMBEDMSDraw\*mergeformat图4-10载荷向量2EMBEDMSDraw\*mergeformat图4-11载荷向量3EMBEDMSDraw\*mergeformat图4-12载荷向量4EMBEDMSDraw\*mergeformat图4-13载荷向量5EMBEDMSDraw\*mergeformat图4-14载荷向量6第三节二甲苯调合抽余油的近红外光谱为研究汽油调合与近红外光谱的关系,考察这种关系对预测模型的影响。我们同时测定了芳烃抽余油调合二甲苯的研究法辛烷值和近红外光谱,基础油为扬子石化芳烃厂去芳烃抽余油,二甲苯为分析纯,EMBEDEquation含量不低于80.0%,甲苯不高于0.1%,乙苯不高于19.0%,硫化合物不高于0.006%。辛烷值测试条件按国标GB/T5487—85,相应于ASTMD—2699。仪器规格CFR-48,由美国Waukesha生产。按如下方案调合并测取研究法辛烷值表4-3二甲苯调合基础油的辛烷值变化规律二甲苯体积百分比0.010.022.230.040.050.0100.辛烷值(研究法)66.172.079.283.589.294.4112.图4-15至4-16显示随二甲苯的加入,谱图的变化情况,EMBEDMSDraw\*mergeformat图4-15二甲苯近红外光谱EMBEDMSDraw\*mergeformat图4-16基础油近红外光谱EMBEDMSDraw\*mergeformat图4-17抽余油和二甲苯调合的近红外光谱为考察模型的外推能力,由表4-3的数据构造两个标定集合,数据集1由表4-3的前六个点组成,即不含二甲苯。数据集2则含有二甲苯。预测集合的光谱数据由二甲苯和基础油的谱图线性加合得到,使用PLS模型,均取因子数为3,由图4-4可见,对数据集1,虽然回归模型的偏差比数据集2的小,但是预测数据导致了很大的偏差。这表明样本数据的范围对模型的预测能力的限制。导致这种偏差的重要原因是,二甲苯调合抽余油时,在二甲苯含量的高端,辛烷值随组成的非线性变化规律。EMBEDMSDraw\*mergeformat图4-18不同数据集下预测偏差随二甲苯体积百分比的变化小结在汽油光谱和辛烷值实验数据集上,对PLS和PCR的交叉检验结果的比较表明,PLS比PCR能在最初的因子数内更快下降到预测偏差的最小值考察了从10000EMBEDEquation至1000EMBEDEquation上五个谱图区间上光谱与辛烷值的关联效果,证实中红外谱区亦能很好地关联辛烷值采用了一个包括25个汽油样本的数据集合,其中16个用来标定模型,9个用来检验模型。对三种方法作了比较,其中PLS使用了7个因子,NN使用了8个,PCR使用了9个因子,它们对研究法辛烷值的预测都小于0.7个辛烷值单位,与发动机测试偏差相近。以PLS的载荷向量为例,对各因子给出物理意义上的解释,观察到了芳烃、甲基和亚甲基与辛烷值的关联。通过二甲苯-基础调合油体系的近红外光谱和辛烷值数据,考察了辛烷值非线性加合规律对预测模型的影响,表明模型的外推效果依赖于标定集合的样本分布范围。第五章基于汽油近红外光谱谱图的模式识别在使用前述模型预测新样本的辛烷值或其它目标性质时,理解该样品与模型标定样本集合的关系有助于判断模型适用性的好坏,尤其当模型预测值与预期值相差较大时。这隐含了两个方面的问题,新样本与模型标定集合差异的判别以及标定集合汽油样本的分类问题,前者属于多元统计分析方法中的判别分析,后者属于聚类分析,都可归结为模式识别问题。所谓模式,就是由一个或多个特征(这里为数字)表示的实体,模式识别技术即是根据实体特征进行分析、描述、分类、判断和识别的技术。模式识别技术可分为判别法、句法和模式匹配三种技术。其中判别法用于解决特征为数值变量的模式识别问题,在分析化学中应用最多。模式识别可分为有管理和无管理两类,对于有管理的方法,需要一个标定模型的样本集合,这些方法主要有:判别分析,学习机械法,近邻法,类模型法等;无管理模式识别方法适于研究样本归属不清楚的情况。如系统聚类法、图论方法,目标函数法。可用于模式识别的神经网络模型有很多,如感知机模型,反向传播模型,自组织特征映射模型等。汽油种类繁多,对同一种组分汽油,由于工艺和原料不同也可带来大的差异。对成品汽油,随调合组分含量不同,致使分类界限模糊。基本上是线性不可分的。如果将一张谱图看作一个高维模式向量,必须借助于数学方法我们才能对谱图间的差别,以及它们所表征的分类特性有准确的了解。具有数据压缩功能的主因子分析是应用其它方法的基础。在已知标样集合类别的情况下,对新的油样可使用判别分析法得到其分类特征。也可根据距离相近的原则选取适宜的模型或确定模型的样本组成,即相似的样本聚类得到一个模型标定集合,这相当于使用一种局部权重回归的方法。判别分析系根据所研究的观测指标来推断某个体所属类型的一种统计方法,根据判别准则不同,有距离判别,Bayes判别和Fisher判别对于p维的样本向量EMBEDEquation,可视为p空间的一个点,n个样本即p空间的n个点,样本的数值分类方法即依据它们之间的距离量度进行,当观测向量之分量相差不大,可采用明氏距离,EMBEDEquation当EMBEDEquation时分别得到绝对距离,欧氏距离和切比雪夫距离EMBEDEquationEMBEDEquationEMBEDEquation一般的距离判别问题可表达为,设有q个总体的,每个总体的均值向量为EMBEDEquation,距离判别的任务是,对于样本向量x,若有EMBEDEquation则x归入第j*个总体对于标定集合汽油样本的分类问题,本文给出侧重不同的三种方案,传统的聚类分析可使样本依据差异在不同层次上分类;模糊聚类法可使样本集合聚集到指定数目的类中,还能得到各样本在聚类上的定量差异,这一点对组成不同的调合汽油非常有用;Kohonen自组织网络能通过学习将样本自动聚类,对新的样本则可判别其归属。下面以一个含24个汽油样本的数据集合为例,分别介绍各方法,各样品的具体类型参见表5-1。第一节主因子分析法不同汽油试样的近红外光谱往往差别细微,主因子分析方法可将谱图向量线性组合,形成新的相互正交的特征量,由此可对试样的差别作进一步研究。主因子分析提取能张开了样本空间,带来好的识别效果。对于高维的谱图数据,这种数据压缩和提取是必不可少的。图5-1是24个汽油样品的二维因子图显示,横轴代表主因子一,纵轴代表主因子二。样本15是烷基化组分油,样本16是重整组分油,它们与其它油样在图上有显著的不同。对未知样本可将其投影到同一图上判别归属。EMBEDMSDraw\*mergeformat图5-124个汽油样本的二维主因子映射图第二节系统聚类法和模糊聚类法一、 系统聚类法系统聚类法的主要步骤是,一开始将每个样本自成一类,然后最相似的样本聚为一类,逐次比较新类间的距离并合并最相近的类,直到所有的样本聚为一个大类,最后得到按相似性大小构成的谱系图。根据类间距离的不同计算方法,形成不同的系统聚类分析方法。设某一步中p,q合并为新的类r,r与当前其它类i的距离EMBEDEquation可由下列不同方法计算:最短距离EMBEDEquation最长距离EMBEDEquation中间距离EMBEDEquation重心距离EMBEDEquation类平均法EMBEDEquation可变类平均法EMBEDEquation可变法EMBEDEquation方差平方和法EMBEDEquation程序中可用统一的递推公式实现EMBEDEquation图5-2是以最短距离法得到的聚类图。EMBEDMSDraw\*mergeformat图5-2,24个汽油样本的系统聚类图二、 模糊聚类法对含n个样本的集合X,分为c类,使X中的任意样本必须归入其中的某一类,以及任一类中至少含有一个样本。则分类结果可用矩阵U(cXn)表示,对于经典聚类满足如下规则EMBEDEquationEMBEDEquationEMBEDEquation对模糊聚类则满足:EMBEDEquationEMBEDEquationEMBEDEquation模糊聚类方法可指明类的中心,以及不同类之间的过渡情况。设EMBEDEquation为第k类的聚类中心,引入各类样本到聚类中心的加权距离平方作为衡量聚类效果的目标函数,则聚类准则为EMBEDEquation其中EMBEDEquation,EMBEDEquation为加权指数,根据上式可确定EMBEDEquation对于EMBEDEquationEMBEDEquation,EMBEDEquation,EMBEDEquationEMBEDEquation加权指数m取值越大,则分类矩阵的模糊程度越大,经验值取EMBEDEquation,当EMBEDEquation,U中所有元素值接近1/c对24个汽油样本的聚类见表5-1。第三节T.Kohonen自组织神经网络多层感知器的学习和分类是以已知一定的先验知识为条件的,即是有监督的方法,在实际应用中有时并不能提供先验的知识,这就需要网络具有自学习功能。T.Kohonen提出的自组织特征映射图就是具有这种自学习功能的神经网络。他认为神经网络在接收外界输入时,将会分成不同的区域,不同区域对不同的模式具有不同的响应特征,即不同的神经元以最佳的方式响应不同性质的信号激励,形成一种拓扑意义上的有序图。由于这种映射是通过无监督的自适应过程完成的,所以称自组织特征映射。如图5-1所示,输出节点与其邻域的节点互连,并互相激励。输入节点和输出节点通过权重连接,通过网络权重调整,使得每一邻域的所有节点在某种输入下具有类似的输出。通过无导师的学习,稳定后的网络输出对输入模式生成自然的特征映射,从而达到自动聚类的目的。EMBEDMSDraw\*mergeformat图5-3二维网络结构示意图EMBEDMSDraw\*mergeformat图5-4神经网络权值调整过程自组织映射算法包括两个部分:一是最佳匹配神经元的选择,二是网络权值矩阵的自适应调整。设输入矢量X为EMBEDEquation.2\*mergeformat网络权值矩阵W为EMBEDEquation.2\*mergeformat则最佳匹配神经元C满足下式:EMBEDEquation.2\*mergeformat若Nc表示C的一个时变的邻域,随网络的调整,单调收缩直至C则网络的学习过程可表达为EMBEDEquation.2\*mergeformatEMBEDEquation.2\*mergeformat和EMBEDEquation.2\*mergeformat是时间的函数,0<EMBEDEquation.2\*mergeformat<1,是关于时间的单调降函数表5-1模糊聚类法和kohonen网络聚类结果比较编号汽油类型模糊聚类法kohonen输出层激活模式1催化调合0.9990.0000.001{1,23,13,20,15}2催化调合1.0000.0000.000{1,23,13,20,15}3催化调合1.0000.0000.000{1,23,13,20,15}4催化调合0.9990.0000.001{1,23,13,20,15}5催化调合1.0000.0000.000{23,1,15,17,2}催化重整0.9790.0000.021{20,13,1,23,21}7催化重整0.0000.0001.000{20,13,1,23,21}8催化重整0.0000.0001.000{20,13,1,23,21}9催化重整0.0000.0001.000{20,13,1,5,21}10催化烷基化0.9990.0000.001{15,23,13,9,21}11催化烷基化1.0000.0000.000{1,13,20,23,21}12催化烷基化1.0000.0000.000{1,13,23,20,21}13催化烷基化1.0000.0000.000{1,13,23,20,21}14催化组分油0.9330.0000.067{1,20,13,23,21}15烷基化油0.8670.0010.132{19,7,18,14,0}16重整汽油0.0001.0000.000{20,11,5,13,21}17成品汽油0.0000.0001.000{20,1,13,23,21}18组分油0.9990.0000.001{1,23,13,20,15}19组分油1.0000.0000.000{1,23,13,20,15}20组分油(伊)0.0000.0001.000{20,13,1,23,21}21成品汽油0.0000.0001.000{20,1,13,23,21}22未知油样0.0020.0000.998{20,5,11,13,21}23组分油(伊)0.0000.0001.000{20,13,1,21,5}24未知油样0.0000.0001.000{20,13,5,21,1}注:(1)kohonen结构2-24,学习次数1000FuzzyC-Meansmweight=1.25第四节程序的功能及结构介绍本工作中,将模式识别与预测模型结合使用,对性质复杂的油品标定预测模型前先通过模式识别将性质不同的样本归类,然后建立有针对性的模型。在使用预测模型前经过模式识别,以选择最适宜的预测模型。对超出标定集合范围的新样本和异常光谱进行预警提示,也可进入识别模型和预测模型的回归过程。这一方案的优点在于,在保证模型预测精度的同时,增强了模型的鲁棒性。单独使用识别模块,也可用于进料监测,分类和识别等。图5-4为系统各功能模块间的关系EMBEDMSDraw\*mergeformat图5-5程序功能示意图图5-4中功能模块的主要组成如下:光谱预处理模块:导数光谱、光谱平滑、基线校正、单位变换判别分析:距离判别、主因子(PCA)显示、Koho

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论