




已阅读5页,还剩64页未读, 继续免费阅读
(控制理论与控制工程专业论文)基于数据驱动的软测量建模方法研究及其工业应用.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
浙江大学硕士学位论文 摘要 软测量技术是先进控制技术的重要组成部分,也一直是过程控制领域研究 的热点之一。其能够提升企业对产品质量的直接监控,并通过先进控制与优化 技术实现降低生产成本的作用,提升企业自身竞争力,以满足现代工业生产对 控制系统的需要。 本论文简要介绍软测量技术的发展、现状和特点,并介绍了软测量技术的 概念、基本模型以及一些常用的建模方法:以实际工业过程为背景,结合化工 过程工艺知识,对软测量的建模方法进行了较深入的研究,并利用相应的研究 结果针对工业过程中的实际问题进行了仿真和验证。本论文的主要研究工作如 下: 1 介绍了一种新的软测量建模方法一高斯过程回归建模方法,并对其建模效果 进行了仿真和验证,证明效果良好。 2 提出了一种基于g r i n 聚类算法和最小二乘支持向量机( l s s v m ) 方法的在线 多模型软测量建模方法- g r i n l s s v m 。该方法先通过改进的g r i n 聚类算 法结合c h a m e l e o n 算法动态聚类,然后对各子聚类用l s s v m 建模,模型每 次处理完测试样本后,重新聚类、建模,实现模型自动更新。将该模型用于 加氢裂化分馏过程轻柴油馏出温度的软测量建模,应用结果证明该算法能够 有效提高模型的泛化能力和预测精度。 3 针对动态软测量模型数据的特点,提出了一种动态软测量建模方法。首先采 用模糊曲线法确定输出数据采样间隔内每一维输入数据的多个样本点对输出 数据的重要程度,然后依此对该采样问隔内的每一维输入数据做加权处理,再 对数据采用高斯过程回归模型建模,得到预测的输出数据。将该方法仿真并应 用于实际工业数据,效果良好。 关键词:软测量数据驱动最小二乘支持向量机g r i n 聚类算法 c h a m e l e o n 聚类模糊曲线法高斯过程 浙江大学硕士学位论文 a b s t r a c t s o f ts e n s o rt e c h n i q u ei sa ni m p o r t a n tc o m p o n e n to ft h ea d v a n c e dc o n t r o l t e c h n i q u e a n di ta l s oh a sb e c o m eo n eo ft h em o s ti m p o r t a n tr e s e a r c hd i r e c t i o n si n t h ea r e ao fp r o c e s sc o n t r 0 1 t om e e tt h en e e d so fm o d e mi n d u s t r i a lp r o d u c t i o n s c o n t r o ls y s t e m ,i tc a ni m p r o v et h ed i r e c ts u p e r v i s i o no fp r o d u c tq u a l i t yv i aa d v a n c e d c o n t r o la n do p t i m i z a t i o nt e c h n i c ,l o w e rt h ec o s to fp r o d u c t i o n ,a n de n f o r c et h e e n t e r p r i s e sc o m p e t i t i v e n e s s b a s e do nt h eb a c k g r o u n do fp r a c t i c a li n d u s t r i a l p r o c e s s ,t h i sd i s s e r t a t i o n s t u d i e ss o m em o d e l i n gm e t h o d so fs o f ts e n s o ri nd e t a i l ,w h i c hc o m b i n et e c h n i c s k n o w l e d g eo f c h e m i c a l e n g i n e e r i n gp r o c e s s t h ed e v e l o p m e n t ,a c t u a l i t ya n d c h a r a c t e r i s t i c so fs o f ts e n s o rt e c h n i q u ea r eb r i e f l yi n t r o d u c e d ,a n dt h ec o n c e p t ,b a s i c m o d e la n ds o m ec o m m o nm o d e l i n gm e t h o d sa r ep r e s e n t e d t h er e l e v a n tr e s e a r c h r e s u l t sa l ea p p l i e dt os o l v et h ea c t u a lp r o b l e m s ,a n dt h em e t h o d sa r es i m u l a t e da n d t e s t e dw i t hp r a c t i c a li n d u s t r i a ld a t a t h em a i nc o n t r i b u t i o n sa r ed e s c r i b e da sf o l l o w s : 1 an e ws o f ts e n s o rm o d e l i n gm e t h o d - g a u s s i a np r o c e s si si n t r o d u c e d i ti s s i m u l a t e da n dt e s t i f i e d ,a n dt h er e s u l ti sf m e 2 an e wo n l i n em o d e l i n gs o f ts e n s o rm e t h o db a s e do ng r i n c l u s t e r i n ga l g o r i t h m a n dl e a s ts q u a r e ss u p p o r tv e c t o rm a c h i n e ( l s s v m ) i sp r e s e n t e d f i r s t l y , t h ed a t a a l ec l a s s i f i e dw i t h i m p r o v e d g r i nc l u s t e r i n g a l g o r i t h ma n dc h a m e l e o n a l g o r i t h md y n a m i c a l l y t h e ne v e r ys u b - c l u s t e r i sm o d e l e dw i t hl s s v m r e s p e c t i v e l y t ou p d a t et h em u l t i - m o d e la u t o m a t i c a l l y , a l lp r o c e s s e dd a t aa r e c l a s s i f i e da n dm o d e l e da g a i na f t e re v e r yt e s td a t ai sp r o c e s s e d t h em e t h o di s a p p l i e dt oe s t i m a t et h el i g h td i e s e lo i l sd i s t i l l a t et e m p e r a t u r ef o rap r o c e s so f h y d r o c r a c k i n g t h er e s u l tp r o v e st h a tt h em e t h o dc a ni m p r o v et h eg e n e r a l i z a t i o n a b i l i t ya n dp r e d i c t i o np r e c i s i o no ft h em o d e l 3 a i m i n ga tt h ed a t af e a t u r eo ft h ed y n a m i cs o f ts e n s o rm o d e l ,an e wm e t h o do f d y n a m i cs o f ts e n s o rm o d e l i n gi sp r e s e n t e d s i n c et h ei n p u td a t ah a ss e v e r a l s a m p l ep o i n t sc o r r e s p o n d i n gt o t h es a m p l ep o i n to ft h eo u t p u td a t a ,e v e r y d i m e n s i o no ft h ei n p u td a t ad u r i n gt h es a m p l i n gi n t e r v a lo ft h eo u t p u td a t ai s w e i g h t e db yf u z z yc u r v em e t h o dr e s p e c t i v e l y , a c c o r d i n gt ot h ei m p o r t a n c e i i 浙江大学硕士学位论文 b e t w e e nt h ei n p u t o u t p u td a t ap a i r , a n dt h en e wd a t ap a i ri so b t a i n e d t h e nt h e d a t aa r em o d e l e dw i t hg a u s s i a np r o c e s sr e g r e s s i o nm o d e l ,a n dt h ep r e d i c t e d o u t p u td a t aa r eo b t a i n e d t h i sa p p r o a c hi s s i m u l a t e da n da p p l i e dw i t hp r a c t i c a l i n d u s t r i a ld a t aw i t hg o o de f f e c t k e y w o r d s :s o f ts e n s o r ;d a t ad r i v e n ;l e a s ts q u a r e ss u p p o r tv e c t o rm a c h i n e ;g r i n c l u s t e r i n ga l g o r i t h mc h a m e l e o nc l u s t e r i n g ;f u z z yc u r v em e t h o d ;g a u s s i a np r o c e s s 。一i n l 。一 浙江大学硕士学位论文 第一章绪论 摘要本章对软测量的基本概念和主要研究方法作了较详细综述,简要介绍了 主要建模方法,讨论分析了软测量的应用与现状,最后介绍了本论文所做的研究 工作及内容结构。 关键词软测量数据驱动建模 1 1 引言 随着科学技术的进步,现代工业生产对于生产过程的要求也越来越高,以往 简单、常规的控制方法已经不能满足现代生产工艺的需要,与产品质量相关的参 数测量成为现代生产过程中一大难点。为了提高产品质量,增强企业竞争力,先 进控制和优化控制等先进技术被大量应用于现代生产过程。 以往解决这些问题的常规方法有两种t 一种是间接质量控制法,即通过控制 质量变量相关的其他易测变量,达到间接控制质量变量的目的。该方法要求熟悉 工业对象机理,而且通常采样离线分析得到,需要人工化验,滞后时间长,从几 十分钟到数小时不等,精度不高,存在较大局限性;另一种是直接测量法,即利 用在线仪器直接测量需要的参数并对其进行控制,但是由于仪器的测量精确度越 高,维护成本就越高,会增加生产成本。 软测量( s o f ts e n s o r ) 技术正是针对这个问题出现的,其最早源于7 0 年代 b r o s i l o w 等人提出的推断控制思想f ”l ,上世纪8 0 年代中后期一经提出,便进入了 其发展的黄金时代。软测量技术又称为软仪表技术,就是依据易测过程变量和难 以直接测量的待测过程变量之问的数学关系,通过某种数学计算和估计方法,得 到难测过程变量,为实现最优控制提供支持。 作为现代控制策略之一的推断控制包括估计器的构造和控制器的设计两部 分。推断估计器是控制器的基础,也是整个推断控制系统设计的关键。设计估计 器就是根据某种最优准则,选择一组既与主导变量有密切关系,又容易测量的辅 助变量,通过构造某种数学关系,实现对主导变量的在线估计【引。 一1 一 浙江大学硕士学位论文 软测量技术正是体现了推断控制器的特点:将软仪表作为控制系统中的反馈 环节或估计器,与各类控制器、控制策略结合,并为之提供快速准确的过程主导 变量信息,从而构成推断控制系统。由于在推断控制系统的框架下,控制器和软 仪表相互独立,可独立进行设计,使得它能与几乎所有的反馈控制算法结合,构 成基于软测量的控制。 软测量技术在可实现性、通用性、灵活性和成本等各方面均具有无可比拟的 优势,其已成为过程控制和过程检测领域的一大研究热点和主要发展趋势之一l 弼l 。 1 2 软测量技术概述 软测量技术的基本思想就是根据某种最优准则,选择一组既与主导变量关系 密切,又容易测量的变量,通过构造的某种数学关系,估计主导变量。输入输出 关系如下图所示, d 1 d 2 蹦 过程 对象 图1 1 过程对象的输入输出关系 图中y 表示难测的主导变量,d 。表示可测的干扰变量,d :表示不可测的干扰 变量,u 表示可测的控制变量,0 表示可测的被控变量。难测的主导变量的估计值 可以表达为 y = f ( x ) ( 1 1 ) 式中的石为可测的辅助变量,r xc _ ( d , ,口) 【9 1 。 影响软测量仪表性能的因素包括建模方法的选择、辅助变量的选择、数据预 处理、主导变量与辅助变量之间的时序匹配问题和软测量模型的在线校正等。 一2 一 浙江大学硕士学位论文 1 2 1 建模方法的选择 软测量的建模方法很多,各有利弊,具体选择哪种方法视具体的建模对象而 定。最好使用多种方法建立软测量模型,再从模型的精确度、复杂程度、建模所 用时间及模型可靠性等因素综合比较,选择一种简单有效的方法建立软测量模型。 1 2 2 辅助变量的选择 辅助变量的选择包括变量类型、变量数目以及测量点位置的选择三个方面, 在建立软测量模型的过程中起着重要作用。变量类型的选择范围必须是过程中可 测量的变量集;变量数目必须满足精简原则,即尽可能用最少数目的变量获得足 够精确的模型;测量点位置的选择受到过程工艺知识、对象动态特性及噪声的影 响。 辅助变量的选择离不开对象机理的认识,较常用的方法是先根据先验知识初 步确定待选的辅助变量集,然后根据统计方法选择最佳的变量集。 1 2 3 数据预处理 建模所用测量数据通过工业现场的传感器、变送器等仪表获得,受仪表精度、 测量方法和生产环境的影响,不可避免的存在误差。误差分两类:一类为显著误 差,另一类为随机误差。如果不处理测量数据中的误差,不但得不到正确的主导 变量估计值,还可能误导操作,引起生产波动,甚至导致生产过程失败。 处理显著误差常用的方法有人工剔除法、技术判别法和统计检验法。人工剔 除法根据经验对一些偏离较大的数据手工剔出;技术判别法根据物理或化学性质, 进行技术分析,判别偏差较大的数据是否异常;统计检验法主要有三倍标准差判 别法( 3 a 法) 、主元分析法、广义似然法等。 在工程实际应用中,经常会遇到服从正态分布的随机变量。如果随机变量亡服 从正态分布n 以s 2 ) ,则有 一3 一 浙江大学硕士学位论文 p ( | 宇一z l 0( 2 3 ) x 的前k 个主元代表了x 数据中的绝大部分变化,所以可用x 的前k 个主元 来代替原数据进行回归分析,即得到下面的主元回归模型, y = 6 i f l + b 2 t 2 + + 钆气,瓦b( 2 4 ) 式中b = 【岛也觑r 为主元回归模型参数,可用最小二乘:f :去( l e a s ts q u a r e s ) 得至l j , b 一( 巧瓦) 。1 硭y( 2 5 ) 可以通过交叉检验确定选取的主元个数。因为各主元之间是正交的,所以上 式不会出现由于矩阵奇异而出现的一系列问题。主元回归分析解决了由于输入变 量间的共线性引起的计算问题。此外,p c a 还通过忽略部分次要主元,抑制了测 量噪声对模型参数的影响。 2 3 部分最, b - - 乘法 实际工程应用中,采集的数据指标往往存在多重相关性,而且经常得到的样 本点个数会少于变量的个数,这种情况下采用经典的多元线性回归模型建模,会 严重扩大模型误差,并破坏模型的稳健性。针对这个问题,s v a n t ew o l d 和h m a r t e n s 提出了部分最小二乘回归算法【5 7 ,5 8 1 。部分最小二乘回归可以看作先分别对输入输 出数据进行主成分分析,再进行典型相关分析,并进行多元回归建模。其集中了 一1 3 浙江大学硕士学位论文 多元线性回归、主成分分析和典型相关分析的基本功能于一体,提取的主成分具 有最大的相关性,相比p c r 单纯的从输入数据提取的主成分,所建立的模型更稳 健、精确,具有更好的可解释性,而且可以分析输入输出数据变量间的相关关系, 观察样本点间的相似性结构。 设有q 个因变量饥,y :,蜘) 和p 个f l 贿t x , ,也,讳) ,共有力个样本点,则 输入输出数据可表示为x = “,x 2 9o * o ,x p l 。p 和y w y 。,y :,y 。l m 。部分最小二乘回 归分别在x 与y 中提取出成分和h 。,f 1 和“,分别为( 一,x 2 ,) 和( y ,y :,y 。) 的 线性组合。提取主成分时,有以下两个要求, 1 ) f l 和h 。应尽可能多地携带各自数据中的变异信息。 2 ) 和h 。的相关程度能够达到最大,使得对具有很强的解释能力。 第一主成分和“,被提取后,部分最小二乘回归分别实施x 对f 1 的回归和y 对 u 。的回归。如果回归方程达到了要求的精度,则算法终止;否则,继续利用x 被 解释后的残余信息和y 被解释后的残余信息进行第二轮的成分提取。如此反复, 直至达到要求精度。 p l s 算法中最常用也是最方便计算的是非线性迭代部分最小二乘算法 ( n o n l i n e a ri t e r a t i v ep a r t i a ll e a s ts q u a r e s ,简称n i p a l s ) ,此外还有很多改进的p l s 算法5 9 - 6 2 1 。 n i p a l s 算法步骤如下: 1 ) 对输入变量x 和输出变量】,进行归一化处理 2 ) 取毛一x ,f o y ,h = 1 3 ) 作外部变换,w t 一“:巨以 :) ,将规范化, 一i l i l ,气t 乓一。, ( 2 6 ) 将g :规范化, 西一爵l l q :i l ,u 。t e 以, ( 2 7 ) 重复上述步骤,直至收敛,可通过查看f 。和气一。的差值是否在允许的范围来确 一1 4 浙江大学硕士学位论文 定是否收敛。 4 ) 计算x 的负荷变量胁, 将以规范化, p := t e h 一。( f ) ( 2 8 ) n t 一一1 1 薪i i ,气= f i l 见i i ,;0 见l l( 2 9 ) 5 ) 计算误差, 毛一毛一。- t h 露,e 只一。一b t 。g : ( 2 1 0 ) 6 ) 根据是否满足精度要求,决定特征向量个数。如果模型不满足精度,可以令 h h + 1 ,返回至第二步,继续循环,否则结束。 对于线性模型,所需的特征向量的最大数目等于模型的维数,而非线性模型 需要更多的维数来描述其非线性。用于确定特征向量个数的方法主要有以下三种: 1 ) 给0 e0 定义一个阈值,当0 ei i 小于这个阈值时,就停止选取更多的特征向量。 比较0 瓦0 与0 e 4i l ,当它们的差值小于设定的阈值时,停止增加新的特征向量。 2 ) 采用f 检验验证p l s 模型,决定特征向量的个数。 3 ) 采用交叉检验法,将数据分为训练数据和测试数据,每增加一个特征向量,就 在测试数据上测试得到的模型。当测试数据的误差开始增加时,认为此时选取 的特征向量过多,据此确定误差最小时的p l s 模型所对应的特征向量个数为所 需个数。 1 9 9 8 年,w o l d 等又提出了正交信号修正法( o a h o g o n a ls i g n a lc o r r e c t i o n m e t h o d ) t 硎,该方法针对线性模型y x b + e ,可以去除x 中与】,正交的信息。作 为一个预处理步骤,与p l s 算法结合,o s c 能够改善模型性能,使模型更简洁, 解释性更强。 o s c 方法一经提出,随后就出现了众多的改进算法【“击7 l ,并得到了很多验证 和应用1 6 8 - 7 。所有的o s c 方法都基于以下三个原则: 1 ) 去除的正交成分应当包含x 中较大的系统变化。 2 ) 正交成分必须由x 计算得到,以便可用于将来的新数据。 3 ) 正交成分必须与y 正交。 一15 浙江大学硕士学位论文 2 4 人工神经网络 人工神经网络( a n n ) 是建立在对物理拓扑结构和生物认知机理的简单数学描 述基础上发展起来的一门新兴学科。最早的研究可追溯到1 9 4 0 年早些时候 m c c u l l o c h 和p i t t s 共同发表的论文“al o g i c a lc a l c u l u so ft h ei d e a si m m a n e n ti n n e r v o u sa c t i v i t y 1 7 2 1 ,随后,他们通过将接收到的输入信息经过加权激活和抑制突触 的连接与固定阈值进行比较,实现了两态神经元的开关状态。通过严密推导,证 明了采用这种神经元构成的网络,能够实现任意数学或函数运算功能。 1 9 4 9 年,h e b b 发表了“n eo r g a n i z a t i o no fb e h a v i o r 7 3 】论文,首次提出了似 乎可以实现的修改连接神经元突触权值的学习规则。1 9 5 8 年,r o s e n b l a t t 在题为 “t h ep e r c e p t r o n :ap r o b a b i l i s t i cm o d e lf o ri n f o r m a t i o ns t o r a g ea no r g a n i z a t i o ni nt h e b r a i n 1 7 4 l 的论文中首次提出了一种实际计算的模型。这是一种多层前向传播网络 的雏形,可以将输出限制在【- 1 ,+ 1 】,虽然提出的学习规则比较简单,却被后来有 教导学习的误差反向传播方法所引用。r o n s e n b l a t t 和研究小组成功的用电子线路 构成了神经网络,随后又证明了感知机能在有限步内使二元分类问题收敛到解。 随后,引起了神经网络的研究热潮,线性学习机的理论研究成果和各种各样 的应用不断出现。六十年代末七十年代初,代表性的有将感知机应用于红外和质 谱数据的分类中,这些早期的成功一度使人们对神经网络产生了乐观的看法。但 是,1 9 6 9 年m i n s k y 和p a p e r t 发表的p e r c e p t r o n l 7 5 l 一书中严格证明了当神经网络选 用线性活化函数时( 如当时的感知机) ,不能求解非线性分类问题。这一重大结论 的提出,使得人们的对神经网络的进一步发展产生了怀疑,直到进入八十年代, 经过研究人员的不断努力,开发出了功能更强的非线性多层网络模型,使得人工 神经网络技术在理论和应用方面有了新的突破。目前神经网络技术仍然在不断的 发展创新,每年都有大量的研究报告发表,并被成功的应用于控制系统、机器人、 动态系统建模、数据处理、模式识别及故障诊断等诸多领域。 三层前传神经网络是典型的神经网络结构,由输入层、隐含层和输出层构成, 具体结构如下图2 2 所示。输入层起传递输入信息作用,不具备处理功能,其输入 节点数对应于输入变量个数;隐含层节点数目根据对象的复杂性确定,其每个节 点选取的处理函数决定了网络的表达能力;输出层提供最终的输出信息,其节点 一1 6 浙江大学硕士学位论文 输入层隐含层输出层 y l 蜴 图2 2 三层全连接前传神经网络拓扑结构 数与输出数据的变量个数对应。相邻的前后层节点与节点间的连接赋予不同的连 接强度,用连接权表示大小,输入层以外的神经元的处理函数常选取s i g m o i d 函数。现以隐含层第个神经元为例,该点接受的总输入吩可表示为 旷善叩t + a j ( 2 1 1 ) 其中,l 表示输入变量个数;x ;表示节点输入;w 。是该输入对当前神经元作用的大 小;0 是当前神经元的偏置。口,经过s i 肿o i d 函数的处理,产生节点的对应输出d j , 1 0 o :l 一 1 0 + e x p ( 一a ) ( 2 1 2 ) 从而实现输入信息的逐层向前传递,最后到达输出层得到模型的最终输出。 目前采用最广泛的两种典型的神经网络是b p 神经网络( b a c kp r o p a g a t i o n n e u r a ln e t w o r k ) 和r b f 神经网络( r a d i a lb a s i sf u n c t i o nn e u r a ln e t w o r k ) 。 b p 网络算法是一种建立在梯度下降法基础上的多层前向有教导学习算法,其 利用前向网络结构特点,采用“模式顺传播 和“误差逆传播”反复进行,使得 网络实际输出逐渐向所希望的输出逼近,具有单隐层和相应数量节点,且选取 s i g m o i d 函数的b p 网络可以以任意精度逼近任何非线性函数。b p 网络也有以下几 一1 7 浙江大学硕士学位论文 点不足:模型复杂时,训练时间长,收敛速度慢;不能保证误差收敛到全局最小, 可能陷入局部极小:网络学习和记忆不稳定,加入新样本后,需要重新学习,调 整权值。 r b f 网络是单隐层的前馈网络,输入变量个数等于建模对象的独立变量个数, 隐含层选取基函数作转移函数,输出层是一个线性组合器。r b f 网络在一定程度 上克服了b p 网络收敛速度慢和局部极小的缺陷,具有更广泛的非线性适应能力, 成功的实际应用很多。r b f 网络在很多方面优于b p 网络,但本身也有需要改进的 地方,例如,如何选择合适的径向基函数,如何确定中心数和中心向量等问题。 2 5 支持向量机 支持向量机( s u p p o r tv e c t o rm a c h i n e ) 是一种基于统计学习理论的建模方法,其 首先通过用内积函数定义的非线性变换,即核函数,将输入空间变换到一个高维 空间,然后在这个空间求最优分类面,形式上类似于一个神经网络,输出是中间 结点的线性组合,每个中间结点对应一个支持向量。不同于以往的基于经验风险 最小化的建模方法,s v m 基于结构风险最小化原则,具有坚实的理论基础,经过 严格的公式推导,泛化性能更好,适合小样本数据,且不存在局部极小。一经提 出,就成为研究的新热点,也一直在不断完善发展。 日2 o o o a r g n = 2 | 1 w 0 图2 3 线性可分情况下的最优分类面 一1 8 浙江大学硕士学位论文 s v m 从最初的线性可分情况下的最优分类面发展而来,基本情况可用图2 3 的二维情况说明,图中实心点和空心点分别代表两类样本,h 为分类线,h t 、h 2 分别为过两类的分离线最近的样本且平行于分类线的直线,它们间的距离叫做分 类间隔( m a r g i n ) ,所谓最优分类线就是要求分类线不但能将两类正确分开,而且使 分类间隔最大。分类线方程为x 宰w + 6 = 0 ,对其进行归一化,使得线性可分的样 本集“,咒) ,f = 1 ,以,x e r t , y + l 一廿,满足 y i 【 木w ) + 6 】- i 苫o , i 一1 ,n( 2 1 3 ) 此时,分类间隔等于2 0w l l ,使间隔最大等价于使0w l l 2 最小,满足条件( 2 1 3 ) 且使0 w l l 2 2 最小的分类面叫做最优分类面,h 1 、h 2 上的训练样本点就叫做支持向 量( s u p p o r tv e c t o r ) 。 v c 维( v a p n i k - c h e r v o n e n k i sd i m e n s i o n ) 是统计学习理论中定义的最重要的学 习性能指标,反映了函数集的学习能力,v c 维越大,学习机器越复杂,也就是容 量越大。 使分类间隔最大也就是对泛化推广能力的控制,这是s v m 的核心思想之一, 统计学习理论指出,在n 维空间中,样本分布在一个半径为尺的超球内,则满足 条件0 w l k a 的正则超平面构成的指示函数集厂o ,w ,b ) 一s g n ( x 宰w + 6 】的v c 维满 足下面的界 hsm i n ( r 2 a2 】,) + 1 ( 2 1 4 ) 因此0w l l 2 最小时,v c 维的上界最小,从而实现对函数复杂性的选择。 支持向量机在最优分类面中采用适当的内积函数k ,x 1 ) ,实现非线性变换后 的线性分类,而且不增加计算复杂度,此时目标函数变为 q ( a ) t 套口t i 1 ,妻。口t 口,y t y ,k ( x t ,z ,) ( 2 1 5 ) 相应的分类函数也变为 ,( x ) 一s g n ( 蒌口? y t k ( x t ,工j ) + 6 ) ( 2 1 6 ) s v m 分类函数形式上类似于一个神经网络,输出是中问结点的线性组合,每 一1 9 浙江大学硕士学位论文 个d e n 结点对应一个支持向量,如图2 4 所示1 7 6 1 。 图2 4 支持向量机结构图 s v m 最早用于分类器的设计,后来v a p n i k 在定义了不敏感损失函数的基础 上,又提出了支持向量回归( s v r ) 算法,用于函数拟合问题。 设有刀个样本( 五,y 1 ) ,化,y :) ,化,y 。) ,其中毛,咒e r ,f 一1 2 ,万,用函数厂 拟合的期望风险可定义为 尺目l ( ) ,厂o ) ) 卵o ,y )( 2 1 7 ) 其中l 是误差( 损失) 函数,f ( x ,y ) 是联合分布函数。实际应用中,概率分布f ( x ,y ) 通常未知,一般无法直接用上式计算,常用的方法是用经验风险r 。,p 代替尺进行 风险计算,其定义公式如下, r e m p 一吾套m m ( 2 1 8 ) 用经验风险尺。,取代尺的方法称为经验风险最小化原则,传统的建模方法都是基 于这一原则,如部分最小二乘和神经网络方法,但是很多情况下,经验风险r 。,并 不能完全反映真实风险尺。 e r m 原则的一个基本假设是r 。p 很小的时候,会保证尺很小。可是,有时r 。, 过小反而会导致r 增大,也就是过学习的问题,而且r 。,过小一般会使学习机器 一2 n 一 浙江大学硕士学位论文 的复杂性增加。 统计学习理论推导证明了真实风险r 由两部分组成:一部分是经验风险尺。, 另一部分称为置信范围,与学习机器的v c 维h 和训练样本数咒有关,公式如下, rsr 。p + 妒( h 玎) ( 2 1 9 ) 结构风险最小化原则就是在该不等式基础上,综合考虑了经验风险和置信范 围,本质上是在学习机器的复杂性和推广性间寻找均衡,如图2 5 所示。 s v m 用于函数拟合问题,也取得了良好效果。假设用函数f ( x ) 一w * x + 6 拟合 数据“,咒 ,i = 1 ,2 ,l ,毛e r d , y 。e r ,并假设所有样本都能在精度g 下用线性函数 无误差拟合,即 风险 i 一1 , 2 ,n 过学习 ( 2 2 0 ) 图2 5 结构风险最小化示意图h 考虑到允许拟合误差,引入松弛因子亭0 ,亭乏0 ,则上式中条件变为 f y j w 幸:一6s _ 主:f 。1 ,2 ,厅( 2 2 1 ) r 1w * x i + 6 - y is + 亭, 则优化目标变为丢o w 1 1 2 + r 宰套( 曼+ 等) ,其中) ,是惩罚系数,采用同样方法,可 一2 1 一 岛 岛 、l 、i 以 咄 而6 嚣 咒w 浙江大学硕士学位论文 得到其对偶问题,在条件善 一口;) = o ,a , z 0 , cs ) ,, i f f i1 2 ,棚下,对下面的目 标函数最大化, 帅) _ - 奢西吲+ 砉咒( 西训 毫( 西训( 十口,地吲 ( 2 2 2 ) 上式的解中只有一部分q 不等于零,其所对应的样本称为支持向量,相应的回归 函数为 2 6 高斯过程 厂( 工) = w 毒工+ b ;( 口? 一口t ) ( t 宰z ) + 6 。 ( 2 2 3 ) 1 - j 高斯过程( g a u s s i a np r o c e s s ,简称g p ) 是高斯概率分布的泛化,即将有限维的向 量空间里的最佳映射问题转变为在无限维的函数空间内寻找最优函数问题,其本 质是概率意义下的核学习机,既可用于回归建模,又可用于样本分类。高斯过程 回归建模是种新的建模方法,随着高斯过程算法的不断完善和发展,其在过程建 模方面得到了越来越多的应用m7 8 1 ,并逐渐被引入软测量领域【7 9 1 。 高斯过程源于无参的贝叶斯推断,其用高斯先验分布替代没有参数化的回归 函数。n e m 在研究人工神经网络( a n n ) 时发现大量的贝叶斯回归模型显示出高斯 过程的性质【删。在n e a l 的研究基础上,o h a g 锄提出了基于高斯过程的回归模型, 最初作为a n n 的一种替代方法【8 1 】。 o 图2 6 a 基于先验分布的情况图2 6 b高斯过程拟合后情况 一2 2 浙江大学硕士学位论文 图2 6 a 是基于先验分布的四条函数拟合曲线;图2 6 b 是建模数据确定后的情 况,虚线代表基于先验分布的四条拟合曲线,实线表示样本数据预测均值,阴影 区域表示每个样本点基于后验分布预测值的标准方差的两倍。可以看出,采用基 于后验概率的方法处理建模数据,不但能得到模型,还能同时得到模型的精确度。 高斯过程回归模型描述如下, 假设给定训练样本 黾,y ;) o ;1 ,玎) ,其中薯e r d , y ie r ,l 为训练样本个 数,d 为输入样本维数。对于新的测试样本x ,模型预测值用均值表示,即 y 2e ( ) ,事) = 七r c y p j ( 2 2 4 ) 方差为 v a r ( y 木) = c o 木,x 木) 一k ro 木) c l k ( x 宰)( 2 2 5 ) 其中k ( x ) 一【c ( x 幸,x 1 ) ,c ( x ,工。) 】r 为,l 咒维训练样本协方差矩阵,c ( 一,z ,) 表示协方差函数,定义协方差函数的方法有很多,只需满足非负正定条件即可, 通常采用的协方差函数公式如下 c ( x i , x 1 ) f f ia o + a t 荟x + v oe x p ( 一荟w , t ( 一石) 2 ) + 仃;6 玎( 2 2 6 ) 式中,第一项表示常数偏差,第二项表示样本的线性相关程度,第三项形式 类似径向基函数,表示相邻的输入样本有高度相关输出,最后一项表示随机误差 影响。其中二、三项包括了线性和非线性情况,使得高斯过程模型能够同时处理 线性和非线性数据。 高斯过程模型优化通过超参数( h y p e r - p a r a m e t e r s ) 完成,定义为 0 - - ( a o ,q ,v o ,m ,z 厂,类似于神经网络中的超参数,其确定有多种方法:极 大似然估计法( m a x i m u ml i k e l i h o o de s t i m a t i o n ) 。马尔可夫链蒙特卡罗方法( m a r k o v c h a i nm o n t ec a r l o ) 等。在此采用常用的极大似然估计法,似然函数表达如下 工乩g p ( y 旧x ) 一一l o gic l 一三) ,;c 以y i nl o g ( 2 万) ( 2 2 7 ) 对似然函数l 的各个参数分别求导即可确定具体值。由于涉及到求c ,矩阵c 维数在1 0 2 级以上时,计算速度慢,使得算法实用性不强。针对这个问题,文献【8 2 】 一2 3 浙江大学硕士学位论文 给出了几种比较好的解决方法。 2 7 结论 本章综述了几种典型的基于数据驱动的软测量建模技术。虽然方法众多,但 目前成熟的商业化软件包大多还是采用p l s 方法,主要因为p l s 算法结构简单、易 于维护、物理意义明确以及鲁棒性好。但是对于工业过程中非线性较强的情况, p l s 算法往往不能满足要求。a n n 方法是非线性软测量方法中应用最普遍的一种, 但成熟的的商业化软件包还不多见。s v m 和g p 算法都是比较新的方法,具有诸多 优点,但是相关的很多方法还停留在理论研究和计算机仿真阶段,距离开发出相 应的商业化软件包还需要一段时间。 一2 4 浙江大学硕:t 学位论文 第三章基于g r i n 聚类算法和l s s v m 的在线 软测量建模 摘要针对软测量数据按照工况点聚类和存在数据老化的实际情况,本章对 g r i n 聚类算法做了些改进,并提出了一种基于g r i n 聚类算法和最小二乘支持向 量机( l s s v m ) 的在线软测量建模方法一g r i n l s s v m 。该方法先通过改进的g r i n 聚类算法结合c h a m e l e o n 算法动态聚类,然后分别对各子聚类用l s s v m 建模, 所建多模型每次处理完测试数据后,重新聚类、建模,实现模型自动更新。将该 模型用于加氢裂化分馏过程轻柴油馏出温度的软测量建模,结果证明能够有效提 高模型的泛化能力和预测精度。 关键词g r i n 聚类算法;c h a m e l e o n 算法;最小二乘支持向量机;软测量 3 1 引言 软测量建模过程中,不同输入变量的采样误差和对象特性各不相同,因此采 用单模型建模会导致模型学习时间过长、精度和泛化能力差等问题。研究表明结 合聚类算法进行多模型建模能够提高模型精度和鲁棒性,也有很多学者将多模型 方法应用于软测量建模【8 3 , 8 4 】。但是由于化工过程数据具有慢时变、非线性、数据 老化、工况转换等特点,且建立的软测量模型大多为静态模型,使得很多模型在 线应用效果不够理想。 由于通常的聚类算法不能有效的使软测量数据样本按照工况点进行聚类,在 线聚类应用效果不理想,而且会影响多模型建模的效果。针对这种情况,本章提 出一种改进的g r i n 在线聚类算法,其通过改进的g r i n 聚类算法【8 5 】结合 c h a m e l e o n 【8 6 1 合并算法来实现。 g r i n 聚类算法是一种基于物理学上的引力原理( g r a v i t y t h e o r y ) 的增量式层次 聚类算法( h i e r a r c h i c a lc l u s t e r i n ga l g o r i t h m ) 。通过g r i n 聚类算法,任意形状的数 据集可以被分割为一系列均匀分布的球形子聚类【8 5 】。为了描述不同的辅助变量对 一2 5 一 , 浙江大学硕士学位论文 工况点影响大小的不同,聚类算法采用权重距离公式,使得聚类算法能更好地描 述样本按工况点聚类的特性。由于g r i n 聚类算法的聚类结果经常出现大量小球 形子聚类间杂分布在大的球形子聚类周围的情况,本算法通过引入c h a m e l e o n 合 并算法合并非孤立的小球形子聚类,提高聚类质量。 1 9 9 5 年,v a p n i k 提出支持向量机算法( s u p p o av e c t o rm a c h i n e ) ,通过引入核 函数,将低维线性不可分空间转化为高维线性可分空间,应用对偶原理将原问题 变为二次规划求最优分类超平面问题,避免了局部极小、过拟合等问题,且适合 小样本建模,具有更强的泛化能力。不同于以往基于经验风险最小化原则的建模 方法,s v m 基于结构风险最小化原则,经过严格的数学推导,具有坚实的理论基 础。 2 0 0 1 年,s u y k e n 在v a p n i k 的支持向量机算法基础上提出了一种改进的支持向 量机算法一最小二乘支持向量机( k a s ts q u a r e ss u p p o r tv e c t o rm a c h i n e ) 1 8 7 1 ,提高了 计算速度,更适合在线软测量建模。 本章结合改进的g r i n 聚类算法和最小二乘支持向量机算法,提出一种新的 在线多模型软测量建模方法- g r i n l
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年上市公司股权转让合同模板
- 2025简易车间租赁合同协议书模板
- 2025年国际工程承包项目贷款合同协议书范本
- 2025年学校教学楼翻新工程合同范本
- 2025年网络广告投放合同协议书
- 《教学课件:探索数字信号处理中的滤波技术》
- 家庭医疗服务协议书
- 合同续签补充协议
- 律师多人合伙协议书
- 授信协议合同
- 家族办公室公司章程
- 2024年度保密教育线上培训考试题库新版
- 【9道三模】2024年安徽省合肥市蜀山区中考三模道德与法治试题(含解析)
- 敲墙搬运合同范本
- (高清版)JTGT 5190-2019 农村公路养护技术规范
- 小学生必背古诗“飞花令”200句
- 2024年3月青少年软件编程Scratch图形化等级考试试卷一级真题(含答案)
- 浙江省强基联盟联考2023-2024学年高一下学期5月联考语文试题(含答案)
- 2024年福建省漳州市中考二模化学试题
- 华为绿色运营管理与可持续发展
- 2024年辅警招聘考试试题库含完整答案(各地真题)
评论
0/150
提交评论