




已阅读5页,还剩86页未读, 继续免费阅读
(控制科学与工程专业论文)基于强化学习算法的发酵过程多目标优化.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
q j j 蓉 学位论文数据集 中图分类号t p 2 7 3 学科分类号 5 1 0 8 0 1 0 论文编号 l o o l 0 2 0 1 1 0 8 3 3密级公开 学位授予单位代码 1 0 0 1 0 学位授予单位名称北京化工大学 作者姓名宋天恒学号2 0 0 8 0 0 0 8 3 3 获学位专业名称控制科学与工程获学位专业代码 0 8 l l o l 智能算法在复杂系统控 课题来源自选课题研究方向 制与优化的应用 论文题目 基于强化学习算法的发酵过程多目标优化 关键词 q 1 e a m i n g 算法、多步q 1 e a n l i n g 算法、分批补料过程、多目标优化 论文答辩日期2 0 1 1 年5 月2 7 日论文类型 基础研究 学位论文评阅及答辩委员会情况 姓名职称工作单位学科专长 指导教师李大字副教授北京化工大学复杂系统建模与优化 评阅人l张贝克教授北京化工大学系统仿真 评阅人2崔玉龙 副教授北京化工大学电力电子技术应用 评阅人3 评阅人4 评阅人5 答辩委员蝴李宏光教授 北京化工大学 智能控制 答辩委员1陈娟教授北京化工大学过程控制、电力电子 答辩委员2张贝克教授北京化工大学系统仿真 答辩委员3崔玉龙副教授北京化工大学电力电子技术应用 答辩委员4曹政才副教授北京化工大学智能控制 答辩委员5夏涛副教授北京化工大学 计算机技术 注:一论文类型:1 基础研究2 应用研究3 开发研究4 其它 二中图分类号在中国图书资料分类法查询。 三学科分类号在中华人民共和国国家标准( g b 厂r1 3 7 4 5 9 ) 学科分类与代码中查 询。 四论文编号由单位代码和年份及学号的后四位组成 51 册8 唧77舢8 删1聊y 摘要 基于强化学习算法的发酵过程多目标优化 摘要 分批补料发酵过程的反应特点包括强非线性、时间滞后、参数时 变性以及生物状态量难以实时测量等,对产物、底物和时间消耗进行 直接的在线控制非常困难。因此,离线优化成为了改善各个生产指标 的主要手段。另外,这种复杂的优化包含有多个不可比较的甚至是互 相矛盾的目标。这种优化问题需要得到p a r e t o 最优解集,即进行基于 p a r e t o 的优化。 另一方面,分批补料发酵过程中还有3 5 个单独的控制回路用于 控制p h 值、温度和溶氧等状态量,同样要面对发酵反应的复杂性问 题。这种情况下传统的控制算法也不能取得很好的效果。 近年来,智能算法在复杂系统的控制与多目标优化发展迅速。作 为应用最广泛的一种强化学习算法,q 一1 e 锄i n g 算法具有结构简单、 无需先验知识、需整定参数少等优点,适合复杂系统优化和无模控制。 本文提出了一种基于p a r e t o 的离散化q 1 e a m i n g 多目标优化策略 ( p d q l ) ,用于求解赖氨酸分批补料发酵过程的p a r e t o 最优流加速率 轨迹,以获得最优的生产指标。q 1 e 锄i n g 算法与p a r e t o 排序法相结 合用于产生非支配解集,逐步逼近真实的p a r e t o 前沿,并利用多组不 同初始位置,同时共享搜索经验的a g e n t 共同搜索以增强并行搜索能 力。优化结果与粒子群算法结合聚集函数法进行了对比,结果显示 北京化工大学硕士学位论文 p d q l 策略可以得到更多数量的解并具有更好的分布性。此外,针对 发酵过程中的中和反应控制与温度控制设计了一种多步q 1 e 锄i n g 控 制器,利用q 1 e 锄i n g 算法可进行无模控制的特点,重新设计误差的 状态集,以克服发酵过程的反应复杂性。实验结果与p i d 控制进行了 对比,证明了新控制器的有效性。 关键词:q - l e a m i n g 算法,多步q l e a m i n g 算法,分批补料发酵过程, 多目标优化 i i a b s t ra c t m u l t i o b j e c t i v eo p t i m i z a t i o nf o rf e d _ b a t c hf e r m e n t a t i o n p r o c e s sb a s e do nr e i n f 0 r c e m e n tl e a r n i n g a b s t r a c t t h ef e a t u r e so ft h ef e d - b a t c hf e m e n t a t i o np r o c e s sc o n t a i ns t r o n g n o n l i n e a r i 咄t i m e - v a 咖n gp a r a m e t e r s ,l a r g et i m ed e l a y s ,a n dc o m p l i c a t e d r e a l t i m em e a s u r e m e n to f b i o l o g i c a l s t a t ev a r i a b l e s t h u s , o n l i n e c o n t l 0 1 1 i n gt h e 如e l d ,s u b s t r a t ea n dt i m ec o n s u m p t i o nd i r e c t l yi sd i 硒c u l t o p e r a t i n go m i n eo p t i m i z a t i o nb e c o m e sam a i nm e t h o dt oi m p r o v e v 撕o u s 6 b je c t i v e so fp r o d u c t i o n f u r d l e r t h e c o m p l e xo p t i m i z a t i o n i n v o l v e s m u l t i p l e , i n c o m m e n s u r a b l ea n dc o n n i c t i n go b j e c t i v e s s u c h p r o b l e m st y p i c a l l ya l l o wi m m e r o u ss o l u t i o n st 0e x i s t ,w h i c hm e a n s c o n s t m c t i n gp a r e t o - b a s e do p t i m i z a t i o n o nt h eo m e rh a j l d ,i nf e d - b a t c hf e m e n t a t i o np r o c e s s ,m e r ea r e3 5 s 印a r a t el o o p sf o rc o n t r o l l i n gp h ,t e m p e r a t u r e ,d i s s o l v e do x y g e na n d o t h e rs t a t ev a r i a b l e s ,w h i c ha l s of a c et h ec o m p l e x i 够o ft h ef e r m e n t a t i o n 陀a c t i o n i nt h i sc a s e ,t r a d i t i o n a lc o n t r o la l g o d t h mc a n n o ta c h i e v eg o o d r e s u l t i n t e l l i g e n ta l g o r i t h mu s e di nc o m r 0 1a n dm u l t i - o b j e c t i v eo p t i m i z a t i o n o fc o m p l e xs y s t e mi si nr a p i dd e v e l o p m e n t a so n eo ft h em o s tw i d e l y i i i 北京化工大学硕士学位论文 u s e dr e i n f o r c e m e n t1 e a m i n ga l g o r i m m s ,q l e a n l i n gh a st h ea d v a n t a g e so f s i m p l es t m c t u r e ,l e 锄i n gw i t h o u tp r i o r ik n o w l e d g e , a n dw i t hf e w e r t l l n i n gp a r a m e t e r s ,w h i c hi ss u i t a b l ef o rc o m p l e xs y s t e mo p t i m i z a t i o na n d m o d e l f e ec o n t i 0 1 i nt h i s p a p e r , a d e s i g n o fap a r e t o - b a s e dd i s t r i b u t e d q l e a m i n g o p t i m i z a t i o ns t r a t e g y ( p d q l ) i sp r e s e n t e dt os o l v ep a r e t oo p t i m a ln o w r a t et r 旬e c t o r i e sf o rt h el y s i n ef e d - b a t c hf e n n e n t a t i o np r o c e s s ,i no r d e rt o o b t a i no p t i m a lp r o d u c t i o nt a 玛e t s t h eq l e a m i n ga l g o r i t l l i l la n dp a r e t o s o r t i n gm e t h o dw e r ec o m b i n e dt og e n e r a t et h en o n d o m i n a t e ds o l u t i o ns e t a n dt om a k et h i ss e t 印p r o x i m a t et h ea c t u a lp a r e t o 行o m t h es t r a t e g yi n t h i s p 印e r e 1 1 1 1 a i l c e s p a r a l l e l - s e a r c h i n gc a p a b i l i 吼w i t ht h eh e l po f m u l t i p l er a n d o m l yi n i t i a l i z e dg r o u p so fa g e n t s t h e s ea g e n t ss h a r et h e e x p e r i e n c et oi m p r o v et h ep e r f o m a n c eo fq l e a m i n go p t i m i z a t i o n t h e r e s u l to fp d q l o p t i m i z a t i o nw a sc o m p a r e dt op s ow i t ht h ea g g r e g a t e d 如n c t i o nm e t h o d i tg e n e r a t e sm u c hl a 玛e rs o l u t i o ns e tw h i c hi si nb e t t e r d i s t r i b u t i o nc h a r a c t e r i s t i c sa n di sm o r ec l o s et om ep a r 吼。自o n td i r e c t i o n s i na d d i t i o n ,f o rn e u t r a l i z a t i o nc o n t r o la n dt e m p e r a t u r ec o n t r o li n f e m e n t a t i o nr e a c t i o n ,am u l t i - s t 印q 一1 e a m i n gc o n t r o l l e ri s d e s i g n e d 晰t hm e r e - d e s i g i lo ft h ee m r s t a t ea n dt h ea d v a n t a g eo f q l e a m i n ga b l e t oa c h i e v em o d e l - 骶ec o n t r o l ,t h i sc o n t l o l l e ro v e r c o i n e st h ec o i n p l e x 埘 o ff e m e n t a t i o np r o c e s s t h er e s u l t sa r ec o n l p a r e dw i t ht h ep i d c o n t l 0 1 1 e r , a n dp r o v et h ee 虢c t i v e n e s so f 也en e wc o n t r o l l e r a b s t ra c t k e yw o l m s : q - l e a m i n g ,m u l t i s t 印q l e a m i n g , f e d b a t c h f e r m e n t a t i o np r o c e s s ,m u l t i o b je c t i v eo p t i m i z a t i o n v 一 一 北京化工大学硕士学位论文 目录 目录 第一章绪论1 1 1 引言1 1 2 强化学习的发展与现状1 1 3q l e a m i n g 算法的基本知识3 1 3 1m a r k o v 决策过程3 1 3 2 奖赏策略3 1 3 3q 值函数4 1 3 4 动作选择机制5 1 3 5q l e a n l i n g 基本步骤6 1 3 6q 1 e 锄i n g 的优缺点6 1 4 补料分批发酵过程概述6 1 4 1 补料分批发酵过程7 1 4 2 发酵过程的一般特点7 1 4 3 分批补料发酵过程的多目标优化问题8 1 5q l e a m i n g 算法在优化与控制中的应用9 1 6 本文的主要工作1 0 第二章离散化q 1 e a r n i n g 算法的p a r e t o 优化策略1 3 2 1 引言13 2 2p d q l 优化策略13 2 2 1 基于q 1 e 锄i n g 的优化策略13 2 2 2 非支配集的构建方法1 5 2 2 3 优化策略的步骤1 7 2 3p d q l 的函数优化测试1 9 2 3 1 单一目标函数测试结果2 0 2 3 2f o n s e c a 函数测试2 3 2 3 3 e i l i l e t 函数测试2 6 2 3 4 e l l i l e t ( 3 ) 函数测试2 7 2 3 5d c b 如2 ) 函数测试2 7 2 4 本章小结31 第三章赖氨酸补料分批发酵过程多目标优化3 3 v i i 北京化工大学硕士学位论文 3 1 引言3 3 3 2 赖氨酸补料分批发酵过程模型3 3 3 3 优化目标与优化解3 5 3 4 优化步骤与比较算法3 8 3 5 优化结果与分析4 0 3 6 本章小结4 3 第四章多步q 1 e a r n i n g 算法在发酵过程控制回路中的应用4 5 4 1 引言4 5 4 2 多步q l e a n l i n g 控制器4 5 4 2 1 多步q 1 e 锄i n g 算法4 5 4 2 2 多步q 1 e 锄i n g 控制器设计4 7 4 3 多步q 1 e 姗i n g 控制器在中和反应中的应用4 9 4 3 1 中和反应对象模型5 0 4 3 2 控制器设置5 l 4 3 2 控制结果与分析5 2 4 4 多步q l e 锄i n g 控制器在温度控制中的应用5 3 4 4 1 酿酒酵母发酵过程温度控制模型5 4 4 4 2 温度控制器设置5 7 4 4 2 控制结果与分析5 8 4 5 本章小结6 l 第五章结论与展望6 3 参考文献6 5 致 谢6 9 研究成果及发表的学术论文7 1 作者简介7 3 v i i i c 枷t e i l t s co n t e n t s c h a p t e r 1i n t r o d u c t i o n l 1 1i i l 缸0 d u c t i o n l 1 2t h er e s e 锄c hl l i s t o r i c a la n d a c t l l a l i t yo f r c i n f o r c 伽 1 e n t1 e a m i n ga l g o r i t l l m 1 1 31 1 1 eb a s i c 砸n c i p l eo fq - l e 锄i n g 3 1 3 1m 孤k o vd e c i s i o np r o c e s s 3 1 3 2r e w a r ds t r a t e 星。3 1 3 3qv a l u e 如n c t i o n 4 1 3 4a c t i o ns e l e c t i o nm e d l a m s m 5 1 3 5s t 印so fq l e a m i n g 6 1 3 6a d v a i l t a g ea i l dd i s a d v 觚t a g eo fq - l e 踟:1 i n g 6 1 4o v e r v i e wo ff e d - b a t c h 觚e n t a t i o np r o c e s s 6 1 4 1f e d b a t ( 沮f e n n e n t a t i o np r o c e s s 。7 1 4 2f e a t u r e so ff ;e n i l e n t a i o np r o c e s s 7 1 4 3 m u l t i o b j e c t i v eo p t i m i z 撕o np r o b l 锄 f o rf e d b a t c hf a l l l e n t a i t i o n p r o c e s s 8 1 5a p p l i c a t i o no fq j e 锄i n gf o ro p t i m i z a t i o na n dc o n t r o l 9 1 。6t h em a i nw o r ko fm i sp a p e r lo c h a p t e r2p a r e t o - b a s e dd i s t r i b u t e dq l e a r n i n go p t i m 娩a t i o n1 3 2 2p d q l o p t i m i z a t i o ns t i a t e 舒。1 3 2 2 1o p t i m i z a t i o ns t r a t e g yb 髂e do nq 一1 e 锄i n g 13 2 2 2c o n s t n l c t i o no f n o n - d o m i n a t e ds e t 15 2 2 3s t 印so fo p t i i l l i z a t i o ns t r a t e g y 17 2 3f 埘:l 以o nt e s to f p d o l 1 9 2 3 1f u n c t i o nw i 廿ls i n g l eo b j e c t i e 2 0 2 3 2f o n s e c a 丘m c t i o nt e s t 2 3 2 3 3v i e n n e tf i u n c t i o nt e s t 2 6 2 3 4 e l l i l e t ( 3 ) 劬c t i o nt e s t 2 7 2 3 5d e b 反砣) 缸1 c t i o nt e s t 。2 7 2 7c o n c l u s i o n 3 1 北京化工大学硕士学位论文 c h a p t e r 3 m u l t i o b je c t i v eo p t i m i z a t i o n f o r l y s i n e f e d - b a t c h f e r m e n t a t i o np r o c e s s 3 3 3 1l n 缸d d u c t i o n 3 3 3 2m o d e lo fl y s i n ef j 耐- ba t i c hf e 肌e i l t a i o n 3 3 3 3o p t i m i z a t i o no b j e c t v ea n ds o l u t i o n 3 5 3 4s t 印so fo p t i m i z a t i o na n d c o i n p a r e da l g o 订t l l l i l 3 8 3 5o p t i m i z a t i o nr e s u l t 锄da i l a l y s i s 4 0 3 6c o n c l u s i o n 4 3 c h a p t e r4a p p l i c a t i o no fm u l t i s t e pq - l e a r n i n g1 0 rc o n t r o ll o o p si n f b r m e n t a i o np r o c e s s 4 5 4 1h l t r o d u c t i o n 4 5 4 2m u l t i s t 印q 一1 e m i n gc o n t r o l l e r 4 5 4 2 1m u l t i s t 印q l e a m i n ga l g o d t h m 4 5 4 2 2d e s i 盟o fm u l t i s t 印q l e a n l i n ga l g o r i t h nc o n 臼0 l l e r 4 7 4 3a p p l i c a t i o no f 枷【u l t i - s t 印q - l e a 瑚i i i l gc o n t r o l l e rf o rn e u t r a l i z a t i o np r o c e s s 4 9 4 3 1m o d do f n e u n i a l i z a t i o np r o c e s s 5 0 4 3 2c o n t r o l l e rs e t t i n g 5l 4 3 3c o n t r o lr c s u l t 觚da l l a l y s i s 5 2 4 4a p p l i c a t i o no f m u l t i s t 印q - l e a m i n gc o n t r o l l e rf o rt 翎1 p r e t u r ec o n t r o l 5 3 4 4 1m o d e lo fy e a s tf 伽n t a i o np r o c 鼯s 5 4 4 4 2c o n 仃d u e rs e 啦i n g 5 7 4 4 3c o n n o lr e s u l ta i l da n a l y s i s 5 8 4 7c o n c l u s i o n 6l c h a p t e r5c o n c l u s i o n 6 3 r e f b r e n c e 6 5 a c k n o w l e d g e m e n t 6 9 x c b n t e l l t s r e s e a r c ha c h i e v e m e ta n dp a p e rp u b s h e d 7 l b r i e f i n t r o d u c t i o no f a u t h o ra n dt l i t o r 7 3 北京化工大学硕士学位论文 x i i 第一章绪论 1 1 引言 第一章绪论 人工智能是一门研究如何利用人工的方法去模拟和实现人类智能的学科。由 于不同学者思考方式和研究应用领域的不同,对人工智能本质的研究形成了符号 主义、联结主义和行为主义三大学派【。其中行为主义( a c t i o i l i s m ) 的研究基于控 制论和“感知动作”控制系统。行为主义认为人工智能起源于控制论,提出智 能是源于感知和行为,取决于智能体对环境的适应。强化学习( r e i n f o r c e m c i l t l e 锄i n g ,r l ) 是行为主义学派的一种重要方法。 强化学习算法的基本结构如图1 所示,其实现的方式是a g e n t 与环境不断地 进行交互作用,按照一定的策略来执行动作,从环境的奖赏回报中获得学习的“经 验”,从而获得最大的积累奖赏,并通过最优动作序列改变环境的状态向最终状 态转移。 动作q 状态函 图1 1 强化学习算法的学习原理图 f i g 1 - ln el e 锄i i l gs c h 锄a t i co fr e i n f o r c 锄e n t1 e 锄i i l ga 1 9 0 枷m 强化学习与有监督学习不同,是“试误 学习技术的一种,a g e n t 选择与执 行动作依据完全通过与环境交互作用来获得反馈的评价信息,即算法中所表现出 的奖赏策略。图1 1 中表明了强化学习的迭代过程。首先a g e n t 感知环境的状态, 按策略选择某一动作,执行该行为后环境即发生状态转移,同时反馈给a g e n t 即 时奖赏,a g 饥t 则根据该奖赏以及环境当前所处的状态来选择下一个动作,并通 过内部的更新机制记忆对于环境的学习经验。 1 2 强化学习的发展与现状 强化学习思想最早出自t h o m d i k e 于1 9 1 1 年提出的“效应定律”( l a wo f e 腩c t ) 中。该思想是“试误 学习最早的表述。其本质是强调在特定的环境下,行为的 结果有优劣之分并成为行为选择的依据,同时指出能够导致正的回报的行为选择 北京化工大学硕士学位论文 概率将增加,而导致负回报的行为选择概率将降低。这一思想揭示了强化学习的 基本原理:智能系统根据感知到的环境状态尝试各种动作,并获得各动作对该状 态的适应度评价信号( 通常是奖励信号或惩罚信号) 。智能系统不断调整从状态到 动作的映射关系以获得较大的奖励或较小的惩罚,最终学会在各种环境下采取最 好的反应式动作。 上世纪5 0 7 0 年代是研究强化学习的早期阶段。19 5 4 年,m i n s k y 等人提出了 s n a r c s ( s t o c h a s t i cn e u r a l a n a l o gr e i n f o r c e m c i l tc a l c u l a t o r s ) 的强化学习计算模 型【2 】,开始了对“试误 学习的研究,并首次使用了提出了“强化 和“强化学 习”这样的术语,另外还在1 9 6 1 年讨论了包括信任分配问题在内的几个与强化学 习相关的问题【3 1 。1 9 5 5 年,f 耐e y 和c 1 破开始由“试误 学习转向泛化和模式识 别的研究【4 1 。在1 9 6 5 年左右,w a l t z 、付京孙和m e n d e l 等等学者也在文献中引用 了相关的概念。r o se 1 1 _ b l a 位、w i d r o w 和h o f f 等研究神经网络的专家在这一时期也 开始研究强化学习。在应用方面,m i c h i e 建立了一种叫做m a t c h b o xe d u c a b l e n o u g h t s 觚dc r o s s e se n 西n e 的强化学习系统【5 】,进行游戏规则学习。 但是,此阶段研究主要的问题是这些学者把强化学习和监督学习混为一谈。 直到1 9 7 3 年,w i d r o w 等人在研究监督学习时,认识到监督学习和强化学习之间 的不同,并于同年由w i d r o w ,g u p t a 和m a i 舰改正了w i d r o w - h o f j f 】监督学习规则 ( l m s 规则) ,即根据环境反馈的奖赏和惩罚进行学习,代替原来的教师信号, 他们用“有评价的学习”一词代替“有教师的学习”。同年,以t s e n i n 等人提出 了具有联想的学习自动机。 8 0 年代之后,随着计算机技术的飞速进步,从硬件上为强化学习的可计算性 提供了可能,直接促进了强化学习的进一步发展。这一阶段的发展源于b e l l m 觚 提出的马尔可夫决策过程( m a r k o vd e c i s i o np r o c e s s e s ,m d p ) ,即最优控制问题的 离散统计模式【6 】。1 9 8 3 年,b a m 在倒立摆实验中将强化学习应用于控制领域中【7 1 。 19 8 4 年s 谢o n 基于b a n o 的理论将其发展为自适应启发式评价算法【8 】( a d a p t i v e h e u 晒s t i cc r i t i c ,a h c ) ,成为了强化学习中的一个重要算法。1 9 8 8 年s u 位0 n 又提 出了强化学习中至关重要的时间差分算法【9 1 ( t e m p o r a ld i 侬l m c e ,t d ) 。1 9 8 9 年, w a 瞄n s 在t d 和动态规划的理论基础上提出了q l e 锄i n g 算法并随后证明了 q 1 e a n l i n g 的收敛性【l o l l 】,成为了强化学习中另一个经典算法。 目前对于强化学习算法研究几乎都是有关a h c 算法、t d 算法和q 1 e 锄i n g 算 法的改进。如r l 】m m e r y 提出的依赖策略的s a r s a 算法【1 2 】、s u 钍o n 提出的基于模型 的d y i l a - q l e a m i n g 算法【1 3 】、m a l l a d e v a l l 提出的基于平均强化值的算法r 1 e a n :l i i l 一1 4 】 以及j i n gp e i l g 等人利用多步折扣奖赏总和为基础的多步q 1 e 啪i n g 算法【1 5 】等。 总的来说,目前所研究的强化学习改进算法主要是面对两个问题:一是为了 2 第一章绪论 保证算法的收敛性,要使得奖赏策略与实际最优策略所能得到的回报尽量接近, 这需要合理的奖赏策略和动作选择策略以使得强化学习算法可以准确的逼近问 题的最优策略;二是要加快学习速度,提高经验值的使用的效率,般依靠设置 状态集以及高效准确的评价函数来实现。另外就算法本身的研究来说,目前和今 后的重点方向将会是多目标强化学习、学习任务建模、与其他算法进行结合、拓 展在实际领域的应用等方面。 1 3q - l e a r n i n g 算法的基本知识 1 3 1m a r k o v 决策过程 q 1 鲫n n i n g 算法属于表格型强化学习算法。这一类算法应用值函数表格化存 储的方式学习、记录并不断刷新记忆和经验,以此完成a g e n t 对环境的认识与改 变。q 1 e a m i n g 算法的前提条件是对象应具有m a r k o v 性,可用m a r k o v 决策过程 模型进行描述i l 酬。 假设一个系统可由一个四元组q 彳,只胗进行表示,其中的s 指系统可能 所处的状态s 的集合;彳是指a g e n t 可能执行的所有动作口的集合;,是指在某 一状态戳下,如果a g e n t 选择执行了动作鲰,那么在此情况下状态将会转移到s m 的概率加b 双+ j ) 的集合;足为a g e m 在& 选择执行了动作鲰之后a g e m 所能接 受的奖励集合。假定从o 时刻开始,a g e n t 按照状态动作奖赏的顺序与系统进行 交互作用,那么所有的事件序列为:印,伽,o ,s l ,口l ,1 ,酞,口k ,k 。在 此情况下,若满足: 以勺( 口) 2p ( j ,。s mh 2 & ,4 = 口i )( 1 - 1 ) 即下一状态和奖赏仅取决于上一状态和动作,而与再之前的事件无关,则称该系 统具备m 卅( o v 性。具有m a r k o v 性的系统在a g e n t 进行动作决策序列时,不必考 虑系统是如何来到现在的状态,当前的状态和状态转移概率已经完全决定了后续 的结果。 1 3 2 奖赏策略 q l e 撇i n g 算法的目的是使一个具有m 破o v 性的系统,通过q 1 e a n l i n g 算法 产生最优动作序列,向着确定的学习目标变化。为了实现这一过程,需要利用奖 赏策略为a g e n t 提供系统对执行动作的反馈。而a g e n t 的目标是获得尽可能多的 积累奖赏,然而一般的系统都具有随机性,并不能完全准确的确定积累奖赏的值, 3 北京化工大学硕士学位论文 所以,这一指标利用回报的期望函数来表示,称为期望奖赏函数。常见的期望奖 赏函数有四种形式: ( 1 ) 有限域模型:该模型是对未来时间t 内的所有奖赏值做简单的求和: 三 置= e ( 1 2 ) 七= o ( 2 ) 无限域折扣模型:对于目前的执行动作来说,距离现在时刻越远的奖赏影响 力越小,基于这种前提条件,该时刻之后的所有奖赏值按距离该时刻的距离乘以 不同的折扣因子后求和,即可得到无限域折扣模型: ( 1 - 3 ) 式中,) ,( o ,1 ) 是未来奖赏值的折扣因子。) ,的值越大,表示越重视未来的奖赏。 当) i = 1 时,即成为有限域模型,折扣因子失效;尸o 时,表示只针对当前一步的 即得奖赏。标准的q l e 釉i n g 算法和多步q - l e a n l i n g 算法的奖赏值即基于此模型。 ( 3 ) 有限域折扣模型:在实际情况下无法真实的计算出现无限域折扣模型,通常 是利用有限域折扣模型进行近似: ( 1 - 4 ) ( 4 ) 平均奖赏模型:这是r 1 e 枷i n g 算法所采用的奖赏模型,该模型计算的是未来 无限步的奖赏平均值: 1 3 3q 值函数 弘舰去参榭 ( 1 - 5 ) 在q l e 锄i n g 算法中,q 值称为状态- 动作对的值函数。通过q 值可以直接 评价和记忆该状态下执行某个动作的适合程度。也就是说,利用表格型存储的q 值来关联动作、状态和期望奖赏函数。同时,动作的确定也是以查q 值列表的 方式为基础。对于状态j 和动作口来说,其q 值的定义如下: q ”( s ,口) = 五0 ris ,= s ,口,= 口)( 1 6 ) 式( 1 6 ) 表示q 值的含义是在动作策略万下,处于状态s 并执行动作口后所得到 的奖赏期望值。在q l e 锄i n g 算法中,q 值的计算采用的是迭代形式。文献 1 1 】 中对于q 值迭代的推导结果如下: 4 、,+“ 七 y 。脚 ,t e l l r 、,+“l 七 y r 枷 ,- t e = r 第一章绪论 q ”( j ,4 ) = 瑶【彤+ y 万( s ,口) q 4 ( s ,口) 】 ( 1 - 7 ) j e 一 式( 1 7 ) 称为b e l l m 觚方程。通过该方程可以看出q 1 e a n l i n g 的目的是确定最优的 动作策略万,使得在该策略下所对应的所有q 值函数能够取得最大值。将万作 用下对应的最优q 值表示为q 。,则可得最优b e l l m 锄方程: q ”( j ,口) = 瑶【彤+ 7 1 搿q + ( s ,口) 】 ( 1 - 8 ) 当系统通过一定的动作选择机制与环境不断交互,则可根据式( 1 8 ) 完成q 值的 更新。设当前时刻a g e n t 所处状态为曲,选择动作嘶执行,系统在下一时刻状态 转移至j 州,并且得到了即得的奖赏协l ,则对应的一个q 值更新公式如下: q ( s ,口,) 卜q ( s ,口f ) + ,n + l + 7 m 楚q ( s f + l ,口f + 1 ) 一q ( ,口,) 】( 1 9 ) 其中的,( o ,1 ) 称为学习速率,取值越大则收敛越快,但是过大的取值会造成不 易收敛。 当进行了一定次数的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 纹眉基础知识
- 老旧小区立项方案范本
- 环保风机防腐施工方案
- 内蒙古艺术学院《即兴伴奏(Ⅱ)》2023-2024学年第一学期期末试卷
- 水电防坑改造施工方案
- 重庆师范大学《纳米生物技术》2023-2024学年第二学期期末试卷
- 苏州健雄职业技术学院《化工设计基础》2023-2024学年第二学期期末试卷
- 潞安职业技术学院《岩土工程设计》2023-2024学年第二学期期末试卷
- 《基础数据分析与应用》课件
- 营口职业技术学院《环境与可持续发展》2023-2024学年第二学期期末试卷
- 机械CAD、CAM-形考任务一-国开-参考资料
- 省考试录用公务员面试通知书
- 第9课《美丽的颜色》说课稿 2024-2025学年统编版语文八年级上册
- 制造业劳务外包质量控制制度
- DB11∕T 864-2020 园林绿化种植土壤技术要求
- 《飞向太空的航程》名师课件
- 表面技术概论化学转化膜
- 2025年哈尔滨市中考数学模拟试卷(附答案解析)
- 各行业安全风险分级管控清单
- 父母赠与现金合同范本
- T-CPA 006-2024 造纸用湿强剂 聚酰胺环氧氯丙烷PAE
评论
0/150
提交评论