现代控制理论第9章动态规划法_第1页
现代控制理论第9章动态规划法_第2页
现代控制理论第9章动态规划法_第3页
现代控制理论第9章动态规划法_第4页
现代控制理论第9章动态规划法_第5页
已阅读5页,还剩40页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第九章 动态规划法 动态规划法是求解控制变量限制在一定闭集内的最优控制问题的又一种重要方法,它是由美国学者贝尔曼于1957年提出来的。动态规划法把复杂的最优控制问题变成多级决策过程的递推函数关系,它的基础及核心是最优性原理。本章首先介绍动态规划法的基本概念,然后讨论如何用动态规划法求解离散及连续系统的最优控制问题。第一节 动态规划法的基本概念一、多级决策过程 所谓多级决策过程是指把一个过程分成若干级,而每一级都需作出决策,以便使整个过程达到最佳效果。为了说明这个概念,首先讨论一个最短路线问题的例子。 设有路线图如图7-1所示。现在要从 地出发,选择一条最短路线最终到达 地,其间要通过 等中间站

2、,各站又有若干个可供选择的通过点,各地之间的距离已用数字标注在图中。由此可见,通过这些中间站时,有多个方案可供选择。AFBCDE、 、 、 解决这类问题有两种方法:1.探索法(穷举法) 将至的所有可能的路线方案都列举出来,算出每条路线的路程,进行比较,找出最短路线。直观可知,这种方法是很费时的,如本例共有38条路线可供选择。如果中间站及各站可供选择的通过点都增为10个,则可供选择的路线将急剧增至1010条,显然计算工作量将急剧增加。2. 分级决策法将整个过程分成若干级,逐级进行决策。具体过程如下: 将 至 全程分为五级:第一级由 至 ;第二级由 至 ;第三级由 至 ;第四级由 至 ;第五级由

3、至 。让我们由后向前逐级分析,先从第五级开始,其起点为 ,终点为 。 至 各只有一条路线,并无选择余地。 至 路程为1, 至 路程为2。第四级起点为 ,终点为 ,其间有六条路线,由 至 的各种可能路线为:AFA123,B B B BB123,B B B123,C C C C123,C C C C123,D D D D123,D D D D12,E E E12,E E EF12,E E EF12,E EF1EF2EF123,D D D D12,E E EFD1112212231324152246 179211718527DEFDEFDEFDEFDEFDEF 可以发现,如果从 出发,则走 为最短,

4、因此 至 应选 这段路线,称为决策。同理,如果从 出发,应决策 ;从 出发,应决策 。可见作此决策时不能只从本级路程长短出发,应考虑两级路程之和为最短。在整个路线问题中,究竟 哪一点作为起点,则取决于第三级的决策,不过提出的三条可能的最短路线为第三级的决策积累了数据资料。1D12DEF1DE12DE2D21DE3D32DE123DDD, 可见同样方法来分析第三级,其起点为 ,终点为 ,按题意共有八条路线。但是, 至 的最短路线已在第四级讨论中确定,因此 的路线选择问题,实际上只是选定级 的路线问题(即本级决策问题)。因此, 至 只有八条路线,分别为123,C C C CD123,D D D12

5、3DDD,FCDFCDCF21212212111221222331323314557128412471167134484711279EEEEEEEECDFCDFCDFCDFCDFCDFCDFCDF 比较可得分别从 出发时的三条最短路线,它们为: ; ; 。 123,C C C211ECDF ;122ECDF231ECDF 用同样方法,依次对 级及 级进行讨论,其结果列于表7-1。最后得到最短路线为BCAB2112ABCDEF相应最短路程为: 。*14J 通过上例的讨论,可以看到多级决策过程具有以下特点: 把整个过程看成(或人为地分成) 级的多级过程。 采取逐级分析的方法,一般由最后一级开始倒向

6、进行。n 在每一级决策时,不只考虑本级的性能指标的最优,而是同时考虑本级及以后的总性能指标最优,因此它是根据“全局”最优来作出本级决策的。 从数学观点,分级决策法与穷举法进行比较:穷举法:全程五级线路,每一级都可任选,因此全部路程相当于一个“五变量函数”,求全程最短实质上是求这个“五变量函数”的极小值。分级决策法: 分成五级,从最后一级开始进行分级决策时,每级都是一个“单变量函数”,因此进行每一级决策时,实际上是求一个“单变量函数”的极小值。因此多级决策法把一个求“五变量函数”的极值问题转化成为一个五组求“单变量函数”的极值问题。这组实际解题带来极大好处,使计算工作量在为减少。以前面举的十级中

7、间站并各站具有十个通过点的路线问题为例,用多级决策法只需920次计算,这与1010次相比要少得多。 在最后一级开始倒向逐级分析中,我们发现,由于各站的起始点并未确定,因此需要把各中间站的所有通过点作为出发点进行计算,并将所有对应的最佳决策存进计算机,建立起一个完整的“档案库”,因此要求计算机有相当大的容量。 (6)第一级起始条件(地)是确定的,因此只有逐级倒向分析到第一级时,才能作出确定的第一级决策,然后再根据第一级决策顺向确定各级的起始条件(各站的通过点),这时由于“档案库”中存有全部“资料”,因此用“查档”的方法就可逐级确定决策。由此可见,一般情况下,多级决策过程包括两个过程:倒向“建档”

8、及顺向“查档”,而大量的计算工作是花费在建立“档案库”上。二、最优性原理 在前例的分级决策过程中,实际上已应用了这样一个基本原理:设一个过程由 点开始,经 点到达 点,如图9-2所示,如果 为最优过程,则 段也必定是一个最优过程。我们把这原理叙述如下:abcabcbc 一个最优决策具有这样的性质,不论初始状态和初始决策怎样,其余的决策对于第一次决策所造成的状态来说,必需构成一个最优决策。称此为最优性原理。它也可简单地叙述为:最优轨迹的第二段,本身亦是最优轨迹。 最优性原理是动态规划法的基础和核心。动态规划法就是对一个多级过程,应用最优性原理,进行分级决策,求出最优控制的一种数学方法。3、 多级

9、决策过程的函数方程 应用动态规划法求解过程的最优决策时,首先要根据最优性原理将多级决策过程表示成如下数学表达式: 级决策过程始点 处所采取的控制决策,从而使状态转移到下一步 。式中 级决策过程的始点 至终点 的最小消耗;kkwxkkxix 由 级决策过程始点 至下一步到达点 的一步 消耗;1,kkid xxkkx1,kixkkx1,kixkiu1,11,min,kikkkkikkiuwxd xxwx(9-1) 上式表明,为使 级决策过程达到最小消耗,第一级决策应根据两部分消耗之和最小的原则作出。第一部分 是第一级决策的一步消耗,第二部分 为由下一步到达点 作起点至终点的最小消耗。式(7-1)称

10、为多级决策过程的函数方程,它是最优性原理的数学表达形式。在上述路线问题中, 至 的四级决策过程的函数方程可表示成:k1,kkid xx11,kkiwx1,kix2BF式中: 四级过程的起点; 由 出发到达下一步 站的某个可能通过点,它 可能为 或 ; 由 至 站的路线选择(本级决策);2BiC4iu2BC12CC、3C2BC44223min,iiiuwBd B CwC(9-2) 由 至 之间的路程; 从 至 终点的最短路程。2,id B C2BiC3iwCiCF由表7-1可知2131223223334593 11145813d BCwCd BCwCd BCwC, 三者进行比较,由此作出第一级决

11、策为 即应选 路线。这时 最小路程为 。4,1u21BC2BF429wB 函数方程是一个递推方程,一般说来,难于获得解析解,需要用数 字计算机求解。第二节 动态规划法解离散系统的 最优控制问题 设系统状态方程为 式中, 为 维状态向量, 为 维控制向量,设 为每一步转移中的性能指标。 kxn kum kkJ xu, 10,1,1kkkkNxf xu,(9-3)第一步,系统初始状态 在 作用下转移至 ,即 0 x 0u 1x 要求选择控制 ,使 达最小。这是一个一级决策过程。 0u 00J xu, 100 xf xu,(9-4)这时,第一步的性能指标为: 100JJxu,(9-5) 20011J

12、JJxuxu,(9-6) 第二步,系统在 作用下由 转移到 ,转移中的性能指标为 ,则两步转移的总性能指标为: 1u 1x 211xf xu, 11J xu, 11J xu, 这里,因为 已知,而 ,因此在上述两步转移的总性能指标中,只有 及 未知。现在要求选择 及,使两步性能指标达极小。这就是二级决策问题。 0 x 100 xf xu, 0u 1u 0u 1u 依次类推,系统状态由 作起点进行 步转移,则 步转移的总性能指标为: 0 xNN 现在要求选择 使性能指标 达最小,这就是 级决策问题。我们可以应用动态规划法来求解。根据最优性原理,对 级最优决策过程来说,不论第一级控制向量 怎样选定

13、,余下的 级过程,从 产生的状态 作为起点,必须构成 级最优过程。 011k uuu, ,NJNN 0u 0u1N 100 xf xu,1N 10001111NNkJJJNNJkkJxuxuxuxu,(9-7) 如果我们用 表示 级过程的性能指标的极小值, 表示 级过程性能指标的极小值,则我们就可以列写出级决策过程的函数方程为: 0Nw xN 11Nwx1N 由此可见,第一级决策实质上是函数 10000NwJ xuf xu, 对第一级的控制决策 求极值的问题。求解递推方程(9-8),就可解得最优控制决策 。 0u 011k uuu, , 100min0000NwwuxJ xuf xu,(9-8

14、)例9-1 设离散系统状态方程为: 10,1,1kkkkNxxu初始条件为 ,控制变量 不受限制,性能指标为 0 xu 11122220NNkNkJcxu求最优控制 ,使 达最小。 *kuJ解: 为简单起见,设 ,则这是一个二步控制问题,性能指标 可表示成: 2N 2222111201222Jcxuu首先考虑最后一步,即由某状态 出发到达 的一步,如采用控制 ,则有 1x 2x 1u 221211112122xxuJcxu或 221111Jc x 1u 1u (1)Jx 1u 122求最优控制使 为极小 ,则有 1u1J 111101Jc xuuu解得: 111cxuc可见 为 的函数。相应的

15、最优性能指标及 为 1u 1x 2x 21minx1cJ2 1c 121xxc再考虑倒数第二步,即由初始状态 出发到达 的一步,如采用控制 ,则有 0 x 1x 0u 100 xxu 22min1min02202201min0211min022 11min00022 1ccccuuuJuJxuuxu令 2210000022 1ccuxuu有 0012cc xu相应的最优性能指标及 为: 1x 22min02 1 2ccxJ 11012ccxx最后得最优控制为: *00011212cccc xxuu,最优轨线为: *01001021212cccxxxxxx,最优性能指标为: 2*02 12ccx

16、J上述离散型动态规划可近似地用来求解连续系统的最优控制问题。设连续系统状态方程为: 00tttxf xutx tx,(9-9) ft 给定,性能指标为: u tU(9-10) 0fffFttJx ttx tu tt dt,(9-11) 求最优控制 ,使 为最小。 *utJ 由于函数方程是一个递推方程,故特别适合于求解离散系统的最优控制问题。为此要把连续过程问题转化成一个多级决策过程。首先将时间间隔 分成 段,每段为 ,为使尽量符合连续过程的实际情况, 应取足够大, 取足够小。接着应将连续状态方程进行离散化,使之用下列有限差分方程来近似表示:0ftt,NN1kkkkk xxf xu,(9-12)

17、 故 1kkkkkxxf xu,(9-13) 这样,就把研究连续过程问题近似转化成了 级决策过程。下面就可按离散过程一样建立函数方程,用递推求解方法逐级进行最优决策,求出最优控制序列来。N 10NkNNFkkkJxxu,(9-14) 这里,假设在每段时间 内, 及 保持常值。同时,将积分型的性能指标用以下序列和的形式来近似 kx ku第三节 动态规划法解离散线性二次型问题设离散线性系统状态方程为: 1kkkkkxAxBu(9-15) 性能指标为二次型 10NTTTiNNJxSxxi Q i x iui R i u i(9-16) 式中, 均为对称矩阵, 为正定矩阵, 为正半定矩阵。求最优控制序

18、列 使 为最小。SQR、 、RQS、 *011N uuu, ,J 现在我们用动态规划法来求解。从初始端开始,经过 级决策得到的最优性能指标可表示为N 100 0minNTTTNuiwNNxxSxxi Q i x iui R i u i,(9-17) 10minNTTTN kuiwkkNNxxSxxi Q i x iui R i u i,(9-18) 根据最优性原理,可以建立函数方程如下:如果过程是从第 级开始至终产端,则这一段的最优性能指标可表示为:k 1min11TTN kN ku kwkkkkkkkkwkk xxQxuRux,假设二次型问题的最优性能指标为状态的二次函数: TN kwkkk

19、kkxxPx,(9-20) 上式对 成立,代入式(9-19)得: 0,1,1kN min( ) ( ) ( )(1) (1) (1)TTN ku kTTwkkkkkkkkuk R k u kxkP kx kxxQxuRu,(9-21) 将系统状态方程代入,得: min1TTN ku kTTTTwkkkkkkkkkkkkkkkkkkxxQxuRuxAuBPAxBBu,(9-22) u设 不受约束,则令 21210TTkkkkkkkkk RBPBBPAxu(9-23) 可得: 1*11TTkkkkkkkkkkk uBPBRBPAxGx(9-24) 式中 111TTkkkkkkkkGBPBRBPA

20、现在需要确定,将 式(9-24)代入式(9-22),并利用 的假设,则式(9-22)可写成: kP TN kwkkkkkxxPx, 11TTTTTTTTkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkk xPxxQxGxRGxxABGPABGxxQGRGABGPABGx(9-26) 上式对任意状态变量都满足,由此可得离散系统的黎卡提方程 1TTkkkkkkkkkkkkPQGRGABGPABG(9-27) 第四节 动态规划法解连续系统的最优控制问题 用离散动态规划法求解连续系统最优控制问题时,可能会由于离散化过程而造成一定误差。应用最优性原理,对连续系统也可建立起相应的函数方程,

21、经过变换,最后得到一个一阶非线性偏微分方程,解之可得连续形式的最优控制即最优决策。设连续系统状态方程为 00tttxf xutx tx, u tU(9-28) (9-29) 性能指标为 0fffJFdtttx ttx tu tt,(9-30) 求最优控制 ,使为最小。 *ut我们知道,对应最优控制 及最优轨线 ,性能指标将取极小值,且为系统初始状态 及初始时刻 的函数,以表示,则可写成: *ut *xt 0 x0t*00minwJJu Uxtxuxu,(9-31) 000minfffwFdttu Uxtx ttxutt, ,(9-32) 这里, 与 的关系受系统动态方程约束。将指标函数的表示式

22、代入,则*u*x显然ffffwx ttx tt,(9-33) 设时刻 在区间 内,则根据最优性原理,从 到 这一段过程必须构成最优过程,这一段过程的性能指标极小值可表示为 t0ftt,tft将 这段最优过程分成二步,第一步 由 到, 是一很小的时间间隔,第二步由 至 ,于是有0ftt,tttft 0minfffwFdttu Ux ttx ttxu, ,(9-34) minffwFdFdttttu Ux ttx ttxuxu, , ,(9-35) 根据最优性原理,从 到 这一段过程也应当构成最优过程,其性能指标极小值可表示为:tft这样,式(9-35)就变成:minfffwFd ttu Ux t

23、tx ttxu, ,(9-36) minwFdwttu Ux ttxux tt, ,(9-37) 因为 很小,上式可写成: minwFtwu Ux ttxux tt, ,(9-38) 将 用台劳级数展开wx tt, 2Twwww x ttx ttxxt,(9-39) 式中, 为二次及二次以上各项,代入式(9-38)得:2 2minTwwwFw u Ux ttxutx ttxxt, ,(9-40) 由于 不是 的函数,从而 亦不是 的函数,因此不受最小化运算的影响,可从最小化运算符号析出,于是有 wx tt,uwtu 2minTwwwFw u Ux ttxutxx ttxt, ,(9-41) 0

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论