




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第七章动态规划动态规划的基本方法动态规划应用举例1动态规划什么是动态规划解决多阶段决策过程最优化的一种数学方法。动态规划的形成产生于20世纪50年代。1951年美国数学家贝尔曼(R.Bellman)等人,根据一类多阶段决策问题的特点,把多阶段决策问题变换为一系列互相联系的单阶段问题,然后逐个加以解决。与此同时,他提出了解决这类问题的“最优性原理”,研究了许多实际问题,从而创建了解决最优化问题的一种新的方法——动态规划。动态规划的应用在工程技术、企业管理、工农业生产及军事等部门中都有广泛的应用,并且获得了显著的效果。2清华大学出版社动态规划动态规划在企业管理中的主要应用领域最优路径问题资源分配问题生产调度问题库存问题装载问题排序问题设备更新问题生产过程最优控制问题等等
动态规划是求解某类问题的一种方法,是考查问题的一种途径,而不是一种特殊算法(如线性规划是一种算法)。因而,它不像线性规划那样有一个标准的数学表达式和明确定义的一组规则,而必须对具体问题进行具体分析处理。3清华大学出版社第8章动态规划的基本方法
第1节多阶段决策过程及实例第2节动态规划的基本概念和基本方程第3节动态规划的最优性原理和最优性定理第4节动态规划和静态规划的关系5清华大学出版社第1节多阶段决策过程及实例例1最短路线问题
给定一个线路网络,两点之间连线上的数字表示两点间的距离(或费用),试求一条由A到G的铺管线路,使总距离为最短(或总费用最小)。6清华大学出版社第1节多阶段决策过程及实例多阶段决策过程在生产和科学实验中,有一类活动的过程,由于它的特殊性,可将过程分为若干个互相联系的阶段,在它的每一个阶段都需要作出决策,从而使整个过程达到最好的活动效果。因此,各个阶段决策的选取不是任意确定的,它依赖于当前面临的状态,又影响以后的发展。当各个阶段决策确定后,就组成了一个决策序列,因而也就决定了整个过程的一条活动路线。这种把一个问题可看作是一个前后关联具有链状结构的多阶段过程就称为多阶段决策过程,也称序贯决策过程。7清华大学出版社第2节动态规划的基本概念和基本方程例1中求A到G的最短路线问题是动态规划中一个典型例子。现通过讨论它的解法,说明动态规划方法的基本思想,并阐述有关基本概念。由图8-2可知,从A点到G点可以分为6个阶段。在第一阶段,A为起点,终点有B1、B2两个,因而这时走的路线有两个选择,一是走到B1;一是走到B2,若选择走到B2的决策,则B2就是第一阶段决策的结果。它既是第一阶段路线的终点,又是第二阶段路线的始点。在第二阶段,再从B2点出发,有一个可供选择的终点集合{C2,C3,C4};若选择由B2走至C2,则C2就是第二阶段的终点,同时又是第三阶段的始点。递推下去可看到:各个阶段的决策不同,路线就不同。显然,当某阶段的始点给定后,会影响后面各阶段的行进路线和整个路线的长短,而后面各阶段路线的发展不受这点以前各阶段决策的影响。故此问题的要求是:在各个阶段上选则一个恰当的决策,使得由这些决策组成的一个决策序列所决定的一条路线是总路程最短的一条。9清华大学出版社2.1动态规划的基本概念
1.阶段把所给问题的过程,恰当地分为若干个相互联系的阶段,以便能按一定的次序去求解。描述阶段的变量称为阶段变量,常用k表示。阶段的划分,一般是根据时间和空间的自然特征来划分,但要便于把问题的过程能转化为多阶段决策的过程。如例1可分为6个阶段来求解,k分别等于1、2、3、4、5、6。10清华大学出版社2.1动态规划的基本概念
2.状态状态表示每个阶段开始所处的自然状况或客观条件,它描述了研究问题过程的状况,又称不可控因素。在例1中,状态就是某阶段的出发位置。它既是该阶段某支路的起点,又是前一阶段某支路的终点。通常一个阶段有若干个状态,第一阶段有一个状态就是点A,第二阶段有两个状态,即点集合{B1,B2},一般第k阶段的状态就是第k阶段所有始点的集合。11清华大学出版社2.1动态规划的基本概念3.决策决策表示当过程处于某一阶段的某个状态时,可以作出不同的决定(或选择),从而确定下一阶段的状态,这种决定称为决策。在最优控制中也称为控制。描述决策的变量,称为决策变量。它可用一个数、一组数或一向量来描述。常用uk(sk)表示第k阶段当状态处于sk时的决策变量。它是状态变量的函数。在实际问题中,决策变量的取值往往限制在某一范围之内,此范围称为允许决策集合。常用Dk(sk)表示第k阶段从状态sk出发的允许决策集合,显然有uk(sk)∈Dk(sk)。13清华大学出版社2.1动态规划的基本概念3.决策如在例1第二阶段中,若从状态B1出发,就可作出三种不同的决策,其允许决策集合D2(B1)={C1,C2,C3},若选取的点为C2,则C2是状态B1在决策u2(B1)作用下的一个新的状态,记作u2(B1)=C2。14清华大学出版社2.1动态规划的基本概念4.策略策略是一个按顺序排列的决策组成的集合。由过程的第k阶段开始到终止状态为止的过程,称为问题的后部子过程。由每段的决策按顺序排列组成的决策函数序列称为k子过程策略,简称子策略,记为,即当k=1时,此决策函数序列称为全过程的一个策略,简称策略,记为,即在实际问题中,可供选择的策略有一定的范围,此范围称为允许策略集合,用P表示。从允许策略集合中找出达到最优效果的策略称为最优策略。15清华大学出版社2.1动态规划的基本概念6.指标函数和最优值函数用来衡量所实现过程优劣的一种数量指标,称为指标函数。它是定义在全过程和所有后部子过程上确定的数量函数。常用Vk,n表示,即对于要构成动态规划模型的指标函数,应具有可分离性,并满足递推关系。即Vk,n可以表示为sk、uk、Vk+1,n的函数,记为在实际问题中很多指标函数都满足这个性质。17清华大学出版社2.1动态规划的基本概念(1)过程和它的任一子过程的指标是它所包含的各阶段的指标的和。即其中表示第j阶段的阶段指标,这时上式可写成(2)过程和它的任一子过程的指标是它所包含的各阶段的指标的乘积。即这时就可写成 常见的指标函数形式18清华大学出版社2.1动态规划的基本概念指标函数的最优值,称为最优值函数,记为。它表示从第k阶段的状态sk开始到第n阶段的终止状态的过程,采取最优策略所得到的指标函数值。即“opt”是最优化(optimization)的缩写,可根据题意而取min或max。19清华大学出版社2.2动态规划的基本思想和基本方程根据最短路线这一特性,寻找最短路线的方法,就是从最后一段开始,用由后向前逐步递推的方法,求出各点到G点的最短路线,最后求得由A点到G点的最短路线。所以,动态规划的方法是从终点逐段向始点方向寻找最短路线的一种方法。下面按照动态规划的方法,将例1从最后一段开始计算,由后向前逐步推移至A点。21清华大学出版社2.1动态规划的基本概念22清华大学出版社2.2动态规划的基本思想和基本方程当k=6时,由F1到终点G只有一条路线,故。同理,当k=5时,出发点有三个。若从E1出发,则有两个选择①至F1,②至F2,则其相应的决策为这说明,由E1至终点G的最短距离为7,其最短路线是23清华大学出版社2.2动态规划的基本思想和基本方程当k=4时,有当k=3时,有当k=2时,有当k=1时,出发点有一个A点,则且。于是得到从起点A到终点G的最短距离为18。
25清华大学出版社2.2动态规划的基本思想和基本方程为了找出最短路线,再按计算的顺序反推之,可求出最优决策函数序列,即由组成一个最优策略。因而,找出相应的最短路线为
26清华大学出版社2.2动态规划的基本思想和基本方程在求整个问题的最优策略时,由于初始状态是已知的,而每段的决策都是该段状态的函数,故最优策略所经过的各段状态便可逐次变换得到,从而确定了最优路线。如例1最短路线问题,初始状态A已知,则按下面箭头所指的方向逐次变换有从而可得最优策略为{u1(A),u2(B1),…,u0’(F2)},相应的最短路线为29清华大学出版社2.2动态规划的基本思想和基本方程求解最短路问题的标号法——逆序解法30清华大学出版社2.2动态规划的基本思想和基本方程求解最短路问题的标号法——顺序解法31清华大学出版社2.2动态规划的基本思想和基本方程动态规划的方法比穷举法有以下优点:(1)减少了计算量。计算例1若用穷举法,就要对48条路线进行比较,运算在计算机上进行时,比较运算要进行47次;求各条路线的距离,即使用逐段累加方法,也要进行6+12+24+48+48=138次加法运算。用动态规划方法来计算,比较运算(从k=5段开始向前算)共进行3+3+4+4+1=15次。每次比较运算相应有两次加法运算,再去掉中间重复两次(即B1→C1,B2→C4各多算了一次),实际只有28次加法运算。可见,动态规划方法比穷举法减少了计算量。而且随着段数的增加,计算量将大大地减少。(2)丰富了计算结果。在逆序(或顺序)解法中,我们得到的不仅仅是由A点(或G点)出发到G点(或A点)的最短路线及相应的最短距离,而且得到了从所有各中间点出发到G点(或A点)的最短路线及相应的距离。这就是说,求出的不是一个最优策略,而是一族的最优策略。32清华大学出版社2.2动态规划的基本思想和基本方程建立动态规划模型的五个要点:(1)将问题的过程划分成恰当的阶段;(2)正确选择状态变量sk,使它既能描述过程的演变,又要满足无后效性;(3)确定决策变量uk及每阶段的允许决策集合Dk(sk);(4)正确写出状态转移方程;(5)正确写出指标函数的关系,它应满足下面性质:①是定义在全过程和所有后部子过程上的数量函数;②要具有可分离性,并满足递推关系。即
33清华大学出版社2.2动态规划的基本思想和基本方程所以,得到动态规划逆序解法的基本方程:边界条件为式中求解过程,根据边界条件,从k=n开始,由后向前逆推,从而逐步可求得各段的最优决策和相应的最优值,最后求出时,就得到整个问题的最优解。34清华大学出版社2.2动态规划的基本思想和基本方程动态规划顺序解法的基本方程
边界条件为式中求解过程:根据边界条件,从k=1开始,由前向后顺推,逐步求得各段的最优决策和相应的最优值,最后求出,就得到整个问题的最优解。35清华大学出版社第3节动态规划的最优性原理和最优性定理动态规划的最优性原理:“作为整个过程的最优策略具有这样的性质:即无论过去的状态和决策如何,对前面的决策所形成的状态而言,余下的诸决策必须构成最优策略。”
简言之,一个最优策略的子策略总是最优的。动态规划的基本方程或者说最优性定理才是动态规划的理论基础
36清华大学出版社第4节动态规划和静态规划的关系相同点动态规划、线性规划和非线性规划都属于数学规划范围,研究对象本质上都是求极值问题,都是利用迭代法去逐步求解。不同点线性规划和非线性规划研究的问题通常与时间无关,故又称为静态规划。线性规划迭代中的每一步是就问题的整体加以改善的。动态规划研究的问题与时间有关,研究具有多阶段决策过程的一类问题,将问题的整体按时间或空间的特征分成若干个前后衔接的时空阶段,把多阶段决策问题表示为前后有关联的一系列单阶段决策问题,然后逐个加以解决,从而求出整个问题的最优决策序列。对于某些静态问题,也可以人为地引入时间因素,把它看作是按阶段进行的一个动态规划问题,这就使得动态规划成为求解某些线性、非线性规划的有效方法。37清华大学出版社第4节动态规划和静态规划的关系动态规划方法逆序解法顺序解法关键:正确写出动态规划的递推关系式逆推形式,当初始状态给定时,用逆推比较方便顺推形式,当终止状态给定时,用顺推比较方便38清华大学出版社第4节动态规划和静态规划的关系考查如图所示的n阶段决策过程。其中取状态变量为决策变量为。在第k阶段,决策xk使状态sk(输入)转移为sk+1(输出),设状态转移函数为假定过程的总效益(指标函数)与各阶段效益(阶段指标函数)的关系为
其中记号٭*都表示为+,或都表示为×。问题是:使达到最优化,即求,为简单起见,不妨此处就求39清华大学出版社第4节动态规划和静态规划的关系4.1逆推解法设已知初始状态为s1,并假定最优值函数fk(sk)表示第k阶段的初始状态为sk,从k阶段到n阶段所得到的最大效益。40清华大学出版社第4节动态规划和静态规划的关系例3用逆推解法求解下面问题解:按问题的变量个数划分阶段,把它看作为一个三阶段决策问题。设状态变量为s1,s2,s3,s4,并记s1=c;取问题中的变量x1,x2,x3为决策变量;各阶段指标函数按乘积方式结合。令最优值函数fk(sk)表示为第k阶段的初始状态为sk,从k阶段到3阶段所得到的最大值。设 41清华大学出版社第4节动态规划和静态规划的关系用逆推解法,从后向前依次有及最优解由得和(舍去),而,故为极大值点。最优解由所以42清华大学出版社第4节动态规划和静态规划的关系像前面一样利用微分法易知故由于已知而按计算的顺序反推算,可得各阶段的最优决策和最优值。
43清华大学出版社第4节动态规划和静态规划的关系即
由
所以
所以
因此得到最优解为 最大值为 由
44清华大学出版社第4节动态规划和静态规划的关系4.2顺推解法设已知终止状态sn+1,并假定最优值函数fk(sk+1)表示第k阶段末的结束状态为sk+1,从1阶段到k阶段所得的最大收益。已知终止状态sn+1用顺推解法与已知初始状态用逆推解法在本质上没有区别,它相当于把实际的起点视为终点,实际的终点视为起点,而按逆推解法进行的。换言之,只要把图8-6的箭头倒转过来即可,把输出sk+1看作输入,把输入sk看作输出,这样便得到顺推解法。但应注意,这里是在上述状态变量和决策变量的记法不变的情况下考虑的。
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年上半年合肥市市直事业单位公开招聘工作人员笔试总笔试历年典型考题及考点剖析附带答案详解
- 2025企业安全培训考试试题含完整答案(各地真题)
- 2025年公司项目部安全培训考试试题加解析答案可打印
- 2025学校食堂蔬菜采购合同模板
- 2025合同撤销的法律后果
- 2025年个体工商户买卖合同模板
- 2025生产制造外包服务合同
- 2025销售顾问劳动合同模板AA
- 2025停车场建设合同范本模板
- 2025年度合同协议范本
- AQ/T 2059-2016 磷石膏库安全技术规程(正式版)
- 青岛超银中学2022-2023学年七年级下学期阶段性调研地理试题【带答案】
- 2024年安徽省初中(八年级)学业水平考试初二会考生物+地理试卷真题
- 火针疗法在皮肤科:国际视角
- 4000m3d制药废水计算书
- 越剧古装衣介绍
- 人事行政工作成功典范总结
- 英国皇室文化课件
- 咯血个案护理
- 第6课+呵护花季+激扬青春【中职专用】《心理健康与职业生涯规划》(高教版2023基础模块)
- 博士生入学复试面试报告个人简历介绍(完美版)模板两篇
评论
0/150
提交评论