第七章 运筹学 动态规划2_第1页
第七章 运筹学 动态规划2_第2页
第七章 运筹学 动态规划2_第3页
第七章 运筹学 动态规划2_第4页
第七章 运筹学 动态规划2_第5页
已阅读5页,还剩66页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第六章 动态规划n多阶段的决策问题n最优化原理与动态规划基本方程n离散确定型动态规划模型的求解n连续确定型动态规划模型的求解n一般数学规划模型的动态规划求解法n背包问题n教学目的与要求:使学生学会利用多阶段问题的决策思想处理一些简单的实际问题,并会用WinQSB求解动态规划.n重点与难点:重点是离散型资源分配问题;难点是动态规划建模和求解方法.n教学方法:从多阶段最短路引入基本概念和数学模型,再讲解离散型DP和连续型DP.n思考题,讨论题,作业:本章习题.n参考资料:见前言.n学时分配:6学时.前言:动态规划是最优化的一个分支,它是解决多阶段决策过程最优化的一种方法.动态规划的创始人是美国数学

2、家贝尔曼(R.Bellman).它在四十年代后期和五十年代初期在美国兰德公司工作,针对一些多阶段决策问题提出了解决这类问题的最优化原理,并在1957年出版了动态规划的第一本书Dynamic programming.在企业管理方面,动态规划可以解决库存问题,资源分配问题,设备更新问题,运输问题,生产过程最优控制问题.它的弱点是,根据最优化原理建立的动态规划基本方程,尚无统一的解法,而要根据其数学结构灵活处理;此外,变量个数不能太多,否则计算量太大,这称为维数问题.第一节 多阶段决策问题及实例 所谓多阶段决策问题,是指一个大问题可以划分为若干个阶段,每个阶段形成一个子问题,各个阶段是互相联系的,每

3、个阶段都要作出决策,并且一个阶段的决策确定以后会影响下一阶段的决策,从而影响整个过程的活动路线.各个阶段所确定的决策构成一个决策序列,称为一个策略,对于不同的策略其效果不同(效果可以用数量来衡量).多阶段决策问题就是选择一个最优策略,使在给定的标准下达到最好的效果.典型例题:例1 多阶段网络的最短路2511214106104131112396581052C1C3D1AB1B3B2D2EC2状态1状态2状态3状态4终点1阶段2阶段3阶段4阶段例题特点: 阶段:如图的阶段,分为四段; 状态:顶点; 决策:选弧; 转移:从一个顶点走到另一个顶点; 目标:路长最短.例2 资源分配问题设有数量x的某种资

4、源,将它投入两种生产A,B.若以y投入生产A,剩下的x-y投入生产B,则收入函数为g(y)+h(x-y),如果生产后可以回收再生产,其回收率分别为0a,b1,则在第一阶段生产后回收的总资源为 再将 投入生产A,B,若以 分别投入生产A,B则又可得收入 因此两阶段的总收入为),(1yxbayx1x111,yxy),()(111yxhyg).()()()(111yxhygyxhyg如果上面的过程进行了n个阶段,而且我们希望选择 使n个阶段的总收入最大,问题变为121,nyyyy. 1, 2 , 100)()()()()()()()()(max22211112111111nixyxyyxbayxyx

5、bayxyxbayxyxhygyxhygyxhygiinnnnnnn满足条件例题特点: 阶段:年(月) 状态:资金数 决策:分配给A的资金数iy 转移:. 1, 2 , 1),(2221nnyxbayxnnnn 效益:n个阶段的总收入最大第二节 最优化原理与动态规划基本方程一. 动态规划的基本概念阶段(stage):是指一个问题需要作出决策的步骤,用k表示阶段数,k称为阶段变量.通常以时间作为阶段变量.状态(state):状态表示在任一阶段所处的位置,通常一个阶段有若干个状态,描述过程状态的变量称为状态变量,第k阶段的状态变量用 表示.状态变量取值的全体称为状态空间或状态集合.ks在例1中各阶

6、段的状态变量集合如下:第一阶段状态变量第二阶段状态变量第三阶段状态变量第四阶段状态变量终点E1s As 12s3212,BBBs 3s3213,CCCs 4s214,DDs E注意:状态变量是动态规划中最关键的一个参数,它既反映前面各阶段决策的结局,又是本阶段作出决策的出发点,状态是动态规划问题各阶段信息的传递点和结合点.决策(decision):决策是指某阶段状态给定后,从该阶段演变到下一阶段某状态的选择.决策变量 表示第k阶段状态为 时对方案的选择. 表示k阶段状态为 时决策允许的取值集合.例如:例1中)(kksxks)(kksDks.,)(32112CCCBD策略(policy)和子策略

7、(subpolicy):动态规划问题各阶段决策组成的序列总体称为一个策略.,)(,),(),(2211nnsxsxsx是n个阶段DP的一个策略.)(),(),(11段起的子策略是从ksxsxsxnnkkkk状态转移律:从 的某一状态值出发,当决策变量 的取值决定后,下一阶段状态变量 的取值也随之确定.这种从上一阶段的某一状态值到下一阶段某一状态值的转移规律称为状态转变移律.可表示为ks)(kksx1ks).,(),(,(11kkkkkkkxsTssxsTs或指标函数(index function):指标函数是用来衡量实现过程优劣的一种数量指标.它是从状态出发至过程最终,当采取某种策略时,按预定

8、标准得到的效益值,这个值既与 有关,又与 以后所选取的策略有关,它是两者的函数,称为过程指标函数,记为特别地,仅第k阶段的指标函数,可记为ksksks).,(11,nkkkknksxsxsV),(kkkxsv最优指标函数:是指对某一确定状态选取最优策略后得到的指标函数值,也就是对应某一最优子策略的某种效益度量,这个度量值可以是成本,产量,距离等等.对应于从状态出发的最优子策略的效益值记为ksnkkkoptVsf,)(其中optimization是最优化的意思,在具体问题中,可以是最小化(min)也可以是最大化(max).二.最优化原理与动态规划基本方程贝尔曼(R.Bellman)最优化原理:作

9、为整个过程的最优策略具有这样的性质,无论过去的状态和决策如何,对先前决策所形成的状态而言,余下的诸决策必构成最优策略.根据这一原理,计算动态规划问题的递推关系式(逆序法)称为动态规划基本方程:0)()(),()(11111 , 2, 1,),(nnkkkkknnksDxkksfsfxsvoptsfkkk其中, 称为边界条件.f0)(11nnsf用动态规划求解例1:2511214106104131112396581052C1C3D1AB1B3B2D2EC2动态规划基本方程为:. 0)()(),(min)(55111 , 2, 3 , 4),(sfsfxsdsfkkkkkksDxkkkkk2511

10、214106104131112396581052C1C3D1AB1B3B2D2EC2f5(E)=02511214106104131112396581052C1C3D1AB1B3B2D2EC2f4(D1)=5f5(E)=0505)E(f)ED(d)D(f5114ED 1最优决策2511214106104131112396581052C1C3D1AB1B3B2D2EC2f4(D2)=2f5(E)=0f4(D1)=5202)E(f)ED(d)D(f5224ED 2最优决策2511214106104131112396581052C1C3D1AB1B3B2D2EC2f4(D2)=2f5(E)=0f3(C

11、1)=8f4(D1)=5112421141113DC8118min2953min)D(f)D,C()D(f)D,C(min)C(f最优决策2511214106104131112396581052C1C3D1AB1B3B2D2EC2f4(D2)=2f5(E)=0f3(C2)=7f4(D1)=5f3(C1)=8222422141223DC7711min2556min)D(f)D,C()D(f)D,C(min)C(f最优决策2511214106104131112396581052C1C3D1AB1B3B2D2EC2f4(D2)=2f5(E)=0f3(C3)=12f4(D1)=5f3(C1)=8f3(

12、C2)=7232423141333121213min21058min)(),()(),(min)(DCDfDCDfDCCf最优决策2511214106104131112396581052C1C3D1AB1B3B2D2EC2f4(D2)=2f5(E)=0f3(C3)=12f4(D1)=5f2(B1)=20f3(C2)=7f3(C1)=81133312321131112CB20222120min1210714812min)C(f)C,B()C(f)C,B()C(f)C,B(min)B(f最优决策2511214106104131112396581052C1C3D1AB1B3B2D2EC2f4(D2)

13、=2f5(E)=0f3(C3)=12f4(D1)=5f2(B1)=20f3(C2)=7f3(C1)=81133312321131112CB20222120min1210714812min)C(f)C,B()C(f)C,B()C(f)C,B(min)B(f最优决策2511214106104131112396581052C1C3D1AB1B3B2D2EC2f4(D2)=2f5(E)=0f3(C3)=12f4(D1)=5f2(B3)=19f3(C2)=7f3(C1)=8f2(B1)=21f2(B2)=142333332323131332CB19231921min1211712813min)C(f)C

14、,B()C(f)C,B()C(f)C,B(min)B(f最优决策2511214106104131112396581052C1C3D1AB1B3B2D2EC2f4(D2)=2f5(E)=0f3(C3)=12f4(D1)=5f2(B3)=19f3(C2)=7f3(C1)=8f1(A)=19f2(B2)=14f2(B1)=2123232221211BA19201923min191145212min)B(f)B,A()B(f)B,A()B(f)B,A(min)A(f最优决策2511214106104131112396581052C1C3D1AB1B3B2D2EC2f4(D2)=2f5(E)=0f3(C

15、3)=12f4(D1)=5f2(B3)=19f3(C2)=7f3(C1)=8f1(A)=19f2(B2)=14f2(B1)=21状态 最优决策 状态 最优决策 状态 最优决策 状态 最优决策 状态A ( A,B2) B2 (B2,C1) C12511214106104131112396581052C1C3D1AB1B3B2D2EC2f4(D2)=2f5(E)=0f3(C3)=12f4(D1)=5f2(B3)=19f3(C2)=7f3(C1)=8f1(A)=19f2(B2)=14f2(B1)=21状态 最优决策 状态 最优决策 状态 最优决策 状态 最优决策 状态A ( A,B2) B2 (B2

16、,C1) C1 (C1,D1) D12511214106104131112396581052C1C3D1AB1B3B2D2EC2f4(D2)=2f5(E)=0f3(C3)=12f4(D1)=5f2(B3)=19f3(C2)=7f3(C1)=8f1(A)=19f2(B2)=14f2(B1)=21状态 最优决策 状态 最优决策 状态 最优决策 状态 最优决策 状态A ( A,B2) B2 (B2,C1) C1 (C1,D1) D1 (D1,E) E从A到E的最短路径为19,路线为AB 2C1 D1 E 第三节 离散确定型动态规划模型的求解例2 资源分配问题:某公司有五套先进设备,需分配给下属的甲,

17、乙,丙三个工厂,各工厂得此设备后每年为公司上缴的利润如下表,问如何分配可使公司获得最大利润?甲 乙 丙 0 1 2 3 4 5 0 0 0 3 5 4 7 10 6 9 11 11 12 11 1213 11 12解:将问题按三个工厂分为三个阶段,即k=1,2,3.,个工厂的设备台数个工厂至第表示分配给第用nksk,个工厂的设备台数表示分配给第用kxk.11个工厂的设备台数至第个工厂为分配给第状态转移律nkxsskkk.)(的盈利值个工厂所得台设给备分配给第表示kxxpkkk.)(工厂所得的最大盈利值个个工厂至第台设备分配到第表示nkssfkkk根据最优化原理得出动态规划基本方程:0)()()

18、(max)(44113 , 2, 1),(sfsfxpsfkkkkksDxkkkkk动态规划的求解方法通常是采取逆序解法,即从第三阶段向前推导.0 1 2 3 4 5 0 1 2 3 4 50 4 6 11 12 12 0 4 6 11 12 12 0 1 2 3 4 5 3s3x)(33xp)(33sf3x. 5 , 4 , 3 , 2 , 1 , 0,)(max)(,333335 , 4, 3 , 2, 1 , 0333xsxpsfks决策变量全部分给丙工厂台设备其中时1表0 1 2 3 4 5 0 1 2 3 4 500+4 5+00+6 5+4 10+00+11 5+6 10+4 11

19、+00+12 5+11 10+6 11+4 11+00+12 5+12 10+11 11+6 11+4 11+0 0 5 10 14 16 2101221,222x2s)()(22322xsfxp)(22sf2x. 5 , 4 , 3 , 2 , 1 , 0,5 , 4 , 3 , 2 , 1 , 0,222xsk乙厂的决策为工厂个台设备分配给乙和丙两时2表0 1 2 3 4 5 50+21 3+16 7+14 9+10 12+5 13+0210,21x1s)()(11211xsfxp)(11sf1x.,5, 5,11三个工厂丙乙台设备分配给甲即把只有时sk3表最优方案一:甲厂0台,乙厂2台,

20、丙厂3台;最优方案二:甲厂2台,乙厂2台,丙厂1台.最大盈利值为21万元.第四节 连续确定型动态规划模型的求解例3 (p179例7.4).,),(7)(),(10)(%,100109%,10032,10020益最大使三年的总收两项工作的机器数分配每年用于试确定三年内如何万元万元台中若本章例BAxxhxxgbas解:阶段变量是以年作为化分单位,k=1,2,3.状态变量 为k 年初可用于工作的完好机器数.决策变量 为第k年用于完成A项任务的机器数,则 为用于完成B项任务的机器数.状态转移方程是 动态规划 基本方程及边界条件为 kskxkkxs )(10932)(1kkkkkkkxsxxsbaxs3

21、,2,10)()()(710max)(44110ksfsfxsxsfkkkkksxkkkk当k=3时,.,73 ,0,73:.1073max)(710max)(3333333333333303330333333sxsxsxxsxsxssxxsxsfsxsx即区间的右端点取得的最大值在因此取值范围是是变量且是一个线性单增函数注意其中当k=2时,).(3501632max)(10932(10)(710max10)(710max)()(710max)(2222202222220322203322202222222222sxssxxsxxsxsxsxsfxsxsfsxsxsxsx当k=1时,).0(2

22、2009 . 02200max)100(10932(350)100(710max)()(710max)(1110001111100022111100011111xxxxxxsfxsxsfxxx.2200.60,609032)(10932,90,90)100(10932,03222321121万元三年总收益为所以同理所以时当xxsxsxxxsx 第五节 一般数学规划模型的动态规划解法用动态规划解数学规划的方法是:把依次决定各个变量的取值看成是一个多阶段决策问题,因而模型中含有几个变量,就分为几个阶段,用状态变量表示数学规划中约束条件右边常数项,它表示可分配的资源数.例3 某投资者有40万元的固定

23、资本,他可以在三种不同的投资机会中投资(股票,银行,土地)投资额为x,y,z.假定他做过预测,知道每项投资可获得的效益分别为问如何分配投资额,才能获得最大效益.)(,)(,)(2zzkyyhxxg解:依题意,列出数学模型0,40max3213213221xxxxxxxxxSzxyxxx321,3 , 2 , 1,kxukkkSkkkxSS1)(kkxg3 , 2 , 1,0)()()()(44110maxksfsfxgsfkkkksxkkkk设为决策变量,阶段变量为k,k=1,2,3.为状态变量,即投放到第k个项目上的资金数.状态转移律为效益函数为.动态规划基本方程为3033max33)(xs

24、fsx 33sx 333)(ssfK=3,这是单增的线性函数,它在区间右端点取得最大值,显然时,上式有最大值.22220322022maxmax2222)(xsxsxsfsxsx2222xsxh21, 02,21, 0122222222xdxhdxxdxdh.)(,)0(,0, 0)(222222222222ssfsxsfxssf时时的端点取得最大值在. 0),()0(,1,),()0(,1. 1,222222222222222xsffssxsffssss时当时当令K=2,设,求其极大值,为极小值点,则210221011222maxmax1111)()(,)(sxsfxsfssfsxsx则 1

25、01110maxmax1111sxsxsxsx211140022140012222)()()40(,)(maxmax11xsxsfxfssfxx时, 02,21, 0),(21,)(2121111112111dxQdsxdxdQxsdxdQxsxQ令,40, 0.2111的两个端点比较区间为极小值点 sx,1600)40(, 011fx当k=1时,若=为一常数,不存在极值,舍去.若设.40)40(,4011fx40, 0, 01112211sxssxxx综上所以最大效益为最优决策, 0400402112233xxsxssx1600.例4 用动态规划求解非线性规划0,3122312max2121

26、32231211xxxxxxxxxz解:把确定 的值看作两个阶段的决策,即k=1,2.状态变量为k阶段初约束条件右边项的剩余值,分别用 表示,于是21,xx21,RR.,3, 3223121xRRxRR动态规划的递推方程为0)()(12max)()(2312max)(333332202222312110112211RfRfxxRfRfxxxRfRxRx当k=2时,32202212max)(22xxRfRx 31, 2,1, 2, 2, 0312122122222xRRxRxxdxd即当即当有令 .)(, 062222222达到最大取取上述值时故因Rfxxdxd 3223121131112231

27、21110112122312max)(,162312max)(,211RRxxxRfRxxxxRfxxx时当时当322221216824)(maxRRRf31927610162312max)(,3,11121311312111112xxxxxxxxRfxRk代入上式有将时当.394. 1,606. 1,745.32745.32,29max)(,745.32)(,1320)42(39276,1320)94(39276.29)(, 121111111211213121121112131111 xxRfRfxxdxxxxdxxxdxxxxdRfx此时所以时故当又在驻点处二阶导数为式求极值有由式得由第

28、六节 背包问题背包问题的提法:一个徒步旅行者,有n种物品供他选择后装入背包中,这n种物品的编号为1,2, ,n.已知第j种物品的重量为 公斤,这一物品对他的使用价值为 ,又知该旅行者所能承受的总重量不超过a公斤,问该旅行者如何选择这n种物品的件数,使得对他来说,使用价值最大.jajc建模:njxaxaxcSnjxjjnjjjjnjjj, 1, 0max:, 2 , 1,11为整数其整数规划模型为种物品的件数为设旅行者选择第动态规划解法:)(1,1,0,.,.,)(1kkkkkkkkkkkkxayfkxayxaykxyxaxkyykkyyf为种物品的最大使用价值只装前的状态下在处于种物品的重量不

29、超过于是装前为整数显然件种物品的件数为设装入第公斤的那种状态重量为背包内可装进物品的总即为状态变量为阶段数物品的最大使用价值种背包中只装前时表示总重量不超过令nkIxayxxayfxcyfxayfxckkkkkkkkkkkkkk2,0)(max)(),(11基本方程为动态规划使用的总价值为.,)(,1111111的取值也就是的整数为不超过其中时当xayayaycyfk例5 设有背包问题物品1 2 3重量价值3 2 58 5 12背包的最大限制重量a=5,问三种物品各装几件使总价值最大?3 , 2 , 1, 05523)1258max(.,:321321321jIxxxxxxxxxxxjj件设三种物品各装建模解)0(12),5(0max1 , 055(12max,550)55(12max,50)55(12max)

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论