动态决策分析详解_第1页
动态决策分析详解_第2页
动态决策分析详解_第3页
动态决策分析详解_第4页
动态决策分析详解_第5页
已阅读5页,还剩24页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

(优选)动态决策分析ppt讲解当前1页,总共29页。第四章动态决策分析当前2页,总共29页。学习目的了解多阶段决策、序贯决策的概念及特点;掌握动态规划与决策树方法及其在多阶段决策、序贯决策中的应用。当前3页,总共29页。本讲内容4.1动态决策的基本原理4.1.1动态规划4.1.2决策树4.2多阶段决策4.2.1多阶段决策过程的基本概念4.2.2多阶段决策问题的决策方法4.3序贯决策4.3.1序贯决策的基本概念4.3.2序贯决策的决策方法当前4页,总共29页。4.1动态决策的基本原理4.1.1动态规划

动态规划(dynamicProgramming,DP)是解决多阶段决策过程最优化的一种方法,其基本思路是将多阶段决策过程转化为一系列相互关联的单阶段问题,并依次求解。

DP是离散系统最优化的一种有效工具,目前动态规划已广泛用于工业、农业、工程技术、资源、环境、经济、社会等领域。

当前5页,总共29页。4.1动态决策的基本原理4.1.1动态规划例4-1-1最优线路问题。由水源地向城市的输水线路需通过3个控制点,每个控制点均有两个可选方案,每段线路的输水费用如下图所示。选出一条输水线路,使得总输水费用最小。当前6页,总共29页。4.1动态决策的基本原理4.1.1动态规划

最优性原理(theprincipleofoptimality)也称为Bellman原理,是R.Bellman提出的DP的基本原理,其表述为:“一个过程的最优策略具有这样的性质,即无论初始状态和初始决策如何,对于由前面的决策所形成的状态来说,其后各阶段的决策序列必定构成相应子过程的最优策略”。当前7页,总共29页。4.1动态决策的基本原理4.1.2决策树

决策树(decisiontree)就是将决策过程各个阶段之间的结构绘制成一张箭线图,每个决策或事件(即自然状态)都可能引出两个或多个事件,导致不同的结果。决策树的构成有四个要素:1)决策结点;2)方案枝;3)状态结点;4)概率枝。

当前8页,总共29页。4.1动态决策的基本原理4.1.2决策树

方案枝方案枝决策结点概率枝概率枝状态结点概率枝概率枝概率枝状态结点概率枝当前9页,总共29页。4.1动态决策的基本原理4.1.2决策树决策树法的决策程序如下:

1)绘制树状图,根据已知条件排列出各个方案和每一方案的各种自然状态。

2)将各状态概率及损益值标于概率枝上。

3)计算各方案期望值并将其标于该方案对应的状态结点上。

4)进行剪枝,比较各个方案的期望值,并标于方案枝上,将期望值小的(即劣等方案剪掉)所剩的最后方案为最佳方案。

当前10页,总共29页。4.2多阶段决策

多阶段决策有以下三个特点,第一,决策者需要做出时间上有先后之别的多个决策;第二,前一次决策的选择将直接影响到后一次决策,后一次决策的状态取决于前一次决策的结果;第三,决策者关心的是多次决策的总结果,而不是各次决策的即时后果。

当前11页,总共29页。4.2多阶段决策4.2.1多阶段决策过程的基本概念(1)阶段-表示研究对象在发展过程中所处的时段或步骤。(2)状态-系统在发展过程中某个阶段所有可能发生的情况,称为该阶段的状态。(3)决策与策略-某阶段状态给定以后,从该状态演变到下一阶段某个状态的选择称为决策;策略是一个决策序列。(4)指标函数与目标函数-对于多阶段决策过程的某一阶段,从初始状态做出决策而转移到下一状态时所产生的效应的衡量指标,称为该阶段的指标函数;目标函数是全过程指标函数的最优值。(5)多阶段决策过程-对整个过程进行分阶段决策,得到一个最优策略,使系统总体指标函数达到最优值。当前12页,总共29页。4.2多阶段决策4.2.2多阶段决策问题的决策方法

主要方法是决策树法和动态规划法。分析步骤1、根据具体问题适当划分阶段2、确定各阶段的状态变量,寻找各阶段间的联系3、由后到前用逆序归纳法进行决策分析当前13页,总共29页。4.2多阶段决策4.2.2多阶段决策问题的决策方法多阶段决策问题包括确定型与随机型两大类,在确定型多阶段决策中,目标值都是确定值,在风险型多阶段决策中,目标值用期望值作为评价的标准。下面分别以两个例子说明其决策方法。当前14页,总共29页。4.2多阶段决策4.2.2多阶段决策问题的决策方法例4-2-1决策图

736045845元1012152025736045846元1213162024736045847元1414161818736045848元1615151414当前15页,总共29页。4.2多阶段决策4.2.2多阶段决策问题的决策方法例4-2-1某公司考虑为某新产品定价,该产品的单价拟从每件5元、6元、7元、8元这四个价格中选取其中之一,每年年初允许变动价格,但幅度不能超过1元。该公司预计该产品畅销只有五年,五年后将被淘汰,另据销售情况的预测,在价格不同的情况下各年的预计利润额见右表。单价第1年第2年第3年第4年第5年5元10121520256元121316202471615151414当前16页,总共29页。4.2多阶段决策4.2.2多阶段决策问题的决策方法例4-2-2某公司考虑是否花10000元从某科研机关购买某项技术,然后产销新产品。如果卖技术,可以进行大批生产,可能出现的市场情况也分为畅销、一般或滞销三种,其收益矩阵见下表左。为了更准确地了解市场情况,正式投产前可进行产品试销,但需是消费500元。试销状态可分为受欢迎、一般或不受欢迎三种,其条件概率分别见下表右。如不买此项技术,把这笔经费应用在其他地方,在同样的时期内,可获利15000元,那么公司应如何决策?公司要确定:1)是否卖技术?2)如果买技术,是否采取试销方式?3)如果不试销,应大批、中批还是小批生产?如果试销又如何根据试销状态决定其行动

当前17页,总共29页。4.2多阶段决策4.2.2多阶段决策问题的决策方法例4-2-2的表格(0.6)(0.3)(0.1)4000020000-300003000030000-20000100001000010000

(0.6)(0.3)(0.1)0.60.20.20.30.60.30.10.20.5当前18页,总共29页。4.2多阶段决策4.2.2多阶段决策问题的决策方法例4-2-的决策树买不试试不买849356721当前19页,总共29页。4.3序贯决策4.3.1序贯决策的基本概念上面的多阶段决策,阶段数是确定的。除这种决策外,还有一些决策的阶段数不是事先确定的,它依赖于执行决策过程中出现的情况。这种决策问题称为序贯决策(sequentialdecisionproblem)。序列决策在进行决策后又产生一些新的情况,需要进行新的决策,接着又有一些新的情况,又需要进行新的决策。这样决策、情况、决策……,这就构成一个序列。

当前20页,总共29页。4.3序贯决策4.3.1序贯决策的基本概念序贯决策是用于随机性或不确态定性动态系统最优化的决策方法。它的特点是:

1)所研究的系统是动态的,即系统所处的状态与时间有关,可周期(或连续)地对它观察;

2)决策是序贯地进行的,即每个时刻根据所观察到的状态和以前状态的记录,从一组可行方案中选用一个最优方案(即作最优决策),使取决于状态的某个目标函数取最优值(极大或极小值);

3)系统下一步(或未来)可能出现的状态是随机的或不确定的。当前21页,总共29页。4.3序贯决策4.3.1序贯决策的基本概念

系统在每次作出决策后下一步可能出现的状态是不能确切预知的,存在两种情况:

1)系统下一步可能出现的状态的概率分布是已知的,可用客观概率的条件分布来描述。对于这类系统的序贯决策研究得较完满的是状态转移律具有无后效性的系统,相应的序贯决策称为马尔可夫决策过程,它是将马尔可夫过程理论与决定性动态规划相结合的产物。

2)系统下一步可能出现的状态的概率分布不知道,只能用主观概率的条件分布来描述。用于这类系统的序贯决策属于决策分析的内容。当前22页,总共29页。4.3序贯决策4.3.2序贯决策的决策方法

序贯决策的过程是:从初始状态开始,每个时刻做出最优决策后,接着观察下一步实际出现的状态,即收集新的信息,然后再做出新的最优决策,反复进行直至最后。解决序贯决策问题的有效办法仍然是决策树,解决序贯决策的关键是确定一个决策序列终止的原则。在下例中,这个原则就是:不管到决策的哪个阶段,只要有一个非经抽样的后悔期望值小于进行一次抽样的费用,决策序列便可终止。当前23页,总共29页。4.3序贯决策4.3.2序贯决策的决策方法

例4-3-1某工厂的产品每1000件装成一箱出售。每箱中产品的次品率有0.01,0.40,0.90三种可能,其概率分别为0.2,0.6,0.2。现在的问题是:出厂前是否要对产品进行严格检验,将次品挑出。可以选择的行动有两个:①整箱检验,检验费为每箱100元;②整箱不检验,但如果顾客在使用中发现次品,每件次品除条换为合格品外还要赔偿0.25元损失费。为了更好地做出决定可以先从一箱中随机抽取1件作为样本检验它,然后根据这件产品是都次品再决定该箱是否要检验,抽样成本为4.2元。进行第一次抽样后,除选择检验还是不检验外,还可以根据前面抽样的结果,考虑再进行一次抽样检验如此形成一个决策序列。该厂应该如何决策。当前24页,总共29页。4.3序贯决策4.3.2序贯决策的决策方法

解(1)假设为整箱检验;为整箱不检验;而表示次品率分别0.01,0.40,0.90的三种自然状态;表示抽取一件样品的行动,表示抽取第二件样品的行动;,为抽样时次品和合格品的两个结果。

当前25页,总共29页。4.3序贯决策4.3.2序贯决策的决策方法(2)计算益损值和后悔值矩阵。

产品检验问题的收益矩阵见表4-3-1。由表4-3-1的收益矩阵可得到各行动方案的后悔值矩阵,见表4-3-2。

表4-3-1:收益矩阵表

表4-3-2:后悔矩阵表

(0.2)(0.6)(0.2)-100-100-100-100-2.5-100-100-105(0.2)(0.6)(0.2)97.50000125当前26页,总共29页。4.3序贯决策4.3.2序贯决策的决策方法

(3)抽取一件样品的抽样分布见表4-3-3。计算各有关概率。

表4-3-3:抽样结果条件概率分布表矩阵表

抽样θ

(0.2)

θ

(0.6)

θ

(0.2)0.990.60.10.010.40.

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论