人工智能 16章制定简单决策_第1页
人工智能 16章制定简单决策_第2页
人工智能 16章制定简单决策_第3页
人工智能 16章制定简单决策_第4页
人工智能 16章制定简单决策_第5页
已阅读5页,还剩29页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

在不确定环境下结合信念与愿望Result(a):表示动作a被执行的输出结果。P(Result(a)=s'/a,e)表示给定状态e,输出s'的概率。效用函数U(s)是一个数值,表达对某个状态的满意度。期望效用函数是输出结果的加权平均效用值,其中权值是输出结果的发生概率最大化期望效用原则认为,理性的智能体Agent应该能选择能够最大化Agent期望效用行为:

效用理论基础直观上,最大效用原则(MEU)看起来是制定决策的合理方法,但不能说它明显是唯一的理性方法。毕竟,为什么应该最大化平均效用?为什么不最大化所以可能效用的加权立方和?或者为什么不尝试最少化最坏的可能损失?为什么效用函数一定存在?

效用函数效用是从一个抽奖映射到实数的函数。所有理性的Agent必须遵守关于效用的公理,也可以说一个Agent可以拥有它喜欢的任何偏好。例如:一个Agent可能偏好在其银行账户上的存款的美元数位质数,这种情况下,如果它有16美元,它将送出3美元,这肯定是不正常的,但不能说它不理性。一个Agent可能偏好一辆有凹陷的1973福特汽车甚于一辆崭新的奔驰汽车。效用尺度效用没有绝对的尺度,但建立某种尺度,用这个尺度记录和比较任何特定问题的效用是有帮助的。我们固定“最好的可能奖励”的效用为和“最坏的可能灾难”的效用为归一化效用使其具有和的尺度。如何根据效用尺度来确定所有抽奖的效用给定一个和之间的效用尺度,通过让Agent在S和标准抽奖之间选择,我们可以评估任何特定奖励S的效用。通过调节概率p直到Agent对S和这个标准抽奖没有偏向性。假设在归一化效用下,S的效用是p,一旦每个奖励的效用确定了,涉及这些奖励的所有抽奖的效用也确定了。QALY(质量调整寿命年)效用的另一个尺度QALY,等价于身体健康不衰减的一年。有残疾的病人愿意恢复到完全健康而愿意缩短预期寿命。例如:患肾病的病人对“在透析机上生活两年”于“完全健康地生活一年”之间没有偏向性。金钱的效用经济学位效用度量提供了一个明显的候选:金钱。假设你在一个电视游戏节目中击败了其余竞争者。主持人现在给你一个选择:你可以拿走1000000美元的奖金,或者你可以扔硬币赌一次,如果硬币正面朝上,你的结局一无所获,但是如果硬币正面朝下,你最终得到2500000美元。如果你像大多数人一样,你会拒绝赌博而拿走这一百万。你这是不理性的吗?假设硬币是公正的,该赌博的期望货币价值(EMV)是(0.5(£0)+0.5(£2500000))=£1250000,这比原始奖金一百万多,但并不意味着接受这一赌博是一个更好的决策,假设我们用Sn表示拥有总共n美元的财富状态,而你当前的财富是K美元,那么,接受和拒绝赌博的两个行动的期望效用是:为了决定该做什么,我们需要改结果状态分配效用。假设你给当前的财富状况分配一个效用值5,给定状态分配效用值9,给状态分配效用值8.那么,理性的行动是拒绝赌博,但可能一个千万富翁可能接受此次赌博。曲线的正值部分的斜率是递减的,那么对于任意抽奖L,“面对这次抽奖”的效用少于“把这次抽奖的期望货币价值当做确定的东西给你”的效用:有此形状的智能体是规避风险的:它们偏好比赌博的期望货币价值小的确定收益。另一方面,在大多数额负财产的“绝望”区间,Agent的行为追求风险。一个Agent能接收的代替某次抽奖的价值被称为这次抽奖的确定性等价物。研究表明大部分人会接受用40美元代替一次有一半的机会赢得100美元的赌博。期望效用与后决策失望选择最佳行为a的理性方式是最大化期望效用:实际的期望效用:真实期望效用的估计值

假设这个估计值是无偏估计,也就是说误差的期望值是0.乐观者报应

人类评价和非理性决策理论是一种规划性理论:它描述了一个理性的Agent应该如何行动。另一方面,一种描述性理论,描述了实际的Agent——例如人类——真正会如何行动。两者是不一致的。实际表明人类“有先兆地非理性”。最有名的问题是Allais悖论。人们在两次抽奖A和B之间选择,然后在C和D之间选择,它们的奖励是:A:80%的机会获得400美元B:100%的机会获得300美元C:20%的机会获得4000美元D:25%的机会获得3000美元确定性效应Ellsberg悖论,这里,奖励是固定的,但概率是无限定的。你的工资降依赖从缸里选择的球的颜色。有人告诉你缸里有1/3的球是红色,剩下的2/3的球是黑色或黄色,但你不知道有多少黑球和多少黄球。你愿意选A还是B,愿意选C还是D。A:取到红球得100美元B:取到黑球得100美元C:取到红球或者黄球得100美元D:取到黑球或者黄球得100美元多属性效用函数确定一座新机场的位置需要考虑到施工造成的破坏,土地价格,离人口中心的距离,飞机操作的噪音等等。决定允许发电厂排放什么级别的有害物时,制定者必须在预防死亡和残疾与电力带来的好处以及减少排放带来的经济负担之间进行权衡。类似这类问题——其结果由两个或者更多属性来刻画——是用多属性效应理论处理优势假设机场位置S1费用较少,产生较少的噪音污染,并且比位置S2安全。那么称S1比S2有严格优势。随机优势假设我们将机场选址定在S1的费用均匀分布在28亿美元到48亿美元之间,而选址定在S2的费用均匀分布在30亿美元到52亿美元之间。图a中画出S1,S2分布,给定效用随费用减少而减少的信息。S1比S2具有随机优势。累计分布:度量的是费用少于或者等于任何给定量的概率。

也就是对原始分布进行积分,如图b,S1和S2的累计分布。随机优势的定义:如果两个行动A1和A2在属性X上导致概率分布p1(x)和p2(x),当下式成立时,在X上A1比A2有随机优势。偏好结构和多属性效用Agent的效用方程:希望其中f是一个像加法这样的简单函数。确定性的偏好偏好独立:如果结果和之间的偏好不依赖于属性X3的特殊值x3,则称属性X1和X2偏好独立于第三个属性X3。例如:机场选址,考虑三个属性Noise,Cost和Deaths,有人可能提出Noise和Cost偏好独立于Deaths。当安全级别是每百万乘客英里死亡0.06人时,我们偏好一个有20000人居住在航线上,机场建筑费位40亿美元的状态,甚于另一个有70000人居住在航线上,机场建设费位37亿美元的状态,那么当安全级别是0.12和0.01时,我们将有相同的偏好。如果属性X1,...Xn偏好相互独立,那么该Agent的偏好行为可以被描述为最大化函数不确定性偏好效用独立:如果对属性集X中的属性的抽奖之间的偏好独立于Y中的属性的具体指,成属性集X效用独立于属性集Y。相互效用独立:如果每个子集都效用独立于其余的属性。如果一个Agent的属性满足相互效用独立,那么效用函数可以表示为:决策网络机会节点:(椭圆)代表随机变量。决策节点:(矩形)代表在节点上决策制定者有一个对行动的选择。效用节点:(菱形)代表Agent的效用函数。信息价值假设一个石油公司想要购买不可区分的n块海洋开采权中的一块,我们假设仅有一块含有价值C美元的石油,其他块是没有价值的,每块的标价是C/n美元。现假设一个地震学家为该公司提供对第三块的调查结果,结果明确指出这块海洋是否含有石油。该公司愿意为这个信息支付多少费用?调查结果以1/n的概率指出第三块海洋中含有石油,在含石油的情况下,该公司将会以C/n美元买下第三块海洋开采权,获利C-C/n=(n-1)C/n美元。调查结果以(n-1)/n的概率指出第三块海洋不含石油,在不含石油的情况下,该公司将买不同的另一块,在其余中的另一块内发现石油的概率从1/n变成1/(n-1),所以该公司的期望获利是C/(n-1)-C/n=C/n(n-1)美元。期望利润:因此,该公司愿意为这个信息支付最多C/n美元给地震学家。一条给定信息的价值:获得该信息之前和之后的最佳行动的期望价值之间的差。通用公式完全信息价值(VPI)考虑只有两个行动a1和a2可供选择的简单情况,两个行动的当前期望效用U1和U2,信息将为行为产生新的期望效用和。假设a1和a2代表在冬天里穿过山区的两条不同路径,a1是一条路况较好的笔直的高速公路,a2是一条翻越山顶的弯曲的泥巴路,只给定这个信息,期望效用U1明显高于U2,获取关于每条道路真是状态的卫星报告Ej是可能,这将提供关于两条穿越途径的新期望和。如果a1和a2的效用函数的分布情况如图(a)。信息收集Agent的实现一个明智的Agent应该按照合理的次序问问题,应该避免问无关问题。假设对于每个可观察到的证据变量,有一个相关的代价,基于单位价值的效用,Agent请求得到那条最有价值的信息。决策

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论