版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
行为智能01AI:NouvelleAI2大纲智能体-结构
•没有表示和推理的智能
-学习强化学习-Q-学习AI:NouvelleAI3PartⅠ:智能体AI:NouvelleAI4机器人世界杯2008决赛
中国,苏州到2050年,组建一个可以取胜人类足球冠军队的全自主机器人队伍。
-AI:NouvelleAI5远程智能体实验(RAX)深空1号任务旨在验证技术;让AI软件成为航天器的主要指挥官;1999年5月进行测试。
NANA,USa
AI:NouvelleAI61.1智能体定义RussellandNorvig:“能够通过传感器感知环境并根据环境做出行动的任何系统”AI:NouvelleAI7智能体的弱概念五个主要特点:现场性:工作在某种环境中,并能与环境进行交互自主性:在不用干涉的情况下自主运行主动性:在自身目标驱动下表现出主动的行为反应性:能感知外界环境并根据环境变化做出适当反应社会性:以其他智能体进行通信AI:NouvelleAI81.2单智能体结构慎思型智能体:符号化表示和处理-IRMA,GRATE反应型智能体:感知-行为模式智能体系统-包容结构-网络结构混合型智能体:可以直接对外界刺激作出反应,也可以在内部推理的基础上采取行动-过程推理系统(PRS)-图灵机模型-InteRRaPAI:NouvelleAI91.2.2反应型结构反应型结构不需要使用符号表示外部环境状态,也不需要复杂的符号推理。包容结构网络结构没有表示和推理的智能AI:NouvelleAI10包容结构麻省理工大学智能研究所的布鲁克斯基于包容结构构造了一些机器人。由任务导向的行为模块构成高层模块有更多特殊任务单独构建各个模块高层模块对低层模块起到一定的控制作用,但这种影响对于低层模块是不可见的,高层模块只在需要时插入来抑制低层模块的行为。没有明确的推理甚至没有模式匹配.在构造的初期生成智能体函数AI:NouvelleAI11布鲁克斯包容结构图解不同的智能体并行构建,但是以分级的形式决策行为。高层智能体能够抑制低层智能体的输出,并且接管行为的控制(b)一种应用:腿部移动控制腿向上或向下腿向前或向后霍尔克·克鲁斯(HolkCruse):作为控制系统的神经网络(第二版),2006年包容结构AI:NouvelleAI12MIT布鲁克斯的机器人Genghis:过去在机器人实验室.目前在Smithsonian航空博物馆.Cog:类人智能需要类似人的与外界交互方式Herbert:一个基于互动的可以收集饮料瓶的机器人
Allen:机器人实验室的第一个移动机器人./projects/humanoid-robotics-group/AI:NouvelleAI13网络结构动作单元的集合各个动作单元根据内部需求和外部激励,竞争对智能体行为的控制。外部激励:环境条件内部需求:通过链式结构:激活模块增加其后续模块的兴奋性未激活模块增加其前面模块的兴奋性所有模块抑制其他竞争者的兴奋性AI:NouvelleAI14网络结构目标:保持文雅的同时解决口渴问题(即不让嘴去主动靠近水杯,而是拿起水杯送到嘴)Maes:Theagentnetworkarchitecture,1991AI:NouvelleAI151.2.3混合结构完全的慎思型和完全的反应型都不适合用来建立智能体。
结合二者:过程推理系统(PRS)图灵机InteRRaPAI:NouvelleAI16图灵机为动态变化的现实世界中的自主智能体设计三层:反应层:直接对外部激励做出迅速的反应规划层:制定规划建模层:对外部世界状态进行建模AI:NouvelleAI17图灵机(续)每层直接与感知器和控制器相连任意两层之间存在相互联系每一层都有独自的反应,在不同的层间发生冲突时:使用上下文触发的控制规则解决.AI:NouvelleAI18图灵机架构InnesA.Ferguson:TouringMachines:AutonomousAgentswithAttitudes,1992AI:NouvelleAI19InteRRaP分层的混合结构:在不同的层次上对环境进行建模存在不同层次的表示不同层次的知识和推理在垂直分层的结构中只有相邻层之间存在通信行为层(与领域相关)规划层(非社会性的目标驱动行为)协作层(社会行为,如联合规划等)AI:NouvelleAI20InteRRaP
结构/~chrender/Agenten/Agenten.htmlAI:NouvelleAI211.3智能体的学习智能体要与动态变化的负责的外部环境进行交互,因此智能体需要进行自主学习。学习的基本思想如下:智能体感知到的知识不只是用来决定下一步行动,也用来提高智能体的能力,以在后面的行动中表现更佳。AI:NouvelleAI22学习类型监督学习函数学习需要的输入输出对已经给定或者可以推导得到。非监督学习没有输出的信息强化学习智能体在环境中作出行动,对于智能体的每一步行动,都会得到一个评价值,但是不被告知如何行动才可以正确的达到目标。√AI:NouvelleAI23PartⅡ:强化学习(RL)AI:NouvelleAI243.1强化学习简介强化学习是一种通过奖励和惩罚来实现智能体的方式,无需指定完成何种任务.(Kaelbling,1996)智能体怎样如何从成功和失败中学习,从奖励和惩罚中学习?基于试错交互方式AI:NouvelleAI25强化学习模型Picture:R.Sutton:ReinforcementLearning:ATutorialAI:NouvelleAI26经典示例-房间里的机器人向上的行为:80%移动到了上方,10%移动到了左方,10%移动到了右方在[4,3]处奖励为+1,在[4,2]处的奖励为-1,其他步为0RussellandNorvig,ArtificialIntelligence:AModernApproach,2ededition,2006AI:NouvelleAI27经典示例–杆平衡在一个移动的平板车上面让一个长杆平衡直立RussellandNorvig,ArtificialIntelligence:AModernApproach,2ededition,2006AI:NouvelleAI28不需要模型的方法:Q-学习算法学习V*(简记为V*)对于任何状态s,执行向前搜索以选出最好的行动如果智能体已知下面函数将会得到很好的效果fS:状态
行为
状态fR
:状态
行为
R如果fS
和fR
未知,将不能通过这种方式选择下一步行为AI:NouvelleAI29Q-值定义一个与
V*相似的新的函数如果智能体对Q进行学习,将能够在fS
和
fR
未知的情况下选择最优行动AI:NouvelleAI30r(状态,行为)立即收益值Q(状态,行为)值V*(状态)值100
0
0
100
G
0
0
0
0
0
0
0
0
0
90
81100
G
0
81
72
90
81
81
72
90
81
100
G
9010008190100Q-值的计算
使用折扣收益,折扣因子为0.981=0+0.9*90AI:NouvelleAI31学习Q-值注意:Q
和
V*密切相关将Q写成递归形式:使用Q-值问题:如何学习?问题:如何选择最优行为?AI:NouvelleAI32Q-学习步骤对于每一个<s,a>初始化Q-值观察到当前状态s重复以下步骤根据当前Q-函数选择动作获得奖励r观察到新的状态s’令令s=s’AI:NouvelleAI33Q-学习举例:汉诺塔/kardi/tutorial/ReinforcementLearning/Tower-of-Hanoi.htmAI:NouvelleAI34带奖励值的状态图AI:NouvelleAI35R矩阵初始QQ矩阵最终QQ矩阵更新AI:NouvelleAI36红箭头指示的是从起始节点到目标节点的最优路径实际上,图中的Q值可以用于从图中任何一个起始节点(不只是状态1)通过最短路径走到目标节点状态图里的解决路径AI:NouvelleAI37Q-学习演示:
路径学习器AI:NouvelleAI38总结行为智能没有表示和推理的智能SituatedAI智能体弱概念和强概念结构类型有慎思型
(BDI模型),反应型
(包容结构,网络结构),and混合型
(PRS,图灵机,InteRRaP)AI:NouvelleAI39总结使用强化学习得到智能体不同于监督学习和非监督学习从奖励和惩罚中学习试错交互Q-学习群智能AI:SI41大纲什么是群智能(SI)?
模拟SI进行搜索
-蚁群优化算法(ACO)-粒子群优化算法(PSO)AI:SI42PartⅠ:什么是SI?KevinKelly:“这些不起眼的组件,只要正确地组合在一起,就能产生出人意料的智能效果。”什么是群智能?AI:SI43尽管自然界中的一些社会系统是由简单的个体组成的,但它们可以表现出一种智能的集体行为。问题的智能解决方案自然地从这些个体的自组织和交流中产生。这些系统提供了重要的技术,可用于开发人工智能系统。自然之美AI:SI44自然界和社会中的集体行为的例子这可以被视为多智能体系统。AI:SI45涌现Goldstein:“在复杂系统的自组织过程中,新奇、一致的结构、模式和性质的产生。”默里·盖尔曼:“从深层次的简单性中产生的表面复杂性”Bottom-upbehavior:“遵循简单规则的简单代理产生复杂的结构/行为。代理不遵循来自领导者的命令。”白蚁“大教堂”土堆是由白蚁群体建造的:这是自然界中涌现的一个经典例子AI:SI46生物学动机:昆虫社会社会性昆虫的群体能够从刻板、不可靠、不智能且简单的昆虫个体中实现灵活、可靠、智能和复杂的系统层面性能。
昆虫遵循简单规则,使用简单的局部通信(气味轨迹、声音、触觉)并且计算需求低。全局结构(例如,巢穴)可靠地由许多不可靠的个体行动涌现出来。AI:SI47生物学动机:群落、畜群和鱼群在80年代末,克雷格·雷诺兹创建了一个名为“Boids”的动物运动模型。它根据三条简单规则产生非常逼真的运动,这些规则定义了boid的转向行为。这个模型及其变种已被用于驱动电影中的鸟、昆虫、人、鱼、羚羊等的动画效果(例如,《蝙蝠侠归来》、《狮子王》)AI:SI48Boid规则分离:转向以避免拥挤的本地群体成员优先于其他规则的基本规则在避免与环境中的其他物体发生碰撞时也很有用。对齐:朝向本地同群伙伴的平均航向和速度转向强制保持凝聚,以保持同群伙伴在一起。也有助于避免碰撞。凝聚力:转向以朝向本地同群伙伴的平均位置移动畜群边缘的代理更容易受到捕食者的攻击有助于保持畜群在一起AI:SI49一个应用:《狮子王》Videofrom:/471/current/notes/AI:SI群体智能
群体智能(SI)是一种基于对去中心化、自组织系统中的集体行为的研究的人工智能技术。1989年,Beni、Hackwood和Wang在细胞机器人系统的背景下首次使用了“群体智能”这一表述,用于描述简单机械代理的自组织行为。后来,该术语扩展为包括“任何受社会昆虫群落和其他动物群体集体行为启发的算法设计或分布式问题解决设备的尝试”[Bonabeau、Dorigo和Theraulaz,1999]。50AI:ANN51群体智能(续)群体智能系统通常由相互之间以及与环境进行局部交互的大量简单代理组成。虽然通常不存在决定个体代理应如何行为的集中控制结构,但这些代理之间的局部交互往往会导致全局行为的涌现。有时被称为“集体智能”AI:SI52群体智能的组成部分代理:
与世界和其他代理(直接或间接)进行交互简单的行为
例如:蚂蚁、白蚁、蜜蜂、黄蜂通信:
代理如何相互交互
例如:蚂蚁的信息素
单个代理的简单行为+一组代理之间的通信=该组代理的涌现复杂行为AI:ANN53间接通信信号传播:-一个代理发送一个信号,该信号被广播到环境中,并且其强度随着距离的减小而减小。-在点x处,信号可能有以下强度之一:V(x)=V(x0)/dist(x,x0)V(x)=V(x0)/dist(x,x0)2
路径-代理留下“放射性碎屑”形成路径-一个代理跟随路径,使路径逐渐变淡,直到消失AI:SI54间接通信黑板系统-一个公共区域(共享内存),代理可以在其中交换信息、数据和知识。-黑板=强大的分布式知识计算范例-代理=知识源(KS)
IntelligentAgentsIntelligentAgentsIntelligentAgentsBlackboardMessageReplyAgentsIntelligentAgentsIntelligentAgentsIntelligentAgentsIntelligentAgentsIntelligentAgentsIntelligentAgentsAI:SI55直接通信Actor语言一个Actor执行一系列动作以回复接收到的消息言语行为理论言语行为具有以下三个方面:Locution=说话者的物理表达Illocution=说话者话语的意图意义(施为)Perlocution=Locution产生的动作例如:张告诉李:“请把门关上”。
locution
illocutioncontent perlocution:门关上了(希望如此!)AI:ANN56群智能特点分布式,没有中央控制或数据源通信有限没有(显式的)环境模型感知环境(感知)能够应对环境变化。
群体智能与人类有关吗?AI:SI57PartⅡ-Ⅲ:如何模拟群体智能进行搜索?示例1:蚂蚁-->蚁群优化算法(ACO)示例2:鸟群-->粒子群优化算法(PSO)AI:SI58PartⅡ蚁群优化算法(ACO)AI:SI59蚂蚁
单个蚂蚁是具有有限记忆并且能够执行简单动作的简单昆虫。个体蚂蚁是具有有限记忆并能执行简单动作的简单昆虫。然而,一个蚂蚁群能够展现出复杂的集体行为,为问题提供智能解决方案搬运大型物品搭建桥梁寻找从巢穴到食物源的最短路线,根据距离和易接近性对食物源进行优先排序。AI:ANN60蚂蚁此外,在蚁群中,每只蚂蚁都有其规定任务,但如果集体需要,蚂蚁可以切换任务。
在巢外,蚂蚁可以执行以下四种任务:觅食:寻找和获取食物巡逻:寻找食物来源垃圾清理工作:对巢内垃圾进行分类巢穴维护工作:建造和清理巢穴
蚂蚁是否执行某项任务取决于:环境物理状态:如果巢的一部分受损,会有更多的蚂蚁进行巢穴维护工作来修复它与其他蚂蚁的社会互动
交流(直接或间接)是必要的AI:ANN61蚂蚁如何找到最短路径?他们通过在其所走的路径上留下信息素,建立了一个间接通信系统。孤立的蚂蚁随机移动,但当它发现信息素痕迹时,这只蚂蚁有很大可能会决定沿着这条痕迹前进。觅食的蚂蚁会在其路径上留下信息素。当它找到食物来源时,它会返回巢穴并加强其痕迹。因此,其他蚂蚁有更大的可能性开始跟随这条痕迹,从而在其上留下更多的信息素。这个过程就像一个正反馈循环系统,因为一条痕迹上的信息素浓度越高,蚂蚁开始沿着它旅行的可能性就越大。AI:SI62蚂蚁如何找到最短路径?这个过程就像一个正反馈循环系统,因为一条痕迹上的信息素浓度越高,蚂蚁开始沿着它旅行的可能性就越大。B路上的信息素浓度将以比A路更高的速度增加,很快A路上的蚂蚁将选择跟随B路。由于大多数蚂蚁将不再走A路,并且由于信息素是易挥发的,A路上的痕迹将开始蒸发。只有最短的路线将保留下来!AI:SI63蚂蚁群优化模型每只人工蚂蚁都是一个概率机制,用于构建问题的解决方案,使用以下方法:人工信息素沉积启发式信息:信息素痕迹等真实蚂蚁与人工蚂蚁之间的区别:信息素只在构建出解决方案后才更新。其他机制AI:ANN64蚂蚁群优化模型构造蚂蚁解决方案解决方案组件的随机选择规则。更新信息素用于增加与良好或有前途的解决方案相关联的信息素值,并减少与不良解决方案相关联的信息素值。通过信息素蒸发减少所有信息素值-->允许“遗忘”->有利于探索新区域增加与一组选定的良好解决方案相关联的信息素水平-->使算法收敛到解决方案AI:ANN65蚁群系统(AS):第一个蚁群优化算法构造蚂蚁解决方案
信息素的数量启发式距离α、β常数AI:ANN66蚁群系统(AS)更新信息素蒸发率每只蚂蚁在边(i,j)上留下的信息素AI:ANN67对于旅行推销员问题(TSP)的蚁群系统(AS)B.Ombuki-Berman之后的流程图:群体智能AI:ANN68TSP的简单示例(4个城市)图片来自OlleGallmo:群体智能AI:ANN69AS的扩展蚁群系统倾向于快速收敛这意味着它对找到的最佳解的利用程度太高,它应该更多地探索解空间信息素蒸发/更新规则(可能存在更好的规则)蚁群系统的扩展蚁群系统的精英策略(EAS)基于排名的蚁群系统(RANK)MAX-MIN蚁群系统(MMAS)蚁群系统(ACS)AI:ANN70PartⅢ:粒子群优化算法(PSO)“再次,大自然为我们提供了一种处理信息的方法,既优雅又灵活”AI:ANN71鸟群飞行在粒子群优化中,“群”被定义为一组看似无序的移动个体集合,这些个体倾向于聚集在一起,而每个个体似乎都朝着随机的方向移动。鸟群飞行是粒子群优化在自然界中的最好例子之一。AI:ANN72鸟群飞行的建模鸟群飞行的同步性被认为是一种功能,鸟类努力保持自己与邻居之间的最佳距离。鸟类和鱼类通过调整自身的物理运动来避免捕食者、寻找食物和配偶。人类倾向于调整自己的信仰和态度,以符合社会同龄人的信仰和态度。人类在抽象的多维空间中
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 《肾移植术后的护理》课件
- 养老院老人生活设施维修人员激励制度
- 养老院老人关爱服务规范制度
- 《用餐的经验过程》课件
- 2024年泥工装修项目合作合同样本版B版
- 施工成本控制的合同(2篇)
- 健美操基本步伐课件
- 2024年甲乙双方关于城市轨道交通信号系统建设与维护合同
- 刑法学课程课件教案绪论
- 2025年廊坊货运从业资格模拟考
- 过敏性紫癜-教学课件
- GB/T 1931-2009木材含水率测定方法
- 神态描写课件
- 商业经营管理有限公司组织架构、岗位设置与管理职能
- 2022年读者出版集团有限公司招聘笔试试题及答案解析
- NB∕T 33009-2021 电动汽车充换电设施建设技术导则
- 大学《传播学概论》试卷及答案
- 住院医师儿外科Ⅰ阶段:小儿心胸外科考试题库
- 管理会计论文范文大全(推荐十篇)
- 儿科分级护理标准
- 浙江理工大学-答辩通用PPT模板
评论
0/150
提交评论