版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
行为智能01AI:NouvelleAI2大纲智能体-结构
•没有表示和推理的智能
-学习强化学习-Q-学习AI:NouvelleAI3PartⅠ:智能体AI:NouvelleAI4机器人世界杯2008决赛
中国,苏州到2050年,组建一个可以取胜人类足球冠军队的全自主机器人队伍。
-AI:NouvelleAI5远程智能体实验(RAX)深空1号任务旨在验证技术;让AI软件成为航天器的主要指挥官;1999年5月进行测试。
NANA,USa
AI:NouvelleAI61.1智能体定义RussellandNorvig:“能够通过传感器感知环境并根据环境做出行动的任何系统”AI:NouvelleAI7智能体的弱概念五个主要特点:现场性:工作在某种环境中,并能与环境进行交互自主性:在不用干涉的情况下自主运行主动性:在自身目标驱动下表现出主动的行为反应性:能感知外界环境并根据环境变化做出适当反应社会性:以其他智能体进行通信AI:NouvelleAI81.2单智能体结构慎思型智能体:符号化表示和处理-IRMA,GRATE反应型智能体:感知-行为模式智能体系统-包容结构-网络结构混合型智能体:可以直接对外界刺激作出反应,也可以在内部推理的基础上采取行动-过程推理系统(PRS)-图灵机模型-InteRRaPAI:NouvelleAI91.2.2反应型结构反应型结构不需要使用符号表示外部环境状态,也不需要复杂的符号推理。包容结构网络结构没有表示和推理的智能AI:NouvelleAI10包容结构麻省理工大学智能研究所的布鲁克斯基于包容结构构造了一些机器人。由任务导向的行为模块构成高层模块有更多特殊任务单独构建各个模块高层模块对低层模块起到一定的控制作用,但这种影响对于低层模块是不可见的,高层模块只在需要时插入来抑制低层模块的行为。没有明确的推理甚至没有模式匹配.在构造的初期生成智能体函数AI:NouvelleAI11布鲁克斯包容结构图解不同的智能体并行构建,但是以分级的形式决策行为。高层智能体能够抑制低层智能体的输出,并且接管行为的控制(b)一种应用:腿部移动控制腿向上或向下腿向前或向后霍尔克·克鲁斯(HolkCruse):作为控制系统的神经网络(第二版),2006年包容结构AI:NouvelleAI12MIT布鲁克斯的机器人Genghis:过去在机器人实验室.目前在Smithsonian航空博物馆.Cog:类人智能需要类似人的与外界交互方式Herbert:一个基于互动的可以收集饮料瓶的机器人
Allen:机器人实验室的第一个移动机器人./projects/humanoid-robotics-group/AI:NouvelleAI13网络结构动作单元的集合各个动作单元根据内部需求和外部激励,竞争对智能体行为的控制。外部激励:环境条件内部需求:通过链式结构:激活模块增加其后续模块的兴奋性未激活模块增加其前面模块的兴奋性所有模块抑制其他竞争者的兴奋性AI:NouvelleAI14网络结构目标:保持文雅的同时解决口渴问题(即不让嘴去主动靠近水杯,而是拿起水杯送到嘴)Maes:Theagentnetworkarchitecture,1991AI:NouvelleAI151.2.3混合结构完全的慎思型和完全的反应型都不适合用来建立智能体。
结合二者:过程推理系统(PRS)图灵机InteRRaPAI:NouvelleAI16图灵机为动态变化的现实世界中的自主智能体设计三层:反应层:直接对外部激励做出迅速的反应规划层:制定规划建模层:对外部世界状态进行建模AI:NouvelleAI17图灵机(续)每层直接与感知器和控制器相连任意两层之间存在相互联系每一层都有独自的反应,在不同的层间发生冲突时:使用上下文触发的控制规则解决.AI:NouvelleAI18图灵机架构InnesA.Ferguson:TouringMachines:AutonomousAgentswithAttitudes,1992AI:NouvelleAI19InteRRaP分层的混合结构:在不同的层次上对环境进行建模存在不同层次的表示不同层次的知识和推理在垂直分层的结构中只有相邻层之间存在通信行为层(与领域相关)规划层(非社会性的目标驱动行为)协作层(社会行为,如联合规划等)AI:NouvelleAI20InteRRaP
结构/~chrender/Agenten/Agenten.htmlAI:NouvelleAI211.3智能体的学习智能体要与动态变化的负责的外部环境进行交互,因此智能体需要进行自主学习。学习的基本思想如下:智能体感知到的知识不只是用来决定下一步行动,也用来提高智能体的能力,以在后面的行动中表现更佳。AI:NouvelleAI22学习类型监督学习函数学习需要的输入输出对已经给定或者可以推导得到。非监督学习没有输出的信息强化学习智能体在环境中作出行动,对于智能体的每一步行动,都会得到一个评价值,但是不被告知如何行动才可以正确的达到目标。√AI:NouvelleAI23PartⅡ:强化学习(RL)AI:NouvelleAI243.1强化学习简介强化学习是一种通过奖励和惩罚来实现智能体的方式,无需指定完成何种任务.(Kaelbling,1996)智能体怎样如何从成功和失败中学习,从奖励和惩罚中学习?基于试错交互方式AI:NouvelleAI25强化学习模型Picture:R.Sutton:ReinforcementLearning:ATutorialAI:NouvelleAI26经典示例-房间里的机器人向上的行为:80%移动到了上方,10%移动到了左方,10%移动到了右方在[4,3]处奖励为+1,在[4,2]处的奖励为-1,其他步为0RussellandNorvig,ArtificialIntelligence:AModernApproach,2ededition,2006AI:NouvelleAI27经典示例–杆平衡在一个移动的平板车上面让一个长杆平衡直立RussellandNorvig,ArtificialIntelligence:AModernApproach,2ededition,2006AI:NouvelleAI28不需要模型的方法:Q-学习算法学习V*(简记为V*)对于任何状态s,执行向前搜索以选出最好的行动如果智能体已知下面函数将会得到很好的效果fS:状态
行为
状态fR
:状态
行为
R如果fS
和fR
未知,将不能通过这种方式选择下一步行为AI:NouvelleAI29Q-值定义一个与
V*相似的新的函数如果智能体对Q进行学习,将能够在fS
和
fR
未知的情况下选择最优行动AI:NouvelleAI30r(状态,行为)立即收益值Q(状态,行为)值V*(状态)值100
0
0
100
G
0
0
0
0
0
0
0
0
0
90
81100
G
0
81
72
90
81
81
72
90
81
100
G
9010008190100Q-值的计算
使用折扣收益,折扣因子为0.981=0+0.9*90AI:NouvelleAI31学习Q-值注意:Q
和
V*密切相关将Q写成递归形式:使用Q-值问题:如何学习?问题:如何选择最优行为?AI:NouvelleAI32Q-学习步骤对于每一个<s,a>初始化Q-值观察到当前状态s重复以下步骤根据当前Q-函数选择动作获得奖励r观察到新的状态s’令令s=s’AI:NouvelleAI33Q-学习举例:汉诺塔/kardi/tutorial/ReinforcementLearning/Tower-of-Hanoi.htmAI:NouvelleAI34带奖励值的状态图AI:NouvelleAI35R矩阵初始QQ矩阵最终QQ矩阵更新AI:NouvelleAI36红箭头指示的是从起始节点到目标节点的最优路径实际上,图中的Q值可以用于从图中任何一个起始节点(不只是状态1)通过最短路径走到目标节点状态图里的解决路径AI:NouvelleAI37Q-学习演示
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年幼儿园大班上学期工作计划标准模板(八篇)
- 二零二五年度大型园林工程苗木供应及种植劳务合同4篇
- 年度井下多功能测振仪产业分析报告
- 2025年度大型体育赛事策划与执行个人雇佣合同4篇
- 二零二五年度仿古面砖采购及修复服务合同4篇
- 2025年路灯安装工程环境保护及污染防治合同3篇
- 船舶货运技术课程设计
- 二零二五年度高空作业风险评估免责协议3篇
- 班级文化建设【共享-】
- 油松植苗施工方案
- 全国医学博士英语统一考试词汇表(10000词全) - 打印版
- 最新《会计职业道德》课件
- 广东省湛江市各县区乡镇行政村村庄村名明细
- DB64∕T 1776-2021 水土保持生态监测站点建设与监测技术规范
- 中医院医院等级复评实施方案
- 数学-九宫数独100题(附答案)
- 理正深基坑之钢板桩受力计算
- 学校年级组管理经验
- 10KV高压环网柜(交接)试验
- 未来水电工程建设抽水蓄能电站BIM项目解决方案
- 房屋出租家具电器清单
评论
0/150
提交评论