机器人杯是一个推动机器人基础科技研究的平台 机械设计制造及自动化专业毕业设计外文翻译.doc_第1页
机器人杯是一个推动机器人基础科技研究的平台 机械设计制造及自动化专业毕业设计外文翻译.doc_第2页
机器人杯是一个推动机器人基础科技研究的平台 机械设计制造及自动化专业毕业设计外文翻译.doc_第3页
机器人杯是一个推动机器人基础科技研究的平台 机械设计制造及自动化专业毕业设计外文翻译.doc_第4页
机器人杯是一个推动机器人基础科技研究的平台 机械设计制造及自动化专业毕业设计外文翻译.doc_第5页
已阅读5页,还剩14页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

青 岛 大 学毕业设计(论文)英文翻译学 院: 机电工程学院 专 业: 机械工程及自动化 姓 名: 同组同学: 2010年 4月 6 日机器人杯是一个推动机器人基础科技研究的平台陈贤义(音) 夏德胜(音)1引言:机器人是一项促进人工智能、机器人学和相关领域发展的综合工程,机器人杯通过提供一个标准的问题,来努力发展关于人工智能和智能机器人方面的研究,为解答这个标准的问题,我们集成和检验很多领域的技术。机器人杯选取了足球作为研究的中心课题,目的在于促进创新,以便应用于社会重大问题和工业生产。机器人杯的终极目标是在2050年,开发出一支能够在与人类足球冠军队的比赛中赢得胜利的具有全自动特性的类人机器人队伍。为了使机器人能够真正踢一场比赛,必须整合许多相关的技术,其中包括:自治终端的设计原理,多终端协作,策略学习,实时分析,机器人学和传感器整合。机器人杯是一个在动态环境下多个快速运动机器人团队的任务,机器人杯同样提供了一个基于机器人杯的软件方面的软件研究平台。机器人杯技术的一个主要应用是在大规模灾难中执行寻找和营救的任务。机器人杯发起机器人的营救项目,是专门为促进机器人在社会重大问题及事件方面的应用的研究。图1 未来的足球对战在下一部分我们将介绍机器人杯的起源,组织及比赛情况。在第三部分我们将讨论机器人杯的相关技术。2机器人杯的起源,组织和比赛形式:机器人杯的概念是Alan Mackworth在1993年首先提出来的。机器人杯的主要目标是提出一个具有挑战性的研究课题,以便促进机器人学的发展。经过两年的可行性研究,在1995年秋,人们发表了关于引入机器人杯国际研讨会及国际足球赛的通告,现在机器人杯足球赛被分为这几部分比赛:模拟对抗赛(2D模式,3D模式),小型机器人赛(F180),中型机器人赛(F2000),四足机器人赛,类人机器人赛。在1997年7月首次官方会议和比赛在日本举行。一年一次的盛事吸引了许多参赛者和观众。2.1机器人杯的2D模拟赛机器人杯2D模拟赛用一个叫做足球服务器的模拟器去做足球赛的仿真。足球服务器提供了一个研究多终端系统的标准平台,22个终端(每队11个)与服务器交换信息,服务器以2D足球赛的模式模拟球员、足球及场地。每100ms足球服务器通过接口通讯方式从每个终端接收指令,终端向它所控制的模拟球员发送将要被执行的(不完全)的低级信息(如冲,转,踢),终端只能以一种不可靠的窄带通讯信道相互交流信息。这个信道在服务器中是内置的。足球服务器模拟(不完全的)球员的感知,并每隔150ms向各个终端发送简要的分析(如目标,球队员和球,方向距离及相对速度),终端的场地视野仅限于整个场地的一部分。足球服务器实行大多数基本人类足球规则,其中包括越位,角球和射门,并模拟一些基本的球员限制,比如最大跑速及踢球力度,和耐力限制等(nom99)。每队一个外加的终端可以以“教练”的身份与其他终端联系,“教授”的特点是可以看到整个场地并在比赛中止时(如发任意球时)向其他终端发送策略信息。足球显示器(图2)作为又一个终端与足球服务器交换信息。并为人类提供一个二维的比赛视图,其他类型终端可以以相同的方式与服务器联系,完成一些功能,如三维视图,自动实况报道及统计分析。图2 机器人杯2D模拟赛在比赛中并没有实际的机器人,但观众可以通过大屏幕来观看比赛。这看起来有点像一个巨大的电脑游戏。每个模拟机器人可以拥有自己的踢球策略和特点,并且每个模拟足球队实际上由一组程序设计员组成。为使比赛能够顺利完成,许多电脑以网络联接了起来,比赛共持续10分钟,每个半场5分钟。图3 机器人杯的3D模拟赛2.2机器人杯3D虚拟比赛3D比赛利用了一种虚拟器,这种虚拟器以在2003年机器人杯研讨会上提出的虚拟系统和在2002年机器人杯研讨会上提出的spades模拟中间设备系统为基础,这种模拟器可以在source forge(图3)上下载。未来的3D足球赛的一个目标是虚拟具有关节的机器人,比如类人机器人。编译和安装rcsserver 3D,你需要安装软件包,你可以以两种方法安装rcsserver 3D,一种是简捷安装,一种是完整安装。在完整安装方式下,你得到一个附加的库(叫做kerosin)这个库对显示对象具有良好的效果,特别是关节型对象(这是由一个以上的几何体组成的对象,几何体之间都是以关节连接的),这些特性并不是虚拟足球中必须的,在系统默认的简捷方式安装中,你得到的一个不是那么吸引人的openGL,图像要改为完全安装,需要充许“enable-kerosin”标签,直到确认壳体脚本。如果想知道通用安装所需要的库,请看下面介绍的详细文本:(1) spades可运行的版本:1.0及其以前版本;可从/projects/spades-sim下载;描述:智能体中间件,处理时机选择问题及网络工作;附加信息:你需要一个近期的expat for sapdes版本。(2) ruby可运行服本:1.8.0或者更新的版本;从/下载;描述:脚本语言;附加信息:如果你自己编译ruby,你需要打开共享功能。(3) boost可以运行的版本:1.30.2,1.31.0;可从/下载;描述:C+编程扩展。(4) ode可运行版本:0.039;可从/projects/open-de下载;描述:用来模拟关节连接的刚体的动态特性。(5) openGL,GLUT你需要openGL和GLUT头文件来为可视化提供支持。这可能需要依靠你的显卡支持(GLUT是openGL的效用工具);是XFree86-Mesa-devel的一部分;你必须用linux distro来得到它。图4 小型机器人比赛2.3小型机器人杯比赛球场必须为矩形,大小包括边界线,标准长度:4900mm,宽度:3400mm。一个小型的机器人杯比赛在两组机器人中进行,每组个人,每个机器人必须限制在一定的尺寸内,该尺寸规定在F180条规定中进行了详细的说明:机器人必须能放在直径为180mm的圆圈内,并且不高于15cm,除非利用机载可视化系统。机器人在一个铺有绿地毯的2.8米长2.3m宽的场地中踢球,球是一个桔黄色的高尔夫球。机器人分为两种类型,一种是有局部机载视觉传感器的机器人,一种是具有全局视觉的机器人。全局视觉机器人是现在最普及的类型。利用一个置顶的照相机和场外的PC机去判定和追踪在场内移动的机器人。置顶相机被固定在一个高出球场平面3米的一个相机杆上。局部视觉机器人拥有自己的传感器。视觉信息可以直接通过机器人本身处理,也可以传到场外的PC机上处理。场外PC是用来传达裁判指令,并在置顶视觉系统中传递位置信息给机器人,典型的场外PC同样做好许多协作和控制的处理工作即使它没有做全部的工作。最常用的通讯利用无线通讯方式,并且通常用专用的商业化的FM传送/接收装置,尽管至少有一支队成功地利用了IRDA技术。图5 中型机器人比赛2.4中型机器人比赛两队带有全部机载传感器的球队在场地踢足球,每支队伍四个人,物体是通过颜色来辨别的。机器人之间的交流(如果有的话)是通过无线方式来交流的,比赛过程中没有人类的干预,除非从场地放入或移走机器人。2.5四足机器人赛四足机器人赛中参赛队伍必须用竞赛委员指定的没有任何硬件改动的机器人。在2004年机器人赛中人们可以选用以下三种方式其中一种组队:SONY娱乐机器人AIBO ERS-210/210ASONY娱乐机器人AIBO ERS-7两种机器人混用。四个与SSL相关的主要技术问题如下所列:坚实的机械结构。一个能在SSL中踢出好水平的机器人必须速度快,并且能够抵抗强烈的撞击,一般来说SSL机器人能在从桌面上掉落下来的情况下仍能够继续踢球。近两年机器人结构设计方面有了一些新的重点,那就是方向选择性驱动和带有允许机器人控球的带球棍。可靠的无线通讯。这个可能是SSL中单个未解决的最困难的问题。大多数队伍利用同样的RF条来进行通讯。并且在过去这导致了严重的干扰问题。因为同时安排两场比赛相当困难。联赛的时间变得很长。像WAVElan card和蓝牙技术模块将会在未来被开发出来。对机器人行为的良好编程。可以说大多数SSL球队采用了具有简单策略目标的纯反应式设计。足球场地相对于机器人来说太小意味着为机器人计算复杂的策略并不值得。由于机器人相对于足球场地的运动速度过快,大多数系统的范围仅仅是对未来系统的一个简单框架。因此,如果想通过编程来实现更复杂的策略,就必须将扩大场地的研究作为主要的问题。图6 四足机器人比赛2.6类人机器人比赛类人机器人显现出了足球运动员的基本技巧,比如射门或防止对方进球。相关的对象以颜色来进行区分。由于一些类人机器人具有远程操控的特点,人类干预在类人机器人的比赛中是充许的。3把足球看作是一个多智能体的环境:从分布式人工智能和多智能体研究方面来看,机器人杯足球赛是一个特殊的但却非常吸引人的实时多智能体环境。如果我们把一个足球队看作多智能体的系统,许多有趣味的研究就会浮现出来。图7 类人机器人比赛在一场比赛中,我们有两个竞争队伍,每个队伍有一个全队的共有目标,那就是赢得比赛。两队的目标是不相容的,对方的球队可以看作是动态的阻碍环境。这个环境可以妨碍全队的目标实现。为了实现这个目标,每个队成员必须动作迅速,灵活并且能够互相协作,并把局部和全局环境考虑在内。球队可能有一些全局(整个球队范围内)策略去实现共同目标,并且需要局部和全局的技巧来实现子目标。然而,考虑到如下所列的挑战:比赛环境,也就是说队友和对手的动态程度非常高;每个球员的感知可以被局部限制;每个球员的角色可能不一样;球员之间的交流是有限的,因此每个智能体必须在资源有限的环境下表现得非常灵活并且具有自主特性。通过对这些问题的总结,我们可以认为机器人足球是一种基于高动态特性环境的协作的分布式的实时计划方案。在为实现共同目标而实行的分布式协作计划中,重要任务包括在每个智能体上生成有潜力的局部计划,并协调这些局部变化,问题空间的动态变化,比如目标变化频率相对于每个计划者的性能来说是相当大的。轮流产生计划和执行语句的反应式计划被认作是一个有效的方法,至少对一个要处理这些动态问题的智能体来说。对协作计划安排来说,现实中有许多经常性变化的问题空间或每个智能体存在能力被局部限制的问题。在通讯耗费和全局计划的准确性上有一个折中(这被叫做预期/执行折中)。通讯耗费是在协调智能体局部计划与全局计划所必须的。通信耗费与处理耗费之间的关系的研究向我们展现了这个问题。这个研究关心的是FA/C假设的可靠性和优化局部计划与全局计划准确性两者之间的关系。在动态问题空间中的反应式协作计划安排已经多次在基于追逐模式比赛(捕猎者猎物模式)中提出并评估。然而追逐赛是一个相对简单的比赛,这种比赛环境一般是为了便于单智能体结构的研究。我们可以看出,机器人杯足球赛将会为分布式人工智能和多智能体研究提供一个更强劲,集成度更高的令人激动的先驱评价环境。4为机器人杯所做的关于现实机器人的研究:在这部分,我们讨论关于实现现实机器人参加机器人杯的几个研究性问题。(1) 设计机器人杯球员和控制指令:现存机器人球员己经被设计得能执行大部分单一的行为动作。比如前进、带球、旋转。一个机器人杯球员应该被设计得能够执行多重子任务,比如射门(包括踢球)、带球(前进)、传球、顶球和扔球。这些指令常常包括一些避开对手的普通行为。大体上说有两种方法去建造机器人杯机器人:分别设计每个部分,每个部分专门为一个动作而设计,然后将它们组装成一体。设计一到两个能够完成多重子任务的元件。方法看起来设计较为简单,但建造较为复杂。反之亦然。由于机器人杯球员应当能够快速移动因此它必须紧凑些。因此法应是机器人杯机械设计的一个新目标。我们需要紧凑的强有力的具有宽动态范围的驱动。同时,我们应开发成熟的控制技术。这种控制技术应能使多重活动部件尽可能少。并使能量消耗达到最少。机器人杯参赛者的终极目标是建造一种类人机器人,它可用自己的腿脚来跑和踢,并传球。它可以用自己的胳膊来扔球。并且它可以用头来顶球。建造一支类人型机器人队伍在现在看起来是不可能的。(2) 视觉和传感器整合:视觉信息是一种丰富的信息资源,它不光能感知外部世界,同时也能感知机器人的行动效果。计算机视觉研究人员一直在探索一种准确的能从2D视觉信息转化的3D模型并相信3D模型是最有力的表现。它可以用在很多应用中。比如视觉生成并形成数据库、机器人操作和导航。然而,费时的3D再现对机器人杯球员的任务来说可能不是必须的,也不是最优的。为了能对周围情况做出反应,机器人杯需要快速从周围环境中获取信息,来选取自己的行为方式。我们不建议采取专用的视觉系统,因为视觉系统是一种用特殊方式与周围世界交互作用的复杂系统。机器人杯是这个世界的一部分,它将会弄清视觉的角色和评价在电脑视觉领域前途未卜的图像处理的表现。除视觉系统外,机器人杯球员需要其他的感应装置比如声纳及触觉感应和力与转矩的感受来区分视觉信息。同样,机器人杯球员需要实时处理多传感器整合和集成信息。因此,粗略利用多传感器整合系统的直接办法看起来并不适合。我们就为机器人杯开发一种传感器整合集成的方法。(3) 学习型机器人行为:单个球员必须能够执行几种动作,其中的每一个动作都都是根据当前周围环境来选定的,考虑到传感器信息处理和行动执行的不确定性,为所有的情况编定机器人行为是不可行的。机器人学习法看起来很有前途。作为一种机器人学习方法,强化学习最近引起了人们的广泛注意。这种学习方法用极少的推理却得到了高性能反应和适应行为。然而大多数现在的应用只有在电脑在虚拟环境下仿真才能够实现。现实机器人应用极为少见(silva99)。对强化学习来说机器人杯是一个很好的平台,因为强化学习的优势大部分取决于机器人所能达到的大型和复杂任务的程度。在机器人联赛的基础阶段单对单的竞赛看起来是可行的。由于球员要考虑对方的运动,问题的复杂程度要比没有对手的情况下射门要高出很多。为减少这种复杂程度,任务分解是一种常用的办法。Fredrik提出一种学习避开守门员并射门的行为的方法(Fredrik00)射门和躲避是分别独立学习得到的,并且这两种行为在学习过程中相互协作,由于有限的视觉区域,他们的方法仍然需要承受巨大的状态空间,并且存在观察及联络方面的问题。Kum提出一种反应式直接法来构架在动态环境中的实时智能控制。在一个单对单的类似足球比赛的游戏中应用了他的方法,由于它的方法需要全局感知场地内机器人的位置,所以这种方法并不能应用于只允许智能体感知(请查看规则部分)的机器人杯比赛。在最终比赛中,考虑使用多对多的比赛,在这种情况下,机器人必须具有集体行为,作为一个团队定义所有团队行为看起来是不可能的,特别是在当某个复合动作需要被执行的时候。很难找到一个学习这些行为(也就是集体性行为)的简单方法。我们将不会定义某种情况为所有球员及球的准确位置,仅仅是可能将他们分类为某种模式,或者我们可以考虑模仿式协作。另外,与机器人杯相关的问题比如任务描述和环境建模也是一些具有挑战性的课题。当然,把解决以上问题的方法集成到一个物理实体上是最困难的一个问题。5 机器人的相关问题:机器人足球比赛的实现是基于硬件或是模仿式机器人。规则与真人足球比赛相类似。由硬件实现的机器人足球赛的研究涉及电脑、自动化、控制、传感器技术、无线通讯、精密机械、模仿材料和无数前沿的研究和综合、集成。模仿式机器人足球赛在标准软件平台上运行,它包含控制技术、通信、传感器和其他一些方面,研究的关键问题是一些先进的功能,如系统内的协作动态判断和及时的计划、机器人的学习和一些当前人工智能的一些热点。因此,在国际人工智能领域,机器人足球赛被认作是一个在未来50年内的一个标准的课题,就像在人和电脑间进行的国际象棋赛一样。机器人足球赛为人工智能理论应用到实际做出了许多贡献。同样它为检验新想法新技术和促进相关技术的发展做出了帮助。一系列应用到机器人足球赛的新技术将会促进社会经济文化的发展。机器人足球赛不仅是一种具有高科技水平的前沿竞赛,同样也提供了真正比赛提供的休闲娱乐及乐趣。我们可以预料这个活动将会产生巨大的市场需求和新的工业机遇。而且还会带来不可估量的经济效益和社会应用。机器人杯研究目标是为分布式系统提供一个测试平台,它以一种特殊的方式包含了以下几个研究目标:机器人形态。现在机器人利用轮子和轨道来组成形体,而人类球员不会用这些东西来在球场上踢球。所以我们必须把机器人建造得跟人类相似。比如具有相同的姿态,结构和体重。机器人的躯体。如果机器人充满了铁和塑料,人们将会害怕接触它。所以,机器人必须拥有自己的肌肉并且可以与人类相接触。机器人能源。现在足球机器人的能源是电池。但是只能用几分钟。在将来,足球机器人必须跑和移动4045分钟。那意味着电池必须体具有重量轻和能量大的特性。机器人技巧。现在两腿机器人能够爬楼梯。最好的足球机器人是SONY公司的四足狗。50年后机器人一定可以像人一样跑跳射门和带球。人们可以做到的机器人也可以做到。机器人智能。高级球员用他们的大脑来踢球,所以明星球员的智力必定很高。在 1977年IBM的深蓝电脑击败了卡斯帕罗夫,但是IBM只用了16RISK6000,所以在将来内置足球机器人球员的内置微型计算机一定会非常优秀。机器人的感觉。传感器部分将会被随意放置,比如,它可以拥有六个眼睛,并利用声纳和无线通讯网络。现在的传感器技术不能解决图像理解触摸力度和内置传感器的功能与效率的问题。所以我们必须解决这些问题。6 机器人杯和MAS(多智能体)的关系:6.1智能体MAS和机器人杯机器人杯是一个典型的MAS(Multi-agent system多智能体系统)模型,我们可以把7个机器人当做7个终端,这将会涉及MAS一些相关技术,比如通讯和协作。这些技术正是MAS的核心技术。智能体是一个近几年在电脑科学领域的一个重要的概念,这个概念已经被广泛应用到了人工智能领域、分布式计算机系统学等等。同时这个概念提供了一个崭新的分布式开放系统的设计路线。它被认作是“一个软件发展的重大突破”,在AI领域人们把智能体当做计算机化的实体,它能独立完成某种任务,并且具有在某种环境下的生命周期估计。人们同样把由多个智能体组成的可相互交流和互动的系统叫做MAS。大体上认为智能体研究可以分为智能代理、MAS和智能导向编程(AOP)。他们之间并不是相互孤立的。智能代理可以看做是智能体研究的一个微缩级别。但AOP和发展工具或者AOP平台目的是为了MAS研究服务。因此,从某种程度上说,我们可以说这三个项目对MAS研究来说是一体的,这种说法与我们现实环境相一致,因为大多数现实系统属于MAS。MAS是机器人杯的基础技术,机器人杯是MAS系统的一个典型。很明显,机器人杯技术包括一些智能体相关技术比如协调规则、可靠的通信、死锁和一些其他的技术。这些技术是MAS的核心技术。对于一个想参加机器人杯的研究人员来说最基本的问题是设计一个多智能体系统。这个系统可以实时做出响应,他同样可以执行一个合理的面向目标的行动。由于足球比赛空间巨大为所有可能情况和条件还有智能体行为编码是不可能的,因此,让智能体学会策略十分关键。而且这些与智能体研究的一些技术密切相关。这些包括:在协作环境下的机器学习MAS的构建:及时的MAS团队协作控制和命令执行。模拟对手。6.2 MAS系统的协调由于机器人杯是多智能体系统,智能体间协调和控制问题便成了要解决的重要问题。如果可以被恰当地解决,那将会给MAS带来很多好处比如:降低协调的花费;加快整个系统的反应速度;确立集体和个体行动的效用关系;保护缺乏推理能力的机器人并给带有强烈冒险精神的智能体带来好处。解决等待其他智能体执行完任务、队内协作等问题。在MAS中协作和控制问题实际上是有智能体的群体行为(群体行为概念是意味着在群体活动中,发起行为的个体将会从与其他个体交换资源的过程中受益,尽管这些资源对它来说并不是重要的)引发的。因此,研究MAS的群体行为变成了最基本的问题。现在MAS群体性研究者已经取得了一部分成就。但是由于缺少进一步的MAS群体性研究,当前的协作和控制研究仍然存在许多未解决的问题,比如:很难判定各个方法的优缺点;过分注重个体研究等。协作法可以被分为如图所示的几种方法。这里我们仅讨论团队目标的隐性协作。作为一种隐性方法,集体目标不仅可以用来降低成本,同时也可以用来嵌入MAS集体行为并平衡个体和集体的获益。集体目标对MAS来说是一个好的突破。如果P是一个集体目标,那么(C是集体):每个智能体I把P当做自己的目标;每个在C中的成员有意识的与其他成员共同完成这个目标;每一个球员把P当做目标,因为它们相互信任;他们信任对方,所以如果智能体I达到了目标P,则其他成员认为自己也达到了目标。图8 协作方式分类现在集体目标的研究包括两个倾向,一个是研究倾向于智能体集体形成之前;一个是在智能体集体形成之后。6.3 MAS的通讯技术MAS研究中的通讯技术同样是一个非常重要的问题,它可以决定智能体通讯的优势和缺陷。如果它们流畅的交换信息,那将会提高智能体通讯的速度,因此,在己解决通讯问题的条件下,我们接着讨论怎样使的通讯更高效。计算机不能够理解人类语言的一个重要原因是它需要很多知识资源,如果信息发送方能够了解信息接收方的情况,它将会发出更多的长度短内容少的信息。因此,有效的交流需要解决的如下两个问题。首先是利用背景信息。如果信息接收方能够与信息发送方享有共同的背景信息,那么共同的背景可以作为一种信息资源来决定信息的意义,共同环境包括名词、索引、当前环境等,比如:Tom离开了家,并且他很快就会回来。如果信息接收方理解了第一句话“Tom离开了家”,那么它就会认为第二句中的“他”指的是Tom。因此“他”可以替代Tom。尽管这只是做了很少的节约,但是大量的节约加起来就提高了效率。在这里背景环境同样也可以叫做语言的预定义。并且预定义将会对正确发送信息起到帮助作用,并且使得信息接收方能够正确的理解接收的通话。接下来是消除歧义。用人类语言的人能通过知识资源来区分具有不同含义的字和词组所要表达的真正含义。但是对智能体来说即使发送没有歧义的信息也需要用到大量的字和非常复杂的表达。这包括许多方面:(1) 字的歧义同样的字可能有许多不同的意思,比如“Tom is hot”这句话不仅可以表示“Tom工作做得很好”,同样也可以表示“Tom很热”。由字的多义性引起的歧义叫做字的歧义。要解决这个问题,需要很多附加的知识和一个句子的上下文。(2) 句子结构引起的歧义有时候一个句子可以用不同的方式来表达。也就是说词语可以用不同的方式组合起来,这种歧义叫做句子结构的歧义。比如“He saw her at home”,这里不光可以说明“他在看”,同样也可以表示“他在家里”。解决这个问题的办法是让接收方知道他或她的位置。(3) 引用的歧义重复使用代名词和其他词可能会引起不同的意思。解决这个问题的过程涉及到复杂的发送方与接收方对内容的推理。(4) 语言应用的歧义(5) 如果共同的知识资源和对接收方背景的学习是不确定的,这种歧义叫做语言应用的歧义。解决的办法是确定背景的信息的接收使得双方具有共同的信息。7 机器人的学习:图9 强化学习的略图机器人杯研究的关键问题是如何通过学习来提高智能体的智能,也就是提高球员的竞争能力。在许多学习方法中,强化学习法有望解决能感知环境的自律机器人智能体怎样选择进球最佳方案的问题。这种方法得到了广泛的关注。强化学习的机制如图9所示。让智能体所在环境为S,把任意智能体可能执行的动作叫做A。如果的St状态下执行任务At,那么智能体得到一个Rt的反馈,这个Rt是状态-行动转化后的一个直接结果。所以从总体(St,At,Rt),智能体的任务是学习控制规则:SA。这个规则可以使奖励的期望和最大。对于机器人杯的电脑仿真赛,竞赛的模式是客户端/服务器的模式,在这种模式里,人们采用足球服务器的标准软件平台,参赛队伍写出他们自己的客户端程序去仿真一个真正的足球赛,并且每个终端球员程序可以看做是与环境交互的智能体。在这个游戏里,每个智能体的行为如踢,冲,转等不仅是一些底层的策略,这些同样也是比赛中的关键问题。在踢球时对环境也就是足球服务器的交互作用,和反馈端口返馈回当前的环境信息。然后球员的任务就是去设计一个策略,使踢球效果达到最好,也就是说同时控制球并踢好球。如何协调整个队伍进行协作学习也是一个比赛获胜的关键问题。如图9所示,除智能体和环境外,仍有四个重要的部分,包括策略功能、奖励功能、还有评价功能和选择性的环境模拟功能,策略学习是根据己观察到的状态定制出下一个状态要执行的动作。奖励机制定义了强化学习的目标。它定义了一个可感知的环境状态(或是状态-动作对)作为一个值,这个值是机器人对状态的本质需求,也就是奖励。在强化学习中单个智能体的目标是在漫长的学习过程中将整个奖励最大化,而评价功能显示了在学习过程中什么是有用的。奖励决定最直接的对环境的本质需求。所以状态值反映了将来可能状态下的对状态的需求和在将来状态中获得奖励。由于环境模型模拟了模型行为,所以应用这样一个模型智能体可以预见环境将会对智能体的行为做出什么样的反应。强化学习可以解决大量没有优先级的动态程序。一个强化学习的总体结构如下所示:(1) 初始化学习固有状态作为Io(2) 循环观察当前状态S应用评价功能V去选择一个动作A=V(I,S)执行动作A让R作为在状态S下执行A的直接奖励应用更新功能更新固有状态I=U(I,S,A,R)通常固有状态将会通过存储好的学习算法计算并用状态表和行为数据的方式编码。通过遵循调整当前状态的强化命令,升级功能计算当前固有状态、输入、要执行的行为和新状态的强化,并且根据存储起来的固有状态信息,评价功能V计算固有状态并输入一个动作。在不同的强化学习中,U和V有一些不同点。Q学习仅仅是一个典型的强化学习,在这种模式中,训练样本并不跟相似,相似的是给机器人行为的奖励。所以很难通过学习得到最好的:SA策略。这个问题可以通过学习定义在状态和行为之上的评价功能来解决。通过学习评价功能,一个智能体获得最基本的策略。一个很明显的好的评价功能是V*,当V*(S1)V*(S2)时,智能体将会希望进入S1,因为那样会得到一个大一些的奖赏。当然智能体会选择行为,而不会选择状态。8研究机器人杯的意义:通过仔细考虑,我们可以提出更多的内容和难题,我们看起来有理由拒绝“人类和机器之间的比赛”的想象,因为在当前要达到这样的目标是不可能的。但是回望历史,过去有太多的我们先人无法想象的科学成就不是吗?50年内人们将会对科学发展产生新的认识。从第一架莱特兄弟的飞机试飞成功到阿波罗号飞船登陆月球,大约仅有半个世纪,同样从第一台电脑的诞生到“深蓝”电脑打败人类天才也是半个世纪。现在我们应该明白,在50年后,我们在“人类和机器之间的比赛”面前将不会说不。我们现在需要的是创新与积极参与,我们应该做的是尽最大努力去促进这个过程。很明显我们应更加注重创新,机器人杯包含人工生命、能源、动力、材料等学科的发展,同样它也孕育着机械、电子、控制、信息和电脑等与机器人相关的学科的重大突破。机器人杯虽然只是几个球员的高科技球赛,但它却向我们展示了令人费解的场景,比如机器人撞墙,两个机器人相互纠缠,并且有些机器人显得很迷乱,并不关心球在哪里。人们不理解为什么机器人的智力还赶不上个孩子。这就是说让机器人拥有人类的智慧及思考能力哪怕是三岁小孩的能力并不是一件容易的事情,到2050年,科学家们想组建一支全自动的能够在与人类冠军队的比赛中获胜的机器人队伍。这是一个伟大的目标。结语:这个论文讨论了一些MAS系统和机器人杯的主要技术。这个主要目标是让读者知道更多的关于智能体系统的知识和引发智能体导向技术的快速成熟的原因。程序设计的发展总共有四个阶段:面向过程的编程,模块化编程,面向对象的编程,和智能编程。每个过程都是越来越抽象越来越模糊的建模工程,直到最终实现自动编程。因此智能化的编程是编程史上不可避免的一个过程,机器人杯是一个促进机器人基础技术研究的动力。致谢:本作品获得了中国博士基金组织的支持。参考文献:1Balch T, Mhybinette (2000), Social Potentials for Scalable Multi-Robot Formation. IEEE International Conf.on Robotics and Automation (ICRA 2000):73-80. 2Magnus Boman(1999), Agent Programming in RoboCup99. AgentLink NewsLetter, (4), November 1999. 3Burkhard H D,et al (2002),The Road to RoboCup 2050. IEEE Robotics & Automation Magazine. Jun. 2002: 31-38. 4Cai Qing-sheng, Zhang Bo (2003), An agent team reinforcement learning model and its application. (J). Journal of Comput

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论