【硕士论文】Robocup决策系统中多智能体技术研究.pdf

上传人：努*** IP属地：江西上传时间：2019-12-23 格式：PDF 页数：72 大小：2.63MB 积分：0 举报 版权申诉

已阅读5页，还剩67页未读，继续免费阅读

【硕士论文】Robocup决策系统中多智能体技术研究.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

南京邮电大学硕士研究生学位论文摘要摘要 R o b o c u p 机器人世界杯是一项国际广泛参与的研究活动它旨在为人工智能和智能机器人的研究提供开放统一的平台在该平台上各种各样的智能体技术被有效整合应用并得到检验足球机器人系统是一个典型的多智能体系统决策系统作为整个足球机器人系统的核心决定机器人的协调协作是机器人的大脑因此决策系统的研究在多智能体领域具有十分重要的意义本文以R o b o c u p 2 D1l v s ll 仿真比赛为研究对象对多智能体技术在R o b o c u p 决策系统中的应用进行研究首先介绍R o b o c u p 仿真比赛的运行机理其次分析足球机器人比赛中传统的决策模型的缺点介绍一种新的两层决策层和动作层决策模型 A p o l l o 队的决策模型再次描述专家系统在两层决策模型的动作层的应用接着介绍决策树算法的理论推导及其在R o b o c u p 比赛中的应用最后是本文的核心深入研究通过样本训练模糊决策树在两层决策模型的上层中的应用提出通过智能体技术进行射门决策的新方法并进行智能体技术中模糊I D 3 算法和M i n A m b i g u i t y 算法与传统决策方法的比较大量仿真数据和比赛结果表明通过智能体技术进行决策的新方法相对传统决策方法具有更高进球率关键词 R o b o c u p 多智能体系统决策子系统专家系统模糊决策树算法南京邮电大学硕研究生学位论文A b s t r a c t A b s t r a c t R o b o c u p R o b o tW o r l dC u p i sa ni n t e r n a t i o n a lr e s e a r c ha c t i v i t yw h i c hi sp a r t i c i p a t e d w i d e l y I ti sd e s i g n e df o ra r t i f i c i a li n t e l l i g e n c ea n di n t e l l i g e n tr o b o t i c sr e s e a r c h e sb yp r o v i d i n ga s t a n d a r dp l a t f o r m M a n yk i n d so ft e c h n o l o g i e sc a nb ei n t e g r a t e da n de x a m i n e do nt h i sp l a t f o r m A nr o b o ts o c c e rs y s t e mi sat y p i c a lm u l t i a g e n ts y s t e m T h ed e c i s i o n m a k i n gs u b s y s t e mi st h e c o r eo ft h ew h o l er o b o ts o c c e rs y s t e m j u s tl i k et h eb r a i no ft h er o b o t s I ti sr e s p o n s i b l ef o rt h e c o o p e r a t i o na m o n gt h e r o b o t s S ot h er e s e a r c ho ft h e d e c i s i o n m a k i n gs u b s y s t e mh a s s i g n i f i c a n c et ot h em u l t i a g e n tf i e l d s T h i sd i s s e r t a t i o ni sb a s e do nt h eR o b o c u p 2 D1lv sl1s i m u la t i o nc o n t e s t T h ea p p l i c a t i o no f m u l t i a g e n tt e c h n o l o g yi nR o b o c u pd e c i s i o n m a k i n gs y s t e mi sp r o p o s e d F i r s t l y t h er u n n i n g m e c h a n i s mo fR o b o c u ps i m u l a t i o ni si n t r o d u c e d S e c o n d l y t h ed i s a d v a n t a g e so ft h et r a d i t i o n a l d e c i s i o n m a k i n gm o d e la r ea n a l y z e da n dan e wd e c i s i o n m a k i n gm o d e lw i t ht w ol a y e r s d e c i s i o n m a k i n gl a y e ra n da c t i o nl a y e r o fA p o l l ot e a mi sp r o p o s e d T h i r d l y t h ea p p l i c a t i o no f e x p e r ts y s t e mi nt h ea c t i o nl a y e ri sd e s c r i b e d T h e n t h et h e o r yd e r i v a t i o na n da p p l i c a t i o no fa d e c i s i o nt r e ea l g o r i t h mi nR o b o c u pa l ed e s c r i b e d F i n a l l y i nt h ec o r eo ft h i sd i s s e r t a t i o n t h e a p p l i c a t i o no ft h ef u z z yd e c i s i o nt r e et r a i n e db ys a m p l e si nt h ed e c i s i o n m a k i n gl a y e ri ss t u d i e d i nd e t a i l an e ws h o t d e c i s i o nm e t h o dt r a i n e db ym u l t i a g e n tt e c h n o l o g yi s p r o p o s e d t h e d i f f e r e n te f f e c to fF I D 3 M i n a m b i g u i t ya n dt h et r a d i t i o n a lm e t h o di sg i v e no u ti nt h el a s t A l a r g ea m o u n to fd a t aa n dm a t c hr e s u l t sh a ss h o w nt h a tt h en e wm e t h o dh a sh i g h e rs c o r i n gr a t e t h a nt h et r a d i t i o n a lm e t h o d K e yW o r d s R o b o c u p M u l t i a g e n tS y s t e m D e c i s i o n m a k i n gS y s t e m E x p e r tS y s t e m F u z z y D e c i s i o nT r e eA l g o r i t h m I I 南京邮电大学硕上研究生学位论文第一章绪论第一章绪论 1 1 足球机器人研究意义和现状机器人足球比赛的设想首先是由加拿大不列颠哥伦比亚大学的教授A l a nM a c k w o r t h 在 1 9 9 2 年提出的目标是经过约五十年的研究创建一支机器入足球队能够战胜人类足球冠军队为此作为一个里程碑式的项目机器人足球为人工智能和智能机器人学科的发展提供一个具有标志性和挑战性的课题此想法一经提出便得到各国科学家的普遍赞同和积极响应许多著名的研究机构和组织开始开展此项研究并将其付诸实现不断推动相关技术的发展 l 机器人足球比赛是一个极富挑战性的高技术密集型项目其研究内容包括智能感知智能思维智能学习和智能行为等方面同时也是机器人足球比赛的竞争焦点而这些内容又正是人工智能技术研究的基本内容因此机器人足球比赛成为人工智能研究的标准问题机器人足球比赛将研究对象从单智能体发展到分布式多智能体系统将静态研究环境发展到动态环境并将非实时知识处理方式发展到实时知识处理方式可以说机器人足球是继计算机象棋后出现的人工智能的新的里程碑它的研究将人工智能技术推进到新的阶段随着人工智能技术的不断发展其研究对象正在从单种智能人类智能向多种智能人工生命从单层智能向多层智能联结主义符号主义行为主义对应人工智能研究的不同层次从单体智能向多体智能转变而机器人足球技术的研究正符合这种转变的趋势机器人足球比赛项目的深入开展带动其它各方面智能技术的推广如一产业应用将机器人足球所包含的各种硬件和软件技术具体应用到产业用以改造旧的传统企业技术或开发新型高技术产品军事应用将机器人足球所包含的多智能技术及战略战术具体应用到机器人部队的协同作战或救灾机器人部队的协同救护系统上三教育应用将机器人所包含的具有趣味性和观赏性的人工智能技术具体应用到教学之中使其各种工具与手段智能化促进教育改革此外在自动控制智能交通信息处理系统分析与集成等技术领域也有广阔的发展前景目前国际上有组织的机器人足球比赛分为两大系列即F I R A1 2 1 和R O B O C U P F I R A l 堕窒坚生奎兰堡主婴窒竺兰垡堡茎翌二茎堕堡是国际机器人足球联盟 F e d e r a t i o no fI n t e r n a t i o n a lR o b o t s o c c e rA s s o c i a t i o n 的缩写 F I R A 每年举办一次机器人足球世界杯赛 F I R AR o b o t S o c c e rW o r l dC u p 简称F I R AC u p F I R A 的比赛项目主要有 N a r o S o t 超微机器人足球赛 M i r o S o t 微型机器人足球赛 R o b o S o t 小型机器人足球赛 K h e p e r a S o t 自主式机器人足球赛 H u r o S o t 拟人式机器人足赛 S i m u r o S o t 仿真机器人足球赛 R O B O C U P 的原意为R O B O TW O R L DC U P 1 9 9 7 年正式成立总部设在日本东京正式注册于瑞士伯尔尼 R O B O C U P 自1 9 9 7 年起每年举办一次机器人足球世界杯赛 T h e R o b o tW o r l dC u p R O B O C U P 的比赛项目主要有 S i m u l a t i o nL e a g u e 仿真机器人比赛 S m a l l S i z eL e a g u e F l8 0 小型足球机器人赛 M i d d l e S i z eL e a g u e F 2 0 0 0 中型自主足球机器人赛 S O N YL e g g e dR o b o tL e a g u e S O N Y 有腿机器人足球赛 R O B O C U P 比赛蓬勃发展目前国内外许多大学研究机构等等都参加该项比赛如 0 8 年的苏州世界杯有来自全球的约3 0 个国家的3 0 0 多支队伍共1 4 0 0 多名参赛者和学者参加比赛和期间的学术研讨会 1 2R o b o c u p 仿真环境 R o b o c u p 仿真组比赛是分布式控制的比赛模式 3 是各种比赛项目中参赛队数目最多的一种其仿真环境与人类足球比赛的环境相似比赛队员的仿真模型也与实际队员很接近而且软件仿真比赛解决了由于没有机器人硬件而无法进行决策研究的问题故其对于分布式人工智能理论的研究具有重要意义仿真比赛是在一个标准的计算机环境内进行的比赛规则基本与国际足球联合会的比赛规则一致比赛采用C l i e n t S e r v e r 方式 I 扫R o b o c u p 联合会提供标准S o c e e r S e r v e r 系统参赛队编写各自的C l i e n t 艮P 球员客户端程序模拟实际足球队员进行比赛 S o c c e r S e r v e r 是一个允许竞赛者使用各种程序语言进行仿真足球比赛的系统它提供一个虚拟场地并对比赛双方的全部队员和足球的移动进行仿真以离散的方式控制比赛的过程为使仿真比赛更加真实 S o c c e r S e r v e r 在环境中生成一定的环境噪声对每个C l i e n t 的感知和执行动作进行干扰 C l i e n t 相当于球员的大脑指挥球员的运动每个C l i e n t 模块只允许控制一名球员 C l i e n t 之间不允许直接进行通信 C l i e n t 之间的通讯必须通过S o c c e r S e r v e r 来进行 S e r v e r 与 C l i e n t 之问的通信是通过U D P F I P 协议进行的竞赛者可以使用支持U D P I P 的任何程序系统每个仿真周期 S e r v e r 会从全部C l i e n t 读取下个周期队员要执行的命令同时S e r v e r 在一定的周期内决定于队员的自身状态为每个队员发送其相应的感知信息臣P S e r v e r 在根据 2 南京邮电大学硕士研究生学位论文第一苹绪论这些命令来引起球员的移动并且发送感觉信息返回给客户端程序当进行比赛时竞赛者同时运行与比赛球员数目相等的C l i e n t 客户端程序连接至l J S e r v e r 目标是将足球踢入对方大门而得分仿真比赛环境还提供一个裁判增强比赛规则它能够准确计时判定球出界得分等等 1 3 智能体技术本文应用于R o b o c u p 决策系统的智能体技术介绍如下一专家系统大多数专家系统包括知识库规则库推理机三部分以规则表示知识把一组规则放在一起让它们互相配合协同工作一个规则生成的结论可以供另外一个规则作为前提使用规则用I f T h e n 的形式表示 I f 部分包含给定信息或者因素称为前项前提或者条件规则的前项有两部分对象及取值对象和它的取值用运算符连接运算符确定对象并赋值 T h e n 部分为相应的行为称为后项和规则的前项相同后项也可以用运算符连接对象及取值后项还可以使用数值型对象和简单的数学表达式二决策树技术决策树学习是以实例为基础的归纳学习算法它从一组无次序无规则的事例中推理出决策树表示形式的分类规则采用至顶向下的递归方式在决策树的内部节点进行属性值的比较并根据不同的属性值判断从该节点向下的分支在树的叶子节点得到结论所以从根到叶子节点的一条路径对应一条择取规则整棵决策树对应一组择取规则一棵决策树的内部节点是属性或者属性的集合叶子节点是所要划分的类其优点主要有 1 在学习的过程中不需要使用者了解很多的知识背景知识 2 能够直接体现数据的特点容易理解 3 速度快准确性高 4 易转化成分类规则三模糊决策树技术由于现实生活中存在着大量的模糊现象加上人们对能够自动抽取模糊规则的专家系统的需要使得以处理离散型变量为主的传统决策树学习方法显得有些不足因此文献 4 提出将I D 3 算法与模糊理论相结合从而构建模糊决策树的算法模糊决策树学习方法便应运而生它是传统决策树学习的一个扩充和完善在决策树学习中引入模糊集合理论主要源于对以下几点的考虑 1 示例的属性取值及分类值不能精确描述这些值往往表现为亦此亦彼的不分明性需要引入模糊集合理论来进行描述 3 南京邮电人学硕上研究生学位论文第一章绪论 2 连续值属性的学习问题一直是示例学习中的个重要部分而对连续值属性的模糊化处理是一种比离散化处理更有效的途径 3 现实数据的复杂性导致噪音的大量出现这增加了学习问题的不精确性而模糊集合理论为处理噪音数据提供除概率统计以外的另外一种方法 4 实际应用领域如模糊逻辑系统模糊控制模糊模式识别等不精确知识获取的需要决定学习结果应该表现为用模糊集合描述的模糊规则即以 I f T h e n 形式出现的模糊规则中的条件与结论应该由模糊集来表示 5 在对新的示例进行预测的过程中需要采用模糊推理机制从而得到更贴切更自然的结果在实际中的应用也证明与传统的决策树学习相比由于模糊决策树合理地处理学习和推理过程中的不精确信息具有更强的分类能力及稳健性使得知识表示的方式更为自然更易于理解由于能生成不同水平和不同置信度的推理规则为决策者提供丰富的决策信息同时也提供一种构造专家系统的有效途径 1 4 论文安排本文利用最新成绩为全国第三世界前十的南京邮电大学A p o l l o 足球队作为研究对象研究R o b o c u p 仿真比赛中机器人的决策系统分析不同决策系统的优缺点着重研究多智能体技术在决策系统中的应用并分析比较不同技术应用的实战效果及可能原因本文共分六章第一章介绍本文的研究背景及意义第二章介绍R o b o e u p 仿真比赛中的比赛模型和运行机制第三章分析足球机器人比赛中传统决策模型的缺点以及A p o l l o 队决策模型的优点第四章分析专家系统在两层决策模型的下层即动作层的应用第五章主要介绍决策树算法的理论推导及其在R o b o c u p L 匕赛中的应用第六章是本文的核心深入研究模糊决策树技术在两层决策模型的上层中的应用提出通过智能体技术进行射门决策的新方法并比较新方法与传统决策方法的实战效果大量数据和比赛结果表明新方法有更高的进球率 4 南京邮电大学硕士研究生学位论文第二章R o b o c u p 运行机理第二章R o b o c u p 运行机理本章主要介绍R o b o c u p 仿真比赛的核心服务器程序S o c c e r S r e v e r 的运行机制和参数意义接着根据这些参数和通讯机制观察分析客户端和服务器之间具体通讯信息的交换和命令执行状况等来说R o b o c u p 赛的运行机制和相关过程 2 1 比赛模型 2 1 1 运动模型场地的尺寸为1 0 5 6 8 单位没有意义球门宽度为1 4 x 6 4 是实际比例的两倍实验证明对于正常的宽度比例是很难进球的动作模型是离散的在一个仿真周期结束时全部的动作被执行一次每个仿真周期时间的长短是由参数S i m u l a t o r S t e p 决定的在每个仿真周期结束前 S o c c e r S e r v e r 接收所有C l i e n t 的命令并执行命令利用当前场上对象球员和球的位置和速度信息计算出全部对象新的位置和速度信息在仿真周期内对象的移动按如下公式进行计算 z f l 矽1 t 哆彬赂t l2 t l 2 tn t l 嗡口1 如唧站1 甜 7 移1 o 0 其中成和哆分别表示f 时刻物体的位置和速度 d e c a y 是一个参数分别由 b a l l d e c a y 和p l a y e r 一沈铡控制 t 表示对象的加速度可以通过D a S h 针对球员和k i c k 针对足球的p o w e r 参数计算得到 d p D w e x P D w e rr a t e c o s s i n 2 2 其中表示对象在t 时刻的前进方向 p o w e r r a t e 就是d a s h p o w e r r a t e 或者 k i c k p o w e r r a t e 如果对象为球员它的方向就是球员脸朝向的方向对于足球其方向的计算方法是 k e r D i r e c t i o n 2 3 南京邮电大学硕七研究生学位论文第二章R o b o c u p 运行机理其中目b a l l 和钱妇表示球和踢球队员当前的方向而D i r e c t i o n 是k i c k 命令中的第二个参数 2 1 2 干扰模型为反映出实际比赛中球以及球员的不确定性 S o c c e r S e r v e r 在球和球员的移动和转身的过程中加入一定的干扰因素首先考虑移动干扰是以如下的方式加入的 1 1 哆彭巧双巧一 2 4 这里k 是一个位于 m a m a X 中间的随机数删戳是和对象的速度相关的参数如式 2 5 所示亏m 戤阳行d I 吃哆 I 2 5 这里参数r a n d 由p l a y e r r a n d 或者b a l l r a n d 确定干扰同样也添加到T u r n 命令的A n g l e 参数中如式 2 6 所示 A n g l e 1 k 彳咄 2 6 2 1 3 体力模型每个球员都有自己的体力值 S o c c e r S e r v e r 通过限制球员的体力值来阻止队员始终以最大的速度p l a y e r s pm a x 跑动球员的体力模型包含三个方面 s t a m i n a 0 s t a m i n a m a x 表示球员的体力它限制p o w e r 参数 e f f o r te e f f o r t m i n 1 0 表示球员的体力使用的效率 r e c o v e r y r e c o v e r y m i n 1 0 表示控制体力的恢复速率其中s t a m i n a 和e f f o r t 是可以恢复的 r e c o v e r y 是不可以恢复的具体的计算方法为 1 当球员使用D a s h P o w e r 命令时它的P o w e r 参数要受到J 觚加口和e f f o r t 的影响 e f f o r t d a s h p o w e r m i n s t a m i n a p o w e r xe f f o r t 2 7 s t a m i n a s t a m i n a e f f e c t i v e d a s h p o w e r 2 8 由式 2 7 和 2 8 式知 e f f o r t 的大小决定s t a m i n a 中可以有效使用的部分 6 南京邮电大学硕十研究生学位论文第二章R o b o c 塑堡堑塑里 2 在每个循环周期内如果J 绷锄口低于e f f o n d e c t l l r 时 e f f o r t 减少 s t a m i n a 高于e f f o r t d e e t h r 时 e f f o r t 增加变化如下 I fs t a m i n a e f f o r t d e e t h rxs t a m i n a m a xA n de f f o r t e f f o r t m i n T h e ne f f o r t e f f o r t e f f o r t d e e I f s t a m i n a e f f o r t d e c t h r xs t a m i n a m a xA n de f f o r t r e c o v e r y m i n T h e nr e c o v e r y2r e c o v e r y r e c o v e r y d e c 4 在循环周期内 s t a m i n a 会得到一定程度的恢复回复时依r e c o v e r y 的当值进行 s t a m i n a s t a m i n a r e c o v e r y xs t a m i n a i n c I fs t a m i n a s t a m i n a m a x T h e ns t a m i n a s t a m i n am a x 2 2 感知信息球员从S o c c e r S e r v e r 接受的感知信息包括视觉听觉和自身状态等三种类型的信息具体参看表2 1 对于球员来说这些信息非常重要球员必须获得并根据这些信息才能决策自己的行为表2 1 球员感知信息名称接受时间信息类型限制有限的角度随着距离增加 S e e 每隔s e n d s t e p 时间都发生视觉精度减少当旁边的球员或者裁判有限的距离和频率 H e a r 听觉不指明说话球员的说话立刻接收身份和距离等信息 S e n s e b o d y 根据需要状态无 7 南京邮电大学硕士研究生学位论文第二章R o b o c u p 运行机理详细讲述这三种信息的格式和使用方法如下一视觉信息球员的视野模型如图2 1 所示 1 d w i d t h 卜一f i e l d l e n 兜t h 图2 1 球员视觉模型示意对视野模型的说明如下如果d i s t u n u mf a rl e n g t h 那么球员号码和球队名称都可见如果u n u mf a rl e n g t h 如果d i s t u n u m t o of a rl e n g t h 那么球员号码是不可见的如果t e a mf a rl e n g t h 如果d i s t t e a mt o of a rl e n g t h 那么队名是不可见的每个球员在每个时间段都从S o c c e r S e r v e r 得到视觉信息视觉信息按如下格式定义 s e eT i m eO b j i n f o 其中T i m e 指示当前时间 O b j i n f o 表示可视对象的信息其格式为 O b j N a m eD i s t a n c eD i r e c t i o nD i s t C h n gD i r C h n gF a c e D i r 其中 O b j N a m e 2 p l a y e rT e a m n a m eU n u m l g o a lS i d e l b a l l I f l a gc l f l a g l l c l r t l b R 南窒塑垒奎兰堕主竺壅竺兰篁笙茎兰三童垦竺竺堡堑型型一 l f l a gP l l r q c l b I f l a g r i b 1 l r l0 1 2 0 1 3 0 1 4 0 1 5 0 I f l a g f i r r i b l0 1 2 0 1 3 0 1 I f l a g l i r l t l b O l 1 i n e l l r l t t b D i s t a n c e 和D i r e c t i o n 分别表示目标的相对距离和相对方向 D i s t C h n g 和D i r C h n g 分另0 表示目标距离和方向的相对变化值它们不是精确值只是一个粗略值当被观察的目标是其他队员时参数中增加F a c e d i r 它表示被观察队员与观察队员之间的方向夹角如果两面队员面向同一个方向则F a c e d i r 为0 字母 lrctb 分别表示左右中心上下 p 表示罚球区球场的标志位f l a g 详细信息见下图2 2 图2 2 球场标志示意 D i s t a n c e D i r e c t i o n D i s t C h n g D i r C h n g 计算如下 P n p 旺一P x o p 社2p l I I P y o 2 一 P x o 么饧一V y O D t a n c P 厄虿 D i r P c 打D 刀 a r c t a n p 纵一 p D i s t a n c e e y P r y D i s t a n c e 9 南京邮电大学硕士研究生学位论文第二章R o b o c u p 运行机理其中办办是目标的绝对位置坐标 n P y 是接收视觉信息的队员自己本身的绝对坐标是目标的绝对速度 u 队员自己的绝对速度是队员所面向的绝对方向另外岛和表示目标的相对位置和相对速度 e r x 表示平行于相对位置向量的单位向量球员的视觉信息由下面几个方面决定视野宽度正常模式为 4 5 4 5 宽模式为一9 0 9 0 而窄模式为 2 2 5 2 2 5 邻域距离自己3 米之内当某个对象在球员邻域内但在视野之外时球员只能知道对象的类型球其他队员球门或标志不知道对象准确名字远处目标信息的不确定性无论远处的目标是球还是球员目标的距离值按公式 2 1 0 进行量化 d Q u a n t i z e e x p Q u a n t i z e 1 0 9 J 0 1 0 o 1 0 2 1 0 其中d 和力分别表示精确距离和相应的量化距离 E IQ u a n t i z e V Q r i n t V Q Q 这表示队员是不能知道远处物体的精确位置的例如距离为1 0 0 0 时最大噪声可以达到1 0 0 但当距离在1 0 0 之内时噪声小于1 0 对于远处目标是旗或者线的情况距离值按式 2 1 1 量化 d O u a n t i z e e x p 缈册t z e 1 g d o 1 0 0 1 2 1 1 观察模式决定观察频率和从S o c c e r S e r v e r 所接受到的视觉信息的细节观察模式包含 V i e w q u a l i t y 和V i e w w i d t h 两个参数其中V i e w q u a l i t y 为h i g h l o w V i e w w i d t h 可取值为w i d t h 1 8 0 n o r m a l 9 0 n a r r o w 4 5 三种当V i e w q u a l i t y 设置为h i 曲时 S o c c e r S e r v e r 为观察者发送详细的目标位置信息而当V i e w q u a l i t y 设置为l o w 时 S o c c e r S e r v e r 为观察者发送简化的目标信息只有目标的方向另一方面 S o c c e r S e r v e r 为队员发送视觉信息的频率随着V i e w q u a l i t y 和V i e w w i d t h 而变化缺省时间间隔为1 5 0 毫秒由 S o c c e r S e r v e r 的参数S e n ds t 即控制观察角变宽时频率减半反之加倍二听觉信息蒜南京邮电大学硕士研究生学位论文第二章R o b o c u p 运行机理当某球员或裁判发送消息s a y 朋如孵时附近的其他球员包括对方球员可以立即听到消息没有延迟他们以H e a r T i m e D i r e c t i o n M e s s a g e 的形式听到消息其中7 3 m e 为当前的仿真周期 D i r e c t i o n 表示声音来源的相对方向对于球员自己发送的消息 D i r e c t i o n 为s e l f 而如果是裁判发的消息 D i r e c t i o n 为咖r e e 队员仅有有限的通讯能力只能听到一定距离之内的声音此距离由S o c e e r S e r v e r 参数 a u d i oc u t o f f d i s t 决定同时队员在h e a r d e c a y 个循环周期内只能听到h e a r i n c 条消息一般在两个循环周期内当多名队员同时发送多个消息时一名队员只能接收一条而丢失其它的消息裁判所发的消息具有最高的优先级可以被全部队员接收到三状态信息根据每个球员的需要 S o c c e r S e r v e r 会发送给每个球员其自身的状态信息这些信息包括球员当前的体力s t a m i n a e f f o r t 和r e c o v e r y 值球员当前的速度球员当前的 V i e wq u a l i t y 和V i e w w i d t h 值 2 3 球员行为球员客户端程序之所以能够控制球员在仿真环境中进行比赛正是因为它能够通过通讯机制发送七种行为命令给仿真环境S o c c e r S e r v e r 完成其对球员的决策和控制过程这七种行为命令具体如表2 2 所示表2 2 球员行为命令命令含义类型范围执行时间频率限制文本小于等于每2 个周期内 S a y M e s s a g e 播送讯息立即能听见1 条讯 A S C I I5 1 2 字符息 T u r n A n g l e 转角度浮点 1 8 0 至1 8 0周期结束每周期一次 D a s h P o w e r 前冲的力量浮点周期结束每周期一次 K i c k P o w e r A n g l e 踢球的力量和角度浮点周期结束每周期一次 C a t c h A n g l e 扑救角度浮点周期结束每周期一次 S e n s e b o d y 0 立即每周期3 次 H i g h L o w C h a n g e v i e w 视觉质量离散 N a r r o w 立即每周期一次 V i e w q u a l i t y V i e ww i d t h 视野宽度 N o r m a l 厂W i d e 表2 2 中的行为命令可以分为通讯命令运动命令及获得状态信息和改变视觉模式命南京邮电大学硕士研究生学位论文第二章R o b o c u p 运行机理令分别介绍如下一通讯命令球员可以通过s a y 拖船孵命令进行通讯并且能够s a y 任何语句但M e s s a g e 次不能超过5 1 2 个A S CI I 码字符双方在一定范围内的队员都能够完整的听到该讯息队员可以随时说话但是由于听力是受到限制的所以说话过于频繁是没有意义的二运动命令球员有转角前冲踢球和扑救等四种运动方式其运动命令带有的参数有A n g l e 角度和P o w e r 力量 1 T u r n A n g l e 1 8 0 A n g l e 1 8 0 指需要转动的角度正在移动的球员的转动效率有所减少根据公式 2 1 2 a c t u a l a n g l e A n g l e 1 0 i n e r l i a m o m e n t 奉p l a y e r s p e e d 2 12 2 D a s h P o w e r 3 0 P o w e r 1 0 0 是指前冲的力量球员只能朝他们面对的方向移动可以笔直向前或者向后如果要向其它方向移动他们首先必须转动球员的体力越少他们前冲的效率越低为使球员能够保持运动必须不断给它发送D a s h 命令而作用于公式的P o w e r 值将是其与参数D a s h p o w e r r a t e 相乘的结果 3 K i c k P o w e r 彳馏如 3 0 P o w e r 1 0 0 是指踢球的力量一1 8 0 A n g l e 球的速度矢量随着踢球的次数而累加当球在球员k i c k a b l e a r e a b a l l s i z e p l a y e r s i z e k i c k a b l e m a r g i n 范围内时球员才能够成功的踢到球实际的踢球的力量值和球相对于球员的运行角度以及之间的距离有关即要乘以系数得到胁咖聊M 纪串 1 0 25 dir 8d iff 0 25 一 dist ball playersize ball size 2 其中咖一d f f 是足球运行的角度和球员面对的角度的相对差值 d i s t b a l l 是足球和球员之间的中心距离而作用于l i c k 的p o w e r 值是将其与该系数相乘的结果从式 2 1 3 中可以看出随着角度或距离的增大踢球的力量将减少 4 C a t c h A n g l e 一18 0sA n g l P 1 8 0 是指守门员扑球的角度只有守门员在本方的 1 2 南京邮电大学硕士研究生学位论文第二章R o b o c u p 运行材L 理禁区内可以做扑球的动作并且必须满足的条件是足球正好在离守门员的 c a t c h a b l ea r e aw c a t c h a b l ea r e al 的矩形范围内矩形的底边经过守门员前冲的方向由 A n g e 指定尽管S e r v e r 是和c l i e n t 同步运行的但也不能保证和S o c c e r S e r v e r 的周期时间完全匹配所以S o c c e r S e r v e r 有可能会丢失一些发送给它的命令因此必须由球员客户端程序自行根据未来S o c c e r S e r v e r 传回的状态来判断命令是否被执行三状态视觉模式命令球员客户端程序通过发送s e n s e b o d y 命令可以从S o c c e r S e r v e r 获得其状态信息通过发 C h a n g e v i e w 命令则可根据需要改变V i e w q u a l i t y L o w H i g h 和 V i e w 州d t h N 姗w N o 锄a l w i d e 两种视觉模式 1 3 南京邮电大学硕士研究生学位论文第三章R o b o c u p 决策系统第三章R o b o c u p 决策系统决策子系统是整个足球机器人系统的核心负责机器人间的协调协作路径规划和动作执行由于面对的是一个复杂的动态变化的环境 5 J 决策系统需要同时满足系统在反应性适应性智能性和学习性等方面的要求本章在深入分析传统模型的优缺点的前提下介绍一种新的两层决策模型分为策略决策层和动作决策层并将该种决策模型应用到南京邮电大学的A p o l l o 足球队中通过多次国内外大赛的验证和检验证明该两层决策模型的有效性和先进性 3 1 决策系统设计要求 R o b o c u p 仿真比赛环境复杂场上形势瞬息万变既存在队友间的合作又存在对手间的竞争因此给决策子系统的设计带来许多挑战为使得场上的机器人智能体能够协调协作决策f 9 取得进球并赢得比赛的胜利设计的决策子系统必须具有以下特性一智能性决策系统的智能性是指机器人应该具有一定的推理和学习的能力推理能力是指决策系统能够根据赛场上机器人和球的位置信息推理出场上机器人的行为从而实现机器人之间的协作与协调学习是指决策系统能够自动学习比赛场上特定环境下的对应协作策略适应性适应性指机器人对不同环境状态的适应能力适应性强的决策子系统表现为当机器人处于以前没有碰到过的环境时仍能够很好地调整自身的决策以适应新的环境而不至于出现决策盲点指在某种状态下机器人没有得到任何决策指示而不知道如何运动的情况三准确性准确性是指决策系统能够根据场上的形势作出准确的判断从而采取准确的协作策略四快速性快速性是决策子系统必须保证的球场上瞬息万变球员的快速反应是射门得分的关键 3 2 决策结构对于多智能体系统而言决策方式一般有两种结构集中式决策方式和分布式强化学习决策方式 1 4 南京邮电大学硕士研究生学位论文第三章R o b o c u p 决策系统集中式决策方式其中智能体分为两类即知识管理智能体和动作执行智能体知识管理智能体综合场上所有可以获得的数据通过判断场上的比赛形势规划其他智能体的行为并给出指令同时自身不断学习其他智能体的协作控制策略动作执行智能体负责执行和完成知识管理智能体发送给它的协作意图如图3 1 所示图3 1 集中控制方式其中的知识管理智能体相当于足球场上的教练这种方式的优点是机器人协作效率高容易达到整体最优并且实施相对简单但是一个人处理事务的能力是有限的随着场上机器人的增多教练员的计算量也随之增大而且如果教练员一旦犯错误的话机器人很难纠正它因此这种方式只适应于比赛机器人数目相对较少的情况二分布式强化学习决策方式是指每个智能体根据其它智能体信息及从自己的视觉系统获得的环境信息自己产生自己的行为意图并不断学习在特定环境下对应的协作策略和动作如图3 2 所示图3 2 分布式控制方式 1 5 塑室塑皇查堂堡兰堕窒生堂垡堡奎一兰三里垦竺塑翌盗鍪墨篓在这种方式下每个智能体都具有学习能力具有自己的思维和决策能力因此当智能体数目上升时不用考虑智能体计算量的加大即使多智能体系统中一个或者多个智能体决策出错也不会影响其他智能体的正常工作但是这种方式智能体之间需要通讯增加系统的额外开销同时实现也相对比较复杂另外这种方法每个智能体只能学习到个体最优动作很难达到整个系统的全局协作最优同时它在学习收敛性方面的要求也更加难以满足 3 2 1 传统决策模型分析在R o b o c u p 仿真1 1 V 1 1 比赛中组委会根据其比赛宗旨规定智能体间的直接通信是违规的因此一般R o b o c u p 仿真队伍的决策模型如图3 3 所示信息预处理卜整体策略决策蝴援岛求一机器人1 机器人2机器人3 策略选择l 策略选择策略选择动作规划I 动作规划动作规划基本动作基本动作基本动作图3 3 足球机器人决策模型通过异构实现上图中的三个机器人即不同的计划执行智能体为不同角色同时在该系统中维系着一个对全局策略的控制拴l A p o l l o 队的做法是维系一个配置

人人文库> 全部分类> 行业资料 > 管理策划

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

【硕士论文】Robocup决策系统中多智能体技术研究.pdf

文档简介

温馨提示

最新文档

评论

【硕士论文】Robocup决策系统中多智能体技术研究.pdf

文档简介

温馨提示

最新文档

评论

相关文档