【硕士论文】Robocup决策系统中多智能体技术研究.pdf_第1页
【硕士论文】Robocup决策系统中多智能体技术研究.pdf_第2页
【硕士论文】Robocup决策系统中多智能体技术研究.pdf_第3页
【硕士论文】Robocup决策系统中多智能体技术研究.pdf_第4页
【硕士论文】Robocup决策系统中多智能体技术研究.pdf_第5页
已阅读5页,还剩67页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

南京邮电大学硕士研究生学位论文摘要 摘要 R o b o c u p 机器人世界杯 是一项国际广泛参与的研究活动 它旨在为人工智能和智 能机器人的研究提供开放统一的平台 在该平台上 各种各样的智能体技术被有效整合 应用 并得到检验 足球机器人系统是一个典型的多智能体系统 决策系统作为整个足球 机器人系统的核心 决定机器人的协调协作 是机器人的 大脑 因此 决策系统的研 究在多智能体领域具有十分重要的意义 本文以R o b o c u p 2 D1l v s ll 仿真比赛为研究对象 对多智能体技术在R o b o c u p 决策系统中 的应用进行研究 首先介绍R o b o c u p 仿真比赛的运行机理 其次分析足球机器人比赛中传 统的决策模型的缺点 介绍一种新的两层 决策层和动作层 决策模型 A p o l l o 队的决策 模型 再次描述专家系统在两层决策模型的动作层的应用 接着介绍决策树算法的理论推 导及其在R o b o c u p 比赛中的应用 最后是本文的核心 深入研究通过样本训练模糊决策树 在两层决策模型的上层中的应用 提出通过智能体技术进行射门决策的新方法 并进行智 能体技术中模糊I D 3 算法和M i n A m b i g u i t y 算法与传统决策方法的比较 大量仿真数据和比 赛结果表明通过智能体技术进行决策的新方法相对传统决策方法具有更高进球率 关键词 R o b o c u p 多智能体系统 决策子系统 专家系统 模糊决策树算法 南京邮电大学硕 研究生学位论文A b s t r a c t A b s t r a c t R o b o c u p R o b o tW o r l dC u p i sa ni n t e r n a t i o n a lr e s e a r c ha c t i v i t yw h i c hi sp a r t i c i p a t e d w i d e l y I ti sd e s i g n e df o ra r t i f i c i a li n t e l l i g e n c ea n di n t e l l i g e n tr o b o t i c sr e s e a r c h e sb yp r o v i d i n ga s t a n d a r dp l a t f o r m M a n yk i n d so ft e c h n o l o g i e sc a nb ei n t e g r a t e da n de x a m i n e do nt h i sp l a t f o r m A nr o b o ts o c c e rs y s t e mi sat y p i c a lm u l t i a g e n ts y s t e m T h ed e c i s i o n m a k i n gs u b s y s t e mi st h e c o r eo ft h ew h o l er o b o ts o c c e rs y s t e m j u s tl i k et h eb r a i no ft h er o b o t s I ti sr e s p o n s i b l ef o rt h e c o o p e r a t i o na m o n gt h e r o b o t s S ot h er e s e a r c ho ft h e d e c i s i o n m a k i n gs u b s y s t e mh a s s i g n i f i c a n c et ot h em u l t i a g e n tf i e l d s T h i sd i s s e r t a t i o ni sb a s e do nt h eR o b o c u p 2 D1lv sl1s i m u la t i o nc o n t e s t T h ea p p l i c a t i o no f m u l t i a g e n tt e c h n o l o g yi nR o b o c u pd e c i s i o n m a k i n gs y s t e mi sp r o p o s e d F i r s t l y t h er u n n i n g m e c h a n i s mo fR o b o c u ps i m u l a t i o ni si n t r o d u c e d S e c o n d l y t h ed i s a d v a n t a g e so ft h et r a d i t i o n a l d e c i s i o n m a k i n gm o d e la r ea n a l y z e da n dan e wd e c i s i o n m a k i n gm o d e lw i t ht w ol a y e r s d e c i s i o n m a k i n gl a y e ra n da c t i o nl a y e r o fA p o l l ot e a mi sp r o p o s e d T h i r d l y t h ea p p l i c a t i o no f e x p e r ts y s t e mi nt h ea c t i o nl a y e ri sd e s c r i b e d T h e n t h et h e o r yd e r i v a t i o na n da p p l i c a t i o no fa d e c i s i o nt r e ea l g o r i t h mi nR o b o c u pa l ed e s c r i b e d F i n a l l y i nt h ec o r eo ft h i sd i s s e r t a t i o n t h e a p p l i c a t i o no ft h ef u z z yd e c i s i o nt r e et r a i n e db ys a m p l e si nt h ed e c i s i o n m a k i n gl a y e ri ss t u d i e d i nd e t a i l an e ws h o t d e c i s i o nm e t h o dt r a i n e db ym u l t i a g e n tt e c h n o l o g yi s p r o p o s e d t h e d i f f e r e n te f f e c to fF I D 3 M i n a m b i g u i t ya n dt h et r a d i t i o n a lm e t h o di sg i v e no u ti nt h el a s t A l a r g ea m o u n to fd a t aa n dm a t c hr e s u l t sh a ss h o w nt h a tt h en e wm e t h o dh a sh i g h e rs c o r i n gr a t e t h a nt h et r a d i t i o n a lm e t h o d K e yW o r d s R o b o c u p M u l t i a g e n tS y s t e m D e c i s i o n m a k i n gS y s t e m E x p e r tS y s t e m F u z z y D e c i s i o nT r e eA l g o r i t h m I I 南京邮电大学硕上研究生学位论文 第一章绪论 第一章绪论 1 1 足球机器人研究意义和现状 机器人足球比赛的设想首先是由加拿大不列颠哥伦比亚大学的教授A l a nM a c k w o r t h 在 1 9 9 2 年提出的 目标是经过约五十年的研究 创建一支机器入足球队 能够战胜人类足球 冠军队 为此 作为一个里程碑式的项目 机器人足球为人工智能和智能机器人学科的发 展提供一个具有标志性和挑战性的课题 此想法一经提出 便得到各国科学家的普遍赞同 和积极响应 许多著名的研究机构和组织开始开展此项研究 并将其付诸实现 不断推动 相关技术的发展 l 机器人足球比赛是一个极富挑战性的高技术密集型项目 其研究内容包括智能感知 智能思维 智能学习和智能行为等方面 同时也是机器人足球比赛的竞争焦点 而这些内 容又正是人工智能技术研究的基本内容 因此 机器人足球比赛成为人工智能研究的标准 问题 机器人足球比赛将研究对象从单智能体发展到分布式多智能体系统 将静态研究环境 发展到动态环境 并将非实时知识处理方式发展到实时知识处理方式 可以说 机器人足 球是继计算机象棋后出现的人工智能的新的里程碑 它的研究将人工智能技术推进到新的 阶段 随着人工智能技术的不断发展 其研究对象正在从单种智能 人类智能 向多种智 能 人工生命 从单层智能向多层智能 联结主义 符号主义 行为主义对应人工智能 研究的不同层次 从单体智能向多体智能转变 而机器人足球技术的研究正符合这种转 变的趋势 机器人足球比赛项目的深入开展 带动其它各方面智能技术的推广 如 一 产业应用 将机器人足球所包含的各种硬件和软件技术具体应用到产业 用以 改造旧的传统企业技术或开发新型高技术产品 军事应用 将机器人足球所包含的多智能技术及战略 战术具体应用到机器人 部队的协同作战或救灾机器人部队的协同救护系统上 三 教育应用 将机器人所包含的具有趣味性和观赏性的人工智能技术具体应用到 教学之中 使其各种工具与手段智能化 促进教育改革 此外 在自动控制 智能交通 信息处理 系统分析与集成等技术领域也有广阔的发展前景 目前 国际上有组织的机器人足球比赛分为两大系列 即F I R A1 2 1 和R O B O C U P F I R A l 堕窒坚生奎兰堡主婴窒竺兰垡堡茎翌二茎堕堡 是国际机器人足球联盟 F e d e r a t i o no fI n t e r n a t i o n a lR o b o t s o c c e rA s s o c i a t i o n 的缩写 F I R A 每年举办一次机器人足球世界杯赛 F I R AR o b o t S o c c e rW o r l dC u p 简称F I R AC u p F I R A 的比赛项目主要有 N a r o S o t 超微机器人足球赛 M i r o S o t 微型机器人足球赛 R o b o S o t 小型机器人足球赛 K h e p e r a S o t 自主式机器人足球赛 H u r o S o t 拟人式机器人足赛 S i m u r o S o t 仿真机器人足球赛 R O B O C U P 的原意为R O B O TW O R L DC U P 1 9 9 7 年正式成立 总部设在日本东京 正式注册于瑞士伯尔尼 R O B O C U P 自1 9 9 7 年起每年举办一次机器人足球世界杯赛 T h e R o b o tW o r l dC u p R O B O C U P 的比赛项目主要有 S i m u l a t i o nL e a g u e 仿真机器人比赛 S m a l l S i z eL e a g u e F l8 0 小型足球机器人赛 M i d d l e S i z eL e a g u e F 2 0 0 0 中型自主 足球机器人赛 S O N YL e g g e dR o b o tL e a g u e S O N Y 有腿机器人足球赛 R O B O C U P 比赛蓬勃发展 目前国内外许多大学 研究机构等等都参加该项比赛 如 0 8 年的苏州世界杯有来自全球的约3 0 个国家的3 0 0 多支队伍共1 4 0 0 多名参赛者和学者参 加比赛和期间的学术研讨会 1 2R o b o c u p 仿真环境 R o b o c u p 仿真组比赛是分布式控制的比赛模式 3 是各种比赛项目中参赛队数目最多的 一种 其仿真环境与人类足球比赛的环境相似 比赛队员的仿真模型也与实际队员很接近 而且软件仿真比赛解决了由于没有机器人硬件而无法进行决策研究的问题 故其对于分布 式人工智能理论的研究具有重要意义 仿真比赛是在一个标准的计算机环境内进行的 比赛规则基本与国际足球联合会的比 赛规则一致 比赛采用C l i e n t S e r v e r 方式 I 扫R o b o c u p 联合会提供标准S o c e e r S e r v e r 系统 参 赛队编写各自的C l i e n t 艮P 球员客户端程序 模拟实际足球队员进行比赛 S o c c e r S e r v e r 是一 个允许竞赛者使用各种程序语言进行仿真足球比赛的系统 它提供一个虚拟场地 并对比 赛双方的全部队员和足球的移动进行仿真 以离散的方式控制比赛的过程 为使仿真比赛 更加真实 S o c c e r S e r v e r 在环境中生成一定的环境噪声 对每个C l i e n t 的感知和执行动作进 行干扰 C l i e n t 相当于球员的大脑 指挥球员的运动 每个C l i e n t 模块只允许控制一名球员 C l i e n t 之间不允许直接进行通信 C l i e n t 之间的通讯必须通过S o c c e r S e r v e r 来进行 S e r v e r 与 C l i e n t 之问的通信是通过U D P F I P 协议进行的 竞赛者可以使用支持U D P I P 的任何程序系统 每个仿真周期 S e r v e r 会从全部C l i e n t 读取下个周期队员要执行的命令 同时S e r v e r 在一定 的周期内 决定于队员的自身状态 为每个队员发送其相应的感知信息 臣P S e r v e r 在根据 2 南京邮电大学硕士研究生学位论文 第一苹绪论 这些命令来引起球员的移动并且发送感觉信息返回给客户端程序 当进行比赛时 竞赛者 同时运行与比赛球员数目相等的C l i e n t 客户端程序连接至l J S e r v e r 目标是将足球踢入对方大 门而得分 仿真比赛环境还提供一个裁判 增强比赛规则 它能够准确计时 判定球出界 得分等等 1 3 智能体技术 本文应用于R o b o c u p 决策系统的智能体技术介绍如下 一 专家系统 大多数专家系统包括知识库 规则库 推理机三部分 以规则表示 知识 把一组规则放在一起 让它们互相配合 协同工作 一个规则生成的结论可以供另 外一个规则作为前提使用 规则用I f T h e n 的形式表示 I f 部分包含给定信息或者因素称 为前项 前提或者条件 规则的前项有两部分 对象及取值 对象和它的取值用运算符 连接 运算符确定对象并赋值 T h e n 部分为相应的行为 称为后项 和规则的前项相同 后项也可以用运算符连接对象及取值 后项还可以使用数值型对象和简单的数学表达式 二 决策树技术 决策树学习是以实例为基础的归纳学习算法 它从一组无次序 无规则的事例中推理出决策树表示形式的分类规则 采用至顶向下的递归方式 在决策树 的内部节点进行属性值的比较并根据不同的属性值判断从该节点向下的分支 在树的叶子 节点得到结论 所以从根到叶子节点的一条路径对应一条择取规则 整棵决策树对应一组 择取规则 一棵决策树的内部节点是属性或者属性的集合 叶子节点是所要划分的类 其 优点主要有 1 在学习的过程中不需要使用者了解很多的知识背景知识 2 能够直接体现数据的特点 容易理解 3 速度快 准确性高 4 易转化成分类规则 三 模糊决策树技术 由于现实生活中存在着大量的模糊现象 加上人们对能够自 动抽取模糊规则的专家系统的需要 使得以处理离散型变量为主的传统决策树学习方法显 得有些不足 因此文献 4 提出将I D 3 算法与模糊理论相结合从而构建模糊决策树的算法 模糊决策树学习方法便应运而生 它是传统决策树学习的一个扩充和完善 在决策树学习 中引入模糊集合理论主要源于对以下几点的考虑 1 示例的属性取值及分类值不能精确描述 这些值往往表现为 亦此亦彼 的不分明 性 需要引入模糊集合理论来进行描述 3 南京邮电人学硕上研究生学位论文 第一章绪论 2 连续值属性的学习问题一直是示例学习中的 个重要部分 而对连续值属性的模 糊化处理是一种比离散化处理更有效的途径 3 现实数据的复杂性导致噪音的大量出现 这增加了学习问题的不精确性 而模糊 集合理论为处理噪音数据提供除概率统计以外的另外一种方法 4 实际应用领域如模糊逻辑系统 模糊控制 模糊模式识别等不精确知识获取的需 要 决定学习结果应该表现为用模糊集合描述的模糊规则 即以 I f T h e n 形式出现的 模糊规则中的条件与结论应该由模糊集来表示 5 在对新的示例进行预测的过程中 需要采用模糊推理机制 从而得到更贴切 更 自然的结果 在实际中的应用也证明与传统的决策树学习相比 由于模糊决策树合理地处理学习和 推理过程中的不精确信息 具有更强的分类能力及稳健性 使得知识表示的方式更为自然 更易于理解 由于能生成不同水平和不同置信度的推理规则 为决策者提供丰富的决策信 息 同时也提供一种构造专家系统的有效途径 1 4 论文安排 本文利用最新成绩为全国第三 世界前十的南京邮电大学A p o l l o 足球队作为研究对象 研究R o b o c u p 仿真比赛中机器人的决策系统 分析不同决策系统的优缺点 着重研究多智 能体技术在决策系统中的应用 并分析比较不同技术应用的实战效果及可能原因 本文共分六章 第一章介绍本文的研究背景及意义 第二章介绍R o b o e u p 仿真比赛中的 比赛模型和运行机制 第三章分析足球机器人比赛中传统决策模型的缺点以及A p o l l o 队决 策模型的优点 第四章分析专家系统在两层决策模型的下层 即动作层 的应用 第五章 主要介绍决策树算法的理论推导及其在R o b o c u p L 匕赛中的应用 第六章是本文的核心 深 入研究模糊决策树技术在两层决策模型的上层中的应用 提出通过智能体技术进行射门决 策的新方法 并比较新方法与传统决策方法的实战效果 大量数据和比赛结果表明新方法 有更高的进球率 4 南京邮电大学硕士研究生学位论文第二章R o b o c u p 运行机理 第二章R o b o c u p 运行机理 本章主要介绍R o b o c u p 仿真比赛的核心服务器程序S o c c e r S r e v e r 的运行机制和参数意 义 接着根据这些参数和通讯机制 观察分析客户端和服务器之间具体通讯信息的交换和 命令执行状况等 来说R o b o c u p 赛的运行机制和相关过程 2 1 比赛模型 2 1 1 运动模型 场地的尺寸为1 0 5 6 8 单位没有意义 球门宽度为1 4 x 6 4 是实际比例的两倍 实验证 明 对于正常的宽度比例是很难进球的 动作模型是离散的 在一个仿真周期结束时全部 的动作被执行一次 每个仿真周期时间的长短是由参数S i m u l a t o r S t e p 决定的 在每个仿 真周期结束前 S o c c e r S e r v e r 接收所有C l i e n t 的命令 并执行命令 利用当前场上对象 球 员和球 的位置和速度信息计算出全部对象新的位置和速度信息 在仿真周期内 对象的移 动按如下公式进行计算 z f l 矽1 t 哆 彬 赂t l2 t l 2 tn t l 嗡 口1 如唧 站1 甜 7 移1 o 0 其中 成 和 哆 分别表示f 时刻物体的位置和速度 d e c a y 是一个参数分别由 b a l l d e c a y 和p l a y e r 一沈铡控制 t 表示对象的加速度 可以通过D a S h 针对球员 和k i c k 针对足球 的p o w e r 参数计算得到 d p D w e x P D w e rr a t e c o s s i n 2 2 其中 表示对象在t 时刻的前进方向 p o w e r r a t e 就是d a s h p o w e r r a t e 或者 k i c k p o w e r r a t e 如果对象为球员 它的方向就是球员脸朝向的方向 对于足球 其方向 的计算方法是 k e r D i r e c t i o n 2 3 南京邮电大学硕 七研究生学位论文 第二章R o b o c u p 运行机理 其中目b a l l 和钱妇表示球和踢球队员当前的方向 而D i r e c t i o n 是k i c k 命令中的第二个参数 2 1 2 干扰模型 为反映出实际比赛中球以及球员的不确定性 S o c c e r S e r v e r 在球和球员的移动和转身的 过程中加入一定的干扰因素 首先考虑移动 干扰是以如下的方式加入的 1 1 哆 彭 巧 双 巧一 2 4 这里k 是一个位于 m a m a X 中间的随机数 删戳是和对象的速度相关的参数 如式 2 5 所示 亏m 戤 阳行d I 吃 哆 I 2 5 这里参数r a n d 由p l a y e r r a n d 或者b a l l r a n d 确定 干扰同样也添加到T u r n 命令的A n g l e 参数中如式 2 6 所示 A n g l e 1 k 彳咄 2 6 2 1 3 体力模型 每个球员都有自己的体力值 S o c c e r S e r v e r 通过限制球员的体力值来阻止队员始终以最 大的速度p l a y e r s pm a x 跑动 球员的体力模型包含三个方面 s t a m i n a 0 s t a m i n a m a x 表示球员的体力 它限制p o w e r 参数 e f f o r te e f f o r t m i n 1 0 表示球员的体力使用的效率 r e c o v e r y r e c o v e r y m i n 1 0 表示控制体力的恢复速率 其中s t a m i n a 和e f f o r t 是可以恢复的 r e c o v e r y 是不可以恢复的 具体的计算方法为 1 当球员使用D a s h P o w e r 命令时 它的P o w e r 参数要受到J 觚加口和e f f o r t 的影响 e f f o r t d a s h p o w e r m i n s t a m i n a p o w e r xe f f o r t 2 7 s t a m i n a s t a m i n a e f f e c t i v e d a s h p o w e r 2 8 由式 2 7 和 2 8 式知 e f f o r t 的大小决定s t a m i n a 中可以有效使用的部分 6 南京邮电大学硕十研究生学位论文第二章R o b o c 塑堡堑塑 里 2 在每个循环周期内 如果J 绷锄口低于e f f o n d e c t l l r 时 e f f o r t 减少 s t a m i n a 高 于e f f o r t d e e t h r 时 e f f o r t 增加 变化如下 I fs t a m i n a e f f o r t d e e t h rxs t a m i n a m a xA n de f f o r t e f f o r t m i n T h e ne f f o r t e f f o r t e f f o r t d e e I f s t a m i n a e f f o r t d e c t h r xs t a m i n a m a xA n de f f o r t r e c o v e r y m i n T h e nr e c o v e r y2r e c o v e r y r e c o v e r y d e c 4 在循环周期内 s t a m i n a 会得到一定程度的恢复 回复时 依r e c o v e r y 的当值进 行 s t a m i n a s t a m i n a r e c o v e r y xs t a m i n a i n c I fs t a m i n a s t a m i n a m a x T h e ns t a m i n a s t a m i n am a x 2 2 感知信息 球员从S o c c e r S e r v e r 接受的感知信息包括视觉 听觉 和自身状态等三种类型的信息 具体参看表2 1 对于球员来说 这些信息非常重要 球员必须获得并根据这些信息才能 决策自己的行为 表2 1 球员感知信息 名称接受时间信息类型限制 有限的角度 随着距离增加 S e e 每隔s e n d s t e p 时间都发生 视觉 精度减少 当旁边的球员或者裁判 有限的距离和频率 H e a r 听觉 不指明说话球员的 说话 立刻接收 身份和距离等信息 S e n s e b o d y 根据需要状态无 7 南京邮电大学硕士研究生学位论文第二章R o b o c u p 运行机理 详细讲述这三种信息的格式和使用方法如下 一 视觉信息 球员的视野模型如图2 1 所示 1 d w i d t h 卜 一f i e l d l e n 兜t h 图2 1 球员视觉模型示意 对视野模型的说明如下 如果d i s t u n u mf a rl e n g t h 那么球员号码和球队名称都可见 如果u n u mf a rl e n g t h 如果d i s t u n u m t o of a rl e n g t h 那么球员号码是不可见的 如果t e a mf a rl e n g t h 如果d i s t t e a mt o of a rl e n g t h 那么队名是不可见的 每个球员在每个时间段都从S o c c e r S e r v e r 得到视觉信息 视觉信息按如下格式定义 s e eT i m eO b j i n f o 其中T i m e 指示当前时间 O b j i n f o 表示可视对象的信息 其格式 为 O b j N a m eD i s t a n c eD i r e c t i o nD i s t C h n gD i r C h n gF a c e D i r 其中 O b j N a m e 2 p l a y e rT e a m n a m eU n u m l g o a lS i d e l b a l l I f l a gc l f l a g l l c l r t l b R 南窒塑垒奎兰堕主竺壅竺兰篁笙茎 兰三童垦 竺 竺堡堑型 型 一 l f l a gP l l r q c l b I f l a g r i b 1 l r l0 1 2 0 1 3 0 1 4 0 1 5 0 I f l a g f i r r i b l0 1 2 0 1 3 0 1 I f l a g l i r l t l b O l 1 i n e l l r l t t b D i s t a n c e 和D i r e c t i o n 分别表示目标的相对距离和相对方向 D i s t C h n g 和D i r C h n g 分另0 表示目标距离和方向的相对变化值 它们不是精确值 只是一个粗略值 当被观察的目标 是其他队员时 参数中增加F a c e d i r 它表示被观察队员与观察队员之间的方向夹角 如果 两面队员面向同一个方向 则F a c e d i r 为0 字母 lrctb 分别表示左 右 中心 上 下 p 表示罚球区 球场的标志位f l a g 详细信息见下图2 2 图2 2 球场标志示意 D i s t a n c e D i r e c t i o n D i s t C h n g D i r C h n g 计算如下 P n p 旺一P x o p 社2p l I I P y o 2 一 P x o 么 饧一V y O D t a n c P 厄 虿 D i r P c 打D 刀 a r c t a n p 纵 一 p D i s t a n c e e y P r y D i s t a n c e 9 南京邮电大学硕士研究生学位论文第二章R o b o c u p 运行机理 其中 办 办 是目标的绝对位置坐标 n P y 是接收视觉信息的队员自己本身的绝对坐 标 是目标的绝对速度 u 队员自己的绝对速度 是队员所面向的绝对方 向 另外 岛 和 表示目标的相对位置和相对速度 e r x 表示平行于相对位 置向量的单位向量 球员的视觉信息由下面几个方面决定 视野宽度 正常模式为 4 5 4 5 宽模式为 一9 0 9 0 而窄模式为 2 2 5 2 2 5 邻域 距离自己3 米之内 当某个对象在球员邻域内但在视野之外时 球员只能知 道对象的类型 球 其他队员 球门或标志 不知道对象准确名字 远处目标信息的不确定性 无论远处的目标是球还是球员 目标的距离值按公式 2 1 0 进行量化 d Q u a n t i z e e x p Q u a n t i z e 1 0 9 J 0 1 0 o 1 0 2 1 0 其中d 和力分别表示精确距离和相应的量化距离 E IQ u a n t i z e V Q r i n t V Q Q 这表 示队员是不能知道远处物体的精确位置的 例如距离为1 0 0 0 时 最大噪声可以达到1 0 0 但当距离在1 0 0 之内时 噪声小于1 0 对于远处目标是旗或者线的情况 距离值按式 2 1 1 量化 d O u a n t i z e e x p 缈册t z e 1 g d o 1 0 0 1 2 1 1 观察模式决定观察频率和从S o c c e r S e r v e r 所接受到的视觉信息的细节 观察模式包含 V i e w q u a l i t y 和V i e w w i d t h 两个参数 其中V i e w q u a l i t y 为h i g h l o w V i e w w i d t h 可取 值为w i d t h 1 8 0 n o r m a l 9 0 n a r r o w 4 5 三种 当V i e w q u a l i t y 设置为h i 曲时 S o c c e r S e r v e r 为观察者发送详细的目标位置信息 而当V i e w q u a l i t y 设置为l o w 时 S o c c e r S e r v e r 为观察者发送简化的目标信息 只有目标的方向 另一方面 S o c c e r S e r v e r 为队员发送视 觉信息的频率 随着V i e w q u a l i t y 和V i e w w i d t h 而变化 缺省时间间隔为1 5 0 毫秒 由 S o c c e r S e r v e r 的参数S e n ds t 即控制 观察角变宽时 频率减半 反之加倍 二 听觉信息 蒜 南京邮电大学硕士研究生学位论文 第二章R o b o c u p 运行机理 当某球员或裁判发送消息s a y 朋如孵 时 附近的其他球员包括对方球员可以立即听 到消息 没有延迟 他们以H e a r T i m e D i r e c t i o n M e s s a g e 的形式听到消息 其中7 3 m e 为 当前的仿真周期 D i r e c t i o n 表示声音来源的相对方向 对于球员自己发送的消息 D i r e c t i o n 为s e l f 而如果是裁判发的消息 D i r e c t i o n 为 咖r e e 队员仅有有限的通讯能力 只能听到一定距离之内的声音 此距离由S o c e e r S e r v e r 参数 a u d i oc u t o f f d i s t 决定 同时队员在h e a r d e c a y 个循环周期内只能听到h e a r i n c 条消息 一般在两个循环周期内 当多名队员同时发送多个消息时 一名队员只能接收一条 而丢 失其它的消息 裁判所发的消息具有最高的优先级 可以被全部队员接收到 三 状态信息 根据每个球员的需要 S o c c e r S e r v e r 会发送给每个球员其自身的状态信息 这些信息包 括 球员当前的体力s t a m i n a e f f o r t 和r e c o v e r y 值 球员当前的速度 球员当前的 V i e wq u a l i t y 和V i e w w i d t h 值 2 3 球员行为 球员客户端程序之所以能够控制球员在仿真环境中进行比赛 正是因为它能够通过通 讯机制发送七种行为命令给仿真环境S o c c e r S e r v e r 完成其对球员的决策和控制过程 这七 种行为命令具体如表2 2 所示 表2 2 球员行为命令 命令含义类型范围执行时间频率限制 文本小于等于 每2 个周期内 S a y M e s s a g e 播送讯息 立即 能听见1 条讯 A S C I I5 1 2 字符 息 T u r n A n g l e 转角度浮点 1 8 0 至1 8 0周期结束每周期一次 D a s h P o w e r 前冲的力量 浮点周期结束 每周期一次 K i c k P o w e r A n g l e 踢球的力量和角度浮点周期结束每周期一次 C a t c h A n g l e 扑救角度浮点周期结束每周期一次 S e n s e b o d y 0 立即 每周期3 次 H i g h L o w C h a n g e v i e w 视觉质量 离散 N a r r o w 立即 每周期一次 V i e w q u a l i t y V i e ww i d t h 视野宽度 N o r m a l 厂W i d e 表2 2 中的行为命令可以分为通讯命令 运动命令及获得状态信息和改变视觉模式命 南京邮电大学硕士研究生学位论文第二章R o b o c u p 运行机理 令 分别介绍如下 一 通讯命令 球员可以通过s a y 拖船孵 命令进行通讯 并且能够s a y 任何语句 但M e s s a g e 次不能超过5 1 2 个A S CI I 码字符 双方在一定范围内的队员都能够完整的听到 该讯息 队员可以随时说话 但是由于听力是受到限制的 所以说话过于频繁是没有意义 的 二 运动命令 球员有转角 前冲 踢球和扑救等四种运动方式 其运动命令带有 的参数有A n g l e 角度 和P o w e r 力量 1 T u r n A n g l e 1 8 0 A n g l e 1 8 0 指需要转动的角度 正在移动的球员的转动效 率有所减少 根据公式 2 1 2 a c t u a l a n g l e A n g l e 1 0 i n e r l i a m o m e n t 奉p l a y e r s p e e d 2 12 2 D a s h P o w e r 3 0 P o w e r 1 0 0 是指前冲的力量 球员只能朝他们面对的方向 移动 可以笔直向前或者向后 如果要向其它方向移动 他们首先必须转动 球员的体力 越少 他们前冲的效率越低 为使球员能够保持运动 必须不断给它发送D a s h 命令 而作 用于公式的P o w e r 值将是其与参数D a s h p o w e r r a t e 相乘的结果 3 K i c k P o w e r 彳馏如 3 0 P o w e r 1 0 0 是指踢球的力量 一1 8 0 A n g l e 球的速度矢量随着踢球的次数而累加 当球在球员k i c k a b l e a r e a b a l l s i z e p l a y e r s i z e k i c k a b l e m a r g i n 范围内时 球员 才能够成功的踢到球 实际的踢球的力量值和球相对于球员的运行角度以及之间的距离有关 即要乘以 系数 得到 胁咖 聊M 纪串 1 0 25 dir 8d iff 0 25 一 dist ball playersize ball size 2 其中咖一d f f 是足球运行的角度和球员面对的角度的相对差值 d i s t b a l l 是足球和球员之 间的中心距离 而作用于l i c k 的p o w e r 值是将其与该系数相乘的结果 从式 2 1 3 中可以 看出随着角度或距离的增大 踢球的力量将减少 4 C a t c h A n g l e 一18 0sA n g l P 1 8 0 是指守门员扑球的角度 只有守门员在本方的 1 2 南京邮电大学硕士研究生学位论文第 二章R o b o c u p 运行材L 理 禁区内可以做扑球的动作 并且必须满足的条件是 足球正好在离守门员的 c a t c h a b l ea r e aw c a t c h a b l ea r e al 的矩形范围内 矩形的底边经过守门员 前冲的方向由 A n g e 指定 尽管S e r v e r 是和c l i e n t 同步运行的 但也不能保证和S o c c e r S e r v e r 的周期时间完全匹配 所以S o c c e r S e r v e r 有可能会丢失一些发送给它的命令 因此必须由球员客户端程序自行根据 未来S o c c e r S e r v e r 传回的状态来判断命令是否被执行 三 状态 视觉模式命令 球员客户端程序通过发送s e n s e b o d y 命令可以从S o c c e r S e r v e r 获得其状态信息 通过发 C h a n g e v i e w 命令 则可根据需要改变V i e w q u a l i t y L o w H i g h 和 V i e w 州d t h N 姗w N o 锄a l w i d e 两种视觉模式 1 3 南京邮电大学硕士研究生学位论文 第三章R o b o c u p 决策系统 第三章R o b o c u p 决策系统 决策子系统是整个足球机器人系统的核心 负责机器人间的协调 协作 路径规划和 动作执行 由于面对的是一个复杂的 动态变化的环境 5 J 决策系统需要同时满足系统在 反应性 适应性 智能性和学习性等方面的要求 本章在深入分析传统模型的优缺点的前 提下 介绍一种新的两层决策模型 分为策略决策层和动作决策层 并将该种决策模型应 用到南京邮电大学的A p o l l o 足球队中 通过多次国内外大赛的验证和检验 证明该两层决 策模型的有效性和先进性 3 1 决策系统设计要求 R o b o c u p 仿真比赛环境复杂 场上形势瞬息万变 既存在队友间的合作又存在对手间的 竞争 因此给决策子系统的设计带来许多挑战 为使得场上的机器人智能体能够协调协作 决策f 9 取得进球并赢得比赛的胜利 设计的决策子系统必须具有以下特性 一 智能性 决策系统的智能性是指机器人应该具有一定的推理和学习的能力 推 理能力是指决策系统能够根据赛场上机器人和球的位置信息 推理出场上机器人的行为 从而实现机器人之间的协作与协调 学习是指决策系统能够自动学习比赛场上特定环境下 的对应协作策略 适应性 适应性指机器人对不同环境状态的适应能力 适应性强的决策子系统 表现为 当机器人处于以前没有碰到过的环境时仍能够很好地调整自身的决策 以适应新 的环境 而不至于出现决策盲点 指在某种状态下 机器人没有得到任何决策指示而不知 道如何运动的情况 三 准确性 准确性是指决策系统能够根据场上的形势作出准确的判断 从而采取 准确的协作策略 四 快速性 快速性是决策子系统必须保证的 球场上瞬息万变 球员的快速反应 是射门得分的关键 3 2 决策结构 对于多智能体系统而言 决策方式一般有两种结构 集中式决策方式和分布式强化学 习决策方式 1 4 南京邮电大学硕士研究生学位论文 第三章R o b o c u p 决策系统 集中式决策方式 其中智能体分为两类 即知识管理智能体和动作执行智能体 知识管理智能体综合场上所有可以获得的数据 通过判断场上的比赛形势 规划其他智能 体的行为 并给出指令 同时自身不断学习其他智能体的协作控制策略 动作执行智能体 负责执行和完成知识管理智能体发送给它的协作意图 如图3 1 所示 图3 1 集中控制方式 其中的知识管理智能体相当于足球场上的教练 这种方式的优点是机器人协作效率高 容 易达到整体最优 并且实施相对简单 但是一个人处理事务的能力是有限的 随着场上机 器人的增多 教练员的计算量也随之增大 而且如果教练员一旦犯错误的话 机器人很难 纠正它 因此这种方式只适应于比赛机器人数目相对较少的情况 二 分布式强化学习决策方式 是指每个智能体 根据其它智能体信息及从自己的 视觉系统获得的环境信息 自己产生自己的行为意图 并不断学习在特定环境下对应的协 作策略和动作 如图3 2 所示 图3 2 分布式控制方式 1 5 塑室塑皇查堂堡兰 堕窒生堂垡堡奎 一 兰三里垦竺塑 翌盗鍪墨篓 在这种方式下 每个智能体都具有学习能力 具有自己的思维和决策能力 因此 当 智能体数目上升时 不用考虑智能体计算量的加大 即使多智能体系统中一个或者多个智 能体决策出错 也不会影响其他智能体的正常工作 但是这种方式智能体之间需要通讯 增加系统的额外开销 同时实现也相对比较复杂 另外 这种方法每个智能体只能学习到 个体最优动作 很难达到整个系统的全局协作最优 同时它在学习收敛性方面的要求也更 加难以满足 3 2 1 传统决策模型分析 在R o b o c u p 仿真1 1 V 1 1 比赛中组委会根据其比赛宗旨规定 智能体间的直接通信是违 规的 因此一般R o b o c u p 仿真队伍的决策模型如图3 3 所示 信息预处理 卜 整体策略决策 蝴 援 岛 求 一 机器人1 机器人2机器人3 策略选择l 策略选择策略选择 动作规划I 动作规划动作规划 基本动作基本动作基本动作 图3 3 足球机器人决策模型 通过异构实现上图中的三个机器人 即不同的计划执行智能体为不同角色 同时在该 系统中维系着一个对全局策略的控制 拴l A p o l l o 队的做法是维系一个配置

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论