(计算机应用技术专业论文)多agent系统强化学习及其在cas仿真建模中的应用.pdf_第1页
(计算机应用技术专业论文)多agent系统强化学习及其在cas仿真建模中的应用.pdf_第2页
(计算机应用技术专业论文)多agent系统强化学习及其在cas仿真建模中的应用.pdf_第3页
(计算机应用技术专业论文)多agent系统强化学习及其在cas仿真建模中的应用.pdf_第4页
(计算机应用技术专业论文)多agent系统强化学习及其在cas仿真建模中的应用.pdf_第5页
已阅读5页,还剩50页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 多a g e n t 系统( m a s ) 及其相关技术近年来受到越来越多的研究者的关注,被 广泛应用到i n t e r n e t 、办公自动化,冲突协调、决策支持、开放式信息系统等众 多领域。其中基于a g e n t 的仿真建模( a b m s ) 是当前仿真与建模领域研究的热 点,它是研究复杂适应性系统的主要手段。 强化学习不需要导师训练,仅通过试错法即可找到最优解或者接近最优解, 是比较重要的一种机器学习方法,在马尔可夫决策过程等坚实的数学理论支持 下,获得了成功。进一步将强化学习理论应用到多a g e n t 系统( 多a g e n t 系统强 化学习) 是现在研究的热点和难点。 论文研究了多a g e n t 系统理论,并对强化学习中的q 学习进行了重点研究, 单个a g e n t 的q 学习算法同样不能直接应用到多a g e n t 系统中,本文提出a g e n t 间通过对信息的共享,有效地将q 学习算法扩展应用到多a g e n t 系统,提出了 改进的多a g e n t 系统强化学习方法。 多a g e n t 系统理论非常适合应用于复杂适应性系统研究中,论文对个复杂 系统人工神经网络的构建方法进行了分析和研究。将组成神经网络的神经 元封装成a g e n t ,通过a g e n t 之间的交互完成神经网络相应的功能,提出了基于 多a g e n t 系统的人工神经网络的构造方法。这为神经网络的分布式实现提供了一 条新途径。 同时,在基于m a s 的神经网络中,将强化学习算法运用到调整网络权值算 法中,实验效果比较明显。 关键字:多a g e n t 系统;强化学习;复杂适应。陛系统;基于智畿体的仿真建模; 神经网络 东北电力大学硕 学位论文 a b s t r a c t m u l t i a g e n ts y s t e m s ( m a s ) t h e o r yi sah o tf i e l di na in o w a d a y s ,a n da g e m s a r eb e i n gu s e di na ni n c r e a s i n gw i d ev a r i e t yo fa p p l i c a t i o n s - - - i n c l u d i n gi m e m c t ,0 a , n e g o t i a t i o n s ,d s s ,o p e nm i se t e e s p e c i a l l y , t h ea g e n tb a s e dm o d e l i n ga n d s i m u l a t i o n ( a b m s ) i sh o ti nm o d e l i n ga n ds i m u l a t i o nf i e l d s ,w h i c hi sm a i nt o o lo f r e s e a r c h i n gc o m p l e xa d a p t i v es y s t e m s i nt h i st h e s i s ,b a s e do nt h er e s e a r c ho nm a s a n dr e i n f o r c e m e n tl e a r n i n g ( r l ) ,w es t u d i e dt h ea p p l i c a t i o no fm a sa n dr li n c o m p l e xs y s t e mm o d e l i n g r e i n f o r c e m e n tl e a r n i n gc a nl e a r nag o o ds o l u t i o nj u s tt h r o u g ht r i a la n de r r o r , w i t h o u ts u p e r v i s o r r li sa l l i m p o r t a n tm a c h i n e l e a r n i n ga l g o r i t h m ,w h i c hi s s u p p o r t e db ym a l k o vd e c i s i o np r o c e s s e s n o w , t h ea p p l i c a t i o no fr li nm a s i sn e x t h o tp o i n ta n dh a r do n e i nt h i st h e s i sw es t u d i e dt h er e s u l t sr e c e n t l yg o tb yo t h e r r e s e a r c h e r , a n dp r o p o s e da ni m p r o v e dm a s r la l g o r i t h m m u l t i a g e n ts y s t e mt h e o r ya n dql e a r n i n ga l g o r i t h ma l es t u d i e di nt h i sp a p e r t h eql e a r n i n ga l g o r i t h mu s e di n s i n g l ea g e n tc a n n o tb es i m p l ya p p l i e di n m u l t i a g e n ts y s t e m ip r o p o s e dai m p r o v e dm u l t i a g e n ts y s t e mr e i n f o r c e m e n t l e a r n i n ga l g o r i t h m ,w h i c hc a l le x t e n dql e a r n i n ga l g o r i t h mt om u l t i a g e n ts y s t e m v i as h a r i n ga l lo f a g e n t s i n f o r m a t i o n m a s t h e o r yc a nh ea p p l i e di nr e s e a r c h i n go f c o m p l e xs y s t e m i nt h i sp a p e r , t h e c o n s t r u c t i o nm e t h o do f a r t i f i c i a ln e u r a ln e t w o r k ,w h i c hi so n eo f c o m p l e xs y s t e m s , i sr e s e a l c h e d f r o mt h ea s p e c to fm a s e a c hn e u t r o ni sa na g e n t , a 1 1o ft h ea g e n t s a n dt h e i ri n t e r a c t i o nm a k eu pa na n n t h i si san e ww a yt oc o n s t r u c ta n n a tl a s t ,i nt h ea n nb a s e do nm a sw eu s er li nm o d i f y i n gn e t w o r k w e i g h t t h e e x p e r i m e n tr e s u l ti se x c e l l e n t k e y w o r d s :m a s ;r l ;c a s ;a b m s ;a n n 论文原创性声明 本人声明,所呈交的学位论文系在导师指导下本人独立完成的研究成果。 文中依法引用他人的成果,均已做出明确标注或得到许可。论文内容未包含法 律意义上已属于他人的任何形式的研究成果,也不包含本人已用于其他学位申 请的论文或成果。 本人如违反上述声明,愿意承担以下责任和后果: 1 交回学校授予的学位证书; 2 学校可在相关媒体上对作者本人的行为进行通报; 3 本人按照学校规定的方式,对因不当取得学位给学校造成的名誉损害, 进行公开道歉; 4 本人负责因论文成果不实产生的法律纠纷。 论文作者签名:趣垒羔垡日期:_ = 垒薹l 年j 月日 7 论文知识产权权属声明 本人在导师指导下所完成的论文及相关的职务作品,知识产权归属学校。 学校享有以任何方式发表、复制、公开阅览、借阅以及申请专利等权利。本人 离校后发表或使用学位论文或与该论文直接相关的学术论文或成果时,署名单 位仍然为东北电力大学。 论文作者签名:l 苞垒丝: 导师签名: 日期:2 1 翌年j 月堑日 日期:盟年月堑日 第1 审绪论 1 1 课题背景 第1 章绪论 计算机唯一能做的事情就是进行二进制运算,除此之外,要使计算机正确 工作就需要让它知道运行的“方向”,也就是由程序员明确地进行计划、编码。 计算机运行到设计者没有预料到的情况时,输出结果就会出错。这个简单的事 实就是我们和计算机的关系的核心所在。 早期的时候,人们认为计算机就是一个惟命是从、没有想象力的仆人,而 且计算机所做的确实满足了当时人们的需求。但是随着众多的计算机应用的出 现,我们现在希望系统( 计算机) 能做的事情越来越多,越来越复杂,我们希 望开发出这样的系统:能够自己决定需要做什么以达到设计它们的目的,这些 系统我们称之为a g e n t 。能在快速变化、不可预测或者开放的环境中执行任务的 我们就称之为智能a g e m 或者自主a g e n t 。由多个a g e n t 组成系统通过竞争或者 合作完成一定的任务,我们称之为多a g e n t 系统。 多a g e n t 系统和强化学习都是近年来引起研究者广泛关注的领域。它t f - 二者 的结合,实际上是对大量、广泛存在于自然界、人类社会之中的社会学习现象 的直接反应。社会个体通过无监督的外界刺激下的强化学习,加深了对所处世 界的认识;但是这种认识并不仅仅来源于个体自身的经验,还来自于其它社会 个体。其它个体的经验通过直接或间接的形式进入自身的记忆之中,从而形成 的一个物理上分布于个体记忆、意识上联合共享的社会记忆机制。 多a g e n t 系统一个重要的应用领域是系统仿真,在研究高度复杂动态的系统 时,传统的方法很难对其进行有效的仿真,这为研究这一类系统构成了重重困 难,而基于a g e n t 的仿真建模可有效解决这个问题。本文力图在q 学习算法的 基础上,对多a g e n t 系统强化学习方法进行改进;将多a g e n t 系统理论、a g e n t 强化学习应用于复杂适应性系统仿真建模中,以期为复杂系统研究做出一些贡 献。 东北电力大学硕十学位论文 1 2 课题研究现状 1 2 1 多a g e n t 系统及强化学习研究现状 a g e n t 技术在计算机领域的研究与应用源于2 0 世纪7 0 年代美国麻省理工学 院研究人员开展的一系列关于分布式人工智能的研究。现在多a g e n t 系统已越来 越引起各个领域的研究人员的重视,a g e n t 技术得到了飞速发展。出现了众多 a g e n t 开发平台,如z e u s 、a g e n t b u i l d e r 、j a d e 、j a t l i t e 等,实现了众多a g e n t 系统。这充分说明了m a s 具有广阔的前景。 下面是采用多a g e m 系统技术实现的比较典型应用领域: 1 工业应用:工业应用是a g e m 技术最早应用的领域之一,目前a g e n t 技术 在工业领域内的应用已经相当广泛,其中比较典型的包括过程控制、制造业生 产控制、应用系统集成和空管系统。过程控制器本身就是一个自治的、反应式 的系统,a r c h o n 是一个用于开发多a g e n t 系统的软件平台以及使用此平台来 开发实际应用的比较典型的方法f j l 。a r c h o n 已经成功地应用于多个过程控制 应用中,包括电力传输管理和离子加速控制等。o a s i s ,是一个复杂的用a g e n t 实现的空中管理系统1 2 1 ,在这个系统中,a g e m 用来代表飞机和各种运行中的空 管系统。a g e n t 提供了自然和有效的途径对现实世界的自治实体进行建模。 2 商业应用:商业应用主要包括用于信息管理、电子商务和经营过程管理方 面的a g e n t 系统。随着信息的不断丰富和信息多样化的快速发展,对信息的管理 需求越来越大。a g e n t 技术已经用于开发有效的信息管理工具。m a x i s 是一个 基于a g e n t 技术垃圾邮件过滤程序翻;a d e p t ( a d v a n c e dd e c i s i o ne n v i r o n m e n tf o r p r o c e s st a s k s ) 是- - 个经营过程管理系统【4 l ,基于a g e n t 的底层结构,其中包括 a g e m 协商、服务建模等核心技术,它已经被应用于b t 公司( b d t i s h t e l e c o m ) 为 客户提供网络服务的报价单经营过程中,它将经营过程看成一组相互协商的提 供服务的a g e n t 组成系统,每一个a g e n t 表示公司中一个不同的、能提供一个或 者多个服务的角色或部门,需要服务的a g e n t 可以进入获取服务的协商过程中, 以期获得一个共同接受的价格、时间或者服务质量等等。 3 娱乐应用:文献 5 】中描述了a g e n t 技术应用于计算机游戏中的多个例子, 第1 章绪论 i i 例如,利用a g e n t 技术开发了一个流行的t e t r i s 计算机游戏,游戏者要将不规则 下落的模块正确地对接在一起。游戏中的a g e n t 担当了游戏者的脚色。 到目前为止,a g e n t 的研究在理论层的研究方面还没有形成一定的体系,甚 至没有公认的定义,仍处于发展阶段,在建造a g e n t 和多a g e n t 系统时,尚有许 多问题需要解决,比较典型的有: 1 a g e n t 之间的通信、协商、达成致问题。a g e n t 的高效推理问题a g e n t 的反应性和主动性平衡问题,a g e n t 交互过程所可能存在的n a s h 平衡问题和零 和竞争问题,a g e n t 安全问题等。 2 。标准有待统一。尽管f i p a ( f o u n d a t i o nf o ri n t e l l i g e n tp h y s i c a la g e n t s ) 和 o m g 下属的a g e n t 工作组正致力于a g e n t 技术标准化工作,但成绩并不是非常 显著,进而影响了a g e n t 技术的工业化应用进程。 3 开发方法需要迸步研究。到目前为止,还没有出现公认的、系统的、标 准化的软件开发方法来指导a g e n t 系统的开发一包括需求分析、系统设计、实现、 测试、验证、维护等等。 可见,一方面存在对a g e n t 技术的巨大需求,另一方面a g e n t 技术还没有足 够成熟到普通软件开发人员可以容易地实现一个系统的地步。在课题调研过程 中,我们对j a d e 这个a g e n t 开发平台产生浓厚的兴趣,进而进行了深入研究。 并在j a d e 基础上开发了一个简单的电子商务系统,实现由a g e n t 代理完成一定 的购物行为。为利用多a g e n t 系统技术为神经网络重新建模打下了基础。 作为具有一定智能的系统,a g e n t 和多a g e n t 系统的学习能力是至关重要的。 强化学习是从环境状态到行为映射的学习,以使a g e n t 的累计奖赏值最大,采用 强化学习机制的a g e n t 通过尝试来选择具有最大累计奖赏值的行为策略1 6 。由于 强化学习具有无导师的自适应性,比较容易和人工神经网络( a n n ) 、遗传算法 以及其他机器学习相结合,受到了研究人员广泛关注。 单个a g e n t 的强化学习研究在马尔可夫决策过程( m d p ) 坚实的数学基础 上,已经取得了巨大的成功。但是将强化学习应用到多a g e n t 系统,还有许多问 题需要进一步解决,多a g e n t 系统的学习并不是单个a g e n t 学习的增强,直接依 赖于多个a g e n t 的存在与交互。 多a g e n t 系统强化学习目前研究的方向主要有: 东北电力大学硕卜学位论文 1 不完全感知问题。一般在有着大规模的状态空间的多a g e n t 系统中,不完 全感知问题是不可避免的,由于a g e n t 所获得的信息不完整,将导致错误的状态 迁移,从而影响状态转移概率,单个a g e n t 的不完全感知问题一般采用p o m d p 模型迸行研究。 2 同时学习问题。若一个多a g e n t 系统同时包含几个具有学习能力的a g e n t 系统,那么每个a g e n t 将难以根据自己的行动决定迁移的目的状态,而常常取决 于多个a g e n t 的联合行动。 1 2 2 复杂适应性系统研究现状 目前,研究复杂系统较有影响的有三个学派,即欧洲学派、以钱学森的“开 放复杂巨系统”理论p 】为代表的中国学派和美国圣塔菲研究所( s f i ,s a n t af e i n s t i t u t e ) 的“复杂适应系统( c a s ) ”理论为代表的美国学派。 欧洲学派贡献最大的首推以普利高津为首的布鲁塞尔学派,它开展了远离 平衡态和耗散结构理论的研究:其次是哈肯学派,其理论旗帜是协同学:以及 艾根的超循环理论和英国的复杂性研究。欧洲学界对复杂系统的研究具有浓厚 的人文情怀和哲学精神。 中国学派的代表是钱学森,他提出了开放复杂巨系统理论( o c g s ) 及研究方 法学,即“定性到定量的综合集成研讨厅”体系,强调人的聪明才智与实践活 动经验的重要性,主张充分发挥心智的高度灵活性与计算机在计算与信息处理 方面的高能性,把世界上成千上万人的聪明才智与已经不再人世的古人的智慧 结合起来,“集大成,得智慧”,以认识解决开放复杂巨系统的问题。 美国学派以s f i 的复杂适应系统理论最为著名。复杂适应系统理论代表复 杂性研究和系统理论的一个重要方向,对解决大类复杂系统问题比较有效, 被看作是“代表着一种新的态度、一种看问题的新角度和一种全新的世界观”。 复杂适应系统理论的基于计算机建模的思想是具体方法的创新,也是方法论上 的创新。 我们认为,复杂适应系统理论具有鲜明的可操作性,可通过计算机仿真来 实现,是研究具体复杂系统的有效手段,同时本课题研究的多a g e n t 理论是进行 系统建模的有力工具与理论基础。 第1 章绪论 1 2 3 基于a g e n t 的仿真建模研究现状 对基于a g e n t 的建模与仿真理论( a b m s ) 与方法学本身的研究,最早是在 社会科学领域中开展的。r i e a r d ob o e r o 讨论了基于a g e n t 的模型a b m s 的一些 方法学问题,如a b m s 是否有用? 怎样解释a b m s ? a b m s 的形式及怎样验证模 型等问题。此外,l e s l i eh e n r i & s o n 等人i s 也有这方面的讨论。而国内,基于a g e n t 的建模与仿真主要是集中于建模方法与应用的研究,大多是针对具体项目的研 究。文献【9 】集中于采用h l a ( ! q i g hl e v e la r c h i t e c t u r e ) 的框架柬研究基于a g e n t 的建模与仿真,但真正与a g e n t 建模与仿真相关的内容较少;文献【9 】建立了基 于a g e n t 的离散事件仿真建模框架,研究内容是离散事件仿真与m a s 的结合。 总的说来,国内外已有的关于a b m s 方法学本身的研究显得比较零散,研 究成果比较少,主要集中于社会与经济领域,还很不成系统,很多问题还没有 达成统一的认识和规范的描述,还没有提出完整的理论与方法体系、实现框架。 目前,国外己有多种基于a g e n t 的建模与仿真平台,具有代表性的有:圣塔 菲研究所的s w a r m ,麻省理工大学媒体实验室的s t a r l o g o ,s a n d i a 国家实验室 的a s p e n 【l 们,芝加哥大学和a r g o n n e 国家实验室的r e p a s t ,芝加哥大学社会与经 济动态性研究中心的a s c a p e , 法国l a r e u n i o n 大学的g e a m a s ;委内瑞拉j a c i n t o d a i l a 等开发的g a l a t e a 以及英国伯明翰大学的s i ma g e n t 等。其中,s w a r m 是应用最广、开发最早的基于a g e n t 的建模与仿真通用平台,己被全世界范围的 多个研究机构和个人应用于多个学科领域的众多研究课题,而r e p a s t ,a s c a p e 与 s w a r m 具有类似的结构和操作方法。s t a r l o g o 最初用来探索以个人计算机进行 大规模并行计算以帮助学生通过仿真来理解复杂系统。a s p e n 主要用于美国经济 的仿真。g e a m a s 主要用于自然现象的仿真,例如火山、地震的仿真。 1 3 课题意义 多a g e n t 系统学习能力是其适应复杂环境、有效完成任务的基础,对多a g e n t 系统学习算法进行改进十分必要。运用计算机对复杂系统进行建模与仿真,可 以使我们更加深刻地了解世晃。我们从复杂适应性系统的角度研究神经网络, 并在多a g e n t 系统技术和强化学习理论的基础上提出了一种新的神经网络建模 东北屯力大学硕_ 卜学位论文 和构造方法,使得神经网络的规模可以大幅度提高。为实现更加复杂的功能提 供了可靠的基础,这为需要大规模神经网络的应用提供了一个很好的方案。 1 4 研究思路与所做工作 论文的工作基于我们对于多a g e n t 系统强化学习的研究而展开,并对复杂适 应性系统进行了研究论述,将多a g e n t 系统强化学习应用于神经网络中,论文主 要特色与创新在于: ( 1 ) 研究多a g e n t 系统强化学习并加以改进,提出了改进的学习算法; ( 2 ) 研究复杂适应性系统; ( 3 ) 在复杂系统与多a g e n t 系统理论基础上,提出了一种新的基于多a g e n t 系统的神经网络构造方法; ( 4 ) 将强化学习理论应用到神经网络权值调整之中。 1 5 论文结构 本文以多a g e n t 系统与强化学习为出发点,在详细分析了多a g e n t 系统、强 化学习理论和复杂适应性系统的基础上,提出了一种改进的多a g e n t 系统强化学 习方法:将m a s 与r l 理论与神经网络结合,提出一种新的构建神经网络的方 法。各章内容安排如下: 第章为绪论,本章介绍了立题背景、研究现状。简要介绍了多a g e m 系统、 强化学习、复杂适应性系统以及基于a g e n t 的仿真建模等的研究要点。 第二章为多a g e n t 系统及强化学习,详细论述了多a g e n t 系统强化学习的基 本概念、原理,并指出了其主要发展方向。 第三章为改进的多a g e n t 系统强化学习,对新算法进行了详细的阐述与分 析,并给出了实验结果与结论。 第四章为复杂适应系统,论述了复杂适应系统的概念、a b m s 的原理与实 现方法,探讨其可行性。 第五章为重构神经网络。本章从复杂适应性系统的角度,结合m a s 和r l , 提出了一种新的构造神经网络的方法,并进行了初步实验。 第2 章多a g e t l t 系统及强化学习 第2 章多a g e n t 系统及强化学习 a g e n t 在a u d a i 和当前主流计算机学科中正成为一个广泛使用、日益重要 的关键性概念,a g e n t 技术提供了一种新的计算和问题求解规范。本章重点讨论 a g e n t 、多a g e m 系统、强化学习等。 2 1 多a g e n t 系统 2 1 1 a g e n t 与m a s 的基本概念 分布式人工智能( d a i ) 的研究和网络化分布环境的普及推动了a g e n t 的理 论、技术,特别是多a g e n t 理论、技术的发展,因为它为分布开放系统的分析、 设计和实现提供了一个崭新的途径。自从m i n s k y 在1 9 8 6 年出版的思维的社 会中提出a g e n t 的概念后,智能a g e n t 技术随着计算机科学的发展迅速趋于成 熟,在很多应用领域有很好的应用前景。a g e n t 是目前计算机科学与技术领域使 用最为广泛的术语之一,它大量出现在人工智能和分布式人工智能、分布计算、 人机交互、软件工程、虚拟现实、系统仿真、计算机辅助协同工作等研究领域, 并被应用于诸如工作流和商业过程管理、异构信息系统、空中交通管制、电子 商务、游戏、理疗保健等许多应用领域软件系统的开发。这些研究和应用领域 的专家和学者往往根据其研究的出发点和应用领域的特点来理解和认识a g e n t 的概念,分析其性质和特征,因而其含义通常依赖于具体的研究领域和应用领 域。比如,在人工智能研究领域,人们侧重关注a g e n t 的智能特征和问题求解能 力;在分布计算研究领域研究人员关心a g e n t 的合作和移动的能力;在智能决策 应用领域,人们认为自主性、学习能力、自适应性、智能决策是a g e n t 的主要特 征;而在电子商务应用领域,人们认为自主性、协商、自发工作等等是a g e n t 的基本特征。因此,目前并没有一个能被不同研究和应用领域的专家、学者、 用户所普遍接受和认同的a g e n t 概念的定义。 r u s s e l l 等认为,“a g e n t 是任何能通过传感器感知( p e r c e i v e s e n s e ) 环境并通过 执行器对环境进行动作的东西”。这个a g e n t 的定义可以说是最宽泛的,任何一 个东西,只要能从环境中获取信息并对环境进行操作均可以认为是a g e n t 。 rm a e s 认为“a g e n t 是在复杂动态环境中能自治地感知环境并能自治地通 过动作作用于环境,从而实现其被赋予的任务或目标的计算系统”。和r u s s e l l 相比,它在感知与动作的基础上增加了两个限定词:自治的和面向目标的。m a e s 把这种a g e n t 称为自治a g e n t 。在这个定义中,“自治”的含义是指a g e n t 的行 为由其自身的经验所决定。 著名a g e n t 理论研究学者w o o l d r i d g e t ”】等在讨论a g e n t 时,提出“弱定义” 和“强定义”两种定义方法:弱定义a g e n t 指具有自主性、社会性、反应性和能 动性等基本特性的a g e n t l 强定义a g e n t 则指不仅具有弱定义中的基本特性,而 且还具有移动性,通信能力,理性等于特定领域有关的特性,他们认为,a g e n t 应当是一个硬件环境或者一个软件系统,这个系统必须具有以下特征: 1 自主性( a u t o n o m o u s ) :a g e n t 具有属于自身的计算资源和局部于自身的行 为控制机制,能在没有其它a g e n t 或人为干预的情况下持续工作,这是a g e n t 的一个最为基本的特征,也是a g e n t 区别于一般对象( o b j e c t ) 的重要特征; 2 反应性( r e a c t i v i t y ) :a g e n t 能够感知其所处的环境( 物理世界、人类用户或 其它相关的a g e n t ) ,并能对环境中发生的相关事件做出适当的反应; 3 自发性( p r o - a c t i v i t y ) :a g e n t 能根据其目的采取主动的行动,甚至主动产生 新的目标,趋向于达成其目的,即a g e n t 是一个目的驱动( g o a ld r i v e n ) 的行为实 体; 4 社会性( s o c i a la b i l i t y ) :a g e n t 处于有多个a g e n t 构成的环境中时,它的行 为必须符合a g e n t 群体中的规则( s o c i a lr u l e ) ,而且a g e n t 可以利用其它a g e n t 的信息和知识,并能通过某种通讯语言与其它的a g e m 进行灵活多样的、复杂的 交互、合作或者竞争等。 在某些特殊的应用系统中的a g e n t 还有很多其它的特征,例如自适应性 ( a d a p t i v e ) ,移动性( m o b i l i t y ) 、理性( r a t i o n a l i t y ) 等。根据应用系统特点和软件设 计要求等方面的差异,不同系统中的不同a g e n t 可能会表现出不同的行为灵活 性。有些应用系统强调对环境事件的实时反应,因而对系统中a g e n t 的反应性提 出较高的要求;有些系统注重a g e n t 行为的主动性和智能性,因而会比较关注 - 8 a g e n t 行为的自发性。另外也可能有些a g e n t 的行为可能表现出反应性和社会性 的特征,而不具备自发性:或者是具有自发性和社会性的特征,而不具备反应性。 在软件工程领域,我们一般定义a g e n t 为:驻留在某一环境下能够自主 ( a u t o n o m o u s1 、灵活( f l e x i b l e ) 地执行动作以满足设计目标的行为实体。该定义 是从软件玉程的视点和角度给出的,首先它是抽象的,不针对任何特定、具体 的研究和应用领域,具有一定的普遍性;其次它是高层的,不针对任何具体的 实现技术和开发平台,具有一定的通用性。 a g e n t 不是孤立存在的,它通常跟别的a g e n t 一起处于一定的环境中,实现 一组功能、提供一组服务,构成一个系统。同时,在许多情况下,单个a g e n t 所拥有的能力、资源有限,需要多个a g e n t 一起协作完成共同的任务。人们将由 多个相对独立同时又相互作用的a g e m 所构成的系统称为多a g e n t 系统( m a s : m u f t i a g e n ts y s t e m ) 。一个多a g e n t 系统包含多个a g e n t ,每个a g e n t 相对独立, 各自具有一组功能和提供一组服务;但是这些a g e n t 之间是相互关联的,a g e n t 之间不仅存在结构相关性,同时也存在行为相关性。而且a g e n t 需要同环境进行 交互,比如从环境获取某种资源,多个a g e n t 的环境可能会发生交替和重叠( 比 如共享某个公共的资源) ,这也意味着它们之间可能存在着某种关系( 比如两个 a g e n t 共享某一稀有资源而存在资源冲突关系,并需要就此进行协商) 。为了实 现复杂豹合作、竞争、协商,不同的a g e n t 之间需要基于高层的a g e n t 通讯语言 和交互协议( 如k q m l ) ,并通过交互介质( 如网络等物理设备) 来进行交互和通讯。 2 1 2 多a g e n t 系统的组织结构 根据m a s 系统中是否存在管理和服务机构,可以将m a s 组织结构方式可 以分为集中式、分布式和混合式三种【“1 。具体结构见图2 1 。其中集中式与分布 式的区别就在于有没有一个中心管理者负责成员a g e n t 的集中控制。 集中式结构的m a s ,将关系密切、有共同意愿的a g e n t 集合成一组,在保 证每个成员一定自治性的前提下,用一个管理服务机构来负责这一组内的协同 控制。多个a g e n t 组还可以组成一个高一级的a g e n t 组,并有一个高层管理a g e n t 来负责低层管理服务机构的协同,可以有若干个这样的层次。管理服务机构与 成员a g e n t 问具有一定的管理与被管理关系。 东北电力大学硕卜学位论文 在分布式m a s 中不存在管理服务机构,而是采用中介服务机构来为a g e n t 成员间的协同提供辅助和服务作用,它与成员a g e n t 间不存在管理与被管理关 系。 矗) 集中式 oo o o oo o d ) 混合式2 图2 - 1 多a g e n t 系统组织结构 混合式结构则兼有分布式和集中式的特征,既有管理服务机构,也有中介服 务机构。m a s 的组织结构对协同机制的决定作用就体现在这两种机构的功能上, 它们在协同中的作用是不同的。 管理服务机构负责对所有或部分a g e n t 成员的行为、协作、任务分配以及共 享资源等进行统一的调配和管理,建立学习系统和a g e n t 成员的模型,实现成员 行为和系统安全性监测及控制等1 1 2 】,管理a g e n t 和成员a g e n t 之间存在着一定 的管理与被管理关系,但这种管理活动并不采用简单的命令方式,而是以协商 的方式进行,保证了成员a g e n t 自治性的实现。一个可行的管理服务机构除具有 系统整体目标、当前环境等知识外,至少还应知道如下几个信息:管辖范围内所 有的a g e n t 的位冕:这些a g e n t 提供何种服务,有什么样的能力;管辖范围内的 共享资源信息,包括种类、数量以及使用情况等等。 设管理服务机构为m ,所有处理应用逻辑a g e n t 组成集a g e n t = a g e n t l ,a g e n t 2 , a g e n t 。 在协同过程中,a g e n t i ( i - l ,2 ,n ) 如果能独立完成一 项任务,就不再向m 提出协商请求,否则就向m 提出合作请求;m 接到请求后 如果发现该任务可由另一个或几个a g e n t 完成,则可以向这些a g e n t 提出合作要 求,或者也可以将这些a g e n t 的信息告知a g e m ;,由它们自行协商:收到合作要 求信息的a g e n t 有权决定是否接受该合作请求,并给m 以反馈,如此数次反复 直至达成协议;对于复杂任务,则由m 分解该任务,再计算出有能力完成各子 任务的a g e n t 集合,经过协商直至达成协议。 中介服务机构用以发布、保存和维护各a g e n t 成员的能力、位置和状态等信 息,并进行合作对象和服务请求的匹配工作,它与系统内a g e n t 成员的关系是服 务与被服务关系。 中介服务机构与管理服务机构最大的不同在于,中介服务机构仅仅为a g e n t 成员提供中介服务,并不像管理服务机构那样拥有多个a g e m 成员和系统当前环 境的丰富知识,也不对系统的共享资源进行管理,更缺乏总体的协同组织能力。 这样的区别是由系统规模决定的:中介服务机构一般存在于大型的开放的m a s 中,不可能像管理服务机构那样拥有系统内所有的全局知识。 2 1 3 多a g e n t 系统开发方法和工具 由于多a g e n t 系统本身的分稚性、复杂性和智能性,成功地开发这样的软件 系统需要新的软件工程方法和工具的支持。由于a g e n t 的抽象方式和对象的抽象 方式具有一定的相似性,所以面向对象技术的相关内容可以作为借鉴。虽然到 目前为止还没有公认的多a g e n t 系统的成型的开发方法和工具,但一些已经取得 的研究成果仍然具有很强的借鉴意义。 东北电力犬学硕f 。学位论文 1 面向a g e n t 的软件工程( a o p ) 工业应用软件通常由大量的相互作用的 部件组成,系统十分复杂,而且这种复杂性源于工业系统本身内在的复杂性。 软件工程就是要为更容易地处理这种复杂性提供结构和技术上的手段和方法。 面向a g e n t 的技术适合开发复杂的软件系统,原因有三:面向a g e n t 的分析 是对复杂的系统问题进行空间划分的有效途径;面向a g e n t 的软件抽象方法是对 复杂系统进行建模的自然方式:面向a g e n t 的哲理可以满足复杂系统对动态组织 关系和结构进行管理的需求。 面向a g e n t 的软件开发的生命周期同样包括需求分析、系统实现和系统测试 等阶段。a o p 的软件工程方法实际上还处于研究的开始阶段,目前还没有成套 的被广泛接受的理论和工具。虽然涌现出了大量的代理应用,并不能说明面向 a g e n t 的软件工程方法已经成熟。事实上,目前大多数的a g e n t 系统的开发都没 有遵循固定的软件工程方法,这同软件工程出现之前就开发了大量的软件系统 的道理一样。 2 多a g e n t 系统开发平台面向a g e n t 的软件工程远没有成熟,如今a g e n t 项目的开发基本上都是依据一些基本的软件工程实践经验从头做起,许多开发 a g e n t 系统的公司通过将a g e n t 系统中的底层服务部分抽取出来,抽象形成可重 用的应用编程接口,以期简化以后开发类似系统的工作。在此基础上形成了大 量的多a g e n t 系统开发工具,这些工具冠以不同的名称,如平台、环境、语言、 框架或者底层结构等。目前至少有5 0 种m a s 开发工具。其中比较著名的有 j a t l i t e 、s w a r m 、j a d e 等。 2 2 多a g e n t 系统强化学习 r u s s e l l 和w e 蹦d 认为:“学习是自治性的一个重要方面。一个系统可称之 为自治的,是指它的行为是由其自身的当前输入和过去的经验而不是设计者的 输入和经验来决定。a g e n t 往往为一类环境专门设计,这类环境中的每一种情况 都已经存储在a g e n t 中,并与设计者所了解的真正环境相一致。这样一个在固有 假设基础上操作的系统只有当这些假设完全真实时才可能成功运行,因而缺乏 灵活性。如果给予充分的应变时间,真正自治的系统应能在任何环境中成功地 第2 章多a g e n t 系统及强化学习 运行。原则上,这一系统的内部知识结构应该可以根据其自身对世界的经验而 进行构造,并且在问题求解过程中应能为a g e n t 所利用和修改。”可见学习能力 对a g e n t 的重要性。 2 2 1 强化学习概述 在机器学习范畴,根据反馈的不同,学习技术可以分为监督学习( s u p e r v i s e d l e a r n i n g ) 、非监督学习( u n s u p e r v i s e dl e a r n i n g l 和强化学习( r e i n f o r c e m e n t l e a r n i n g ) 三大类l i “。其中强化学习是一种以环境反馈作为输入的、特殊的、适 应环境的机器学习方法。所谓强化学习是指从环境状态到行为映射的学习,以 使系统行为从环境中获得的累积奖赏值最大。该方法不同于监督学习技术那样 通过正例、反例来告知采取何种行为,而是通过试错( t r i a l - a n d e r r o r ) 的方法来 发现最优行为策略【l “。 强化学习植根于动物的心理学研究,最初可以上溯到巴普洛夫的狗的反射 实验,其名称也来源于此。最近十年,强化学习已经发展成为多学科的交叉领 域;它包括了人工智能、统计学、心理学、控制工程、运筹学、神经科学、人工 神经网络和遗传算法等方面的研究工作。强化学习日益引人瞩目,其原因是采 用强化学习能够更好地设计出动态环境下运行的智能系统。例如,机器人或者 机器人a g e n t 系统,要求决策方法有更多的自主性使得在不确定的环境下有效并 能满足时间的限制。在这样的情况下,学习对于获得有技能的行为是必要的, 并且只有在这样的情形下强化学习才能显示出比其他学习方法的优越之处。 强化学习是a g e n t 通过试错法和动态环境交互而获得行为的方法。是一种从 环境到行为的映射学习,其目的是使得标量的回报或者增强的信号最大化。学 习者无须像大多数的机器学习方法那样,要知道具体采取哪一个行为,而是通 过试验从中发现采取哪一个行为可以得到最大的回报。一个彳亍为的选择不仅影 响到直接的回报,而且会影响到下一个环境,以及随之而来的以后的所有回报。 试错法搜索和延迟的回报,是强化学习最显著的特色。 通过奖惩来激励a g e n t ,并且无需说明任务是如何成功的。强化学习中要解 决的关键问题,包括通过马尔可夫决策理论( m a r k o vd e c i s i o np r o c e s s e sm d p ) 建立该领域的基础、从延迟的强化中学习、建立经验模型来加速学习、探索和 东北f u 力大学舻卜学位论文 利用的折衷( t r a d e - o f fo fe x p l o r a t i o na n de x p l o i t a t i o n ) 、一般化和层次化的利用 等。 解决强化学习问题主要有两种策略。第一种是在行为空间内搜索以找到在 环境中执行得很好的一个行动。这种方法和其他更多新颖的搜索技术一样,己 经被应用于遗传算法和遗传设计。第二种方法是使用统计学技术和动态规划方 法来估计在给定世界状态下采取的行为的效用。到底哪一种技术更好更为有效 则要取决于具体的应用研究。 2 2 2 强化学习原理 一个智能系统面临的环境往往是动态、复杂的开放环境。因此首先需要设 计者对环境加以细分。通常情况,我们可以从以下五个角度对环境( 或问题) 进行分析【。 表2 - 1 环境的描述 角度1离散状态v s 连续状态 角度2 状态完全可感知v s 状态部分可感知 角度3插曲式v s 非插曲式 角度4确定性v s 不确定性 角度5静态v s 动态 表2 1 中,所谓插曲式( e p i s o d i c ) 是指智能系统在每个场景中学习的知识 对下一个场景中的学习是有用的。如一个棋类程

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论