(模式识别与智能系统专业论文)基于示范的移动机器人导航技术.pdf_第1页
(模式识别与智能系统专业论文)基于示范的移动机器人导航技术.pdf_第2页
(模式识别与智能系统专业论文)基于示范的移动机器人导航技术.pdf_第3页
(模式识别与智能系统专业论文)基于示范的移动机器人导航技术.pdf_第4页
(模式识别与智能系统专业论文)基于示范的移动机器人导航技术.pdf_第5页
已阅读5页,还剩61页未读 继续免费阅读

(模式识别与智能系统专业论文)基于示范的移动机器人导航技术.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中旧科学技术大学硕士学位论文 摘要 摘要 随着机器人技术的不断进步,使机器人具有智能,并自主完成各种任务已经成为机器人 发展和在各领域“泛应用的迫切需求。一般通过对机器人进行专门的编程来完成不同类型的 任务,这是一个非常复杂的过程。机器人所要面临的情况之多和所要完成的任务之广使得对 机器人的编程变得十分困难。让机器人通过与使用者进行灵活而简单的互动来学习使用者的 经验技术,是当今机器人研究的一个重要方向。本文基于机器人的现有能力,用嵌入式行为 对任务进行描述使机器人通过跟随教师的示范来学习高级任务描述和复杂的导航技术。 为了能实现这种学习方式,机器人的结构应具备以下主要特征:模块性、模块的复用性、 鲁棒性、实时响应性以及支持学习,和对复杂任务描述的编码能力。本文提出了一个分层抽 象行为结构,它对标准的基于行为的控制进行了扩展:将标准行为分解为抽象行为和基本行 为:能用基于行为的框架对复杂的任务进行描述和执行:通过使用抽象行为来使模块具有复 _ f _ | 性。 为了能学习到更准确的任务描述,本文还提出了一种基于实践与反馈的学习改进方法 教师不需要了解机器人的构造平f l 任务编码的方式,只要通过观察机器人的执行情况就能提出 有效的反馈,从而使机器人改进不正确的任务描述。 在基于示范的机器人导航过程中,机器人对周围环境的感知及理解是一项关键技术。本 文提出了一种基于多超声波信息精确建立环境模型的新方法,通过分析相邻多个超声波传感 器测量数据间的相互关系以及环境特征的相关信息,用线段匹配实现对探测环境建模,此方 法可以很好地识别墙壁、拐角和缺口等环境特征。用这个建模方法进一步增加了基于示范的 学习的有效性。 最后的实验验证了所提出的基于示范的学习和建模方法,对机器人学习高级复杂的导航 技术提供了有效的技术支持。 关键字: 基于示范的学习,分层式抽象行为结构,任务描述,环境建模 儿 中国科学技术大学硕士学位论文 a b s t r a c t a b s t r a c t w i t ht h e d e v e l o p m e n to ft h e r o b o ts k i l l s ,t h a tt h er o b o tc o u l dh a v e i n t e l l i g e n c e a n d a u t o n o m o u sa c h i e v et a s ki n d e p e n d e n t l y , i sa nu r g e n tn e e df o rt h ed e v e l o p m e n to fr o b o ta n di n v a r i o u s d o m a i n d e s i g n i n gc o n t r o l l e r s f o rt h e s et y p e so ft a s k si s u s u a l l yd o n eb yp e o p l e s p e c i a l i z e di np r o g r a m m i n gr o b o t s e v e nf o rt h e m ,m o s to f t e nt h i si sac o m p l i c a t e dp r o c e s s ,a si t e s s e n t i a l l yr e q u i r e sc r e a t i n gb yh a n dan e w a n dd i f i :r e n tc o n t r o l l e rf o re a c hp a r t i c u l a rt a s k t h e n u m b e ro fs i t u a t i o n st h a tt h er o b o tm a yf a c ea n dt h ew i d es p e c t r u mo ft a s k si t m a yh a v et o p e r f o r m m a k e t h e j o b o fr o b o tp r o g r a m m i n gd i f f i c u l t r a t h e r t h a np r e p r o g r a m m i n gar o b o t f o ra 1 1 t h et a s k si t su s e r sm i g h tw a n ti tt op e r f o r m ,w h i c hi si n f e a s i b l ei nm o s tc a s e s t h a tt h er o b o tc o u l d l e a r ns u c ht a s k sf r o mt h eu s e r , t h r o u g hf l e x i b l ea n dn a t u r a li n t e r a e t i o n w h i c hi st h ei m p o r t a n t r e s e a r c hd i r e c t i o nf o rt h er o b o tl e a r n i n g t h i sd i s s e r t a t i o n p r e s e n t s af r a m e w o r kt h a te n a b l e s r o b o t st ol e a r nc o m p l e xn a v i g a t i o ns k i l l sf r o md e m o n s t r a t i o n s b a s e do nas e to fa v a i l a b l er o b o t c a p a b i l i t i e s i ta l l o w sar o b o tt ol e a r nr e p r e s e n t a t i o n so f h i g h - l e v e lt a s k sa n dc o m p l e xn a v i g a t i o n s k i l l sf r o m t e a c h e r - f o l l o w i n gd e m o n s t r a t i o n s ,w h i c he m p l o y s a c t i o n - e m b e d d e d r e p r e s e n t a t i o n s t oe n a b l et h i st y p eo fl e a r n i n g ,t h eu n d e r l y i n gr o b o tc o n t r o la r c h i t e c t u r es h o u l de x h i b i tt h e f o l l o w i n gk e yp r o p e r t i e s :m o d u l a r i t y , r e u s a b i l i t yo fe x i s t i n gm o d u l e s ,r o b u s t n e s sa n dr e a l - t i m e r e s p o n s e ,s u p p o r t f o r l e a r n i n g a n dt h e a b i l i t y t oe n c o d ec o m p l e xt a s k r e p r e s e n t a t i o n s t h e d i s s e r t a t i o n p r e s e n t s ah i e r a r c h i c a la b s t r a c tb e h a v i o ra r c h i t e c t u r et h a te x t e n d st h es t a n d a r d b e h a v i o r - b a s e dc o n t r o l i nt h a t :t h eb e h a v i o r sa r ed i v i d e di n t ot w oc o m p o n e n t s o n ei sa b s t r a c t b e h a v i o r s ,t h eo t h e ri s p r i m i t i v eb e h a v i o r s ;i ta l l o w s f o rt h e r e p r e s e n t a t i o na n de x e c u t i o no f c o m p l e x ,h i e r a r c h i c a l l ys t r u c t u r e dt a s k sw i t h i nab e h a v i o r - b a s e df r a m e w o r k ;i te n a b l e sr e u s a b i l i t y o f b e h a v i o r st h r o u g ht h eu s eo f a b s t r a c tb e h a v i o r s f o r l e a r n i n g am o r ee x p l i c i tt a s k r e p r e s e n t a t i o n ,t h ed i s s e r t a t i o np r o p o s e dam e t h o do f i m p r o v i n gl e a r n i n gt h r o u g hp r a c t i c ea n dt e a c h e rf e e d b a c k ,i td o e sn o tr e q u i r et h a tt h et e a c h e rh a v e a n yk n o w l e d g e a b o u tt h es p e c i f i c so ft h ea r c h i t e c t u r ea n da b o u th o wt h ei e a r n e dt a s ki se n c o d e di n o r d e rt op r o v i d ea p p r o p r i a t eg u i d a n c e t h es i m p l eo b s e r v a t i o no ft h er o b o t s p e r f o r m a n c ei s a n e f f e c t i v ei n d i c a t o rf o rr o b o ti m p r o v i n gt a s kr e p r e s e n t a t i o n i nt h e p r o c e s s o fl e a r n i n gf r o md e m o n s t r a t i o n t h e s e n s i n ga n du n d e r s t a n d i n gt o t h e e n v i r o n m e n t a l l sav i t a is k i l lf o rt h er o b o t an e ws o n a rs e n s o r m o d e l i n gm e t h o di si n v e s t i g a t e di n t h ed i s s e r t a t i o n b a s e do nt h ea n a l y s i so f r e l a t i o n s h i pb e t w e e nd a t am e a s u r e db ym u l t i p l es o n a r s e n s o r s ,t h ee n v i r o n m e n ti sm o d e l e dw i t hp o l y g o n t h er e s u l t so f s i m u l a t i o na n de x p e r i m e n ts h o w t h a t t h i sm e t h o dc a nr e c o g n i z ew a l l ,c o r n e ra n dg a pp r e c i s e l yi nt h ee n v i r o n m e n t t h i ss o n a r s e n s o rm o d e l i n gm e t h o df u r t h e ri n c r e a s e st h ee f f e c t i v e n e s s o f l e a r n i n gf r o m d e m o n s t r a t i o n t h er e s u l t so fe x p e r i m e n ti d e n t i f i e st h em e t h o do fl e a r n i n gf r o md e m o n s t r a t i o na n dt h e e n v i r o n m e n t a lm o d e l i n ga p p r o a c h ,w h i c hp r o v i d e se f f e c t i v es u p p o r tf o rr o b o tl e a r n i n gh i g h l e v e l t a s k sa n dc o m p l e x n a v i g a t i o ns k i l l s , k e yw o r d s :l e a r n i n gf r o m d e m o n s t r a t i o n ,h i e r a r c h i c a la b s t r a c tb e h a v i o r - b a s e d a r c h i t e c t u r e ,t a s kr e p r e s e n t a t i o n ,e n v i r o n m e n t a l m o d e l i n g i l l 中国科学技术大学硕士学位论文致谢 致谢 在我写硕士毕业论文的过程中,周围有很多人支持我帮助我,我非常感谢他们对我的论 文工作所做出的无私奉献。 首先,我要对我的导师陈宗海教授表达我最深情的谢意。在我的研究生学习阶段,他始 终给予我最耐心的指导与支持。在这期间,从他那里所学到的知识和他对我的帮助都使我受 益匪浅。感谢他带我进入机器人领域。在这个多彩的世界中开阔了我的眼界,他的关怀、热 情和无私奉献的精神始终鼓舞着我。 同时,我还要感谢实验室的兄弟姐妹们是他们的想法和建议帮助我完成了论文的终稿。 特别的我要感谢胡社教老师和陈锋老师在这几年中对我在学习、生活和工作方面的指导。 衷心地感谢周光明师兄对我不断地支持以及在我写论文过程中对我的帮助。 我还要感谢实验室每位成员所创造的开心、友善和勇于进取地氛围,在实验室这几年的 学习生活是我最宝贵的经验。 我最真诚的谢意要送给卓睿、张陈斌、贾梦雷和方伟,他们与我共同经历了研究生阶段 的各种考验,从研一的专业课学习到研二的文献整理,一直到研三找工作和做毕业论文。他 们的陪伴使我的研究生生活变得丰富多彩。 感谢文锋师兄、陈春林师兄、任皴师姐、董道毅师兄和陈会勇师兄在实验室教我做的每 件事情他们总是耐心的解答我提出的各种问题。 将我最特别的感谢送给我内心最深处的人,将我最深切的爱和感激献给我的父母。他们 是世界上最伟大的父母,他们对我的爱、对我的关怀以及为了我所做出的牺牲都让我无以回 报。 中冈科学技术人学删卜学位论文 第一章绪论 第一章绪论 本章介绍了全文的主要内容以及在通过示范使机器人增加学习和互动能力方面所做的 贡献,讨论了研究过程中遇到的主要难题,并给出了相应的解决方案。另外,本章还简述了 学习任务的方法,并介绍了分层式抽象行为结构。这个结构利用嵌入式行为的描述将示范转 变为任务知识,最后给出了一种利用多超声波信息对环境进行精确建模的方法。 机器人学的一个主要目标是使机器人最终被应用于真实的世界中,在工作中帮助人们, 在有危险或者人类无法到达的环境中代替人们完成工作。近年来在自主机器人设计方面的进 步使我t f j l g 离这个目标越来越近了。 本文在类人机器人领域中提出了一个使机器人与人进行交流的框架,并使他们从示范中 学习完成新的导航任务,使机器人具有新的学习、自主控制和交互能力,并增加了他们在动 态不可预知环境中的应变能力。 在不久的将来,机器人不仅可以独立完成任务,也可以组队与其他机器人或人共同完成 任务。现在的机器人具有越来越多的用途,比如博物馆里的导航员或者机器宠物等。在不久 的将来,他们还可能成为有感情的朋友用于建立新型的社会关系。一般通过人们对机器人 进行专门的编程来实现这些不同类型的任务,这是一个非常复杂的过程,因为对于不同类型 的任务需要手动创建新的不同的控制器。机器人所要面临的情况之多和所要完成的任务之广 使碍对机器人的编程变得十分困难,要对各行各业的所有工作进行预先编程是不可行的。如 果机器人能通过与使用者进行灵活而简单的互动来学习使用者的经验技术,完成不同的工 作,将会i 艮有发展前途。随着机器人应用领域的不断推广,越来越多的人成为了潜在的机器 人片】户,由于他们并不具备专业的机器人编程技术,所以研发出套适用于所有用户的机器 人控制设计系统将会有很大的市场价值。 本文所提出的任务目标就是使机器人具备学习任务的能力,并应用于导航领域,使机器 人能自动学习人们的导航技术,从而进步完善自主智能机器人的导航系统。因此个很自 然的想法就是使机器人通过教师的示范来学习特定的导航任务,这增加了机器人与人互动的 能力,从而使用户从手动编写控制器的繁重任务中解脱出来。 下面一节将更详细的介绍在通过示范教授机器人方面使存在的主要问题和本文所要实 现的目标。 1 1 动机和目标 1 1 1 通过示范教机器人 基于示范的学习是通过示范的作用,将技术知识从专家教师转移到学习者。尽管乍一着 这个问题很简单( 有什么比重复别人做过的事情还难的呢? ) ,但是通过示范来教授机器人 却面临许多难题: 机器人的感知能力有限,而且与人的感知能力不同,通过对机器人进行什么样的示范 才能最大化的传输知识? 机器人的构造与人不同,在教师行为与机器人自身运动传感器之间怎样才能建立映射 荚系? 中国科学技术大学硕士学位论文 第一章绪论 学习是增量式的,这就是说如果已经存在适当的基础,就可以进步学习到技术和知 识,机器人能学到什么或者学习它需要什么样的能力? 下面的章节将详细的探讨这些问题,并给出了一个能解决这些问题的方法。 1 1 2 机器人的感知能力 列于使用基于示范学习系统的机器人来说,机器人对示范的理解能力是个关键部分,根 据机器人传感器能力复杂程度的不同,可以使用不同的方法。 基于观察技巧的学习,学习者依靠被动地观察教师的工作情况来尝试再现所观察到的行 为。他们在大多数情况下是用照相机采集环境信息,这需要用到复杂的电脑视觉技术去解释 教师的行为。 基于示范的学习方法要求机器人主动参与到示范过程中来,在跟着教师执行任务过程 中,用自身的传感器来感知这个任务。对不同特性的机器人要采用不同的示范方式:对于类 人机器人一般采用摇操作或者虚拟现实来实现,在移动机器人领域中,最典型的方法是跟随 教师。 机器人在基于观察的学习中所面临的最大考验是怎样正确地理解教师的示范。因为在 大多数真实环境中,都存在观察不全面和噪声的问题。学习者必须能阐述所观察到的东西, 并将他们与自己的能力匹配,而且还要考虑到自身结构与教师的差异性。在本文中:我们将 机器人所经历的示范作为任务知识从教师转移到机器人的桥梁。 1 1 3 机器人的学习能力 除了特殊的示范以外,所有的方法都应该解决机器人要学习什么这个问题。 如果目的是让机器人学习特定的移动序列( 比如:从起点沿直线到达终点) ,那么重现 教师示范的轨迹就够了。这是在基于机器人执彳亍过程中环境不发生变化的前提下进行的。 但是在大多数情况下,机器人所要学习的任务依赖井受环境的影响。在学习“穿越” 的能力时比如进个门,如果机器人只记录了示范过程中的精确轨迹它将不能在另一个 位置上穿过这个门。这个问题主要是由于机器人没有对任务i b 标进行高层描述造成的。在这 个例子中,主要目的是要通过一个门,而不管这个门在什么位置上不是遵循特定的移动轨 迹。在本文中:我们关注学习高级任务的描述,而不是精确的教师轨迹。 机器人所能学习的任务复杂程度也是在设计学习方法时要考虑的一个重要问题。在描述 任务时,两个重要的复杂因素是:序列的编码和采集的间隔。 关于序列,一种方法是用反应式策略( r e a c t i v ep o l i c i e s ) ( 如:迷宫导航,但是它没有 一个明确的排序能力,只能将环境情况与机器人的行为进行直接匹配。与之相对的是顺序执 行任务( 如:装配任务) ,对步骤的序列进行精确的编码。在它们之间的方法是对机器人与 环境的相互作用得到序列进行编码并执行,并能对序列进行精确的描述。这些类型的任务都 可以由低级行为( 如:向右转1 0 度) 到高级复杂的行为( 如:跟踪,进门) 所构成。 从以上的讨论来看,任务的复杂程度是随着序列的约束和高级组件的使用而增加的。在 本文中:我们的目的是使机器人具有学习复杂任务的能力。 2 中国科学技术大学硕士学位论文 第一章绪论 1 1 4 机器人应具备的知识 如前文所述,复杂的任务可以通过对已有的简单控制组件进行复杂的组合来学习。一般 来说,用高级技巧比用低级命令更容易学习到复杂的任务。 基于示范的方法多数都是尝试在机器人没有任何预备能力的情况下教机器人完成任务。 让机器人根据一个新学的能力直接学习一个复杂的任务是很困难的,由于机器既要学习必要 的组成模块,又要学习怎样用这些模块来表达更杂的结构。这限制了这个方法学习更复杂任 务的能力。 在辅助用户的机器人领域中,如果需要用户教机器人所有所需的基本技能,那么这种机 器人是没有实际用途的。因此,让机器人具备套能完成基本任务的技能是十分必要的。用 户只需要教机器人怎样使用和结合他们的特定要求就可以了。在本文中:我们假设机器人已 经具备了一套能完成基本任务的能力。 通过以上的讨论,我们可将本文的目标描述如下:基于机器人已有的潜在能力( 行为) , 研发一个使机器人通过自身传感器来经历示范并学习对任务进行高级描述的机制。 1 2 基于示范学习的任务描述 1 2 1 机器人的控制结构 殴计系统时应考虑的一个非常重要的问题是决定用什么类型的控制结构,这在很大程度 上取决于机器人所要工作的领域、任务的特性以及机器人所具备的能力。我们认为一个合理 的控制结构应该具备以下主要特征: 模块性:我们的目标是在机器人现有的能力下,研发一个灵活自主的机器人控制器, 将这些技能封装在模块里可以组成更复杂的结构。 已有模块的复用哇:由于机器人做不同的工作要用到不同的技巧,所以组件模块应不 需要用户来制定或通过任务来设计,它们应该按照模块最大复用性来设计。 支持学习:既然我们的目标是从教师的示范中研发出一个学习任务描述的方法那么 机器人控制结构就应该能从训练过程所收集的观察中自动的构建这神描述, 鲁棒性和实时响应性:当机器人在执行任务的过程中,特别是在动态地环境中,比如 在人群里,机器人要能对周围的突发事件做出响应。 对复杂任务的描述和编码能力:由于我们致力于设计一个学习复杂的任务的方法,因 此控制结构应具备对必要描述的编码能力。 基于行为的控制( b e h a v i o r b a s e dc o n t r 0 1 ) 是一个有效的机器人控制方法,它具有模块 性、鲁棒性和实时性的特征,可以为机器人的工作创建一个量好的基础,但是它在其他方面 的能力有限。本文提出了一个基于行为的分层式结构来对基于行为的控制进行扩展,它具有 行为复用性、学习和描述复杂任务的能力。这个结构执行和学习任务时,采用嵌入式行为的 描述,这意味着机器人不仅通过观察,还通过动作的执行来学习和描述任务。在第三章将会 对这个学习过程做更具体的介绍; 中国科学技术大学硕士学位论文 第一章绪论 1 2 2 基于行为的控制 在研究和实际应用领域中,基于行为的控制己成为嵌入式控制系统中所使用的越来越酱 遍的方法。基于行为的系统采用同步执行的方法,它一面从传感器或别的行为中采集信息, 一面发送指令到执行器,这个过程被称为行为,描述了达到或者维持某种特定目标的行动, 是构成复杂智能行为的基础。 在基于行为的系统中应遵循的一个重要的原则是建立与执行间隔尺度相匹配的行为。如 果既用慢速行为又用快速行为,会使系统在时间尺度上混乱,导致不能维持基于行为的控制 系统实时响应的特性。 由于基于行为的系统中缺乏抽象行为描述,使他们无法应用于更高级的规划中,所以基 于行为的系统还有待于开发和扩展它的全部能力。我们所要寻找的是一个能学习一般任务的 描述方法,能按顺序激活机器人的行为。在本文中我们研发了一套能够先进行描述,再执行 这个序列的机制。 基于行为的系统的另一个局限是对不同的任务都要进行手动设计,缺乏抽象描述阻碍了 基于行为系统的自动产生。我们的目标是有效的利用行为的鲁棒性和实时性,研发一个能自 动产生基于行为系统的行为的描述并支持多任务中( 至少在一个相关任务里) 的行为复用, 从而避免当转换到不同任务时的任务重定义甚至重编码。 在下一节中,我们将介绍为扩展基于行为的控制系统而研发的分层式抽象行为结构,并 解决以上的局限性。 1 2 3 基于行为的分层式抽象结构 一个基于行为的分层式抽象行为结构允许根据行为网络构建复杂的任务的描述。在这个 结构中,行为由两部分组成:一部分与感知有关,一部分与动作有关。 感知部分称为抽象行为,它封装了行为的前置条件和行为的目标信息。动作部分成为基 本行为,在特定条件下完成具体任务。抽象行为是网络描述的基础,他们之间的联系描述了 特定任务的前置条件与效果之间的关系。在所生成的网络里,行为的激活不仅依靠自身的条 件( 特定的环境状态) ,还依赖于与它相关的前一个行为的效果。这些连接用一个简单自然 的方法描述了复杂的行为序列,而且利用连接作为具体任务的激活条件促进了行为的复用, 并对学习高级任务描述提供了所需要的灵活性。 这个结构也允许构建分层描述:描述任务的整个网络可以根据抽象行为网络被抽象为更 高级的组件,井进一步结合来描述更复杂的任务。第三章将详细的讨论这个结构及其组成部 分。 1 3 通过多种形式进行示范学习 4 中国科学技术大学硕士学位论文第一章绪论 人们之间学习各种任务是一个复杂的过程,不论是学生还是教师,都需要依靠多种交 流和学习手段,比如示范、口述讲解、暗示或手势等。这些方式共同作用就可以产生有效的 教学方法。但是机器人只能依靠这些交流手段中的一种或少数的几种。在教机器人时,一般 先给它一个典型的任务示范,然后让它在教师的监督下完成一系列实验来检验学习到了什 么。在执行过程中,教师会提供反馈来指明修正量( 与任务无关的行为或者遗漏的任务部分) 。 而且,教师也可以提供更多的示范供学习者来归纳任务描述。这些方面在机器人的教学中经 常被忽视了,我们考虑了这些问题,显著地改进了学习过程,并且传递了更多的任务信息, 同时也验证了一种更加灵活的教学方法。 图1 1 从示范和教师反馈中学习和改善任务描述 本文提出了一种利用多模式来学习描述高级任务的方法,这与人们在相互教学中所使用 的方法类似。图1 1 给出了我们学习和改善任务描述的整体策略。这个策略的灵活性在于教 师可以根据机器人当时的执行情况来调整他的教学方案:在第一次示范后,既可以提供更多 的训练样例,也可以通过监督机器人的执行过程来给出反馈。我们的实验表明,使用各种示 范和反馈的组合都可以得到很好的结果。本文的主要内容是:使机器人利用多种示范、实践 实验和反馈的方式来学习和改善对复杂任务的高级描述。 下面的章节将简要的介绍我们研究方法中的一次性学习和通过实践反馈来改善任务的 作明。 1 3 1 一次性学习 从示范中学习任务时,机器人必须能从环境中采集观察信息,并将他们与自身行为之间 建立联系。这个联系是通过我们的基本行为结构实现的:感知组件使每次的观察结果匹配一 个基本目标。机器人参与示范以后,可以通过自身传感器采集的信息调整它的行为( 通过他 们的参数) ,如果使手动设计,则必须在程序中预先设定参数。在任务中的观察给出了行为 序列的一般信息,使人们从繁琐的序列编码中解脱出来。 中国科学技术大学硕士学位论文第一章绪论 1 3 2 通过实践改善所学任务 我们的行为机制也存在局限性,那就是当不断的观察到不必要的任务步骤时,会将这个 错误步骤编入任务描述:或者当机器人连续的漏掉任务中的一个有关部分时,它无法察觉这 种情况。为了解决这个问题,本文提出了监督实践的方法,根据监督机器人执行情况,教师 可以提出反馈来说明哪里出现了问题。 这个方法的优点是教师并不需要了解机器人的具体构造也不用知道学习任务怎样编码, 就能提供有效的指导,对机器人运行情况的一个简单观察就足以能说明机器人学到了什么。 因此,当教师发现机器人在执行不必要的步骤或机器人跳过了必要的任务步骤时,可以及时 的给出反馈。第五章详细介绍了实践和教师的反馈是怎样改善任务描述的。 1 4 论文提纲 本文余下部分组织如下: 第一章:绪论 介绍知识转移、类人机器人交互领域的前沿知识和使用的嵌入式行为描述的动机, 第二章:学习方法及任务描述 提供了这个领域前人的相关工作的回顾。 第三章分层式抽象行为结构 给出了我们的行为结构在执行复杂任务中的作用,描述了与教师互动和构建任务描 述的过程并给出实验验证机器人的学习能力。 - 第四章基于示范的学习 介绍示范过程和观察中应注意的主要问题,以及从观察中建立任务描述,并给出了实验 验证通过示范来教机器人导航技术的方法。 第五章基于实践和反馈的学习改进 通过实践和反馈来改善学习的效果,去除与任务无关的学习步骤,并重新学习导航任 ,务中所遗漏的部分。 第六章基于多超声传感器的环境建模 通过分析相邻多个超声波传感器测量数据间的相互关系以及环境特征的相关信息,用 线段匹配实现对探测环境的建模。 第七章总结 对所做j :作进行总结,并对未来工作进 亍展望。 中国科学技术大学颈上学位论文第二章学习方法及任务描述 第二章学习方法及任务描述 本章给出了机器人学习和人工智能等领域相关工作的回顾。首先列举了几个最有代表性 的移动机器人控制结构的例子,然后讨论了当前对任务描述进行编码的方法,分析了常用的 任务学习策略,并介绍了基于多示范学习的技术。 前一章已经介绍了本文的目的,就是在不需要编程技术和机器人知识的前提下,通过示 范来转移复杂的任务知识。还介绍了大量与设计方案相关的问题:控制结构的选择,任务描 述的学习,示范的方法、通过反馈和实践改善任务学习的能力。 2 1 机器人控制结构的描述 如前一章所述,有很多因素会影响到基于示范的机器人控制结构的选择,比如模块性、 组件复用性、实时性、对复杂任务描述的编码能力和对学习所能提供的支持。本章给出了一 些最具代表性的机器人控制方法,井介绍了分层顺序执行控制结构,因为它与本文所提出的 分层式抽象行为结构有相似部分。 2 1 。1 反应式系统 反应式系统中的控制是由机器人传感器和它的效应器构成的闭环能对变化的和非结 构化的环境做出快速的响应。这个方法并不能使机器人具有记忆、维持状态和构建内部环境 描述的功能,因此它只能应用于一些相对简单的问题。这类系统的特征总结在表2 1 中,下 面将进行更详细的讨论。 表2 1 反应式系统特征总结 描述没有 任务执行和描述程度简单( 反应式规则) 鲁棒性和实时响应性非常好 模块性部分 复用性部分 对学习的支持只有反应式策略 对复杂任务描述的编码能力: 在反应式系统中,只能在所有嵌入式反应规则中查找当前的环境状态,这使得这个系统 不适用于需要使用内部模块或需要记忆的复杂任务。 反应式系统进行规则收集时,将特定的情况对应特定的行为,这些系统有两种组建方式: 平面式:如果耍感知的环境可以被分解为相互独立且唯一的情况,对于一个给定的环 境只触发种行为则系统可以按照状态空间与行为空间一对一的方式构建。 分层式:如果对于一个给定的情况,触发了一个以上的行为,那么行为的优先级决定 了执 亍的先后顺序。这些优先级可以在设计时预先设定,也可以动态设定或边学边设定。 具有代表性的反应式结构的例子有通用规划,电路语义符号系统和t - r 程序等。 在反应式系统中,没有明确的序列描述,他们的序列和智能行为都是在机器人与环境动 态的交互中产生的,这是限制反应式系统只能完成相对简单任务的另外一个原因。 中国科学技术大学硕士学位论文第二章学习方法及任务描述 鲁棒性和实时响应性: 如上所述,反应式系统最重要的特征是他们能对动态和非结构化环境做出快速响应,这 使他们在真实环境中有很好的鲁棒性,能处理不需要复杂推理能力就能解决的问题 模块性: 根据执行的特殊性,反应式系统可由模块构建,但是多数还是由低级行为构建的。因此, 反应式框架既支持组件控制器,又支持非组件控制器。 复用性: 系统各部分的复用程度是由执行的具体情况决定的,只有重新设计通用规划或t - r 程序 时,规划和模块才可能被复用。 对学习的支持: 反应式系统提供对学习的支持,但是由于在任务描述上的限制,学习只能用反应式策略。 考虑到以上方面,虽然反应式系统具有很好的实时响应和鲁棒特性,但是他们在任务描 述和学习上的局限使得他们无法满足我们所提出的要求。 2 1 2 慎思式系统 慎恩式系统中的控制主要是利用传感器所能获得的信息和存贮的知识来推断应采取什 么行动。通常传感器用于构建一个内部环境模型,然后再规划出一个能达到指定目标的路径。 虽然这个结构能使机器人根据模型产生一个复杂的行为序列但是它只适用于变化不大的环 境。真实环境和不可预知的环境需要不断地更新内部环境模型并重新规划,这是很费时的。 嵌22 总结了在我们评价标准下慎思式系统的特性,下面将进行更详细地讨论。 表22 慎思式系统特征总结 描述有 任务执行和描述程度复杂( 规划) 鲁棒性和实时响应性低 模块性有 复用性有 对学习的支持条件结果操作和规划存储 对复杂任务描述的编码能力: 与反应式系统相比,慎思式系统广泛的使用了内部环境描述,因那此他们需要知道全部 环境模型才能推理出下一步应采取什么行动。环境模型是预先设定的或者由传感器信息构建 的,使机器人能推算各种情况下的行动所产生的后果。因此,除了与任务相关的知识以外, 这些模型对于构建一个能完成目标的规划来说是必不可少的。 慎思式系统可以对复杂行为序列进行描述,并能推理和描述出达到目标的可行路径。在 典型的滇思式方法中,一旦构建了计划,它就一步一步地执行,直到到达目标为止。然而, 多数的真实环境是动态的,导致环境模型频繁改变致使计划作废。解决这个问题的办法有 定时重新规划,监测f 2 和增加规划存储 3 1 。 鲁棒性和实时响应性: 既然当环境突然发生改变时,环境模型的更新和重新规划都是一个费时的过程,那么机 器人就不能在短时间内找到一个可执行的行为,不能做出实时响应是降低系统鲁棒性的一个 重要因素。 模块性: 中国科学技术大学硕士学位论文 第二章学习方法及任务描述 慎思式系统中的掏建模块多数是高级的州符号表示的操作,并有明确定义的前置条件和 后置条件,这些操作使任务分级的分解,产生了模块任务描述。 复_ e j 性: 在某种意义上说,操作模块可以完全被前置条件和后置条件所表示,因此他们可以很容 易的被其它任务复用。 对学习的支持: 慎思式系统的主要研究内容是:规划控制器f 4 ,改善操作器川,操作器预处理【“,程 序规划知识7 1 和从经验中学习规划 s i 。因此,虽然慎思式系统提供了对复杂任务序列的构 建和描述,但是他们的实时性和鲁捧性都使他们无法应用于有噪声、动态的环境中。 2 1 3 混合式系统 反应式和慎思式系统在执行过程中既有优点又有缺点。反应式系统可以对未知环境做出 响席,但只能应用于相对简单的任务。慎思式系统可以构建和执行复杂的规划,但对于很多 真实环境却不能实现。 在机器人控制中,最常用的融合反应式和慎思式系统的方法是混合式系统,它既用慎思 层又用反应层。慎思式组件依靠内部描述推理出到达目标的可行路径反应式组件处理机器 人的紧急需求,可以在短时间内做出响应。为了能在两层之间提供一个自然的交互,混合式 系统需要一个中间层来解决两层问的冲突和不同的描述。构建中间层需要处理两层间复杂的 交互,这是混合式系统设计中的最大难题。 在表2 。3 中我们给出了混合式系统各种特性的总结,下面将进行更详细的讨论。 表2 3 混合式系统特征总结 描述有 任务执行和描述程度规划和反应规则 鲁棒性和实时响应性好 模块性有 复用性部分 对学习的支持条件,结果操作和规划存储 对复杂任务描述的编码能力: 与慎思式系统相似,混合式系统通过慎思式组件广泛地利用了内部环境模型并存储知 识它门需要这些信息来推理到达目标的可行路径, 混合式系统将慎思式丰富的描述与反应式简洁的模型楣结合。在执行时需要系统中间 层来调解慎思层与反应层的控制组件,从而避免潜在的冲突。 混合式系统有多种设计方法:a g r e & c h a p m a n 9 1 用一个规划器给反应式系统发出命令 这个系统选择使用或者忽略这个命令。a r k i n b a l c h i ”i 提出了一个混合式策略,它融合了 一个符号慎思层和一个反应式控制器作为执行时的行为选择器。其它经典的混合式结构有 s h a k e y ,r a p s 川,s s s 1 ,3 t i z l 和离散事件系统f d i s c r e t e e v e n t s y s t e m s ) l 删! 州。 鲁棒性和实时响应性: 9 中国科学技术大学硕士学位论文第二章学习方法及任务描述 混合式系统的反应式组件可以使机器人对环境中的紧急变化做出响应。比慎思式系统的 鲁棒性能要好。否则,反应时间可能比反应式系统要长,因为反应层( 对突发变化做出响应) 和慎思层( 尝试完成任务) 的策略可能会产生冲突。 模块性: 混台式系统从它的反应层和慎思层中继承了他们的模块特性。在符号层里,描述是由抽 象操作构成的,它允许将任务进行模块化和分层分解。在反应层中,也能用模块化的设计。 复用性: 与慎思式系统相似,高层组件可以不经任何修改而复用。在低层,由所选择的操作来决 定是否复用组件。 对学习的支持: 混合式系统既可以用反应式的学习技巧也可以用慎思式的学习技巧。b e n s o n n i l s s o n 【1 4 1 描述了一个混合式结构,它能够学习智能体的行为效果,这个结构也可以用于构 建更可靠的规划。 到目前为止在我们分析的移动机器人结构中,混合式系统对我们的要求提供了最好的 支持。但是,使用这类系统的缺点是中间层设计复杂,合理的协调两个不同的控制层很困难。 在后面中我们将更详细的讨论混合式系统,并将这些系统与基于行为的控制做一个比较。 2 1 4 基于行为的系统 基于行为的系统是一种受生物学启发,能在复杂动态环境中进行控制的方法,因此最适 用于非结构化的真实环境。他们由目标获取模块构成,并能持续地并行执行,有维持状态和 拘建描述的能力。但是,通过行为结构对这些描述进行有效的分类很困难,也是至今为止为 什么多数的基于行为的系统没有使用复杂描述的原因。 在表24 中,我们总结了在我们评价标准下的基于行为系统的特征后面将更详细的进 行讨论。 表2 4 基于行为的系统特征总结 l描述能力未被充分利用 l任务执行和描述程度相对简单 鲁棒性和实时响应性非常好 模块性有 、复用性部分 对学习的支持能力未被充分利用 对复杂任务描述的编码能力: 基于行为的系统具有存储状态和互相交流的行为能力,使得他们能够构建环境模型,由 于描述的构建过程很复杂,所以这个能力未被充分利用,但也不影响基于行为的系统使用这 种描述。 m a t a r i c 较早的完成了一个嵌入式描述,并成功的将慎思式组件融入到基于行为的系统 中。并应用于导航系统进行环境建模和路径规划。 基于行为的系统中描述的局限性影响了系统可执行任务的复杂程度。一般来说,行为 要利用内部的反应式条件,这使得他们不适用于有复杂的序列任务。 有许多方法能解决行为激活的问题,也称行为选择闷题。m a e s ”1 描述了一个动态行为 0 中国科学技术大学硕上学位论文第二章学习方法及任务描述 选择机制,这是基于给定行为指令表所产生的网络来激活行为的。b r o o k s 0 6 】和c o n n e l l 用 一个选择方法来进行行为裁定。在这种情况下,虽然行为是并行执行的,在同一时间内,会 有多个行为产生输出,但是他* 服从一个优先权顺序表,最后由这个表来选出要执行的行为, 将其输出传送给执行元件。其它的行为选择机制包括基于融合的方法,这种方法将各种行为 的输出混合在一起作为一条新的执行器命令:选举机制选择有最高得票的行为。更详细的行 为选择策略可参见i l “。 鲁棒性和实时响应性: 由于行为是快速的过程,与机器人的传感器和效应器直接相连,他们能使系统实时响应 环境中的变化。这也增加了系统的鲁棒性,因为环境中的任何变化都能被立即处理机器人 能够对突发事件马上做出判断。 模块性: 基于行为的系统的组件是按照从下到上的方式构建模块的,使简单模块逐渐具备复杂的 能力。 复用性: 一般来说,为了设计基于行为的控制器,要制定能捕捉任务特征的行为激活条件,即使 任务的基本过程相同,要对任务中不同的行为进行复用也需要不断的改变行为和编码。 对学习的支持: 虽然太多数基于行为系统的学习方法都注重学习策略,但是这些系统仍然有能力学习更 复杂的任务描述。 对以上基于行为系统特征的分析表明,虽然他们能对学习、行为复用提供全面支持,并 有对复杂任务描述进行编码的能力。但他们还有很多未被充分利用的潜在能力。基于行为的 系统与混合式系统有着相似的能力,又有各自的特点。两个系统都具有相同的描述和计算能 力:混合式系统利用环境模型来检索技巧去规划和预测未来

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论