计算机行业:机器人与大模型催化具身智能东风已至_第1页
计算机行业:机器人与大模型催化具身智能东风已至_第2页
计算机行业:机器人与大模型催化具身智能东风已至_第3页
计算机行业:机器人与大模型催化具身智能东风已至_第4页
计算机行业:机器人与大模型催化具身智能东风已至_第5页
已阅读5页,还剩23页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

计算机行业专题研究证券研究报告股票研究计算机行业专题研究证券研究报告股票研究05.28机器人与大模型催化,具身智能东风已至证书编号李沐华(分析师)97limuhua@S519080009齐佳宏(分析师)37qijiahong@S519080007本报告导读:的创新演化,具身智能的落地应用已见曙光。具身智能是AI的终极形态。具身智能最大的特质就是能够以主人公。具身智能旨在创建机器与环境交互的软硬件结合且可自主学习进化大模型+机器人成果显著,具身智能落地的东风已至。特斯拉利用一继续推荐科大讯飞、金山办公、淳中科技、虹软科技。科大讯飞:同风险提示:产业链不成熟的风险,技术迭代不及预期风险。增持细分行业评级计算机增持相关报告选兼具模型与垂直场景的厂商》2023.05.26计算机《苹果MR有望引爆机器视觉的iPhone时刻》2023.05.18焦算力、数据与场景》2023.05.16贡献大单》2023.05.04大催化》2023.04.23请务必阅读正文之后的免责条款部分行业专题研究2of2of16 AIGC 12 行业专题研究3of3of161.具身智能——AI的终极形态1.1.具身智能的行为主义——人工智能的第三个流派从符号主义到联结主义,智能体与真实世界的交互日益重视。上世纪五十年代的达特茅斯会议之后的一段时期内,对人工智能的研究主要限于符号处理范式(符号主义)。符号主义的局限性很快在实际应用中暴露出网络、循环神经网络,直至今日风靡学术界与产业界的深度神经网络等多种方法。这种用人工神经网络模拟认知过程的方法在适应、泛化与学习方面的确取得了很大的进展,但并未真正解决智能体与真实物理世界交互的地下棋是相对容易的,但是要让电脑有如一岁小孩般的感知和行动能力却是相当困难甚至是不可能的。年,布鲁克斯从控制论角度出发,强调智能是具身化(Embodied)和情境《HowtheBodyShapestheWayWeThink》中通过分析“身体是如何理解智能本质与研究人工智能系统的深远影响。以上这些工作为人工智能的第三个流派——以具身智能为代表的行为主义方法奠定了坚实基础。1.2.具身智能旨在创建机器与环境交互的软硬件结合智能体智能行为可以被具有对应形态的智能体通它们在真实的物理环境下执行各种各样的任务,来完成人工智能的进化相对的概念是“离身”(Disembodiment),指的是认知与身体解耦体(生物或机械)通过与环境产生交互后,通过自身学习,产生对于客观可身的概念是可检验、可测量的。人所理解的世界概念,其中既包括人车等实体以及相应行为的具身概念。而具身概念是具备可达性、可检验性以及可解释性的,即具身的概念对应的实体和行为是可以被测量,可以通过任务的完成来验证以及通过具身学习来实现概念的推断。相比之行业专题研究4of4of16以形成一个可测量、可检验的闭合集 “知行合一”是具身智能的科学立场。根据具身智能的技术实现逻辑,“知”是建立在“行”之上的,也就是说只有通过“具身”才能理解某卧室,其具有睡觉、休息、放衣服等行为特征,这类行为是基于人的身体设计的,因此真正理解卧室的场景,就是要能够直才能保证对场景理解的准确性 具身知识在中国古老汉字中都占据较高比例。甲骨文等古老汉字,绝大代表两个人的手拔一根绳子,因此,理解行为才是理解概念及场景的关图3:中国古老汉字中就具备“具身”理念 究具身智能的终极目标。具身智能要能够实现使用身体(各个部位)完成5of5of16任务的过程中,表现出完成之前没领域的速度、动量、弹性等概念奠基了物理学领域,驱动了后续科学的发1.4.具身智能的实现需具备三种基本特性具身智能首先要具备可供性。可供性意味着要让机器知道物体和场景能xterousgrasping用两、三、五根手指去握一个柱子,倘若不同的手都能够产生无误的握。么具身智能还要具有功能性。具身智能在把物体作为工具使用的过程中,于任务——改变实体状态,是任务实现来驱动智能体的。例如,在解决特定任务。6of6of16身智能需要实现因果链。就以上提到的“铲土”例子,智能体能否顺利铲起土来是有因果关系的,例如控制挥动锤子的方式、动量、冲量等智能研究院朱松纯教授团队介绍了一种学习和规划框架,并证明了所提出的学习和规划框架能够识别对任务成功有重要意义的基本物理量,使智能体能够自主规划有效的工具使用策略,模仿人类使用工具的基本特智能体学习如何使用工具涉及到多个认知和智能过程,这个过程即使对人类来说也并不容易。让机器人掌握工具使用所涵盖的所有技能是一项有挑战性的难题,这项工作包括三个层面:其一是底层的运动控制。很或在不同阶段改变力和运动约束,或使用基于学习的方法来控制机器人运动轨迹。在底层控制中,鲁棒地执行运动轨迹是关注的核心。其二是中间层表征。各种利于下游任务的中间表征被提出,以便更好地理解工具的使用。尽管引入这些表征有利于学习更多不同的工具使用技能,但它们目前仍然局限于工具的形状和任务之间的几何关联。其三是理解在工具使用中的涉及的高层概念,比如物体的功能性(Functionality)和现有的具身智能工作大多集中在以上三种基本特性中的某一层面。要么主要关注于机器人的动作轨迹而不去理解任务本身,要么旨在高层次概机器人还远远没有办法基于特定的情境去制定工具使用的策略,并且由于运动学结构的显著差异,机器人观察到的人类使用工具的策略对其来说可能并不是最理想的方式。例如给定一组物体(典型的工具或其他物体),机器人如何判断哪一个会是完成任务的最佳选择?一旦选择了一心科学问题2.1.具身智能首先得实现人类行为的有效克隆行业专题研究7of7of16要机器理解实体与行为,就得回答三个核心的科学问题。首先,从机器认知角度,如何让机器看懂行为?其次,从神经认知角度,机器认知语义与神经认知的内在关联如何?再者,从具身认知的角度,如何将行为要实现具身智能,就必须先回答机器能否克隆人类的行为这个问题。行解实体+理解行为,因为不确定性的世界空间就可以归类为实体与行为图8:要实现机器理解行为必须拆分为“理解实体+理解行为本身” 深度学习框架在行为认知中遇到了瓶颈。因为深度学习得到长足发展,计算机视觉领域有两个要素,一个是以物体为中心的感知,一个是以人产品都是很少的。之所以人为中心的感知十分困难,是因为深度学习本图9:当前的计算机视觉相关技术在行为识别上存在一定局限性 通大学)行为理解的关键是要在极大语义噪声中提取行为理解要素。行为是一个相关要素。要衡量图像的语义判断区间,可以用语噪比(语噪比=支撑语义判断区间/全图像区间)来刻域。卢策吾教授团队通过计算发现,物体识别的语噪比要远大于行为识别,这意味着遮住较大区域仍可以识别物体,但哪怕遮住一小块区域就噪声中提取行为理解要素,也就是需要在很大干扰情况下,真正挖掘图行业专题研究8of8of16于区域较小的关键部分通大学)将行为认知问题分解为感知到知识、知识到推理融合的两个较为简单的比如吃饭、读书和打扫都有着“手-握-某物”的标签,通过对这些共享图11:将行为认知过程分解为两个较为简单的阶段源:卢策吾教授(上海交通大学)知识以及逻辑规则库是首当其冲的工作。人类理解行为的基本原因,约等于人类各个部件在干什么事情,因此首先得构建原语检测,之后就需要对它们进行编程,实现逻辑规则引导下的数据驱动学习,但这里容易出的问题是,规则是人类自己认为的,如果规则库错了就会有很大的影响,因此规则学习是解决该问题的办法。具体流程是,在行为原语知识库中随机采样,形成对该行为的判断,然后基于人不然就删掉该规则,通过调整后的规则分布形成新规则。卢策吾教授发的“骑车规则”中自动识别出“骑车”这个行为,所以该技术路线可以有图13:针对行为认知的原语知识库示例如下图14:逻辑规则学习流程如下所示数据来源:卢策吾教授(上海交通大学)数据来源:卢策吾教授(上海交通大学)9of9of16机器能够理解人类行为需要有科学依据的支撑。因此,科学家需要进一为从模式到脑信号存在映射,且模型稳定。卢策吾教授联合的行为模式和神经信号进行了相关性分析。通过实验发现机器学习得出行为从模式到脑信号存在映射,并可以建立一个稳定模型。另外,通过构建一套基于机器学习的行为相关的神经回路发现系统,成功发现解析证明了视觉定义行为的科学性和有效性通大学)2.3.机器能够执行行为才是真正理解行为,更需要能执行行为,机器能够执行行为才是真正理解例如,传统AI学习可以让机器学习“盒子”概念并在新的场景中说出通过亲身体验完成具身学习,最终理解场景并形成“打开”这个概念。执行行为需要涉及到形态、行为和学习的体系化交互。在基于形态的具行为,从而达到部分取代“计算”的目的。其次,需要利用行为实现学习,重点强调利用具身智能体的探索、操作等行为能力主动获取学习样实现方法,但当前利用学习手段来提升行为,并进而控制形态的工作是现代人工智能技术发展起来后涌现出来的新型智能控制方法,特别是基于强化学习的技术已成为当前的热点手段。最后,具身智能需要利用学习来优化形态,强调利用先进的学习优化技术实现对具身智能体的形态设计。构如下所示具身感知”是以执行动作为导向的全概念的交互感知。具身智能首先第一步就得解决具身概念学习的问题,即如何定义、获取、表达可以被物理属性,同时标注关节体每个部件的质量、体积、惯性等,记录真实世界物体操作力反馈与仿真操作力反馈,在物理属性知识加持下,物体力反馈曲线可以完全拟合出来,这时候仿真物体操作的时候,不再是去行的准确率,判断感知的准确率。步骤通过行为的反馈和模式学习的空间压缩,可以实现“具身执行”的一定行业专题研究3.大模型与机器人成果显著,具身智能的东风已至3.1.人形机器人——具身智能成长的重要土壤上,马斯克发布了特斯拉的通用机器人计划,并用图片展示了人形机器实体首次亮相t研究团队使用电机扭矩控制(motortorquecontrol)操纵人形机器人腿部的运动,让机器人落脚力度保持轻缓。对于一个机器人来说,观察或感知周围环境是非常重要的,因此特斯拉为人形机器人添加了环境发特斯拉的人形机器人具备与人类相似的身体结构,特斯拉的研究团队使用大量人类演示训练了机器人,特别是在手部动作方面,旨在让其具备与人类似的物体抓取能力。能够对周边环境进行建模具身智能带来的AI价值远比人形机器人更大。具身智能最大的特质就是能够以主人公的视角去自主感知物理世界,用拟人化的思维路径去学行业专题研究语义提供了迭代的基础和试验场,因此,人形机器人的逐步完善也为具要是人形机器人,因此具身智能背后的技术和方法论才是核心,也意味机器人是具身智能的重要应用场景,也将为具身智能的迭代优化提供方3.2.AIGC助力具身智能瓶颈突破,智能与泛化能力是关键强化学习兴起之后,具身智能受到了更广泛的关注。之前随着AlphaGoL而学习一个policy。但是因为仿真环境和现实环境总是有差距的(叫最近大语言模型的风头又压过了强化学习。最近业界希望通过大规模sequencetosequence,用一个模型整合视觉、语言、机器人,也取得多模态大模型为具身智能的技术瓶颈突破提供了重要驱动力。具身智能是人工智能、机器人等各技术分支融合发展的必然结果,因为计算机视觉为图像的采集和处理打开了窗口,图形学也为物理仿真提供了工具识提供了有效途径,认知科学也为具身智能的行为认知原理提供了科学研究途径。各类机器人构件也为智能体与物理环境交互提供了桥梁。因此,人工智能的技术分支以及机器人功能性的提升,为具身智能的进一步发展带来了可能,而当前AIGC时代的大模型可以将之前的技术分支类与机器人沟通的桥梁,即通过将图像、文字、具身数据联合训练,并GPT等AI大模型为具身智能的自我感知和任务处理的优化升级提供了新的研究手段。3.3.巨头纷纷布局,产业融合加速推进会上,黄仁勋表示人工智能的下一个浪潮将是具身智能,即能理解、推理、并与物理世界互动的智能系统。同时,他也介绍了英伟达的多模态NvidiaVIMA,其能在视觉文本提示的指导下,执行复杂融合传感器模态与语言模型,谷歌推出的视觉语言模型相较于ChatGPT了当时最大视觉语言模型——PaLM-E多模态视觉语言模型(VLM),该模世界的连续传感器模态直接纳入语言模型,从而建立单词和感知之间的图像、状态估计或其他传感器模态)注入预先训练的语言模型的语言嵌入空间,因此实现了以类似于语言标记的方式将连续信息注入到语言模谷歌实现视觉语言与机器人高水平实时互联,且观察到了类似多模态思行连续观察,例如接收图像或传感器数据,并将其编码为一系列与语言仍可实现多模态思维链推理(允许模型对包含语言和视觉信息在内的一系列输入进行分析)和多图像推理(同时使用多张输入图像进行推理或们更轻松地与机器人互动,而无需学习复杂的编程语言或有关机行业专题研究阿里采用和微软相似的路径,正在实验将千问大模型接入工业机器人。在近日举行的第六届数字中国建设峰会上,阿里云发布一个演示视频中动编写了一组代码发给机器人,机器人开始识别周边环境,从附近的桌上找到一瓶水,并自动完成移动、抓取、配送等一系列动作,递送给工工业机器人的开发和应用带来革命性的变化,其背后意味着大模型为工业机器人的开发打开了新的大门。因为千问等大模型为机器人提供了推理服务4.投资建议股票代码证券名称总市值(亿元)0526营业收入(亿元)PS(倍)评级AAEAAE687金山办公052485.风险提示部分使用场景,人形机器人显得十分鸡肋。在服务领域,人形机器人的行业专题研究局限在实验室场景,在生活、工业等海量场景中的普适性仍需

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论