版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
计算机|证券研究报告—行业深度2023年12月28日智能体专题报告之一具身智能由智能体(AIagent)和物理实体(本体)组成。智能体是自主完成设定目标的代理,能迭代学习与环境互动。智能体形式包括自动驾驶汽车、机器人等。大模型AI算力投建之下,智能体有望成为消化算力的杀手级应用。智能体赋能之下,人工代码量能大幅减少并对未预先编程的场景进行操作。从产业落地进程看,我们判断未来1-3年内自动驾驶有望先行落地,搭载智能体的机器人则在5年期具备商业化看点。建议关注整体解决方案和产业链厂商投资机会。相关研究报告《口岸信息化行业点评》20231108《数据要素行业事件点评》20231025《自动驾驶行业事件点评》20231024中银国际证券股份有限公司具备证券投资咨询业务资格计算机证券分析师:杨思睿证券投资咨询业务证书编号:S13005180联系人:刘桐彤tongtong.liu@智能体能够以自动驾驶汽车、机器人等多种形式落地,或将诞生生成式AI杀手级应用。智能体(AIAgents)是一个可以通过行动能力自主完成设定的目标的代理,能够不断迭代学习与环境相互适应。智能体与“相关研究报告《口岸信息化行业点评》20231108《数据要素行业事件点评》20231025《自动驾驶行业事件点评》20231024中银国际证券股份有限公司具备证券投资咨询业务资格计算机证券分析师:杨思睿证券投资咨询业务证书编号:S13005180联系人:刘桐彤tongtong.liu@智能体与物理实体结合,能够大大减少人工代码量并且对未预先编程的场景进行操作。区别于CV、NLP等传统深度学习模型,与“本体”耦合后的智能体不依靠被动数据投喂,能够实现1)摆脱传统机器人依靠工程师代码进行控制的模式,以微软《ChatGPTforRobotics:DesignPrinciplesandModelAbilities》为例,操控者只需准备好机器人底层的函数库,并将任务目标告诉chatgpt,chatgpt即可自动完成代码并指挥具身智能机器人行动。(2)对从未见过的对象或场景执行操作任务。依托大模型的涌现能力,具身的智能体能够从原始训练数据中自动学习并发现新的、更高层次的特征和模式,在仅仅依靠网络数据知识的情况下就可以完成没有预先编程的新场景。n自动驾驶:端到端大模型存在平台级DriveGPT机会。自动驾驶落地进程快于机器人,未来1-3年内L4、L5级别的自动驾驶技术有望实现,而搭载智能体的机器人则会在未来5-10年出现。特斯拉FSDV12采用端到端训练方法,与Chatgpt训练模式类似。相比V11,V12代码量减少99%。同时,端到端相比分模块的技术范式具备更高性能范式。当端到端系统达到与现有技术水平相当的时间点时,将会快速超越传统技术栈。通过对比特斯拉FSD和Waymo,我们认为端到端技术奇点已经临近。n机器人:生成式大模型有望加快底层通用平台建设,打造RobotGPT需要大模型模拟数据支持。目前针对机器人的不同技能仍需要不同的大模型。而机器人底层平台发展相对落后的原因在于多数研究者仍使用相对落后的ResNet18深度学习架构,而非在生成模型的巨大数据集上进行模型训练。但随着大模型的迅速发展,RobotGPT进程有望加快。打造RobotGPT的关键是解决数据稀缺问题。相比真实数据,仿真数据同样具备完善的数据分布,涵盖commoncase和cornercase,并且能够以较低成本获取数据,从而规避数据隐私和安全问题。n建议关注自动驾驶平台级机会以及工业仿真环节。自动驾驶层面,端到端技术奇点临近,建议关注商汤科技(UniAD端到端大模型);机器人层面,仿真数据有望加快RobotGPT迭代进程,建议关注中科曙光(新一代工业仿真云平台“力源·久宇”)、索辰科技(CAE仿真软件)、软通动力(iSSMeta数字仿真推演平台)。评级面临的主要风险n技术迭代不及预期;数据采集不及预期。2023年12月28日智能体专题报告之一2智能体:自动驾驶汽车与人形机器人的智能大脑 4智能体不依靠被动数据投喂,具备自主学习的能力 4智能体带动机器人实现升维进阶 5蓝海市场前景广阔,产业端加速落地 8蓝海市场前景广阔,5年市场规模复合增速有望超50% 8产业端加速落地,GEMINI有望接入机器人 9端到端大模型与数据模拟两大方向值得关注 端到端大模型有望打造自动驾驶领域DRIVEGPT 机器人:海量数据模拟需求有望释放 2023年12月28日智能体专题报告之一3 4 4 5 5 6 6 7 8 9 9 10 12 13 14 14 15 16 16 17 17 18 18 19 20 20 21 21 22 222023年12月28日智能体专题报告之一4智能体:自动驾驶汽车与人形机器人的智能大脑智能体是自主完成设定的目标的代理,能够不断迭代学习以与环境相互适应。根据MoPaaS创始人和CEO鲁为民博士在《大语言模型时代的智能体(I):什么是智能体?》一文中的定义,智能体(AIAgents或Agents)是一个可以通过行动能力自主完成设定的目标的代理。智能体具备一些类似人的智能能力和行为,比如学习、推理、决策和执行能力。智能体具备感知、观测、决策和执行四大模块,通过反馈来感知环境及其动态变化,并将行动策略反馈作用于环境,以实现不断迭代学习与环境相互适应。图表1.智能体不断迭代学习以与环境相互适应资料来源:鲁为民《大语言模型时代的智能体(I):什么是智能体?》,自动驾驶汽车、人形机器人都可成为智能体的载体。根据智元机器人CTO、首席架构师稚晖君的定义,智能体与“本体”耦合后,即形成具备物理实体的、且能够在复杂环境中执行任务的智能系统。其中本体作为实际的执行者(通常是具有物理实体的机器人),在物理或者虚拟世界进行感知和任务执行;而智能体则承担智能核心的作用,负责感知、理解、决策、控制等工作。卢策吾教授在机器之心AI科技年会上发表的《具身智能是通往AGI值得探索的方向》中提到,智能体通过感知器和执行器与环境进行交互,能够实现获取信息、理解问题等功能,并根据环境的变化做出相应的决策和行动。根据选择的不同具身方法,智能体能够以机器人、自动驾驶汽车等多种形式表现。图表2.智能体和物理实体耦合后形成具身智能资料来源:卢策吾《具身智能是通往AGI值得探索的方向》,中银证券2023年12月28日智能体专题报告之一5智能体相比传统深度学习模型具备自主学习的能力。CV、NLP等传统深度学习模型主要通过第三视角以互联网图像、视频或文本等数据集进行学习,其训练主要依靠被动数据投喂。而具身的智能体以第一视角进行感知,并与环境交互,不依靠被动数据投喂,具备主动学习的能力以及较强的泛化性。1963年,麻省理工学院教授理查德·赫尔德通过对比实验发现:当猫的脚被绑住放进盒子里时,即使其能正常观察环境,但并不能发育出正常的视觉能力;而另一只可以自由行走的猫在完全相同的环境下,则发育出了正常的视觉能力,因而他认为只有“具身”的训练,才能真正学习与理解外部的环境与信息。图表3.具身的智能体以第一视角进行学习资料来源:卢策吾《具身智能是通往AGI值得探索的方向》,中银证券由智能体赋能的机器人以任务完成为导向,相比传统机器人大大减少了编程的需要。传统模式下,机器人以程序执行为导向,通常需要经过任务定义、将任务分解为动作、编写程序以及执行任务等流程。工程师需要构建高低级指令代码,并且随时更改代码以修正机器人行动,整个过程耗时长且成本昂贵。而搭载智能体的机器人以任务目标为导向,不仅仅是机械地完成程序。具身的智能体可以根据环境变化,对行动细节进行实时修正,其自主学习能力能够消除在特定条件下为特定任务反复编程的需要。图表4.搭载智能体后的机器人无需进行大量编程资料来源:Microsoft《ChatGPTforRobotics:DesignPrinciplesandModelAbiliti2023年12月28日智能体专题报告之一6微软在《ChatGPTforRobotics:DesignPrinciplesandModelAbilities》中提出,大语言模型(LLM)能给机器人提供常识,非工程师也可对机器人进行控制。操控者只需准备好机器人底层的函数库,并对其进行描述。将任务目标告诉ChatGPT后,ChatGPT即可自动完成代码并应用在具身智能机器人上。以居家机器人为例,设计者只需写出机器人进行物品定位、移动到某一位置、抓取物体以及做饭的函数库,然后告知ChatGPT相应函数的作用以及要到达的目标,ChatGPT就会自动写出相应代码。图表5.ChatGPT可自动完成代码并应用在具身智能机器人上资料来源:Microsoft《ChatGPTforRobotics:DesignPrinciplesandModelAbiliti搭载智能体后机器人涌现能力显著提升,可完成没有预先编程的新场景。7月谷歌DeepMind推出机andImagemodel(PaLI-X)和PathwaysLanguagemodelEmbodied(PaLM-E)为支柱,通过输入图像生成一系列自然语言文本的标记。RT-2可用于执行视觉问答、图像字幕或对象识别等任务。RT-2展现了较好的涌现能力,即从原始训练数据中自动学习并发现新的、更高层次的特征和模式的能力。图表6.搭载智能体后机器人涌现能力显著提升中银证券在谷歌具身智能试验中,机器人对从未见过的对象或场景上执行操作任务,在仅依据网络数据知识的情况下,机器人可完成诸如“拿起即将从桌上掉下来的袋子”或“将香蕉移动到2加1的和”等任务。实验结果显示,RT-2对于未曾见过的情景的平均成功率达60%,相比RT-1提升了3倍以上。2023年12月28日智能体专题报告之一7图表7.RT-2涌现成功率达60%2023年12月28日智能体专题报告之一8蓝海市场前景广阔,产业端加速落地具身智能体市场空间广阔,5年市场规模CAGR有望超50%。智能体目前仍处于发展初期阶段,其与机器人、自动驾驶、智能传感器和智能设备、增强现实(AR)和虚拟现实(VR)等多个行业相关,市场空间广阔。以人形机器人市场规模进行参考,据MarketsandMarkets测算,到2028年全球人形机器人市场规模将达到138亿美元,复合增长率预计为50.2%。图表8.2023年-2028年人型机器人市场规模及增速资料来源:MarketsandMarkets,中银证券政策密集催化。2023年以来,多项智能体相关政策陆续发布。5月,北京市发布《北京市促进通用人工智能创新发展的若干措施(2023-2025年征求意见稿)》,提出要探索具身智能、通用智能体和类脑智能等通用人工智能新路径。同期,上海发布《上海市推动制造业高质量发展三年行动计划(2023-2025年)》,提出要瞄准人工智能技术前沿,建设国际算法创新基地,加快人形机器人创新发展。湖北、深圳、广东等省市纷纷加快布局,促进产业高速发展。政策带动下,智能体产业进入快车道。2023年12月28日智能体专题报告之一9图表9.智能体相关政策(2023-2024)》资料来源:上海市、北京市、深圳市、广东省、湖北省人民政府,成都市经济和信息化局,中银证券英伟达推出多模态具身智能系统NvidiaVIMA。英伟达创始人黄仁勋在ITFWorld2023半导体大会上表示,AI下一个浪潮将是“具身智能”,具身智能将开启新的应用和市场,如智能机器人、智能医疗、智能教育等。目前英伟达已推出多模态具身智能系统NvidiaVIMA,并在NVIDIAAI上运行。NvidiaVIMA能在视觉文本提示的指导下,执行复杂任务,如在虚拟环境中搭建乐高积木、在真实环境中操作机器人手臂等。图表10.VIMA在NVIDIAAI上运行资料来源:英伟达官网,中银证券2023年12月28日智能体专题报告之一10谷歌打造“通才”AI模型PaLM-E。3月,谷歌联合柏林工业大学团队发布PaLM-E(PathwaysLanguageModelwithEmbodied参数量高达5620亿。PaLM-E是PaLM-540B语言模型与ViT-22B视觉Transformer模型的结合,它基于谷歌现有的“PaLM”大语言模型(类似于ChatGPT背后的技术)。谷歌通过添加感官信息和机器人控制,使PaLM“具身化”。PaLM-E可以连续观察图像信息或传感器数据,并将它们编码为一系列与语言标记大小相同的向量,使得模型以与处理语言相同的方式“理解”感官信息。同时,PaLM-E还借鉴了谷歌之前在ViT-22B视觉Transformer模型上的工作。ViT-22B接受过各类视觉任务的训练,如图像分类、对象检测、语义分割和图像字幕。作为多模态具身视觉语言模型(VLM),PaLM-E不仅可以理解图像,还能理解、生成语言,还可以执行各种复杂的机器人指令而无需重新训练。当被要求执行“把抽屉里的薯片拿给我”的任务的时候,PaLM-E首先对机器人相机的数据进行分析,而非对场景进行预处理(消除了人类预处理或注释数据的需要以实现更自主的机器人控制。随后PaLM-E引导机器人从厨房取出薯片袋,当研究人员从机器人拿走薯片后,机器人仍然能找到薯片并再次抓取它们。图表11.搭载PaLM-E的机器人无需对场景进行预处理Gemini具备强泛化能力,有望成为机器人智能体。12月6日,谷歌原生多模态大模型Gemini发布。Gemini可泛化并无缝理解、操作和组合不同类型的信息,包括文本、代码、音频、图像和视频。它包括三种量级:能力最强的GeminiUltra,适用于多任务的GeminiPro以及适用于特定任务和端侧的GeminiNano。其中Ultra版可用于大型数据中心等,属于处理高复杂度任务的模型;Pro版则用于各种扩展任务,属于日常使用模型,目前已搭载于谷歌的对话机器人Bard中;Nano版则是应用于智能手机等移动设备终端上的模型。与BERT等模型相比,Gemini具有更多的参数和更深的网络结构,此外Gemini还采用了更先进的训练方法,例如知识蒸馏和自监督学习等,模型泛化能力显著提升。在GLUE和SQuAD等多项自然语言处理基测试中,Gemini分别取得了94.1%和93.3%的准确率。谷歌人工智能高管哈萨比斯在接受杂志Wired采访时表示,谷歌DeepMind已经在研究如何将Gemini与机器人技术结合起来,与世界进行物理互动。2023年12月28日智能体专题报告之一11图表12.Gemini性能显著提升资料来源:DanHendrycks官方Twitter,中银证券阿里千问大模型有望接入工业机器人。在第六届数字中国建设峰会上,阿里巴巴董事会主席兼CEO、阿里云智能集团CEO张勇透露:阿里云工程师正在实验将千问大模型接入工业机器人。接入千问大模型后,在钉钉对话框输入人类语言,操作者即可远程指挥机器人工作。通过钉钉对话框向机器人发送“我渴了,找点东西喝吧。”的指令后,千问大模型在后台自动编写代码发给机器人。机器人对周边环境进行识别,在找到水后,自动完成移动、抓取、配送等一系列动作,并顺利递送给工程师。图表13.千问大模型远程指挥机器人工作资料来源:阿里云《阿里云物联网工程师正在实验将千问大模型接入工业机器人》,中银证券国内首款开源鸿蒙机器人发布。12月5日,国内首款可跳跃的开源鸿蒙人形机器人在深圳发布,该款机器人人形机器人KUAVO(夸父)由乐聚自主研发,重量约45kg,全身自由度26个,步速最高可达4.6km/h,快速连续跳跃高度超过20cm,是国内首款可跳跃、可适应多地形行走、并且可实现量产的开源鸿蒙人形机器人。目前,夸父已进入全面量产阶段,并在科研教育和特种作业领域率先实现商业化落地。乐聚机器人也有望因此成为国内首家实现大机器人量产交付单位。2023年12月28日智能体专题报告之一12图表14.国内首款开源鸿蒙机器人发布2023年12月28日智能体专题报告之一13端到端大模型与数据模拟两大方向值得关注自动驾驶智能体短期内有望快速落地,机器人智能体接力打开中长期想象空间。根据北京智源人工智能研究院院长、北大多媒体信息处理国家重点实验室主任黄铁军在2023STIC科技创变者大会上的演讲,随着技术迭代速度加快,1-3年内L4、L5级别的自动驾驶技术有望实现,而搭载智能体的机器人则会在未来5-10年出现,并对制造业进行颠覆与替代,同时进入普通家庭ToC场景。我们认为短期内,自动驾驶有望成为具身智能体的首个落地方向,端到端大模型技术有望快速超越现有范式,奇点已经临近;中长期生成式模型的快速迭代有望加快RobotRPT进程,产业存在大量模拟数据需求。特斯拉FSDV12采用端到端训练方法,与ChatGPT训练模式类似。ChatGPT采用端到端的训练方法,其关键基础是生成式大规模语言模型。ChatGPT以生成式的自监督学习为基础,在大量的未标注文本数据上训练模型,使其能够学习语言的普遍规律和语言结构。而特斯拉FSDV12同样采用端到端训练方法,与ChatGPT技术路径一致。在常规自动驾驶系统开发中,探测、跟踪、静态环境建图、高精地图定位等子模块分别由不同的团队分担,各团队负责各自模块的结果输出,因此各个模块之间存在明显的界限和区隔,使得模块容易存在局部最优,而非全局最优的情况。而端到端的设计则是将各个模块用可微分的方式连接起来,使任务得到了联合和全局优化。除此之外,端到端前期不需海量代码或提前设计规则,只需不断输入人类驾驶数据,系统就能不断更新迭代。图表15.经典范式和端到端范式之间的差异注:虚线箭头表示在传统范式下,每个组件的输出直接输入到后续单元;实线箭头表示端到端模式下,任务从感知输入到决策模块后,继续反向传播以实现全局优化2023年12月28日智能体专题报告之一14FSDV12神经网络取代传统分模块设计。特斯拉宣布已开始向员工推出完全自动驾驶(FSD)V12版本。特斯拉FSDV12使用全球各地数百万特斯拉车身视频作为训练材料来模仿人类司机的驾驶决策,采用“光子进入,控制输出(photonin,controlsout)”。目前常见自动驾驶系统多采用分模块设计,即分为感知、决策、控制三个模块。车辆通过传感器感知周遭环境,确定车辆位置、速度、加速度,并根据识别出来的语义进行行驶路线的规划和横纵向的决策,最后通过转向和制动机构控制车辆行驶,各任务内部采用各自的算法模型,感知、决策与控制之间界限明确。而特斯拉将规划和控制由代码改成了神经网络形式,与感知层的神经网络合并成了一个大网络,仅利用一套神经网络就能处理所有输入信号,并输出驾驶决策。图表16.特斯拉FSDv12神经网络架构资料来源:2022TeslaAIDay视频,中银证券FSDV12代码量相比V11减少99%。相比V11,V12最主要的更新在于其99%决策都是由神经网络给出,这一更新减少了车机系统对代码的依赖,使其更加接近人类司机的决策过程。这是特斯拉首次放弃代码,使用神经网络进行车辆控制。与V11相比,V11使用超过30万行代码,依靠工程师硬核编码对车辆进行控制。而FSDV12则可通过神经网络控制转向、加速和制动。目前,FSDV12的C++代码只有2000行。图表17.特斯拉FSDv11神经网络架构资料来源:2021TeslaAIDay视频,中银证券2023年12月28日智能体专题报告之一15具备核心数据积累,影子模式有望支撑神经网络加速训练。特斯拉影子模式的运作方式是在有人驾驶状态下,运行自动驾驶系统和传感器,系统虽不参与车辆控制,但仍持续进行模拟决策,并把决策与驾驶员行为进行对比。两者不一致时,系统将场景判定为“极端工况”,进而触发数据回传。因而特斯拉的使用用户越多,收集的数据就越多。图表18.特斯拉影子模式示意图资料来源:2019TeslaAutonomyDay视频,中银证券大模型的训练依赖海量数据的提供,提供的数据越多,训练质量就越优异。在特斯拉2023年股东大会上,马斯克透露FSD累计行驶里程已经接近2亿英里。据LexFriedman发布的数据显示,截至2020年1月16日,特斯拉的所有汽车行驶里程达到191亿英里,其中自动驾驶里程为22亿英里。相比之下,同时期Waymo路测里程约为1000万英里,特斯拉于数据储备方面具明显优势。马斯克发现,当输入超过100万个视频后,基于神经网络的自动驾驶系统开始表现良好。目前FSDV12已使用包含1000万个视频的数据集。并且特斯拉在全球各地近200万辆的车队,每天也会提供约1600亿帧视频用于训练。特斯拉预计,未来用于训练的视频将达到数十亿帧。2023年12月28日智能体专题报告之一16图表19.特斯拉影子模式加速数据采集奇点临近,端到端系统有望超越现有范式。根据小鹏XPILOT总监PatrickLiu在CVPR2023上的演讲,分模块的方式允许开发人员以最少的努力快速工作,但通常会导致自动驾驶性能上限为80%,而端到端以全局最优为导向,相比传统分模块的范式具备更高上限。然而在端到端系统起步初期,需要重复多次才能不断突破性能天花板。从图中我们可以看出,当端到端系统达到现有技术水平的时间点后,将会快速超越技术栈。图表20.端到端系统有望超越现有范式资料来源:PatrickLangechuanLiu'stalkatCVPR23E2EADWorkshop,中银证券在8月26日马斯克45分钟直播试驾中,FSDBetaV12在面对之前从未见过的建筑、道路标志时能够进行识别,并轻松绕过障碍物。对于同样未经过编程的环形交叉路口概念,FSDV12顺利完成转弯行驶。只需输入目的地地址,FSDV12就可自动行驶到达目的地,并将车停到合适的位置。YouTube博主CallasEV将特斯拉FSD与Waymo进行了长距离驾驶对比。从同一地点出发到同一终点,Waymo全程用时54分42秒,而特斯拉的路线用时仅为26分27秒,用时不到Waymo的一半。2023年12月28日智能体专题报告之一17图表21.特斯拉路线用时仅为Waymo一半资料来源:Youtube频道CallasEV,中银证券UniAD成为国内首个端到端自动驾驶大模型。6月21日,全球人工智能和计算机视觉领域顶级国际会议CVPR2023宣布由上海人工智能实验室、武汉大学及商汤科技联合发表的论文《以路径规划为导向的自动驾驶》(Planning-orientedAutonomousDriving,UniAD)获最佳论文奖。在UniAD中,研究人员首次将感知、预测和规划等三大类主任务、六小类子任务(目标检测、目标跟踪、场景建图、轨迹预测、栅格预测和路径规划)整合到一个基于Transformer的端到端网络框架下,实现了全栈关键任务驾驶通用模型。在nuScenes真实场景数据集下,UniAD的所有任务均达到领域最佳性能(State-of-the-art,SOTA尤其是预测和规划效果方面。其中,多目标跟踪准确率超越SOTA20%,车道线预测准确率提升30%,预测运动位移和规划的误差则分别降低38%和28%。图表22.UniAD网络架构机器人领域尚未形成底层通用大模型。根据达闼机器人创始人、董事长兼CEO黄晓庆9月20日在2023亚布力智能制造发展论坛上的发言,RobotGPT是智能制造领域需要的各种垂直的、从事各种生产的通用机器人的大脑,可以传承各种长期积累的工作经验,且不需要人类编程,只需要人类以自然语言的方式来进行记录。但当下机器人在不同的技能情况下仍需要不同的大模型,底层通用平台尚未形成。目前机器人领域主流的具身智能大模型主要包括谷歌PaLM-E、RoboticTransformer以及LM-Nav等,这些大模型各自针对不同细分场景。2023年12月28日智能体专题报告之一18图表23.主流机器人智能体对比模型架构入RT-2被主要应用于控制场景,具备较+视觉导航模型(VNM)银证券PaLM-E在规划方面优势突出。PaLM-E能够进行长期推理规划,抵抗任务期间可能发生的中断。在处理机器人任务时,PaLM-E获取到用户使用自然语言定义的长期任务目标后,会根据当前机器人的状态和感知信息,生成逐步的低级文本指令,并交由下游控制模块执行。根据每一步的执行结果及场景的变化,机器人会重新对下一步进行规划。在谷歌视频演示中,当研究人员从机器人手中抓取薯片并移动它们时,机器人能够再次找到薯片并抓取它们。图表24.PaLM-E在在规划方面优势突出RoboticTransformer主要针对控制场景。RoboticTransformer2(RT-2)是视觉语言行动(VLA)模型,它从网络和机器人数据中学习,并将这些知识转化为通用指令以控制机器人。RT-2具备较强的思维链能力,可以完成多步骤逻辑推理,能够用复杂文本指令直接操控机械臂,中间不再需要将其转化成简单指令,通过自然语言就可得到最终的行动。在面对图像输入时,RT-2模型在输入图像数据后会首先输出语言规划结果,再把语言规划结果分解成动作,控制机器人完成。RT-2在物流、制造、安保等领域应用广泛。2023年12月28日智能体专题报告之一19图表25.RT-2架构LM-Nav主要针对导航场景。LM-Nav主要基于大型语言模型(LLM)、视觉和语言模型(VLM)以及视觉导航模型(VNM)。其中VNM负责根据环境中的观测值构建拓扑图,LLM用于提取指令中的地标,VLM对所描述的地标和图像的联合概率分布进行推断。之后系统利用VLM的概率分布和VNM推断的图连接性,从环境中检索出最优指令路径,并由VNM进行执行。在没有微调的情况下,LMNav可实现无需对机器人导航数据进行人工注释。2023年12月28日智能体专题报告之一20图表26.LM-Nav架构银证券RobotGPT与ChatGPT技术路径相似,生成模型有望加快RobotGPT进程。RobotGPT不需人类编程,只需人类用自然语言的方式来进行记录。根据《RobotGPT:FromChatGPTtoRobotIntelligence》,RobotGPT框架图思路类似于ChatGPT:ChatGPT的原理可理解为文字-文字的接龙,而RobotGPT原理是文字/语言/各类传感器接收的信号-动作接龙,两者皆是通过深度学习和强化学习构建端对端图表27.RobotGPT架构2023年12月28日智能体专题报告之一21OpenAI领投的人形机器人公司1XTechnologiesAI副总裁EricJang在《我们如何让机器人更像生成模型?》中提到,机器人相比生成式模型发展相对落后的原因在于大多数研究者仍在使用相对落后的ResNet18深度学习架构,而非在生成模型的巨大的数据集上进行模型训练。但随着生成模型的迅速发展,RobotGPT进程有望加快。2018年6月,OpenAI发布GPT-1模型,参数达1.1亿。同年11月,GPT-2模型发布,参数提升至15亿。2020年5月,GPT-3的beta版本推出,模型参数迅速提升至1750亿。随后大模型发展开始进入到百花齐放阶段。2021年1月,谷歌推出SwitchTransformer,参数量达1.6万亿,是史上首个万亿级语言模型;同年12月,谷歌推出了1.2万亿参数的通用稀疏语言模型GLaM。2022年5月,MetaAI发布超大规模语言模型-OPT-175B,是参数超过千亿级别的开放模型。2023年12月,谷歌Gemini原生多模态大模型发布,模型分为Ultra、Pro和Nano三个规格,目前GeminiPro模型已整合到GoogleAIStudio和VertexAI中,可供企业在开发中使用。图表28.2020年以来大模型发展历程资料来源:RebeccaLi,etal.《CurrentBestPracticesforTrainin生成模型正逐步运用到机器人大模型中。2023年7月,斯坦福大学李飞飞团队发布VoxPoser系统,将大模型ChatGPT4+VLM,接入至机器人,可在无需额外数据和训练的情况下,将复杂指令转化为具体的行动规划。在给定环境信息和要执行的自然语言指令后,LLM(大语言模型)直接相应内容编写代码,并将所生成代码与VLM(视觉语言模型)进行交互,指导系统生成相应操作指示地图,即3DValueMap,最后,运动规划器合成6-DoF动作,整个流程无需对模型进行任何额外的训练。图表29.VoxPoser的现实运用场景证券2023年12月28日智能体专题报告之一22打造RobotGPT的关键是解决数据稀缺问题。RobotGPT的泛化能力与LLM大模型的赝本数量直接相关。根据《PaLM-E:AnEmbodiedMultimodalLanguageModel》,谷歌PaLM-E62B的LLM相对于8B的LLM体现了更好的out-of-distribution泛化性,LLM数据量的提升显著增强了RObotGPT泛化性。目前通过大模型的涌现能力和思维链能力,可以使部分任务零样本学习到,但Voxposer机器人还是局限在桌面上进行操作,如果要实现更广阔空间的扩展,仍需要高质量数据做支撑。图表30.大模型参数与训练数据规模呈正相关数据仿真有望成为产业突破关键。区别于非具身智能,具身智能需要实际部署到真实环境中,才能够采集数据,但目前探索真实环境成本高昂且需要海量数据。智元机器人CTO、首席架构师稚晖君在接受媒体甲子光年的采访中表示,现在LLM的预训练通常需要web-scale级别的数据,而具身智能的场景更为复杂,数据获取难度进一步加大。而数据仿真具备完善的数据分布,不仅涵盖commoncase,同时也涵盖大量cornercase,尤其是现实中获取难度极大,获取代价极高的数据。其数据成本低且可以规避数据隐私和安全问题。根据《Willwerunoutofdata?AnanalysisofthelimitsofscalingdatasetsinMachineLearning》文中预测,2026年文本数据将被训练完,而图像数据将在2040年左右耗尽。根据Gartner的预测,2026年模型训练数据中的50%将由合成数据构成;2030年合成数据的质量将全面超过人类标注的真实数据。数据仿真或将成为产业突破关键。图表31.合成数据将成为人工智能中使用的主要数据形式2023年12月28日智能体专题报告之一23投资建议智能体应用落地:短期自动驾驶有望快速落地,中长期具身智能机器人成长可期。根据北京智源人工智能研究院院长黄铁军在2023STIC科技创变者大会上的发言,1-3年内L4、L5级别的自动驾驶技术就能实现,而搭载具身智能的机器人则会在未来5-10年出现。我们认为短期内,自动驾驶有望成为具身智能体的首个落地方向。自动驾驶层面:端到端大模型技术有望快速超越现有范式,奇点已经临近。UniAd大模型是国内首个端到端自动驾驶大模型,将感知
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论