人形机器人感知硬件专题研究：人形机器人的五类感官和硬件支撑

上传人：y*** IP属地：广东上传时间：2024-01-31 格式：DOCX 页数：5 大小：369.65KB 积分：2.39 举报 版权申诉

全文预览已结束

 下载本文档

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

人形机器人感知硬件专题研究：人形机器人的五类感官和硬件支撑人形机器人加速发展，感知能力愈发重要人形机器人迅速迭代，国内外厂商加速布局特斯拉机器人迭代迅速，历时8个月便可执行复杂动作。2022年10月，在特斯拉AIDay上，特斯拉机器人Optimus首次亮相，当时还需要人工推出，仅能完成简单的肢体动作。而在2023年3月的投资者日中，Optimus便展现了步行以及组装机器人的工作能力。到2023年5月的股东大会上，Optimus已经可以实现对物品的抓取等复杂动作。马斯克提出，Optimus将面向应用场景进行快速迭代，预计在特定应用场景将快速推出量产机型。我们认为特斯拉强大的汽车供应链有望加速Optimus量产实现。特斯拉强大的供应链及解决方案有望加速人形机器人量产进程。目前人形机器人商业化量产的瓶颈主要可归结为技术、成本和应用场景三个方面。但特斯拉在三大瓶颈方面均有特有优势。1）技术方面，拥有FSD自动驾驶技术以及DOJOD1超级计算芯片的特斯拉在人形运动控制、硬件执行器、运动规划算法等方面正在进行广泛深入的底层研究；2）成本方面：研发团队在设计阶段已充分考虑量产阶段的降本可行性，例如高度集成的电池、6种执行器等，强大供应链保障有望降低量产成本；3）应用场景：特斯拉汽车工厂将为人形机器人提供巨大的试验田，早期版本的机器人将在工厂中进行大量训练，并不断迭代，解决了大多数厂商早期寻找应用场景这一大难题。传统机器人公司技术迭代速度较慢，且并未面向应用场景设计机器人，供应链问题也导致机器人造价十分昂贵。以大家熟知的波士顿动力

Atlas为例，根据波士顿动力官网，波士顿动力的Atlas拥有近40年的发展历史，1983年-2013年，从麻省理工LegLab走出来的Atlas基本完成了简单的肢体动作和行走能力，2016年Atlas开始具有简单的物体搬运功能，并且没有灵巧手，2019年Atlas行走能力进一步增强，可实现后空翻等动作，并且能够识别复杂地形，2021年，Atlas具有一定的工作能力，用简单的灵巧手搬运物体。目前，发展了40年的Atlas仍然没有明确的应用场景，且售价十分昂贵，达到200万美元以上。特斯拉或在机器人行业再次带来鲇鱼效应。回顾新能源汽车在中国市场的发展史，特斯拉这条“鲇鱼”对于我国新能源汽车升级与降本带来巨大推动作用。2019年1月，特斯拉上海工厂奠基，2020年1月，特斯拉上海工厂新车交付，国产版Model3售价下调，扣除补贴后，基础版车型售价从35.58万元下调至29.9万元，低廉的售价以及优良的性能对我国新能源车厂商带来了巨大冲击，迫使我国新能源车厂商降本提效，加速了新能源车行业的发展，同时也推动了我国消费者对新能源车的接受度提高。因此，我们认为特斯拉在机器人行业中也将扮演这条“鲇鱼”，极快的迭代速度以及可预期的低廉的售价将迫使老牌机器人厂商加速发展。国内外巨头纷纷参股或设立人形机器人研发公司。现有人形机器人产品主要为日本本田ASIMO、美国波士顿动力Atlas、美国AgilityRobot、优必选Walkers、中国小米CyberOne、以及特斯拉Optimus等。其中，日本本田、小米及特斯拉皆研发了自己的人形机器人。而波士顿动力相继辗转谷歌、软银后，目前被现代公司收购。美国AgilityRobot的2022年B+轮融资的投资者中，出现了亚马逊及索尼。国内外巨头纷纷下场加码人形机器人，人形机器人有望迎来快速发展。国内外机器人创业公司也纷纷推出人形机器人或产品。国内机器人行业创业公司如追觅科技、达闼科技等先后推出自己的双足人形机器人，国内四足机器人领先企业宇树科技也在加入到人形机器人的研发中，腾讯RoboticsX实验室推出自研机器人灵巧手“TRX-Hand”和机械臂“TRX-Arm”，为其后续在机器人行业的发展作出铺垫，华为于2023年6月注册成立东莞极目机器有限公司，正式进军机器人领域，注册资本8.7亿元。国外方面，OpenAI

在A2轮领投挪威人形机器人公司1XTechnologies，旨在将其强大的AI系统与实体机器人结合起来，从而为AGI的发展奠定基础。人形机器人浪潮下，类人型机器人也迎来快速发展，但人形机器人仍然是各大厂商的主要目标。随着人形机器人浪潮袭来，类人型机器人如四足机器人也迎来了快速发展，成为各大厂商的必争之地，早在2021年3月腾讯便发布多模态四足机器人Max，并在2022年8月推出Max二代，小米于2021年8月发布第一代四足机器人铁蛋，小鹏鹏行机器也于2022年7月发布首款四足机器人。此外一些在机器人领域深耕多年的创业公司也拥有自己的标杆四足机器人产品，例如宇树科技的A1、云深处的绝影X20、蔚蓝科技的E系列、优宝特的YoBoGo。国外较为出名的四足机器人有波士顿动力的Spot、IIT的HyQReal。但人形机器人相较于仿人形机器人仍有较大优势：（1）仿生步态下运动能力较传统履带/四轮/双轮机器人大幅提升；（2）灵巧手可实现双手配合和工具替换，较工业机器人技能更广；（3）依靠算法能力实现复杂环境识别并实施决策。预计到2027年，全球人形机器人市场规模将达到141亿美元。根据优必选招股书，弗若斯特沙利文预计2026年全球智能服务机器人产品及解决方案的市场规模将达到676亿美元，2021年到2026年CAGR达到25%。而根据StratisticsMarketResearchConsulting数据，全球人形机器人市场规模将在2027年达到141亿美元，2020年到2027年CAGR达到58%。人形机器人是具身智能的重要载体，AI发展赋能机器人感知人工智能的下一个浪潮将是具身智能。在ITFWorld2023半导体大会上，英伟达创始人兼首席执行官黄仁勋表示，人工智能的下一个浪潮将是具身智能，即能理解、推理、并与物理世界互动的智能系统。具身智能是具有身体体验的智能。1950年，图灵在他的论文“ComputingMachineryandIntelligence”中首次提出了具身智能的概念。之后的几十年里，大家都觉得这是一个很重要的概念，但是由于技术限制，具身智能并未有很好的发展。从认知的角度来看，人类是第一人称视角的智能，用1963年的实验来说明，有两只猫，一直猫被绑起来，只能看这个世界，另一只猫可以主动去走。被动的猫是一种旁观的智能，而主动的猫是具身的智能。到最后，这只旁观的猫失去了行走能力。当机器可以主动感知世界时，人工智能也就变成了第一人称的智能，也就无限接近于人类。具身智能由具身感知、具身想象和具身执行三个基础模块构成。上海交通大学卢策吾教授在机器之心AI科技年会中提出了PIE方案，即具身感知（Perception）、具身想象（Imagination）和具身执行（Execution）。PIE方案帮助机器模拟了人类的思维及行动方式，即机器人首先需要识别物体，然后通过交互感知物体，再通过数字孪生进行仿真模拟，利用最好的结果去执行。卢教授也演示了机器人如何抓取被打碎的陶瓷瓶碎片，对于不规整的碎片，机器人总是能成功抓取。作为具身智能的大脑，多模态大模型更符合人类大脑接受与处理信息的方式。从人类接受信息的角度看，我们所接收到真实世界的信息来自于多模态的数据源，如语音、文本、图像等，而单模态预训练模型只涵盖了单一模态的信息，无法对人类的信息获取、环境感知、知识学习与表达的主动学习过程进行有效表达，不同模态之间的隐式交互信息并未被充分利用与学习。“GPT一小步，多模态AI的一大步”，GPT-4支持图片和文本类信息同时输入。GPT-4是由OpenAI发布的大型多模态模型，它不仅能与用户一起生成、编辑，完成创意的迭代和技术写作任务，更重要的是，它还能读懂图片。多模态感知是实现通用人工智能的必要条件，无论是知识/能力获取还是与现实物理世界的交互，这也是其与上一代GPT的主要区别。在GPT-4中，多模态输入的图像和文本基于Transformer作为通用接口，图形感知模块与语言模块对接进行进一步计算。基于Transformer技术，GPT-1只有12层，而到了GPT-3，则增加到96层。GPT-4增加了额外的视觉语言模块，理论上具有更大的模型尺寸和输入窗口。语言方面，以ChatGPT为代表的大模型已具备协助机器人处理语言，从而可以高效地对感知信息进行交互，如人类通过自然语言对机器人进行调试。根据微软SaiVemprala等最新的论文：“目前的机器人需要专门的工程师不断编写新的代码来修正机器人的行为，而我们使用ChatGPT的目标是让非技术用户参与到修正过程中，通过高级语言命令与语言模型交互，无缝部署各种平台和任务。”如果付诸实践，AI有望帮助编写新代码和规范来纠正机器人的行为，因此允许了不懂技术的广大用户提供反馈，轻松地与机器人互动，直到用户对机器人的处理解决方案满意为止，再将这个代码部署到机器人上，一个调试就结束了。视觉方面，谷歌推出ViT统一了CV和NLP框架，用于图像识别。ViT模型将语言模型的transformer架构用于视觉模型，代替了传统的CNN，统一了CV和NLP的架构。2020年10月，谷歌推出VisionTransformer（ViT）模型，证明了不使用CNN，直接将Transformer结构应用于视觉模型也可以很好地执行图像分类任务。Transformer将句子中的每个词（token）并行输入编码器，ViT直接将图像拆分为多个块，将每个块的位置和包含的图像信息当做是一个词，输入到编码器中，训练好的编码器可以将图像输出为一个包含了图像特征的编码，类似于在语言模型中将一句话输出为一个包含了语言信息的编码，之后通过MLP层将编码器的输出转化为不同分类的概率。信息处理方面，算法模型与软硬件一起集成为可供机器人“思考”的“大脑”。如谷歌发布RoboCat，其基于谷歌的多模态模型Gato，可以在模拟和物理环境中处理语言、图像和动作。通过将Gato的架构与一个大型训练数据集结合起来，该数据集由各种机器人手臂的图像序列和动作组成，可以解决数百种不同的任务。RoboCat先通过机器视觉观察由人工操作的机械臂完成任务，搜集数据后通过在物理和虚拟环境中进行练习，通过练习生成新的训练数据，合并进入训练集，用于新版本的训练，从而学会此次任务。学会此次任务的RoboCat可被移植到新的机械臂上，对新的机械臂进行微调后执行相同的任务，RoboCat在几小时内观察1000次人工演示后，可以灵巧的指挥新手臂抓取齿轮，成功率高达86%。RoboCat的出现为未来更加通用的机器人出现打下基础。人工智

人人文库> 全部分类> 图纸下载 > 毕业设计

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

人形机器人感知硬件专题研究：人形机器人的五类感官和硬件支撑

文档简介

温馨提示

最新文档

评论

人形机器人感知硬件专题研究：人形机器人的五类感官和硬件支撑

文档简介

温馨提示

最新文档

评论

相关文档