




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
多模态GPT超级场景应用内容目录1、腾讯推出自研机器人灵巧手TRX-Hand和机械臂TRX-Arm 32、进入视觉场景,已能实时分析视频信息 73、VIT+GPT,多模态GPT典型范式已明朗,AI进步助力行业机器人加速落地 84、未来已来:从多行为分析、人机交互到通用机器人 125、投资建议 16风险提示 16图表目录图表1:TRX-Hand能力展示 3图表2:TRX-Hand融合多种传感器新号 5图表3:TRX-Arm能力展示 6图表4:向GPT-4提问摄像头中的可乐信息 7图表5:向GPT-4提问摄像头中的牙刷信息 7图表6:ViT模型架构 8图表7:KOSMOS-1可以感知不同模态输入,学习上下文生成回答 9图表8:PaLM-E操控机器人在被干扰的情况下从抽屉取出薯片 10图表9:PaLM-E操控机器人将绿色块推到海龟处,机器人之前没见过海龟 10图表10:SAM的模型结构,imageencoder使用ViT实现 11图表11:微软365Copilot一键生成PPT 12图表12:DALL-E2模型根据文字生成图像 12图表13:千问大模型操控机器人完成人类指令 13图表14:平衡性和移动速度提升过程 14图表15:Optimus采用的六类执行器 14图表16:TeslaBot动力系统 15图表17:Epic使用虚幻5引擎和程序化生成技术高效制作游戏中的庞大城市 16P.P.PAGE161、腾讯推出自研机器人灵巧手TRX-Hand和机械臂TRX-Arm425RoboticsXTRX-Hand”和机械臂“TRX-Arm”。软硬件一体灵巧手TRX-Hand拥有像人手一样灵活的操作能力,可适应不同场景,灵活规划动作,自主完成“操作”。以花式调酒场景为例,为完成一杯酒的调制,机器人对多种物体连续次操作,过程不仅涉及瓶子、杯子、搅拌棒等多种常见物体,机器人还需要以多种动作操作这些物体,包含抓、放、倒这些常规操作和旋转、摇晃等双手协同动作,以及更高难度的抛接、翻转等动态操作和插孔、穿刺、搅拌等精细操作动作。图表1:TRX-Hand能力展示资料来源:公众号鹅厂技术派,国盛证券研究所RoboticsXRoboticsXTRX-Hand图表2:TRX-Hand融合多种传感器新号资料来源:公众号鹅厂技术派,国盛证券研究所TRX-Arm44.5m/s²6kg7681000Hz图表3:TRX-Arm能力展示资料来源:公众号鹅厂技术派,国盛证券研究所RoboticsXTRX-Hand和TRX-Arm现实需求。2、GPT-4进入视觉场景,已能实时分析视频信息2023年3月17日发布的GPT-4支持多模态,给定由穿插文本和图像组成的输入,GPT-4生成文本输出(自然语言、代码等)。v8GPT图表4:向GPT-4提问摄像头中的可乐信息资料来源:视频号Podsen,国盛证券研究所图表5:向GPT-4提问摄像头中的牙刷信息资料来源:视频号Podsen,国盛证券研究所3、VIT+GPT,多模态GPT典型范式已明朗,AI进步助力行业机器人加速落地ViTtransformerCNN,统一了CVNLP的架构。2017RNNCNN202010CNN(token)ViT一个包含了语言信息的编码,之后通过MLP层将编码器的输出转化为不同分类的概率。图表6:ViT模型架构资料来源:ViT论文,国盛证券研究所20232220ViT-22b模型ViT不或(LLM)表明,将transformer405.5倍的EncoderPaLM-e,2023227练的ViT图表7:KOSMOS-1可以感知不同模态输入,学习上下文生成回答资料来源:微软论文,国盛证券研究所2023年3月65620亿参数的PalM-E540BPaLM和ViT-22B结合ViT以类图表8:PaLM-E操控机器人在被干扰的情况下从抽屉取出薯片资料来源:githubpalm-e,国盛证券研究所图表9:PaLM-E操控机器人将绿色块推到海龟处,机器人之前没见过海龟资料来源:githubpalm-e,国盛证券研究所20234月,MetaSegmentAnythingModel(SAM),对图像编码。SAMSAMViT图表10:SAM的模型结构,imageencoder使用ViT实现资料来源:SAM官网,国盛证券研究所ViTtransformerGPT的快速发展,结合ViTGPTGPTGPTGPT4、未来已来:从多行为分析、人机交互到通用机器人365CopilotAIAI音乐AIGC图表11:微软365Copilot一键生成PPT资料来源:微软官网,国盛证券研究所图表12:DALL-E2模型根据文字生成图像资料来源:OpenAI官网,国盛证券研究所1~5GPTAI、通用物流搬运机器人、行业服务机器人、真正的智能家居会进入生活。谷歌的Palm-E2023119+20252020人、特种机器人行业应用深度和广度显著提升,机器人促进经济社会高质量发展的能力明显增强。27CEO图表13:千问大模型操控机器人完成人类指令资料来源:科创版日报,国盛证券研究所5-10(artificialgeneral从GPT机械控制Teslabot1)2022101日,AIOptimusOptimus4028126类,从各项指标推测,为3类使用谐波方案+3类直线传动方案,分别为肩部6个、肘262624BumbleCOptimus、、6图表14:平衡性和移动速度提升过程图表15:Optimus采用的六类执行器资料来源:TeslaAIDay,国盛证券研究所资料来源:TeslaAIDay,国盛证券研究所模型泛化机器人下游场景差别很大,若想要实现应用大规模快速落地,需要增强模型泛化能力,提升模型的通用性,以降低推广成本。图像分割:MetaSAMSAM交互能力:palm-E避障能力:特斯拉神经网络。1)特斯拉占用网络模型(OccupancyNetworks):BEV(FSDOptimusDojoA100目前谷歌的PalM-E5620亿参数,是AI型,实现高能效且经济高效的计算。我们认为未来Dojo平台有望发挥巨大作用。ResNet-50下,DojoA100DojoA100。能源问题机器人能源问题包含两方面,一方面需要关注机器人电池组,解决电池续航能力问题;另一方面针对能源管理系统,需要解决电池冷却等问题。Bot2.3kWh52V一个PCB。图表16:TeslaBot动力系统资料来源:TeslaAIDay,国
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 如何选择2024年二手车评估师考试的复习资料及试题答案
- 食品生产环境卫生要求试题及答案
- 汽车美容师团队协作能力与任务分配试题及答案
- 2024年汽车维修工考试的知识体系
- 药物与饮食的相互作用试题及答案
- 计算机基础考试要点概述试题及答案2024
- 2025年小学一年级口语考试试题及答案
- 2024年统计学考试复习中应避免的误区试题及答案
- 2025年语文考试布置试题及答案
- 汽车维修工考试材料准备题目及答案
- 义乌市事业单位招聘考试真题2024
- 企业廉洁风险防控课件教学
- T-SDFA 047-2024 混合型饲料添加剂中卡那霉素的测定 液相色谱-串联质谱法
- 2025年上海市各区中考语文一模卷【说明文阅读题】汇集练附答案解析
- 2025年单相电子电能表项目可行性研究报告
- 2025年人教五四新版八年级数学上册阶段测试试卷
- 公路护坡施工合同
- 2025年广东省财政厅所属事业单位公开招聘历年高频重点提升(共500题)附带答案详解
- 供热管网施工技术培训
- 广东广州市榄核咨询服务有限公司招聘笔试冲刺题2024
- 手办联名合作协议
评论
0/150
提交评论