Pika 1.0再掀AI视频热潮多模态技术路径仍有探索空间_第1页
Pika 1.0再掀AI视频热潮多模态技术路径仍有探索空间_第2页
Pika 1.0再掀AI视频热潮多模态技术路径仍有探索空间_第3页
Pika 1.0再掀AI视频热潮多模态技术路径仍有探索空间_第4页
Pika 1.0再掀AI视频热潮多模态技术路径仍有探索空间_第5页
已阅读5页,还剩7页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

目录TOC\o"1-2"\h\z\u一、文视频Pika1.0布,AI影热潮起 4二、视模型术路未确定多模技术前景广阔 5AI+视频更新迭代迅速,术路线尚未收敛 5多模态能感知真实物理界,应用前景更加广阔 5投资建与投标的 风险提示 图表目录图1:Pika支持视频生成和频实时编辑 4图2:PikaLabs是G!lab电工业化实验室的战略合作伙伴 4图3:近期AI视频领域更新 5图4:FSDv12采用端到端AI自动驾驶 6图5:多模态大模型和端到端自动驾驶基本的应用架构 7图6:波士顿动力机器狗接入ChatGPT能力后能与人类交互 7图7:波士顿动力机器狗可以扮演不同性格的导游 7图8:GPT-4V可以与环境进行正确交互 8图9:多模态技术在安防领域视觉问答场景应用 9图10:多模态技术在交通监场景应用 9表1:近期机器人大模型领域的知名算法 9一、文生视频Pika1.0发布,AI影像热潮再起11月29日,AI文生视频软件Pika1.0版本发布,热度迅速席卷全网。Pika1.0Pika吸引到了无数的关注。Pika7月,Pika1.03D动画、动漫、卡通和电影,还能够支持对于视频的实时编辑和修改。图1:Pika支持视频生成和视频实时编辑数据来源:Pika,Pika42亿美元。PikaChenlinMeng2022RunwayAIRunway和AdobePhotoshopPikaPika3轮,估值超2Pika50万用户。Pika是G!lab电影工业化实验室的战略合作伙伴。113》正式召开发布会,郭帆导演工作室总经理在会上宣布正式升级G!lab电影工业化实验室,打造专业“剧组”团队。在电3.0的新时代,PikaLabsG!labPikaAI图2:PikaLabs是G!lab电影工业化实验室的战略合作伙伴数据来源:中华网,二、视频模型技术路线尚未确定,多模态技术应用前景广阔2.1AI+视频更新迭代迅速,技术路线尚未收敛近期AI+视频方向更新频发11AI113日,Runway发布Gen-24K1120切物体动起来;1116日,MetaEmuVideo18PixelDance,在生成视频的动态性上得到了显著提升;1121日,StabilityAIStableVideoDiffusion3D合成。图3:近期AI视频领域更新数据来源:量子位,站长之家,搜狐网,大语言模型技术路径已收敛,而视频生成模型仍处于探索期。从海外风险投资者的角度看,目前语言模型层面能够挖掘的机会已经不多,在OpenAI的技术方向引领下,目前语言模型的技术路径基本就是GPT——预训练Transformer这一条路,在市面上已经有OpenAI、Anthropic、Inflection、Cohere等比较成熟的语言模型厂商的情况下,很难再去大量投入资金去探索别的语言模型技术路径。而多模态技术方面,目前没有一家公司处于绝对领先地位,技术路径仍存在探索的可能。AI视频的生成面临流畅性、帧生成逻辑、协调性等等问题,模型需要生成每一帧发生的事情,而用户的prompt都导致了目前AI视频生成技术仍无法做到非常完美,技术路线也多种多样,比如扩散模型、MaskedModel等,PikaDiffusionAI视频生成的ChatGPT时刻有望到来AIGPT-2发展的时期,大家仍在探索模型的架构。按照这样的发展逻辑,AI视频生成的ChatGPTAI的更快。未来的视频生成模型将有望能以更加自由的方式生成任意长度的视频。 2.2多模态感真实物世界用前景加广阔 有关分析师的申明,见本报告最后部分。其他重要信息披露见分析师申明之后部分,或请与您的投资代表联系。并请阅读本证券研究报告最后一页的免责申明。语言模型是对物理世界的抽象描述,多模态数据能够更真实反映物理世界属性。语言作为一种精炼的表述载体,可以对物理世界进行抽象描述,例如文生图和文生视频中,用户都可以用简短的一句话或者几句话来对想要生成的图像或视频进行描述。但是从承载的信息量来讲,语言所能承AI频,因为用户prompt音频、振动等信息,则更加能反映出物理世界的真实属性,是真正对于物理世界状态的感知,与人类感知世界的方式更加接近。能感知真实物理世界的多模态模型应用前景更加广阔。我们认为,未来的多模态模型将能够真正实现对世界状态的完整感知,也因此能具备更多的应用场景。智能驾驶端到端训练有望成为智能驾驶的未来方向FSD目前已经进化到v12的端到端自动驾驶。以往的自动驾驶基本都是分成了导航、定位、感知、预测、规划、控制等多FSDv12数据输入到神经网络,网络直接输出车辆的控制指令(如转向、加速、制动等),更像是一个人类的大脑,99%的决策都是由神经网络给出的,不需要高精地图、不需要激光雷达,仅仅依靠车身的摄像头视觉输入,就能分析思考,输出控制策略。马斯克在直播试驾中表示,FSDv12AI实现,v12C++2000v1130万行。图4:FSDv12采用端到端AI自动驾驶数据来源:Twitter,多模态技术是实现端到端自动驾驶的重要手段。端到端自动驾驶主要依靠车身周围的摄像头对外部世界进行感知来作为算法的输入,AI模型如何处理摄像头提供的图像、视频、声音等不同格式的数据就需要多模态技术的应用。在端到端自动驾驶算法中加入多模态大模型能力还能提升算法的可解释性、鲁棒性和泛化能力,有效处理多种感知信息。通过多模态模型的处理,给出对于车身各个部件的控制参数并进行控制,实现端到端的自动驾驶。图5:多模态大模型和端到端自动驾驶基本的应用架构数据来源:Fan,etal《ADriver-I:AGeneralWorldModelforAutonomousDriving》,人形机器人/具身智能具身智能将会是多模态的下一重点突破场景,人形机器人对多模态模型要求更高。具身智能是指一种智能系统或机器能够通过感知和交互与环境(物理世界)产生实时互动的能力,AI+机器人4月,AILevatasChatGPT和Spot机器狗,成功实现与人类的交互。可以说,ChatGPTChatGPT为代表的语言大模型能够实现近似人一样的自然语言交互,多模态大模型则能让人形机器人能够通过“视觉”去与环境交互。可以说,大模型赋予了人形机器人一个通识大脑,从而能够顺畅地和外界对话,还可以增加任务理解、拆分和逻辑推理等“决策”能力。图6:波士顿动力机器狗接入ChatGPT能力后能与人类交互 图7:波士顿动力机器狗可以扮演不同性格的导游数据来源:cybernews, 数据来源:cybernews,以GPT-4为首的多模态大模型已经具备成为通用性人形机器人核心大脑的初步条件。OpenAI10月正式上线GPT-4V(ision)GPT-4新增了语音与图像功能。现在用户可以直GPT-4VGPT-4VGPT-4V的详细评测,GPT-4V有作为具身机器人的理解核心的潜力。在微软的测试案例中,GPT-4V可以扮演一名家庭机器人,阅读咖啡机的操作界面并给出正确的指令操作;或者通过房间图片的GPT-4V规划出去厨房冰箱取物品的路线,GPT-4VGPT-4VGPT-4GPT-4GPT-4具身智能。图8:GPT-4V可以与环境进行正确交互数据来源:微软《TheDawnofLLMs》,基于大模型的具身智能体也成为学术界重点研究方向。具身智能被斯坦福大学计算机科学家李飞飞定义为AI领域的下一个“北极星问题”之一,在大模型流行起来之后,关于以大模型为基础构造的具身智能体的研究也逐渐变多。今年内,谷歌、微软、英伟达、Meta等科技巨头都纷纷加入了这条技术路线的探索中来,试图找到一条适合于通用机器人的算法道路。能够看到,多模态技术是机器人模型中非常核心的一个部分。表1:近期机器人大模型领域的知名算法公司时间算法主要特点微软2023.03ChatGPTforRoboticsChatGPT给出了一套适合为机器人任务编写提示方法的设计原则谷歌2023.03PaLM-E5620亿参数,全球最大具身多模态视觉语言模型,能够接收多模态信息并输出决策文本谷歌2023.07RT-2首个视觉-语言-动作多模态大模型,能够端到端直接输出机器人的控制,具有学习长期规划和简易技能的能力斯坦福2023.07VoxPoser从大模型LLM和视觉-语言模型中提取可行性和约束构建3D仿真环境中的值地图,用于零样本地合成机器人操纵任务的轨迹,从而实现在真实世界中的零样本机器人操纵Meta2023.08RoboAgent用7500个操作轨迹的小数据集训练实现了机器人通用技能,提升数据效率谷歌2023.10RT-XOpenEmbodimentRT-X性能表现大幅提升英伟达2023.10Eureka能够自动训练机器人执行新任务,结合生成式AI来实现了人类水平的奖励算法设计数据来源:Arxiv,智能安防安防领域丰富的感知设备和数据维度是AI大模型等前沿技术落地的优质场景断更新与发展,其能够感知到的数据维度也日渐丰富,诸如图像、视频、声音、振动、温度、湿20236全产品博览会上,诸多安防公司也展示了多模态大模型和安防场景的结合产品,能够支撑视觉问答、交通监测等场景。图9:多模态技术在安防领域视觉问答场景应用 图10:多模态技术在交通监场景应用 数据来源:澎湃, 数据来源:澎湃,多模态是生成式AI下一步重点方向,百花齐放的应用场景有望探索AI能力,才能真正打通物理世界和数字世界的障壁,用最基础的感知世界能力直接生成操作,实现与物理世界最自然的交互。因此,基于多模态的应用场景仍需不断探索,AI视频生成仅仅是多模态技术路径中的一个小方向,多模态领域的ChatGPT时刻还未到来。投资建议与投资标的我们认为,在多模态模型应用场景上具备良好布局和卡位的公司值得关注。建议关注海康威视(002415,买入)(电子组覆盖)、大华股份(002236,买入)(电子组覆盖)、萤石网络(688475,未评级)(电子组覆盖)、中科创达(300496,买入)、虹软科技(688088,未评级)、

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论