Sora 文生视频模型产业链全景梳理_第1页
Sora 文生视频模型产业链全景梳理_第2页
Sora 文生视频模型产业链全景梳理_第3页
Sora 文生视频模型产业链全景梳理_第4页
Sora 文生视频模型产业链全景梳理_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Sora文生视频模型产业链全景梳理近期,OpenAI发布旗下首个AI视频生成模型—Sora模型。Sora能够根据用户的文本描述生成长达60秒、1080P高质量视频,其中包含精细复杂的场景、生动的角色表情以及复杂的镜头运动。

此外,Sora还展示了AI在理解和模拟物理世界方面的能力,这被认为是实现通用人工智能(AGI)的关键一步。

OpenAI认为,视频生成模型是构建通用物理世界模拟器的一条有前景的道路,它使人工智能理解和模拟运动中的物理世界,迈向了一个新的高度,Sora文生视频模型有望成为实现AGI的重要里程碑。Sora发布视频展现物理世界模拟能力:资料来源:OpenAI官网01什么是文生视频?文生视频大模型是一种能够由AI生成视频内容的大型机器学习模型。文生视频基于用户的自然语言描述准确地生成相应视频内容。以用户给出的文本、图像、音频、视频等内容作为提示(prompt),模型能够处理并结合用户提供的内容,创造出完全自主生成或拓展的视频。这些模型通常基于深度学习,尤其是自然语言处理(NLP)、计算机视觉(CV)和语音识别(ASR)等技术的融合。以OpenAI官方发布的范例视频为例,输入提示词:“一位时尚的女士漫步在东京街头,街上充满了温暖的霓虹灯和生动的城市标志。她穿着黑色皮夹克、红色长裙和黑色靴子,手中提着一个黑色手提包。她戴着太阳镜,涂着红色口红。走路时自信而随意。街道潮湿且反光,形成了彩色灯光的镜面效果,许多行人来来往往。”

Sora生成1分钟视频示例:资料来源:OpenAI官网2023年实际诞生的文生视频大模型达到数十个,全球用户数量超过百万级别,但目前多数视频模型仍处于产品早期阶段。

2024年各大公司加快了文生视频模型的研发步伐。Midjourney宣布将在未来几个月加快训练文生视频模型;随后谷歌推出文生视频模型Lumiere。Lumiere模型的推出,进一步展示了谷歌在文生视频技术上的深厚实力。该模型不仅具备高度智能化的文本解析能力,还能根据文本内容自动生成与之相匹配的视频画面,实现了真正意义上的“文本到视频”的转化。国内字节跳动和腾讯也分别公布了视频模型MagicVideoV2与VideoCrafter2。从创作端看,市场上已公开的大多数模型出自初创公司和小型技术开发团队,包括Runaway、Pika等,且目前已呈现较为可观的完成效果和商业模式。预计随着科技大厂产品的发布,后续相关产品生态将持续繁荣。02什么是Sora?Sora是一个在可变持续时间、分辨率、宽高比的视频和图像上联合训练的文本条件扩散模型。

该模型将自然语言处理技术与视频生成技术相结合,并通过使用大量带有相应文本字幕的视频进行训练。其机理是从静态噪声开始,通过多个步骤逐渐去除噪声,最终生成清晰视频。Sora利用了DALL·E3的重新标注技术,为视觉训练数据生成高度描述性的说明文字,与GPT模型类似,Sora使用Transformer架构,扩展性强大。OpenAI声称,如果给定一段简短或详细的描述或一张静态图片,Sora就能生成类似电影的1080p场景,其中包含多个角色、不同类型的动作和背景细节。

与此前的视频生成模型相比,Sora主要实现了以下突破:视频时长达到60秒:Sora目前可以根据文本要求生成60s的连贯视频,并保持视频主体与背景的高度流畅性与稳定性。文本的深度理解能力:Sora可以准确理解用户的文本指令,无论是复杂的动作场景还是细腻的情感表达,Sora都能够精确捕捉并展现。对真实世界的理解:生成的视频除满足了文本要求的主题、要素外,Sora对物理规律的遵循程度较高,对于光影反射、运动方式、镜头移动等细节的呈现效果较为逼真,都展示了极高的质量。根据OpenAI官方介绍,目前Sora具备生成包括多个角色、特定类型的运动、准确细节的主体和复杂场景的能力。同时,还能够创建多个镜头,模拟复杂的摄像机运镜效果,使得生成的视频更加生动。3D一致性:Sora可以生成摄像机动态运动的视频。随着摄像机的移动和旋转,人物和场景元素在3D空间中的移动会保持一致。Sora生成动态运动视频示例:资料来源:OpenAI官网

Sora可以向前向后拓展视频,连接视频。可以使用Sora在两个输入视频之间逐渐插值,在具有完全不同主题和场景构图的视频之间创建无缝过渡。Sora及之前部分可比产品对比:资料来源:OpenAI,Pika,澎湃新闻,银河证券03Sora(文生视频)模型产业链梳理

Sora的横空出世,有望带动产业新一轮的景气度,进一步激发市场对AI产业持续创新能力。Sora模型产业链涵盖了数据收集与处理、模型训练与开发、部署与应用、硬件与云服务以及产业链上下游企业等多个环节。AI模型的训练需要大量数据,包括文本、图像、视频等多种形式。这些数据需要经过收集、清洗、标注等处理,以满足模型训练的需求。在收集到足够的数据后,需要进行模型的训练。这个过程需要大量的计算资源,包括高性能计算机、GPU、TPU等。同时,还需要专业的AI算法工程师进行模型的设计、调优等工作。

在B端,Sora文生视频模型,可以广泛应用于影视制作、动画制作、游戏开发、音乐教育等领域。AI视频可以大幅度降低视频的制作成本,对应用领域将有可观的降本增效作用,供给端有望加速推进。此外,AI模型的运行需要强大的硬件支持,包括高性能计算机、服务器,以及算力租赁服务等。

Sora支持在生成视频过程中加入图片提示:资料来源:OpenAISora+影视视频Sora有望明显降低制作门槛及成本,且可以极大程度丰富影视作品的创造性及风格。Sora的出现将重塑影视行业,拥有核心导演或创意人才,及IP资源的厂商具有先发优势。影视和IP方向代表厂商包括上海电影、光线传媒、中文在线、掌阅科技、华策影视、果麦文化等。Sora+游戏游戏是虚拟世界的一种体现,Sora对于物理世界的理解和模拟可以与游戏场景开发高度适配,Sora可被应用于游戏角色创立,场景开发等过程,降低开发成本。代表厂商包括三七互娱、恺英网络、巨人网络、昆仑万维、掌趣科技、盛天网络等。Sora+算力Sora在视频生成领域具有的标志性意义,大模型所预期的能力得以逐步验证。但与此同时,生成产品存在的瑕疵亦说明训练仍需继续,算力基础设施的部署需求仍在扩大和升级。AI模型的运行需要强大的硬件支持,包括高性能计算机、服务器、云服务和算法等厂商。国产算力基础设施代表厂商包括中科曙光、浪潮信息、紫光股份、工业富联、拓维信息、海光信息、寒武纪、神州数码、锐捷网络等;算法层面主要布局厂商包括科大讯飞、云从科技等。整体而言,Sora产业链各环节布局厂商众多,主要参与布局厂商还包括会畅通讯、当虹科技、因赛集团、安诺其、国脉文化、新华网、易点天下、数码视讯、东方国信、万兴科技、海康威视、大华股份等。应用层面主要参与者有金山办公、新国都、虹软科技、熵基科技、美图公司、佳发教育等。未来随着模型规模增大,参数将继续放大,多模态大模型陆续推出将引发对算力需求的指数级提升,包括训练和推理,并且在场景应用中带来颠覆式革命。随着文生图、图片对话技术的成熟,文生视频可能成为多模态大模型下一步发展的方向。Sora文生视频的视觉效果明显高于其他AI工具,品质已经接近专业内容生产者的创作标准,未来若得以推广,有望进一步降低用户

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论