计算机行业:Sora对算力需求影响几何_第1页
计算机行业:Sora对算力需求影响几何_第2页
计算机行业:Sora对算力需求影响几何_第3页
计算机行业:Sora对算力需求影响几何_第4页
计算机行业:Sora对算力需求影响几何_第5页
已阅读5页,还剩11页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

行业动态报告●行业动态报告●计算机行业.Sora算力需求将呈指数级增长,带动算力基础设施需求。北京时间2月16日凌晨,OpenAI发布了首个文生视频模型Sora,可以用文字指令生成长达60秒的高清流畅视频,在生成视频长度、连贯性、多镜头切换方面具备显著优势。本文基于大语言模型推导算力需求方法,对Sora单次训练算力需求进行推演,据相关研究推测,Sora参数规模估算在30B(待确认如果按此参数GPT-3175B的8.2倍。我们认为,目前准确模拟物理运动规律及场景、混淆左右方向、混淆空间细节等,但伴随Sora不断迭代调优,训练数据集规模增大,未来算力需求将呈现指数级爆发式增长,持续看好上游算力基础设施投资机会。DiT(DiffusionTransformer,扩散变换器)的模型搭建,同时采用了Diffusion与Transformer,是一种用于扩散模型的新架构。Sora受到大语言模型的启发,成为一种基于扩散变换的模型DiT,趋于标准Transformer架构,同时保留其可扩展性。与大语言模型将文本转换为可被理解的token类似,Sora将视频转换成一系列Patch(视觉编码块)并将其进行降维,用Patch作为视觉图像统一表现形式,将噪声通过去噪来预测原始图像信息,进而生成视频。.Sora实现跨越式提升,文生视频大模型开启新纪元。Sora可换成长达60秒视频,相对于此前文生视频大模型Runway、Pika、StableVideo等提升几个级别。同时在视频分辨率以及质量方面,Sora可以生成1080P清晰度视频,并且能够相对完整实现对世界及物体运动规律理解及模拟,在镜拼接等,是文生视频领域突破性技术变革。.投资建议:Sora是人工智能发展进程中的“里程碑”,推动AGI时代加速到来,算力需求将持续爆发,持续看好产业链投资机会。建议重点关注国内上基础设施:工业富联、中科曙光、软通动力、神州数码、华勤技术、曙光数创、润泽科技、拓维信息;3、AI应用端:万兴科技、金山办公、超图软件、彩讯股份、拓尔思、卫宁健康、嘉和美康等。险;消费需求不及预期风险;行业竞争加剧风险等。维持评级分析师行业点评报告/计算机行业22一、Sora大模型横空出世,AGI时代加速到来 3二、Sora基于DiT模型搭建,更适用文生视频领域 4三、Sora算力分析框架拆解,单次训练算 6 7 7 8行业点评报告/计算机行业33北京时间2月16日凌晨,OpenAI发布了首个文生视频大模型Sora,并配有48个生成案例及技术报告,能够通过自然语言指令生成长达60秒的高清流畅视频,在生成视频长度、清晰度、连贯性、多镜头切换方面都有显著提升。资料来源:数字经济先锋号,中国银河证券研究院Sora在文生视频领遥遥领先。Sora可以将简短文本描述转换成一分钟流畅视频,相对于Runway、Pika、StableVideo等提升了几个代级。1)生成视频长度:Runway、Pika等传统文生视频大模型平均时长在3-5秒,Runway用户可以最多延长视频长度至16秒,Sora相对传统视频生成工具提升15-20倍;2)视频质量显著提升:可生成1080P高清视频;3)可实现多镜头切换:可以理解和模拟运动中的物理规律,可以实现复杂的运动相机模拟;4)视频连贯性与稳定性更好:在建模能力上表现更好,可以依赖关系进行建模,能初步理解及模拟物理运动规律;5)高可拓展性:支持多种数据格式输入,具备实现文生视频、图生视频、向前或向后视频扩展能力,同时支持视频连接。细分能力项其他文生视频大模型细分能力项强弱强弱√√√√√√依赖关系进行建模强强弱弱行业点评报告/计算机行业44强弱√仅支持向后×资料来源:CSDN,中国银河证券研究院与Transformer,是一种用于扩散模型的新架构。DiT尽可能趋于标准Transformer架构,以保留其可扩展性。扩散模型广泛应用于视频生成领域,采用编码器-解码器架构。扩散模型是标准图像扩散架构的自然扩展,它可以从图像和视频数据中进行联合训练,可以减少小批量梯度的方差并加快优化速度,迅速取代了基于生成对抗网络(GANs)和自回归变换器的方法,成为图像生成的主导方法。Sora受到大语言模型的启发,用Transformer替换扩散模型中的U-Net,通过将Transformer与Diffusion结合成为一种基于扩散变换的模型DiT。Sora将视频降维成时空Patch作为视频数据对模型进行训练。首先为了适应大模型支持的上下文长度,降低处理复杂度,类似ViT(VisionTransformer)将图像进行处理,将图像进行降维分解,这样一来可以兼容所有的数据素材(静态图像可以看成是在时间t=0的一些列Patch)。行业点评报告/计算机行业55Sora采用DiT模型,通过VAE将视频压缩到LatentSpace(潜在空间)中,然后将这种表现形式分解成时空Patch(视频块相当于大语言模型中的token。资料来源:OpenAI官网,中国银河证券研究院Sora通过给定输入噪声及Prompt(文本提示信息),训练出的模型来预测原始的不带噪声的图像,类似于通过预测带有马赛克的原始图像,让模型去学习去除马赛克,从而达到去噪声的目的。在生成视频过程中,Sora通过对噪声进行去噪,来预测原始Patch,最后将图片转化为视频。行业点评报告/计算机行业66资料来源:OpenAI官网,中国银河证券研究院通常在计算大语言模型算力需求通常与参数量及token数量成正比,而Sora大模型中可以将Patch算力需求进行分析测算。根据阿里联合浙江大学、华中科技大学提出的文生视频模型I2VGen-XL,研究人员收集了大约3500万单镜头文本-视频对和60亿文本-图像对来优化模型。我们暂且保守假设Sora训练数据集与I2VGen-XL相同,同时二维向量空间图片表示为H×W×C(其中H为长度,W为宽度,C为RGB颜色通道数,假设C=3)。我们估算Sora训练数据集中视频类数据Patch规模=3500×10^4×60×30×3=1.89×10^11;图片类根据谷歌论文《ANIMAGEISWORTH16ATSCALE》,Transformer的输入是一个序列,对于一张图像来说如果把每个像素点当作一个token,那就会需要相当旁大的计算量,该文则将图像划分为16×16大小的一个个Patch,然后将每个Patch当作一个token组成一串序列作为Transformer的输入,减少了计算成本。我们假设PatchSize为16×行业点评报告/计算机行业77根据OpenAI论文,T5模型由于采用编码器-解码器模型,在向前和向后传播的过程中只有一半token处于激活状态,而BERT与GPT基于Transformer的自然语言监督模型,每个token都处于活跃状态,而每个token都在向前传播过程中涉及一次加法和一次乘法,论文添加一个3×的乘数来计算向后传递的计算量,故推出GPT模型所需算力:训练所需总算力=模型参数量×token数量×3×2×训练轮根据上述测算,基于Sora参数量大概在30亿(待确认)水平,同时采用I2VGen-XL训练数据集的8.2倍(测算采用参数和训练数据集规模会与实际有一定出入)。单张A100算力为19.5TFlops,暂时不考虑模型训练利用率及其他训练成本,如果在10000张英伟目前由于Sora还在初级阶段,训练数据集和参数规模有限,仍存在一些不足之处。对于Sora当前存在的弱点,OpenAI指出它可能难以准确模拟复杂场景的物理原理,并且可能无法理解因果关系。该模型还可能混淆提示的空间细节,例如混淆左右,并且可能难以精确描述随着时间推移发生的事件,例如遵循特定的相机轨迹。未来训练数据集将会数以万倍的增长,模型参数量也会不段提升,目前来看Sora训练所需算力不及GPT-4等大语言模型,伴随Sora大模型不断迭代调优、训练数据集规模逐渐扩大,我们认为,未来Sora所需算力将呈现指数级增长:1)短期来看模型迭代优化、训练数据集增大将快速带动训练端算力需求;2)长期来看,Sora技术逐渐成熟带动下游AI应用百花齐放,推理端需求将厚积薄发。有望持续带动上游算力基础设施需求爆发。88Sora是人工智能发展进程中的“里程碑”,推动AGI时代加速到来,算力需求将持续爆发,持续看好产业链投资机会:1、国内多模态大模型:科大讯飞、海康威视、大华股份;2、算力基础设施:工业富联、中科曙光、软通动力、神州数码、华勤技术、曙光数创、润泽科技、拓维信息;3、AI应用端:万兴科技、金山办公、超图软件、彩讯股份、拓尔思、卫宁健康、嘉和美康等。技术研发进度不及预期风险;供应链风险;政策推进不及预期风险;消费需求不及预期风险;行业竞争加剧风险等。99 3 4 5 5 5 6 7本人承诺以勤勉的执业态度,独立、客观地出具本报告,本报告清晰准确地反映本人的研究观点。本人薪酬的任何部分过去不曾与、现在不与、未来也将不会与本报告的具体推荐或观点直接或间接相关。吴砚靖TMT/科创板研究负责人北京大学软件项目管理硕士,10年证券分析从业经验,历任中银国际证券首席分析师,国内大型知名PE机构研究部执行总经理。具备一二级市场经验,长期专注科技公司研究。本报告由中国银河证券股份有限公司(以下简称银河证券)向其客户提供。银河证券无需因接收人收到本报告而视其为客户。若您并非银河证券客户中的专业投资者,为保证服务质量、控制投资风险、应首先联系银河证券机构销售部门或客户经理,完成投资者适当性匹配,并充分了解该项服务的性质、特点、使用的注意事项以及若不当使用可能带来的风险或损失。本报告所载的全部内容只提供给客户做参考之用,并不构成对客户的投资咨询建议,并非作为买卖、认购证券或其它金融工具的邀请或保证。客户不应单纯依靠本报告而取代自我独立判断。银河证券认为本报告资料来源是可靠的,所载内容及观点客观公正,但不担保其准确性或完整性。本报告所载内容反映的是银河证券在最初发表本报告日期当日的判断,银河证券可发出其它与本报告所载内容不一致或有不同结论的报告,但银河证券没有义务和责任去及时更新本报告涉及的内容并通知客户。银河证券不对因客户使用本报告而导致的损失负任何责任。本报告可能附带其它网站的地址或超级链接,对于可能涉及的银河证券网站以外的地址或超级链接,银河证券不对其内容负责。链接网站的内容不构成本报告的任何部分,客户需自行承担浏览这些网站的费用或风险。银河证券在法律允许的情况下可参与、投资或持有本报告涉及的证券或进行证券交易,或向本报告涉及的公司提供或争取提供包括投资银行业务在内的服务或业务支持。银河证券可能与本报告涉及的公司之间存在业务关系,并无需事先或在获得业务关系后通知客户。银河证券已具备中国证监会批复的证券投资咨询业务资格。除非另有说明,所有本报告的版权属于银河证券。未经银河证券书面授权许可,任何机构或个人不得以任何形式转发、转载、翻版或传播本报告。特提醒公众投资者慎重使用未经授权刊载或者转发的本公司证券研究报告。本报告版权归银河证券所有并保留最终解释权。评级标准评级说明评级标准为报告发布日后的6到12个月行业指数(

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论