人工智能行业AI文生视频市场分析_第1页
人工智能行业AI文生视频市场分析_第2页
人工智能行业AI文生视频市场分析_第3页
人工智能行业AI文生视频市场分析_第4页
人工智能行业AI文生视频市场分析_第5页
已阅读5页,还剩12页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

人工智能行业AI文生视频市场分析1文生视频,多模态AIGC圣杯文生视频当前处于起步阶段,随着文生图、图片对话技术的成熟,文生视频成为多模态大模型下一步发展的重点。目前国内亦有文生视频功能,但主要停留在图片组合阶段。我们认为,多模态,尤其是文生视频的发展将为应用的爆发提供更立体的基础设施,同时对算力的需求也将指数级增长,对AI下阶段的发展至关重要。本文所介绍的文生视频是指内容之间有关联性与协同性,能生成有连续逻辑的视频模型。1.1相较于文字和图片,视频能承载的信息量更大相较于文字和图片,视频在多维信息表达、画面丰富性及动态性方面有更大优势。视频可以结合文本、图像、声音及视觉效果,在单一媒体中融合多种信息形式。从视频生视频到文生视频、图生视频,多模态的发展重视用更少的用户输入信息量实现更丰富的AI生成结果。自Runway推出Gen-1视频生视频工具后,AI处理视频、图片功能在社交平台爆火,其背后即是多模态大模型发展的表现之一。在多模态应用方面,当前可应用的模态转化主要集中在文字、图片、视频的转化。1.2当前公测的文生视频应用数量较少文生图领域,2021年1月5日,OpenAI发布其首个基于Clip模型的文生图模型DALL·E,但并未开源,自此众多公司争先研发文生图模型;2022年3月13日,Midjourney发布可公测的文生图模型,其效果优越,引发了公众关于AI艺术的讨论。目前已积累较多用户、可稳定使用的文生图模型主要有Midjourney、StableDiffusion、DALL·E等。文生视频领域,目前公众可使用的主要有RunwayGen-1、RunwayGen-2、ZeroScope、PikaLabs。其中,除Runway收费外,ZeroScope、PikaLabs均可免费使用。文生视频发展速度慢于文生视频,在视频质量、视频时长等方面突破较为困难,相比于文生图的快速优化迭代,文生视频的进展较慢。即便是Meta和Google这样的硅谷人工智能巨头,在文生视频方面也进展缓慢。她们分别推出的Make-A-Video和Phenaki均尚未公测,从官方公布的Demo看,Phenaki虽然可生成任意长度视频,但其质量较差且欠缺真实性;Make-A-Video无需“文本-视频”配对数据集,视频质量相对较好,但时长短。1.3文生视频,难在哪里?文生视频更困难。技术实现本身更困难。从本质看,视频是连续的多帧图像,然而文生图到文生视频并非简单的图片组合,而文生视频在文生图的基础上增加了时间维度。文生视频需突破瓶颈多。可用的文生视频需具备一定的时长,优良的画面质量,一定的创意逻辑性及还原指令要求能力。计算难度大计算成本高。通过文本生成高质量图片对算力的要求已经达到了一定程度,由于生成视频模型复杂度提升及其时长、分辨率提高等因素,文生视频对算力的需求进一步加大。计算复杂性提升。文生视频需要进行高维特征融合,模型复杂度显著提升。数据要求高缺乏高质量配对数据集。视频的合理性及连贯性体现模型的架构能力、创造力、理解能力。例如,当用户输入“一只大象在厨房做饭”这类文字指令时,模型需理解文字指令内容,并根据训练数据库选取画面及对象组合,过程中可能出现缺乏相应素材、难以合理组合人物、难以合理架构场景等问题。文生视频需要大量的文本-视频配对数据,但当前缺乏相应数据集,数据标注工作量极高。缺乏具备多样性的数据集。由于用户的文本指令要求各异,缺乏多样数据集使得模型无法生成预期效果。技术融合难度大多领域融合技术复杂性提升。文生视频涉及自然语言处理、视觉处理、画面合成等领域,跨学科多领域使其需攻克的技术难点增加。2技术路线沿革:文生视频,哪种技术更强?同文生图及大语言模型的发展类似,文生视频也在不断探索中寻找更为高效且效果更佳的基础模型。目前主流的文生视频模型主要依托Transformer模型和扩散模型。目前阿里ModelScope社区中提供了可用的、基于扩散模型的开源文生视频模型,促进了如ZeroScope高质量文生视频模型的发展,有利于后续文生视频的技术迭代优化。2.1阶段一:基于GAN和VAE,以Text2Filter为代表原理:文生视频发展早期主要基于GAN(GenerativeAdversarialNets,生成式对抗网络)和VAE(Variationalautoencoder,变分自编码器)进行视频生成。GAN由生成器和判别器构成,生成器类似于小偷,生成器生成图片;判别器类似于警察,负责判断是生成器生成图片还是真实图片。VAE由编码器及解码器构成,其使得图片能够编码成易于表示的形态,并且这一形态能够尽可能无损地解码回原真实图像。生成过程分为两步:首先,利用条件VAE模型从文本中提取出要点,即静态和通用的特征,生成视频的基本背景;再借助GAN框架中的神经网络生成视频细节。问题:应用范围窄;仅适用静态、单一画面;分辨率低。代表:Text2Filter。2.2阶段二:基于Transformer,以Phenaki为代表原理:Transformer模型在文本及图像生成中均得到了广泛应用,因此也成为文生视频使用较多的框架之一,但各模型在具体应用上仍有差别。主要思路即输入文本后利用Transformer模型编码,将文本转化为视频令牌,进行特征融合后输出视频。问题:训练成本高;对配对数据集需求大。代表:Phenaki、CogVideo、VideoGPT。Phenaki是基于Transformer框架进行文生视频的代表之一,其突破了文生视频的时长限制进行任意时长视频生成。Phenaki模型基于1.4s左右的短视频进行训练,通过连续的文字指令生成连续的较短时长的视频并串联成1分钟左右的长视频。例如,通过输入一段类似故事的文字指令,从而实现逐个短视频的衔接成为长视频。2.3阶段三:基于扩散模型,以Make-A-Video和阿里通义为代表原理:当前扩散模型是文生视频领域使用更广的架构之一。通过预训练模型进行文本特征提取后,再进行文本到图片,图片到视频的生成,过程中需基于扩散模型进行。简单来说,扩散模型即在图片上逐渐添加高斯噪声再进行反向操作。以扩散模型为基础的文生视频模型,一般是在文生图基础上增加时间维度实现视频生成。扩散模型在语义理解、内容丰富性上更有优势。问题:耗时长。代表:Make-A-Video、VideoLDM、Text2Video-Zero、Runway-Gen1、RunwayGen2以及NUWA-XL。2.3.1Meta:Make-A-VideoMake-A-Video是基于扩散模型的代表之一,其重点在于提升视频品质。其模型训练时间较短,无需“文本-视频”配对数据即可生成视频。Make-A-Video生成视频主要思路为首先接受文字指令,后利用CLIP文字解码将其转化为向量;接着先验网络将CLIP文本向量“翻译”到对应的CLIP图像向量;后利用BaseDiffusionModel(一种文生图的模型)生成视频的基本框架;此处得到额外的卷积层和注意力层到时间维度;后利用TemporalSuper-Resolution(TSR)进行帧插值以补充关键细节,最后利用两个空间超分辨率模型升级各个帧的分辨率。2.3.2阿里达摩院:通义文生视频大模型通义-文本生成视频大模型-英文-通用领域-v1.0是由阿里达摩院提供的、发布在阿里ModelScope平台上的开源文生视频大模型,目前仍在集成中,暂未开放公测。通义文本生成视频大模型仅支持英文输入,基于多阶段文本到视频生成扩散模型。根据ModelScope官网,该模型整体参数约60亿,由五个子网格构成:文本特征提取:利用图文预训练模型CLIPViT-L/14@336px的textencoder来提取文本特征。文本到图像特征扩散模型:Diffusionprior部分,以CLIPtextembedding为条件,输出CLIPimageembedding。图像特征到64x64视频生成模型:同样采用diffusionmodel,以GLIDE模型中UNet结构为基础改造UNet3D结构,采用crossattention实现imageembedding嵌入,输出16x64x64视频。视频插帧扩散模型(16X64x64到64X64x64):diffusion视频插帧模型,输入包括16x64x64视频、imageembedding,输出64X64x64视频,其中16x64x64视频复制4次到64X64x64以concat形式输入、imageembedding同样以crossattention形式嵌入。视频超分扩散模型(64X64x64到64X256x256):diffusion视频超分模型,同样为UNet3D结构,推理过程输入64X64x64视频,输出64X256x256视频。2.3.3Zeroscope:由阿里达摩院Modelscope文生视频模型优化得出在我们找到的三个文生视频模型(RunwayGen-2、PikaLabs和Zeroscope)中,Zeroscope明确提出其由开源模型优化而来。我们认为,这在一定程度上代表了一种新的技术路线——基于开源,开枝散叶。ZeroScope所依托的文本生成视频大模型是阿里达摩院vilab“modelscope-damo-textto-video-synthesis”,后者由文本特征提取、文本特征到视频隐空间扩散模型、视频隐空间到视频视觉空间这3个子网络组成,整体模型参数约17亿。ZeroScope由两个组件构成:Zerscope_v2567w(用于以较低分辨率快速创建内容)和Zeroscope_v2XL(用于将内容升级到高清分辨率)。ZeroScopeV3目前在Discord服务器内测试,即将推出。3实测:文生视频模型当前风格各异,总体质量较低对于文生视频应用,用户主要关注视频生成质量、是否可定制化生成特定内容(如风格、可对生成内容调整细节等)、使用简易程度等。尽管当前已有可公测的应用,但由于生成结果粗糙等问题,文生视频并未在实际的媒体内容生成、创意制作领域得到广泛应用。具体来看,当前可测试的产品风格各异、总体质量较低:RunwayGen-1、Gen-2:是当前文生视频领域实际应用最“出圈”的模型,具有较好的画面质感,其功能众多,可在文字、图片、视频中自由转化。ZeroScope:是目前文生视频领域高质量的开源大模型之一。ZeroScope在ModelScope的模型基础上优化而来,能提供更高的分辨率。ZeroScope可供用户免费使用,尽管视频分辨率、生成质量与RunwayGen-2有一定差距,但其后续潜力大。PikaLabs:为近期发布的文生视频平台,该模型一经发布便因其真实感、动作连续性效果好引发关注。从生成时间看,当前的文生视频结果时间短,目前RunwayGen-2最长可生成18秒视频内容,一般其他可公测使用文生视频模型生成结果均在4s左右,且无法融合音频。从生成平台看,与Runway、ZeroScope不同,PikaLabs采取了与Midjourney相同的应用平台,当前可通过申请在Discord端试用(Discord是一款可进行社群交流的数字发行平台,用户可发布文字、图片、视频、音频等内容)。3.1复杂人物动作生成帧连续效果较差复杂人物动作的视频生成考验文生视频模型的帧连续效果及动作理解能力。从测试效果看:RunwayGen2:基本完成文字指令要求,突出“一个女孩”人物主题,跳舞动作有一定流畅性,但后续出现身体器官重叠问题;PikaLabs:未理解文字指令主题“一个女孩”,出现多个人物,但其舞蹈动作连续流畅性相对较好;ZeroScope:人物模糊,但身体部位变化自然,且未出现变型、消失等问题。3.2非日常场景的视频架构能力连续能力一般非日常场景的视频生成考验文生视频模型的指令理解及架构能力。从“猫拿遥控器看电视”这一虚构场景文字指令的要求生成效果看:RunwayGen-2:整体仍然最为出色,但后续动作变化不自然且幅度小,出现脸部变形等情况;PikaLabs:对文字指令的理解有一定问题,并未体现“拿遥控器”的动作,但其视频画面细节如毛发、飘动动作更为连贯顺畅;ZeroScope:真实性较强,但动作僵硬且幅度较小。3.3多主体视频生成缺乏逻辑连续性多主体的视频生成考验文生视频模型的复杂场景处理能力及细微语言理解能力。当前文生视频模型出现直接忽略文字指令中的如“手牵手”,“一个男孩和一个女孩”等细微要求问题。RunwayGen-2:对画面及人物动作细节及双人互动如“牵手”指令的处理较好,生成人物符合逻辑但人物动作幅度不明显;PikaLabs:未体现双人“牵手“细节,但跑步动作自然连贯;ZeroScope:在多人物互动及跑步动作上处理较好,但画面粗糙。总体来看,三个文生视频模型的不同生成效果体现其背后模型及训练数据特点。RunwayGen-2:画面精细度、清晰度及艺术美感均较强,视频动作幅度均较小,视频动感主要体现在如头发的飘动上;PikaLabs:擅于生成连贯动作;ZeroScope:表现较为平均。4从图片生成看文生视频的商业前景4.1为什么选择图片生成作为对标对象?4.1.1图片生成相对成熟图片生成类在多模态大模型中的商业程度较高,可为视频生成的商业化前景可提供一定参考。以相对成熟的美国市场为例,据七麦数据8月13日IOS应用榜单,以“AI”作为搜索关键词,榜内共计247个应用,其中“摄影与录像”、“图形与设计”类的图像生成类应用占比31.6%;而“音乐”类应用仅占比2.8%;“效率”类语言生成或对话式应用占比20.2%。可见图片生成类的商业化程度最高,且从实际案例来看,目前已有图片生成类应用表现出较强的收费能力。4.1.2已经收费的视频生成应用,商业模式与图片生成趋同目前,从类别上看,图片生成类为现阶段多模态大模型相对成熟的商业化场景,视频生成类的商业前景可参考图片生成类的商业化发展历程。整体来看,图片生成类的商业模式较为单一,收费模式和收费依据较为趋同,即按照人工智能生成产品的生成量、生成速度计算收费,现已出现的视频生成模型的收费依据也与其类似。另外,市场上已出现个别破圈现象级图片生成类应用,以及与其原有业务协同的AI增强功能产品,也可为未来视频生成类应用的发展提供一定参考。RunwayGen-2是文生视频领域最先形成商业模式的多模态大模型案例,其收费标准为文生视频领域大模型及应用端树立了标杆,与广泛的图片生成类模型及应用的商业模式类似,RunwayGen-2也按照生成量、附加权益等区分不同套餐定价。自发布以来,RunwayGen-2引起关注度很高,由于是为数不多的开放公测的文生视频大模型,很多玩家前往其官网进行文生视频的尝试,2023年9月其网站总访问人次为760万,平均停留时长为3分37秒。4.2细分领域:看好人像生成,短期内变现较快4.2.1LensaAI:人像生成功能推出后用户付费意愿高LensaAI切入人像生成领域,新功能推出后收入可观,但是否可若想形成持续性付费收入仍需探索。LensaAIApp于2018年上线,原本的主要用途是图片编辑和美化。2022年11月21日,LensaAI上线的新功能“魔法头像”(MagicAvatars)让其在全球人气迅速飙升。用户上传人像图,可通过“魔法头像”自动生成各种不同风格的人脸照,包括摇滚风格、时尚风、科幻风、动漫风等。11月30日至12月14日,连续两周位列美国AppStore免费榜榜首,还拿下十多个国家的免费榜Top1。从商业模式上看,该应用提供三种不同的购买方案,主要的区别是生成的照片的数量差异。用户可以选50、100、200张照片,分别对应3.99、5.99、7.99美元。根据分析公司SensorTower的数据,该应用程序在12月的前12天在全球范围内安装了约1350万次,是11月200万次的六倍多。这12天消费者在App上花费了大约2930万美元(日流水超百万美元)。根据SensorTower的最新数据,LensaAI在今年7月的全球下载量仅为40万人次,同月全球收入仅为100万美元。可见人像生成类应用若想维持热度、形成长期稳定的收费能力,市场玩家仍需继续探索。4.2.2妙鸭相机:国内首个“破圈”应用,写真生成引起社交裂变人像生成写真应用妙鸭相机上架即火爆,迅速爬升社交类应用第一名。妙鸭相机是国内第一个出圈的图片生成类应用。用户通过上传一张正面照以及不少于20张的补充照片,就能利用妙鸭相机生成各式写真。妙鸭相机收费9.9元,可以解锁现有模板,包括证件照、古装写真、晚礼服写真等。妙鸭相机上线后非常火爆,生成图片的等待时长一路走高,7月20日晚间高峰期有4000-5000人排队,需等待十几个小时才能生成图片。据七麦数据,妙鸭相机近自发布以来,热度高涨,截至8月13日,妙鸭相机在iPhone社交类应用中排名第一。妙鸭相机现阶段收入规模可观,但市场对其复购及持续收费能力存疑,后续须不停上线新模板、开创新玩法。据七麦数据,妙鸭相机近自上线以来,半个月时间收入预估总计超过29万美元,近七日日均收入超过3万美元,在国内图像生成领域的应用中遥遥领先,可以算作破圈的现象级产品。但目前还处于拉新阶段,后期用户的复购收入持续增长的能力亟待验证。4.3竞争优势:看好有算力储备的公司目前,国内外图像生成类模型及模应用大多按照生成量、生成速度等来区分定价,但不同点是国外产品的付费套餐中多有“无限量”套餐,而国内产品未出现“无限量”套餐,可看出国内算力仍为瓶颈,因此,具有算力储备的云服务厂商在发展视频生成类应用时具有天然优势。4.3.1Midjourney:“无限量”套餐拢获用户,映射市场对算力的高需求Midjourney作为文生图领域的代表性多模态大模型,相比于大多数有限生成量的图片生成类模型及应用,Midjourney的“无限量”套餐具有天然优势,其用户规模和营收已建立起一定壁垒。据SimilarWeb数据,Midjourney官网在2023年8月网站访问量为2850万人次,平均停留时长达到6分30秒。且从市场公开信息得知,Midjourney的日活用户已达到1500万,超过开源模型StableDiffusion的1000万日活,其年营收也超过1亿美元。4.3.2腾讯云:云服务厂商加紧多模态生成布局反过来看,由于本身具有算力能力优势,云服务大厂也开始注重多模态生成的能力建设,上线图像生成类产品。以腾讯为例,腾讯的AI绘画产品作为功能模块,集成在腾讯云解决方案平台上,客户可选择开通AI绘画服务,便可使用此项功能。目前,用户可在腾讯云上体验“智能文生图”及“智能图生图”功能,两种功能每月共提供20次体验额度,正式服务需接入API使用。腾讯云AI绘画功能分为PaaS和SaaS两种产品形态,PaaS需要二次开发,SaaS版开箱即用。4.3.3无界AI:“按时长付费”和“潮汐生成模式”彰显算力底座特性无界AI于2022年5月入局AI绘画,为国内较早起步的AI作画工具平台之一。用户可通过直接开通会员享受基本权益,价格为100元/月、1000元/年,能实现文生图,选择画面大小、主题、风格等元素,还享有潮汐模式免费无限创作、解锁全部专用模型、存储无限扩容、精绘折扣、选择更多参数等会员权益。其中,潮汐模式下会员可以免费无限创作。“潮汐模式”由夜间生成更便宜的“夜间生成模式”发展而来,旨在利用算力资源空闲时段作画,实现“以时间换价格”。用户还可开通权益卡或购买时长。其中,1)开通权益卡能获得更多积分,适用于对普通文生图有更多需求(如更多超分辨次数、更多单张加速次数)的用户。2)购买时长适用于需要更多生成类型(如图生图、条件生图)和功能(如局部重绘、多区域控制绘图等)的用户,即专业版用户。按时长付费也是阿里云、腾讯云等AI云算力服务商常用的收费方式,我们认为,这在一定程度上,反映出AI图片生成应用与底层算力服务的高度相关性。4.4业务协同:看好多模态生成与原有业务有协同的公司4.4.1Adobe:AI生成工具有望带来增量付费用户Adobe上线AI创意生成工具Firefly(萤火虫),或为Adobe带来增量付费用户。Photoshop于2023年3月发布AI创意生成

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论