2024Meta公司文本生成视频技术手册_第1页
2024Meta公司文本生成视频技术手册_第2页
2024Meta公司文本生成视频技术手册_第3页
2024Meta公司文本生成视频技术手册_第4页
2024Meta公司文本生成视频技术手册_第5页
已阅读5页,还剩88页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Meta公司文本生成视频技术手册预测能力是一项具有广泛应用的核心科学挑战(LLM(Dubey2024Touvron2023BrownGen1所示。VideoFPS

\hhttps://go.fb.me/MovieGen‑Figure1到。LumaLabs(LumaLabs,2024)OpenAISora(OpenAI,2024在整体视频质量上6MovieGenEditMovieLabs(ElevenLabs)303节中介绍了模型架构和训练细节。SFT在第4节中概述了个性化的后期训练策略。\h节和视频转视频编辑(5等其他功能。(TAE)于变分自动编码器(Kingma,2013)将形状为T0 W0的输入像素空间视频V压缩为形状为T 简化我们的模型。 )TAE dT0/8eT0)”)X罚损失(OPL)如下:LOPL(Xr=

a(a

(b(b(b)16(2的重叠图块i和i1xj =jhwjxj+1wjxji+1i

n(1t2,]0N,1)tXtt=1的tt。Xt2023)Xt=tX1+(1

分钟

=X1

X0PEt,X0,X1,Pku(Xt,P,t;✓)Vtk2 2024 ODEN量身定制3.4.2节所述。(SNR)SNR2024RMNSNorm(ZhangSennrich,2019SwiGLU(Shazeer,2020)LLaMa3TransformerP。LLaMa3表1MovieGenVideo30B参数基础模型的架构超参数Transformer(Vaswani等人,2017年)我们紧密遵循LLaMa3(Dubey等人,2024年设计空间Transformer本身中包含30B参数TAE等。PUL2Long‑promptMetaCLIP‑UL2Longprompt)2021x(1080x142023)GenVideo的模型并行方法。)TDP在一台服务器中8GPUNVSwitchesGPU400GbpsRoCERDMANICMeta 256 8通过patchification压缩为2 (73728,(1280,(1472,(73728,48,(1,(73728,(73728,图8MovieGenVideoTransformer主Ɇ和应用的模型并行性Transformer主Ɇ并用颜色编码了用于分片我们的30B(在第3.1.6的不同模型并行化MovieGenVideo768像素视频输入长度为73K个标记我们采用了完全分片数据并行(Rajbhandari2020Ren2021Zhao2023张量并行(Shoeybi2019Narayanan2021序列并行(Li2021Korthikanti2023和上Transformer主Ɇ的不同部分中使用(如图8所示)(TP)沿列或行对线性层的权重进行分片GPU执行的运算量(FLOP)更少tp)建立在之上例如LayerNorm(CP)允许对序列维度进行部分分片)softmaxattentionCPCPLLaMa3GQA量(例如LLaMa370B8)。GPU1) 12162116秒‑12秒24‑164秒8秒32‑,2024)20242022我们合并重复的聚类ɇ方根倒数从每个合并的聚类中抽样剪辑(Mahajan2018)。2024B.2) 576纵向为576 )FPS1.736O(100)M2.212111690O(100)MO(100)M(bs/GPU*#GPU)/(TP*(T2V从低分辨率(PE·256pxT2I/V15366e5·768pxT2I/V10k2024(12022(2ɇNNNN(3(((4手o(B.2)用余弦学习率调度程序(LoshchilovandHutter2017)与预训练阶段类似1616FPS10.61624FPS1016

(a(b50输入/输出的最大变化发生在早期时间步骤25252024199119802024 20。2525N251000252024在本节中MovieGenVideo(1(2)(34)MovieBench2024感兴趣概念的提示1人类活动(肢体和嘴巴运动)23自然和风景4物理((b(a (c(a(c)5跨越图11中的概念。(1(2Movie(3(42023Singeretal.2023Girdharetal.2024Hoetal.2022aBarrattandSharma2018ChongandForsyth2020Geetal.,2024Huangetal.2024)FVD(Unterthineretal.2019)IS(Salimansetal.2016)等自动指标与人工视频质量评估分数等人,2021年)。)布我们为MovieGenVideoBench提示集生成的非精选视频。RunwayLumaLabs(LumaLabs,2024年)、Kling1.5(KlingAI,2024年)我们还与闭源⽂本转视频方法(OpenAISora进行了比较Gen3LumaLabsOpenAISora13.50.52‑10.04‑1.99 6MovieGenVideoMovieGenVideoBenchKling1.5的范围为C.1)%CI)1‑2%CIMovie(35.02%Sora(8.23%(1‑2Kling1.5(3.87%RunwayGen3,Sora(19.27%(33.1%)(8.22%(8.86%Kling1.5MovieGenVideo(13.5%)3.5.1节所述MovieKling%和MovieMovieLumaLabs图12MovieGenVideoMovieGenVideo12Movie\hgo.fb.me/MovieGen‑Figure12Luma\h找生成的视频看起来自然OpenAISora\hFigure14微调的效果3.3节中描述的监督微调来进一步提高视频生成质量724FPS10.6在这里MovieGenVideo线训练和模型设置381MovieGenVideoBench(MovieGenVideoBench‑Mini) B B LLaMa3DiT18.63(A) 3072(18B进行次迭代40962024)Flow8)(+10.7%)Xie,2023的模型进行比较(PeeblesXie,2023;OpenAI,2024;Ma2024a)。(18.6%(12.6%LLaMa3LLaMa3等人,2024年)。2017)TAE定量指标10TAE8是先前工作中用于逐帧编码的自动编码器的标准(Blattmann等人,2023a;Girdhar等人,2024)在视频数据上TAE潜在通道大小的增加(8vs.16)(Dai等人,2023)。帧内AE0.9348TAE0.93520.887732.16大动脉栓塞2.5D3D视频(512像素图片(512像素 3.6.4TAE与2.5D模型相比3D模型的成本更低TAE中使用2.5DOPL 视频(512像素视频(512像素图片(512像素生成任务1024px20230.00001642000(a(b视觉质量A/B我们与目前最好的⽂本转图像模型进行了比较Flux.1(BlackForestLabs,2024OpenAIDall‑E3(OpenAI,2024年)、MidjourneyV6.1(Midjourney,2024年和IdeogramV2(Ideogram,2024年ELO19我们展示了我们生成的一些定性结果。(1)(PT2V)练阶段PT2V20191)2)3)(2))TransformerɆ21中的ɇArcFaceIIIPT2V在如第4.2.1节所述))表(二(bPT2V2024a14所示16%。图和\h找

\h27.36%13.68%由于缺乏监督视频编辑数据MovieGenEdit)我们证明TGVE(Wuetal.2023cSingeretal.2024)上的之前最先进技术(Singeretal2024)相比MovieGenEdit的概率超过74%。节同宽高比FPS过程如图24\h我们能够沿通道维度将潜在视频输入与噪声输出潜在视频连接起来EmuEdit(Sheynin;✓)对(ctxtxvid)的⽂本到视频数据集ctexttovideo(c;cinstructxvid)其中ccinstruct是视频输出Vtk2 ctexttovideo 6

25LLaMa3xvid中选择一个随机帧xframe p✓(xframe,cinstruct)我们过使用自动图像编辑指标对生成的数据点(ctxtcinstructctxtxframexframe

框框。和

(我

canimatedcvid,cinstruct,xvid)1

(我(ctxt、xvid)1xvid2输出动画帧cvid编辑指令cinstruct动画编辑帧xvid3生成编辑指令:cinstruct 45xf6

p✓(xframe,;,xvid7

xf

xf

(我

xvid{xf13(cvid,cinstruct,xEmuEditSegment(Sheynin2024从图像扩展到视频2023c2024分类✓分类✓ctexttovideo5图26反向翻译阶段Ɇ净的输入视频进行去噪””阶段的模型根据输入视频xvid和编辑指令cinstruct生成编辑后的视频xvid p✓(xvid,cinstruct)之后我们利用ctxt、ctxt、xvidcinstructbwdxvid)MovieGenEditBenchFPS(i)评估但基准测试中的视频分辨率为480 1016FPS的基础视频生成模型(OpenAI,2024;RunwayML,20232024可以以高分辨率(例如768p或1080p)16或更高的FPS多种宽高BenchBench)(ViCLIPdir)(ViCLIPout)(i(ii(iii(iv入有关输入或生成的视频的信息(Wuetal.,2023a;Yatimetal.,2023)。2024Runway)100]EditMovieMovieGenEditEVEEVE在MovieGenEditBenchRunwayGen3V2V和RunwayGen3V2VStyle设置RunwayGen3V2VStyleSDEditViCLIPout得分较低MovieGenEditSDEditSTDF(Yatim等人,2023年73.7566.60InsV2V(Cheng202490.0794.37ViCLIPdir“ViCLIPoutEVE(Singer2024RunwayGen3V2V(RunwayML,2024年 ViCLIPdir“ViCLIPoutEVE(Singer2024RunwayGen3V2V(RunwayML,2024年 RunwayGen3V2V样式(RunwayML,2024)55.55SDEdit(Meng100](i)2023a节次迭代(i(iiStage L1#段(第5.1.2节表(iControlNet(ii节 表第二阶段5.1.3第节7061)模型从输入视频xvid和原始编辑指令cinstruct预测生成的视频xvid和字幕(5的片段于DAC‑VAE输出。Xt2022)(3)(4)2023)MLP音频采用潜在扩散框架(Rombachetal.,2022)其中数据(48kHz)表示为紧凑的一维潜在特征形状为T C帧速率低得多(25Hz),C=128EncodecDACMetaCLIP(Xu2023MetaCLIP1024)细信息在第6.2.4128c{cvidcctxctxt},其中cvid2RNaud1024Long‑promptMetaCLIP长度为Ntxt标记的⽂本特征序列u(Xtct2RNaud128(1(V2A(2(TV2A)(4cvidNJdN/nhope个片段j

n(j

1j

1

表示最后的nctx第二条路线X(j+1

函数w2

ODEti+1

c(j+1)={c(j+1)c(j+1)c

X

(1周)X(t+1,nctx:

= ti+1,nctx:nwin其中X(j+1)1,0:nctx

=多重扩散受其成功利用在512 512图像上训练的扩散模型生成9倍宽(512 4608ti+11)

X(j)ti+1,j)函数zero‑pad(X(j),j)将形状为nwin )第j个线段从n(j)跨越到n(j)末端因此n(j)

末尾补零j)=1=))} zero‑pad(m(j)窗口函数{m(j)}j。,j)/

j0零填充(m(j0

nwin1三角窗函数(即Barlette窗,

=nwin1✓nwin

4,608/18,432)1,53630(750)500K384GPU141e‑4的恒定学习率5K步线性上升。)15]30]15]1e‑40.1bf16AdamW)%到CFG7.02024c真实的或在后期制作中创建的(即Foley声音)(Tan等人,2017年)表我们首先从大量数据中获取数据AED527Audioset(Gemmekeetal.2017)本体为每个样本标记音频事件>>

< )2020)像素)4秒到120秒之间中小时小时批对欧拉表学(Schuhmann202210表示最低品质)AED7.0ImageBind分数NWT范围从100%到100%ImageBind2023d)+102.597.595AvsB‑100100%。10Gen3OpenAI101015VGGSound(Chen2020OpenAISora(OpenAI,2024RunwayGen3(RunwayML2024年)和我们提出的MovieGenAudioBench。51Iagtal.,;it,2023)MovieGenAudioBenchMovieGenVideo})示生成视频538个视频。y38enohSRealVGGSoundSGenGen3MovieBench多重镜头OpenAISoraMovieGenVideo26)20242024)(ElevenLabs)Seeing&HearingTV2AV2A)ElevenLabs(T2A)Movie70.4%82.2%Movie(b(c(d\h图30MovieGenAudio的视频到音效生成样本MovieGenAudioBenchhttps://go.fb.me/MovieGen‑Figure30Audio示它们进行联合SFXV2ASFXSeeing&Hearing(S&H(Xingetal.2024)PikaLabs(PikaLabs)是仅有的两个选项ElevenLabsPikaElevenLabsSFX视觉和听觉(Xing等,2024)TV2A76.8±11.167.9±15.276.8±11.156.1±17.4 V2A58.6±15.249.7±16.360.0±14.156.9±14.1 TV2A41.9±20.431.9±23.041.9±20.435.8±18.5 2A13.2±21.535.0±19.38.7±21.513.2±21.5Diff‑Foley(Luo等人,2024年 V2A78.7±6.876.2±6.678.5±6.682.2±5.4 V2A65.0±8.759.5±8.565.0±8.657.2±7.7 V2A77.7±7.063.8±7.776.8±7.161.7±8.2视觉和听觉(Xingetal.2024V2A82.1±7.476.9±8.082.6±7.363.6±8.6视觉和听觉(Xing2024TV2A76.2±7.175.4±7.176.1±7.364.1±7.9 TV2A53.6±11.646.0±11.654.5±11.444.6±12.9 V2A71.4±4.060.7±4.2视觉和听 71.9±4.0Gen 71.4±3.92A31.3±5.6 31.1±5.5S&HS&HTV2A67.7±8.669.3±8.466.4±8.748.6±9.4外部APIT2A12.5±11.8MGenS&H11.3±11.955.2±9.8Diff‑FoleyV2AAPIT2A27.4±11.120.6±11.128.0±10.9MovieGenAudioDiff‑Foley(Luo2024MovieGenAudioDiff‑Foley(Luo2024FoleyCraft(Zhang等人,2024年)VTA‑LDM(Xu2024a)V2A76.6±12.648.1±15.679.5±11.161.6±13.0V2A69.2±14.157.2±16.369.2±14.150.4±13.4V2A32.9±18.531.5±18.538.2±18.947.4±16.7[‑100%100%]质 S&H89.9±5.082.4±5.9[‑100%100%](b(c(eMovemen(OpenAI频可在\hhttps://go.fb.me/MovieGen‑Figure31到。每个片段独立生成音频MovieGenAudio(表示为“MovieGenAudio(aAirhea(57sOpenAISorashy(b从\h找 电影生成音频拼接34.5±11.433.7±11.134.5±11.619.6±10.0视听85.1±5.6 范围[‑100%100%]及其95%置信区间MovieGenAudio扩26(AQual

54.6±20.050.0±21.754.6±20.03.3±16.737.7±17.632.3±21.75.9±15.029.8±23.430.8±22.89.8±18.66.6±22.84.1±22.858.6±19.049.9±19.158.6±19.016.1±16.1 25.6±20.66.6±15.616.2±20.622.9±21.715.00.32(a (b)ImageBind分数与提示音频质量TV2A“TV2AV2A”V2AV2A0.23300M所示。(a(b(c\hA净胜率vs.模型 B w/和MDAR图35显示了13B模型的扩展方法的定性样本。(2)扩展到13B(3多次扩散与3B时的一次性生成顶线相当(4win(5beam”3B 赞成 300米29.9±19.025.1±18.720.2±19.135.2±14.334.6±18.836.7±18.836.7±18.419.4±13.411.0±21.310.3±21.311.7±21.318.8±19.313B(a(a(b 赞成 PT41.7±15.337.8±16.343.0±14.720232024和2022)2022a2023频扩散(Blattmannetal.2023a)I2VGen‑XL(Zhangetal.,18.4±10.04.1±10.5AR带轨迹注册10.6±11.011.7±9.710.6±11.0AR带上下⽂条件。&光束3.4±11.1AR,带轨迹4.0±11.03.6±11.4AR&3.0±11.43.6±10.3 AV1.7±18.00.4±18.3 总体 纳特 赞成 2023b)Dynamicrafter(Xing2023)、VideoGen(Li等人,2023a和VideoCrafter1(Chen等人,一些论⽂研究了噪声调度对更连贯性的作用(Geetal.,2023;Qiuetal.,2023;Luo20232024模型使用基于U‑Net的架构Snap‑Video(Menapace等,2024和OpenAISora(OpenAI,Latte(Maetal.,2024a)也使用DiT代替U‑Net主Ɇ进行⽂本到视频的生成另一方面Transformer模型上20232024)年2013)VAE201720212014)TransformerEfficient‑VQGAN(Caoetal.,2023)ViT‑VQGAN(Yuetal.,2021)和TiTok(Yuetal.,2024)使用视觉变换器展示了有希望的结果(a(c(a(c\h(2D(3D视频扩散(Blattmann等人,2023a)潜在移位(An等人,2023)、VideoLDM(Blattmann等人,2023b)、Emu‑Video2024MAGViT2023aVQGAN20232023b2.5D)TATS122023a人们已经探索了LoRA(Hu2021来调整轻量级低秩适配器以加速训练过程HyperDreamBooth(Ruiz2023b)2023c2023b20232024a2023a2024b12320212024b2024b2024a202420242024etal.2023;Lietal.2023b;Ceylanetal.2023;Karaetal.2023;Yangetal.2023)这些方法可应用于任何⽂本转视频模型调整模型参数以处理整个视频输入的方法表现更差(Singer2024Qin2023)。)等人,)EVE的方法对内存的要求高出一个数量级FDDMovieGenVideo(参见第3)2024aXing2024Zhang2024)但也有少数例外(Kondratyuk202320242023a例如VGGSound(550小时)(Chen等人,2020年或AudioSet(5K小时)(Gemmeke等人,2017年)这些))节有几款产品提供视频转音频功能PikaLabs4和ElevenLabs.5,但它们都无法真正生成与动作一致的音效或同时包含音乐和音效的电影配乐PikaLabs支持使用视频和可选的5so(来Ae631(API(5秒)示(EnCodec(Défossez等人,2022)Soundstream(Zeghidour等人,2022)w2vBERT(Chung等人,2021))除了我们新颖的扩\h\h\h庞浩宇IshanMisraKiranJagadeeshSinghMaryWilliamsonMattLeMiteshKumarSinghPeizhaoZhangPeterVajdaQuentinDuvalRohitGirdharRoshanSumbalySaiSakethRambhatlaSamTsaiSamanehAzadiSamyakDattaSanyuanChen、SeanBellSharadhRamaswamyShellySheyninSiddharthBhattacharyaYanivTaigmanAlbertPumarolaAlejandroRuizAliThabetArtsiomSanakoyeuArunMallyaBaishanGuoBorisAraya、BreenaKerrCarleighWoodCeLiuCenPengDeShawnWallaceDimitryVengertsevEdgarSchönfeld、ElliotBlanchardFelixJuefei‑XuFraylieNordJeffLiangJohnHoffmanJonasKohlerJosephKimKerenLonsteinLawrenceChenLichengYuLuyaGaoMarkosGeorgopoulosMatthewYuRashelYumingDuAhmadAl‑DahleAhuvaGoldstandAjayLadsariaAkashJaiswalAkioKodairaAndrewTreadwayAndrésAlvaradoAntoineToisoul、BaishanGuoBernieHuangBorisArayaBrandonWuBrianEllisChaoZhou、ChenFanChenKovacsChing‑FengYehChrisMoghbel、Nord、GabriellaSchwarzGaelLeLanJeffWangJiaboHuJianyuHuangJiecaoYuJieminZhangJinhoHwang、JoellePineau、JongsooParkJunjiaoTianKarthikSivakumarKathrynStadlerLindseyKishlineManoharPaluriMattSetzlerMaxRaphaelMengyiYaronLipmanYashMehtaYeJiaZhaohengNi频生成arXivarXiv:2304.08477,2023KendallAtkinsonJohnWiley&Sons,1991年。YogeshBalajiSeungjunNahXunHuangArashVahdatJiamingSongKarstenKreisMiikaAittalaTimoAila、SamuliLaineBryanCatanzaro、TeroKarras和Ming‑YuLiueDiff‑I:带有一组专家降噪器的⽂本到图像扩散模型arXiv预印本arXiv:2211.01324,2022年。和OmerBar‑TalHilaCheferOmerTovCharlesHerrmannRoniPaissShiranZadaArielEphratJunhwaHurYuanzhenLiTomerMichaeliOliverWangDeqingSunTaliDekel和InbarMosseriLumiere:用于视频生成的时空扩散模型arXiv预印本arXiv:2401.12945,2024年。ShaneBarratt和RishiSharmaInceptionarXiv预印本arXiv:1801.01973,2018年。ProjectGrand\h\hFLUX2024://\hAndreasBlattmannTimDockhornSumithKulalDanielMendelevitchMaciejKilianDominikLorenzYamLevi、ZionEnglishVikramVoleti、RalphAllanBradley和MiltonE.TerryI年。InstructPix2PixCVPR2023mBrookslPeeblesrHolmeslDePueiGuoiJingdSchnurreTayloryLuhmancLuhmaneNgg和aRamesh4s\hsimulatorsTomBBrownBenjaminMannNickRyderMelanieSubbiahJaredKaplanPrafullaDhariwalArvindNeelakantan、PranavShyamGirishSastry、‑VQGAN年。和。Pix2VideoCarolineChanShiryGinosarTinghuiZhouAlexeiAEfrosICCV,2019HilaCheferShiranZadaRoniPaissArielEphratOmerTovMichaelRubinsteinLiorWolfTaliDekelTomerMichaeliInbarMosseriVGGSoundarXiv:2309.057932023b。SEINEICLR2023cMinJinChong和DavidForsythFID和Inception分数以及在哪里可以找到它们CVPR中,2020ArnabChoudhuryYangWangTuomasPelkonenKuttaSrinivasanAbhaJainShenghaoLinDeliaDavidSiavashSoleimanifardMichaelChen、语音预训练IEEE自动语音识别与理解研讨会(ASRU),2021年。戴晓亮SamTsaiSimonVandenhendeAbhimanyuDubeyEmuarXivarXiv:2309.158072023。蒂莫西···迈拉尔和皮奥特·AramDavtyanSepehrSameniPaoloFavaroICCV2023MostafaDehghaniBasilMustafaJosipDjolongaJonathanHeekMatthiasMindererMathildeCaronAndreasSteinerJoanPuigcerverRobert邓健康StefanosZafeiriouArcFaceAlexeyDosovitskiyLucasBeyerAlexanderKolesnikovDirkWeissenbornThomasUnterthinerMostafaDehghaniMatthiasMindererGeorgHeigold、SylvainGelly1616TransformersICLR,2021AbhimanyuDubeyAbhinavJauhriAbhinavPandeyAbhishekKadianAhmadAl‑DahleAieshaLetmanAkhilMathurAlanScheltenAmyYangAngelaFanLlama3arXiv预印本arXiv:2407.21783,2024。年。AlexandreDéfossezJadeCopetGabrielSynnaeve和YossiAdi和ElevenLabsElevenLabshttps://\helevenlabs.io/app/sound‑effects和PatrickEsserSumithKulalAndreasBlattmannRahimEntezariJonasMüllerHarrySainiYamLeviDominikLorenzAxelSauerFredericBoesel等人开发人员://\hThomasHayesHarryYangXiYinGuanPangDavidJacobsJia‑BinHuangDeviParikhSongweiGeSeungjunNahGuilinLiuTylerPoonAndrewTaoBryanCatanzaroDavidJacobsJia‑BinHuang、Ming‑YuLiu和YogeshBalaji在ICCV,2023年。葛松伟·玛哈帕特拉·帕尔玛FréchetJortF.GemmekeDanielPWEllisDylanFreedmanArenJansenWadeLawrenceR.ChanningMooreManojPlakal和MarvinRitterICASSP2017DeepanwayGhosalNavonilMajumderAmbujMehrish和SoujanyaPoriaRohitGirdharMannatSinghAndrewBrownQuentinDuvalSamanehAzadiSaiSakethRambhatlaAkbarShah、XiYinDeviParikh和IshanECCV2024信息处理系统进展2014年。AgrimGuptaLijunYuKihyukSohnGuXiuyeGuMeeraHahnIrfanEssaLuJiangJoséLezama预印本何宣华预印本,ZechengHeBoSunFelixJuefei‑XuHaoyuMaAnkitRamchandaniVincentCheungSiddharthShahAnmolKaliaHariharSubramanyam、AlirezaZareianLiChenAnkitJainNingZhangPeizhaoZhangRoshanSumbalyPeterVajdaAnimeshSinha图像生成arXivarXiv:2409.133462024b。JonathanHoAjayJainPieterAbbeelNeurIPS,2020..和预印本JonathanHoTimSalimansAlexeyGritsenkoWilliamChanMohammadNorouzi和DavidJFleetNeurIPS,2022b年。SusungHongJunyoungSeoHeeseongShinSunghwanHongSeungryongKimDirect2v:大型语言模型是用于零样本⽂本到视频生成的帧级指导者。arXivarXiv:2305.14330,2023EdwardJ.HuYelongShenPhillipWallisZeyuanAllen‑ZhuYuanzhiLiSheanWangLuWang和WeizhuChen年。黄青青DanielSParkTimoIDenkAndyLyChristianFrankNoise2Music:使用扩散模型生成⽂本调节的音乐。arXivarXiv:2302.039172023。ZiqiHuangYinanHeJiashuoFanChenyangSiYumingJiangYuanhanTianxingWuQingyangJinNattapolChanpaisitYaohuiWang、v22024\h和Video2MusicOzgurKaraBariscanKurtkayaHidirYesiltepeJamesMRehg和PinarYanardagRave:使用扩散模型进行随机噪声改组arXivarXiv:2312.04524,2023LevonKhachatryanAndranikMovsisyanVahramTadevosyanRobertoHenschelZhangyangWangShantNavasardyanHumphreyShi。凯⽂··祖卢阿加·罗布莱克和马修·Fréchet预印本和和预印本KlingAI2024https\h/乔纳斯··普马罗拉·舍恩菲尔德ArtsiomSanakoyeuRoshanSumbalyPeterVajdaAliThabet预印本,DanKondratyukLijunYuXiuyeGuJoséLezamaJonathanHuangRachelHornungHartwigAdamHassanAkbariYairAlonVighneshBirodkar等人VideoPoet:用于零样本VijayAnandKorthikantiJaredCasperSangkugLymLawrenceMcAfeeMichaelAnderschMohammadShoeybi和BryanCatanzaroTransformer模型中的激活重新FelixKreukGabrielSynnaeveAdamPolyakUrielSingerAlexandreDéfossezJadeCopetDeviParikhYanivTaigman和YossiAdiAudioGen:⽂本引导的音频生成arXiv预印arXiv:2209.15352,2022RitheshKumarPremSeetharamanAlejandroLuebsIshaanKumar和KundanKumarGaelLeLanBowenShiZhaohengNiSiddSrinivasanAnuragKumarBrianEllisDavidKantVarunNagaraja、ErnieChangWei‑NingHsu本引导音乐生成和编辑arXivarXiv:2407.03648,2024MatthewLeApoorvVyasBowenShiBrianKarrerLedaSariRashelMoritzMaryWilliamsonVimalManoharYossiAdiJayMahadeokarWei‑NingHsuVoicebox:⽂本引和BigVGAN和预印本预印本,VidToMearXiv预印本arXiv:2312.10656,2023bPhotoMaker,IshanMisraPéterVajdaDianaMarculescuFlowVid:驯服不完美的光流以实现一致的视频到视频合成。arXiv预印本arXiv:2312.17681,2023。WACV2024预印本arXiv:2310.01889,2023a刘浩河DaniloMandicWenwuWang和MarkDPlumbley预印本,arXiv:2303.054992023c。LumaLabs2024年https://\hlumalabs.ai/dream‑machineCLIP4ClipSimianLuoChuanhaoYanChenxuHu和HangZhaoDiff‑Foley预印本,本到音频生成arXiv预印本arXiv:2404.09956,2024年。和MusCapsIJCNN2021ShivamMehtaRuiboTuJonasBeskowÉvaSzékelyGustavEjeHenterMatcha‑TTSTTSXinhaoMeiVarunNagarajaGaelLeLanZhaohengNiErnieChangYangyangShi和VikasChandraFoleyGen:视觉引导音频生成arXiv预印本arXiv:2309.10537,2023孟陈林StefanoErmonSD年。MidjourneyMidjourney2024https://\h/DeepakNarayananMohammadShoeybiJaredCasperPatrickLeGresleyMostofaPatwaryVijayKorthikantiDmitriVainbrandPrethviKashinkuntiJulieBernauerBryanCatanzaro等Megatron‑LM在GPU集群上进行高效的大规模语言模型训练2021年。://\h\hcontext_parallel.html,2024AaronvandenOordYazheLi和OriolVinyals32024\h\h

\h

\hMoA个性化图像生成中的解缠arXiv预印本arXiv:2404.11565,2024WilliamPeebles和SainingXietransformer的可扩展扩散模型ICCV上,2023年。皮卡实验室。皮卡实验室。\hhttps://www.pika.art/EdPizziSreyaDuttaRoySugoshNagavaraRavindraPriyaGoyalMatthijsDouzeDustinPodellZionEnglishKyleLaceyAndreasBlattmannTimDockhornJonasMüllerJoePenna和RobinRom‑bachSDXL:改进用于高分辨率图像合成的潜在扩散模型arXiv预印本KRPrajwalBowenShiMatthewLeApoorvVyasAndrosTjandraMahiLuthraBaishanGuoHuiyuWang、TriantafyllosAfourasDavidKant等PySceneDetect开发人员PySceneDetecthttps://\h/FreeNoise,AlecRadfordJongWookKimChrisHallacyAdityaRameshGabrielGohSandhiniAgarwalGirishSastryAmandaAskellPamelaMishkin、JackClarkICML2021ColinRaffelNoamShazeerAdamRobertsKatherineLeeSharanNarangMichaelMatenaYanqiZhouWeiLi和PeterJLiuSamyamRajbhandariJeffRasleyOlatunjiRuwase和YuxiongHeZeRO预印本SaiSakethRambhatla和IshanMisraSelfEval:利用生成模型的判别性进行评估arXiv预印本arXiv:2311.10708,2023aRavinGabeuraRyalimKhedrnRädleeRollandaGustafsoncMintun、nvAlwalasCarionSAM2v,2024。ZeROOffloadarXivarXiv:2101.068402021。lRuiznLinJampanilPritchln和rAbermanDreamBoothCVPR2023a。NatanielRuizYuanzhenLiVarunJampaniWeiWeiTingboHouYaelPritchNealWadhwaMichaelRubinsteinKfirAbermanHyperDreamBooth:RunwayMLGen‑2,2023年https://\h/gen2RunwayMLGen‑3Alpha,2024年https://\h/research/introducing‑gen‑3‑alphaarXiv:2202.005122022TimSalimansIanGoodfellowWojciechZarembaVickiCheungAlecRadford和XiChenChristophSchuhmannRomainBeaumontRichardVencuCadeGordonRossWightmanMehdiChertiTheoCoombesAarushKattaClaytonNoamShazeerGLUtransformerarXivarXiv:2002.05202,2020KaiShenZeqianJuXuTanYanqingLiuYichongLengLeiHeTaoQinShengZhao和JiangBianNaturalSpeech2:潜在扩散模型是自然且零样本的语音和歌唱合成器arXiv预印本MohammadShoeybiMostofaPatwaryRaulPuriPatrickLeGresleyJaredCasper和BryanCatanzaroMegatron‑LM:使用模型并行性训练数十亿参数语言模型arXiv预印本arXiv:1909.08053,UrielSingerAmitZoharYuvalShellySheyninAdamPolyakDeviParikh和YanivTaigmanJiamingSongChenlinMeng和StefanoErmonarXiv预印本2020RobynnJStilwell2007KunSuJudithYueLiQingqingHuangDimaKuzminJoonseokLeeChrisDonahueFeiShaArenJansenYuWangMauroVerzettiTimoI.Siu‑LanTanMatthewPSpackmanElizabethMWakefield34(5):605–623,2017iTayaDehghanihQTranrGarcianWeiiWanggnChungkShakeriaBahrilr等UL2varXiv:2205.051312年。arXiv:2406.043212024。HugoTouvronLouisMartinKevinStonePeterAlbertAmjadAlmahairiYasmineBabaeiNikolayBashlykovSoumyaBatraPrajjwalBhargava、托马斯·翁特蒂纳(ThomasUnterthiner)SjoerdvanSteenkiste·库拉赫(KarolKurach)·马里尼尔(RaphaëlMarinier)·米哈尔斯基(MarcinMichalski)和西尔万·盖利(SylvainGelly)AshishVaswaniNoamShazeerNikiParmarJakobUszkoreitLlionJonesAidanNGomezLukaszKaiserIlliaPolosukhinNeurIPS,2017ApoorvVyasBowenShiMatthewLeAndrosTjandraYi‑ChiaoWuBaishanGuoJieminZhangXinyueZhang、RobertAdkinsWilliamNgan等人。技术报告arXiv预印本arXiv:2308.06571,2023aQixunWangXuBaiHaofanWangZekuiQin和AnthonyChenInstantID:在几秒内实现零样本身份保留生成arXiv预印本arXiv:2401.07519,2024a使用现成的图像扩

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论