2024人工知道大模型AI DeepSee V3技术报告_第1页
2024人工知道大模型AI DeepSee V3技术报告_第2页
2024人工知道大模型AI DeepSee V3技术报告_第3页
2024人工知道大模型AI DeepSee V3技术报告_第4页
2024人工知道大模型AI DeepSee V3技术报告_第5页
已阅读5页,还剩47页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2024人工知道大模型AIDeepSeeV3技术报告DeepSeekV3DeepSeekV3DeepSeekV3DeepSeekV3

具有无辅助损失负载ǻ衡的DeepSeekMoE

无辅助损失ǻ

按批次负载ǻ衡VS.按序列负载ǻ

BB.1FP8BF16

B.2关于分块量化的讨论

(Anthropic2024Google2024OpenAI2024a)(AGI力缩小与闭源模型的差AI2024acGuo2024)bTouvron2023a(Qwen2023b2023Mistral,DeepSeekV3专家(MoE)模型671B个参数token激活37B个参数。DeepSeekV3DeepSeekV32022KalamkarNarang2017Peng2023b)20242022Rouhani2023a)FP8计算和存储的支持GPU内存使用量32K 2664 2788 不到两个月的时间内完成2664KGPU小时5KFP8(CoT)模型中提取推理能力DeepSeekR1LLMV3(175.9GPQA59.1(2DeepSeekV(SimpleQASimpleQA(1DeepSeekVMATH‑500o1preview(2LiveCodeBenchSonnet‑3.5在本文的其余部分DeepSeek‑V3模型架构(2)FP8训练的支持我们总结了这项工作DeepSeek‑V3(6)。DeepSeekV32024cDeepSeek‑V3的基本架构仍然在Transformer(Vaswanietal.,2017)框架内理和经济训练,DeepSeek‑V3MLADeepSeekMoEDeepSeek‑V2DeepSeek‑V2

al.2024aDeepSeekV3DeepSeekV3对注意力键和值进行低秩联合压缩[k,1;k,2;...;

c

[v,1;v,2;...;

∈ (RoPEal.2024);RoPE(·)表示应用RoPE矩阵的运算;[·;·]表示连接MLA等人2017)

∈ c

[q,1;q,2;...;

c

[q,1;q,2;...;

问,′是查询的压缩潜在向量;′

′×

∈ ∈ ×

u=[o,1;o,2;...;

其中∈R (FFN)DeepSeekV3al.2021DeepSeekMoE

=u+

(u)+

,∈Topk({, },

0

令牌到专家的亲和力;e是第个路由专家的质心向量;Topk(·,)表示DeepSeekV320172021al.2021模型性能(Wangetal.2024a)ǻ衡之间实现更好的权衡和模型性能ǻ衡策略(Wangetal.,

确定前K′

+∈Topk({,+ },0否则

DeepSeekV3

=

∈Topk({,

××DeepSeekV3DeepSeekV3MTPMTP(2024)

=

);RMSNorm(Emb(+

+1+∈R+

logits2024b2023Xia2023)中期计划(212+1)

LMTPLMTP=

GPU机动车 Transformer不对齐)“输入反向”PP通信,红色表示障碍PP(PP(Qi2023a)(EP(Lepikhin2021DP(Rajbhandar2020)DualPipeDeepSeekV3V3DualPipeal.2023b)alltoall(−1)(+)(−1)−2)2−1)(&+−3+表DualPip2023b)2018)DualPipeHoefler2021)DualPipe2)tokenGPU在实践中8路由专家量13(43.2)20个SM就足以充分利用IB和NVLink的带宽。2014)(1)(2)(1)L2缓存的使用和对其他SM的Ǻ扰。(EMA)2022Noune20222023b)2024HeSun20242022Xiao2023)2024)1(20192017)FP8训练的混合精度框架FP8中进行GEMM(前向传递)Dgrad(激活后向传递和Wgrad(权重后向传递)FP8BF16FP8

(a框架)2017(1))(2)FP32累积策略2023b)(NVIDIA2024a)的设计可以作为未来工作的参考GPU架构。Narang2017)NVIDIAH800GPUFP8GEMM14FP32维度K很大时(Wortsman2023),这个问题会变得更加明显量大小和模型宽度增加的典型场景4096(NVIDIA2024b2023WGMMA2023bSun2019b)(NVIDIA2024bPeng2023b线量化为FP8格式。低精度优化器状态BF16(而不FP32来跟踪AdamW(LoshchilovHutter2017储和梯度(用于批量大小累积仍保留在FP32法存储在FP8ǻ衡。FP8DeepSeek‑V3(SP)4(EP32)token具体来说MLP量并行TP通信。GPUTP4DP8064)SM不会显著影响整体性能力部分的计算速度SM分配,这大大降低了对通信带宽的依赖SM(H800GPU)SMIB(InfiniBandNVLinkGPUGPUIBRDMA(GPU和输入/输出缓冲区之间传输数据。ŋFP832FP8×FP8FP3234CoreHBMBF16FP8DeepSeekCoderV(DeepSeekAI2024a(FIM(PSM3a1999)K2(Lundberg2023)128瓶颈处乘以额外的缩放因子DeepSeek‑V3671Btoken37BHutter2017)4K行性将模型的不同层部署在不GPU路864GPU0.0010.00010.3token设置为0.1。(NIAHDeepSeekV(DeepSeekAI2024c2023a32K3232K128K通过这种两阶段扩展训练DeepSeek‑V3能够处理长达128K8DeepSeekV3(NIAH3LLM201920202018202220172019阅读理RACELai(2017)DROP(Duaetal.2019)C3(Sunetal.2019aCMRC(Cuietal.,2019)。al.2020al.2020)20212021202120232023)MBPP(Austinetal.,2021)和CRUXEval(Guetal.,2024)。2023)AGIEval(DeepSeek‑AI2024bcHigh、MMLUMMLU‑ReduxMMLU‑ProMMMLUARC‑EasyARC‑ChallengeC‑EvalCMMLU、C3和CCPMBBH(欧洲35532525ARC1005555TriviaQA0AGIEvalLiveCodeBench‑Base(Pass@1)3CRUXEval‑I(EM2)CLUEWSCC3(东根 72B底座405B底53ǻ‑eBase(Qwen2024bBase(1DeepSeekV3BaseDeepSeekV3BaseDeepSeekV3BaseQwen2.572B(3LLaMA‑3.1405BBasee并且在BBHMMLUDROPC‑EvalCMMLU和CCPMDeepSeek BBH(欧洲GSM8K4MTP小萌小 大型BBH TriviaQA(EM5NaturalQuestions(EM)5HumanEval(Pass@1)0MBPP@13数学(EM)4批次式负载ǻ衡VS.序列式负载ǻ每个序列的域内ǻ在每个训练批次上进行负载ǻǻ2.258(损失方法或批量2.080。(1(23.4>R1保最终训练数据保留DeepSeek‑R1的优势)5×10−6开始逐渐减小到1×10−6。可靠性2024)GRPO J()= (),{

D

−D−

12

IFEval(Zhouetal.2023)FRAMES(Krishnaet2024)2023)SimpleQA(OpenAI2024c)(He2024)SWE‑BenchVerified(OpenAI,2024d)AiderLiveCodeBench(Jin2024(2024 20242024(MAA2024)、DeepSeek‑V2.5‑0905Qwen2.572BInstruct、\h\h\hSimpleQA(Lin2024)HumanEval‑MulPHPBash)CoTCoT在h4年84年1s量h等2024)“diffAIME基准(公制基准(公制IF‑Eval(提示严格SimpleQA(正确框架(配件LongBenchv2LiveCodeBenchLiveCodeBench(通过Codeforces(百分位数SWE(已解决CNMO2024(通行证CLUEWSC\h6DeepSeek‑V3GPT‑4oClaude‑3.5‑Sonnet级模型不相上下Qwen2.572B。3ot5Redu(U3台d3于e5SonnetDeepSeek‑V3理极长上下文任务方面的强大能力。AiderHumanEvalLiveCodeBenchDeepSeek‑V3落后于ClaudeSonnet‑3.5‑1022但明显优于开源模型DeepSeekV3DeepSeekV3在数学基准测试中,DeepSeek‑V3o1ǻAIMEMATH‑500CNMO非凡的能力凸显了DeepSeek‑R1蒸馏技术的有效性o1类模型非常有益。V3比Qwen2.5‑72B高出16.4分和20242024a)3DeepSeekV320%2024和Claude‑3.5Sonnet‑1022同时超越了其他版本

V2.5+R1提炼

ǻ均响应长度ǻ长2022)DeepSeek‑V3tokenetal.2023Xiaetal.2023)它可以显著加快模型的解码速度token的接受率token8590DeepSeek‑V3能够显著提高解码速度1.8倍的TPS(每秒token数)。V3671B37BDeepSeekV32.788MH800GPU小时。3量力力。B.ChanS.GrayN.RyderM.PavlovA.PowerL.KaiserM.BavarianC.WinterP.TilletFPSuchD.CummingsMPlappertFChantzisEBarnesAHerbert‑VossWHGussANicholAPainoNTezakJ.TangI.BabuschkinS.BalajiS.JainW.SaundersC.Hesse、ANCarrJ.LeikeJ.AchiamV.MisraE.....SMcCandlishISutskeverWZarembaCoRRabs/2107.033742021\hP.ClarkI.CowheyO.EtzioniT.KhotA.SabharwalC.Schoenick和O.TafjordAI2推理挑战arcCoRR,abs/1803.05457201年\h/abs/1803.05457。arXiv:2110.141682021\hLiPHuangFLuoCRuanZSuiWLiangDeepseekmoe迈向混合专家语言模型的终极专家专业化CoRRabs/2401.060662024\h\hv2\h\hLLM2401.029542024b\h\h04434int8()353031830332202HDingZWangGPaoliniVKumarADeorasDRothSSoatto更少的截断可改善语言建模arXivarXiv:2404.108302024年。DDuaYWangPDasigiGStanovskySSinghMGardnerDROP需要对段落进行离散推理的阅读NAACLHLT20192019)2019doi10.18653/V1/N19‑124610.18653/v1/n19‑1246Y.DuboisB.GalambosiP.Liang和TBHashimotoalpacaevalWFedusBZophNShazeerSwitchtransformersCoRRabs/2101.03961,2021年URL\h/abs/2101.03961。arXivarXiv:2409.125172024。GptqarXiv:2210.173232022L.GaoS.BidermanS.BlackL.GoldingT.HoppeC.FosterJ.PhangH.HeA.Thite、N.NabeshimaThePile用于arXiv:2101.000272020abs/2406.041272024URL\hhttps://doi.or\hg/10.48550/arXiv.2406.04127。.GloeckleYIdrissi.Rozière.z和.Synnaeve\hL20244年7月17t4年id=pEWAcejiU2。Gemini1.52024\h\h(SHArP)(COMHPC)IEEE2016和Cruxeval2024\hcoderabs/2401.141962024Pipedream2018\h\harXivarXiv:2411.071402024年。arXiv:2009.033000决能力arXivarXiv:2103.03874,2021年。C‑EvalarXiv:2305.083222023LivecodebenchCoRRabs/2403.079742024\hMJoshiEChoiDWeldLZettlemoyerTriviaQA用于阅读理解的大规模远程监督挑战数据集RBarzilay2017doi10.18653/v1/P17‑1147\hS.KrishnaK.KrishnaA.MohananeyS.SchwarczA.StamblerS.Upadhyay和M.Faruqui。abs2409.129412024doiARXIV.2409.12941\hTKwiatkowskiJPalomakiORedfieldMCollinsAPParikhCAlbertiDEpsteinIPolosukhinJ.7452–4662019doi10.1162/\h.Lai.Xie.Liu.g和EHHovyRACE.Palmer.a和.l7P2017)7年9月147年doiD17‑1082\h1\h7‑1082。arXiv:2403.137872024Gshard2021\h20219274‑19286PMLR,2023年\hhttps://proceedings.mlr.press/v202/leviathan23\ha.html。Chimera\hACM2021doi10.1145/345881TLiW.‑LChiangEFrickLDunlapTWuBZhuJEGonzalezIStoica量基准Arena‑hardbenchbuilderarXivarXiv:2406.119392024a。Ccpm2021年。EAGLE\h202420242024\hforum?id=1NdN7eXyb4。ZeroEval2024\harXiv:1711.05101201\h2023prompt‑design‑prompt‑bound\haries‑and‑token‑healing‑3b2448b0be38。格式预印本,\hinvitational‑mathematics‑examination‑aime2024\hhttps://mistral.ai/news/mixtral‑8x22b2017arXiv:2206.029152022\hnvshmem‑and‑g\hpudirect‑async,\h2022年。\h\hTransformerEngine2024b\hGPT‑4o2024a\h(mmmlu)2024b\hSimpleQA2024c\h\h\hSWE‑bench\hYarnarXiv:2401.102412023a。2023b\h\harXiv:2309.166092023Qwen1.52024a\hQwen2.52024b\h\hZeroSC20IEEE2020DReinBLHouACSticklandJPettyRYPangJDiraniJMichaelSRBowmanGPQAarXiv2311.12022202arXiv:2310.105372023aarXiv:2310.105372023b2019ZShaoPWangQZhuRXuJSongMZhangYLiYWuDGuoDeepseekmatharXivarXiv:2402.033002024年。2017\h2023OpenR3URL/forum?i\hd\h=fR3wGCk‑IXp。YShibataTKidaSFukamachiMTakedaAShinoharaTShinoharaSArikawa式匹配的文本压缩方案1999JSuMAhmedYLuSPanWBoYLiuRoformer568:12706320242019a预印本arXiv:2402.17762,2024年。322019barXiv:2210.092612022VThakkarPRamaniCCeckaAShivamHLuEYanJKosaianMHoemmenHWuAKerrMNicelyD.CUTLASS2023年1URL\h/NVIDIA/cutlasLLaMAarXiv:2302.139712023aH.TouvronL.MartinK.StoneP.AlbertA.AlmahairiY.BabaeiN.BashlykovS.Batra、P.BhargavaS.BhosaleD.BikelL.BlecherC.坎顿‑费雷尔M.ChenG.CucurullD.Esiobu、J.FernandesJ.FuW.FuB.FullerCV.GoswamiN.GoyalA.HartshornS.HosseiniR.HouH.InanM.KardasV.KerkezM.KhabsaI.Kl

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论