华为昇腾DeepSeek解决方案设计

上传人：海*** IP属地：江苏上传时间：2025-04-05 格式：PPTX 页数：31 大小：3.36MB 积分：12 举报 版权申诉

已阅读5页，还剩26页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

华为昇腾

解决方案把握DeepSeek时刻，携手同行华为昇腾AI基础软硬件介绍DeepSeek

洞察及昇腾适配进展○ozEnis212Huawei

Proprietary-Restricted

DistributionNLP自然语言处理2017谷歌发布首个

Transformer架

构

模

型2012

AlexNet模型能力突破开

启CV

时

代2015

Resnet效率与成本双突破CV全面普及·

对强化学习的创新使用，可以让大模型便捷的获得

通用性+专用性，可以满足各应用场景需求·

DS对通过从模型结构到训推全流程的极致工程优化，

大幅提升AI的计算效率，提升模型落地经济性

DeepSeek

是A

发展史上的一个关键里程碑，但远未达到AI终点训练资源·随

着DeepSeek

提供了

一

种高效率训练的方法，同等

算力规模可以探索更强的模型能力·

在竞争背景下，头部玩家仍将追逐Scaling

Law,坚

定

AI算力的战略投资，加速探索下

一

代AI技

术3

Huawei

Proprietary-Restricted

Distribution重新定义Scaling

Law延续智能涌现的方向DeepSeek-R1

进一步验证“算力即性能”Scaling

Law升级，模型能力=算力x

数据x

思考AI

模型算法：GPT、LLaMA

框架：PY、TF异构计算架构：CUDA互联技术：NV

LinkA

芯

片

：NV、AMD双轮驱动互锁战略坚定+技术创新AI模型算法：DeepSeekAI框架：昇思、飞桨…异构计算架构：CANN.…互联技术：灵衢AI芯片：昇腾、寒武纪.…·

中国Al公司首次以关键创新贡献者的身份加入到全球

AI竞争中，冲击美国AI霸

权·打破NV+OpenAI

的资金、技术、人才的垄断，全球

重新思考中美技术路线的选择泛化性和经济性大幅提升LLM

进

入

"CVResnet时刻"补齐最后一块自主创新的版图

真正形成中美两条AI技术路线下一代AI技术Mamba、

空间智能等算力x

数据x

思考算力x数据CV计算机视觉1998

LeNet首个CNN

架构模型2025

DeepSeek

效率与成本双突破NLP

全面普及2023

ChatGPT

模型能力突破开启NLP

时

代国家战略清晰技术创新依赖资本投入+逻辑推理DeepSeek-V3/R1OpenAI-01/03模型效果低成本绕过CUDA

挖掘FP8硬件潜力，MOE

和MLA

技术实现不到10%的成本方案~150M$Llama3.1-405B训练成本硬件级优化算法革命架构创新工程奇迹开源生态绕过GUDA进行PTX编程计算与通信优化，性能提升30%GRPO:群体进化的智慧筛选器自我验证机制：AI的"错题本系统"混合专家模型的"智能路由器“

多头潜在注意力MLA:空间压缩术训练框架加速：16到3的量化压缩，

通信降低89%推理加速：预加载，动态批处理等 DeepSeek

V3:实现极致性能，稀疏MOE提质降本低成本完美对标OpenAI

O1,突破精确语义理解及复杂推理任务DeepSeek-V3

是一款MoE模型，总参数量671B,激活参数量37B,

采用2048张H800

(节点内NVLink,节点间IB,

非超节点架构)在14.8Ttoken数据集上基于自

研HAI-LLM

训练系统总计训练了1394h(58.08天

)技术创新硬件级、算法级、架构级、工程级、开

源生态5大技术创新，轰动全球DeepSeek-R1

推理成本仅为OpenAIo1

的

HuaweiProprietary-Restricted

Distributionhingst

连能

我

足DeepSeek,

很高兴见到你!

aoo

味5.57M$DeepSeek-V3训

练成本来源：DeepSeek模型测试数据&互联网(Qwen/LLaMa

1.5B7B

14B

32B70B)5

Huawei

Proprietary-Restricted

Distribution

HUAWEI

DeepSeek

R1:

在Reasoning

任务达到了世界水平(OpenAI-o1)Figure1|Benchmark

performance

ofDeepSeek-R1.DeepSeek-R1

以DeepSeek-V3

Base(671B)为基础模型，使用GRPO

算法作为RL

框架来提升Reasoning

性能以2阶段SFT+2

阶段RL

完成，从而解决R1-Zero

可读性差、多种

语言混合问题本次开源同时发布了6个基于DeepSeek-R1

蒸馏的更小稠密模型RI-ColdstartRLRasoing

ofanpe★陟Qw25158

0wm25.7BQm25148800cot,匿Qwen25328]ampleThouandsolCofsamplesRI-ColdstartSFT600RISFT200kNon-ReasoningCoT

samples

Rue-bsedRM{GRPO)+Model-basedRM0

Lhms3188OLhm33-708

Basemodeks→权重关系

一数据流向★

发布模型V3-baseRL

RilebasedRMGRPO⁺(Acaury+Format)R1-Zero+(Accur

sstency)ge

conedRMasubnelauDeepSeek-R1技术路线*Depseck-RI-Distill

QwenLlama收重

初地化RI具体实现口只需存储图中的c,k"

即

可

；口考虑到矩阵乘法结合律，具体实现过程中Wuk

可以与WuQ

融合、Wuv

可以与

Wo融合，从而无需为每个query

计算key-value

值。Multi-HeadAttentionMulti-Head

LatentAttention(bs,h)bsh2bsh=lowKnp(bs,h)压缩后宽度《隐藏层宽度昇腾

推理阶段，理论上可以将KV

Cache

降低1~2个数量级，大幅减少HBM

存取和通信的开销。影响

2.对昇腾更亲和，大幅降低对HBM依赖，提升推理Decode

性能。Benchmark(Metric)ShotsSmall

MoE

Small

MoEw/MHA

w/MLALargeMoELargeMoEw/MHAw/MLAActivatedParamsTotalParamsKV

Cache

per

Token(#Element)2.5B15.88110.6K2.4B15.7B15.6K25.0B250.8B860.2K21.5B247.4B34.6KBBH(EM)3-shot37.939.046.650.7MMLU(Ace.)5-shot48750.057.559,0C-Eval(Acc)5.shot51.650.957.959.2CMMLU(Ace.)5-shot52.353.460.762.5Attention

MechanismKV

Cache

per

Token(#Element)Multi-Head

Attention(MHA)Grouped-Query

Attention(GQA)Multi-Query

Attention(MQA)2nndnl2ngdnl2dnIMLA(Ours)

(de+d)≈2dhlDeepSeekV3

模型架构：Multi-Head

Latent

Attention(MLA)MLA

架

构张量低秩压缩以降低KV

Cache资源开销：相比于传统MHA,MLA

通过降维

操作使得存储的张量维度大幅减小。(下图中仅红色阴影部分需要存储

)MLA

架构：1)分别对Query、Key-Value

pair进行低秩压缩；2)使用RoPE

获得位置信息；3)使用MHA

计算得到输出。实验结果对₆Deepseekv

而言rannJ28,oMmL

可以将KV

Cac

he降低为

.7%相比于MHA,MLA每token的KVCache量大幅减少，且精度更高。wwe(bsh)

+(bs,h)wiluesKeysTorget

Token

Crow

ntropy

lossMain

ModalntblenmaschonyOutputHeadTransformerBlocktinearProjectionTransformerBlock×LRMSNom

RMSNormEmbeddnglrermput

Tokens

t①

模

型

结

构·

每个MTP

模块共享嵌入层和输出头·

每个MTP

模块独占一个TransformerBlock和一个投影矩阵·

多个MTP

模块串联保持完整的因果关系链②

训

练

策

略·每个MTP

模块输出预测token的概率分布·

每个MTP模块计算对应的交叉熵损失函数·

多个MTP

模块的损失函数加权平均得到最终训练目标ofourMulti-TokenPrediction(MTP)implementation.We

fortheprediction

ofeach

token

each

depth.m-Csfinpy-20m-2cthe③

关

键

作

用·

提升每批训练数据的使用效率，强化训练信号·

优化模型表达能力，提升next-token的预测效果·

可参考投机采样改造MTP模块，加速推理效率MTP:Multi-Token

Prediction多token

预测提升模型效果·MTP

模块仅在训练中使用，提升模型训练效果，推理阶段可以不使用MTP

模块，基础模型能够独立完成正常推理·

参

考

投

机

采

样

，MTP

模块也可以被重新配置用于speculative

decoding,加速解码过程，降低整体时延TransformerBlocklinearProjectionIRMSNormRMSNormEmbedfnglarerhy

GrosEntropyLossMTP

Module2iNotfmAton)Mai

CrossEntropyLossMTP

Module1,we?olekedcton)关

键发

现7

Huawei

Proprietary-Restricted

Distributionkeep(24)(25)3|Hlustration

causal

chainFigurecompleteEmbednglayeroutputtieadOutputHeadnetDualPipe:

双流并行优化计算和通信，

All-to

-AlI

通信开销接近0MLP可▲

RM2FA

ATTNB)4ATTNW平TTNFADSPATCH

DtnTCH)A

CONNEFA→P

osaDTATm△Fowardchunk

wardchunkFigure

4|Overlapping

strategy

for

pair

ofindividualforwardand

backwardchunks

(theboundaries

ofthetransformer

blocksarenotaligned).Orange

denotes

forward,green

denotesbackward

for

input",blue

denotes

"backward

forweights",purpledenotes

communication,①

细粒度的计算通信并行·

将PPstage拆分为更细的模块，提升模块交替编排的灵活度·

参考ZeroBubble,反向传递中的权重更新和梯度传递独立操作·

经过细粒度的拆分和编排之后，计算流和通信流的barrier刚好可以重叠②

双向管道调度减少PP

中的气泡·1F1B中每个batch拆分为1个forward和1个backward·

ZeroBubble中把backward拆分为input和weight两个部分·

DualPipe中使用对称处理，不同batch从不同的device上开始流水③

每卡显存占用略微增大MethodBubbleParameterActivation1F1B(PP-1)(F+B)1xPPZB1PDualPipe

(Ours)(PP-1)(F+B-2W)1x2×PPPP+1Figure5|ExampleDualPipescheduling

for8PP

ranks

and

micro-batches

two

directions.Themicro-batchesinthereversedirectionaresymmetrictothoseinthe

forward

direction,sowe

omit

their

batch

IDfor

illustrationsimplicity.Twocellsenclosed

byashared

black

borderhave

mutually

overlapped

computation

and

communication.参考DualPipe技术，基于MindSpeed训练加速框架以及昇腾硬件特性，针对

性地设计高效率流水并行技术，提升整体训练性能·

双向管道训练，需要存两份参数来进行训练(Parameter2x)·

模型总参数量671B,

每个卡上4个routedexpert对应26.8B,同时

考虑到PP-16和FP8量化，每个卡上显存占用为1.675GB8

HuaweiProprietary-Restricted

Distribution关键

启示

DeepSeek

通过从模型结构到训推全流程的优化，带来大模型新范式DeepSeekV3/R1,大幅提升从训练到推理的计算效率，降低模型创新及应用落地的门槛推理优化单次推理效率倍级提升Token预测1次1token预测1次多Token预测一次预测多个token推理倍级提升HUAWEI后训练优化

降低学习复杂度强化学习需要裁判模型评估新老策略组队评估简化强化学习流程降低后训练复杂度业

界LLM

大模型DeepSeek核

心收益效果PP

并行算法1前1后单流水双向流水并行MLA低秩压缩减少缓存压缩KVCache降低内存90%支持更高并发训练精度FP16/BF16FP8混合精度DeepSeekMoE

更稀疏256选8+1模型容量提升3倍计算量减少70%AttentionMHA/GQA分组共享减少缓存计算通信优化降低计算，极致的掩盖，同时保证训练精度模型结构优化以计算换内存、降通信，空间时间双优化计算量减少35%平衡训练效率与

数值精度MOEGPT416专家选2计算与通信极致掩盖减少50%PP气泡9

Huawei

Proprietay-Restricted

Distribution关注高效、稳定、开放的底座·

极致性能、稳定可靠的AI集

群·

深度开放的平台和生态·极致的端到端性能效率优化Claude2Llama3-70B

②Baichuan2-13BDeepSeek-V3-671BGLM-130BDeepSeek-R1-671B关注便捷、易用、性价比的平台DeepSeek-R1-Distill-Qwen-32B·

开箱即用的强化学习套件·

兼顾成本与性能的蒸馏/微调方案AlexNet大模型从技术摸高走向技术摸高+工程创新并行

，训练需求持续增长①技术摸高：头部玩家将战略坚定投入预训练基础模型创新，丰富模型组合，追逐Scaling

Law,加

速

探

索AGI②工程创新：新的范式降低后训练和蒸馏门槛，模型效果大幅提升，出现平权现象，引发新一波的“百模干态”2012201320142015

201620172018

201920202021202220232024

20252026训练的算力需求将持续增长，算力结构从“预训练为主”走向“预训练+后训练/二次训练”10HuaweiProprietary-RestrictedDistribution

Doubao

2.0

Lama4G

Gemini2.0GPT-5DeepSeek-R1-Distill-Qwen-1.5B(蒸馏后较原模型能力提升10%+)G

Gemini

Utra

PalM(540B)

GPT-4/40·

便捷的部署、敏捷业务上线工

程

创

新新一轮百模千态技

术

摸高新一轮技术竞争训练算力需求(PFLOPS)

GPT-3/3.5175BMegatron-Tuning

NLG530BG

BERT-LargeGTransformerHunyuanGroq4①金融

交通

教育医疗电

力

油气

制造云服务

硬件+社区

一体机钉钉一体机电信息壤一体机昇腾社区新致金融一体机同花顺一体机京东云诸多厂家推出一体化方案对

外提供服务/自用硬件+开源模型+RL

套件+ISV/

云，商业模式逐渐成熟AS

IS基

础

模

型(DeepSeek/Uama.Qwen.

大量行业数据监督微调SFT更多行业高质量数据生成监督微调SFT行业大模型行业大模型部署更高效月级调优

→

周/天级优化 DeepSeek能力提升成为各行业生产力工具，加速推理落地干行百业DeepSeek

催熟大模型落地技术，降低推理部署门槛开箱即用的一体机，加速大模型应用落地华为云移动云电信天翼云联通云腾讯云阿里云亚马逊AWS

微软Azure数据依赖降低高质量数据

→

生成数据算法依赖降低高端人才

→

开源+蒸馏NVIDIAHugging

FaceGitHub主流云服务商已支持DS

覆盖公/私有云部署11

HuaweiProprietary-Restricted

Distribution主流算力、主流社区

均已支持DeepSeek模型蒸馏-模型小型化少量行业数据强化学习魔乐社区基础模型Llama/Qwen/)昇腾TOBE模型服务商潞晨科技已上线硅基流动已上线清昴已上线讯飞测试中运营商电信天翼云已上线联通云已上线移动云已上线南京、福建、浙江移动已上线上海、江苏电信已上线国计民生行业龙岗区政府已上线北京银行已上线广大证券已上线北京、南京、西安、武汉、苏州、无锡等公共服务平台已上线招行测试中工行测试中太保测试中模型名称Atlas

300I

DuoAtlas

800I

A2DeepSeekV3√DeepSeekR1√DeepSeek

Janus-Pro-1B/7B√√DeepSeek

R1-Distill-Llama-70B√DeepSeek

R1-Distill-Qwen-32B√DeepSeek

R1-Distill-Llama-8BDeepSeek

R1-Distill-Qwen-1.5B/7B/14B√√ DeepSeek

模型发布即支持昇腾推理，各行业已基于昇腾快速上线DeepSaek-V3(CMWote/0gDeepSeek-RhaDeepSeek

发布两周，3大社区全系列模型上线40+客户/伙伴基于昇腾已上线，15+测试中(预计两周内全部上线)最新DeepSeekV3/R1/Janus-Pro

及6个蒸馏模型

基于昇腾开箱即用，配套版本已上线各大开源社区配套版本上线昇腾社区：https://www.hiascend.com/software/mode

lzoo/models/detail/678bdeb4ela64c9dae51d353d84dddi5配套版本上线魔乐社区：/models/MindIE/deeps

eekv312

Huawei

Proprietary-Restricted

DistributionAtlas

800IA2(256GB)Atlas300I

Duo系统吞吐

并发路数730

Token/s@14B

80路@14B956Token/s@8B115路@8B956Token/s@7B115路@7B思

腾

合

力Atlas300V系统吞吐并发路数432Tnken/s16路系统吞吐4940Token/s@32B7500Token/s@14B并发路数247路@32B300路@14B

珑京科技

思

雎

合

力

昇腾DeepSeek—体机：大吞吐+高并发，加速行业模型落地系统吞吐1911Token/s潞展科技移动，贵一体系统吞吐3300Token/s165路

珑京科技思

腾

合

力

模型参数：671B+

满

血

版DeepSeek

V3/R1Atlas800I

A2(1024GB)模型参数：70BDeepSeek-R1-Distill-Lama-70BAtlas800IA2(512GB)模型参数：14B/32BDeepSeek-R1-Distill-Qwen-32BDeepSeek-R1-Distill-Qwen-14B模型参数：7B/8B/14BDeepSeek-R1-Distill-Qwen-14B

DeepSeek-R1-Distill-Llama-8B

DeepSeek-R1-Distill-Qwen-7B模型参数：1.5BDeepSeek-R1-Distll-Qwen-1.5B

金融

Huawei

Proprietary-Restricted

Distribution

教育

油气

制造

交通珑京科技思腾合力个人知识管理个人文档分析编程辅助个性化学习辅导

创意写作AI编程

智能对话

金融研报文本创作

营销文案内容检测并发路数192路开

发

板

边端设备编程辅助

智能客服政务电力珑京科技并发路数模型集合模型名称参数计算精度产品配置系统吞吐token/s并发用户数DeepSeek-V3DeepSeek

V3671BINT8Atlas800I

A21024GB1911192DeepSeek-R1DeepSeek-R1671BINT8Atlas800I

A21024GB1911192DeepSeek-R1蒸馏模型DeepSeek-R1-Distill-Llama-70B70BINT8Atlas800I

A2512GB3300165DeepSeek-R1-Distill-Qwen-32B32BINT8Atlas800I

A2256GB4940247DeepSeek-R1-Distill-Qwen-14B14BINT8Atlas800I

A2256GB7500300Atlas

300I

Duo1*Duo

96GB

PCIE73080DeepSeek-R1-Distill-Llama-8B8BINT8Atlas

300I

Duo1*Duo

96GB

PCIE956115DeepSeek-R1-Distill-Qwen-7B7BINT8Atlas

300I

Duo1*Duo

96GB

PCIE956115DeepSeek-R1-Distill-Qwen-1.5B1.5BINT8Atlas

300V1*300V

24GB

PCIE43216

DeepSeekV3/R1

及蒸馏模型，昇腾DeepSeek

一体机推荐配置14Huawei

Proprietary-Restricted

Distribution华为昇腾AI

基础软硬件介绍DeepSeek

洞察及昇腾适配进展215

Huawei

Proprietary-Restricted

Distribution1昇腾AI基础软硬件架构全面创新，使能行业场景化应用行业场景化应用视图分析、检索聚类、搜索

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

华为昇腾DeepSeek解决方案设计

文档简介

温馨提示

最新文档

评论

华为昇腾DeepSeek解决方案设计

文档简介

温馨提示

最新文档

评论

相关文档