昇腾DeepSeek解决方案

上传人：海*** IP属地：江苏上传时间：2025-04-05 格式：PPTX 页数：31 大小：3.62MB 积分：12 举报 版权申诉

已阅读5页，还剩26页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

把握DeepSeek

时刻，携手同行华为昇腾Al解决方案汇报2025年4月华为昇腾Al基础软硬件介绍1

DeepSeek

洞察及昇腾适配进展目录22HuaweiProprietary-RestrictedDistributionDeepSeek

是Al发展史上的一个关键里程碑，但远未达到Al终点训练资源·

随

着DeepSeek提供了一种高效率训练的方法，同等

算力规模可以探索更强的模型能力·在竞争背景下，头部玩家仍将追逐Scaling

Law,

坚定

Al算力的战略投资，加速探索下一代Al技术Al模型算法：DeepSeekAl框架：昇思、飞桨…异构计算架构：CANN…互联技术：灵

衢Al芯片：昇腾、寒武纪…AI模型算法：GPT、LLaMAAl框架：PY、TF异构计算架构：CUDA互联技术：NV

LinkAl

芯片：NV、AMDCV计算机视觉1998

LeNet首

个CNN

架构模型NLP自然语言处理2017谷歌发布首个

Transformer架构模型·DS

对强化学习的创新使用，可以让大模型便捷的获得

通用性+专用性，可以满足各应用场景需求·DS

对通过从模型结构到训推全流程的极致工程优化，

大幅提升Al的计算效率，提升模型落地经济性·

中

国Al公司首次以关键创新贡献者的身份加入到全球Al竞争中，冲击美国Al霸权·

打破NV+OpenAl

的资金、技术、人才的垄断，全球

重新思考中美技术路线的选择补齐最后一块自主创新的版图

真正形成中美两条Al技术路线泛化性和经济性大幅提升LLM进入"CV

Resnet时刻"DeepSeek-R1进一

步验证“算力即性能”Scaling

Law升级，模型能力=算力x

数

据x

思

考+逻辑推理DeepSeek-V3/R1OpenAl-01/03算力×数据x

思考算力x

数据2015

Resnet效率与成本双突破CV

全面普及2025DeepSeek

效率与成本双突破NLP

全面普及2012AlexNet

2023

ChatGPT模型能力突破

模型能力突破开启CV

时代

开启NLP时代重新定义Scaling

Law

延续智能涌现的方向国家战略清晰

双轮驱动互锁技术创新依赖资本投入

战略坚定+技术创新3

HuaweiProprietary-RestrictedDistribution下一代Al技术Mamba、空间智能等模型效巢技术创新硬件级、算法级、架构级、工程级、开

源生态5大技术创新，轰动全球·绕过GUDA

进行PTX

编程硬件级优化

·计算与通信优化，性能提升30%·GRPO:

群体进化的智慧筛选器算法革命

自我验证机制：Al的"错题本系统"·混合专家模型的"智能路由器"·

多头潜在注意力MLA:空间压缩术·训练框架加速：16到3的量化压缩，

通信降低89%·推理加速：预加载，动态批处理等·模型、数据、工具链、部署全开源·蒸馏技术使能第三方模型性能低成本绕

过CUDA

挖

掘FP8硬件潜力，

MOE

和MLA

技术实现不到10%的成本方案~150M$Llama3.1-405B训练成本DpVanan

aik性能优数学、科学和代码等领域领先业界，成为业界公认的LLM

的领先模型0DeepSeek

V3:

实现极致性能，稀疏MOE提质降本低成本完美对标OpenAI

O1,突破精确语义理解及复杂推理任务DeepSeek-V3

是一款MoE

模型，总参数量671B,激活参数量37B,采用2048张H800(节点内NVLink,节点间IB,非超节点架构)在14.8Ttoken数据集上基于自研

HAl-LLM

训练系统总计训练了1394h(

58.08

天)我是DeepSeek,

很高兴见到你!p幢,

*g,ancn

交编m.Thepset

酒

册Tae架构创新工程奇迹开源生态uawDeepSeek-R1

推理成本仅为OpenAl

o1的

%5.57M$DeepSeek-V3训

练成本来源：DeepSeek模型测试数据&互联网4

HuaweiProprietary-RestrictedDistribution

DeepSeek

R1:

在Reasoning

任务达到了世界水平

(OpenAl-01)>以2阶段SFT+2

阶段RL

完成，从而解决R1-Zero

可读性差、多种

语言混合问题>本次开源同时发布了6个基于DeepSeek-R1

蒸馏的更小稠密模型(Qwen/LLaMa

1.5B

14B

32B

70B)Figure1|Benchmark

performance

ofDeepSeek-R1.DeepSeek-R1

以DeepSeek-V3

Base

(671B)

为基础模型，使用GRPO算法作为RL框架来提升Reasoning性能600x

Resoning

CaT

smples博

Qwen25-7B虚

0wn25-14BRISFT

samplesRL

Rule-based

RM200k

Non-Reasoning

(GRPO)*Model-based

Lm33-70BCoT

samples

Base

modeksThousandsofRL(GRPO)+RI-ColdstartSFTRule-based

RMAccury+languapeconsistency)RI-ColdstartRL厚Qwen25-15B→

权重关系→

数据流向★

发布模型V3-baseRL

Rule-based

RM(GRPO+(Acaury+formabR1-Zero800kCoT,

际

Owen25.32800

Llam3.1-8B*Depsck.R1-Disill

Qwen/LlamDeepSeek

-R1

技术路线Huawei

Proprietary-Restricted

Distribution:权重

初始化5具

体

实

现口只需存储图中的CKV,KF

即可；口考虑到矩阵乘法结合律，具体实现过程中WUK

可以与WUQ

融合、

wUV

可以与

W°融合，从而无需为每个query

计算key-value

值。o0ce

DumeiomouptQ00o,000ad

etSjne响

%OO:oourm?wor0ndn.0000-0000w"拥cenckmcrCWtmmCda

的位9编件9"cancat律DeepSeekV3模型架构：Multi-HeadLatent

Attention(MLA)Benchmark(Metric)#ShotsSmallMoESmallMoEw/MHA

w/MLALargeMoELargeMoEw/MHA

w/MLAActivatedParams2.5B

2.4B25.0B

21.5B#TotalParams15.8B

15.7B250.8B247.4BKV

Cache

per

Token(#Element)110.6K

15.6K860.2K

34.6KBBH(EM)

3-shot37.939.046.650.7MMLU(Ace.)

5-shot48.750.057.559.0C-Eval(Acc.)

5-shot51.650.957.959.2CMMLU(Acc.)

5-shot52.353.460.762.5Attention

MechanismKV

Cache

per

Token(#Element)Multi-Head

Attention(MHA)Grouped-Query

Attention(GQA)

Multi-Query

Attention(MQA)2nhdl2ngdhl2dhlMLA(Ours)

(de+df)L≈2dhL(bs,h)v(bs,h)

bsh

2bsh

ou=low

ankkeys(bs,h)

Keys压缩后宽度

<隐藏层宽度

hValues1.

推理阶段，理论上可以将KV

Cache降低1~2个数量级，大幅减少HBM

存取和通信的开销。2.

对昇腾更亲和，大幅降低对HBM依赖，提升推理Decode

性能。实验结果>相比于MHA,MLA

每token的KV

Cache量大幅减少，且精度更高。>张量低秩压缩以降低KV

Cache资源开销：相比于传统MHA,MLA

通过降维

操作使得存储的张量维度大幅减小。(下图中仅红色阴影部分需要存储)>MLA

架构：1)分别对Query、Key-Value

pair进行低秩压缩；2)使用

RoPE

获得位置信息；3)使用MHA

计算得到输出。对

DeepSeekv3而商aryDR128cDALA可以将KV

Cache降低为

22=1.7%Multi-HeadAttentionMulti-Head

LatentAttention(bs,h)nput昇腾

影响MLA

架构脚

钟9QmmCw,o0w4n网中0- tshrp

Cross

Entropy

LossMTP

Module2Nettoienedkction)Output

HeadTransformerBlockTransformerBlockLinearProjectionTcorcatnotianRMSNorm

RMSNormEmbedinglarerhputTokens

t₂

t₂tt

4①

模

型

结

构·每个MTP模块共享嵌入层和输出头·每个MTP

模块独占一个TransformerBlock和一个投影矩阵·多个MTP模块串联保持完整的因果关系链②

训

练

策

略·

每

个MTP

模块输出预测token的概率分布·

每

个MTP

模块计算对应的交叉熵损失函数·多

个MTP

模块的损失函数加权平均得到最终训练目标③

关

键

作

用·提升每批训练数据的使用效率，强化训练信号·优化模型表达能力，提升next-token的预测效果·

可参考投机采样改造MTP模块，加速推理效率

MTP:Multi-TokenPrediction多token预测提升模型效果·MTP

模块仅在训练中使用，提升模型训练效果，推理阶段可以不使用MTP

模块，基础模型能够独立完成正常推理·

参考投机采样，MTP

模块也可以被重新配置用于speculative

decoding,加速解码过程，降低整体时延cm-Cstropucu-m-

台

4mFigure3|Ilustration

our

Multi-Token

Prediction(MTP)implementation.We

keep

the

complete

causal

chain

for

the

prediction

ofeach

tokenat

each

depth.Main

CrossEntropyLoss!MTP

Module1TooncatenutonRMSNormRMSNormEmbedding

LayerTransformerBlock×LEmbeddinglayerHuawei

Proprietary-Restricted

DistributionN

ldicbon)reepdnosa(24)(25)关

键发

现NettokenPedschion)CrossEntropyLossUinearProjectionOutput

HeadOutputHeadTorget

Tokenmp7computaton

MLP(B)▲

MLPWA

MLPD△

ATINB)A

AITNWAATTNF△mmunieaon

DISPATCHF△

DISPATCH(B)▲DeviceDeviceDeviceDeviceDeviceDevice

DeviceDeviceTime0

4105

103

111

011300140

321△Forward

chunk▲Backwardchunke4|Overlappingstrategyfora

pair

individual

forward

and

backward

chunks

(thedariesofthetransformerblocksare

not

aligned).Orange

denotes

forward,green

denoteswardfor

input",bluedenotes"backward

forweights",purple

denotes

communication,eddenotesbarriers.Bothall-to-all

and

communication

can

fully

hidden.①细粒度的计算通信并行·将PPstage拆分为更细的模块，提升模块交替编排的灵活度·参考ZeroBubble,反向传递中的权重更新和梯度传递独立操作·经过细粒度的拆分和编排之后，计算流和通信流的barrier刚好可以重叠②双向管道调度减少PP

中的气泡·

1F1B中每个batch拆分为1个forward和1个backward·ZeroBubble

中把backward拆分为input和weight两个部分·DualPipe

中使用对称处理，不同batch

从不同的device

上开始流水③

每卡显存占用略微增大·双向管道训练，需要存两份参数来进行训练

(Parameter2x)·

模型总参数量671B,每个卡上4个routed

expert对应26.8B,同

时

考虑到PP-16和FP8量化，每个卡上显存占用为1.675GBDenio01Dowoe1Devce2Dwwce

3Dwwce4Dowce6DowcoDevioe

7Tm

□wud

ovetapped

forwardLBackwardFigure

5|Example

DualPipe

scheduling

for8

ranks

and

micro-batches

two

directions.

The

micro-batches

the

reverse

direction

are

symmetric

those

the

forward

direction,so

omittheirbatch

IDforillustrationsimplicity.Two

cells

enclosedbya

sharedblackborder

have

mutually

overlapped

computation

and

communication.

DualPipe:双流并行优化计算和通信，

All-to-AlI通信开销接近0MethodBubbleParameterActivation1F1B(PP-1)(F+B)1×PPZB1PDualPipe

(Ours)1×2×PPPP+1参考DualPipe

技术，基于MindSpeed

训练加速框架以及昇腾硬件特性，针对

性地设计高效率流水并行技术，提升整体训练性能8

Huawei

Proprietary-Restricted

DistributionFigurboun

back

and

rCOMBINE(F△

COMBINE(B)▲关键

启示

DeepSeek

通过从模型结构到训推全流程的优化，带来大模型新范式DeepSeek

V3/R1,大幅提升从训练到推理的计算效率，降低模型创新及应用落地的门槛推理优化单次推理效率倍级提升Token

预测1次1token预测1次多Token

预测一次预测多个token推理倍级提升后训练优化

降低学习复杂度强化学习需要裁判模型评估新老策略组队评估简化强化学习流程降低后训练复杂度业界LLM

大模型DeepSeek核心收益效果模型结构优化以计算换内存、降通信，空间时间双优化Attention

MOE计算通信优化降低计算，极致的掩盖，同时保证训练精度PP并行算法1前1后单流水计算量减少35%平衡训练效率与数值精度训练精度FP16/BF16压缩KVCache降低内存90%支持更高并发计算与通信极致掩盖减少50%PP

气泡模型容量提升3倍计算量减少70%MLA低秩压缩减少缓存DeepSeekMoE

更稀疏256选8+1MHA/GQA分组共享减少缓存FP8混合精度

双向流水并行9

Huawei

Proprietary-Restricted

DistributionGPT416专家选2训练算力需求

(PFLOPS)Groq4Hunyuan极致

性

能、稳

定

可

靠

的Al集

群深

度开

放

的

平台

和

生

态·②

工

程

创

新新一轮百模千态GPT-3/3.5175B

●

GLM-130B注

便

捷、易

用、

性

价比

的

平

台DeepSeek-R1-Distill-Qwen-32B开

箱即

用的

强

化

学习

套

件GBERT-LargeGTransformerAlexNet大模型从技术摸高走向技术摸高+工程创新并行，训练需求持续增长①

技

术

摸

高

：头

部

玩

家

将

战

略

坚

定

投

入

预

训

练

基

础

模

型

创

新，

丰富

模

型

组

合，

追

逐ScalingLaw,加

速

探

索AGI②

工

程

创

新

：

新的

范

式

降

低

后

训

练

和

蒸

馏门

槛，

模

型

效

果

大

幅

提

升，出

现

平

权

现

象，引

发

新

一

波的

“

百

模

干

态

”201220132014

201520162017201820192020202120222023202420252026训练的算力需求将持续增长，算力结构从“预训练为主”走向“预训练+后训练/二次训练”①技

术

摸

高

关

注

高

效

、

稳

定

、

开

放

的

底

座

新一轮技术竞争兼

顾

成

本

与

性

能的

蒸

馏

微

调

方

案便

捷的

部

署、敏

捷

业

务

上

线DeepSeek-R1-Distill-Qwen-1.5B(蒸馏后较原模型能力提升10%+)GPalM(540B)

Megatron-TuningNLG530B10Huawei

Proprietary-Restricted

DistributionGPT-4/40Claude2Llama3-70BBaichuan2-138GGemini2.0

GGemini

Ultra极

致的

端

到

端

性能

效

率

优

化关·

·DeepSeek-R1-671BDeepSeek-V3-671BGPT-5Doubao2.0oUama4··开箱即用的一体机，加速大模型应用落地教

育

医

疗云

服

务

硬件+社区钉钉一体机电信息壤一体机昇腾社区新致金融一体机同花顺一体机京东云诸多厂家推出一体化方

外提伊务/自用硬

件

开

源

模

型

+RL

套

件

+ISV/

云

，

商

业

模

式

逐

渐

成

熟AS

IS大量行业数据..监督微调SFT行业大模型TO

BE基

础

模

型(DeepSeek/

少量行业数据监督微调SFT更多行业高质量数据生成行业大模型模型蒸馏-模型小型化DeepSeek

能力提升成为各行业生产力工具，加速推理落地干行百业DeepSeek

催熟大模型落地技术，降低推理部署门槛华为云移动云电信天翼云联通云NVIDIAHuggingFaceGitHub……腾讯云阿里云亚马逊AWS微软Azure部署更高效月级调优

→

周/天级优化数

据

依

赖

降

低高质量数据

→

生成数据算

法

依

赖

降

低高端人才

→

开源+蒸馏11Huawei

Proprietary-Restricted

Distribution主流云服务商已支持DS

覆盖公/私有云部署主流算力、主流社区

均已支持DeepSeek电力

油

气

制造基础模型Llama

、Qwen、一体机魔乐社区强化学习Llama/Qwen/)昇腾模型服务商潞晨科技已上线硅基流动已上线清昴已上线讯飞测试中运营商电信天翼云已上线联通云已上线移动云已上线南京、福建、浙江移动已上线上海、江苏电信已上线国计民生行业龙岗区政府已上线北京银行已上线广大证券已上线北京、南京、西安、武汉、苏州、无锡等公共服务平台已上线招行测试中工行测试中太保测试中模型名称Atlas

300I

DuoAtlas

8001

A2DeepSeekV3√DeepSeek

R1√DeepSeek

Janus-Pro-1B/7B√√DeepSeek

R1-Distill-Llama-70B√DeepSeek

R1-Distill-Qwen-32B√DeepSeek

R1-Distill-Llama-8BDeepSeek

R1-Distill-Qwen-1.5B/7B/14B√√DeepSeek

模型发布即支持昇腾推理，各行业已基于昇腾快速上线e2aDeepSoek-V3(C配套版本上线昇腾社区：/software/modelzo

o/models/detail/678bdeb4e1a64c9dae51d353d84ddd1512

Huawei

Proprietary-Restricted

Distribution最新DeepSeek

V3/R1/Janus-Pro及6个蒸馏模型

基于昇腾开箱即用，配套版本已上线各大开源社区DeepSeek

发

布

两

周

，3

大

社

区全系列模型上线40+客户/伙伴基于昇腾已上线，

15+测

试

中

(

预计两周内全部上线)配套版本上线魔乐社区：/models/MindlIE/deeps

eekv3口DeepSeek-R1hapMa

.Mnde/Deplesn模型参数：14B/32BDeepSeek-R1-Distll-Qwen-32BDeepSeek-R1-Distill-Qwen-14B模型参数：7B/8B/14BDeepSeek-R1-Distill-Qwen-14BDeepSeek-R1-Distill-Llama-8BDeepSeek-R1-Distill-Qwen-7B模型参数：1.5BDeepSeek-R1-Distill-Qwen-1.5BAtlas8001A2(256GB)Atlas

300I

Duo

Atlas

300V13

Huawei

Proprietary-Restricted

Distribution

HUAWEI编程辅助智能客服个性化学习辅导创意写作个人知识管理个人文档分析编程辅助开发板

边

端

设

备Atlas8001A2(1024GB)Atlas8001A2(512GB)体机：大吞吐+高并发，加速行业模型落地昇腾DeepSeek—系统吞吐4940Token/s@32B7500Token/s@14B珑京科技系统吞吐1911Token/s移动、电信一体

机

制造模型参数：671B+

满血版DeepSeek

V3/R1系统吞吐3300

Token/s珑京科技Al编

程智能对话金融研报文本创作营销文案内容检测系统吞吐432

Token/s珑京科技730Token/s@14B956Token/s@8B956Token/s@7B珑京科技并发路数247路

2B300路@14B思腾合力模型参数：70BDeepSeek-R1-Distll-Lama-70B并发路数80路@14B115路

8B115

路

7B思腾合力并发路数16路思瑞合力并发路数165路思腾合力

电力

政务

并发路数192路教育油气金融交通潞

晨

科

技系统吞吐模型集合模

型

名

称参数计

算

精

度产品配置系统吞吐token/s并发用户数DeepSeek-V3DeepSeek

V3671BINT8Atlas800I

A21024GB1911192DeepSeek-R1DeepSeek-R1671BINT8Atlas800I

A21024GB1911192DeepSeek-R1蒸馏模型DeepSeek-R1-Distill-Llama-70B70BINT8Atlas800I

A2512GB3300165DeepSeek-R1-Distill-Qwen-32B32BINT8Atlas800I

A2256GB4940247DeepSeek-R1-Distill-Qwen-14B14BINT8Atlas800I

A2256GB7500300Atlas

300I

Duo1*Duo

96GB

PCIE73080DeepSeek-R1-Distill-Llama-8B8BINT8Atlas

300I

Duo1*Duo

96GB

PCIE956115DeepSeek-R1-Dstill-Qwen-7B7BINT8Atlas

300I

Duo1*Duo

96GB

PCIE956115DeepSeek-R1-Distill-Qwen-1.5B1.5BINT8Atlas

300V1*300V

24GB

PCIE43216

DeepSeek

V3/R1及蒸馏模型，昇腾DeepSeek—

体机推荐配置14HuaweiProprietary-Restricted

DistributionDeepSeek

洞察及昇腾适配进展华为昇腾Al基础软硬件介绍CoNTENTS目录15HuaweiProprietary-RestrictedDistribution21ModelArts

应用使能训练平台/推理引擎/模型套件/SDKAl计算框架昇思MindSporePyTorch/TensorFlow/Caffe

…

…异构计算架构CANNAtlas及昇腾伙伴系列硬件模组/小站/加速卡/服务器/集群昇腾处理器昇腾310系列/昇腾910系列

…昇

思

MnaaCANNAscend昇腾AI基础软硬件架构全面创新，使能行业场景化应用行业场景化应用

视图分析、检索聚类、搜索推荐、自然语言处理、智能语音、自动驾驶

…

应用使能应用使能套件/SDKAl计算框架PyTorch/TensorFlow/Caffe

…

.异构计算架构CUDANV

系列硬件模组/加速卡/服务器/-->集群NV处理器Ampere系列/Hopper

系列…nVIDIA.

CUDANVIDIA

.英

伟

达

基

础

软

硬

件

架

构昇

腾

基

础

软

硬

件

架

构16HuaweiProprietary-RestrictedDistribution[M]TensorRTplugins&parserNV

NCCLNV

CUTLASSNV

CUDA-CNV

cuDNNGraph

Engine图引擎HCCLAscendC高阶APIAscend

C低级APIAscend

aclNNMT

、KS自定义图融合PatternTX

、MThash

算法自定义调优XF自定义切分策略KS自定义算子开发XF结合场景差异优化深度开放CANN,

一套架构使能昇腾原生开发加速库

Megatron

DeepSpeed

AscendSpeed…AI框架

昇

思MindSpore

PyTorch

TensorFlow

…GE图引擎开放图编译、图优化、图执行，支持自定义图触合，提升整网性能计算架构CANN深度开放，使能高效灵活开发，匹配开发者使用习惯HCCL

集合通信库开放通信算子、平台接口，支持自定义通信算法，提升网络通信效率Ascend

C编程语言开放130+底层API、60+高层API,支持高性能自定义融合算子开发算

子

加

速

库放1600+基础算子接口、30+融合算子接口，简化开发复杂度，提升开发效率毕昇编译器|Runtime

运行时开放硬件资源接口，满足开发者对模型开发、系统优化、三方生态对接等各场景需求Huawei

Proprietary-Restricted

DistributionGE

图引擎集合通信库类库/模板通用编程算子加速库对位NV

CUDA,

匹配开发使用习惯昇腾硬件使能CANNCANNKS直接发起Kernel

LaunchNVIDIA.CUDAAscendRuntime运行时NV

Runtime17模型训练：算网/算存深度协同是大模型分布式并行训练的基础大模型技术发展方向干亿稠密/万亿稀疏

超长序列

多模态更大规模/更复杂的组网

更复杂的模型及数据切分

更大(模

参据数量、Ch

…读)

写eckPoint存储和⑥

NPUPCPU

从Mind-omacXPT

据

MindlO(MindX

的IO相件)MindIO

从DPC存

加CKPT

数

斑DPC(存储分布式客户锅)CXPT

参数(

细

存

)面故蹄恢复时，首次

加载CKPT

数脏到计牌

节点DPC

蛋存区存储节点存

储

设

备3、AI任务信息任务、通值域1、控制器获取网络拓扑，下发路径信息同莫

只2

AI任务调度…………算网协同·

网络级负载均衡：独

家NSLB

算法

，算网协同

调度，多任务节点非连续组网情况下，通信带宽

提升20%、模型性能提升7%算存协同·极致读写性能：

CKPT

等算存读写协同优化、

级存取+TB级带宽，数据读取效率提升50%大规模组网·

超

大

组

网

规

模

：2层1:1无收敛的AI网络架构，最大支持128

K集群规模组网，千卡到万卡平滑演进以全部通信关系和拓扑信息作为输入通过算法计算出最优结果，实现Al参数面全网负载均衡18

Huawei

Proprietary-Restricted

Distribution支持2级框盒、框框组网，适用于大规模及超大规模集群故障饮复时，个NPU均需教政cxpTo数

数

瓣(

始

)

T优化前方案优化后方案计算

节点4、动态路径调整Al调度平台网络控制器NPU/CPU算

子

深

度

融

合“工序合并”减少计算数据搬入搬出的时间及内存开销计算与通信融合计算数据细粒度切分，减少计算与通信相互等待计算加速忽略无效计算，减少计算量和内存量低

阶

二

进

制

算

子

库Asce计算通信计算1计算2计算3计算4…通信1通信2通信3通信4自适应选择性重计算、内存碎片优化、算子库CANNndC编程语言+Runtime开MultiheadAttention中常见模型的mask上

三角区域均接近于0.高阶融合算子库放接口模型训练：应用使能软件加持，

MFU

领先、线性度持平NV模型训练最优=

单机执行最优+集群并行最优

+中断时间最短网络局部计算选路Hash冲突导致有效吞吐不足50%控制器全局集中算路_自动生成路径并动态下发网络网络控制器获取网络拓扑

下发路径硬件层算网协同

提升有效吞吐NLSB网络级负载均衡实现网络

动态路由，有效吞吐达98%模型算力利用率

(

MFU)

45%+模型通信与计算优化，单机执行最优软件层分布式并行充分调度算力资源提供分布式加速库，内置主流加速算法，满足各类模型加速场景超大集群线性度

90%+分布式并行+算网协同，集群并行最优数据并行、流水并行层内通信并行L

层L2层

L层19HuaweiProprietary-Restricted

Distribution[M]

昇思OPyTorch模型并行场景/应用测试模型测试结果对话搜索DB-200B0.94x

A800客服、文生图场景；

金融助手SDXL3.48~3.63x

A10Llama2-7B1.41~2.72x

A10Llama2-13B1.44~2.19xA10电商ChatGLM2-6B1.86x

A30Baichuan2-13B1.82xA30Qwen-14B1.81xA30ZN大模型智脑13B1.7x

A30图像识别、OCR文

字识别和视频处理Llama2-70B1.7x

L20智慧教育、办公问

答星火-65Bx800T

A2交互搜索，金融客服问答step1V-130B多模态2.0x

L20对标Triton+TMS/vLLM·业界标准RPC

接口高效对接业务层·模型管理，集群管理，devops·支持多实例并发对标TensorRT-LLM·支持社区模型快速迁移·

自回归解码、扩散过程优化·稀疏量化压缩、并行推理支

持PyTorch/

昇

思·少量代码实现训练向推理平滑迁移·整图/子图优化+单算子混合推理对标TensorRT·

图优化，算子融合，Kernel优化·量化、混合精度加速·异步下发，多流水执行模型推理：提供分层开放的推理引擎MindlE,

使能高效推理NEWO推理套件

MindIE-LLM框架推理

MindSpore对接NEWDMindIE-SDMindIE-Torch第三方推理服务Triton

backendSrd20Huawei

Proprietary-Restricted

DistributionMindIE-RT推理开发工具NEWO推理服务化CANNMindIE-ServiceMindIE-MS昇腾推理引擎MindIEMindIE-Server

MindIE-Client推理应用接口推理运行时算子加速库vLLM差异一：芯片架构差异导致算子实现不同例如，矩阵计算时，昇腾采用16

x16

分形，英伟达采用8x8

分形即使算子功能相同，在不同架构下算子实现方式可能不

同差异二：工具链差异导致迁移效率不同算子重开发、精度调试、性能调优的难度

体现在工具链的能力上昇腾

—

无

工

具

链

—

其他架构亟需精度对比工具：

GPU的推理精度在适配昇

腾训练的模型时，需要以昇腾训练的模型精度为标杆迁移工作量大：

建立工具链完成对昇腾的精度

对比和调优。差异三：基础能力差异导致支持完备度不同基础库、加速库、三方库等支持情况不同跨架构时需通过引入、适配第三方库，或者开

发基于自身架构的对等库来解决库的差异问题昇腾CUBE

计算单元结构

为16x16x16芯片架构差异迁移分析工具模型支持度分析和修改建议模型支持度评估离线模型

—

→

分析报告模型转换工具实现训推一体的模型转换一键式命令触发三方框架

昇腾处理器模型格式

模型格式图准备->图拆分->图优化->图编译精度比对、改图工具一站式调优工具，提升精度优化效率性能优化、快速推理工具一站式调优工具，提升性能优化效率GPUGraphNodesmaping-x.pklNPUGraphComparey.pk1精度结果MindStudio命

令

行MindStduioIDE数据解析Data

个用户APP数据采集OSAscend

NPU模型迁移：工具链进一步升级，提升GPU

到昇腾快速迁移能力GPU

训练->昇腾推理：提供MindStudio

一站式工具链，3~15人天可完成迁移，80%场景仅需3人天计算架构支持的主要基础库/加速库昇腾DVPP/AIPP/mxVision/ACLNN/ACLBlas等英伟达CodecSDK/CV-CUDA/cuDNN/cuBlas/DALI等GPUCUBE计算单元结构

为8x8x4(A100)21

Huawei

Proprietary-Restricted

DistributionHUAWEIGPT-3

参数：13B/100B

/175B已测试客户：YD、MY、ZJLLaMA-3

参数：7

B/13B/70B已测试客户：TYY、YD、BOSS、MY、360、MT、CA、HWY、CGCSYSGLM-3参数：6

B/10B/130B已测试客户：ZP、BJYH、YCCXJH

、MT

、LTYQwen-2

参数：7B/72B已

测

试

客

户

：DX、VIP100B业界7B业界13B业界70B业界6B业界7B业界72B业界1.00X1.00X1.05X0.83X1.04X0.83X0.87X100B业界7B业界13B业界70B业界6B业界7B业界1.23X1.01X0.91X1.13X1.21X0.9X昇腾已支持国内外开源开放大模型，实测性能持平业界国内唯一已完成训练干亿参数大模型的技术路线，业界主流大模型PyTorch

实测性能均达到0.8~1.1倍业界最新主流开源模型均已陆续适配并商用中Baichuan2|GLMV3|SiT|MixTral-8x7B|Stable

Diffusion|OpenSora|VideoGPT|Qwen-VL.

.21测试靖果总结nemH0sntho1tmsyon.ha*4716日v地和thum

ai7MindSpore+

昇腾

PyTorch+NV业界主流4款开源大模型PyTorch+昇腾

VSPyTorch+NV22HuaweiProprietary-RestrictedDistribution5

测试结果

51游试络果列s测试报告S场景核心技术A2DeepSeek适配LoRA微调CCLoRA支持25Q1支持Fused_MLP支持qLoRA微调CCLoRA支持Fused_MLP不支持长序列微调长序列CP方案支持核心技术H800A2FP8+20%~25%不支持无辅助负载均衡损失评分效果提升评分效果提升DualPipe计算通信比1:1->8:1,+8~12%计算通信比3:1->6:1,+4~6%跨节点All2AlI优化RMSNorm+MLA部分重计算省2~3G内存省2~3G内存微调算法目标性能部署建议LoRA微调1.1x业界8机Atlas800T

A2qLoRA微调1.1x业界4机Atlas800T

A2全参微调1.1x业界32机Atlas800T

A2DeepSeek模型A2适配情况DeepSeekV3已适配DeepSeek

R1已适配DeepSeekJanus-Pro已适配

DeepSeek

系列模型昇腾训练产品适配计划及微调部署建议支持DualPipe、

跨节点All2AlI等优化

支持CCLoRA、Fused_MLP

核心技术，提升微调训练吞吐性能DeepSeek

系列预训练完成昇腾适配，目标性能1.1x

NVDeepSeek

系列模型微调目标性能1.1x业界

(Q1)23Huawei

Proprietary-Restricted

DistributionDeepSeek

V3/DeepSeek

R1(671B)

“满血版”BF16

精度推理采用BF16

或FP16

数据格式进行推理，需要内存约为1340GB

需要采用Atlas800I/T

A2(8*64GB)4机并行X4Atlas800I

A2(8*64GB)最小配置为4机并行采用Atlas

800T

A2时亦需4机并行INT8

精度推理采用INT8

数据格式进行推理，需要内存<700GB,可2机并行X2Atlas800I

A2(8*64GB)最小配置为2机并行采用Atlas800T

A2时亦需2机并行模型硬件格式部署建议进展DeepSeekJanusPro1BAtlas800IA2BF16单卡部署，单机8实例已适配发布Atlas

3001DuoFP16单卡部署已适配发布A2/DuoINT8适配中适配中DeepSeekJanusPro7BAtlas800IA2BF16单卡部署，单机8实例已适配发布Atlas

300IDuoFP16单卡部署已适配发布A2/DuoINT8适配中适配中模型参数格式部署建议进展DeepSeek-

R1-Distill-Lama8BBF16/INT8<14B模型可采用Atlas300IDuo推理；

大于14B模型推荐Atlas800IA2推理：·

1.5B:Duo/A2单卡部署，开发板部署

·7~8B:Duo卡2卡并行，

A28卡并行，支持开发板部署·

14B:Duo卡2卡并行，

A28卡并行·32~70B:A28卡并行整体已适配发布Atlas8001A2BF16

/INT8推理已发布除70B模型外，其他模型Atlas

300IDuoFP16/INT870BBF16/INT8DeepSeek-

R1-Distill-Qwen1.5BBF16/INT87BBF16/INT814BBF16/INT832BBF16/INT8

DeepSeek

主干模型均已支持昇腾推理开箱，性能持续提升中关键性能优化特性MLA

架构：支持

W8A8

量化：支持EP

策略：支持

MTP

多token预测：PD

分离部署：待支持

待支持多模态模型DeepSeek

Janus

ProDeepSeek

R1蒸馏模型24

Huawei

Proprietary-Restricted

Distribution参数面用于智能集群分布式推理时参数交换，要求网络具备高吞吐低时延能力，部署高带宽的智能

无损RoCE网络，每台推理服务器8个200GE

ROCE光口样本面用于访问存储区的高速大带宽互联的存储系统，推荐部署为RoCE无损网络，每台推理服务器

2个25GE光口业务面用于系统业务调度和管理。通常部署为TCP/IP有损网络，每台推力卡服务器2个25GE光口带外管理Al服务器BMC管理，可选样本面(可选)

带外管理面

(BMC

管理可选)CE58824*GELeaf

CE9860[NFS访河分

级DPC

访问

9540存储区(可选)推理读流量Al

推理服务器

(Atlas800I

A2)99504台*8口*20DGDeepseek

V3/R1模型本地化部署组网方案训推平台(按需配置)xx台通用服务器业务面DeepSeek

R1/V3推理配置建议BF16

最

小

配

置4

台

计

算节点；INT8

最

小

配

置2

台

计

算节

点

；CE6865E8*25GE推理调度管理流量16*4006E一分二LeafCE9860*2台Spine

CE9860Leaf

CE6865E8*25GESpineCE9860*2台参数面25HuaweiProprietary-RestrictedDistribution_200G25GGE_400G100G10G400G

RoCE交

换

机图

例序号模型发布日期描述本地部署推理最低配置当前支持情况1DeepSeek-V32024.12.16MOE,671B4*Atlas800I

A2(8卡，64GB)/models/Mindl

E/deepseekv32DeepSeek-R12025.2.26MOE,660B4*Atlas800I

A2(8卡，64GB)/models/Mindl

E/deepseekR13DeepSeek-R1-Distill-Qwen-1.5B2025.1.20Qwen,1.5B1*310P或1*310B310P已支持，直接用mindIE可跑通，310B可支持4DeepSeek-R1-Distill-Qwen-7B2025.1.20Qwen,7B1*310P310P已支持，直接用mindIE可跑通5DeepSeek-R1-Distill-Qwen-14B2025.1.20Qwen,14B1

*310P(显存不小于48GB,量化

后显存不小于24G)310P已支持，直接用mindIE可跑通6DeepSeek-R1-Distill-Qwen-32B2025.1.20Qwen,32B2*310P(显存不小于96GB)推荐4*310P以上配置310P已支持，直接用mindIE可跑通7DeepSeek-R1-Distill-Llama-8B2025.1.20Llama,8B1*310P310P已支持，直接用mindIE可跑通8DeepSeek-R1-Distill-Llama-70B2025.1.20Llama,70B1*Atlas800I

A2(8卡，32GB)

或8*310P310P已支持，直接用mindIE可跑通9Janus-Pro

1B2025.1.28多模态，1B1*310P或1*310B/models/Mindl

E/Janus-Pro310B适配中10Janus-Pro

7B2025.1.28多模态，7B1*310P/models/Mindl

E/Janus-Pro

DeepSeek

系列模型昇腾

NPU

推理配置建议

快

速部署DeepSeek

模

型

模型资源获取推理环境调测推理模型部署推理模型测试推理资源评估集群连通测试模型权重转换性能测试推理设备选型推理镜像制作模型量化精度测试模型权重下载纯模型测试服务化启动服务化测试推理运行环境部署支持容器化部署镜像封装，提供容器命令加速框架

Deepspeed|Mindspeed|MindlEAl计算框架

PyTorch|TensorFlow|MindSpore异构计算架构CANN昇腾处理器已支持的DeepSeek

系列模型Al计算使能服务-DeepSeek部署支持：快速适配DeepSeek模型，支撑模型快速上线关键特性W8A8

量化|服务化部署|EP并行Al软

件

栈

多

且

复

杂

，客户不清楚模型组

件

安

装

依

赖

顺

序

，

模型分析工具链有

哪些，模型是否支

持容器化部署等模型运行版本配套复杂Python=3.xPyTorch=2.0CANN7.0.0,

依赖MindSpeedPython=3.xCANN6.0.RC3,依赖AclLite推荐昇腾最佳实践，快速复现DeepSeek

系列模型推理流程，加速客户应用上线。DeepSeek-R1-Distill-llamaDeepSeek-R1-Distill-qwenJanus-Pro物理机部署基于场景，提供开发环境部署方法DeepSeek-R1DeepSeek-V3DeepSeek-V2.527

Huawei

Proprietary-Restricted

DistributionModelAModelBCANNAAscend运行环境部署粤DeepSeek系列赋能赋能流程01

需求调研

方案制定

赋能实施·

调研客户工程师开发过程中

的痛点、难点·

明确客户当前能力缺位情况·

提供赋能内容·

提供昇腾样例·

昇腾模型/应用开发流程演示·De

人人文库> 全部分类> 行业资料 > 信息产业

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

昇腾DeepSeek解决方案

文档简介

温馨提示

最新文档

评论

昇腾DeepSeek解决方案

文档简介

温馨提示

最新文档

评论

相关文档