




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
把握DeepSeek
时刻,携手同行华为昇腾Al解决方案汇报2025年4月华为昇腾Al基础软硬件介绍1
DeepSeek
洞察及昇腾适配进展目录22HuaweiProprietary-RestrictedDistributionDeepSeek
是Al发展史上的一个关键里程碑,但远未达到Al终点训练资源·
随
着DeepSeek提供了一种高效率训练的方法,同等
算力规模可以探索更强的模型能力·在竞争背景下,头部玩家仍将追逐Scaling
Law,
坚定
Al算力的战略投资,加速探索下一代Al技术Al模型算法:DeepSeekAl框架:昇思、飞桨…异构计算架构:CANN…互联技术:灵
衢Al芯片:昇腾、寒武纪…AI模型算法:GPT、LLaMAAl框架:PY、TF异构计算架构:CUDA互联技术:NV
LinkAl
芯片:NV、AMDCV计算机视觉1998
LeNet首
个CNN
架构模型NLP自然语言处理2017谷歌发布首个
Transformer架构模型·DS
对强化学习的创新使用,可以让大模型便捷的获得
通用性+专用性,可以满足各应用场景需求·DS
对通过从模型结构到训推全流程的极致工程优化,
大幅提升Al的计算效率,提升模型落地经济性·
中
国Al公司首次以关键创新贡献者的身份加入到全球Al竞争中,冲击美国Al霸权·
打破NV+OpenAl
的资金、技术、人才的垄断,全球
重新思考中美技术路线的选择补齐最后一块自主创新的版图
真正形成中美两条Al技术路线泛化性和经济性大幅提升LLM进入"CV
Resnet时刻"DeepSeek-R1进一
步验证“算力即性能”Scaling
Law升级,模型能力=算力x
数
据x
思
考+逻辑推理DeepSeek-V3/R1OpenAl-01/03算力×数据x
思考算力x
数据2015
Resnet效率与成本双突破CV
全面普及2025DeepSeek
效率与成本双突破NLP
全面普及2012AlexNet
2023
ChatGPT模型能力突破
模型能力突破开启CV
时代
开启NLP时代重新定义Scaling
Law
延续智能涌现的方向国家战略清晰
双轮驱动互锁技术创新依赖资本投入
战略坚定+技术创新3
HuaweiProprietary-RestrictedDistribution下一代Al技术Mamba、空间智能等模型效巢技术创新硬件级、算法级、架构级、工程级、开
源生态5大技术创新,轰动全球·绕过GUDA
进行PTX
编程硬件级优化
·计算与通信优化,性能提升30%·GRPO:
群体进化的智慧筛选器算法革命
·
自我验证机制:Al的"错题本系统"·混合专家模型的"智能路由器"·
多头潜在注意力MLA:空间压缩术·训练框架加速:16到3的量化压缩,
通信降低89%·推理加速:预加载,动态批处理等·模型、数据、工具链、部署全开源·蒸馏技术使能第三方模型性能低成本绕
过CUDA
挖
掘FP8硬件潜力,
MOE
和MLA
技术实现不到10%的成本方案~150M$Llama3.1-405B训练成本DpVanan
aik性能优数学、科学和代码等领域领先业界,成为业界公认的LLM
的领先模型0DeepSeek
V3:
实现极致性能,稀疏MOE提质降本低成本完美对标OpenAI
O1,突破精确语义理解及复杂推理任务DeepSeek-V3
是一款MoE
模型,总参数量671B,激活参数量37B,采用2048张H800(节点内NVLink,节点间IB,非超节点架构)在14.8Ttoken数据集上基于自研
HAl-LLM
训练系统总计训练了1394h(
58.08
天)我是DeepSeek,
很高兴见到你!p幢,
*g,ancn
交编m.Thepset
酒
册Tae架构创新工程奇迹开源生态uawDeepSeek-R1
推理成本仅为OpenAl
o1的
3
%5.57M$DeepSeek-V3训
练成本来源:DeepSeek模型测试数据&互联网4
HuaweiProprietary-RestrictedDistribution
DeepSeek
R1:
在Reasoning
任务达到了世界水平
(OpenAl-01)>以2阶段SFT+2
阶段RL
完成,从而解决R1-Zero
可读性差、多种
语言混合问题>本次开源同时发布了6个基于DeepSeek-R1
蒸馏的更小稠密模型(Qwen/LLaMa
1.5B
7B
14B
32B
70B)Figure1|Benchmark
performance
ofDeepSeek-R1.DeepSeek-R1
以DeepSeek-V3
Base
(671B)
为基础模型,使用GRPO算法作为RL框架来提升Reasoning性能600x
Resoning
CaT
smples博
Qwen25-7B虚
0wn25-14BRISFT
R1
samplesRL
Rule-based
RM200k
Non-Reasoning
(GRPO)*Model-based
RM
O
Lm33-70BCoT
samples
Base
modeksThousandsofRL(GRPO)+RI-ColdstartSFTRule-based
RMAccury+languapeconsistency)RI-ColdstartRL厚Qwen25-15B→
权重关系→
数据流向★
发布模型V3-baseRL
Rule-based
RM(GRPO+(Acaury+formabR1-Zero800kCoT,
际
Owen25.32800
Llam3.1-8B*Depsck.R1-Disill
Qwen/LlamDeepSeek
-R1
技术路线Huawei
Proprietary-Restricted
Distribution:权重
初始化5具
体
实
现口只需存储图中的CKV,KF
即可;口考虑到矩阵乘法结合律,具体实现过程中WUK
可以与WUQ
融合、
wUV
可以与
W°融合,从而无需为每个query
计算key-value
值。o0ce
DumeiomouptQ00o,000ad
etSjne响
%OO:oourm?wor0ndn.0000-0000w"拥cenckmcrCWtmmCda
的位9编件9"cancat律DeepSeekV3模型架构:Multi-HeadLatent
Attention(MLA)Benchmark(Metric)#ShotsSmallMoESmallMoEw/MHA
w/MLALargeMoELargeMoEw/MHA
w/MLAActivatedParams2.5B
2.4B25.0B
21.5B#TotalParams15.8B
15.7B250.8B247.4BKV
Cache
per
Token(#Element)110.6K
15.6K860.2K
34.6KBBH(EM)
3-shot37.939.046.650.7MMLU(Ace.)
5-shot48.750.057.559.0C-Eval(Acc.)
5-shot51.650.957.959.2CMMLU(Acc.)
5-shot52.353.460.762.5Attention
MechanismKV
Cache
per
Token(#Element)Multi-Head
Attention(MHA)Grouped-Query
Attention(GQA)
Multi-Query
Attention(MQA)2nhdl2ngdhl2dhlMLA(Ours)
(de+df)L≈2dhL(bs,h)v(bs,h)
bsh
2bsh
ou=low
ankkeys(bs,h)
Keys压缩后宽度
h'
<隐藏层宽度
hValues1.
推理阶段,理论上可以将KV
Cache降低1~2个数量级,大幅减少HBM
存取和通信的开销。2.
对昇腾更亲和,大幅降低对HBM依赖,提升推理Decode
性能。实验结果>相比于MHA,MLA
每token的KV
Cache量大幅减少,且精度更高。>张量低秩压缩以降低KV
Cache资源开销:相比于传统MHA,MLA
通过降维
操作使得存储的张量维度大幅减小。(下图中仅红色阴影部分需要存储)>MLA
架构:1)分别对Query、Key-Value
pair进行低秩压缩;2)使用
RoPE
获得位置信息;3)使用MHA
计算得到输出。对
DeepSeekv3而商aryDR128cDALA可以将KV
Cache降低为
22=1.7%Multi-HeadAttentionMulti-Head
LatentAttention(bs,h)nput昇腾
影响MLA
架构脚
钟9QmmCw,o0w4n网中0- tshrp
Cross
Entropy
LossMTP
Module2Nettoienedkction)Output
HeadTransformerBlockTransformerBlockLinearProjectionTcorcatnotianRMSNorm
RMSNormEmbedinglarerhputTokens
t₂
t₂tt
t
t
t
4①
模
型
结
构·每个MTP模块共享嵌入层和输出头·每个MTP
模块独占一个TransformerBlock和一个投影矩阵·多个MTP模块串联保持完整的因果关系链②
训
练
策
略·
每
个MTP
模块输出预测token的概率分布·
每
个MTP
模块计算对应的交叉熵损失函数·多
个MTP
模块的损失函数加权平均得到最终训练目标③
关
键
作
用·提升每批训练数据的使用效率,强化训练信号·优化模型表达能力,提升next-token的预测效果·
可参考投机采样改造MTP模块,加速推理效率
MTP:Multi-TokenPrediction多token预测提升模型效果·MTP
模块仅在训练中使用,提升模型训练效果,推理阶段可以不使用MTP
模块,基础模型能够独立完成正常推理·
参考投机采样,MTP
模块也可以被重新配置用于speculative
decoding,加速解码过程,降低整体时延cm-Cstropucu-m-
台
2
4mFigure3|Ilustration
of
our
Multi-Token
Prediction(MTP)implementation.We
keep
the
complete
causal
chain
for
the
prediction
ofeach
tokenat
each
depth.Main
CrossEntropyLoss!MTP
Module1TooncatenutonRMSNormRMSNormEmbedding
LayerTransformerBlock×LEmbeddinglayerHuawei
Proprietary-Restricted
DistributionN
ti
o
z
ldicbon)reepdnosa(24)(25)关
键发
现NettokenPedschion)CrossEntropyLossUinearProjectionOutput
HeadOutputHeadTorget
Tokenmp7computaton
MLP(B)▲
MLPWA
MLPD△
ATINB)A
AITNWAATTNF△mmunieaon
DISPATCHF△
DISPATCH(B)▲DeviceDeviceDeviceDeviceDeviceDevice
DeviceDeviceTime0
0
1
2
3
4
5
6
10
1
0
1
2
3
4105
11
2
0
1
2
103
11
43
0
10
111
23
4
10
0
11
1
25
10
11
0
12
6
10
11
0
1
0
7
11
0
0
011300140
321△Forward
chunk▲Backwardchunke4|Overlappingstrategyfora
pair
of
individual
forward
and
backward
chunks
(thedariesofthetransformerblocksare
not
aligned).Orange
denotes
forward,green
denoteswardfor
input",bluedenotes"backward
forweights",purple
denotes
PP
communication,eddenotesbarriers.Bothall-to-all
and
PP
communication
can
be
fully
hidden.①细粒度的计算通信并行·将PPstage拆分为更细的模块,提升模块交替编排的灵活度·参考ZeroBubble,反向传递中的权重更新和梯度传递独立操作·经过细粒度的拆分和编排之后,计算流和通信流的barrier刚好可以重叠②双向管道调度减少PP
中的气泡·
1F1B中每个batch拆分为1个forward和1个backward·ZeroBubble
中把backward拆分为input和weight两个部分·DualPipe
中使用对称处理,不同batch
从不同的device
上开始流水③
每卡显存占用略微增大·双向管道训练,需要存两份参数来进行训练
(Parameter2x)·
模型总参数量671B,每个卡上4个routed
expert对应26.8B,同
时
考虑到PP-16和FP8量化,每个卡上显存占用为1.675GBDenio01Dowoe1Devce2Dwwce
3Dwwce4Dowce6DowcoDevioe
7Tm
cw
□wud
ovetapped
forwardLBackwardFigure
5|Example
DualPipe
scheduling
for8
PP
ranks
and
20
micro-batches
in
two
directions.
The
micro-batches
in
the
reverse
direction
are
symmetric
to
those
in
the
forward
direction,so
we
omittheirbatch
IDforillustrationsimplicity.Two
cells
enclosedbya
sharedblackborder
have
mutually
overlapped
computation
and
communication.
DualPipe:双流并行优化计算和通信,
All-to-AlI通信开销接近0MethodBubbleParameterActivation1F1B(PP-1)(F+B)1×PPZB1PDualPipe
(Ours)1×2×PPPP+1参考DualPipe
技术,基于MindSpeed
训练加速框架以及昇腾硬件特性,针对
性地设计高效率流水并行技术,提升整体训练性能8
Huawei
Proprietary-Restricted
DistributionFigurboun
back
and
rCOMBINE(F△
PP
COMBINE(B)▲关键
启示
DeepSeek
通过从模型结构到训推全流程的优化,带来大模型新范式DeepSeek
V3/R1,大幅提升从训练到推理的计算效率,降低模型创新及应用落地的门槛推理优化单次推理效率倍级提升Token
预测1次1token预测1次多Token
预测一次预测多个token推理倍级提升后训练优化
降低学习复杂度强化学习需要裁判模型评估新老策略组队评估简化强化学习流程降低后训练复杂度业界LLM
大模型DeepSeek核心收益效果模型结构优化以计算换内存、降通信,空间时间双优化Attention
MOE计算通信优化降低计算,极致的掩盖,同时保证训练精度PP并行算法1前1后单流水计算量减少35%平衡训练效率与数值精度训练精度FP16/BF16压缩KVCache降低内存90%支持更高并发计算与通信极致掩盖减少50%PP
气泡模型容量提升3倍计算量减少70%MLA低秩压缩减少缓存DeepSeekMoE
更稀疏256选8+1MHA/GQA分组共享减少缓存FP8混合精度
双向流水并行9
Huawei
Proprietary-Restricted
DistributionGPT416专家选2训练算力需求
(PFLOPS)Groq4Hunyuan极致
性
能、稳
定
可
靠
的Al集
群深
度开
放
的
平台
和
生
态·②
工
程
创
新新一轮百模千态GPT-3/3.5175B
●
GLM-130B注
便
捷、易
用、
性
价比
的
平
台DeepSeek-R1-Distill-Qwen-32B开
箱即
用的
强
化
学习
套
件GBERT-LargeGTransformerAlexNet大模型从技术摸高走向技术摸高+工程创新并行,训练需求持续增长①
技
术
摸
高
:头
部
玩
家
将
战
略
坚
定
投
入
预
训
练
基
础
模
型
创
新,
丰富
模
型
组
合,
追
逐ScalingLaw,加
速
探
索AGI②
工
程
创
新
:
新的
范
式
降
低
后
训
练
和
蒸
馏门
槛,
模
型
效
果
大
幅
提
升,出
现
平
权
现
象,引
发
新
一
波的
“
百
模
干
态
”201220132014
201520162017201820192020202120222023202420252026训练的算力需求将持续增长,算力结构从“预训练为主”走向“预训练+后训练/二次训练”①技
术
摸
高
关
注
高
效
、
稳
定
、
开
放
的
底
座
新一轮技术竞争兼
顾
成
本
与
性
能的
蒸
馏
/
微
调
方
案便
捷的
部
署、敏
捷
业
务
上
线DeepSeek-R1-Distill-Qwen-1.5B(蒸馏后较原模型能力提升10%+)GPalM(540B)
Megatron-TuningNLG530B10Huawei
Proprietary-Restricted
DistributionGPT-4/40Claude2Llama3-70BBaichuan2-138GGemini2.0
GGemini
Ultra极
致的
端
到
端
性能
效
率
优
化关·
·
·DeepSeek-R1-671BDeepSeek-V3-671BGPT-5Doubao2.0oUama4··开箱即用的一体机,加速大模型应用落地教
育
医
疗云
服
务
硬件+社区钉钉一体机电信息壤一体机昇腾社区新致金融一体机同花顺一体机京东云诸多厂家推出一体化方
外提伊务/自用硬
件
+
开
源
模
型
+RL
套
件
+ISV/
云
,
商
业
模
式
逐
渐
成
熟AS
IS大量行业数据..监督微调SFT行业大模型TO
BE基
础
模
型(DeepSeek/
少量行业数据监督微调SFT更多行业高质量数据生成行业大模型模型蒸馏-模型小型化DeepSeek
能力提升成为各行业生产力工具,加速推理落地干行百业DeepSeek
催熟大模型落地技术,降低推理部署门槛华为云移动云电信天翼云联通云NVIDIAHuggingFaceGitHub……腾讯云阿里云亚马逊AWS微软Azure部署更高效月级调优
→
周/天级优化数
据
依
赖
降
低高质量数据
→
生成数据算
法
依
赖
降
低高端人才
→
开源+蒸馏11Huawei
Proprietary-Restricted
Distribution主流云服务商已支持DS
覆盖公/私有云部署主流算力、主流社区
均已支持DeepSeek电力
油
气
制造基础模型Llama
、Qwen、一体机魔乐社区强化学习Llama/Qwen/)昇腾模型服务商潞晨科技已上线硅基流动已上线清昴已上线讯飞测试中运营商电信天翼云已上线联通云已上线移动云已上线南京、福建、浙江移动已上线上海、江苏电信已上线国计民生行业龙岗区政府已上线北京银行已上线广大证券已上线北京、南京、西安、武汉、苏州、无锡等公共服务平台已上线招行测试中工行测试中太保测试中模型名称Atlas
300I
DuoAtlas
8001
A2DeepSeekV3√DeepSeek
R1√DeepSeek
Janus-Pro-1B/7B√√DeepSeek
R1-Distill-Llama-70B√DeepSeek
R1-Distill-Qwen-32B√DeepSeek
R1-Distill-Llama-8BDeepSeek
R1-Distill-Qwen-1.5B/7B/14B√√DeepSeek
模型发布即支持昇腾推理,各行业已基于昇腾快速上线e2aDeepSoek-V3(C配套版本上线昇腾社区:/software/modelzo
o/models/detail/678bdeb4e1a64c9dae51d353d84ddd1512
Huawei
Proprietary-Restricted
Distribution最新DeepSeek
V3/R1/Janus-Pro及6个蒸馏模型
基于昇腾开箱即用,配套版本已上线各大开源社区DeepSeek
发
布
两
周
,3
大
社
区全系列模型上线40+客户/伙伴基于昇腾已上线,
15+测
试
中
(
预计两周内全部上线)配套版本上线魔乐社区:/models/MindlIE/deeps
eekv3口DeepSeek-R1hapMa
.Mnde/Deplesn模型参数:14B/32BDeepSeek-R1-Distll-Qwen-32BDeepSeek-R1-Distill-Qwen-14B模型参数:7B/8B/14BDeepSeek-R1-Distill-Qwen-14BDeepSeek-R1-Distill-Llama-8BDeepSeek-R1-Distill-Qwen-7B模型参数:1.5BDeepSeek-R1-Distill-Qwen-1.5BAtlas8001A2(256GB)Atlas
300I
Duo
Atlas
300V13
Huawei
Proprietary-Restricted
Distribution
HUAWEI编程辅助智能客服个性化学习辅导创意写作个人知识管理个人文档分析编程辅助开发板
边
端
设
备Atlas8001A2(1024GB)Atlas8001A2(512GB)体机:大吞吐+高并发,加速行业模型落地昇腾DeepSeek—系统吞吐4940Token/s@32B7500Token/s@14B珑京科技系统吞吐1911Token/s移动、电信一体
机
制造模型参数:671B+
满血版DeepSeek
V3/R1系统吞吐3300
Token/s珑京科技Al编
程智能对话金融研报文本创作营销文案内容检测系统吞吐432
Token/s珑京科技730Token/s@14B956Token/s@8B956Token/s@7B珑京科技并发路数247路
@
3
2B300路@14B思腾合力模型参数:70BDeepSeek-R1-Distll-Lama-70B并发路数80路@14B115路
@
8B115
路
@
7B思腾合力并发路数16路思瑞合力并发路数165路思腾合力
电力
政务
并发路数192路教育油气金融交通潞
晨
科
技系统吞吐模型集合模
型
名
称参数计
算
精
度产品配置系统吞吐token/s并发用户数DeepSeek-V3DeepSeek
V3671BINT8Atlas800I
A21024GB1911192DeepSeek-R1DeepSeek-R1671BINT8Atlas800I
A21024GB1911192DeepSeek-R1蒸馏模型DeepSeek-R1-Distill-Llama-70B70BINT8Atlas800I
A2512GB3300165DeepSeek-R1-Distill-Qwen-32B32BINT8Atlas800I
A2256GB4940247DeepSeek-R1-Distill-Qwen-14B14BINT8Atlas800I
A2256GB7500300Atlas
300I
Duo1*Duo
96GB
PCIE73080DeepSeek-R1-Distill-Llama-8B8BINT8Atlas
300I
Duo1*Duo
96GB
PCIE956115DeepSeek-R1-Dstill-Qwen-7B7BINT8Atlas
300I
Duo1*Duo
96GB
PCIE956115DeepSeek-R1-Distill-Qwen-1.5B1.5BINT8Atlas
300V1*300V
24GB
PCIE43216
DeepSeek
V3/R1及蒸馏模型,昇腾DeepSeek—
体机推荐配置14HuaweiProprietary-Restricted
DistributionDeepSeek
洞察及昇腾适配进展华为昇腾Al基础软硬件介绍CoNTENTS目录15HuaweiProprietary-RestrictedDistribution21ModelArts
应用使能训练平台/推理引擎/模型套件/SDKAl计算框架昇思MindSporePyTorch/TensorFlow/Caffe
…
…异构计算架构CANNAtlas及昇腾伙伴系列硬件模组/小站/加速卡/服务器/集群昇腾处理器昇腾310系列/昇腾910系列
…昇
思
MnaaCANNAscend昇腾AI基础软硬件架构全面创新,使能行业场景化应用行业场景化应用
视图分析、检索聚类、搜索推荐、自然语言处理、智能语音、自动驾驶
…
…
应用使能应用使能套件/SDKAl计算框架PyTorch/TensorFlow/Caffe
…
.异构计算架构CUDANV
系列硬件模组/加速卡/服务器/-->集群NV处理器Ampere系列/Hopper
系列…nVIDIA.
CUDANVIDIA
.英
伟
达
Al
基
础
软
硬
件
架
构昇
腾
Al
基
础
软
硬
件
架
构16HuaweiProprietary-RestrictedDistribution[M]TensorRTplugins&parserNV
NCCLNV
CUTLASSNV
CUDA-CNV
cuDNNGraph
Engine图引擎HCCLAscendC高阶APIAscend
C低级APIAscend
aclNNMT
、KS自定义图融合PatternTX
、MThash
算法自定义调优XF自定义切分策略KS自定义算子开发XF结合场景差异优化深度开放CANN,
一套架构使能昇腾原生开发加速库
Megatron
DeepSpeed
AscendSpeed…AI框架
昇
思MindSpore
PyTorch
TensorFlow
…GE图引擎开放图编译、图优化、图执行,支持自定义图触合,提升整网性能计算架构CANN深度开放,使能高效灵活开发,匹配开发者使用习惯HCCL
集合通信库开放通信算子、平台接口,支持自定义通信算法,提升网络通信效率Ascend
C编程语言开放130+底层API、60+高层API,支持高性能自定义融合算子开发算
子
加
速
库放1600+基础算子接口、30+融合算子接口,简化开发复杂度,提升开发效率毕昇编译器|Runtime
运行时开放硬件资源接口,满足开发者对模型开发、系统优化、三方生态对接等各场景需求Huawei
Proprietary-Restricted
DistributionGE
图引擎集合通信库类库/模板通用编程算子加速库对位NV
CUDA,
匹配开发使用习惯昇腾硬件使能CANNCANNKS直接发起Kernel
LaunchNVIDIA.CUDAAscendRuntime运行时NV
Runtime17模型训练:算网/算存深度协同是大模型分布式并行训练的基础大模型技术发展方向干亿稠密/万亿稀疏
超长序列
多模态更大规模/更复杂的组网
更复杂的模型及数据切分
更大(模
参据数量、Ch
…读)
写eckPoint存储和⑥
NPUPCPU
从Mind-omacXPT
据
MindlO(MindX
的IO相件)MindIO
从DPC存
加CKPT
数
斑DPC(存储分布式客户锅)CXPT
参数(
细
存
)面故蹄恢复时,首次
加载CKPT
数脏到计牌
节点DPC
蛋存区存储节点存
储
设
备3、AI任务信息任务、通值域1、控制器获取网络拓扑,下发路径信息同莫
只2
,
AI任务调度…………算网协同·
网络级负载均衡:独
家NSLB
算法
,算网协同
调度,多任务节点非连续组网情况下,通信带宽
提升20%、模型性能提升7%算存协同·极致读写性能:
CKPT
等算存读写协同优化、
PB
级存取+TB级带宽,数据读取效率提升50%大规模组网·
超
大
组
网
规
模
:2层1:1无收敛的AI网络架构,最大支持128
K集群规模组网,千卡到万卡平滑演进以全部通信关系和拓扑信息作为输入通过算法计算出最优结果,实现Al参数面全网负载均衡18
Huawei
Proprietary-Restricted
Distribution支持2级框盒、框框组网,适用于大规模及超大规模集群故障饮复时,个NPU均需教政cxpTo数
数
瓣(
始
)
T优化前方案优化后方案计算
节点4、动态路径调整Al调度平台网络控制器NPU/CPU算
子
深
度
融
合“工序合并”减少计算数据搬入搬出的时间及内存开销计算与通信融合计算数据细粒度切分,减少计算与通信相互等待计算加速忽略无效计算,减少计算量和内存量低
阶
二
进
制
算
子
库Asce计算通信计算1计算2计算3计算4…通信1通信2通信3通信4自适应选择性重计算、内存碎片优化、算子库CANNndC编程语言+Runtime开MultiheadAttention中常见模型的mask上
三角区域均接近于0.高阶融合算子库放接口模型训练:应用使能软件加持,
MFU
领先、线性度持平NV模型训练最优=
单机执行最优+集群并行最优
+中断时间最短网络局部计算选路Hash冲突导致有效吞吐不足50%控制器全局集中算路_自动生成路径并动态下发网络网络控制器获取网络拓扑
下发路径硬件层算网协同
提升有效吞吐NLSB网络级负载均衡实现网络
动态路由,有效吞吐达98%模型算力利用率
(
MFU)
45%+模型通信与计算优化,单机执行最优软件层分布式并行充分调度算力资源提供分布式加速库,内置主流加速算法,满足各类模型加速场景超大集群线性度
90%+分布式并行+算网协同,集群并行最优数据并行、流水并行层内通信并行L
层L2层
L层19HuaweiProprietary-Restricted
Distribution[M]
昇思OPyTorch模型并行场景/应用测试模型测试结果对话搜索DB-200B0.94x
A800客服、文生图场景;
金融助手SDXL3.48~3.63x
A10Llama2-7B1.41~2.72x
A10Llama2-13B1.44~2.19xA10电商ChatGLM2-6B1.86x
A30Baichuan2-13B1.82xA30Qwen-14B1.81xA30ZN大模型智脑13B1.7x
A30图像识别、OCR文
字识别和视频处理Llama2-70B1.7x
L20智慧教育、办公问
答星火-65Bx800T
A2交互搜索,金融客服问答step1V-130B多模态2.0x
L20对标Triton+TMS/vLLM·业界标准RPC
接口高效对接业务层·模型管理,集群管理,devops·支持多实例并发对标TensorRT-LLM·支持社区模型快速迁移·
自回归解码、扩散过程优化·稀疏量化压缩、并行推理支
持PyTorch/
昇
思·少量代码实现训练向推理平滑迁移·整图/子图优化+单算子混合推理对标TensorRT·
图优化,算子融合,Kernel优化·量化、混合精度加速·异步下发,多流水执行模型推理:提供分层开放的推理引擎MindlE,
使能高效推理NEWO推理套件
MindIE-LLM框架推理
MindSpore对接NEWDMindIE-SDMindIE-Torch第三方推理服务Triton
backendSrd20Huawei
Proprietary-Restricted
DistributionMindIE-RT推理开发工具NEWO推理服务化CANNMindIE-ServiceMindIE-MS昇腾推理引擎MindIEMindIE-Server
MindIE-Client推理应用接口推理运行时算子加速库vLLM差异一:芯片架构差异导致算子实现不同例如,矩阵计算时,昇腾采用16
x16
分形,英伟达采用8x8
分形即使算子功能相同,在不同架构下算子实现方式可能不
同差异二:工具链差异导致迁移效率不同算子重开发、精度调试、性能调优的难度
体现在工具链的能力上昇腾
—
无
工
具
链
—
其他架构亟需精度对比工具:
GPU的推理精度在适配昇
腾训练的模型时,需要以昇腾训练的模型精度为标杆迁移工作量大:
建立工具链完成对昇腾的精度
对比和调优。差异三:基础能力差异导致支持完备度不同基础库、加速库、三方库等支持情况不同跨架构时需通过引入、适配第三方库,或者开
发基于自身架构的对等库来解决库的差异问题昇腾CUBE
计算单元结构
为16x16x16芯片架构差异迁移分析工具模型支持度分析和修改建议模型支持度评估离线模型
—
→
分析报告模型转换工具实现训推一体的模型转换一键式命令触发三方框架
昇腾处理器模型格式
模型格式图准备->图拆分->图优化->图编译精度比对、改图工具一站式调优工具,提升精度优化效率性能优化、快速推理工具一站式调优工具,提升性能优化效率GPUGraphNodesmaping-x.pklNPUGraphComparey.pk1精度结果MindStudio命
令
行MindStduioIDE数据解析Data
个用户APP数据采集OSAscend
NPU模型迁移:工具链进一步升级,提升GPU
到昇腾快速迁移能力GPU
训练->昇腾推理:提供MindStudio
一站式工具链,3~15人天可完成迁移,80%场景仅需3人天计算架构支持的主要基础库/加速库昇腾DVPP/AIPP/mxVision/ACLNN/ACLBlas等英伟达CodecSDK/CV-CUDA/cuDNN/cuBlas/DALI等GPUCUBE计算单元结构
为8x8x4(A100)21
Huawei
Proprietary-Restricted
DistributionHUAWEIGPT-3
参数:13B/100B
/175B已测试客户:YD、MY、ZJLLaMA-3
参数:7
B/13B/70B已测试客户:TYY、YD、BOSS、MY、360、MT、CA、HWY、CGCSYSGLM-3参数:6
B/10B/130B已测试客户:ZP、BJYH、YCCXJH
、MT
、LTYQwen-2
参数:7B/72B已
测
试
客
户
:DX、VIP100B业界7B业界13B业界70B业界6B业界7B业界72B业界1.00X1.00X1.05X0.83X1.04X0.83X0.87X100B业界7B业界13B业界70B业界6B业界7B业界1.23X1.01X0.91X1.13X1.21X0.9X昇腾已支持国内外开源开放大模型,实测性能持平业界国内唯一已完成训练干亿参数大模型的技术路线,业界主流大模型PyTorch
实测性能均达到0.8~1.1倍业界最新主流开源模型均已陆续适配并商用中Baichuan2|GLMV3|SiT|MixTral-8x7B|Stable
Diffusion|OpenSora|VideoGPT|Qwen-VL.
.21测试靖果总结nemH0sntho1tmsyon.ha*4716日v地和thum
ai7MindSpore+
昇腾
PyTorch+NV业界主流4款开源大模型PyTorch+昇腾
VSPyTorch+NV22HuaweiProprietary-RestrictedDistribution5
测试结果
51游试络果列s测试报告S场景核心技术A2DeepSeek适配LoRA微调CCLoRA支持25Q1支持Fused_MLP支持qLoRA微调CCLoRA支持Fused_MLP不支持长序列微调长序列CP方案支持核心技术H800A2FP8+20%~25%不支持无辅助负载均衡损失评分效果提升评分效果提升DualPipe计算通信比1:1->8:1,+8~12%计算通信比3:1->6:1,+4~6%跨节点All2AlI优化RMSNorm+MLA部分重计算省2~3G内存省2~3G内存微调算法目标性能部署建议LoRA微调1.1x业界8机Atlas800T
A2qLoRA微调1.1x业界4机Atlas800T
A2全参微调1.1x业界32机Atlas800T
A2DeepSeek模型A2适配情况DeepSeekV3已适配DeepSeek
R1已适配DeepSeekJanus-Pro已适配
DeepSeek
系列模型昇腾训练产品适配计划及微调部署建议支持DualPipe、
跨节点All2AlI等优化
支持CCLoRA、Fused_MLP
核心技术,提升微调训练吞吐性能DeepSeek
系列预训练完成昇腾适配,目标性能1.1x
NVDeepSeek
系列模型微调目标性能1.1x业界
(Q1)23Huawei
Proprietary-Restricted
DistributionDeepSeek
V3/DeepSeek
R1(671B)
“满血版”BF16
精度推理采用BF16
或FP16
数据格式进行推理,需要内存约为1340GB
需要采用Atlas800I/T
A2(8*64GB)4机并行X4Atlas800I
A2(8*64GB)最小配置为4机并行采用Atlas
800T
A2时亦需4机并行INT8
精度推理采用INT8
数据格式进行推理,需要内存<700GB,可2机并行X2Atlas800I
A2(8*64GB)最小配置为2机并行采用Atlas800T
A2时亦需2机并行模型硬件格式部署建议进展DeepSeekJanusPro1BAtlas800IA2BF16单卡部署,单机8实例已适配发布Atlas
3001DuoFP16单卡部署已适配发布A2/DuoINT8适配中适配中DeepSeekJanusPro7BAtlas800IA2BF16单卡部署,单机8实例已适配发布Atlas
300IDuoFP16单卡部署已适配发布A2/DuoINT8适配中适配中模型参数格式部署建议进展DeepSeek-
R1-Distill-Lama8BBF16/INT8<14B模型可采用Atlas300IDuo推理;
大于14B模型推荐Atlas800IA2推理:·
1.5B:Duo/A2单卡部署,开发板部署
·7~8B:Duo卡2卡并行,
A28卡并行,支持开发板部署·
14B:Duo卡2卡并行,
A28卡并行·32~70B:A28卡并行整体已适配发布Atlas8001A2BF16
/INT8推理已发布除70B模型外,其他模型Atlas
300IDuoFP16/INT870BBF16/INT8DeepSeek-
R1-Distill-Qwen1.5BBF16/INT87BBF16/INT814BBF16/INT832BBF16/INT8
DeepSeek
主干模型均已支持昇腾推理开箱,性能持续提升中关键性能优化特性MLA
架构:支持
W8A8
量化:支持EP
策略:支持
MTP
多token预测:PD
分离部署:待支持
待支持多模态模型DeepSeek
Janus
ProDeepSeek
R1蒸馏模型24
Huawei
Proprietary-Restricted
Distribution参数面用于智能集群分布式推理时参数交换,要求网络具备高吞吐低时延能力,部署高带宽的智能
无损RoCE网络,每台推理服务器8个200GE
ROCE光口样本面用于访问存储区的高速大带宽互联的存储系统,推荐部署为RoCE无损网络,每台推理服务器
2个25GE光口业务面用于系统业务调度和管理。通常部署为TCP/IP有损网络,每台推力卡服务器2个25GE光口带外管理Al服务器BMC管理,可选样本面(可选)
带外管理面
(BMC
管理可选)CE58824*GELeaf
CE9860[NFS访河分
级DPC
访问
9540存储区(可选)推理读流量Al
推理服务器
(Atlas800I
A2)99504台*8口*20DGDeepseek
V3/R1模型本地化部署组网方案训推平台(按需配置)xx台通用服务器业务面DeepSeek
R1/V3推理配置建议BF16
最
小
配
置4
台
计
算节点;INT8
最
小
配
置2
台
计
算节
点
;CE6865E8*25GE推理调度管理流量16*4006E一分二LeafCE9860*2台Spine
CE9860Leaf
CE6865E8*25GESpineCE9860*2台参数面25HuaweiProprietary-RestrictedDistribution_200G25GGE_400G100G10G400G
RoCE交
换
机图
例序号模型发布日期描述本地部署推理最低配置当前支持情况1DeepSeek-V32024.12.16MOE,671B4*Atlas800I
A2(8卡,64GB)/models/Mindl
E/deepseekv32DeepSeek-R12025.2.26MOE,660B4*Atlas800I
A2(8卡,64GB)/models/Mindl
E/deepseekR13DeepSeek-R1-Distill-Qwen-1.5B2025.1.20Qwen,1.5B1*310P或1*310B310P已支持,直接用mindIE可跑通,310B可支持4DeepSeek-R1-Distill-Qwen-7B2025.1.20Qwen,7B1*310P310P已支持,直接用mindIE可跑通5DeepSeek-R1-Distill-Qwen-14B2025.1.20Qwen,14B1
*310P(显存不小于48GB,量化
后显存不小于24G)310P已支持,直接用mindIE可跑通6DeepSeek-R1-Distill-Qwen-32B2025.1.20Qwen,32B2*310P(显存不小于96GB)推荐4*310P以上配置310P已支持,直接用mindIE可跑通7DeepSeek-R1-Distill-Llama-8B2025.1.20Llama,8B1*310P310P已支持,直接用mindIE可跑通8DeepSeek-R1-Distill-Llama-70B2025.1.20Llama,70B1*Atlas800I
A2(8卡,32GB)
或8*310P310P已支持,直接用mindIE可跑通9Janus-Pro
1B2025.1.28多模态,1B1*310P或1*310B/models/Mindl
E/Janus-Pro310B适配中10Janus-Pro
7B2025.1.28多模态,7B1*310P/models/Mindl
E/Janus-Pro
DeepSeek
系列模型昇腾
NPU
推理配置建议
快
速部署DeepSeek
模
型
模型资源获取推理环境调测推理模型部署推理模型测试推理资源评估集群连通测试模型权重转换性能测试推理设备选型推理镜像制作模型量化精度测试模型权重下载纯模型测试服务化启动服务化测试推理运行环境部署支持容器化部署镜像封装,提供容器命令加速框架
Deepspeed|Mindspeed|MindlEAl计算框架
PyTorch|TensorFlow|MindSpore异构计算架构CANN昇腾处理器已支持的DeepSeek
系列模型Al计算使能服务-DeepSeek部署支持:快速适配DeepSeek模型,支撑模型快速上线关键特性W8A8
量化|服务化部署|EP并行Al软
件
栈
多
且
复
杂
,客户不清楚模型组
件
安
装
依
赖
顺
序
,
模型分析工具链有
哪些,模型是否支
持容器化部署等模型运行版本配套复杂Python=3.xPyTorch=2.0CANN7.0.0,
依赖MindSpeedPython=3.xCANN6.0.RC3,依赖AclLite推荐昇腾最佳实践,快速复现DeepSeek
系列模型推理流程,加速客户应用上线。DeepSeek-R1-Distill-llamaDeepSeek-R1-Distill-qwenJanus-Pro物理机部署基于场景,提供开发环境部署方法DeepSeek-R1DeepSeek-V3DeepSeek-V2.527
Huawei
Proprietary-Restricted
DistributionModelAModelBCANNAAscend运行环境部署粤DeepSeek系列赋能赋能流程01
需求调研
方案制定
赋能实施·
调研客户工程师开发过程中
的痛点、难点·
明确客户当前能力缺位情况·
提供赋能内容·
提供昇腾样例·
昇腾模型/应用开发流程演示·De
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 老年精神病的护理
- 家装工程协议模板
- 花店饮品蛋糕创业计划
- 旅行社油漆翻新合同范本
- 绿色DIY蛋糕创业计划书
- 政府采购合同范本指南
- 2024洛阳市第一职业中等专业学校工作人员招聘考试及答案
- 2024甘南县职业教育中心学校工作人员招聘考试及答案
- 2024沧州渤海中等专业学校工作人员招聘考试及答案
- 公园绿化石材供应合同
- 中国矿业大学《自然辩证法》2022-2023学年期末试卷
- 常见皮肤病患儿的护理(儿科护理课件)
- Lesson 8 FirstSecondThird(教学设计)-2023-2024学年冀教版(三起)英语四年级下册
- 辽宁省部分高中2023-2024学年高一下学期4月月考化学试题【含答案解析】
- 国企集团公司各岗位廉洁风险点防控表格(廉政)范本
- 邢台2024年河北邢台学院高层次人才引进30人笔试历年典型考题及考点附答案解析
- 圆锥角膜的护理查房
- 2024届湖南省高三质量调研物理试卷(三)(解析版)
- ISO28000:2022供应链安全管理体系
- 泌尿外科静脉血栓栓塞症的风险评估与预防
- 2024年K12课外辅导市场洞察报告
评论
0/150
提交评论