




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
华为昇腾
AI
解决方案把握DeepSeek时刻,携手同行华为昇腾AI基础软硬件介绍DeepSeek
洞察及昇腾适配进展○ozEnis212Huawei
Proprietary-Restricted
DistributionNLP自然语言处理2017谷歌发布首个
Transformer架
构
模
型2012
AlexNet模型能力突破开
启CV
时
代2015
Resnet效率与成本双突破CV全面普及·
DS
对强化学习的创新使用,可以让大模型便捷的获得
通用性+专用性,可以满足各应用场景需求·
DS对通过从模型结构到训推全流程的极致工程优化,
大幅提升AI的计算效率,提升模型落地经济性
DeepSeek
是A
发展史上的一个关键里程碑,但远未达到AI终点训练资源·随
着DeepSeek
提供了
一
种高效率训练的方法,同等
算力规模可以探索更强的模型能力·
在竞争背景下,头部玩家仍将追逐Scaling
Law,坚
定
AI算力的战略投资,加速探索下
一
代AI技
术3
Huawei
Proprietary-Restricted
Distribution重新定义Scaling
Law延续智能涌现的方向DeepSeek-R1
进一步验证“算力即性能”Scaling
Law升级,模型能力=算力x
数据x
思考AI
模型算法:GPT、LLaMA
AI
框架:PY、TF异构计算架构:CUDA互联技术:NV
LinkA
芯
片
:NV、AMD双轮驱动互锁战略坚定+技术创新AI模型算法:DeepSeekAI框架:昇思、飞桨…异构计算架构:CANN.…互联技术:灵衢AI芯片:昇腾、寒武纪.…·
中国Al公司首次以关键创新贡献者的身份加入到全球
AI竞争中,冲击美国AI霸
权·打破NV+OpenAI
的资金、技术、人才的垄断,全球
重新思考中美技术路线的选择泛化性和经济性大幅提升LLM
进
入
"CVResnet时刻"补齐最后一块自主创新的版图
真正形成中美两条AI技术路线下一代AI技术Mamba、
空间智能等算力x
数据x
思考算力x数据CV计算机视觉1998
LeNet首个CNN
架构模型2025
DeepSeek
效率与成本双突破NLP
全面普及2023
ChatGPT
模型能力突破开启NLP
时
代国家战略清晰技术创新依赖资本投入+逻辑推理DeepSeek-V3/R1OpenAI-01/03模型效果低成本绕过CUDA
挖掘FP8硬件潜力,MOE
和MLA
技术实现不到10%的成本方案~150M$Llama3.1-405B训练成本硬件级优化算法革命架构创新工程奇迹开源生态绕过GUDA进行PTX编程计算与通信优化,性能提升30%GRPO:群体进化的智慧筛选器自我验证机制:AI的"错题本系统"混合专家模型的"智能路由器“
多头潜在注意力MLA:空间压缩术训练框架加速:16到3的量化压缩,
通信降低89%推理加速:预加载,动态批处理等 DeepSeek
V3:实现极致性能,稀疏MOE提质降本低成本完美对标OpenAI
O1,突破精确语义理解及复杂推理任务DeepSeek-V3
是一款MoE模型,总参数量671B,激活参数量37B,
采用2048张H800
(节点内NVLink,节点间IB,
非超节点架构)在14.8Ttoken数据集上基于自
研HAI-LLM
训练系统总计训练了1394h(58.08天
)技术创新硬件级、算法级、架构级、工程级、开
源生态5大技术创新,轰动全球DeepSeek-R1
推理成本仅为OpenAIo1
的
3
%4
HuaweiProprietary-Restricted
Distributionhingst
连能
*
ne
我
足DeepSeek,
很高兴见到你!
aoo
味5.57M$DeepSeek-V3训
练成本来源:DeepSeek模型测试数据&互联网(Qwen/LLaMa
1.5B7B
14B
32B70B)5
Huawei
Proprietary-Restricted
Distribution
HUAWEI
DeepSeek
R1:
在Reasoning
任务达到了世界水平(OpenAI-o1)Figure1|Benchmark
performance
ofDeepSeek-R1.DeepSeek-R1
以DeepSeek-V3
Base(671B)为基础模型,使用GRPO
算法作为RL
框架来提升Reasoning
性能以2阶段SFT+2
阶段RL
完成,从而解决R1-Zero
可读性差、多种
语言混合问题本次开源同时发布了6个基于DeepSeek-R1
蒸馏的更小稠密模型RI-ColdstartRLRasoing
ofanpe★陟Qw25158
0wm25.7BQm25148800cot,匿Qwen25328]ampleThouandsolCofsamplesRI-ColdstartSFT600RISFT200kNon-ReasoningCoT
samples
Rue-bsedRM{GRPO)+Model-basedRM0
Lhms3188OLhm33-708
Basemodeks→权重关系
一数据流向★
发布模型V3-baseRL
RilebasedRMGRPO⁺(Acaury+Format)R1-Zero+(Accur
l
g-
sstency)ge
conedRMasubnelauDeepSeek-R1技术路线*Depseck-RI-Distill
QwenLlama收重
初地化RI具体实现口只需存储图中的c,k"
即
可
;口考虑到矩阵乘法结合律,具体实现过程中Wuk
可以与WuQ
融合、Wuv
可以与
Wo融合,从而无需为每个query
计算key-value
值。Multi-HeadAttentionMulti-Head
LatentAttention(bs,h)bsh2bsh=lowKnp(bs,h)压缩后宽度《隐藏层宽度昇腾
1.
推理阶段,理论上可以将KV
Cache
降低1~2个数量级,大幅减少HBM
存取和通信的开销。影响
2.对昇腾更亲和,大幅降低对HBM依赖,提升推理Decode
性能。Benchmark(Metric)ShotsSmall
MoE
Small
MoEw/MHA
w/MLALargeMoELargeMoEw/MHAw/MLAActivatedParamsTotalParamsKV
Cache
per
Token(#Element)2.5B15.88110.6K2.4B15.7B15.6K25.0B250.8B860.2K21.5B247.4B34.6KBBH(EM)3-shot37.939.046.650.7MMLU(Ace.)5-shot48750.057.559,0C-Eval(Acc)5.shot51.650.957.959.2CMMLU(Ace.)5-shot52.353.460.762.5Attention
MechanismKV
Cache
per
Token(#Element)Multi-Head
Attention(MHA)Grouped-Query
Attention(GQA)Multi-Query
Attention(MQA)2nndnl2ngdnl2dnIMLA(Ours)
(de+d)≈2dhlDeepSeekV3
模型架构:Multi-Head
Latent
Attention(MLA)MLA
架
构张量低秩压缩以降低KV
Cache资源开销:相比于传统MHA,MLA
通过降维
操作使得存储的张量维度大幅减小。(下图中仅红色阴影部分需要存储
)MLA
架构:1)分别对Query、Key-Value
pair进行低秩压缩;2)使用RoPE
获得位置信息;3)使用MHA
计算得到输出。实验结果对₆Deepseekv
而言rannJ28,oMmL
可以将KV
Cac
he降低为
.7%相比于MHA,MLA每token的KVCache量大幅减少,且精度更高。wwe(bsh)
+(bs,h)wiluesKeysTorget
Token
Crow
ntropy
lossMain
ModalntblenmaschonyOutputHeadTransformerBlocktinearProjectionTransformerBlock×LRMSNom
RMSNormEmbeddnglrermput
Tokens
t
t①
模
型
结
构·
每个MTP
模块共享嵌入层和输出头·
每个MTP
模块独占一个TransformerBlock和一个投影矩阵·
多个MTP
模块串联保持完整的因果关系链②
训
练
策
略·每个MTP
模块输出预测token的概率分布·
每个MTP模块计算对应的交叉熵损失函数·
多个MTP
模块的损失函数加权平均得到最终训练目标ofourMulti-TokenPrediction(MTP)implementation.We
fortheprediction
ofeach
token
at
each
depth.m-Csfinpy-20m-2cthe③
关
键
作
用·
提升每批训练数据的使用效率,强化训练信号·
优化模型表达能力,提升next-token的预测效果·
可参考投机采样改造MTP模块,加速推理效率MTP:Multi-Token
Prediction多token
预测提升模型效果·MTP
模块仅在训练中使用,提升模型训练效果,推理阶段可以不使用MTP
模块,基础模型能够独立完成正常推理·
参
考
投
机
采
样
,MTP
模块也可以被重新配置用于speculative
decoding,加速解码过程,降低整体时延TransformerBlocklinearProjectionIRMSNormRMSNormEmbedfnglarerhy
GrosEntropyLossMTP
Module2iNotfmAton)Mai
CrossEntropyLossMTP
Module1,we?olekedcton)关
键发
现7
Huawei
Proprietary-Restricted
Distributionkeep(24)(25)3|Hlustration
causal
chainFigurecompleteEmbednglayeroutputtieadOutputHeadnetDualPipe:
双流并行优化计算和通信,
All-to
-AlI
通信开销接近0MLP可▲
RM2FA
ATTNB)4ATTNW平TTNFADSPATCH
DtnTCH)A
CONNEFA→P
osaDTATm△Fowardchunk
B
wardchunkFigure
4|Overlapping
strategy
for
a
pair
ofindividualforwardand
backwardchunks
(theboundaries
ofthetransformer
blocksarenotaligned).Orange
denotes
forward,green
denotesbackward
for
input",blue
denotes
"backward
forweights",purpledenotes
PP
communication,①
细粒度的计算通信并行·
将PPstage拆分为更细的模块,提升模块交替编排的灵活度·
参考ZeroBubble,反向传递中的权重更新和梯度传递独立操作·
经过细粒度的拆分和编排之后,计算流和通信流的barrier刚好可以重叠②
双向管道调度减少PP
中的气泡·1F1B中每个batch拆分为1个forward和1个backward·
ZeroBubble中把backward拆分为input和weight两个部分·
DualPipe中使用对称处理,不同batch从不同的device上开始流水③
每卡显存占用略微增大MethodBubbleParameterActivation1F1B(PP-1)(F+B)1xPPZB1PDualPipe
(Ours)(PP-1)(F+B-2W)1x2×PPPP+1Figure5|ExampleDualPipescheduling
for8PP
ranks
and
20
micro-batches
in
two
directions.Themicro-batchesinthereversedirectionaresymmetrictothoseinthe
forward
direction,sowe
omit
their
batch
IDfor
illustrationsimplicity.Twocellsenclosed
byashared
black
borderhave
mutually
overlapped
computation
and
communication.参考DualPipe技术,基于MindSpeed训练加速框架以及昇腾硬件特性,针对
性地设计高效率流水并行技术,提升整体训练性能·
双向管道训练,需要存两份参数来进行训练(Parameter2x)·
模型总参数量671B,
每个卡上4个routedexpert对应26.8B,同时
考虑到PP-16和FP8量化,每个卡上显存占用为1.675GB8
HuaweiProprietary-Restricted
Distribution关键
启示
DeepSeek
通过从模型结构到训推全流程的优化,带来大模型新范式DeepSeekV3/R1,大幅提升从训练到推理的计算效率,降低模型创新及应用落地的门槛推理优化单次推理效率倍级提升Token预测1次1token预测1次多Token预测一次预测多个token推理倍级提升HUAWEI后训练优化
降低学习复杂度强化学习需要裁判模型评估新老策略组队评估简化强化学习流程降低后训练复杂度业
界LLM
大模型DeepSeek核
心收益效果PP
并行算法1前1后单流水双向流水并行MLA低秩压缩减少缓存压缩KVCache降低内存90%支持更高并发训练精度FP16/BF16FP8混合精度DeepSeekMoE
更稀疏256选8+1模型容量提升3倍计算量减少70%AttentionMHA/GQA分组共享减少缓存计算通信优化降低计算,极致的掩盖,同时保证训练精度模型结构优化以计算换内存、降通信,空间时间双优化计算量减少35%平衡训练效率与
数值精度MOEGPT416专家选2计算与通信极致掩盖减少50%PP气泡9
Huawei
Proprietay-Restricted
Distribution关注高效、稳定、开放的底座·
极致性能、稳定可靠的AI集
群·
深度开放的平台和生态·极致的端到端性能效率优化Claude2Llama3-70B
②Baichuan2-13BDeepSeek-V3-671BGLM-130BDeepSeek-R1-671B关注便捷、易用、性价比的平台DeepSeek-R1-Distill-Qwen-32B·
开箱即用的强化学习套件·
兼顾成本与性能的蒸馏/微调方案AlexNet大模型从技术摸高走向技术摸高+工程创新并行
,训练需求持续增长①技术摸高:头部玩家将战略坚定投入预训练基础模型创新,丰富模型组合,追逐Scaling
Law,加
速
探
索AGI②工程创新:新的范式降低后训练和蒸馏门槛,模型效果大幅提升,出现平权现象,引发新一波的“百模干态”2012201320142015
201620172018
201920202021202220232024
20252026训练的算力需求将持续增长,算力结构从“预训练为主”走向“预训练+后训练/二次训练”10HuaweiProprietary-RestrictedDistribution
Doubao
2.0
A
Lama4G
Gemini2.0GPT-5DeepSeek-R1-Distill-Qwen-1.5B(蒸馏后较原模型能力提升10%+)G
Gemini
Utra
G
PalM(540B)
GPT-4/40·
便捷的部署、敏捷业务上线工
程
创
新新一轮百模千态技
术
摸高新一轮技术竞争训练算力需求(PFLOPS)
GPT-3/3.5175BMegatron-Tuning
NLG530BG
BERT-LargeGTransformerHunyuanGroq4①金融
交通
教育医疗电
力
油气
制造云服务
硬件+社区
一体机钉钉一体机电信息壤一体机昇腾社区新致金融一体机同花顺一体机京东云诸多厂家推出一体化方案对
外提供服务/自用硬件+开源模型+RL
套件+ISV/
云,商业模式逐渐成熟AS
IS基
础
模
型(DeepSeek/Uama.Qwen.
大量行业数据监督微调SFT更多行业高质量数据生成监督微调SFT行业大模型行业大模型部署更高效月级调优
→
周/天级优化 DeepSeek能力提升成为各行业生产力工具,加速推理落地干行百业DeepSeek
催熟大模型落地技术,降低推理部署门槛开箱即用的一体机,加速大模型应用落地华为云移动云电信天翼云联通云腾讯云阿里云亚马逊AWS
微软Azure数据依赖降低高质量数据
→
生成数据算法依赖降低高端人才
→
开源+蒸馏NVIDIAHugging
FaceGitHub主流云服务商已支持DS
覆盖公/私有云部署11
HuaweiProprietary-Restricted
Distribution主流算力、主流社区
均已支持DeepSeek模型蒸馏-模型小型化少量行业数据强化学习魔乐社区基础模型Llama/Qwen/)昇腾TOBE模型服务商潞晨科技已上线硅基流动已上线清昴已上线讯飞测试中运营商电信天翼云已上线联通云已上线移动云已上线南京、福建、浙江移动已上线上海、江苏电信已上线国计民生行业龙岗区政府已上线北京银行已上线广大证券已上线北京、南京、西安、武汉、苏州、无锡等公共服务平台已上线招行测试中工行测试中太保测试中模型名称Atlas
300I
DuoAtlas
800I
A2DeepSeekV3√DeepSeekR1√DeepSeek
Janus-Pro-1B/7B√√DeepSeek
R1-Distill-Llama-70B√DeepSeek
R1-Distill-Qwen-32B√DeepSeek
R1-Distill-Llama-8BDeepSeek
R1-Distill-Qwen-1.5B/7B/14B√√ DeepSeek
模型发布即支持昇腾推理,各行业已基于昇腾快速上线DeepSaek-V3(CMWote/0gDeepSeek-RhaDeepSeek
发布两周,3大社区全系列模型上线40+客户/伙伴基于昇腾已上线,15+测试中(预计两周内全部上线)最新DeepSeekV3/R1/Janus-Pro
及6个蒸馏模型
基于昇腾开箱即用,配套版本已上线各大开源社区配套版本上线昇腾社区:https://www.hiascend.com/software/mode
lzoo/models/detail/678bdeb4ela64c9dae51d353d84dddi5配套版本上线魔乐社区:/models/MindIE/deeps
eekv312
Huawei
Proprietary-Restricted
DistributionAtlas
800IA2(256GB)Atlas300I
Duo系统吞吐
并发路数730
Token/s@14B
80路@14B956Token/s@8B115路@8B956Token/s@7B115路@7B思
腾
合
力Atlas300V系统吞吐并发路数432Tnken/s16路系统吞吐4940Token/s@32B7500Token/s@14B并发路数247路@32B300路@14B
珑京科技
思
雎
合
力
昇腾DeepSeek—体机:大吞吐+高并发,加速行业模型落地系统吞吐1911Token/s潞展科技移动,贵一体系统吞吐3300Token/s165路
珑京科技思
腾
合
力
模型参数:671B+
满
血
版DeepSeek
V3/R1Atlas800I
A2(1024GB)模型参数:70BDeepSeek-R1-Distill-Lama-70BAtlas800IA2(512GB)模型参数:14B/32BDeepSeek-R1-Distill-Qwen-32BDeepSeek-R1-Distill-Qwen-14B模型参数:7B/8B/14BDeepSeek-R1-Distill-Qwen-14B
DeepSeek-R1-Distill-Llama-8B
DeepSeek-R1-Distill-Qwen-7B模型参数:1.5BDeepSeek-R1-Distll-Qwen-1.5B
金融
13
Huawei
Proprietary-Restricted
Distribution
教育
油气
制造
交通珑京科技思腾合力个人知识管理个人文档分析编程辅助个性化学习辅导
创意写作AI编程
智能对话
金融研报文本创作
营销文案内容检测并发路数192路开
发
板
边端设备编程辅助
智能客服政务电力珑京科技并发路数模型集合模型名称参数计算精度产品配置系统吞吐token/s并发用户数DeepSeek-V3DeepSeek
V3671BINT8Atlas800I
A21024GB1911192DeepSeek-R1DeepSeek-R1671BINT8Atlas800I
A21024GB1911192DeepSeek-R1蒸馏模型DeepSeek-R1-Distill-Llama-70B70BINT8Atlas800I
A2512GB3300165DeepSeek-R1-Distill-Qwen-32B32BINT8Atlas800I
A2256GB4940247DeepSeek-R1-Distill-Qwen-14B14BINT8Atlas800I
A2256GB7500300Atlas
300I
Duo1*Duo
96GB
PCIE73080DeepSeek-R1-Distill-Llama-8B8BINT8Atlas
300I
Duo1*Duo
96GB
PCIE956115DeepSeek-R1-Distill-Qwen-7B7BINT8Atlas
300I
Duo1*Duo
96GB
PCIE956115DeepSeek-R1-Distill-Qwen-1.5B1.5BINT8Atlas
300V1*300V
24GB
PCIE43216
DeepSeekV3/R1
及蒸馏模型,昇腾DeepSeek
一体机推荐配置14Huawei
Proprietary-Restricted
Distribution华为昇腾AI
基础软硬件介绍DeepSeek
洞察及昇腾适配进展215
Huawei
Proprietary-Restricted
Distribution1昇腾AI基础软硬件架构全面创新,使能行业场景化应用行业场景化应用视图分析、检索聚类、搜索
推荐、自然语言处
理、智能语音、自动驾驶应用使能应用使能套件/SDKAI计算框架PyTorch/TensorFlow/Caffe
…
.异构计算架构CUDANV系列硬件模组/加速卡/服务器/-->集群NV处理器Ampere系列/
Hopper系列…nVIDIA.
CUDAnVIDIAModelArts
应用使能训练平台/推理引擎/模型套件/SDKAI计算框架昇思MindSporePyTorch/TensorFlow/Caffe....异构计算架构CANNAtlas及昇腾伙伴系列硬件模组/小站/加速卡/服务器/集群昇腾处理器昇腾310系列/昇腾910系列
…英伟达AI基础软硬件架构[M]!昇思CANNAAscend昇
腾
AI
基
础
软
硬
件
架
构16Huawei
Proprietary-Restricted
Distribution计算架构CANN深度开放,使能高效灵活开发,匹配开发者使用习惯深度开放CANN,
一套架构使能昇腾原生开发
对
位NV
CUDA,匹配开发使用习惯加
速
库
Megatron
DeepSpeed
AscendSpeedAI框架昇思MindSporePyTorch
TensorFlow
…GE
图引擎开放图编译、图优化、图执行,支持自定义图融合,提升整网性能HCCL
集合通信库开放通信算子、平台接口,支持自定义通信算法,提升网络通信效率Graph
Engine
图引擎HCCLAscend
C高
阶APIAscend
C
低级APIAscend
acINNMT
、KS自定义图融合patternTX
、MThash
算法自定义调优XF自定义切分策略KS自定义算子开发XF结合场景差异优化nVIDIA.CUDATensorRTplugins&parserNV
NCCLNV
CUTLASSNV
CUDA-CNV
cuDNNGE
图引擎集合通信库类库/模板通用编程算子加速库算子加速库开放1600+基础算子接口、30+融合算子接口,简化开发复杂度,提升开发效率毕昇编译器|Runtime运行时开放硬件资源接口,满足开发者对模型开发、系统优化、三方生态对接等各场景需求Ascend
C编程语言开放130+底层API
、60+高层API,
支持高性能自定义融合算子开发KS直接发起Kernel
LaunchCANN昇
腾
硬
件
使
能CANNNV
Runtime
Ascend
Runtime17Huawei
Proprietary-Restricted
Distribution运行时》》》模型训练:算网/算存深度协同是大模型分布式并行训练的基础大模型技术发展方向干亿稠密/万亿稀疏超长序列多模更大规模/更复杂的组网
更复杂的模型及数据切分
更
大(
数模
参数存he储dkPo和nt读)写大规模组网·
超大组网规模:2层1:1无收敛的AI网络架构,最
大支持128
K集群规模组网,千卡到万卡平滑演进支持2级框盒、框框组网,适用于大规模及超大规模集群…
…
同
…u
NPU算网协同·
网络级负载均衡:独家NSLB算法,算网协同
调度,多任务节点非连续组网情况下,通信带宽提升20%、模型性能提升7%3
、A
任务信息任务、通信过4、动态路径调整A
调度平台算存协同·
极致读写性能:
CKPT等算存读写协同优化、
PB
级存取+TB级带宽,数据读取效率提升50%dxO)(
武出户()理书aDPC
区备优化的为案饮化监方案Pu/oujonoim计算节点以全部通信关系和拓扑信息作为输入通过算法计算出最优结果,实现AI参数面全网负载均衡18Huawei
Proprietary-Restricted
Distributionr存储节点Japith设2、AI
任务调度网络控制器模型通信与计算优化,单机执行最优算子深度融合“工序合并”减少计算数据搬入
搬出的时间及内存开销计算与通信融合计算数据细粒度切分,减少计算与通信相互等待计算加速忽略无效计算,减少计算量和内存量计算通信计算1
计
算
2
计
算
3
计
篇
4通信1通信2通信3
通倍自适应选择性重计算、内存碎片优化、MultiheadAttention中常见模型的mask上
三角区域均接近于0算子库低阶二进制算子库
高阶融合算子库CANNAscend
C编程语言+Runtime开放接口模型训练:应用使能软件加持,
MFU
领先、线性度持平NV模型训练最优=单机执行最优+集群并行最优
+中断时间最短模型算力利用率(MFU)
45%+
超大集群线性度
90%+软件层分布式并行充分调度算力资源提供分布式加速库,内置主流加速算法,满足各类模型加速场景硬件层算网协同提升有效吞吐NLSB
网络级负载均衡实现网络动态路由,有效吞吐达98%控制器全局集中算路自动生成路径并动态下发网络网络控制器获取网络拓扑
下发路径数据并行、流水并行
L
层Ln层层内通信并行19Huawei
Proprietary-Restricted
Distribution分布式并行+算网协同,集群并行最优OPyTorch[M
]
界思模型并行场景/应用测试模型测试结果对话搜索DB-200B0.94x
A800客服、文生图场景;
金融助手SDXL3.48~3.63x
A10Llama2-7B1.41~2.72x
A10Llama2-13B1.44~2.19x
A10电商ChatGLM2-6B1.86x
A30Baichuan2-13B1.82xA30Qwen-14B1.81xA30ZN大模型智脑13B1.7xA30图像识别、OCR文
字识别和视频处理Llama2-70B1.7x
L20智慧教育、办公问
答星火-65Bx800T
A2交互搜索,金融客服问答step1V-130B多模态2.0x
L20对标Triton+TMS/vLLM业界标准RPC接口高效对接业务层·模型管理,集群管理,devops·
支持多实例并发对
标TensorRT-LLM·
支持社区模型快速迁移·
自回归解码、扩散过程优化·
稀疏量化压缩、
并行推理支持PyTorch/
昇
思·
少量代码实现训练向推理平滑迁移·整图/子图优化+单算子混合推理对标TensorRT·
图优化,算子融合,
Kernel
优化·
量化、混合精度加速:异步下发,多流水执行_---模型推理:提供分层开放的推理引擎MindIE,使能高效推理昇腾推理引擎
M
indIENEW
MindIE-Service
第三方推理服务推理服务化
MindIE-MS
Triton
backendMindIE-ServerMindIE-ClientvLLM3rdMindIE-RT推理开发工具
算子加速库NEWD推理套件
MindIE-LLM框架推理推理运行时MindSpore
对接
MindIE-Torch20HuaweiProprietary-RestrictedDistributionNEWMindIE-SDCANN推理应用接口迁
移
分
析
工
具模型支持度分析和修改建议模型支持度评估离线模型——
分析报告模
型
转
换
工
具实现训推一体的模型转换一键式命令触发三方框架
昇腾处理器模型格式
模型格式图准备->图拆分->图优化->图编译精
度
比
对
、
改
图
工
具一站式调优工具,提升精度优化效率性
能
优
化
、
快
速
推
理
工
具一站式调优工具,提升性能优化效率用户APPIDEAscendNPU模型迁移:工具链进一步升级,提升GPU
到昇腾快速迁移能力GPU训练=>昇腾推理:提供MindStudio一站式工具链,3~15人天可完成迁移,80%场景仅需3人天差异二:工具链差异导致迁移效率不同算子重开发、精度调试、性能调优的难度
体现在工具链的能力上昇腾
无工具链—
其他架构亟需精度对比工具:
GPU
的推理精度在适配昇
腾训练的模型时,需要以昇腾训练的模型精度为标杆迁
移
工
作
量
大
:建立工具链完成对昇腾的精度
对比和调优。差异三:基础能力差异导致支持完备度不同基础库、加速库、三方库等支持情况不同跨架构时需通过引入、适配第三方库,或者开
发基于自身架构的对等库来解决库的差异问题差异一:芯片架构差异导致算子实现不同例如,矩阵计算时,昇腾采用16
x16
分形,英伟达采用8x8
分形
即使算子功
能
相
同,在不同架构下算子实现方式可
能不
同计算架构支持的主要基础库/加速库昇腾DVPP/AIPP/mxVision/ACLNN/ACLBlas等英伟达CodecSDK/CV-CUDA/cuDNN/cuBlas/DAL等GPUCUBE计算单元结构为8x8x4(A100)昇
腾CUBE
计算单元结构
为16x16x16HUAWEI21Huawei
Proprietary-Restricted
Distribution命令行
数据采集GPUGraph
NPUGraph芯片架构差异数据解析
DataMindStudio精度结果MindStduio0S业界主流4款开源大模型GPT-3
参数:13
B/100B
/175B已测试客户:YD
、MY
、ZSreIUUS业界1.00X1.00X1.05X0.83X1.04X0.83XM
indSpore+昇腾
PyTorch
NV100B业界7B业界13B业界70B业界63业界1.23X1.01X0.91X1.13X1.21X7B业界业界70B业界业
B7B业界参数:7B/13B/70B已测试客户:TYY、YD、BOSS、MY、360、MT、CA
、HWY
、CGCSYSGLM-3
参数:6
B/10B/130B已测试客户:ZP、BJYH、YCCXJH、MT、LTYOwen-2
参数:7B/72B0.9X业界昇腾已支持国内外开源开放大模型,实测性能持平业界国内唯一已完成训练干亿参数大模型的技术路线,业界主流大模型PyTorch
实测性能均达到0.8~1.1倍业界最新主流开源模型均已陆续适配并商用中Baichuan2|GLM
V3|SiT|MixTral-8x7B|Stable
Diffusion|OpenSora
|VideoGPT
|Qwen-VL
.
…22Huawei
Proprietary-Restricted
Distribution测试报告满
试
结
量m已测试客户:DX、VIP
72B业界
0.87X21e*…LLaMA-3S7B5核心技术H800A2FP8+20%~25%不支持无辅助负载均衡损失评分效果提升评分效果提升DualPipe计算通信比1:1->8:1,+8~12%计算通信比3:1->6:1,+4~6%跨节点All2AlI优化RMSNorm+MLA部分重计算省2~3G内存省2~3G内存场景核心技术A2DeepSeek适配LoRA微调CCLoRA支持25Q1支持Fused_MLP支持qLoRA微调CCLoRA支持Fused_MLP不支持长序列微调长序列CP方案支持微调算法目标性能部署建议LoRA微调1.1x业界8机Atlas800T
A2qLoRA微调1.1x业界4机Atlas800TA2全参微调1.1x业界32机Atlas800T
A2DeepSeek模型A2适配情况DeepSeekV3已适配DeepSeek
R1已适配DeepSeekJanus-Pro已适配
DeepSeek
系列模型昇腾训练产品适配计划及微调部署建议支持CCLoRA、Fused_MLP
核心技术,提升微调训练吞吐性能DeepSeek
系列预训练完成昇腾适配,目标性能1.1x
NVDeepSeek
系列模型微调目标性能1.1x业界(Q1)支持DualPipe
、跨节点All2AlI
等优化23Huawei
Proprietary-Restricted
DistributionDeepSeek
V3/DeepSeek
R1(671B)
“满血版”BF16
精度推理采用BF16或FP16
数据格式进行推理,需要内存约为1340GB需要采用Atlas800I/T
A2(8*64GB)4机并行X4Atlas800I
A2(8*64GB)最小配置为4机并行采用Atlas
800T
A2时亦需4机井行INT8
精度推理采用INT8
数据格式进行推理,
需要内存<700GB,
可2机并行X2Atlas800I
A2(8*64GB)最小配置为2机并行采用Atlas800T
A2时亦需2机并行模型硬件格式部署建议进展DeepSeekJanusPro1BAtlas800IA2BF16单卡部署,单机8实例已适配发布Atlas
300IDuoFP16单卡部署已适配发布A2/DuoINT8适配中适配中DeepSeekJanusPro7BAtlas800IA2BF16单卡部署,单机8实例已适配发布Atlas
300IDuoFP16单卡部署已适配发布A2/DuoINT8适配中适配中模型参数格式部署建议进展DeepSeek-
R1-Distill-Llama8BBF16/INT8<14B模型可采用Atlas300IDuo推理;
大于14B模型推荐Atlas800IA2推理:·1.5B:Duo/A2单卡部署,开发板部署·7~8B:Duo卡2卡并行,
A28卡并行,支持开发板部署·
14B:Duo卡2卡并行,
A28卡并行·32~70B:A28卡并行整体已适配发布Atlas800IA2BF16
/INT8推理已发布除70B模型外,其他模型Atlas
300IDuoFP16/INT
870BBF16/INT8DeepSeek-
R1-Distill-Qwen1.5BBF16/INT87BBF16/INT814BBF16/INT832BBF16/INT8
DeepSeek
主干模型均已支持昇腾推理开箱,性能持续提升中MLA
架构:
支持EP
策略:支持PD
分离部署:待支持W8A8
量化:
支持
MTP多token
预测:
待支持多模态模型DeepSeek
Janus
ProDeepSeek
R1蒸馏模型24
Huawei
Proprietary-Restricted
Distribution关
键
性
能优
化
特
性参数面用于智能集群分布式推理时参数交换,要求网络具备高吞吐低时延能力,部署高带宽的智能
无损RoCE网络,每台推理服务器8个200GE
ROCE光口样本面用于访问存储区的高速大带宽互联的存储系统,推荐部署为RoCE无损网络,每台推理服务器
2个25GE光口业务面用于系统业务调度和管理。通常部署为TCP/IP有损网络,每台推力卡服务器2个25GE光口带外管理AI服务器BMC管理,可选DeepseekV3/R1
模型本地化部署组网方案训推平台(按需配置)xx台通用服务器16*400/E一分二LeafCE9860*2台SpineCE9860*2台400G
RoCE交换机参数面DeepSeekR1/V3推理配置建议
BF16
最小配置4台计算节点;INT8
最
小
配
置2
台
计
算节点
;业务面CE6865E8*25GE推理调度管理流量样本面(可选)i.Leaf
CE9860推理读流量分
级带外管理面(BMC
管理可选)CE58824*GEAI
推理服务器(Atlas800I
A2)4台*8口*20DGESpine
CE9860Leaf
CE6865E8*25GE9950DPC访问9540存储区(可选)25
HuaweiProprietary-Restricted
Distribution_400G100G10G200G25GGENFS
访
河图
例序号模型发布曰期描述本地部署推理最低配置当前支持情况1DeepSeek-V32024.12.16MOE,671B4*Atlas800I
A2(8卡,64GB)https://modelers.cn/models/MindI
E/deepseekv32DeepSeek-R12025.2.26MOE,660B4*Atlas800I
A2(8卡,64GB)https://modelers.cn/models/MindIE/deepseekR13DeepSeek-R1-Distill-Qwen-1.5B2025.1.20Qwen,1.5B1*310P或1*310B310P已支持,直接用mindIE可跑通,
310B可支持4DeepSeek-R1-Distill-Qwen-7B2025.1.20Qwen,7B1*310P310P已支持,直接用mindIE可跑通5DeepSeek-R1-Distill-Qwen-14B2025.1.20Qwen,14B1*310P(显存不小于48GB,量化
后显存不小于24G)310P已支持,直接用mindIE可跑通6DeepSeek-R1-Distill-Qwen-32B2025.1.20Qwen,32B2*310P(显存不小于96GB)推荐4*310P以上配置310P已支持,直接用mindIE可跑通7DeepSeek-R1-Distill-Llama-8B2025.1.20Llama,8B1*310P310P已支持,直接用mindIE可跑通8DeepSeek-R1-Distill-Llama-70B2025.1.20Llama,70B1*Atlas800I
A2(8卡,32GB)
或8*310P310P已支持,直接用mindIE可跑通9Janus-Pro
1B2025.1.28多模态,1B1*310P或1*310Bhttps://modelers.cn/models/MindIE/Janus-Pro310B适配中10Janus-Pro
7B2025.1.28多模态,7B1*310Phttps://modelers.cn/models/MindIE/Janus-Pro
DeepSeek
系列模型昇腾
NPU
推理配置建议
快速部署DeepSeek
模型
模型资源获取推理资源评估推理设备选型模型权重下载推理环境调测集群连通测试推理镜像制作推理模型部署模型权重转换模型量化纯模型测试服务化启动推理模型测试性能测试精度测试服务化测试 容
器
化
部
署 物
理
机
部
署镜像封装,提供容器命令
基于场景,提供开发环境部署方法运行环境部署加速框架Deepspeed
|Mindspeed|MindIEAl计算框架
PyTorch
|TensorFlow|MindSpore异构计算架构CANNAAscend
昇腾处理器
模
型
运
行
版
本
配
套
复
杂
Python=3xPyTorch=2.0CANN7.0.0,
依赖MindSpeedPython=3xCANN6.0.RC3,依赖AdlLite推荐昇腾最佳实践,快速复现DeepSeek
系列模型推理流程,加速客户应用上线。27
Huawei
Proprietary-Restricted
DistributionAI计算使能服务-DeepSeek
部署支持:快速适配DeepSeek
模型,支撑模型快速上线DeepSeek-R1-Distilllama DeepSeek-R1-Distill-qwen Janus-Pro
deapseok
已支持的DeepSeek
系列模型
AI软件栈多且复杂,
客户不清楚模型组
件
安
装
依
赖
顺
序
,模型分析工具链有
哪些,模型是否支持容器化部署等关键特性W8A8
量化|服务化部署|EP并行DeepSeek-V3DeepSeek-V2.5推理运行环境部署支持DeepSeek-R1ModelAModelBENNBENVA赋能流程01
需求调研02
方案制定
03
赋能实施·
调研客户工程师开发过程中
的痛点、难点·
明确客户当前能力缺位情况·
提供赋能内容·
提供昇腾样例·
昇腾模型/应用开发流程演示·
Demo样例讲解·
昇腾AI基础知识赋能DeepSeek系列赋能昇腾基础昇腾全栈软件社区资源讲解AI基础知识环境搭建示例CANN&AI框架赋能昇腾模
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024秋三年级英语上册 Unit 5 Let's eat课时4 Let's talk Let's play教学设计 人教PEP
- 三年级英语下册 Unit 1 School Subjects Lesson 2 教学设计1 人教新起点
- 14《有趣的冰箱贴》(教学设计)-2024-2025学年人美版(北京)(2024)美术一年级下册
- 物资采购双方协议书7篇
- 2024-2025学年高中化学 第四单元 化学与技术的发展 4.2 表面活性剂 精细化工品教学设计 新人教版选修2
- 进修医生规范操作
- 9《这些是大家的》(教学设计)-2024-2025学年统编版道德与法治二年级上册
- 2024-2025学年高中物理 第10章 热力学定律 2 热和内能教学设计 新人教版选修3-3
- 2024秋八年级道德与法治上册 第一单元 在集体中 第一课 大家之家教学设计 教科版
- 17 《松鼠》 (教学设计)2024-2025学年-统编版语文五年级上册
- 学术论文的撰写方法与规范课件
- 勇敢面对挫折和困难课件
- 徐士良《计算机软件技术基础》(第4版)笔记和课后习题详解
- 房屋建造过程课件
- 坯布检验标准及检验规范
- 带压堵漏、带压开孔作业安全管理制度
- (新教材)教科版二年级上册科学 1.2 土壤 动植物的乐园 教学课件
- 采用冷却塔变流量的中央空调冷却水系统能效分解
- 航空航天技术概论
- 篮球比赛记录表(上下半场)
- 毕业设计-太平哨水利枢纽引水式水电站设计
评论
0/150
提交评论