华为昇腾DeepSeek解决方案设计_第1页
华为昇腾DeepSeek解决方案设计_第2页
华为昇腾DeepSeek解决方案设计_第3页
华为昇腾DeepSeek解决方案设计_第4页
华为昇腾DeepSeek解决方案设计_第5页
已阅读5页,还剩26页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

华为昇腾

AI

解决方案把握DeepSeek时刻,携手同行华为昇腾AI基础软硬件介绍DeepSeek

洞察及昇腾适配进展○ozEnis212Huawei

Proprietary-Restricted

DistributionNLP自然语言处理2017谷歌发布首个

Transformer架

型2012

AlexNet模型能力突破开

启CV

代2015

Resnet效率与成本双突破CV全面普及·

DS

对强化学习的创新使用,可以让大模型便捷的获得

通用性+专用性,可以满足各应用场景需求·

DS对通过从模型结构到训推全流程的极致工程优化,

大幅提升AI的计算效率,提升模型落地经济性

DeepSeek

是A

发展史上的一个关键里程碑,但远未达到AI终点训练资源·随

着DeepSeek

提供了

种高效率训练的方法,同等

算力规模可以探索更强的模型能力·

在竞争背景下,头部玩家仍将追逐Scaling

Law,坚

AI算力的战略投资,加速探索下

代AI技

术3

Huawei

Proprietary-Restricted

Distribution重新定义Scaling

Law延续智能涌现的方向DeepSeek-R1

进一步验证“算力即性能”Scaling

Law升级,模型能力=算力x

数据x

思考AI

模型算法:GPT、LLaMA

AI

框架:PY、TF异构计算架构:CUDA互联技术:NV

LinkA

:NV、AMD双轮驱动互锁战略坚定+技术创新AI模型算法:DeepSeekAI框架:昇思、飞桨…异构计算架构:CANN.…互联技术:灵衢AI芯片:昇腾、寒武纪.…·

中国Al公司首次以关键创新贡献者的身份加入到全球

AI竞争中,冲击美国AI霸

权·打破NV+OpenAI

的资金、技术、人才的垄断,全球

重新思考中美技术路线的选择泛化性和经济性大幅提升LLM

"CVResnet时刻"补齐最后一块自主创新的版图

真正形成中美两条AI技术路线下一代AI技术Mamba、

空间智能等算力x

数据x

思考算力x数据CV计算机视觉1998

LeNet首个CNN

架构模型2025

DeepSeek

效率与成本双突破NLP

全面普及2023

ChatGPT

模型能力突破开启NLP

代国家战略清晰技术创新依赖资本投入+逻辑推理DeepSeek-V3/R1OpenAI-01/03模型效果低成本绕过CUDA

挖掘FP8硬件潜力,MOE

和MLA

技术实现不到10%的成本方案~150M$Llama3.1-405B训练成本硬件级优化算法革命架构创新工程奇迹开源生态绕过GUDA进行PTX编程计算与通信优化,性能提升30%GRPO:群体进化的智慧筛选器自我验证机制:AI的"错题本系统"混合专家模型的"智能路由器“

多头潜在注意力MLA:空间压缩术训练框架加速:16到3的量化压缩,

通信降低89%推理加速:预加载,动态批处理等 DeepSeek

V3:实现极致性能,稀疏MOE提质降本低成本完美对标OpenAI

O1,突破精确语义理解及复杂推理任务DeepSeek-V3

是一款MoE模型,总参数量671B,激活参数量37B,

采用2048张H800

(节点内NVLink,节点间IB,

非超节点架构)在14.8Ttoken数据集上基于自

研HAI-LLM

训练系统总计训练了1394h(58.08天

)技术创新硬件级、算法级、架构级、工程级、开

源生态5大技术创新,轰动全球DeepSeek-R1

推理成本仅为OpenAIo1

3

%4

HuaweiProprietary-Restricted

Distributionhingst

连能

*

ne

足DeepSeek,

很高兴见到你!

aoo

味5.57M$DeepSeek-V3训

练成本来源:DeepSeek模型测试数据&互联网(Qwen/LLaMa

1.5B7B

14B

32B70B)5

Huawei

Proprietary-Restricted

Distribution

HUAWEI

DeepSeek

R1:

在Reasoning

任务达到了世界水平(OpenAI-o1)Figure1|Benchmark

performance

ofDeepSeek-R1.DeepSeek-R1

以DeepSeek-V3

Base(671B)为基础模型,使用GRPO

算法作为RL

框架来提升Reasoning

性能以2阶段SFT+2

阶段RL

完成,从而解决R1-Zero

可读性差、多种

语言混合问题本次开源同时发布了6个基于DeepSeek-R1

蒸馏的更小稠密模型RI-ColdstartRLRasoing

ofanpe★陟Qw25158

0wm25.7BQm25148800cot,匿Qwen25328]ampleThouandsolCofsamplesRI-ColdstartSFT600RISFT200kNon-ReasoningCoT

samples

Rue-bsedRM{GRPO)+Model-basedRM0

Lhms3188OLhm33-708

Basemodeks→权重关系

一数据流向★

发布模型V3-baseRL

RilebasedRMGRPO⁺(Acaury+Format)R1-Zero+(Accur

l

g-

sstency)ge

conedRMasubnelauDeepSeek-R1技术路线*Depseck-RI-Distill

QwenLlama收重

初地化RI具体实现口只需存储图中的c,k"

;口考虑到矩阵乘法结合律,具体实现过程中Wuk

可以与WuQ

融合、Wuv

可以与

Wo融合,从而无需为每个query

计算key-value

值。Multi-HeadAttentionMulti-Head

LatentAttention(bs,h)bsh2bsh=lowKnp(bs,h)压缩后宽度《隐藏层宽度昇腾

1.

推理阶段,理论上可以将KV

Cache

降低1~2个数量级,大幅减少HBM

存取和通信的开销。影响

2.对昇腾更亲和,大幅降低对HBM依赖,提升推理Decode

性能。Benchmark(Metric)ShotsSmall

MoE

Small

MoEw/MHA

w/MLALargeMoELargeMoEw/MHAw/MLAActivatedParamsTotalParamsKV

Cache

per

Token(#Element)2.5B15.88110.6K2.4B15.7B15.6K25.0B250.8B860.2K21.5B247.4B34.6KBBH(EM)3-shot37.939.046.650.7MMLU(Ace.)5-shot48750.057.559,0C-Eval(Acc)5.shot51.650.957.959.2CMMLU(Ace.)5-shot52.353.460.762.5Attention

MechanismKV

Cache

per

Token(#Element)Multi-Head

Attention(MHA)Grouped-Query

Attention(GQA)Multi-Query

Attention(MQA)2nndnl2ngdnl2dnIMLA(Ours)

(de+d)≈2dhlDeepSeekV3

模型架构:Multi-Head

Latent

Attention(MLA)MLA

构张量低秩压缩以降低KV

Cache资源开销:相比于传统MHA,MLA

通过降维

操作使得存储的张量维度大幅减小。(下图中仅红色阴影部分需要存储

)MLA

架构:1)分别对Query、Key-Value

pair进行低秩压缩;2)使用RoPE

获得位置信息;3)使用MHA

计算得到输出。实验结果对₆Deepseekv

而言rannJ28,oMmL

可以将KV

Cac

he降低为

.7%相比于MHA,MLA每token的KVCache量大幅减少,且精度更高。wwe(bsh)

+(bs,h)wiluesKeysTorget

Token

Crow

ntropy

lossMain

ModalntblenmaschonyOutputHeadTransformerBlocktinearProjectionTransformerBlock×LRMSNom

RMSNormEmbeddnglrermput

Tokens

t

t①

构·

每个MTP

模块共享嵌入层和输出头·

每个MTP

模块独占一个TransformerBlock和一个投影矩阵·

多个MTP

模块串联保持完整的因果关系链②

略·每个MTP

模块输出预测token的概率分布·

每个MTP模块计算对应的交叉熵损失函数·

多个MTP

模块的损失函数加权平均得到最终训练目标ofourMulti-TokenPrediction(MTP)implementation.We

fortheprediction

ofeach

token

at

each

depth.m-Csfinpy-20m-2cthe③

用·

提升每批训练数据的使用效率,强化训练信号·

优化模型表达能力,提升next-token的预测效果·

可参考投机采样改造MTP模块,加速推理效率MTP:Multi-Token

Prediction多token

预测提升模型效果·MTP

模块仅在训练中使用,提升模型训练效果,推理阶段可以不使用MTP

模块,基础模型能够独立完成正常推理·

,MTP

模块也可以被重新配置用于speculative

decoding,加速解码过程,降低整体时延TransformerBlocklinearProjectionIRMSNormRMSNormEmbedfnglarerhy

GrosEntropyLossMTP

Module2iNotfmAton)Mai

CrossEntropyLossMTP

Module1,we?olekedcton)关

键发

现7

Huawei

Proprietary-Restricted

Distributionkeep(24)(25)3|Hlustration

causal

chainFigurecompleteEmbednglayeroutputtieadOutputHeadnetDualPipe:

双流并行优化计算和通信,

All-to

-AlI

通信开销接近0MLP可▲

RM2FA

ATTNB)4ATTNW平TTNFADSPATCH

DtnTCH)A

CONNEFA→P

osaDTATm△Fowardchunk

B

wardchunkFigure

4|Overlapping

strategy

for

a

pair

ofindividualforwardand

backwardchunks

(theboundaries

ofthetransformer

blocksarenotaligned).Orange

denotes

forward,green

denotesbackward

for

input",blue

denotes

"backward

forweights",purpledenotes

PP

communication,①

细粒度的计算通信并行·

将PPstage拆分为更细的模块,提升模块交替编排的灵活度·

参考ZeroBubble,反向传递中的权重更新和梯度传递独立操作·

经过细粒度的拆分和编排之后,计算流和通信流的barrier刚好可以重叠②

双向管道调度减少PP

中的气泡·1F1B中每个batch拆分为1个forward和1个backward·

ZeroBubble中把backward拆分为input和weight两个部分·

DualPipe中使用对称处理,不同batch从不同的device上开始流水③

每卡显存占用略微增大MethodBubbleParameterActivation1F1B(PP-1)(F+B)1xPPZB1PDualPipe

(Ours)(PP-1)(F+B-2W)1x2×PPPP+1Figure5|ExampleDualPipescheduling

for8PP

ranks

and

20

micro-batches

in

two

directions.Themicro-batchesinthereversedirectionaresymmetrictothoseinthe

forward

direction,sowe

omit

their

batch

IDfor

illustrationsimplicity.Twocellsenclosed

byashared

black

borderhave

mutually

overlapped

computation

and

communication.参考DualPipe技术,基于MindSpeed训练加速框架以及昇腾硬件特性,针对

性地设计高效率流水并行技术,提升整体训练性能·

双向管道训练,需要存两份参数来进行训练(Parameter2x)·

模型总参数量671B,

每个卡上4个routedexpert对应26.8B,同时

考虑到PP-16和FP8量化,每个卡上显存占用为1.675GB8

HuaweiProprietary-Restricted

Distribution关键

启示

DeepSeek

通过从模型结构到训推全流程的优化,带来大模型新范式DeepSeekV3/R1,大幅提升从训练到推理的计算效率,降低模型创新及应用落地的门槛推理优化单次推理效率倍级提升Token预测1次1token预测1次多Token预测一次预测多个token推理倍级提升HUAWEI后训练优化

降低学习复杂度强化学习需要裁判模型评估新老策略组队评估简化强化学习流程降低后训练复杂度业

界LLM

大模型DeepSeek核

心收益效果PP

并行算法1前1后单流水双向流水并行MLA低秩压缩减少缓存压缩KVCache降低内存90%支持更高并发训练精度FP16/BF16FP8混合精度DeepSeekMoE

更稀疏256选8+1模型容量提升3倍计算量减少70%AttentionMHA/GQA分组共享减少缓存计算通信优化降低计算,极致的掩盖,同时保证训练精度模型结构优化以计算换内存、降通信,空间时间双优化计算量减少35%平衡训练效率与

数值精度MOEGPT416专家选2计算与通信极致掩盖减少50%PP气泡9

Huawei

Proprietay-Restricted

Distribution关注高效、稳定、开放的底座·

极致性能、稳定可靠的AI集

群·

深度开放的平台和生态·极致的端到端性能效率优化Claude2Llama3-70B

②Baichuan2-13BDeepSeek-V3-671BGLM-130BDeepSeek-R1-671B关注便捷、易用、性价比的平台DeepSeek-R1-Distill-Qwen-32B·

开箱即用的强化学习套件·

兼顾成本与性能的蒸馏/微调方案AlexNet大模型从技术摸高走向技术摸高+工程创新并行

,训练需求持续增长①技术摸高:头部玩家将战略坚定投入预训练基础模型创新,丰富模型组合,追逐Scaling

Law,加

索AGI②工程创新:新的范式降低后训练和蒸馏门槛,模型效果大幅提升,出现平权现象,引发新一波的“百模干态”2012201320142015

201620172018

201920202021202220232024

20252026训练的算力需求将持续增长,算力结构从“预训练为主”走向“预训练+后训练/二次训练”10HuaweiProprietary-RestrictedDistribution

Doubao

2.0

A

Lama4G

Gemini2.0GPT-5DeepSeek-R1-Distill-Qwen-1.5B(蒸馏后较原模型能力提升10%+)G

Gemini

Utra

G

PalM(540B)

GPT-4/40·

便捷的部署、敏捷业务上线工

新新一轮百模千态技

摸高新一轮技术竞争训练算力需求(PFLOPS)

GPT-3/3.5175BMegatron-Tuning

NLG530BG

BERT-LargeGTransformerHunyuanGroq4①金融

交通

教育医疗电

油气

制造云服务

硬件+社区

一体机钉钉一体机电信息壤一体机昇腾社区新致金融一体机同花顺一体机京东云诸多厂家推出一体化方案对

外提供服务/自用硬件+开源模型+RL

套件+ISV/

云,商业模式逐渐成熟AS

IS基

型(DeepSeek/Uama.Qwen.

大量行业数据监督微调SFT更多行业高质量数据生成监督微调SFT行业大模型行业大模型部署更高效月级调优

周/天级优化 DeepSeek能力提升成为各行业生产力工具,加速推理落地干行百业DeepSeek

催熟大模型落地技术,降低推理部署门槛开箱即用的一体机,加速大模型应用落地华为云移动云电信天翼云联通云腾讯云阿里云亚马逊AWS

微软Azure数据依赖降低高质量数据

生成数据算法依赖降低高端人才

开源+蒸馏NVIDIAHugging

FaceGitHub主流云服务商已支持DS

覆盖公/私有云部署11

HuaweiProprietary-Restricted

Distribution主流算力、主流社区

均已支持DeepSeek模型蒸馏-模型小型化少量行业数据强化学习魔乐社区基础模型Llama/Qwen/)昇腾TOBE模型服务商潞晨科技已上线硅基流动已上线清昴已上线讯飞测试中运营商电信天翼云已上线联通云已上线移动云已上线南京、福建、浙江移动已上线上海、江苏电信已上线国计民生行业龙岗区政府已上线北京银行已上线广大证券已上线北京、南京、西安、武汉、苏州、无锡等公共服务平台已上线招行测试中工行测试中太保测试中模型名称Atlas

300I

DuoAtlas

800I

A2DeepSeekV3√DeepSeekR1√DeepSeek

Janus-Pro-1B/7B√√DeepSeek

R1-Distill-Llama-70B√DeepSeek

R1-Distill-Qwen-32B√DeepSeek

R1-Distill-Llama-8BDeepSeek

R1-Distill-Qwen-1.5B/7B/14B√√ DeepSeek

模型发布即支持昇腾推理,各行业已基于昇腾快速上线DeepSaek-V3(CMWote/0gDeepSeek-RhaDeepSeek

发布两周,3大社区全系列模型上线40+客户/伙伴基于昇腾已上线,15+测试中(预计两周内全部上线)最新DeepSeekV3/R1/Janus-Pro

及6个蒸馏模型

基于昇腾开箱即用,配套版本已上线各大开源社区配套版本上线昇腾社区:https://www.hiascend.com/software/mode

lzoo/models/detail/678bdeb4ela64c9dae51d353d84dddi5配套版本上线魔乐社区:/models/MindIE/deeps

eekv312

Huawei

Proprietary-Restricted

DistributionAtlas

800IA2(256GB)Atlas300I

Duo系统吞吐

并发路数730

Token/s@14B

80路@14B956Token/s@8B115路@8B956Token/s@7B115路@7B思

力Atlas300V系统吞吐并发路数432Tnken/s16路系统吞吐4940Token/s@32B7500Token/s@14B并发路数247路@32B300路@14B

珑京科技

昇腾DeepSeek—体机:大吞吐+高并发,加速行业模型落地系统吞吐1911Token/s潞展科技移动,贵一体系统吞吐3300Token/s165路

珑京科技思

模型参数:671B+

版DeepSeek

V3/R1Atlas800I

A2(1024GB)模型参数:70BDeepSeek-R1-Distill-Lama-70BAtlas800IA2(512GB)模型参数:14B/32BDeepSeek-R1-Distill-Qwen-32BDeepSeek-R1-Distill-Qwen-14B模型参数:7B/8B/14BDeepSeek-R1-Distill-Qwen-14B

DeepSeek-R1-Distill-Llama-8B

DeepSeek-R1-Distill-Qwen-7B模型参数:1.5BDeepSeek-R1-Distll-Qwen-1.5B

金融

13

Huawei

Proprietary-Restricted

Distribution

教育

油气

制造

交通珑京科技思腾合力个人知识管理个人文档分析编程辅助个性化学习辅导

创意写作AI编程

智能对话

金融研报文本创作

营销文案内容检测并发路数192路开

边端设备编程辅助

智能客服政务电力珑京科技并发路数模型集合模型名称参数计算精度产品配置系统吞吐token/s并发用户数DeepSeek-V3DeepSeek

V3671BINT8Atlas800I

A21024GB1911192DeepSeek-R1DeepSeek-R1671BINT8Atlas800I

A21024GB1911192DeepSeek-R1蒸馏模型DeepSeek-R1-Distill-Llama-70B70BINT8Atlas800I

A2512GB3300165DeepSeek-R1-Distill-Qwen-32B32BINT8Atlas800I

A2256GB4940247DeepSeek-R1-Distill-Qwen-14B14BINT8Atlas800I

A2256GB7500300Atlas

300I

Duo1*Duo

96GB

PCIE73080DeepSeek-R1-Distill-Llama-8B8BINT8Atlas

300I

Duo1*Duo

96GB

PCIE956115DeepSeek-R1-Distill-Qwen-7B7BINT8Atlas

300I

Duo1*Duo

96GB

PCIE956115DeepSeek-R1-Distill-Qwen-1.5B1.5BINT8Atlas

300V1*300V

24GB

PCIE43216

DeepSeekV3/R1

及蒸馏模型,昇腾DeepSeek

一体机推荐配置14Huawei

Proprietary-Restricted

Distribution华为昇腾AI

基础软硬件介绍DeepSeek

洞察及昇腾适配进展215

Huawei

Proprietary-Restricted

Distribution1昇腾AI基础软硬件架构全面创新,使能行业场景化应用行业场景化应用视图分析、检索聚类、搜索

推荐、自然语言处

理、智能语音、自动驾驶应用使能应用使能套件/SDKAI计算框架PyTorch/TensorFlow/Caffe

.异构计算架构CUDANV系列硬件模组/加速卡/服务器/-->集群NV处理器Ampere系列/

Hopper系列…nVIDIA.

CUDAnVIDIAModelArts

应用使能训练平台/推理引擎/模型套件/SDKAI计算框架昇思MindSporePyTorch/TensorFlow/Caffe....异构计算架构CANNAtlas及昇腾伙伴系列硬件模组/小站/加速卡/服务器/集群昇腾处理器昇腾310系列/昇腾910系列

…英伟达AI基础软硬件架构[M]!昇思CANNAAscend昇

AI

构16Huawei

Proprietary-Restricted

Distribution计算架构CANN深度开放,使能高效灵活开发,匹配开发者使用习惯深度开放CANN,

一套架构使能昇腾原生开发

位NV

CUDA,匹配开发使用习惯加

Megatron

DeepSpeed

AscendSpeedAI框架昇思MindSporePyTorch

TensorFlow

…GE

图引擎开放图编译、图优化、图执行,支持自定义图融合,提升整网性能HCCL

集合通信库开放通信算子、平台接口,支持自定义通信算法,提升网络通信效率Graph

Engine

图引擎HCCLAscend

C高

阶APIAscend

C

低级APIAscend

acINNMT

、KS自定义图融合patternTX

、MThash

算法自定义调优XF自定义切分策略KS自定义算子开发XF结合场景差异优化nVIDIA.CUDATensorRTplugins&parserNV

NCCLNV

CUTLASSNV

CUDA-CNV

cuDNNGE

图引擎集合通信库类库/模板通用编程算子加速库算子加速库开放1600+基础算子接口、30+融合算子接口,简化开发复杂度,提升开发效率毕昇编译器|Runtime运行时开放硬件资源接口,满足开发者对模型开发、系统优化、三方生态对接等各场景需求Ascend

C编程语言开放130+底层API

、60+高层API,

支持高性能自定义融合算子开发KS直接发起Kernel

LaunchCANN昇

使

能CANNNV

Runtime

Ascend

Runtime17Huawei

Proprietary-Restricted

Distribution运行时》》》模型训练:算网/算存深度协同是大模型分布式并行训练的基础大模型技术发展方向干亿稠密/万亿稀疏超长序列多模更大规模/更复杂的组网

更复杂的模型及数据切分

大(

数模

参数存he储dkPo和nt读)写大规模组网·

超大组网规模:2层1:1无收敛的AI网络架构,最

大支持128

K集群规模组网,千卡到万卡平滑演进支持2级框盒、框框组网,适用于大规模及超大规模集群…

…u

NPU算网协同·

网络级负载均衡:独家NSLB算法,算网协同

调度,多任务节点非连续组网情况下,通信带宽提升20%、模型性能提升7%3

、A

任务信息任务、通信过4、动态路径调整A

调度平台算存协同·

极致读写性能:

CKPT等算存读写协同优化、

PB

级存取+TB级带宽,数据读取效率提升50%dxO)(

武出户()理书aDPC

区备优化的为案饮化监方案Pu/oujonoim计算节点以全部通信关系和拓扑信息作为输入通过算法计算出最优结果,实现AI参数面全网负载均衡18Huawei

Proprietary-Restricted

Distributionr存储节点Japith设2、AI

任务调度网络控制器模型通信与计算优化,单机执行最优算子深度融合“工序合并”减少计算数据搬入

搬出的时间及内存开销计算与通信融合计算数据细粒度切分,减少计算与通信相互等待计算加速忽略无效计算,减少计算量和内存量计算通信计算1

2

3

4通信1通信2通信3

通倍自适应选择性重计算、内存碎片优化、MultiheadAttention中常见模型的mask上

三角区域均接近于0算子库低阶二进制算子库

高阶融合算子库CANNAscend

C编程语言+Runtime开放接口模型训练:应用使能软件加持,

MFU

领先、线性度持平NV模型训练最优=单机执行最优+集群并行最优

+中断时间最短模型算力利用率(MFU)

45%+

超大集群线性度

90%+软件层分布式并行充分调度算力资源提供分布式加速库,内置主流加速算法,满足各类模型加速场景硬件层算网协同提升有效吞吐NLSB

网络级负载均衡实现网络动态路由,有效吞吐达98%控制器全局集中算路自动生成路径并动态下发网络网络控制器获取网络拓扑

下发路径数据并行、流水并行

L

层Ln层层内通信并行19Huawei

Proprietary-Restricted

Distribution分布式并行+算网协同,集群并行最优OPyTorch[M

]

界思模型并行场景/应用测试模型测试结果对话搜索DB-200B0.94x

A800客服、文生图场景;

金融助手SDXL3.48~3.63x

A10Llama2-7B1.41~2.72x

A10Llama2-13B1.44~2.19x

A10电商ChatGLM2-6B1.86x

A30Baichuan2-13B1.82xA30Qwen-14B1.81xA30ZN大模型智脑13B1.7xA30图像识别、OCR文

字识别和视频处理Llama2-70B1.7x

L20智慧教育、办公问

答星火-65Bx800T

A2交互搜索,金融客服问答step1V-130B多模态2.0x

L20对标Triton+TMS/vLLM业界标准RPC接口高效对接业务层·模型管理,集群管理,devops·

支持多实例并发对

标TensorRT-LLM·

支持社区模型快速迁移·

自回归解码、扩散过程优化·

稀疏量化压缩、

并行推理支持PyTorch/

思·

少量代码实现训练向推理平滑迁移·整图/子图优化+单算子混合推理对标TensorRT·

图优化,算子融合,

Kernel

优化·

量化、混合精度加速:异步下发,多流水执行_---模型推理:提供分层开放的推理引擎MindIE,使能高效推理昇腾推理引擎

M

indIENEW

MindIE-Service

第三方推理服务推理服务化

MindIE-MS

Triton

backendMindIE-ServerMindIE-ClientvLLM3rdMindIE-RT推理开发工具

算子加速库NEWD推理套件

MindIE-LLM框架推理推理运行时MindSpore

对接

MindIE-Torch20HuaweiProprietary-RestrictedDistributionNEWMindIE-SDCANN推理应用接口迁

具模型支持度分析和修改建议模型支持度评估离线模型——

分析报告模

具实现训推一体的模型转换一键式命令触发三方框架

昇腾处理器模型格式

模型格式图准备->图拆分->图优化->图编译精

具一站式调优工具,提升精度优化效率性

具一站式调优工具,提升性能优化效率用户APPIDEAscendNPU模型迁移:工具链进一步升级,提升GPU

到昇腾快速迁移能力GPU训练=>昇腾推理:提供MindStudio一站式工具链,3~15人天可完成迁移,80%场景仅需3人天差异二:工具链差异导致迁移效率不同算子重开发、精度调试、性能调优的难度

体现在工具链的能力上昇腾

无工具链—

其他架构亟需精度对比工具:

GPU

的推理精度在适配昇

腾训练的模型时,需要以昇腾训练的模型精度为标杆迁

:建立工具链完成对昇腾的精度

对比和调优。差异三:基础能力差异导致支持完备度不同基础库、加速库、三方库等支持情况不同跨架构时需通过引入、适配第三方库,或者开

发基于自身架构的对等库来解决库的差异问题差异一:芯片架构差异导致算子实现不同例如,矩阵计算时,昇腾采用16

x16

分形,英伟达采用8x8

分形

即使算子功

同,在不同架构下算子实现方式可

能不

同计算架构支持的主要基础库/加速库昇腾DVPP/AIPP/mxVision/ACLNN/ACLBlas等英伟达CodecSDK/CV-CUDA/cuDNN/cuBlas/DAL等GPUCUBE计算单元结构为8x8x4(A100)昇

腾CUBE

计算单元结构

为16x16x16HUAWEI21Huawei

Proprietary-Restricted

Distribution命令行

数据采集GPUGraph

NPUGraph芯片架构差异数据解析

DataMindStudio精度结果MindStduio0S业界主流4款开源大模型GPT-3

参数:13

B/100B

/175B已测试客户:YD

、MY

、ZSreIUUS业界1.00X1.00X1.05X0.83X1.04X0.83XM

indSpore+昇腾

PyTorch

NV100B业界7B业界13B业界70B业界63业界1.23X1.01X0.91X1.13X1.21X7B业界业界70B业界业

B7B业界参数:7B/13B/70B已测试客户:TYY、YD、BOSS、MY、360、MT、CA

、HWY

、CGCSYSGLM-3

参数:6

B/10B/130B已测试客户:ZP、BJYH、YCCXJH、MT、LTYOwen-2

参数:7B/72B0.9X业界昇腾已支持国内外开源开放大模型,实测性能持平业界国内唯一已完成训练干亿参数大模型的技术路线,业界主流大模型PyTorch

实测性能均达到0.8~1.1倍业界最新主流开源模型均已陆续适配并商用中Baichuan2|GLM

V3|SiT|MixTral-8x7B|Stable

Diffusion|OpenSora

|VideoGPT

|Qwen-VL

.

…22Huawei

Proprietary-Restricted

Distribution测试报告满

量m已测试客户:DX、VIP

72B业界

0.87X21e*…LLaMA-3S7B5核心技术H800A2FP8+20%~25%不支持无辅助负载均衡损失评分效果提升评分效果提升DualPipe计算通信比1:1->8:1,+8~12%计算通信比3:1->6:1,+4~6%跨节点All2AlI优化RMSNorm+MLA部分重计算省2~3G内存省2~3G内存场景核心技术A2DeepSeek适配LoRA微调CCLoRA支持25Q1支持Fused_MLP支持qLoRA微调CCLoRA支持Fused_MLP不支持长序列微调长序列CP方案支持微调算法目标性能部署建议LoRA微调1.1x业界8机Atlas800T

A2qLoRA微调1.1x业界4机Atlas800TA2全参微调1.1x业界32机Atlas800T

A2DeepSeek模型A2适配情况DeepSeekV3已适配DeepSeek

R1已适配DeepSeekJanus-Pro已适配

DeepSeek

系列模型昇腾训练产品适配计划及微调部署建议支持CCLoRA、Fused_MLP

核心技术,提升微调训练吞吐性能DeepSeek

系列预训练完成昇腾适配,目标性能1.1x

NVDeepSeek

系列模型微调目标性能1.1x业界(Q1)支持DualPipe

、跨节点All2AlI

等优化23Huawei

Proprietary-Restricted

DistributionDeepSeek

V3/DeepSeek

R1(671B)

“满血版”BF16

精度推理采用BF16或FP16

数据格式进行推理,需要内存约为1340GB需要采用Atlas800I/T

A2(8*64GB)4机并行X4Atlas800I

A2(8*64GB)最小配置为4机并行采用Atlas

800T

A2时亦需4机井行INT8

精度推理采用INT8

数据格式进行推理,

需要内存<700GB,

可2机并行X2Atlas800I

A2(8*64GB)最小配置为2机并行采用Atlas800T

A2时亦需2机并行模型硬件格式部署建议进展DeepSeekJanusPro1BAtlas800IA2BF16单卡部署,单机8实例已适配发布Atlas

300IDuoFP16单卡部署已适配发布A2/DuoINT8适配中适配中DeepSeekJanusPro7BAtlas800IA2BF16单卡部署,单机8实例已适配发布Atlas

300IDuoFP16单卡部署已适配发布A2/DuoINT8适配中适配中模型参数格式部署建议进展DeepSeek-

R1-Distill-Llama8BBF16/INT8<14B模型可采用Atlas300IDuo推理;

大于14B模型推荐Atlas800IA2推理:·1.5B:Duo/A2单卡部署,开发板部署·7~8B:Duo卡2卡并行,

A28卡并行,支持开发板部署·

14B:Duo卡2卡并行,

A28卡并行·32~70B:A28卡并行整体已适配发布Atlas800IA2BF16

/INT8推理已发布除70B模型外,其他模型Atlas

300IDuoFP16/INT

870BBF16/INT8DeepSeek-

R1-Distill-Qwen1.5BBF16/INT87BBF16/INT814BBF16/INT832BBF16/INT8

DeepSeek

主干模型均已支持昇腾推理开箱,性能持续提升中MLA

架构:

支持EP

策略:支持PD

分离部署:待支持W8A8

量化:

支持

MTP多token

预测:

待支持多模态模型DeepSeek

Janus

ProDeepSeek

R1蒸馏模型24

Huawei

Proprietary-Restricted

Distribution关

能优

性参数面用于智能集群分布式推理时参数交换,要求网络具备高吞吐低时延能力,部署高带宽的智能

无损RoCE网络,每台推理服务器8个200GE

ROCE光口样本面用于访问存储区的高速大带宽互联的存储系统,推荐部署为RoCE无损网络,每台推理服务器

2个25GE光口业务面用于系统业务调度和管理。通常部署为TCP/IP有损网络,每台推力卡服务器2个25GE光口带外管理AI服务器BMC管理,可选DeepseekV3/R1

模型本地化部署组网方案训推平台(按需配置)xx台通用服务器16*400/E一分二LeafCE9860*2台SpineCE9860*2台400G

RoCE交换机参数面DeepSeekR1/V3推理配置建议

BF16

最小配置4台计算节点;INT8

置2

算节点

;业务面CE6865E8*25GE推理调度管理流量样本面(可选)i.Leaf

CE9860推理读流量分

级带外管理面(BMC

管理可选)CE58824*GEAI

推理服务器(Atlas800I

A2)4台*8口*20DGESpine

CE9860Leaf

CE6865E8*25GE9950DPC访问9540存储区(可选)25

HuaweiProprietary-Restricted

Distribution_400G100G10G200G25GGENFS

访

河图

例序号模型发布曰期描述本地部署推理最低配置当前支持情况1DeepSeek-V32024.12.16MOE,671B4*Atlas800I

A2(8卡,64GB)https://modelers.cn/models/MindI

E/deepseekv32DeepSeek-R12025.2.26MOE,660B4*Atlas800I

A2(8卡,64GB)https://modelers.cn/models/MindIE/deepseekR13DeepSeek-R1-Distill-Qwen-1.5B2025.1.20Qwen,1.5B1*310P或1*310B310P已支持,直接用mindIE可跑通,

310B可支持4DeepSeek-R1-Distill-Qwen-7B2025.1.20Qwen,7B1*310P310P已支持,直接用mindIE可跑通5DeepSeek-R1-Distill-Qwen-14B2025.1.20Qwen,14B1*310P(显存不小于48GB,量化

后显存不小于24G)310P已支持,直接用mindIE可跑通6DeepSeek-R1-Distill-Qwen-32B2025.1.20Qwen,32B2*310P(显存不小于96GB)推荐4*310P以上配置310P已支持,直接用mindIE可跑通7DeepSeek-R1-Distill-Llama-8B2025.1.20Llama,8B1*310P310P已支持,直接用mindIE可跑通8DeepSeek-R1-Distill-Llama-70B2025.1.20Llama,70B1*Atlas800I

A2(8卡,32GB)

或8*310P310P已支持,直接用mindIE可跑通9Janus-Pro

1B2025.1.28多模态,1B1*310P或1*310Bhttps://modelers.cn/models/MindIE/Janus-Pro310B适配中10Janus-Pro

7B2025.1.28多模态,7B1*310Phttps://modelers.cn/models/MindIE/Janus-Pro

DeepSeek

系列模型昇腾

NPU

推理配置建议

快速部署DeepSeek

模型

模型资源获取推理资源评估推理设备选型模型权重下载推理环境调测集群连通测试推理镜像制作推理模型部署模型权重转换模型量化纯模型测试服务化启动推理模型测试性能测试精度测试服务化测试 容

署 物

署镜像封装,提供容器命令

基于场景,提供开发环境部署方法运行环境部署加速框架Deepspeed

|Mindspeed|MindIEAl计算框架

PyTorch

|TensorFlow|MindSpore异构计算架构CANNAAscend

昇腾处理器

Python=3xPyTorch=2.0CANN7.0.0,

依赖MindSpeedPython=3xCANN6.0.RC3,依赖AdlLite推荐昇腾最佳实践,快速复现DeepSeek

系列模型推理流程,加速客户应用上线。27

Huawei

Proprietary-Restricted

DistributionAI计算使能服务-DeepSeek

部署支持:快速适配DeepSeek

模型,支撑模型快速上线DeepSeek-R1-Distilllama DeepSeek-R1-Distill-qwen Janus-Pro

deapseok

已支持的DeepSeek

系列模型

AI软件栈多且复杂,

客户不清楚模型组

,模型分析工具链有

哪些,模型是否支持容器化部署等关键特性W8A8

量化|服务化部署|EP并行DeepSeek-V3DeepSeek-V2.5推理运行环境部署支持DeepSeek-R1ModelAModelBENNBENVA赋能流程01

需求调研02

方案制定

03

赋能实施·

调研客户工程师开发过程中

的痛点、难点·

明确客户当前能力缺位情况·

提供赋能内容·

提供昇腾样例·

昇腾模型/应用开发流程演示·

Demo样例讲解·

昇腾AI基础知识赋能DeepSeek系列赋能昇腾基础昇腾全栈软件社区资源讲解AI基础知识环境搭建示例CANN&AI框架赋能昇腾模

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论