王瑞雪:中国移动智算中心网络技术实践与思考_第1页
王瑞雪:中国移动智算中心网络技术实践与思考_第2页
王瑞雪:中国移动智算中心网络技术实践与思考_第3页
王瑞雪:中国移动智算中心网络技术实践与思考_第4页
王瑞雪:中国移动智算中心网络技术实践与思考_第5页
已阅读5页,还剩11页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中国移动智算中心网络技术实践与思考姓名:王瑞雪中国移动目录一、中国移动NICC技术体系二、智算中心网络面临的挑战三、智算中心网络创新实践四、总结与展望智算中心背景与需求AIGC(AI-Generated

Content,人工智能生产内容)发展迅猛,迭代速度呈现指数级增长,全球范围内经济价值预计将达到数万亿美元,智能算力将成为未来主流算力国内市场规模2000亿元(2025年)大模型参数量千亿、万亿级GPU算力规模10000+卡新型智算中心—以高性能GPU、AI加速卡为中心,以高速互联智算集群为目标,形成集约化建设的E级超大规模算力基础设施,具备软硬件AI全栈环境,支撑AI大模型的高效训练和推理NICC新型智算中心技术体系新平台-算力原生“芯合”算力原生平台,使能应用一次开发,跨架构迁移新互联-高速互联计算总线构建智算芯片快速互联标准体系,提升卡间互联性能新存储-内存池构建统一内存池,实现一致性内存语义和空间寻址新互联-全调度以太网GSE无阻塞、高带宽、低时延网络,提升节点间的传输性能新算效-DPU与计算、网络、存储深度协同,助力算效提升。新节能-冷板式液冷聚焦液冷服务器和机柜的接口标准,优化运维管理能力中国移动NICC技术体系从新互联、新算效、新存储、新平台、新节能等五大方面进行系统性重构,加快发展智能算力,构建标准统一、技术领先、软硬协同、兼容开放的新型智算中心技术体系NICC新型智算中心技术体系布局攻关创新技术推动智算发展基础设施智算平台ROCmCUDACANNTesnsorFlowPyTorchPaddlePaddleDeepSpeedGPU液冷高效供电机房配套冷却水系统应用使能......智算运营跨架构编译器算力抽象运行时算力原生智算运维裸金属实例容器实例DPURoCE GSE高速互联计算总线文件 对象

块 内存池融合存储 全局统一存储Hypervisor

+虚拟机实例AI开发框架AI

DSA互联计算网络存储存储算效节能平台AI参数面通信特征服务器内Tensor并行(机内总线通信)大模型的参数量呈指数增长态势,“大模型”正走向“超大模型”,基于数据并行、模型并行的分布式训练成为处理超大模型和超大数据集的有效手段一组服务器内Pipeline并行(网络同轨通信)服务器间数据并行(网络同轨通信)GPU7

GPU6

GPU5

GPU4

GPU3GPU2

GPU1

GPU0Pipeline

stage0GPU7

GPU6

GPU5

GPU4

GPU3GPU2

GPU1

GPU0GPU7

GPU6

GPU5

GPU4

GPU3GPU2

GPU1

GPU0Pipeline

stageXDataParallel

Rank0Pipeline

stage1GPU7

GPU6

GPU5

GPU4

GPU3GPU2

GPU1

GPU0Pipeline

stage0GPU7

GPU6

GPU5

GPU4

GPU3GPU2

GPU1

GPU0GPU7

GPU6

GPU5

GPU4

GPU3GPU2

GPU1

GPU0Pipeline

stageXDataParallel

Rank1Pipeline

stage1DataParallelRank

Y大模型训练通信特点:周期性,每轮迭代的通信模式一致流数量少,单流带宽大,同步突发每轮通信量大(GB~百GB级)服务器内通信量为百GB级,以allreduce为主服务器间通信量为GB级,包括allreduce和p2p,大部分可以被计算掩盖MOE会引入节点间alltoall流量网络是提升AI大模型训练效率的关键作为集群共享资源,相比单点GPU故障或性能波动,网络故障影响域大,网络性能波动影响范围广在大模型训练任务场景,并行系统节点数越多,机间通信占比越高,网络性能成为获得线性加速比的关键AI业务对丢包敏感,2

的丢包就会使RDMA吞吐率下降为0GPU集群性能

单GPU性能*N网络芯片能力一定程度决定智算中心网络规模和性能,单芯片容量越大,组网规模越大且成本越低大模型以GPU集群分布式训练为基础,集群节点间频繁地参数同步带来大量通信开销,网络性能成为提升GPU集群算力水平的关键集群有效算力∝{GPU单卡算力*总卡数*线性加速比*有效运行时}网络性能决定GPU集群算力加速比 芯片能力决定GPU集群组网规模 网络可用性决定GPU集群稳定性H800(400G*8)服务器,51.2T可支持1024台服务器组网,12.8T仅支持64台服务器组网12.8T芯片端口数量交换机数量Leaf32*400G128Spine32*400G128Core32*400G6451.2T芯片端口数量交换机数量Leaf128*400G32Spine128*400G16以256台H800服务器,每服务器出8个400G网卡为例传统无损以太技术存在性能瓶颈,需从底层机制革新现有以太网协议基础转发和调度机制,在AI模型训练场景存在天然缺陷,单纯优化上层网络协议无法解决,需深入底层基础协议,对物理层、MAC层转发机制进行革新,突破无损以太性能瓶颈有效通信带宽≠网卡/交换机组网物理带宽任务同步产生“多打一”流量,拥塞导致时延、抖动增加方向:对每条流的多个数据包逐个进行负载分担,实现单流在全路径“喷洒”,提升有效带宽,更好应对突发流量问题:传统以太网源端发流不关注网络情况及目的端接受能力,直接向网络“推”流,AI训练过程存在多打一流量,导致网络产生拥塞或丢包;通知源端降速或重传,导致GPU空闲,算力损失问题:AI训练的流特征是流数量少但单流带宽大,传统流级负载均衡极易造成多个流哈希到同一条链路,造成部分链路拥塞,部分空闲,网络利用率低,无法应对突发的网络流量In-cast流量方向:源端向目的端“请求”发送权限,基于网络转发能力的被动“拉”流,最大概率消除拥塞概率,优化长尾时延如何提升网络可靠性和有效带宽,降低时延抖动是提升模型训练效率的关键基于流转发,流数量少导致哈希失效,链路负载不均 源端任意向网络推流,出现拥塞被动降速,GPU闲置等待全调度以太网(GSE)技术特征从“局部”决策到“全局”调度从“流”分发到“报文”分发从盲发+被动控制到感知+主动控制将业务流拆分到不同“报文容器”转发,提供逐“报文容器”负载均衡机制,提升带宽利用率从被动拥塞控制,到基于“授权请求和响应机制”的主动流控,最大限度避免网络拥塞产生全局视野的转发调度机制,实现集中式管理运维、分布式控制转发,提高网络可用性当前:逐流负载,链路利用率低、发生拥塞被动降速未来:逐报文容器转发,链路负载均衡,全局调度,避免拥塞联合产业发布全调度以太网(GSE)技术架构,最大限度兼容以太网生态,创新基于报文容器(PKTC)的转发及调度机制,构建无阻塞、高带宽、低时延的新型智算中心网络,形成标准开放的技术体系,助力AI产业发展创新以太网转发机制,实现三大核心机制转变LeafSpineSpineSpineLeaf3 2 13 2 132

13 2 13 2 13 2 1拥塞3 2 13 2 12 1丢包全调度以太网(GSE)组网场景GSE协议可根据网络设备和网卡能力,将方案各组件功能在网络组件中重新分工,支持多种组网场景,为后续网络建设和设备选型提供灵活的选择方案场景一:仅网侧运行GSE,网卡不感知 场景二:部分功能下沉网卡,实现端网协同…GSF…GSFGSPLeaf网卡网卡网卡计算卡计算卡计算卡GSP网卡网卡网卡计算卡计算卡计算卡SpineGSF…GSFGSP…Leaf网卡网卡网卡计算卡计算卡计算卡GSFGSPGSPGSP计算卡计算卡计算卡Spine网卡GSP和GSF角色均由网络设备担任,执行GSE头解封装、容器生成、多路径分发、端到端授权应答及报文排序传统RoCE网卡,对网卡无额外要求源GSP、GSF由网络设备担任,执行GSE头解封装、容器生成、多路径分发等功能网卡承担部分GSP角色,负责授权应答和报文排序全调度以太网(GSE)推进进展评估评测技术标准联合仪表厂家开展合作,制定普适统一的网络功能、性能评估方法联合产业推动GSE方案成熟,形成开放统一的技术标准体系依托中国移动CIFIT试验网,验证新型网络技术,推动技术成熟与规模建设创新试验联合产业发布《全调度以太网(GSE)技术架构》白皮书中国算力大会正式启动全调度以太网(GSE)推进计划中国网络大会发布业界首款GSE原型系统CCSA立项《全调度以太网总体技术要求》2023.82023.92023.5 2023.6全调度以太网(GSE)推进计划中国移动携手中国信通院,联合国内外三十余家主流互联网,设备商、芯片商、高校院所联合发起GSE推进计划,推动智算中心网络技术创新、标准完善和产业应用,打造高速无损、开放兼容的新型智算中心网络技术体系全调度以太网(GSE)推进计划研究范畴:物理层:低时延Phy、PhySEC、故障快速检测、B400G高速光接口、光交换等链路层:基于报文分发和重组机制、调度技术、链路级安全及容错等网络层:新型组网拓扑、新型组播/任播协议等;传输层:改进的RDMA、新型拥塞控制等应用层:在网计算、存储加速、开放API框架等管理和运维体系:网络可视化、可调试能力、多维自动化能力中国移动,中国信息通信研究院,华为、中兴、锐捷、新华三、浪潮、Intel、Broadcom、清华大学、上海交通大学、鹏城实验室、紫金山实验室、北京邮电大学、中科院计算机网络信息中心、中信科、Spirent、是德科技、盛科、云合智网、楠菲微电子、燧原科技、昆仑芯、迈普,星云智联、云脉芯联、中科驭数、云豹智能、大禹智芯、中盈优创等成员情况:期待更多产学研合作伙伴加入GSE推进计划,携手共建新型智算中心网络产业生态!业务通信原语与网络通信模型存在差异分布式系统节点间以多对多的集合通信为主,业界主流方案基于RDMA点到点高效传输,实现多对多集合通信,存在性能瓶颈11Npoint-to-point34Reduce4.6Gather1.2Reduce-Scatter0.2Bcast14Scatter0.2Allgather0.6AllReduce19.4AlltoAll6.814.86Barrier13.239.4AI大模型中典型通信原语调用N超算系统通信原语调用统计当前组播实现方式多播业务效率问题引入了与通信规模线性相关的额外开销,且无法通过优化下层网络的延迟/吞吐性能来消除扩展性问题有测试表明,RDMA商用网卡在QP数量超过256时,吞吐即会出现明显的下降WangZ,LuoL,NingQ,etal.SRNIC:AScalableArchitectureforRDMA

NICs[J]NDMA面向集合通信的原生设计,最优化集合通信性能交换机无处理QPType:RCOp:Send

Only进交换机前出交换机后交换机复制报文新QP

Type:

MCOp:Send

Only新QP

Type:

MCOp:Send

Only交换机汇聚ACK新QPType:CCOp:Acknowledge新QPType:CCOp:Acknowledge原始请求56->54交换机经计算后修改报文目的ip:

56->53数据直回53->56新QPType:ANYC(复用RD)Op:Send

Only新QPType:ANYC(复用RD)Op:Send

Only原始请求

56->53转发请求

53->54数据传输

54->53数据传输

53->56网络级DMA(NDMA)对网络中一组节点内存直读/写,是面

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论