智算中心网络技术实践与思考_第1页
智算中心网络技术实践与思考_第2页
智算中心网络技术实践与思考_第3页
智算中心网络技术实践与思考_第4页
智算中心网络技术实践与思考_第5页
已阅读5页,还剩25页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中国移动智算中心网络技术实践与思考姓名:王瑞雪ooe二、智算中心网络面临的挑战ooe三、智算中心网络创新实践智算中心背景与需求AIGC(AI-GeneratedContent,人工智能生产内2000亿元(2025年)千亿、万亿级新型智算中心—(N.CC以高性能GPU、AI加速卡为中心,以高速互联智算集群为目标,形成集约化建设的E级超大规模算力基础设施,具备软硬件AI全栈环境,支撑AI大模型的高效训练和推理NICC新型智算中心技术体系布局攻关创新技术推动智算发展布局攻关创新技术推动智算发展PyTorchDeepSpeedTesnsorFlowPaddlePaddle构建智算芯片快速互联标准体系,提升卡间互联性能PyTorchDeepSpeedTesnsorFlowPaddlePaddle构建智算芯片快速互联标准体系,提升卡间互联性能无阻塞、高带宽、低时延网络,提升节点间的传输性能构建统一内存池,实现一致性内存语义和空间寻址智算运营跨架构编译器智算运营跨架构编译器算力抽象运行时ROCm平台CUDACANNCUDACANN虚拟机实例容器实例智算运维与计算、网络、存储深度协同,助力算效提升。“芯合”算力原生平台,使能应用一次开发,跨架构迁移聚焦液冷服务器和机柜的接口标准,优化运维管理能力存储算效虚拟机实例容器实例智算运维与计算、网络、存储深度协同,助力算效提升。“芯合”算力原生平台,使能应用一次开发,跨架构迁移聚焦液冷服务器和机柜的接口标准,优化运维管理能力存储算效文件对象块内存池GPUDPUAIDSA全局统一存储融合存储裸金属实例RoCERoCEGSEGSE高速互联计算总线高速互联计算总线高效供电冷却水系统液冷节能高效供电冷却水系统液冷节能服务器内Tensor并行(机内总线通信)服务器内Tensor并行(机内总线通信)服务器间数据并行(网络同轨通信)大模型训练通信特点:服务器间数据并行(网络同轨通信)大模型训练通信特点:集群有效算力∝{GPU单卡算力*总卡数*线性加速比*有效运行时}GPU集群性能≠单GPU性能*NH800(400G*8)服务器,51.2T可支持1024台服务器组网,12.8T仅支持64台服务器组网AI业务对丢包敏感,2%的丢包就会使RDMA吞吐率下降为0传统无损以太技术存在性能瓶颈,需从底层机制革新基于流转发,流数量少导致哈希失效,链路负载不均源端任意向网络推流,出现拥塞被动降速,GPU闲置等待衡极易造成多个流哈希到同一条链路,造成部分•方向:对每条流的多个数据包逐个进行负载分担,实现单流在全•问题:传统以太网源端发流不关注网络情况及目的端接受能力,直流量•方向:源端向目的端“请求”发送权限,基于网络转发能力的被动现有以太网协议基础转发和调度机制,在AI模型训练场景存在天然缺陷,单纯优化上层网络协议无法解决,需深入底层基础协议,对物理层、MAC层转发机制进行革新,突破无损以太性能瓶颈全调度以太网(GSE)技术特征联合产业发布全调度以太网(GSE)技术架构,最大限度兼容以太网生态,创新基于报文容器(PKTC)的转发及调度机制,构建无阻塞、高带宽、低时延的新型智算中心网络,形成标准开放的技术体系,助力AI产业发展创新以太网转发机制,实现三大核心机制转变321 1213LeafLeaf2133211213LeafLeaf2133211当前:逐流负载,链路利用率低、发生拥塞被动降速未来:逐报文容器转发,链路负载均衡,全局调度,避免拥塞全调度以太网(GSE)组网场景GSE协议可根据网络设备和网卡能力,将方案各组件功能在网络组件中重新分工,支持多种组网场景,为后续网络建设和设备选型提供灵活的选择方案场景一:仅网侧运行GSE,网卡不感知场景一:仅网侧运行GSE,网卡不感知场景二:部分功能下沉网卡,实现端网协同场景二:部分功能下沉网卡,实现端网协同•GSP和GSF角色均由网络设备担任,执源GSP、GSF由网络设备担任,执行GSE全调度以太网(GSE)推进进展技术要求》联合产业推动GSE方案成熟,形成开放统一的技术标准体系联合仪表厂家开展合作,制定普适统一的网络功能、性能评估方法依托中国移动CIFIT试验网,验证新型网络技术,推动技术成熟与规模建设全调度以太网(GSE)推进计划中国移动携手中国信通院,联合国内外三十余家主流互联网,设备商、芯片商、高校院所联合发起GSE推进计划,推动智算中心网络技术创新、标准完善和产业应用,打造高速无损、开放兼容的新型智算中心网络技术体系全调度以太网(GSE)推进计划研究范畴:•网络层:新型组网拓扑、新型组播/任播协议等;成员情况:•管理和运维体系:网络可视化、可调试能力、多维自动化能力期待更多产学研合作伙伴加入GSE推进计划,携手共建新型智算中心网络产业生态!业务通信原语与网络通信模型存在差异分布式系统节点间以多对多的集合通信为主,业界主流方案基于RDMA点到点高效传输,实现多对多集合通信,存在性能瓶颈N1当前组播实现方式多播业务效率问题当前组播实现方式扩展性问题•有测试表明,RDMA商用网卡在QP数量超过256时,吞吐即会出WangZ,LuoLNingNDMA面向集合通信的原生设计,最优化集合通信性能网络级DMA(NDMA)对网络中一组节点内存直读/写,是面向集合通信的原生传输框架,通过端网协同,将业务逻辑下沉,结合网络多播能力,实现组播、任播和聚播的高效传输交换机无处理QPType:RCOp:SendOnly交换机复制报文交换机复制报文ASISTOASISTOBE组播组播交换机汇聚ACK交换机汇聚ACK新QPType:CC聚播新QPType:CC新QPType:CC聚播新QPType:CC 任播数据直回新QPType:数据直回新QPType:ANYC(复用RD)新QPType:ANYC(复用RD)原始请求56->54交换机经计算后修改报文目的ip:56->53NDMA性能验证结果消息均有显著性能提升,任务完成时间平均降方式,NDMA使得存储IOPS提升45%以上•新测组分论坛——NDMA技术白皮书及解读原型介绍,华为、星云智联展台可看原型现场演示及网卡实物展示总结与展望•

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论