中国电信:分布式智算中心无损网络技术白皮书_第1页
中国电信:分布式智算中心无损网络技术白皮书_第2页
中国电信:分布式智算中心无损网络技术白皮书_第3页
中国电信:分布式智算中心无损网络技术白皮书_第4页
中国电信:分布式智算中心无损网络技术白皮书_第5页
已阅读5页,还剩42页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

3 4 4 4 6 7 9 9 30 314参数规模增加,模型训练的效果越来越好,且两者之间符合Scalinglaw规律。当模型的参数规模超过数百亿后,AI大模型的语言理解能力、逻辑推理能力以型参数的规模和性能后,AI大模型训练对于网络的“爆发式”增长。据统计,2012~2022年模型算力需求每年增长4倍,而2023千/万卡GPU组成的集群高速互联。此外,机内GPU通信和机外集合通信将产达到数百GB量级。若要在极短时间内完成参数交换,将对GPU与GPU间、GPU与网卡间、网卡与网卡间的超高带宽互联提出较高要求。网络拥塞和丢包也会严重影响GPU计算效率,据实验统计,0.1%的网络丢包率就会带来50%的算力损失,因此提升通信性能可有效释放智能算力。AI大模型训练/推理需要智算网络具备超大规模、超高带宽、超低),对AI基础设施带来极大挑战。在构建万卡甚至十5),及大型企业自建,集中在京津冀、长三角和粤港澳。算图1-1多智算中心合一场景的关键能力。算-算拉远能够充分利用碎片资源来执行图1-2碎片资源整合场景6计算集群和存储集群的网络成为实现云存储服务高性能和高可靠性的关键。存-(2)网络拥塞丢包,使性能急剧下降:当前AI训练采用RDMA协议,而要使得RDMA吞吐不受影响,丢包率必须保证在十万分之一以下,最好为零丢包。在长距拉远场景下,当网络出现拥塞时,若没有在RTT(往返时间)内及图1-3丢包影响RDMA吞吐7谷歌利用自研低成本、高性能TPUv4超级计算机(SuperPod)满足大模型8也是用2个TPUv4SuperPod训练的。OpenAI与微软也在计划建设十万甚至百又提出去中心化异构训练,利用分布式、异构和低带宽互联的AI训练资源来训践表明LLM训练的吞吐性能相比传统数据中心网络而言提升了14.9%。百度智之间通过全光子网络(APN)搭建LLM远程训练企业本地,而使用数百公里外数据中心的GPU进行训练,训练效果与本地的训图1-4阿里HPN7.0架构当前单点智算中心算力规模受限、算力资源碎片化严重,难以承载大规模9支撑十万卡甚至百万卡级别的AI训练任务,同时提高资源利用率,是未实现最优成本的bit传输和算力的绿色供给。图2-1分布式智算中心无损网络总体架构通用计算区:包括CPU等通用服务器,支持各种类型的应用程序和服务。色,通过相互协作确保整个分布式智算中心的高效图2-2AI集群区网络互联架构接入层:由ServerLeaf交换机组成,支持AI算力服务器准流控等技术,实现网络负载均衡和长距无损,为A广域互联层:不同智算中心节点之间采用OTN全光网一跳直达,全程无拥通过这些设计,AI集群网络架构能够在长距离、大规模的分布式计算环境伸,方案具备长距无损、超大带宽、超高可靠、弹性敏作为输入输出协议。由于RDMA对网络拥塞和输过程中不会出现拥塞或丢包现象,从而避(2)超大带宽:超大带宽能够确保大量数据在分输,加速AI模型的训练和推理过程。随着数据量的增加,分布式智算中心之间需拆建能力,能够根据计算需求的变化快速调整,快速准确地定位和解决问题,提高故障定位的准确分布式智算中心无损网络在IP网络层和光传输层都需要引入新的技图3-1分布式智算中心无损网络关键技术点智算业务的通信模式为集合通信,其中最主要的是AllGather和AllReduce集合通信。集合通信的特点是所有主机都会进行相同的操作,如图3-2所示。AllGather:多台主机把数据的不同部分发给所有图3-2集合通信操作Halving-Doubling(HD)算法。其中Ring算法通信模式简单,每台主机只需跟自己的邻居通信;HD算法通信模式较复杂,但通信次数比Ring算法少,静态时延带来的开销小,因此对于小字节的通信效果更佳。然而~~~~NS(3)每个代表主机接收到对方的数据后,进行本地加和,再将加和后的结图3-3跨长距集合通信算法架构图3-4新算法性能仿真其中智算业务限定了网络的流量模型是集合通信。同构主要指网络设备的带宽、每条等价路径上都有流经过,传统基于ECMP哈希的负载均衡技术无法做到所图3-5网络级负载均衡技术如图3-5所示,网络级负载均衡技术可以通过统一规划整网流量,让所有路方案,另一种是在跨多个智算中心时,由交换机+路由器端到端交换机精准流控技术主要解决智算业务场景下故障丢包引起的业务性能下备缓存不足以接纳链路在途数据包,从而发生丢包,如图3-6所示。图3-6近端拥塞和远端拥塞带来的影响不同备,也就是源Leaf交换机。随后,源流控协议报文,实现对流量的控速,如图3-7所示。图3-7交换机精准流控技术下一个周期还会出现。基于这一特征,源Leaf交换机需要维护一张信息表,用第一周期获取到整网拥塞信息后,后面所有周可以有效遏制拥塞和故障导致的反压扩散,显暴和死锁问题,实现了从端口级流控到数据流级面对数据中心内高度动态的业务负载变化,路由器精准流控技术展现出极高的灵活性与智能性。其能够根据实时网络状况动态调整流控策略,实现流量峰值速率的流级别的独立控制和精准反压,有效应对网络中的突发流量,保障整体网络的平稳运行,实现故障的有效隔离不扩散。此外,路由器精准流控技术引入的弹性级联降速机制,进一步增强了网络对突发情况的适应能力,提升了网络的韧性。图3-8路由器精准流控技术网络设备间的链路故障或模块故障会导致训练中断。业界400G/200G光模块年失效率达4~6‰。据统计,万卡集群平均每年发生60如图3-9所示,激光器的失效率占比为90%以上。200GE/400GE短距SR通道抗损技术可以在光模块出现单通道故障时,通过降低模块实际使用lane的图3-9光模块失效模式以及跨智算中心长距通信都对ROCE业务报文的传输质量提出了较高要求,希图3-10ROCE业务场景在分布式智算中心长距组网场景下,计算服务器的接入Leaf作为统计的Ingress节点和Egress节点,Spine和DCIleaf做Ingress:统计流的入口测量点。Ingress节点根据报文特征识别业务流量,Transit:统计流的中间测量点。Tra入网络的时间与离开网络的时间之差,即为网络在本成熟,现已部署在智算DCI百公里级互联场景中,在满足智算互联百T级大进一步降低单bit成本。图3-11单播速率不断提升信号占用的谱宽不断提升。为获得更大的单纤系统容量,需要在传统C波段的量(最高可达96Tbps超大带宽),进一步满足智算中心之间的海图3-12C+L波段提供更大容量根据距离、时延等不同约束,由业务侧驱动建立不同方向的波长级连接,因此图3-13带宽分时复用的业务场景电驱光技术有两种典型场景1)波长级的电驱光,动态拆建光层波长;如指定源宿站点/网元、路由策略、保护等级),并结合当前网络拓扑和资源使(2)光电交叉同步创建:自动生成业务配置参数,包含但不限于:Client传统的WSON重路由时间为秒级到分钟级,现网测试中容易发生概率性训练中断事件,影响智算业务。因此,需要进一步提升WSO现确定性的光层恢复能力。当前现网重要业务采用电层SNCP+光层重路由,通电层SNCP要求冗余资源多,需要考虑光层的50ms保护能力。针对智算百公里级互联场景,利用WSON50ms技有的协议报文转发芯片,可达成ms级的传输性能,降低了对CPU和业务跳数识别困难、故障的定界/定位耗时费力、保护倒换等图3-14智能故障处理流程图通过QoT模型对光传输系统的物理层损伤进行精确建模,如图3-16所示,采用智能预测算法可以对OCh备路径和加掉波的余量变化进行分析和预测,更直接准确地反映系统传输能力,并进行OCh劣图3-15光网络物理层智能QoT模型示意图位效率;余量预测通过精准评估加掉波前的OSNR余量,提前预测加调波对现智算需求旺盛,是全国的智算高地。为满足未来北京市内及京津冀用算需求,以及解决单节点智算中心资源受限、不同智算中心资源使用不均衡等问题,中国电信率先在北京开展了分布式智算中心无损网络试验,验证跨数据中心合池网开展了真实场景下百公里拉远对大模型训练的影响及稳定性测试,并在全国率先完成基于高带宽、低时延的全光800G超高带宽传输。项目组从多拓扑、多模型、多故障等维度积极开展主流方案摸底测试,并对仿真验证结果进行分基于北京全光运力网规划,项目组先后开展了现网机房的64卡以及1024卡组网验证。一阶段在京津冀智算机房进行80km/120km绕行拉远验证,模拟了两个数据中心组网,组网拓扑如图4-1所示。二阶段在武清、瀛海、永丰三机房开展百公里分布式大模型训练,验证当前分布式智算中心无损网络解决方案在真实业务场景下的效果,并探索分布式智算集群对大模型训练性能影响的关键因素,组网拓扑如图4-2所示。在前期百卡、百公里拉远验证基础上,三拓扑如图4-3所示,本阶段探索长距链路带宽收敛情况下模标是推动无损智算互联网络的技术进一步突破。系列试验均验证了在不同拓扑中分布式智算中心无损网络方案的有效性和稳定性。此外,模可能出现的故障情况,以验证方案在面对线路路障、服务器端口故障及其他异模型选取方面,在百卡组网规模下开展了LLAMA2-7B、LLAMA2-13B、图4-1京津冀智算机房80km/120km绕行拉远验证组网图4-2武清、瀛海、永丰三地IDC机房拉远验证组网图4-3京津冀智算机房千卡120km绕行拉远验证组网项目组利用分布式智算中心无损网络方案整合DC机房资源,在全球首次解决了百公里长距跨机房大模型训练难题。训练效率方面,在不同组网拓扑下不同模型跨机房训练均可达同机房训练

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论