AI数据中心网络建网参考报告 2024_第1页
AI数据中心网络建网参考报告 2024_第2页
AI数据中心网络建网参考报告 2024_第3页
AI数据中心网络建网参考报告 2024_第4页
AI数据中心网络建网参考报告 2024_第5页
已阅读5页,还剩48页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

[编号ODCC-2024-05009]AI数据中心网络建网开放数据中心标准推进委员会2024.08发布AI数据中心网络建网参考报告版权声明转载、摘编或利用其它方式使用ODCC成果中的文字或者观点的,应注明AI数据中心网络建网参考报告编写组 1 3 4 8 9 9 10(二)参数面网络 12 12 14 17(三)样本面网络 18 19(五)管理面网络 20 21 21(二)运营商行业 22 23AI数据中心网络建网参考报告AI数据中心网络建网参考报告了顶峰。当前,AI训练模型正在从万千小模型走向型时代,AI技术在千行百业中呈现出百模千态的繁荣局面,同时也在科技发展的浪潮中,AI的发展由算法、算力和数据三个核心1AI数据中心网络建网参考报告定律和涌现能力,驱动着AI大模型规模的持续增大。随着GPT4、盘古等万亿模型的发布,也正式标志着,AI大模型进入了万亿模型模型正加速朝着多模态模型的方向发展。从VisionTransformer的提AI模型参数量的持续增大带来算力需求的指数级增长,2012年规模,预计到2026年,智能算力规模将进入ZFLOPS级别,达到2AI数据中心网络建网参考报告为了满足高速增长的算力需求,AI大模型厂商都在加速建设大规模的GPU卡集群。随着AI模型规模的持续增长,对数据集质量也提出训练,比如噪声数据、有毒数据、重复数据,会损坏模型的性能。Meta的研究表明,更高质量的数据,比如量的语言数据将在2026年耗尽,低质量的语言数据将在2030~2050年间枯竭。AI大模型马上就将面临训练样本不足的挑战,人类需加二、AI发展对网络挑战随着AI模型参数的规模越来越大,从千亿增长到万其次,AI处理器的成本高昂,为了充分发挥处理器性能,提高3AI数据中心网络建网参考报告(一)AI大模型并行计算模式,催生超大容量网络AI大模型训练相比通用计算需要更多的处理器参与并行计算,满足大模型计算时,可以将模型切分到不同的GPU卡上,使得每一以GTP-3为例,在每轮迭代中,如果使用数据并行方式,通信量可达到9.5GB/iter;如果使用流水线并行方式,通信量可达到4AI数据中心网络建网参考报告可见,张量并行(TP)的通信量是数据并行(DP)和流水线并务器的范围内。若实现数据并行(DP)模式和流水线并行(PP)模特点是规模超大(>100K甚至达到百万规模,该网容量大,每个(二)AI处理器成本高昂,要求减少网络时间,提升有效算力到端耗时占比达到20%,但是针对某个万亿参数MoE(Mixtureof5AI数据中心网络建网参考报告的HPC/AI/存储业务,但是在支持百万级超大规模AI网络方面,还流控失效等挑战,需要在流控FC(FlowControl拥塞控制CC(CongestionControl)方面进行创新。由于通用计算是短连接,每个服务器的流数量可达数千条;而AI服相比通用计算以KBytes/MBytes的小流为主,AI服务器的流量以流”的AI场景流量模型下,就会因为ECMP哈希机制,造成6(三)AI大模型训练周期长,需要高可用健壮网络降低MTBFAI大模型训练周期长,中断次数多,如何降低MTBF(平均无据披露,某个千亿大模型总训练时长为65重启达到50多次,而真正的训练时长只有33天,平均无故障时间7AI数据中心网络建网参考报告传统运维平台基于SNMP数据采集技术,用于监控网络设备的内存、接口指标等基础网络指标数据广度和精度均无法满足运维AI集群的通信是集合通信,即多个通信交互,才能拼接出一个8AI数据中心网络建网参考报告接入区:Internet和专线网络接入,部署数据中心的外网接入设9AI数据中心网络建网参考报告护管理数据中心的AI服务器、通用服务器、存储设备和网络交换机存储区:高速大带宽互联的存储系统,AI场景下主要用于训练本文将重点描述AI集群计算区的网络设计,AI计算集群区的物理网络如下图所示,包括参数面、样本面、AI数据中心网络建网参考报告参数面网络:承担模型训练过程中AI计算节点之间参数交换的流量,要求具备高带宽无损能力,采用CLOS/Fat-tree/多轨道优化架样本面网络:承担模型训练过程中AI计算节点访问存储系统的业务面网络:承担系统业务调度与带内管理流量,采用多层AI数据中心网络建网参考报告业务面和管理面网络通常采用传统的TCP/IP协议,对带宽和丢包有一定的容忍;参数面和样本面网络使用RDMA协议,对带宽和同,Leaf交换机收敛比1:1,也即Leaf和服务器之间流量总带宽,AI数据中心网络建网参考报告在AI集群组网实践中,三层组网通常都采三层组网的第三层网络通常采用多平面方式实现组网的弹性扩机容量和端口数量一定时,也可以通过AI大模型合理的并行策略(DP/TP/PP)合理规划网络流量,此时可以在第二层和第三层之间引入一定的收敛比,从而达到最大化集群规模的目的。在典型的AI参数网中,除了传统的CLOS组网拓扑以外,还有AI数据中心网络建网参考报告AI集群训练场景,流量周期性循环进行、单流带宽大、流数量少,训练性能受限于最慢的流量。传统基于流的五元组进行hash机于交换机转发时延,因此交换机转发时延在训练场景下并不AI数据中心网络建网参考报告2)全局冲突:当发往同一TOR下不同网口的多条流ECMP选路到同一SPINE时,SPINE下行端口会出现拥塞,分布式决策算法ECMP机制导致的流量不均,可通过以下两条技术传统的ECMP是本地哈希机制,即每个网络节点只根据数据包序,但需要网络级负载均衡技术解决hash冲突问题,通过绘制全局网络调度对训练的影响会达到20%以上,网络级负载均衡技术NSLB(NetworkScaleLoadBalance)可解决Leaf上行ECMPHash冲突、Spine下行ECMPHash冲突、多Leaf计算资源不均导致流量冲突、AI数据中心网络建网参考报告或者可以考虑动态负载均衡DLB来解决网络负载不均问题,动ECMPDLB整体处理流程:在入方向流水线转发查表获取下一置来划分质量等级,作为DLB选路的影响因子。AI数据中心网络建网参考报告可靠性:一个Leaf交换机故障,会导性能:超过64NPU/GPU(64*100GE交换机)的通信需要上升个计算节点64个NPU,满足单柜布局邻柜布线偏执电流、电压、温度、CRC错包数,识别出指标有异常后会生成AI数据中心网络建网参考报告的参数可视化,主要包括:1)PFC反压帧统计信息;2)ECN标记AI数据中心网络建网参考报告部署,物理隔离。性能文件存储服务器和训练服务器应配置不小于智算场景下的业务面与通算基本一致,无特殊要求。需要考虑Spine和Leaf、以及服务器间联接要求:1三层组网方案,相互之间独立,任意一台故障不影响业务转发。3)宽与下行带宽收敛比不宜超过1:3,交换机之间互联链路宜通过AI数据中心网络建网参考报告基于VxLAN的组网和三层交换功能、IPv6及广播抑制等功能。2)Leaf交换机应符合接入交换机功能要求并应支持基于VxLAN的组网应支持三层交换功能。3)可根据业务需求确定Spine交换机和Leaf管理面由管理汇聚交换机、管理接入交换机、IPMI接入交换机业务管理网口宜采用双上联跨管理接入交换机,带宽不宜小于AI数据中心网络建网参考报告攻击或故障时,管理通道依然可用;2)能支持远程启动、关闭、重未授权访问;4)能集成高级监控工具,实时监控硬件状态和系统日志,通过短信、电邮等方式在异常时发送告警,加速科大讯飞股份有限公司是亚太地区知名的智能语音和人工智能讯飞星火认知大模型采用华为星河AI数据中心网络解决方案,AI数据中心网络建网参考报告24年是AI爆发的一年,移动基于“4+N+31+X”布局全国算力A

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论