【施耐德电气】2023人工智能带来的颠覆:数据中心设计的挑战及相关指南白皮书_第1页
【施耐德电气】2023人工智能带来的颠覆:数据中心设计的挑战及相关指南白皮书_第2页
【施耐德电气】2023人工智能带来的颠覆:数据中心设计的挑战及相关指南白皮书_第3页
【施耐德电气】2023人工智能带来的颠覆:数据中心设计的挑战及相关指南白皮书_第4页
【施耐德电气】2023人工智能带来的颠覆:数据中心设计的挑战及相关指南白皮书_第5页
已阅读5页,还剩15页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

人工智能带来的颠覆:数据中心设计的挑战及相关指南第110号白皮书能源管理研究中心作者:VictorAvelarPatrickDonovanWendyTorellMariaA.TorresArango从大型训练集群到小型边缘推理服务器,人工智能(AI)在数据中心工作负载中所占的比例日益增加。这意味着需要向更高机柜功率密度进行转变。人工智能初创企业、一般企业、托管服务提供商和大型互联网企业现在必须考虑这些密度对数据中心物理基础设施设计和管理的影响。本白皮书探讨了人工智能工作负载的相关属性和趋势,并介绍了由此带来的数据中心挑战,并针对每个物理基础设施类别(包括供配电、制冷、机柜和软件管理)提供了应对此类挑战的指南。为本白皮书评分施耐德电气——能源管理研究中心第110号白皮书人工智能带来的颠覆:数据中心设计的挑战及相近年来,我们目睹了人工智能的飞速发展,它改变了我们的生活、工作以及与技术的互动方式。生成式人工智能(如ChatGPT)的出现更是推动了这一发展。预测算法正在对医疗1、金融、制造2、交通3和娱乐等行业产生影响。与人工智能相关的数据需求也正在推动新的芯片和服务器技术的发展,致使非常高的机柜功率密度的出现。与此同时,市场对人工智能的需求十分巨大。以上所述因素的结合为设计和运营数据中心以支人工智能增长预测我们估计人工智能目前的电力需求为4.3GW,并预测到2028年它将以26%-36%的年中心总电力需求年复合增长率(11%)的两到三倍,详见表1。其中一项重要的洞察是,随着更多经过训练的新模型开始进入生产阶段,推理4负载将随时间推移而增加。实际能源需求将在很大程度上取决于技术因素,包括连续多代的服务器、更高效的指令集、芯片性能的提升以及人工智能的持续研究。施耐德电气的估算20232028集中与边缘AI工作负载对比95%集中,5%边缘本白皮书介绍了人工智能的重要属性和趋势,这些属性和趋势对数据中心不同物理基础设施类别带来挑战,包括供配电、制冷、机柜和软件管理等。我们还提供了如何应对这些挑战的指南5。最后,我们对数据中心的未来设计方向提出了一些前瞻性看法。本白皮书并不是关于将人工智能应用在物理基础设施系统。虽然下一代物理基础设施系统最终可能利用更多的人工智能技术,但本文专注于如何利用当前可获得的系统来支持人工1FedericoCabitza等人,可靠性、可用性、可维护性和安全性(rams)、猎犬和白盒:研究医疗诊断中的人机协作协议,《人工智能在医学中的应用》,2023年,第138卷。2JongsukLee等人,汽车行业智能工厂的关键赋能技术:现状与应用,《国际精密工程与制造杂志》,20233ChristianBirchler等人,自动驾驶汽车软件中基于仿真的经济性测试选择,《计算机编程科学》,2023年,第226卷。4定义参见“人工智能属性与趋势”部分。5这些指南也适用于其他高密度的工作负载,如高性能计算(HPC)。与HPC应用的主要区别在于,HPC往往是会一次安装到位,可能采用定制的IT、供配电、制冷和/或机柜解决方案。相较之下,人工智能应用存在不断扩展的需求,需要在标准设备(IT设备和辅助基础设施)加以扩展。施耐德电气——能源管理研究中心第110号白皮书版本人工智能以下的四个属性和趋势是导致物理基础设施面临挑战的根本原因:•人工智能工作负载•网络延迟•人工智能集群规模人工智能工作负载AI工作负载一般分为两类:训练和推理。训练工作负载用于训练人工智能模型,如大语言模型(LLM)。我们在本文中提到的训练工作负载类型属于大规模分布式训练(大量机器并行运行6),因为它对当前的数据中心提出了挑战。这些工作负载需要将海量数据馈送至配有处理器(即加速器)的专用服务器。图形处理器(GPU)是加速器的其中一种7。加速器在执行并行处理任务(如LLM训练过程中的并行处理任务)时效率极高。除服务器外,训练还需要数据存储器和将之连接在一起的网络。这些元素可组合成一个机柜阵列,称为“人工智能集群”。它实质上是将集群当成一台计算机来训练一个模型。精心设计的人工智能集群中的加速器在大部分训练时间(从数小时到数月不等)内都以接近100%的利用率运行。训练集群的平均耗电量几乎等于其峰值耗电量(峰均比≈1)。模型越大,需要的加速器越多。大型人工智能集群的机柜功率密度从30kW到100kW不等,具体取决于GPU的型号和数量。集群的规模从几个机柜到数百个机柜不等,通常以所用加速器的数量来加以描述。例如,22,000H100GPU集群使用约700个机柜,需要约31MW的电力,平均机柜功率密度为44kW。请注意,此电力不包括制冷等物理基础设施需求。最后,训练工作负载将模型保存为“检查点”。如果集群发生故障或断电,它可以从中断点继续运行。推理是指将先前训练好的模型投入生产,以预测新查询(输入)的输出。从用户的角度来看,输出的准确性和推理时间(即延迟)之间需要权衡。如果我是一名科学家,我可能愿意支付更高的费用,在两次查询之间等待更长的时间,以获得高准确度的输出。而如果我是一个寻找写作灵感的撰稿人,我会想要一个能即时回答问题的免费聊天机器人。简而言之,业务需求决定推理模型的大小,但很少会使用完整的原始训练模型。相反,我们会部署一个轻量级版本的模型,以在可接受的准确率损失下缩短推理时间。推理工作负载倾向于使用加速器来处理大模型,并且还可能严重依赖CPU,具体取决于应用。自动驾驶技术、推荐型引擎和ChatGPT等应用可能都有不同的IT堆栈,并根据各自要求进行了“调优”。根据模型的大小,每个实例的硬件要求可能从一台边缘设备(如智能手机)到几个服务器机柜不等。也就是说,机柜密度可以从几百瓦到10千瓦6模型中的大量参数和token要求将处理工作负载的任务分散到多个GPU上,以缩短训练模型所需时间。7其他加速器的例子还有张量处理单元(TPU)、现场可编程门阵列(FPGA)和专用集成电路(ASIC)。人工智能带来的颠覆:数据中心设计的挑战及相施耐德电气——能源管理研究中心第110号白人工智能带来的颠覆:数据中心设计的挑战及相一款流行的模型(如ChatGPT)推理所需的机柜数量很可能是训练所需的机柜数量的数倍,因为它们现在每天的查询量高达数百万次。最后,推理工作负载通常为业务关键型负载,需要具备韧性(如UPS和/或地理冗余)。GPU的热设计功耗(TDP)虽然训练或推理离不开存储器和网络,但现在我们重点关注GPU,因为它约占人工智能集群功耗的一半8。每一代GPU的功耗均呈上升趋势。芯片的功耗(以瓦特为单位)通常用TDP表示。虽然我们在此只讨论GPU,但TDP不断增加的总体趋势也发生在其他加速器上。每一代GPU的TDP都在增加,这是GPU为增加运算量而设计的结果,目的是在更短的时间内以更低的成本训练模型并进行推理。表2比较了三代NvidiaGPU在TDP和性能方面的差各代NvidiaGPU的TDP和性能TOPS12通过V100实现的性能TFLOPS11TOPS12通过V100实现的性能TFLOPS11GPUTDP(W)10(推理)V100SXM232GBA100SXM80GBH100SXM80GB在分布式训练中,每个GPU都必须有一个网口来建立计算网络结构。例如,如果一台人工智能服务器有八个GPU,那么该服务器需要八个计算网口。这种计算网络结构支持大型人工智能集群中的所有GPU以高速(如800GB/s)协同通信。随着GPU处理速度的提高,网络速度也必须提高,以减少训练模型的时间和成本。例如,使用GPU的平均利用率,因为它需要等待网络来协调GPU的下一步工作。这就好比买了一辆500马力的自动驾驶汽车,而车载的快速传感器阵列却通过缓慢的网络进行通信;汽车的速度受到网络速度的限制,因此无法充分利用发动机的动力。会与IT团队合作,尝试使用铜缆用于人工智能训练集群,但必须确保网络布线距离在9虽然GPU是这些性能提升的关键,但其他系统的改进也是为了充分利用GPU,如增加内存和GPU之间的通信。10V110、A100、H10011TFLOPS-每秒万亿次浮点运算-以张量浮点32(TF32)精度度量矩阵乘法吞吐量,通常用于训练工作V100、A100、H100-每秒万亿次运算-以8位整数(INT8)精度度量整数数学吞吐量,一般用于推理工作负载。V100、A100、H100施耐德电气——能源管理研究中心第110号白皮书版本可接受的延迟范围内。增加每个机柜的端口可以缩短布线距离,这样可以增加每个机柜的GPU数量,但是机柜功率密度将被提高。最终,机柜集群将庞大到以至于延迟迫使设计人员改用光纤,以至于成本增加。请注意,推理工作负载的GPU并行化难度较大,因此这种机柜功率密度关系通常不适用于推理13。人工智能集群规模如上所述,训练大模型可能需要数千个GPU协同工作。鉴于GPU约占集群功耗的一半,GPU数量成为估算数据中心功耗的一个有用替代指标。图1估算了人工智能训练集群中GPU数量与数据中心功耗的函数关系,涉及三代GPU(见表2)。为了更好地理解这些值,我们以一座40,000kW发电厂为例,这些值相当于该发电厂能够为大约3.1万户美国普通家庭供电。请注意,这三条趋势线并不等同于相同的生产力。也就是说,虽然使用H100GPU的数据中心的功耗超过使用V100H100数据中心的生产力提升远远超过其功耗增加。45,00040,00035,00030,00025,00045,00040,00035,00030,00025,00020,00015,00010,0005,000005,00010,00015,00020,00025,000V100A100H100数据中心PUE=1.3上述四个属性和趋势对机柜功率密度有着直接的影响。目前,大多数数据中心可支持大约10至20kW的峰值机柜功率密度14。不过,在人工智能集群中部署数十或数百个大于20kW的机柜,将给数据中心运营商带来物理基础设施方面的挑战。这些挑战可能只与供配电有关,也可能涉及两个甚至更多的物理基础设施类别。这些挑战并非不可克服,但运营商应在充分了解相关要求的基础上进行建设和运营,不仅是IT方面的要求,还有物理基础设施方面的要求,尤其是对现有数据中心设施的要求。设施越陈旧,支持人工智能训练工作负载的挑战就越大。下文的主要章节将针对每个物理基础设施类别更详细地介绍这些挑战,并为克服这些挑战提供了指南。请注意,其中的一些推荐设计方法仅适用于新建数据中心,而其他方法则适用于新建和已有(改造)建筑。人工智能工作负载给供配电链路共带来六大挑战,包括开关柜、配电回路和机架式配电13利用软硬件并行性来加快深度学习推理,2020年4月14UptimeInstitute,机柜密度正呈上升趋势,2022年12月人工智能带来的颠覆:数据中心设计的挑战及相施耐德电气——能源管理研究中心第110号白皮书版本人工智能带来的颠覆:数据中心设计的挑战及相•部署120/208V配电装置变得不可行•配电模块规格太小,浪费IT空间•部署标准的60/63A机架式PDU变得不可行•弧闪危险增加,使运维工作变得复杂•负载缺乏变化,增加上游断路器脱扣的风险•机柜温度高,增加了故障风险和安全隐患部署120/208V配电装置变得不可行120/208V是北美数据中心历来使用的电压,适用于相对较低的机柜功率密度(每个机柜大约2~3kW)且服务器使用120V电源线供电的情况。如今,对于人工智能集群等高密度负载,该电压显然过低。虽然仍然可以以120/208V电压为这些负载供电,但这将带来挑战,这些挑战源于以下关系:功率等于电压乘以电流(P=VxA)。正如等式所示,电压越低,相同功率下所需的电流就越大。因此,线缆的载流量必须更大,才能在安全的条件下提供更大的电流。现以由(8)台HPECrayXD670GPU加速服务器组成的人工智能训练机柜为例,机柜功率密度共计80kW。在120/208V电压下,需要5个60安培线路为机),为1N。如果需要2N的冗余(尽管对于人工智能训练负载并不常见),这一数字将翻倍到10。如果每个机柜有5到10个线路,可以想象,分布在由100个机柜组成的人工智能集群中的电缆会有多么混乱。结果很可能是电源线临时大杂烩式安装,悬挂在机柜上方/附近,这可能会导致人为失误和气流阻塞等问题。因此,这是不切实际的部署方法。此外,安装和管理过多的线路还涉及成本问题。指南:由于电压加倍意味着功率加倍,现有的120/208V数据中心应将其配电系统改造为240/415V。新建数据中心应该在设计时考虑240/415V。有关此主题的更多信息,请参见第128号白皮书《数据中心高效交流配电》。这就引出了下一个挑战,即如何部署240/415V配电装置。需要注意的是,全球大部分地区都不存在此类挑战,因为许多国家都采用230/400V的较高电压配电,这适用于满足人工智能型机柜的电力需求。配电模块规格太小,浪费IT空间数据中心配电主要有三种类型:基于变压器的配电单元(PDU)、远程配电盘(RPP)和母线。配电模块规格代表每种配电解决方案的容量(kW)。即使配电电压提高到240/415V(IEC国家为230V),传统的配电模块规格也太小,无法支持当今的人工智能集群容量。十年前,一个300kW(120/2个机柜(五排,每排各20个机柜,平均机柜功率密度为3kW)。如今,同样的配电机柜,每机柜36kW)。由于各种原因,在单排机柜上使用多个配电模块是不切实际施耐德电气——能源管理研究中心第110号白皮书版本1人工智能带来的颠覆:数据中心设计的挑战及相(相电压)的每个rPDU可用三相功率密度的。例如,PDU和RPP所占面积至少要增加一倍。与单个大容量配电模块相比,多个指南:为满足高密度集群的需求,必须加大配电模块的规格。建议选择规格足够高的配电模块,以至少支持一整排集群。在240/415V配电电压下,800A的配电模块规格是目前适用于所有三种配电类型的标准容量尺寸。可提供576kW(降容后为461部署标准的60/63A机架式PDU变得不可行即使在更高的电压下,使用标准rPDU提供足够的容量仍然是一大挑战。大多数决策者更喜欢现成的rPDU,因为它们的交付周期更短、易于获得、性价比更高,而且有多家供应商可以选择。NEMA40A60A100A125A150A175ANEMA40A60A100A125A150A175A请注意,这些数值根据典型的规范要求降额到80%。32A63A100A125A150A160A2.额定电流大于60A和63A的定当前,大多数零UrPDU的高度约为2米(80英寸)。使用这些标准产品,最多在一个风冷式机柜中安装4个rPDU(例如,4x60/63Ar者,如果需要液冷分液器(manifold),则可在单个机柜中安装2个rPDU(例如,2x60/63ArPDU为69kW/87kW)。这些r施耐德电气——能源管理研究中心第110号白皮书版本如果由于rPDU的数量增多而导致空间受限,建议采用定制的rPDU。例如,如表3所示,在北美,可以使用175A的rPDU为100kW的rPDU为100kW机柜供电。定制的rPDU可以配备工业连接器,也可以采用硬接线方式,让您可以灵活地选择插座的数量和类型。在额定电流较高的情况下,由于其物理尺寸原因,工业连接器在机架内安装和馈电时需要更大的工作量(参见图2)。请注意,当额定电流大于60A时,可能需要专业电工进行安装和操作。240/415V125A工业连接器240/415V125A工业连接器305毫米(12英寸)(5.9英寸)(4.9英寸)321毫米(12.6英寸)\弧闪危险增加,使运维工作变得复杂根据第194号白皮书《数据中心IT空间的弧闪注意事项》,“弧闪”一词描述的是电流到一秒钟的时间内释放出大量的能量(称为“入射能量”)15。这些能量以热、声、光和爆炸压力的形式释放出来,所有这些都可能造成伤害。一些具体的伤害可能包括烧伤、失明、触电、听力丧失和骨折。提高rPDU额定电流值的结果是,它们的导线直径更大,从而允许更大的故障电流通过rPDU。如果rPDU上的可用故障电流导致入射能量达到或超过1.2cal/cm2,则工作人员在未接受适当培训和未佩戴个人防护设备(PPE)的情况下不得进入该区域16。风险随着rPDU电流额定值的增加而增加。数据中心人员的安全是必须解决的难题。指南:由于涉及的变量之多,建议首先进行弧闪风险评估,分析可产生的故障电流,以便为特定场地提供最佳解决方案。这项研究必须从中压开关柜一直分析到机柜层面。解•配置阻抗电压更高的上游变压器•使用线路电抗器(即电感器)来阻止短路电流的流动•使用限流器•使用限流断路器有关应对弧闪危害的更多详情,请参见白皮书《弧闪的消除》和第253号白皮书《大15根据NFPA70E(2015),入射能量是指”在电弧事件中,在距离电弧源一定距离的表面上产生的热能量。”16如需了解更多信息,请参见第13号白皮书《降低带电插拔设备时的电气风险》和第194号白皮书《数据中心IT空间的弧闪注意事项》。人工智能带来的颠覆:数据中心设计的挑战及相施耐德电气——能源管理研究中心第110号白皮书版本人工智能带来的颠覆:数据中心设计的挑战及相负载缺乏变化,增加上游断路器脱扣的风险数据中心不同工作负载通常会随机达到峰值。据统计,所有这些峰值同时出现的概率极低。因此,如果将所有单个工作负载的峰值相加,除以总平均功耗,典型的大型数据中心的峰均比会达到1.5到2.0或更高。这就是设计人员能够“超量使用”供配电和制冷系统的原因。但正如“人工智能属性与趋势”部分所述,人工智能训练负载缺乏变化。这些工作负载可以在峰值功率下运行数小时、数天甚至数周。其结果是增加了上游大型断路器脱扣的可能性。这就像家中许多大负载同时运行时,主面板上的断路器脱扣一样。图3显示了当数据中心的负载转为100%人工智能负载时,峰均比(也称为差异系数)的y100%传统工作负载250V和16/20A的IEC指南:如果新数据中心IT机房的人工智能训练工作负载超过60-70%,建议根据下游各馈线断路器的总和来确定主断路器的大小。换句话说,假设峰均比为1,即平均功耗等于峰值功耗。不建议超量使用和基于多变的做法。对于现有数据中心,计算上游断路器可支持的人工智能总负载。例如,如果人工智能工作负载集群上游有一个1,000A主断路器,应确保人工智能负载总和不超过1,000A。机架温度过高,增加了故障风险和安全隐患随着机柜功率密度的攀升和对运行效率的关注,IT环境的温度越来越高。较高的工作温度可提高制冷系统的效率,但也会对元器件造成更大的压力。当元器件暴露在非额定•元器件过早故障—尽管系统在第一天能按预期运行,但如果暴露在规定范围之外的条件下,元器件的预期寿命会大幅缩短。•安全隐患—使用不符合额定工作范围的电线可能导致线缆熔化等安全隐患。IEC60320是全球大多数国家公认的电源线连接国际标准。IEC连接器的额定温度较高。标准C19/C20连接器和高温C21/C22连接器的比较如表4所示。母头公头限值备注大功率IT设备供电。,在温度超过C19额定值时使用。施耐德电气——能源管理研究中心第110号白皮书版本1.1人工智能带来的颠覆:数据中心设计的挑战及相指南:建议分析人工智能集群内的所有负载,以确保使用适当的连接器和插座。C21/C22连接器在人工智能服务器等高密度计算负载中越来越常见。人工智能服务器通常配有这些高温额定值线缆/插座,但机柜上的其他设备可能没有,如机柜顶部交换机。必须了解设备的运行环境,并确保所有设备(包括rPDU及其所有子组件)都达到在指定rPDU时,不仅要考虑电压、电流值和插座数量,还要考虑其额定温度。市场上有适用于此类应用的高温额定值rPDU。尽管它们的成本通常较高,但增加的成本通常低于潜在故障发生造成的成本。建议在机柜后部放置温度传感器(由DCIM监控),以验证工作条件是否符合预期。人工智能训练服务器集群的致密化正迫使其从风冷向液冷转变,以应对不断增加的TDP。虽然密度较低的集群和推理服务器仍将使用更传统的数据中心制冷方式,但我们认为数据中心运营商需要应对以下六大制冷挑战:•风冷不适合机柜功率密度20kW以上的人工智能集群•缺乏标准化设计和场地的限制使液冷改造变得复杂•不确定的未来TDP增加了制冷设计淘汰的风险•缺乏液冷经验使安装、操作和维护变得复杂•液冷会增加IT机柜内漏液的风险•非常有限的冷却液选择限制了液冷的可持续性风冷不适合机柜功率密度20kW以上的人工智能集群用于IT的液冷方式已存在半个多世纪,用于专业的高性能计算。风冷一直是主流选择,如果设计得当,采用热通道封闭,可支持约20kW的平均机柜功率密度。单台8-10U人工智能服务器的功耗为12kW,很容易超过20kW这一阈值。此外,由于网络延迟限制,大型人工智能集群中的服务器无法分散放置(以降低机柜功率密度),这也是一大挑战。在TDP不断增加的驱动下,采用液冷的人工智能训练服务器越来越多,有些甚至完全采用液冷技术。指南:较小的人工智能集群和推理服务器机柜(每个机柜的功率密度为20kW或更低)可以采用风冷技术。对于这些机柜,应遵循良好的气流管理实践(如盲板、通道封闭等以确保制冷更有效与更高效。如果风冷系统仍然受到限制,将人工智能服务器分散到多个机柜上是降低机柜功率密度的策略之一。例如,如果一个群集有20个机柜,每个机柜的功率为20kW,那么将服务器分散到40个机柜上就可以将机柜功率密度降低到10kW。请注意,如果增加的网络布线距离降低了人工智能集群的性能,则可能无法将人工智能服务器分散到多个机柜。施耐德电气——能源管理研究中心第110号白皮书版本1.1当人工智能机柜功率密度超过20kW时,应重点考虑使用液冷服务器。目前市面上有多种液冷技术和架构。冷板式液冷(有时也称为热传导或冷板)和浸没式液冷是两个主要类别。与浸没式相比,冷板式液冷是目前的首选,因为它与现有风冷技术的兼容性更好,也更适用于改造项目。如果可以选择,数据中心运营商应选择液冷服务器,以提高性能和降低能源成本,从而抵消投资溢价。例如,HPECrayXD670GPU加速服务器的风冷能耗为10kW,而液冷能耗为7.5kW,原因是风扇功耗和硅片的漏电流均有所请注意,按单位体积计算,液体捕获热量的能力更强,这使得液冷技术比风冷技术更能有效地转移热量。但是,如果流体停止流动,芯片温度的上升速度远快于风冷,从而导致更快的宕机。将循环泵连接到UPS上将有助于解决这一问题。缺乏标准化设计和场地限制使液冷改造变得复杂与传统的冷冻水系统相比,冷板式液冷服务器对水温、流量和化学成分的要求更为严格。这意味着数据中心运营商无法让冷冻水系统中的水直接流经芯片的冷板17。虽然水质无疑是数据中心改造为液冷数据中心所面临的挑战之一,但最大的问题是缺乏针对这种规模(即数百个机柜)的人工智能负载的标准化设计。制冷剂分配单元(CDU)有多种安装方式和位置选择18。它可以安装在机房四周的地板上,也可以安装在机柜行的末端,还可以机架式安装。连接机柜的供液管道有多种架构,制冷系统设备的位置选择也有多种,控制温度的方法同样也不少,等等。为了帮助直观地了解液冷系统的组成,图4给出了不同的水回路和CDU。对液冷系统进行改造也会对运行中的数据中心造成破坏,而且可能会遇到物理限制,如地面空间有限和缺乏足够的高架地板高度来铺设水管。即使100%的服务器都采用冷板式液冷方式,仍需要额外的风冷来冷却网络交换机等其他设备以及来自液冷服务器的热传导。简而言之,改造是一项挑战,因为设计方案繁多,有限的分析,可借鉴的大规模液冷部署也不多。需要注意的是,有些数据中心没有冷冻水,这使得改造更具挑战性。使用CDU进行液冷的数据中心数据来源:ASHRAE,水冷服务器:通用设计、元器件和流数据通信设备中心机柜冷水机组冷却水系统(CWS)设施水系统(FWS)技术冷却系统(TCS)机柜外部CDU17让未经处理的水流过服务器的冷板会导致腐蚀、生物生长和结垢。所有这些都会影响GPU的传热性能,最终导致GPU性能瓶颈或关闭以防止损坏。18CDU将冷冻水回路与供应服务器的“清洁”水回路进行物理隔离。人工智能带来的颠覆:数据中心设计的挑战及相施耐德电气——能源管理研究中心第110号白皮书版本1.1人工智能带来的颠覆:数据中心设计的挑战及相指南:建议数据中心运营商在部署液冷技术之前,对液冷负载和设施的现有条件进行设计评估。专家审查对于可能的设计方案评估和避免不可预见的建筑限制对成本的影响至关重要。例如,管道可能会阻碍高架地板下的气流或或者与线缆桥架干涉。如需了解更践》。不确定的未来TDP增加了制冷设计淘汰的风险人工智能技术正飞速发展,下一代GPU很可能会具有更高的TDP和更高的制冷要求。例如,目前搭载八个GPU的服务器,下一代可能需要16个。因此,数据中心根据当前负载设计的制冷架构可能不足以满足未来的负载需求。指南:建议在设计制冷系统时要考虑到风冷和液冷技术的兼容性,根据需要进行扩展,并支持不同代的加速器。例如,目前使用较高温度的冷机提供风冷解决方案,未来就可以轻松切换到较高温度的液冷方式。另一建议是在设计冷冻水管道系统时为未来的CDU配备分接装置。此做法可支持100%的冷板式液冷负载,并结合冷背板换热器用缺乏液冷经验使安装、操作和维护变得复杂数据中心运营商对风冷系统相当熟悉,因为风冷系统已经使用了数十年,但液冷方式对于大多数运营商来说仍很陌生。液冷系统采用冷板、分液器、盲插接头等组件。这些组件还需要额外的安装、操作和维护流程,而这些都是操作人员所不熟悉的。例如,冷板式服务器中的微通道更容易结垢,这意味着操作人员可能需要学习新的操作和维护流程来控制水源的化学物质。另一个例子是将水接入服务器,这会带来漏液的风险。指南:液冷设计在最大限度地减少安装、操作和维护工作方面起着举足轻重的作用。建议数据中心运营商在对支持液冷式服务器物理基础设施不熟悉的情况下,应邀请专家对其设计进行全面评估,并制定详细的标准操作流程(SOP)和日常操作流程(MOP)。这将最大限度地减少故障和人为失误,尤其是与漏液有关的故障和失误。液冷技术会增加IT机柜内的漏液风险冷板式液冷技术需要在服务器内的冷板中通水(如去离子水、醇溶液等)。漏液是个安全问题,会影响可靠性,因此必须在设计和采购阶段加以考虑。指南:建议与信誉良好的供应商合作,确保他们的系统经过严格的压力测试,从而将漏液风险降至最低。此外,服务器和机柜级的漏液检测有助于在出现严重漏液问题之前及时发现。与其采用传统的CDU泵送系统,不如考虑采用创新型防漏系统(LPS)的CDU。LPS可将水回路保持在轻微真空(负压)状态,以消除IT设备内的漏液风险。浸没式液冷技术使用绝缘液,也能消除服务器内的漏液风险。这些都是人工智能服务器或集成供应商有可能提供的方案。最后,应制定应急操作流程(EOP)以应对可能漏液事件的发生。施耐德电气——能源管理研究中心第110号白皮书版本1.1非常有限的冷却液选择限制了液冷的可持续性与传统的风冷IT相比,液冷在环境可持续发展方面具有一定的优势,因为它可以减少能耗和用水量。这是由于IT服务器和制冷系统的能效更高,因为大部分甚至全部服务器风扇都被移除,而较高的水温可以增加自然冷却时长19。不过,某些液冷系统使用了对环境有害的人工合成类化学物质。例如,碳氟化合物流体,因为优秀的传热导性能而被广泛用作浸没式液冷技术中的绝缘液20。遗憾的是,部分碳氟化合物具有高达8,000全球变暖潜能值(GWP)。相比之下,冰箱常用的HFC-134a制冷剂的GWP仅为1,430。此外,社会压力也促使制造商从制冷剂等产品中剔除PFAS(全氟和多氟烷基物质)以减轻对环境的影响,采用G剂。可持续发展已成为大多数数据中心运营商的首要任务,这使得他们可选择的冷却液指南:我们建议避免使用含碳氟化合物的流体。过去,冷板式系统和浸没式液冷系统都使用了这种制冷剂。如今,冷板式系统使用的是水,因此不存在这个问题。如果采用浸没式液冷,建议使用GWP为零的油基类绝缘液(不同于两相的人工合成流体)。不过,由于油基绝缘液的传热效果不如使用水的冷板式液冷,因此冷板式液冷已成为当今首选的液冷架构。需要注意的是,供应商很可能会开发碳氟化合物流体的可持续替代介质。这将显著提高浸没式液冷的散热效率,并可能促使制冷架构发生变化。更多信息,前几节中提到的一些供配电和制冷的挑战也会影响到IT机柜(如IT柜体或机箱)。我们看到以下四个由人工智能工作负载所带来的对机柜系统的挑战:•标准宽度的机柜缺乏所需要的配电和制冷装置安装空间•标准深度的机柜缺乏较深的人工智能服务器和布线所需的空间•标准高度的机柜缺乏容纳所需数量服务器的空间•标准机柜缺乏足够的人工智能设备承重能力标准宽度的机柜缺乏所需要的配电和制冷装置安装空间由于人工智能服务器深度越来越深,机柜背面安装rPDU和液冷分液器的空间越来越小。随着服务器功率密度的不断增加,在标准宽度机柜(即600毫米/24英寸)的背面安装必要的配电和制冷分配装置将变得非常困难,甚至不可能。此外,狭窄的机柜很可能会因配电和网线而堵塞机柜背面的出风。19当室外温度低于水温时,节能即可实现。DTC服务器的回水温度远高于传统的冷却水回水温度。在这些较高的温度下,一年中有更多的时间实现水的自由冷却。20浸没式液冷将所有的芯片甚至整台服务器浸没在介电流体中。人工智能带来的颠覆:数据中心设计的挑战及相施耐德电气——能源管理研究中心第110号白皮书版本1.1指南:建议至少采用750毫米(29.5英寸)宽的机柜,以容纳rPDU,如果采用液冷,还可以容纳用于液冷式服务器的分液器。虽然这些机柜不会像标准600毫米机柜那样与600mm宽的高架穿孔地板对齐,但这不再是一个相关的限制因素。这是因为风冷人工智能服务器需要大量的气流,而高架地板通常不用于气流分配,而是用于管道标准深度的机柜缺乏较深的人工智能服务器和布线所需的空间针对人工智能工作负载进行优化的服务器,其深度可能会超过某些标准机柜的最大安装深度。即使较深的服务器可以安装到较浅的机柜中,也需要足够的后部空间来铺设网线,同时还要保证足够的气流。指南:IT机柜配有可调节的安装轨道,以适应不同IT设备深度,但最大安装深度各不标准高度的机柜缺乏容纳所需数量服务器的空间根据人工智能服务器的高度,常见的42U高机柜可能太矮,无法容纳所有服务器、交换机和其他设备。例如,一个64端口的网络交换机意味着机柜将有8台服务器,每台服务器有8个GPU。按照这样的密度,假设服务器高度为5U,仅服务器就占用40U,只剩余2U的空间来容纳其他设备。指南:建议将人工智能训练集群部署在48U或更高的机柜上,前提是数据中心楼层高度能够容纳它们。1U等于44.45mm(1.75in)21。标准机柜缺乏足够的人工智能设备承重能力如果使用重型人工智能服务器,高密度机柜的重量可能超过900kg(2000lb)。这对IT机柜和高架地板的静态和动态(滚动)承重能力都造成了巨大的负荷。不符合这些重量要求的机柜可能会出现框架、水平支脚和/或脚轮变形。此外,高架地板可能无法支撑指南:IT机柜的承重能力分为静态和动态两种。静态是指机柜静止时所能承受的重量。动态是指机柜移动时所能承受的重量。建议指定机柜的静态承重能力大于1,800kg(3,968lb),动态承重能力大于1,200kg(2,646lb)。这些机柜的承重能力应由独立的第三方机构进行验证22。即使当前的人工智能部署规模较小,尚不需要这些承重能力,机柜的使用寿命也往往比IT设备更长。下一代人工智能部署很可能需要部分或全部采纳这些机柜的建议。最后,在某些情况下,IT机柜先在异地进行预制,然后运往数据中心。这些机柜必须能够承受运输过程中产生的动载荷,相关包装也必须能够保护21例如,48U表示有2.13m(84in)的内部垂直空间可供设备使用。22建议采用保险商实验室(UL)和国际安全运输协会(ISTA)。有关更多信息,请参见第201号白皮书 《如何选择IT机柜》。人工智能带来的颠覆:数据中心设计的挑战及相施耐德电气——能源管理研究中心第110号白皮书版本1.1应评估数据中心地板,特别是高架地板,以确保它们能够承受人工智能集群的重量。在数据中心内搬运重型机柜时,这一点对于高架地板的动态承载能力尤为重要。物理基础设施软件工具用来支持数据中心的设计和运营,包括DCIM、EPMS、BMS以及数字化电气设计工具。在同时具有传统风冷IT和高功率密度以及液冷IT集群,某些软件功能更显关键。即使某些人工智能训练工作负载可能不需要高可用性,但设计和监控不当可能会导致相邻机柜和租户出现宕机风险,而这些机柜和租户很可能正在运行关键的业务。以下两个挑战侧重于重要的管理软件功能,这些功能在高密度人工智能训练工作负载的背景下起到更加重要的作用:•人工智能集群极高的功率密度和功率需求导致设计的不确定性•在动态环境中,容错裕量的减小会增加运营风险人工智能集群极高的功率密度和功率需求导致设计的不确定性在改造现有设施以容纳新的人工智能集群之前,需要进行可行性研究,以确认是否有足够的功率容量和制冷能力,以及将其分配给新负载所需的基础设施。在机柜功率密度远低于10kW且供电和制冷能力过剩的典型情况下,增加标准IT可能相对容易,不需要过多的审查和验证。特定时间的配电和制冷测量可与常用配电组件和您熟悉的现有冷机组结合使用。手动量更大与“目测式””改造设计方法将不足以满足大型高密度人工智能训练集群。一个人工智能集群的耗电量高达数百千瓦,如果设计失误(如不知道实际峰均比、不确定哪些负载在哪些回路上等),后果将更为严重。设计中的未知数和不确定性可能造成代价高昂的后果。此外,由于人工智能集群的设计极其独特(例如,非标准),指南:建议使用EPMS和DCIM来准确查看当前的配电能力及其趋势,包括IT空间内的大容量电力和配电级别。这些工具会显示长时间内的实际峰值功耗。了解这一点非常重要,可确保断路器不会意外脱扣。这种能力评估有助于确定托管人工智能负载的能力。请注意,评估的前提是假定使用了必要的电表。其次,在进行任何更改之前,建议进行安全和技术研究,包括容量分析、保护协调、弧闪研究以及短路和设备评估23。使用电气设计(又称电力系统工程)软件工具可简化数据收集和计算工作。评估结束后,可能需要对电网进行改动,以添加人工智能集群。在这种情况下,电气设计软件工具可确保您拥有正确的数据,以在IT空间的电气网络工作和维修时选择最佳电气设备,预防电气故障,制定有效的流程方法,并部署适当的安全方案。值得注意的是,使用数字化单线图(iSLD)24的现有数据中心可以简化上述评估过程。使用精确、智能的iSLD后,收集数据和执行计算所需的时间和专业知识将大幅减23即评估容量、kA额定值和其他规格是否适合特定设计24有些供应商提供iSLD创建和维护服务。人工智能带来的颠覆:数据中心设计的挑战及相施耐德电气——能源管理研究中心第110号白皮书版本1.1人工智能带来的颠覆:数据中心设计的挑战及相少。iSLD是一种更高级的单线图,存储在专门的软件中并由其管理,其中包括高级功能以及对设备特性和运行行为的感知。它创建了物理电网的数字孪生。从本质上讲,这一软件平台可用于设计电网、创建和维护SLD,以及执行所有技术研在动态环境中,容错裕量的减小会增加运营风险假设使用第一个挑战中的指南实施了最佳数据中心设计,那么“第一天”的运行应该会很顺利。但是,与其他类型的设施相比,数据中心是一个动态环境,IT设备会在其中频繁移动、添加和更改。随着容量安全裕量的缩小,就像增加大型人工智能集群时可能出现的情况一样,断路器脱扣、产生热点或资源搁浅的风险会随着IT空间内负载的变化而增加。风险增加的根本原因是前文讨论过的人工智能集群的高机柜功率密度和低峰均比(接近1)。容错裕量的减小要求运营人员不断提高情景意识,以防止宕机,并确保在数据中心的整个生命周期内有效利用可用资源。指南:建议为整个IT空间(包括机柜中的设备和虚拟机)创建数字孪生,以尽可能减少或避免上述挑战。这种布局必须长期保持。通过DCIM规划和建模功能,您可以使用基于规则的工具进行有效的IT空间楼层布局。通过数字化方式添加或移动IT负载,可以验证是否有足够的供电、制冷和地板承重能力来支撑这些负载。DCIM可创建IT空间的数字孪生,并记录所有设备对资源的依赖关系。这为决策提供了依据,可避免资源搁浅,并最大程度地减少可能导致宕机的人为失误。通过EPMS和DCIM,您可以监控所有PDU、UPS、rPDU等设备的功率容量,从而在功率超过阈值时收到预警,避免停机。DCIM软件会根据供电、制冷、冗余级别要求以及可用的U空间、网口和承重能力,建议新设备的最佳位置。这更适用于非人工智能设备和人工智能推理服务器。与推理负载不同,人工智能训练负载需要预先设计配置,很少甚至从不改变。许多DCIM规划和建模软件工具都包含计算流体动力学(CFD)工具,以确保在给定设备和热负荷的物理布局下有足够的气流。DCIM可用于帮助优化制冷能力,通过对基础设施和负载进行优化布局和配置,释放搁浅的制冷能力。在人工智能负载移动、添加和更改方面,CFD更多地应用于人工智能推理负载,因为需要添加更多的服务器来满足用户需求(即查询)。请注意,在某些情况下,人工智能训练或推理集群是独立的,有自己的供配电链路和制冷架构。在这些情况下,非人工智能负载不太容易受到人工智能集群的影响。不过,在这两种情况下,建立这些空间的数字孪生都是有益的。迄今为止的指南主要集中在当前可用的技术和设计方法上。本节将简要介绍一些未来的技术和设计方法,我们认为这些技术和方法将进一步帮助我们应对所面临的挑战。•标准的人工智能优化rPDU—外形尺寸将发生变化,以支持功率密度更高的服务器,同时减少闲置插口。消除不必要的插口,可在每个机柜上安装更多的86kW)。这些rPDU还可为交换机施耐德电气——能源管理研究中心第110号白皮书版本1.1人工智能带来的颠覆:数据中心设计的挑战及相•中压接到技术/IT空间的415/240V变压器—中压(如13kV)配电可以减少铜的用量,所需的导线以及缩短安装时间。例如,IT配电将使415/240V的3,000A母线供电,从而为整个人工智能集群或大于2MW的集群的一部分供电。这种配电架构还消除了传统的13kV至480/277V变压器和I电上游的开关柜。这也可缓解480V配电柜的供应链限制。•固态变压器—本质上是电力电子转换器。它们使用半导体元器件将一次电压转换为二次电压,并使用中频变压器(MFT)将一次侧和二次侧进行电隔离。传统变压器体积大,只能使用交流电,而固态变压器小巧轻便,可在交流和直流电压•固态断路器—这些断路器使用半导体来接通或断开电流。这在切断故障电流时尤为重要。不过,要被视为断路器,它们还必须使用与半导体串联的机械开关来提供电隔离。固态断路器的运行速度更快,能够更严格地控制故障电流。这对减少高密度人工智能机柜的弧闪能量非常有利。•可持续性绝缘液—这些绝缘液可能会取代水来提高传热效率和允许更高的芯片•超深IT机柜—随着基于加速器的更深服务器的推出,需要配备更深的机柜,不仅能容纳服务器,还能容纳网线、水管和rPDU。•增强与电网的互动/优化—根据电网和微电网条件调度工作负载,有助于平衡电网和节约用电。工作负载管理的例子包括将负载迁移到不同的冗余区域或将UPS置于电池放电状态等。施耐德电气——能源管理研究中心第110号白皮书版本1.1人工智能带来的颠覆:数据中心设计的挑战及相人工智能的快速发展和应用正在改变数据中心的设计和运营。我们估算,到2028年,人工智能工作负载将占数据中心总能耗的15%-20%。尽管推理工作负载的功耗预计将远高于训练集群,但其运行的机柜功率密度范围很广。另一方面,人工智能训练工作负载始终在非常高的密度下运行,每个机柜的功率范围为20-100kW甚至更高。网络需求和成本促使这些训练机柜按集群部署。这些极端功率密度的集群从根本上对数据中心的供配电、制冷、机柜和软件管理提出了挑战。本文就如何应对这些挑战提供了指南。供配电:使用120/208V配电(在北美)已不足以满足需求,建议改用240/415V配电,以限制高密度机柜内的回路数量。即使在更高的电压下,使用标准的60/63A机架式PDU提供足够的容量仍然是一个挑战

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论