亚太区智算中心液冷应用现状与技术演进白皮书_第1页
亚太区智算中心液冷应用现状与技术演进白皮书_第2页
亚太区智算中心液冷应用现状与技术演进白皮书_第3页
亚太区智算中心液冷应用现状与技术演进白皮书_第4页
亚太区智算中心液冷应用现状与技术演进白皮书_第5页
已阅读5页,还剩158页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

):曹维兵、柴学、陈刚、陈淼、陈天鹏、丁海峰、杜华锐、段振、冯立波、李巍、刘卫民、刘昕、陆干、陆景莹、雒志明、王艺欧、王海峰、乔兴波、乔在2024年最后一个月,我们可以来简单的发展,并致力于与AI相关基础设施的研究与创新。2023年12月,中国电信方法论的新一代AI智算基础设施建设指南,从“能源弹性、制冷弹性、气流优开始关注以亚太地区为代表的国际智算基础设施发展情况,特别是液冷技术在AIDC的应用情况和趋势。针对亚太地区国家众多的情况,在国情不同、芯片发识素材,并通过CTG专家团队和深知社研究员团队精心梳理和编写,最终形成本次白皮书的访谈和编制过程中,CTG和深知社得到了ASHRAE亚太地区各个国家分会组织的鼎力支持。不仅仅是最终的这本白皮书本身,整个白皮书调 11.1GPU芯片快速发展带来的能耗与散热挑战 11.2规模部署给机柜散热带来新的挑战 21.3智算中心用电规模及能效的挑战 31.4智算中心水资源利用率WUE的挑战 51.5液冷技术应用的机遇与挑战 5 82.1亚太地区数据中心产业现状及重点地区分析 82.2亚太地区智算中心发展遇到的气候挑战 112.3亚太地区智算中心液冷应用现状与发展趋势 14 3.1液冷通用架构 193.2热捕获 193.3热交换 263.4冷源 283.5液冷架构分类 34 4.1风液融合是智算中心液冷应用的必由之路 374.2常见的风液融合架构 374.3不同风液融合架构下WUE、PUE、TCO对比分析 444.4架构选择建议 45 485.1大型智算中心的液冷架构 485.2中小型智算中心的液冷架构 51 6.1数据中心产品预制化发展的趋势与价值 556.2冷源预制化方案 556.3一体化液冷机柜及液冷微模块 586.4冷板式液冷集装箱 60 7.1冷冻水系统的液冷改造 637.2直膨式空调系统 65 8.1冷板系统可靠性验证 688.2冷板液冷服务器适配性验证 698.3冷板液冷系统运维界面划分 708.4冷板液冷系统的运行与维护 70 9.1数据中心制冷技术的演进分析 739.2未来热门的液冷技术应用前瞻 74 85 87第一章、智算产业发展与液冷技术应用的机遇与挑战按照这个数据我们来推演一下,训练一个GPT只有足够便宜的算力成本,才能推动智算行业按照英伟达最新的计划,采用最新芯片架构的GB200算力模组,模组的散),供电和散热等基础设施提出了颠覆式的挑战。因此在Blackwell系列开始大规模部署开始,从芯片到服务器再到数据中心的散热技术需要快速迭代,以适配AI。在AI集群中进行分布式训练时,通信是必要环节,同时也是相比于单机训练AI大模型的训练是以GPU的大规模集群为基础来实现的。在模型集群构成的算力的大小也不是简单的用GPU单卡算力乘以卡数量就能获得。集有效运行时间:网络可靠性决定GPU集群有效运行时间。长时训练网络不延和有效运行时间共同决定的。为实现GPU大规模部署从而产生更高的算力,用户往往需要采用先进的GPU专用组网体系,并尽量缩短网络布线距离,来减少传输延时和降低网络成本(网络层级、通信线缆距离),因此也要将更多的但这也会导致GPU服务器机柜由于部署了更多的设备,其功率密度不断走高,以目前市场最为先进的GB200整机柜产品NVL72为例,其一架机柜的),络交换机、CPU节点、光收发器和许多其他辅助产品,加起来用电功率占IT总位能耗比PUE将成为制约智算中心建设的关键。而其中制冷系统的能耗占比为数据中心水资源利用率(WUE见名词解释)是衡量数据中心IT工作量以亚太地区典型市场新加坡为例,2021年,新加坡用水量较大的数据中心数据,新加坡公共事业局(PUB)提出,帮助新建和现有数据中心降低WUE优化冷却塔的耗水量:冷却塔在降低WUE方面具有巨相关技术的用水水平及方案组合,会在本白据中心增长的主要推动力。而由于技术的需要,高性能的GPU芯片会带来更高液冷技术前景虽然广阔,但实现的过程仍然充满挑战。在数据中心发展的第二章、亚太地区智算中心的发展根据咨询机构CUSHMAN&WAKEFIELD的市场调研报告《AsiaPacificData);长最快的是马来西亚(2.1GW)、中国周边地区(见图2-1)。例如印西和相模原地区,土地成本明显更低,电力供应久产权专用数据中心,该数据中心将于2027坡总IT容量为1347MW,其中已经投运的有965MW占比71.64%;在建的有成为了亚太地区最热门的数据中心投资区域。据《第一数据:FirstBigData》发根据OMDIA的研究报告,马来西亚数据中心最多的三个地区为:吉隆坡、度在23-34℃之间,湿度介于70%到95%之间。1月是一年中最冷的月份,平均而即将大规划商用化部署的面向AI业务的智算中心更多的会采用冷板式液冷的方式。当前全球规模化部署冷板式液冷的数据中心并不多,我们以特斯拉xAIColossus数据中心为例,来了解智算中心液冷规模化部署的特斯拉xAIColossus集群的液冷技术采用液冷整机柜设计,每个机柜含一台柜内摆放的8台服务器都有液冷出入水口,通过支岔路水管Monif图2-9)服务器风扇从前部吸入冷空气,从后区是马来西亚。近两年,以秦淮数据海外公司BridgeDataCenter和万国数据为2025年开始,随着英伟达GB200NVL液冷整机柜业务的大量部署,亚其中,中国电信临港算力中心就是其中的优秀案例。作为上海“东西两翼”大模型公司等企业机构在AI计算、深度学习、训练推理等研究中提供了澎湃的供冷、机房气流组织优化的“两弹一优”,实现多元算力组合快速交付(见图2-11)。弹性供电方面,通过机柜设备的“小母线+弹性方舱”配电系统,一舱练效率可达单集群的95%以上,完成5家大模型训练性能测试,支撑星辰115B等基础大模型平稳训练,集群可用率达到90%以上。第三章、液冷主流技术路线及架构分析3.1液冷通用架构液冷的热捕获指的是使用液体从IT组件中带走热量。根据热捕获的方式不在发热元件(通常为CPU/GPU等大功耗部件)上的冷板(通常为铜铝等导热金属构成的封闭腔体)将热量带走,这种散热形式会导致换热效率大幅下降,同时也可能造成泄漏,损坏服务器。推荐选择25%对于相变冷板液冷,需要特别关注当地的环保法规和工作压力。推荐选择然后进入CDU中散热,整个过程中冷却液不会发生相变。实物图和原理图如下种沸点,例如从55℃到200℃以上。低沸点(例如55℃)用于两相浸没,而高喷淋式液冷是用低温冷却液直接喷淋IT组件的发热元件,吸热后的高温冷三种热捕获技术都有各自的优缺点及适用场景,我们从以下这些维度进行液冷的热交换主要通过CDU(CoolantDistributionUnit)即冷量分配单元来除了以上三项关键功能,还需要关注CDU的类型,可以从以下两个方面具),),面积小并且价格便宜。缺点是WUE高、运闭的系统,所以水质比较好,不需要增加板换,WUE也会低于开式冷却塔。缺该系统的常用配置是在风冷冷水机的基础上配置一套干冷器或者绝热冷却该方案不使用水作为载冷剂,二是直接向CDU输送制冷剂,对应的CDU类利用机房现有的精密空调作为液冷系统的冷源时,对应的CDU类型为L2A式和浸没式为主,可以归纳为下表中的8种架构,见表3-9:以上每种架构都有各自适用的场景,可以根据下表3-10选择合适的液冷架第四章、风液混合制冷架构的特点分析共用同一套冷源,可以将该架构分为风液同源架构和风风液同源架构按照冷源和风冷部分的不同组合,可以分为冷却塔+动态双冷源架构、冷水主机+冷冻水末端架构、磁悬浮相变系),为了提升能效,可以对该架构的细节进行优化,如下图4-4所示:室外侧使用冷却塔+集成板换的水冷冷机,室内侧风冷部分使用水冷DX空调,由冷却塔到CDU和末端空调,这样可以减少换热次数从而带来更高的能效。同时也和冷其生命周期内的具体部署情况。不同业务类型的服务器有不同的风液比,例如风冷和液冷,提供100%的制冷量。并且冷源可以与二次侧末端一起调节,交付周期大幅缩减。但是间接蒸发冷机组对建筑的层数有要求,一般不超过4综合前文所述的内容,冷板式液冷的风液融合架构可以参考下图4-10进行第五章、典型智算中心液冷应用场景的选择分析本章会以大型智算中心和中小型智算中心为例来阐述如何进行进行液冷架计算支持的领域。除了AI领域外,还广泛应用于物联网、工业互联网等新兴领冷具有更高的兼容性和成熟度,因此可以作习等先进算法,专注于处理大规模、复杂的数因此架构相对简单一些,冷源选用冷却塔即可。推荐采第六章、液冷系统的预制化传统数据中心不仅建设周期长,初期投资成本大,而立,规划和建设分离,拼凑式建设模式给后期运维管理也对此弊端,数据中心预制化、模块化逐渐从数据中心的到电力/水力模块、微模块、IT模块等模块化解决方案再到模块化数据中心。在预制化、全模块化设计下,将各个子系统预集成在模块大大降低现场管理难度及施工风险,有效提升数据中心可心具备快速部署、弹性扩容、运维简单、高效节能等优类型一和类型二拼接方式为独立式,类型三拼接方块+板式换热器模块+管路切换模块+水泵模块,此模式的缺点是维护空间相对比源架构动态双冷源系统(见图6-5)中有较好对于间接蒸发冷却一体化冷源(见图6-6)是目前一体化液冷冷机柜产品按照液冷形式可分为冷板式液冷机柜及单相浸念,高集成、高标准设计,整合IT机柜、配电单元、封闭组件、制冷单元、布线、综合运维等功能独立的单元,由机柜、Manifold管路、液冷服务器、液冷快速连接器以及插框式CDU构成。单柜内全部组件在工厂预制安装、调试,可),行控制。一次CDU供液采用集中供液方案,满足集中换热的同时又可单独于运腐蚀、漏液等潜在风险,机柜侧管路可采用高分子材微模块产品制冷系统采用冷板式液冷,满足高散热量方案。主要由集装箱结构系统、供配电系统、制冷系统(液冷系统+辅助风冷系的户外环境运行条件,具备经济灵活、快速部署定制化设计。以某品牌45尺冷板式集装箱为例进行构成剖析,此款产品尺寸用环形管路,减小二次侧管路因泄露造成的故第七章、传统风冷数据中心的液冷改造在当前节点,很多传统数据中心都有液冷改造的需根据这个条件可以将改造分为利旧原有冷源和套管路供新增的液冷系统使用,并和原有的风冷量传递给机房内的空气,然后再由原有的风冷空调将热量排到室外。CDU使用该方案采用分体式冷水机,它可以用原有的精密空调进行改造,并与CDU第八章、典型智算中心液冷系统运行挑战3.系统设备功能测试阶段测试各子系统和设备功能是否满足设计和运行要求。4.系统联调及故障模拟阶段验证系统是否能够在不同的机房设计负载率工况1.在冷板液冷机房模块内的所有液冷机柜布置相应设计功率的液冷假负载和2.通过开启风液冷假负载,使得测试机房模块通道内的风液冷热负荷达到4.通过模拟冷却塔、冷量分配单交付模式(1)为解耦交付,液冷机柜与液冷服务器之间遵循用户或行业统根据不同的液冷系统交付模式,确定相应的运维界面,通过制定并执行IT目前大部分冷板液冷系统未能有类似于冷冻水风冷空调系统配置蓄冷罐一2)通过液冷系统关键设备的预防性维护,较早发现并闭环设备4)液冷系统宜按照分布式系统设计,减小故障的影响范围。1)液冷服务器上架前确认其内部冷板材料性能进行检查,针对已明确有材料劣化风4)液冷系统应安排月度水质检测,及时发现并控制冷却工质的品质。5)水质不满足运维要求时,及时安排在线配置补水小车,补水小车自带水箱和水泵,通过CDU管路,直接注入CDU水箱中完成补水,可实现CDU内补液与外补液同时补液。对外置补水小车的水2)液冷服务器漏液、高温等告警同步推送至机房第九章、智算中心新技术展望密度,因此依靠重力即可维持工作流体的流动该技术目前有两条技术路线:单相浸没+两作为先进的液体冷却系统,得到了美国能源部COOLERCHIPS计划500万美元的相冷板改为单相冷

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论