2024基于冷板式液冷的智能监控技术报告-76正式版_第1页
2024基于冷板式液冷的智能监控技术报告-76正式版_第2页
2024基于冷板式液冷的智能监控技术报告-76正式版_第3页
2024基于冷板式液冷的智能监控技术报告-76正式版_第4页
2024基于冷板式液冷的智能监控技术报告-76正式版_第5页
已阅读5页,还剩71页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

[编号ODCC-2024-06003]基于冷板式液冷的智能

监控技术报告开放数据中心委员会209发布基于冷板式液冷的智能监控技术报告版权声明单位共同享有著作权。转载、摘编或利用其它方式使用ODCC成果中的文字或者观点的,应注明来源:“开放数据中心委员会ODCC”。和翻译出版等侵权行为,ODCC及有关单位将追究其法律责任,感谢各单位的配合与支持。I基于冷板式液冷的智能监控技术报告编写组项目经理:杨举普洛斯数据中心工作组长:晁怀颇阿里云计算有限公司贡献专家:应泽良普洛斯数据中心白雪锋普洛斯数据中心金超强普洛斯数据中心卢栋普洛斯数据中心刘雨翔普洛斯数据中心张良锋普洛斯数据中心叶忠校普洛斯数据中心袁上普洛斯数据中心刘思缨普洛斯数据中心杨丹丹普洛斯数据中心段丽普洛斯数据中心邹其显普洛斯数据中心郁庆峰普洛斯数据中心韩冬普洛斯数据中心孙磊锋普洛斯数据中心周亮普洛斯数据中心张德成普洛斯数据中心吴泽里普洛斯数据中心金玉龙北京三快在线科技有限公司II基于冷板式液冷的智能监控技术报告温晓军中联云港数据科技股份有限公司叶伟现中联云港数据科技股份有限公司孙志芳中联云港数据科技股份有限公司李学文中联云港数据科技股份有限公司闫培云中联云港数据科技股份有限公司高扬中联云港数据科技股份有限公司徐欣曙光数据基础设施创新技术(北京)股份有限公司黄元峰曙光数据基础设施创新技术(北京)股份有限公司张鑫曙光数据基础设施创新技术(北京)股份有限公司崔旭静北京奕信通科技有限公司李晓峰北京奕信通科技有限公司王超维谛技术有限公司胡海政维谛技术有限公司郭小飞远地(广州)数字科技有限公司陈新崇远地(广州)数字科技有限公司罗云健上海艾克森股份有限公司陈华广东申菱环境系统股份有限公司李文龙广东申菱环境系统股份有限公司林艺成科华数据股份有限公司陈祥辉科华数据股份有限公司王彬科华数据股份有限公司黄新科华数据股份有限公司刘大闯深圳市中电电力技术股份有限公司江锦卫深圳市中电电力技术股份有限公司陈昱昱智效能(上海)科技技术发展有限责任公司周慧文杭州华电华源环境工程有限公司余强突破电气(天津)有限公司朱凯熙国网浙江省电力有限公司海盐县供电公司杨冰中国信息通信研究院III基于冷板式液冷的智能监控技术报告前言逐步上升到如今的高功率密度的机柜能够容纳更多高性能的CPU、GPU、大容量内存和术,以保障IT设备的稳定和高效运行。据中心IT设备的先进散热方法。其基本原理是通过将液体直接或间式液冷是通过液冷板将热量从IT设备传导出去,具有高效的散热能低、材料相容性好、易于维护等优点,是当前液冷技术中的主流。品在系统设计方面仍然参差不齐,各厂商和集成商也往往各自为战。为了应对这些挑战,我们期望通过联合业内专家的智慧和力量,制定出更加完善、健全的冷板式液冷监控方案。IV基于冷板式液冷的智能监控技术报告为行业提供参考,推动冷板式液冷技术的更广泛应用和规范化发展,为构建高效、可持续发展的数据中心基础设施做出贡献。系编写组。感谢您的理解与支持!V基于冷板式液冷的智能监控技术报告目录版权声明I编写组II前言............................................................................................................................IV一、术语、定义和缩略词......................................................................1二、冷板式液冷的典型项目架构..........................................................4(一)冷板式液冷的设备构成..........................................................................4(二)冷板式液冷的项目结构..........................................................................5三、冷板式液冷的监控架构..................................................................7四、冷板式液冷的自控系统..................................................................9(一)自控系统功能要求..................................................................................9(二)CDU自控系统..........................................................................................91.主要部件以及监控需求102.传感器部署113.主要控制逻辑154.告警点175.自控系统功能196.自控系统对外通信21(三)室外冷源自控系统..............................................................................231.室外冷源方案.....................................................................................232.室外冷源主要部件以及监控要求.....................................................253.室外冷源传感器部署.........................................................................274.室外冷源主要控制逻辑.....................................................................29VI基于冷板式液冷的智能监控技术报告5.室外冷源告警点.................................................................................316.室外冷源自控系统功能.....................................................................33五、冷板式液冷的群控系统................................................................34(一)群控应用场景........................................................................................34(二)群控系统的实现....................................................................................35(三)群控应用方案示例................................................................................38六、冷板式液冷的运维监控系统........................................................40(一)DCIM系统的监控范围..........................................................................41(二)DCIM数据采集、处理和存储..............................................................42(三)冷板式液冷的监控视图........................................................................431.空间设备布局图.................................................................................432.液冷系统图.........................................................................................443.液冷设备运行图.................................................................................46(四)冷板式液冷的容量和能效分析功能....................................................471.容量管理.............................................................................................472.能效管理.............................................................................................49七、冷板式液冷的智能监控功能........................................................50(一)基于动态基线的设备故障预警............................................................50(二)冷板式液冷项目的数据治理................................................................52(三)冷板式液冷系统的物理机理建模........................................................53(四)基于大模型的故障智能诊断................................................................54(五)引入服务器监控数据............................................................................55八、标准点位建议.............................................................................58VII基于冷板式液冷的智能监控技术报告(一)CDU标准点位建议................................................................................58(二)室外冷源标准点位建议........................................................................62VIII基于冷板式液冷的智能监控技术报告基于冷板式液冷的智能监控技术报告一、术语、定义和缩略词术语和定义BA系统(BuildingAutomationSystem):楼宇自动化系统,这运营效率和节能效果。DCIM系统(DataCenterInfrastructureManagement):是一种冷却、网络连接以及物理空间等方面。流经冷板时吸收元器件产生的热量,并通过液冷系统将热量带走。的操作参数,以确保设备在预定的目标范围内高效、安全地运行。参数,以确保关键设备在最佳条件下运行。型空调系统、工业冷却和数据中心。1基于冷板式液冷的智能监控技术报告液体或气体。一次侧(PrimarySide):通常是指实现冷媒从冷源(如冷机、冷却塔或干冷器)流向冷量分配单元的路线和设备。二次侧(SecondarySide):通常是指实现冷媒从冷量分配单元流向IT设备的路线和设备。缩略词AIOps(ArtificialIntelligenceforITOperations):人工IT障检测、根因分析、预测维护等,以提高系统的性能和可靠性。BMC(BaseboardManagementController):服务器的底板管理控CPU风扇转速、电源状态等。CDU(CoolantDistributionUnit):冷量分配单元,它是液冷方案的核心,负责冷源的利用与热源的散热调配。CLF(CoolingLoadFactor):冷却负载因子,衡量冷却系统负载情况的指标,通常表示为实际冷却负载与冷却系统设计容量的比值。PID(Proportional-Integral-DerivativeController):比例-积分-微分控制器,一种广泛用于工业控制系统中的控制算法。PID分),生成控制信号以调整系统的控制变量从而达到目标值。PLC(ProgrammableLogicController):可编程逻辑控制器,一通过编程实现逻辑运算、入/输出,控制各种类型的机械或过程。2基于冷板式液冷的智能监控技术报告PUE(PowerUsageEffectiveness):电能利用效率,表征数据中心能与所有电子信息设备消耗的总电能之比。SLA(ServiceLevelAgreement):是在供应商和客户之间达成的一种正式协议,明确描述供应商需提供服务的细节及其预期水平。WUE(WaterUsageEffectiveness):表征数据中心水利用效率的参设备消耗的总电能之比。3基于冷板式液冷的智能监控技术报告二、冷板式液冷的典型项目架构(一)冷板式液冷的设备构成自然。典型的冷板式液冷设备结构如下图所示:图1冷板式液冷结构示意图塔、闭式冷却塔和干冷器等设备实现,一般可提供30℃以内的冷却水。机械制冷系统包括风冷机组和水冷机组,可提供20℃以内的冷却水。体回路是指从冷量分配单元到机架,通过循环管路和设备连接,4基于冷板式液冷的智能监控技术报告然后再通过循环管路返回冷量分配单元的设计。CDU控制等作用。来自二次侧冷却回路的热量通过CDU的板式换热器传递到一次侧冷却回路,最终排放到大气中或被热回收再利用。分液单元():将冷却液分配到各个需要散热设备的部单元,从而防止不同路径的芯片散热冷板出现欠流或者过流情况。(二)冷板式液冷的项目结构和多个CDU成组运行,并采用N+1冗余设计,以确保在单个设备故障时仍能稳定运行。图2冷板式液冷项目示意图在冷板式液冷项目中,冷板主要用于冷却服务器的CPU、GPU,5基于冷板式液冷的智能监控技术报告有精密空调设备,而且在设计上通常采用5:5至2:8的空调风冷与冷体系统的散热需求。行。6基于冷板式液冷的智能监控技术报告三、冷板式液冷的监控架构CDU重要的作用。套并行系统:统或PLC量、压力等关键参数进行监测与调节。常使用的监控系统。图3DCIM监控架构示意图7基于冷板式液冷的智能监控技术报告时,也会根据项目需求设计不同的架构。效运营。在小型冷板式液冷项目中,例如单个包间级的冷板式液冷项目,机柜数量在几个到几十个的情况下,此类项目的运维目标相对简单,外完成。8基于冷板式液冷的智能监控技术报告四、冷板式液冷的自控系统(一)自控系统功能要求冷板式液冷项目的设备自控系统,主要是指CDU和室外冷源的设备自控系统,主要包含以下功能:关键部件的运行状态等。(PID)等控制功能精确调节设备运行状态。PLC数据和系统状态,并进行基本操作和参数调节。控制面板上会呈现声光告警。送数据,同时也能接受远程控制指令。下将就CDU自控系统和室外冷源控制系统提供一套监控系统的标准方案建议。(二)自控系统在冷板式液冷系统中,CDU使用热交换器连接一次侧和二次侧的量的有效转移和管理。9基于冷板式液冷的智能监控技术报告1.CDU主要部件以及监控需求图4CDU透视图表1CDU主要部件及监控要求10基于冷板式液冷的智能监控技术报告部件监控要求换热器用途:一二次侧液体热交换的部件。监控要求:温度监控、流量监控、压差监控。循环泵控要求:运行状态、转速、流量监控、压力监控。膨胀罐用途:吸收冷却液体积变化,保持系统压力稳定。监控要求:液位监控、压力监控。冷却液储液用途:存储冷却液,为系统提供稳定的液源。罐监控要求:液位监控。阀门用途:控制冷却液的流动路径和流量。监控要求:位置监控、流量监控。过滤器用途:清除冷却液中的杂质。监控要求:压差监控。电源模块用途:为CDU以及相关的传感器、控制器和执行器等提供稳定的电力供应。监控。2.CDU传感器部署为实现对以上CDU部件的监测,需要合理部署传感器,以实现可靠。CDU传感器部署的总体要求:11基于冷板式液冷的智能监控技术报告具有长时间工作稳定、准确的特性,避免漂移现象。作。兼容性:传感器应与CDU的控制系统兼容,能够无缝集成到现有系统中。CDU传感器部署的建议如下:图5CDU传感器部署示意图表2CDU传感器部署建议传感器部署要求一次侧温度用途:测量一次侧供液和回液温度。传感器110.2°C°C至150C12基于冷板式液冷的智能监控技术报告之间;响应时间:1秒以内。一次侧压力用途:测量一次侧供液和回液压力。(压力传感器建议传感器安装在温度传感器的上游)数量:一次侧入口,1个;一次侧出口,1个。0.5%FS0-10bar(0-145psi);响应时间:1秒以内。一次侧过滤用途:监控过滤器两端的压力差。器前后压力数量:过滤器前,1个,过滤器后,1个。传感器一次侧流量用途:测量一次侧液体流速。传感器数量:一次侧入口或出口,1个。的1.5至2倍;响应时间:1秒以内;低压降:传感器在最大流量下产生的压力损失应小于(满量程);通道直径:确保通道直径大于或等于液体管路的直径,推荐值一般为≥4mm。二次侧温度用途:测量二次侧供液和回液温度。传感器11二次侧压力用途:测量二次侧关键位置的液体压力。传感器数量:二次侧入口,1个;二次侧出口,1个。二次侧过滤用途:监控过滤器两端的压力差。器前后压力数量:过滤器前,1个;过滤器后,1个。传感器二次侧流量用途:监测冷媒在二次侧的流动速度。13基于冷板式液冷的智能监控技术报告传感器数量:二次侧入口或出口,1个。水质传感器用途:监测液体的化学特性,当前以乙二醇、丙二醇为典型的换热液体为例。数量:二次侧管道,传感器1个,电导率传感器1个。传感器0.10-14pH间:30秒以内。电导率传感器测量精度:±1%读数范围内;测量范围:0.1到20,000μ;响应时间:30秒以内。浊度传感器0.01NTU或读数的±5%0-4000NTU;响应时间:10秒以内。漏水监测用途:监控液体泄漏情况。至少1个,具体视管道复杂度而定。5ml10秒以内。液位传感器用途:监控冷却液的液位,防止液体过少或溢出。数量:储液罐,至少1个。CDU,推荐浮球液位传感器;在较大规模的CDU环境温湿度用途:监测环境湿度,防止冷凝水对设备影响。传感器数量:机房内、管道周边。14基于冷板式液冷的智能监控技术报告°C3%RH内;测量范围:温度在-40°C到+120°C,相对湿度在0%到100%RH;响应时间:温度在10秒以内,湿度在20秒以内。管道温度传用途:监测外部管道内的温度。感器数量:若干。管道压力度用途:监测外部管道内的压力。传感器数量:若干。3.CDU主要控制逻辑在CDU的自控系统中,通常是将二次侧的供液温度、压差或流PLC安全的运行。表3CDU控制参数建议控制参数控制说明二次侧供液适用场景温度和性能。控制逻辑1、实时监测二次侧冷媒的供液和回液温度;2、通过控制系统设定二次侧供液温度目标,例如30°C,利用控制算法调节一次侧阀开度;15基于冷板式液冷的智能监控技术报告3、如果供液温度高于设定值,增加调节阀的开度,可可使温度上升。二次侧压差适用场景冷却的长期稳定运行环境等;一级侧的压差波动较大,需要二次侧提供稳定压差。控制逻辑1、实时监测CDU二次侧出入口的压力,计算压差;2、在控制系统中设定压差目标,如0.5bar,利用PID控制算法调整循环泵的速度或调节阀的开度;3、当压差大于设定值,循环泵转速降低,当循环泵频率降至最低压差值仍大于设定值时,增大二次侧阀开度为0是为了保证循环泵处于最佳的运行状态。二次侧流量适用场景备或区域的冷却需求,动态调整流量分配。控制逻辑1、实时监测各个冷板或者整个支路的实际流量;2、在控制系统中设定适宜的流量目标,如50L/min,利用PID控制算法调整循环泵的速度或各支路的调节阀开度;16基于冷板式液冷的智能监控技术报告3、如果实际流量低于设定值,通过加快循环泵的转速度,可降低流量。场景、系统设计和运行需求,对压差控制或流量控制进行二选一。当然各厂家也可以针对一些复杂场景,设置综合控制策略:时采用压差控制。先级。例如,以压差为优先,流量作为辅助控制目标。阶梯控制:分阶段控制,通过主控从控实现多目标优化。例如,在一级侧有较大调节余地时,先控制压差,再调整流量。4.CDU告警点在冷板式液冷系统的CDU中,为确保系统在发生异常情况时能够及时发现并采取相应的措施,将典型故障和告警类别作为告警点。CDU系统,确保系统在发生异常情况时能够迅速响应和处理。17基于冷板式液冷的智能监控技术报告表4CDU告警点位设置建议告警分类告警点部件故障部件告警,是针对CDU系统中关键部件的性能和运行状态进行监控,确保这些部件在正常工作范围内。1、循环泵/补液泵故障告警:循环泵变频器故障、通故障(设备运行命令给出后未接受到运行反馈)。2、阀门故障告警:阀门卡死或无法正常开启/关闭。3、换热器/过滤器堵塞告警:压差异常(前后压差值超出设定范围)。4异常掉电。传感器故障传感器故障告警,是针对CDU系统中各类传感器的工作状态进行监控,确保数据采集的准确性和可靠性。1或者快速变化。2、传感器故障/通信中断:无法采集数据或数据错误。设备异常设备异常告警,是针对CDU系统整体运行的各项指标进行监控,确保系统在临界状态或异常情况下,能够及时触发告警并采取措施。1部管道关键节点(如不利点)的压力不足。2、系统流量异常:一二次侧流量超出预设范围。3、系统温度异常:冷媒温度过高或过低。18基于冷板式液冷的智能监控技术报告4体泄漏或补液不足)。5、漏液告警:水浸开关漏液告警。5.CDU自控系统功能CDU控制系统的运行状态。表5CDU自控系统功能建议交互功能功能要求状态监测在界面主页显示当前系统的各项关键参数,如温度、压力、流量、液位等。以组态方式展示CDU器、阀门等的运行状态。用不同颜色或图标标识正常、异常和告警状态。控制操作提供泵和其他关键设备的开/关控制按钮。允许用户改变温度、压力、流量等关键参数的设定值。告警管理弹出窗口或明显标识显示当前的故障和警告信息。记录并展示历史警报事件,方便回溯和分析。数据记录以图表形式显示温度、流量、压力等参数的变化趋势。允许导出历史数据,用于更详尽的分析。维护提醒显示维护预警,如过滤器更换、系统检查等提醒。权限控制需要用户登录,确保系统操作的安全性。系统管理配置系统基础设定,如控制逻辑、系统参数等。19基于冷板式液冷的智能监控技术报告提供系统时间设定和同步功能;提供网络配置界面,允许用户设置系统的地址、子网掩码、网关和DNS。操作日志支持日志导出和查询,使管理和审计更方便。图6CDU监控界面示例一图7CDU监控界面示例二20基于冷板式液冷的智能监控技术报告6.CDU自控系统对外通信上层监控系统需要采集CDU的实时数据,如温度、压力、流量等,也需要远程设置CDU的工作参数,如泵启动/停止、温度设定值外部设备和上层监控系统高效、可靠地通信的关键因素。在通信接口方面,RS-485口。在使用RS-485接口时,需要部署采集器,将CDU数据集中采集通过以太网传输到监控服务器,实现快速、稳定的数据传输。按目前的监控技术发展,在CDU对外通信的接口层面采用以太网接口是更为适用的方案。表6RS-485对比以太网通信接口RS-485以太网接口(网口)标准是一种用于多点以太网接口是用于有线局域LANIEEE(电子工业联盟)制802.3标准定义,它是目前最广泛使用的计算机网络技术化和数据采集系统中。之一。抗扰能力高,适用于工业环境需要网络防护设备传输距离长达1200米通常为100扩展传输速率9600至115200波特高,10Mbps至1Gbps成本较低较高多点通信支持32个设备需通过网络设备实现多设备21基于冷板式液冷的智能监控技术报告通信配置难度配置复杂远程访问不支持支持,适合远程监控和管理标准化全球标准,全面支持链路层)协议在通信协议格式方面,Modbus和SNMP是主流的两种格式。在当今的监控技术发展趋势下,建议CDU自控系统同时支持Modbus和SNMP不同的上层监控系统需求。表7Modbus对比SNMP协议特性ModbusSNMP基本原理Modbus协议是一种主/从SNMPMIB)/服务器(Client/Server)通过代理(Agent)和管理系架构的通信协议,允许一统(Manager)之间的通信,个主设备与多个从设备之实现对设备的状态监控和控间进行数据交换。常用数制。SNMP使用UDP协议传输据格式是16位的寄存器和离散的输入/较低的通信开销。就是线圈)。开放性和开放的工业标准,易于实标准化现广泛支持简单易用协议结构简单,易于开发复杂度高,涉及MIB文件,22基于冷板式液冷的智能监控技术报告和调试多种操作类型传输层支支持多种传输方式(基于通信,适合分布持)式网络适用性适合局部工业网络,成本适合大规模网络管理和远程效益高监控安全功能基本的安全功能,需要外SNMPv1/v2c安全性较弱,部保护SNMPv3较好数据类型支持的数据类型有限支持复杂数据结构和多个数据类型主动告警不具备主动告警功能支持机制,具备主动告警功能实现成本较低成本较高(三)室外冷源自控系统1.室外冷源方案用性,因此在设计和选型上有多种多样的方案。表8常见的室外冷源方案室外冷源方案介绍方案23基于冷板式液冷的智能监控技术报告冷却塔+循适用范围环泵气温低,全年可用自然冷源,水资源丰富。制冷原理垢的维护。干冷器+循适用范围环泵气温低,全年可用自然冷源,水资源匮乏。制冷原理能力。水冷机组+适用范围冷却塔+板气温高,需要机械制冷补冷,水资源丰富。换+循环泵制冷原理24基于冷板式液冷的智能监控技术报告高。风冷机组+适用范围循环泵气温高,需要机械制冷补冷,水资源匮乏。制冷原理蒸发的循环过程,从而吸收和排放热量。不依赖水源,适用于缺水地区。监控系统进行管理,因此在此不再详述。方案也是冷板式液冷项目当中更为常见的。自控系统进行集中监控,因此以下将这一类的一次侧设备自控系统,统称为室外冷源自控系统,详细阐述监控方案。2.室外冷源主要部件以及监控要求统、热交换系统、补液系统和喷淋系统组成。25基于冷板式液冷的智能监控技术报告表9室外冷源主要部件及监控要求部件监控要求换热器用途:负责将冷却液中的热量传递给周围的空气。监控要求:温度监控、压差监控。风机用途:加速空气流动,加速散热。监控要求:启停状态、转速。循环泵用途:维持冷却液的流动,提供所需的流量和压力。监控要求:温度监控、流量监控、压力监控、启停状态、转速。补液泵维持在设计的稳定范围内。监控要求:启停状态、转速。加药装置用途:维持冷却液的水质。监测要求:值、电导率。喷淋泵用途:喷淋泵负责将水从储水罐或直接从水源泵至喷嘴,提供所需的水压,使水能够均匀地喷洒到换热器的表面。监测要求:启停状态、转速。储液罐储液罐中补充冷却液。监测要求:液位监控。阀门用途:控制冷却液的流动路径和流量。监测要求:位置监控、操作状态监控、流量监控。26基于冷板式液冷的智能监控技术报告电源模块提供稳定的电力供应。控。3.室外冷源传感器部署部署相对简单。图8室外冷源传感器部署示意图表10室外冷源传感器部署建议传感器传感器要求供回液温度用途:测量侧供液和回液温度。传感器数量:入口,至少1个;出口,至少1个。0.2°C-40C至150°C之间;响应时间:1秒以内。27基于冷板式液冷的智能监控技术报告供回液压力用途:测量供液和回液压力。传感器数量:入口,1个;出口,1个。0-10(0-145);响应时间:1秒以内。流量传感器用途:测量液体流速。数量:入口或出口,1个。测量精度:±2%读数范围内;测量范围:预期最大流量的1.5至21器在最大流量下产生的压力损失应小于1%FS(满量程);通道直径:确保通道直径大于或等于液体管路的直径,推荐值一般为≥4mm。水质传感器用途:监测液体的化学特性。数量:一次侧管道,传感器1个,电导率传感器1个。传感器测量精度:±0.1pH以内;测量范围:0-14pH;响应时间:30秒以内。电导率传感器0.1μ到20,000μ;响应时间:30秒以内。液位传感器用途:监控冷却液储液罐的液位,防止液体过少或溢出。数量:储液罐内,至少1个。类型:在小型储液罐,推荐浮球液位传感器;在较大28基于冷板式液冷的智能监控技术报告规模储液罐,推荐超声波液位传感器,或电容式液位传感器。环境温湿度用途:实时监测周围空气的温度和湿度。传感器数量:进气口附近,1个。测量精度:温度在±°C范围内,相对湿度在±3%RH内;测量范围:温度在-40°C到+120°C,相对湿度在0%到100%RH;响应时间:温度在10秒以内,湿度在20秒以内。管道温度传用途:监测外部管道内的温度。感器数量:若干。管道压力度用途:监测外部管道内的压力。传感器数量:若干。4.室外冷源主要控制逻辑在室外冷源的自动控制系统中,控制逻辑主要围绕循环泵控制、液温度设定和供回液压差设定。表11室外冷源控制参数建议控制参数控制说明供液温度适用场景环境温度波动较大的场景,通过精准的温度控制确保系统稳定运行。控制逻辑29基于冷板式液冷的智能监控技术报告、实时监测冷却液的供液温度;30°用控制算法,调节风机转速或喷淋系统的喷雾量。速度;当供液温度偏低时,降低风机转速,或降低循环泵速度;步降低供液温度。回液温度适用场景负载装置需要高效散热的情况,例如高性能计算环境。控制逻辑、实时监测冷却液的回液温度;35°用控制算法,调节风扇的转速或循环泵的速度。速度;度。供回液压适用场景差系统负载动态变化较大,通过供回液压差控制,实时调整泵速和阀门状态,确保系统高效运行。控制逻辑、实时监测室外冷源出口和入口的压力,计算压差;2、在控制系统中设定适宜的压差目标,如0.5bar,利30基于冷板式液冷的智能监控技术报告用控制算法调整循环泵的速度或调节阀的开度;整阀门开度增加流量,可增加压差;阀门开度,可降低压差。征,进行三选二控制,舍弃一个目标作为自由变量。5.室外冷源告警点实时传输至上层管理系统。表12室外冷源告警设置建议告警分类典型告警点部件故障1、风机/循环泵/喷淋泵/补液泵故障告警或水泵速度无法调节,从而影响冷却效果。之间的通信中断,应立即报警。31基于冷板式液冷的智能监控技术报告正常启动,应触发启动故障告警。态异常或性能下降的情况。2、电源故障即报警。稳定运行,应设置相应的电压异常告警。传感器故障1、传感器异常告警读数异常,长期保持某一固定值或者快速变化2、传感器故障/通信中断无法采集数据或数据错误设备异常1、系统压差异常测到干冷器的冷却介质进出口压力超出正常操作塞或泵功能异常导致。2、系统流量异常应自动告警,指示可能存在泵效率问题或管路泄漏。3、系统温度异常温度可能会导致介质凝固问题。4、系统液位异常32基于冷板式液冷的智能监控技术报告如果干冷器的储液箱液位低于或高于正常水位线,可能是由于控制系统故障导致补液过多。5、水质异常告警浓度过高或过低,需调整水处理设施或更换循环水。值过高可能导致结垢问题。维持适宜的范围对预防这些问题至关重要。6.室外冷源自控系统功能在系统交互层面,室外冷源自控系统与CDU自控系统的要求是一致的,请参考上方的“CDU自控系统功能”,不再赘述。33基于冷板式液冷的智能监控技术报告五、冷板式液冷的群控系统目,室外冷源和CDU可能采用N+1及以上冗余结构设计,这就需要使用群控系统来管理。(一)群控应用场景图9冷板式液冷设备并机示意图CDU控系统需要满足的场景如下:并机组网:多台CDU/室外冷源可以并联运行,通过群控系统协性。热备功能:在某个CDU/室外冷源出现故障时,热备系统可以立即接管其工作,确保冷却任务不中断。34基于冷板式液冷的智能监控技术报告个CDU/室外冷源的运行状态,优化能源使用,降低运行成本。主备配置:群控系统支持主备配置,可以指定主系统和备系统,轮询机制:通过轮询机制,群控系统可以均衡各个CDU/室外冷余和控制冗余,确保系统在各种故障情况下仍能稳定运行。换,将故障系统的任务转移到正常运行的设备上。(二)群控系统的实现定、数据采集和指令下发以及适当的应急处置方案。控制主机的设定下的某台室外冷源或CDU来承担。群控主机不断从CDU和室外冷源收集实时参数数据,如设备运群控主机连接,确保数据传输的实时性和可靠性。群控主机使用先进的控制算法(如机器学习和数据驱动优化模35基于冷板式液冷的智能监控技术报告稳定性。指令下达与执行确、高效,并具备良好的反馈机制以保证整个系统的稳定性。a、指令的生成与下达自动由系统推荐的最优设置。制指令以适应这些变化。指令下达:经过计算和验证的控制指令被发送到特定设备,如CDU络线路发送这些指令。b、设备的响应与执行状态如改变流速或转速等。设备控制应有足够的精确性和反应速度,以准确响应控制指令。参数,确保操作在安全和预定的范围内进行。、反馈与闭环控制信息。36基于冷板式液冷的智能监控技术报告闭环控制。d、用户界面与监控:件日志。结果,供未来审计和性能评估使用。适当的应急处置方案是群控系统需要完善的各项应急处置措施:a、手动干预流程快速切换模式:确保操作人员可以迅速接入系统进行手动干预。复位或切换至备份系统的选项。保操作人员在紧急情况下可以快速准确地采取行动。b、启动本地控制冷却系统以保持在安全温度范围内。件下自行解决简易的技术故障,减轻对于即时人工干预的依赖。37基于冷板式液冷的智能监控技术报告、控制参数范围限制参数的安全范围,增强系统适应性和抗干扰能力。警报,并在可能的情况下自行调整或等待人工确认。d、异常监测与反馈机制析执行错误或异常状态的原因,提供可能的解决方案或修复建议。并自动隔离故障部分,防止错误扩散。(三)群控应用方案示例方案一:大型数据中心应用方案项目背景:某大型数据中心计划采用冷板式液冷系统来冷却其高密度的CDU性较高。需要群控系统完成以下操作:通过群控主机协调多个冷板和CDU的运行,避免了某些冷板过载而其他冷板闲置的情况;板的冷却能力,而在低负载时段则降低冷却能力,以节约能源;在某个CDU发生故障时,群控系统迅速切换到备用CDU,保证38基于冷板式液冷的智能监控技术报告冷却效果不受影响。群控预期效果:提高冷却效率,降低能耗;增强系统的可靠性和稳定性;实现智能化管理,减少人工干预。方案二:中型企业应用方案项目背景:每个冷板和CDU都配备独立的控制单元,能够根据预设的参数CDU会自动增加水泵流速,以提高冷却效果。维人员可以通过远程系统手动调整冷却参数,确保设备正常运行。在夜间低负载时段,系统自动降低冷却能力,减少能源消耗。群控预期效果:·满足中型企业的数据中心冷却需求;·降低运维成本,提高冷却效率;·实现基础的智能化管理。39基于冷板式液冷的智能监控技术报告六、冷板式液冷的运维监控系统CDUDCIM系统。动环监控系统主要负责对冷板式液冷设备以及周边配套设备的数据采集和告警监控。DCIM系统,则往往是动环监控系统的再上一层监控系统,用于全面整合和管理数据中心的各个方面,包括电力、备数据分析功能,有助于资源优化和提高运营效率。DCIM系统之间的界限变得越来越模糊。在适当的场景下,它们可以DCIM系统的功能。以下将以DCIM维监控系统应当具备的监控功能。40基于冷板式液冷的智能监控技术报告(一)DCIM系统的监控范围中直接相关的空调末端和配电末端设备,不做深入展开。表13DCIM监控范围以及要求设备监控要求CDU用途:冷板式液冷系统的核心设备,负责一二次侧的热交换。室外冷源环境中。精密空调板式液冷服务器的内存、主板等周边设备降温。恒湿机要求。监控要求:采集测点数据,监控告警。温湿度传用途:实时监测数据中心内的温度和湿度水平。感器监控要求:采集测点数据,监控告警。漏水绳用途:监测机房内的漏水情况,及时检测到漏水发生。监控要求:采集测点数据,监控告警。41基于冷板式液冷的智能监控技术报告列头柜用途:给机柜配电。监控要求:采集测点数据,监控告警。配电柜CDU电。监控要求:采集测点数据,监控告警。(二)DCIM数据采集、处理和存储在DCIMDCIM的标准方案进行处理,以下是DCIM系统中的方案概要介绍。数据采集采集方式:DCIM系统应支持Modbus和SNMP等标准通信协议3秒对于CDU为每5秒一次。于设备厂家提供的其他点位,也可以作为非标点位进行管理。数据存储存储策略:对模拟量采用周期存储,每1分钟或每10秒一次;据存储粒度,甚至进行全量存储以便事后分析。存储时长:历史数据应至少保留5年,以支持长期的数据回溯。数据处理42基于冷板式液冷的智能监控技术报告实时计算:DCIM系统应具备实时处理数据的能力,进行求和、平均、差值等基础运算。耗、温度趋势等,以支持决策制定。(三)冷板式液冷的监控视图对于冷板式液冷项目,DCIM监控视图在确保系统高效和稳定运控视图的详述:1.空间设备布局图空间视图快速判断出可能的问题点。空间视图的制作要求:使用组态类工具绘制空间视图按2D2.5D或3D装位置及管道布置。整体性。对于远离液冷房间的冷源,单独绘制室外冷源的空间视图,同时在房间视图中标注连接点和方向,以便快速定位。图元要求核心设备如CDU43基于冷板式液冷的智能监控技术报告反映设备的实时状态。人员注意。状态。用户可点击设备图元,弹出窗口或侧边栏展示设备的详细数据。整体运行指标展示功率、CDU免遮挡核心设备或关键通道。用户友好界面确保界面清晰简洁,不显得凌乱。到细节视图。2.液冷系统图CDU断具有关键作用,确保冷却系统能够连续无间断地运行。44基于冷板式液冷的智能监控技术报告图10冷板式液冷系统图液冷系统图的制作要求:使用组态类工具绘制液冷系统图将存在相关影响关系的多组冷板式液冷系统整合成一个整体的液冷系统图。准确绘制出室外冷源、、环网管道的连接关系。标示出室外冷源的风机和循环泵的运行状态;标示出CDU中的循环泵的运行状态,确保图元动态反映实际情况。用不同颜色区分各环网,以便于直观了解流向和结构。示(如颜色变化、闪烁等)。使用组态类工具或H5网页绘制液冷参数总览视图45基于冷板式液冷的智能监控技术报告的液冷系统监控系统。这里需要展示:液冷系统的关键参数,如温度、压力、流量等;发现异常和进行故障诊断。确认弹窗和权限验证,确保每次远程控制操作都记录在案。3.液冷设备运行图在DCIM统核心设备如CDU和室外冷源设备的直观监控方案。这种运行图不使设施管理人员能够及时识别和解决任何潜在问题。为了确保运维人员可以轻松理解运行图中的信息并迅速采取行作效率,尤其是在紧急情况下,能够迅速和准确地做出响应。46基于冷板式液冷的智能监控技术报告图11冷板式液冷设备运行图对于大型项目,由于设备数量众多,应采用模块化的绘制方法,控。且可以在单一界面上实现快速的状态检查和问题诊断。(四)冷板式液冷的容量和能效分析功能DCIM系统应当为冷板式液冷项目提供容量管理和能效分析功能,维人员优化冷板式液冷性能。1.容量管理针对冷板式液冷项目,推荐的容量管理包含以下页面:47基于冷板式液冷的智能监控技术报告总容量使用报表页面运维人员快速了解资源利用情况。页面内容:总负载、总制冷能力、冷量使用比例、冷量供需比。示冷量供需比的历史数据趋势。设备容量使用报表页面详细使用数据,帮助识别高负载设备和潜在容量瓶颈。值)。备的负载与最大负载对比。冷量分配报表页面分配情况,优化冷却资源配置。含冷板系统的冷量和精密空调的冷量对比)冷量在不同设备间的分配比例。容量趋势和预测报表页面48基于冷板式液冷的智能监控技术报告提前规划和决策。页面内容:历史容量数据、趋势分析、预测数据。可视化:用折线图展示历史容量使用情况和未来容量需求预测,用散点图或回归分析图展示容量使用趋势。2.能效管理针对冷板式液冷项目,推荐的能效管理包含以下页面:综合能效报表页面功能描述:展示冷板液冷系统的综合能效,包括PUE、CLF等指标及其历史趋势。页面内容:关键能效指标(PUE、CLF的实时和历史数据)、冷量供需比(空调冷量和CDU提供的冷量之和,与设备的功率进行比较)、风液供冷比(精密空调供冷与冷板供冷的比例)。示能耗分布情况。设备能耗详细报表页面高能耗设备。据(精密空调的风机转速、送回风温差,风机转速,水泵转速)。展示能耗趋势。49基于冷板式液冷的智能监控技术报告七、冷板式液冷的智能监控功能(一)基于动态基线的设备故障预警杂。如果仅依赖传统的阈值告警系统,往往会导致告警滞后。然而,动态基线是通过时间序列预测算法,对关键测点构建动态基线阈区间,从而判断系统是否存在异常。例如,LSTM可以捕捉数据中的ARIMA则通过自回归据超出预测的正常运行范围时,系统将自动触发报警。50基于冷板式液冷的智能监控技术报告图12动态基线预警示意图较简单,不需要人工设置阈值,算法能够结合长期和短期历史数据,相比静态阈值告警更灵敏,可以提前发现问题。CDU线预警,当测点值超出日常的波动区间后,即可触发预警。51基于冷板式液冷的智能监控技术报告升场景快30秒至3分钟发出预警信息,在液体温升场景可以快2-5分钟。识别短时间内的异常剧烈波动。(二)冷板式液冷项目的数据治理点校验和跨设备的数据校验。单测点的工作区间校验在冷板式液冷系统中,每类设备测点都可以定义出其工作区间,为是异常或无效数据进行剔除,避免影响设备控制或设备告警功能。CDU100C设备内测点数据校验CDU和分析,可以判断测点数据是否合理。多设备数据的相互校验52基于冷板式液冷的智能监控技术报告多设备相互验证数据准确性。例如,室外冷源的供液温度和CDU的物理机理模型,通过仿真数据对实际监控数据进行校验。(三)冷板式液冷系统的物理机理建模冷板式液冷的物理机理建模是对其热力学和流体力学行为进行系统动力学特性等。冷板式液冷的物理模型可以应用于自控系统和群控系统中,为PID略的制定,为液冷系统的全生命周期管理提供有力支持。液冷系统的建模主要通过以下步骤实现:布、优化冷却效率等。度、粘度、比热容等)、管道几何尺寸、热源位置和功率等。口流速、温度,出口压力等。数值求解:选择合适的数值方法(如有限元法、有限差分法等)53基于冷板式液冷的智能监控技术报告(如、Fluent等)。型的精度和鲁棒性。(四)基于大模型的故障智能诊断依赖负载,如何快速准确进行故障诊断,及时止损。化为半结构化/结构化语言形式,通过大模型的诊断和推理,有效减少中间信息处理的时间,提升运维处理人效。用不同的知识系统进行综合判断。共建语料,进行精调和上下文学习,提升诊断有效率。进行合理推理跟发现。图13大模型故障智能诊断流程对故障的智能诊断阶段:/54基于冷板式液冷的智能监控技术报告关性分析;故障学习:通过输出的设备运行规律,相关性信息,抽数据库和图数据库中;半结构化/找到与故障最接近的N根因信息;推理能力进行故障诊断。(五)引入服务器监控数据在冷板式液冷项目当中,部署传感器在机柜层面面临诸多挑战,供液给服务器的温度、压力等关键参数变得更加复杂和困难。然而,通过服务器BMC,可以直接监测服务器的内部温度和负载情况,实现间接的环境监控和动态调整。BMC是一种专为服务器和高性能计算系统设计的嵌入式微控制器。BMC通过专用的独立网络端口或共享网络端口与外部通信。BMC能够实时监测服务器的各种硬件状态,包括温度、风扇速度、电压、功耗等。服务器数据的用途在冷板式液冷项目中,利用BMC采集到服务器数据后,对服务器温度和负载进行分析,可以为冷板式液冷系统的控制提供帮助。55基于冷板式液冷的智能监控技术报告充足的冷却能力,而在负载较低时节约能源,从而优化系统能效。断。命。高冷却系统的整体效率。冷却或服务器运行问题,通过BMC提供的监测数据能够实现快速故用性。无法直接获取服务器数据时的替代方案由于BMC具备重启服务器等敏感操作功能,服务器运营商在开放BMC数据时可能会有所顾虑,而不愿将这些服务器数据直接提供给冷板式液冷监控系统。为了应对服务器运营商不愿提供直接BMC数据的情况,冷板式56基于冷板式液冷的智能监控技术报告态,例如温度和功率消耗等。统的运行参数,确保系统在高效散热的同时保持稳定运行。总之,即使没有直接获取BMC数据,也能通过这种方法有效监控和优化液冷系统,提高其整体效率和可靠性。57基于冷板式液冷的智能监控技术报告八、标准点位建议为了实现对冷板式液冷系统的CDU进行有效的监控和管理,制计。本报告提供了一份结合典型的CDU部件和传感器部署方案的标准点位设计示例。(一)标准点位建议测点分类测点名称测点类型读写单位数值精度有效值范围运行参数一次侧入口温度模拟量℃0.10~80一次侧出口温度模拟量℃0.10~80一次侧入口压力模拟量bar0.010~5一次侧出口压力模拟量bar0.010~5一次侧板换入口压模拟量bar0.010~5力一次侧板换出口压模拟量bar0.010~5力一次侧过滤器入口模拟量bar0.010~5一次侧过滤器出口模拟量bar0.010~5一次侧阀开度模拟量%0.10~100一次侧流量模拟量L/min0.1按需而定二次侧入口温度模拟量℃0.10~80二次侧出口温度模拟量℃0.10~80二次侧入口压力模拟量bar0.010~5二次侧出口压力模拟量bar0.010~558基于冷板式液冷的智能监控技术报告二次侧泵入口压力模拟量bar0.010~5二次侧泵出口压力模拟量bar0.010~5二次侧过滤器入口模拟量bar0.010~5二次侧过滤器出口模拟量bar0.010~5二次侧阀开度模拟量%0.10~100二次侧流量模拟量L/min0.1按需而定循环泵转速模拟量%0.10~100水箱液位高度模拟量cm10~200电导率模拟量us/cm0.10~20000PH值模拟量0.010~7室内湿度模拟量%RH0.10~100室内温度模拟量℃0.1-30~50室内露点温度模拟量℃0.1-30~50管道温度模拟量℃0.10~80管道压力模拟量bar0.010~5运行状态开关机状态状态量本地/远程状态量循环泵运行状态状态量循环泵手自动状态状态量补液泵运行状态状态量补液泵手自动状态状态量一次侧阀手自动状状态量态二次侧阀手自动状状态量态设备故障机组告警状态状态量储液箱低液位状态量储液箱高液位状态量漏液状态状态量59基于冷板式液冷的智能监控技术报告液一次侧过滤器堵塞状态量一次侧板换堵塞告状态量警二次侧过滤器堵塞状态量一次侧入口温度过状态量高一次侧入口温度过状态量低二次侧出口温度过状态量高二次侧出口温度过状态量低一次侧入口压力过状态量高一次侧入口压力过状态量低二次侧泵入口压力状态量二次侧泵入口压力状态量二次侧进出口压差状态量二次侧进出口压差状态量一次侧流量不足状态量二次侧流量不足状态量二次侧泵出口压力状态量电源故障告警状态量60基于冷板式液冷的智能监控技术报告变频器故障状态量一次侧阀故障状态量二次侧阀故障状态量传感器一次侧入口温度传状态量感器故障一次侧出口温度传状态量感器故障一次侧入口压力传状态量感器故障一次侧出口压力传状态量感器故障一次侧板换入口压状态量力传感器故障一次侧板换出口压状态量力传感器故障一次侧过滤器入口状态量压力传感器故障一次侧过滤器出口状态量压力传感器故障一次侧流量计传感状态量器故障二次侧入口温度传状态量感器故障二次侧出口温度传状态量感器故障二次侧入口压力传状态量感器故障二次侧出口压力传状态量感器故障二次侧泵入口压力状态量传感器故障二次侧泵出口压力状态量61基于冷板式液冷的智能监控技术报告传感器故障二次侧流量计传感状态量器故障

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论