2024基于冷板式液冷的智能监控技术报告-76正式版_第1页
2024基于冷板式液冷的智能监控技术报告-76正式版_第2页
2024基于冷板式液冷的智能监控技术报告-76正式版_第3页
2024基于冷板式液冷的智能监控技术报告-76正式版_第4页
2024基于冷板式液冷的智能监控技术报告-76正式版_第5页
已阅读5页,还剩71页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

[编号

ODCC-2024-06003]基于冷板式液冷的智能监控技术报告开

会20

24-0

9

布基于冷板式液冷的智能监控技术报告版权声明ODCC(开放数据中心委员会)发布的各项成果,受《著作权法》保护,编制单位共同享有著作权。转载、摘编或利用其它方式使用

ODCC

成果中的文字或者观点的,应注明来源:“开放数据中心委员会

ODCC”。对于未经著作权人书面同意而实施的剽窃、复制、修改、销售、改编、汇编和翻译出版等侵权行为,ODCC

及有关单位将追究其法律责任,感谢各单位的配合与支持。I基于冷板式液冷的智能监控技术报告编写组项目经理:杨举普洛斯数据中心工作组长:晁怀颇阿里云计算有限公司贡献专家:应泽良普洛斯数据中心普洛斯数据中心普洛斯数据中心普洛斯数据中心普洛斯数据中心普洛斯数据中心普洛斯数据中心普洛斯数据中心普洛斯数据中心普洛斯数据中心普洛斯数据中心普洛斯数据中心普洛斯数据中心普洛斯数据中心普洛斯数据中心普洛斯数据中心普洛斯数据中心普洛斯数据中心北京三快在线科技有限公司白雪锋金超强卢栋刘雨翔张良锋叶忠校袁上刘思缨杨丹丹段丽邹其显郁庆峰韩冬孙磊锋周亮张德成吴泽里金玉龙II基于冷板式液冷的智能监控技术报告温晓军叶伟现孙志芳李学文闫培云高扬中联云港数据科技股份有限公司中联云港数据科技股份有限公司中联云港数据科技股份有限公司中联云港数据科技股份有限公司中联云港数据科技股份有限公司中联云港数据科技股份有限公司曙光数据基础设施创新技术(北京)股份有限公司曙光数据基础设施创新技术(北京)股份有限公司曙光数据基础设施创新技术(北京)股份有限公司北京奕信通科技有限公司徐欣黄元峰张鑫崔旭静李晓峰王超北京奕信通科技有限公司维谛技术有限公司胡海政郭小飞陈新崇罗云健陈华维谛技术有限公司远地(广州)数字科技有限公司远地(广州)数字科技有限公司上海艾克森股份有限公司广东申菱环境系统股份有限公司广东申菱环境系统股份有限公司科华数据股份有限公司李文龙林艺成陈祥辉王彬科华数据股份有限公司科华数据股份有限公司黄新科华数据股份有限公司刘大闯江锦卫陈昱深圳市中电电力技术股份有限公司深圳市中电电力技术股份有限公司昱智效能(上海)科技技术发展有限责任公司杭州华电华源环境工程有限公司突破电气(天津)有限公司周慧文余强朱凯熙杨冰国网浙江省电力有限公司海盐县供电公司中国信息通信研究院III基于冷板式液冷的智能监控技术报告前

言随着大语言模型、人工智能训练、深度学习和高性能计算等技术的发展,数据中心的计算需求不断攀升,导致机柜的功率需求急剧增加,从几年前常见的

5kW、8kW

逐步上升到如今的

20kW、50kW。这种高功率密度的机柜能够容纳更多高性能的

CPU、GPU、大容量内存和高速存储设备,满足复杂计算和数据处理任务的要求,但是高功率机柜产生的热量也显著增加,这就需要有效的散热解决方案,如液冷技术,以保障

IT

设备的稳定和高效运行。数据中心液冷技术是一种以液体作为热量传输介质,用于冷却数据中心

IT

设备的先进散热方法。其基本原理是通过将液体直接或间接地引入数据中心设备,利用液体的高热容和高导热性能,将设备产生的热量迅速带走,并有效地散发到环境中。在液冷技术当中,冷板式液冷是通过液冷板将热量从

IT

设备传导出去,具有高效的散热能力,其相对于其他液冷技术,如浸没式液冷和喷淋式液冷,具有造价低、材料相容性好、易于维护等优点,是当前液冷技术中的主流。冷板式液冷技术在行业内虽然已有一定规模,但业内的厂家众多,标准化仍有待提升,这导致了市场上存在许多差异化的产品。尽管近年来部分企业和协会推出了一些液冷细分领域的标准,冷板式液冷产品在系统设计方面仍然参差不齐,各厂商和集成商也往往各自为战。为了应对这些挑战,我们期望通过联合业内专家的智慧和力量,制定出更加完善、健全的冷板式液冷监控方案。本报告提出的建立一套冷板式液冷的监控系统标准方案,希望能IV基于冷板式液冷的智能监控技术报告为行业提供参考,推动冷板式液冷技术的更广泛应用和规范化发展,为构建高效、可持续发展的数据中心基础设施做出贡献。由于时间仓促,水平有限,文中难免存在错误和不足之处。我们诚挚地欢迎各位读者批评指正,如果您有任何意见或建议,请随时联系编写组。感谢您的理解与支持!V基于冷板式液冷的智能监控技术报告基于冷板式液冷的智能监控技术报告一、术语、定义和缩略词术语和定义BA

系统

(Building

Automation

System):楼宇自动化系统,这里指的是用于监控冷水机组、冷却塔、干冷器及相关管道等冷站设备的系统。该系统通过集中监控和自动化控制设备运行,以提高冷站的运营效率和节能效果。DCIM

系统(Data

Center

Infrastructure

Management):是一种专门用于管理数据中心基础设施的系统,旨在帮助数据中心管理者高效地监控、控制和优化数据中心的所有物理基础设施资源,包括电力、冷却、网络连接以及物理空间等方面。冷板式液冷:一种液冷散热方式,通过在服务器关键元器件上安装冷板来实现热量传导和散热。冷板内部通常包含冷却液通道,冷却液流经冷板时吸收元器件产生的热量,并通过液冷系统将热量带走。设备自控系统:设备自控系统通过自动化技术(如控制器、传感器、执行器、通讯网络、控制策略等)来实时地、自动地调节和控制设备的操作参数,以确保设备在预定的目标范围内高效、安全地运行。动环系统:动环系统通常指动环监控系统,全称为“动力环境监控系统”,用于监控和管理数据中心的供电、制冷、温度、湿度等环境参数,以确保关键设备在最佳条件下运行。冷却塔:一种用于去除工业设施或电厂中多余热量的设备。通过空气和水的接触,蒸发部分水分带走热量,从而降低水温,通常用于大型空调系统、工业冷却和数据中心。干冷器:也称为空气冷却器,利用空气(通常通过风扇)直接冷却1基于冷板式液冷的智能监控技术报告液体或气体。一次侧(Primary

Side):通常是指实现冷媒从冷源(如冷机、冷却塔或干冷器)流向冷量分配单元的路线和设备。二次侧(Secondary

Side):通常是指实现冷媒从冷量分配单元流向

IT

设备的路线和设备。缩略词AI

Ops

(Artificial

Intelligence

for

IT

Operations):人工智能运维,使用人工智能技术来增强和自动化

IT

运维任务,包括故障检测、根因分析、预测维护等,以提高系统的性能和可靠性。BMC

(Baseboard

Management

Controller):服务器的底板管理控制器,可以实时监测服务器的关键硬件参数,如

CPU

温度、主板温度、风扇转速、电源状态等。CDU

(Coolant

Distribution

Unit):冷量分配单元,它是液冷方案的核心,负责冷源的利用与热源的散热调配。CLF

(Cooling

Load

Factor):冷却负载因子,衡量冷却系统负载情况的指标,通常表示为实际冷却负载与冷却系统设计容量的比值。PID

(Proportional-Integral-Derivative

Controller):

比例-积分-微分控制器,一种广泛用于工业控制系统中的控制算法。PID控制器通过计算当前误差的比例、累积误差(积分)和误差变化率(微分),生成控制信号以调整系统的控制变量从而达到目标值。PLC

(Programmable

Logic

Controller):

可编程逻辑控制器,一种用于工业自动化的数字计算控制装置。PLC

通过编程实现逻辑运算、顺序控制、定时、计数和算术运算等控制功能,通过数字或模拟的输入/输出,控制各种类型的机械或过程。2基于冷板式液冷的智能监控技术报告PUE(Power

Usage

Effectiveness):电能利用效率,表征数据中心电能利用效率的参数,其数值为数据中心内所有用电设备消耗的总电能与所有电子信息设备消耗的总电能之比。SLA(Service

Level

Agreement):是在供应商和客户之间达成的一种正式协议,明确描述供应商需提供服务的细节及其预期水平。WUE(Water

Usage

Effectiveness):表征数据中心水利用效率的参数,其数值为数据中心内所有用水设备消耗的总水量与所有电子信息设备消耗的总电能之比。3基于冷板式液冷的智能监控技术报告二、冷板式液冷的典型项目架构(一)冷板式液冷的设备构成冷板式液冷技术主要应用于一般高密度的数据中心领域,可以通过冷板带走服务器热量,并经过一二次侧的热循环,将热量散发到大自然。典型的冷板式液冷设备结构如下图所示:图

1

冷板式液冷结构示意图一次侧设备:主要由室外冷源、循环泵、定压补水装置和循环管路等部件构成。室外冷源可采用自然冷却系统和机械制冷系统,因项目需求而已。自然冷却是在室外气象条件允许的情况下,利用室外空气的冷量而不需机械制冷的冷却过程,自然冷却系统可采用开式冷却塔、闭式冷却塔和干冷器等设备实现,一般可提供

30℃以内的冷却水。机械制冷系统包括风冷机组和水冷机组,可提供

20℃以内的冷却水。二次侧设备:主要由换热冷板、循环管路等部件构成。二次侧液体回路是指从冷量分配单元到机架,通过循环管路和

IT

设备连接,4基于冷板式液冷的智能监控技术报告然后再通过循环管路返回冷量分配单元的设计。冷量分配单元(CDU):可以看作一次侧与二次侧的连接点,由换热器、旁通阀、循环泵、膨胀罐等部件组成,具有流量分配、压力控制等作用。来自二次侧冷却回路的热量通过

CDU

的板式换热器传递到一次侧冷却回路,最终排放到大气中或被热回收再利用。分液单元(Manifold):将冷却液分配到各个需要散热设备的部件。通过竖直和水平分液单元将低温冷却液均匀的分配给每一个分液单元,从而防止不同路径的芯片散热冷板出现欠流或者过流情况。(二)冷板式液冷的项目结构从项目的角度来看,大型冷板式液冷项目通常配置多台室外冷源和多个

CDU

成组运行,并采用

N+1

冗余设计,以确保在单个设备故障时仍能稳定运行。图

2

冷板式液冷项目示意图在冷板式液冷项目中,冷板主要用于冷却服务器的

CPU、GPU,而硬盘和主板等其他组件仍依赖传统风冷系统,因此,项目上还会配5基于冷板式液冷的智能监控技术报告有精密空调设备,而且在设计上通常采用

5:5

2:8

的空调风冷与冷板液冷比例,这种设计不仅保证了关键部件的高效冷却,还兼顾了整体系统的散热需求。除此之外,项目还配有恒湿机和配电柜等辅助设备。恒湿机是用来控制机房内湿度的,避免湿度过高导致设备短路或湿度过低导致静电积累,而配电柜则负责整个系统的电力分配,确保各组件的稳定运行。6基于冷板式液冷的智能监控技术报告三、冷板式液冷的监控架构监控系统是冷板式液冷项目的软件部分,从

CDU、室外冷源设备的运行参数设置,到整个液冷项目的运维管理,监控系统发挥着至关重要的作用。为实现以上功能,监控系统通常包含控制层和管理层,可分为多套并行系统:设备自控系统:设备自控系统是冷板式液冷项目的控制层,其核心目标是实现设备的实时监控与自动控制。这一层级通常由嵌入式系统或

PLC

控制系统组成,通过各种传感器和执行器对设备的温度、流量、压力等关键参数进行监测与调节。运维监控系统:运维监控系统是冷板式液冷项目的管理层,其着眼于整个液冷系统的全局监控、数据分析和运维管理,是运维人员日常使用的监控系统。图

3

DCIM

监控架构示意图上图提供了这两层监控系统的一种典型架构形式,但在实际部署7基于冷板式液冷的智能监控技术报告时,也会根据项目需求设计不同的架构。在大型冷板式液冷项目中,监控需求显得更为复杂和全面。在设备自控系统,不仅需要细究传感器的部署,确保设备的平稳和高效运行,还需要实现智能化的群控和远程控制。同时,在运维监控系统中,需要提供可视化的监控视图,精细的容量、能耗数据分析,还需提供设备整个生命周期的巡检、维护等管理功能,以实现智能化管理和高效运营。在小型冷板式液冷项目中,例如单个包间级的冷板式液冷项目,机柜数量在几个到几十个的情况下,此类项目的运维目标相对简单,强调人工响应和低成本,主要目标是确保冷板式液冷系统的平稳运行,此时更看重设备自控层的监控能力,通常不需要群控和远程控制功能。而在运维监控层,通常只需要进行简单的集成即可,提供简单的告警管理和数据查询功能,更高阶的项目管理或数据分析可在监控系统之外完成。8基于冷板式液冷的智能监控技术报告四、冷板式液冷的自控系统(一)自控系统功能要求冷板式液冷项目的设备自控系统,主要是指

CDU

和室外冷源的设备自控系统,主要包含以下功能:数据采集:实时监测系统的关键参数,如温度、水流量、压力和关键部件的运行状态等。自动控制:利用逻辑运算、顺序控制、控制算法(PID)等控制功能精确调节设备运行状态。本地显示和操作:设备自控系统通常运行在

PLC

上,相关信息会显示在设备的控制面板或显示屏上。用户可以通过本地面板查看实时数据和系统状态,并进行基本操作和参数调节。报警和通知:如果设备出现故障或系统参数超出设定范围,设备控制面板上会呈现声光告警。远程通信和控制:设备自控系统能够通过网络接口向外部系统发送数据,同时也能接受远程控制指令。设备自控系统通常是由各设备制造商独立研发,通常会在传感器配置、控制算法、用户界面、集成性和操作性上有所差异。本报告以下将就

CDU

自控系统和室外冷源控制系统提供一套监控系统的标准方案建议。(二)CDU

自控系统在冷板式液冷系统中,CDU

使用热交换器连接一次侧和二次侧的冷却回路,通过泵和阀门精确调控冷却液的流量和温度,从而实现热量的有效转移和管理。9基于冷板式液冷的智能监控技术报告1.

CDU

主要部件以及监控需求图

4

CDU

透视图表

1

CDU

主要部件及监控要求10基于冷板式液冷的智能监控技术报告部件监控要求换热器用途:一二次侧液体热交换的部件。监控要求:温度监控、流量监控、压差监控。用途:维持冷却液的流动,提供所需的流量和压力。监控要求:运行状态、转速、流量监控、压力监控。用途:吸收冷却液体积变化,保持系统压力稳定。监控要求:液位监控、压力监控。循环泵膨胀罐冷却液储液

用途:存储冷却液,为系统提供稳定的液源。罐监控要求:液位监控。阀门用途:控制冷却液的流动路径和流量。监控要求:位置监控、流量监控。用途:清除冷却液中的杂质。监控要求:压差监控。过滤器电源模块用途:为

CDU

以及相关的传感器、控制器和执行器等提供稳定的电力供应。监控要求:电压监控、电流监控、功率监控、开关状态监控。2.

CDU

传感器部署为实现对以上

CDU

部件的监测,需要合理部署传感器,以实现对冷板式液冷系统的全面监控和管理,确保系统运行的高效、安全和可靠。CDU

传感器部署的总体要求:可靠性和耐久性:传感器应耐高温、低温、腐蚀等恶劣环境,并11基于冷板式液冷的智能监控技术报告具有长时间工作稳定、准确的特性,避免漂移现象。易于维护和校准:传感器应易于维护和校准,确保其长期稳定工作。兼容性:传感器应与

CDU

的控制系统兼容,能够无缝集成到现有系统中。CDU

传感器部署的建议如下:图

5

CDU

传感器部署示意图表

2

CDU

传感器部署建议传感器一次侧温度

用途:测量一次侧供液和回液温度。传感器

数量:一次侧入口,至少

1

个;一次侧出口,至少

1

个。部署要求测量精度:±0.2°C

以内;测量范围:-40°C

150°C12基于冷板式液冷的智能监控技术报告之间;响应时间:1

秒以内。一次侧压力

用途:测量一次侧供液和回液压力。(压力传感器建议传感器安装在温度传感器的上游)数量:一次侧入口,1

个;一次侧出口,1

个。测量精度:±0.5%FS(满量程)以内;测量范围:0-10

bar(0-145

psi);响应时间:1

秒以内。一次侧过滤

用途:监控过滤器两端的压力差。器前后压力

数量:过滤器前,1

个,过滤器后,1

个。传感器一次侧流量

用途:测量一次侧液体流速。传感器数量:一次侧入口或出口,1

个。测量精度:±2%读数范围内;测量范围:预期最大流量的

1.5

2

倍;响应时间:1

秒以内;低压降:传感器在最大流量下产生的压力损失应小于

1%FS(满量程);通道直径:确保通道直径大于或等于液体管路的直径,推荐值一般为≥4

mm。二次侧温度

用途:测量二次侧供液和回液温度。传感器数量:二次侧入口,至少

1

个;二次侧出口,至少

1

个。二次侧压力

用途:测量二次侧关键位置的液体压力。传感器数量:二次侧入口,1

个;二次侧出口,1

个。二次侧过滤

用途:监控过滤器两端的压力差。器前后压力

数量:过滤器前,1

个;过滤器后,1

个。传感器二次侧流量

用途:监测冷媒在二次侧的流动速度。13基于冷板式液冷的智能监控技术报告传感器数量:二次侧入口或出口,1

个。水质传感器用途:监测液体的化学特性,当前以乙二醇、丙二醇为典型的换热液体为例。数量:二次侧管道,pH

传感器

1

个,电导率传感器

1个。pH

传感器测量精度:±0.1

pH

以内;测量范围:0-14

pH;响应时间:30

秒以内。电导率传感器测量精度:±1%读数范围内;测量范围:0.1μS/cm

到20,000μS/cm;响应时间:30

秒以内。浊度传感器测量精度:在±0.01

NTU

或读数的±5%以内;测量范围:0-4000

NTU;响应时间:10

秒以内。用途:监控液体泄漏情况。漏水监测数量:地板下、机柜底部、管道连接点、阀门或接头处,至少

1

个,具体视管道复杂度而定。测量精度:可以检测到

5ml

液体;响应时间:10

秒以内。液位传感器

用途:监控冷却液的液位,防止液体过少或溢出。数量:储液罐,至少

1

个。类型:在小型

CDU,推荐浮球液位传感器;在较大规模的

CDU,推荐超声波液位传感器,或电容式液位传感器。环境温湿度

用途:监测环境湿度,防止冷凝水对设备影响。传感器数量:机房内、管道周边。14基于冷板式液冷的智能监控技术报告测量精度:温度在±0.2°C

范围内,相对湿度在±3%

RH内;测量范围:温度在-40°C

到+120°C,相对湿度在0%到

100%

RH;响应时间:温度在

10

秒以内,湿度在20

秒以内。管道温度传

用途:监测外部管道内的温度。感器

数量:若干。管道压力度

用途:监测外部管道内的压力。传感器

数量:若干。3.

CDU

主要控制逻辑在

CDU

的自控系统中,通常是将二次侧的供液温度、压差或流量作为直接的控制目标进行自控,通过

PLC、传感器和核心部件的无缝协作实现自控,确保系统能够满足冷却需求,并维持高效、稳定和安全的运行。表

3

CDU

控制参数建议控制参数控制说明二次侧供液

适用场景温度

确保冷媒温度在预设的范围内,以保证服务器散热效率和性能。控制逻辑1、实时监测二次侧冷媒的供液和回液温度;2、通过控制系统设定二次侧供液温度目标,例如

30°C,利用

PID

控制算法调节一次侧阀开度;15基于冷板式液冷的智能监控技术报告3、如果供液温度高于设定值,增加调节阀的开度,可降低温度;如果供液温度低于设定值,减小调节阀开度,可使温度上升。二次侧压差

适用场景系统设计要求压差稳定,如大规模数据中心、需要精确冷却的长期稳定运行环境等;一级侧的压差波动较大,需要二次侧提供稳定压差。控制逻辑1、实时监测

CDU

二次侧出入口的压力,计算压差;2、在控制系统中设定压差目标,如

0.5

bar,利用

PID控制算法调整循环泵的速度或调节阀的开度;3、当压差大于设定值,循环泵转速降低,当循环泵频率降至最低压差值仍大于设定值时,增大二次侧阀开度;当压差小于设定值,减小二次侧阀开度,调节阀开度为

0

时,压差仍小于设定值,增加循环泵转速。目的是为了保证循环泵处于最佳的运行状态。二次侧流量

适用场景热负荷变化较大,流量需求变化明显,需要根据具体设备或区域的冷却需求,动态调整流量分配。控制逻辑1、实时监测各个冷板或者整个支路的实际流量;2、在控制系统中设定适宜的流量目标,如

50

L/min,利用

PID

控制算法调整循环泵的速度或各支路的调节阀开度;16基于冷板式液冷的智能监控技术报告3、如果实际流量低于设定值,通过加快循环泵的转速或加大支路调节阀开度,可提高流量;如果实际流量高于设定值,通过减慢循环泵的转速或减小支路调节阀开度,可降低流量。在冷板式液冷系统中,主要是通过调节循环泵的转速和调节阀的开度来实现控制目标,但是因为两个变量(循环泵、调节阀)无法同时满足三个控制目标(压差、流量和温度),因此控制目标需要有一些取舍。在运维过程中,通常会优先保证温度控制,并根据实际应用场景、系统设计和运行需求,对压差控制或流量控制进行二选一。当然各厂家也可以针对一些复杂场景,设置综合控制策略:动态切换:根据不同运行工况和需求,动态切换压差控制和流量控制模式。例如,在特定高热负荷时切换到流量控制,而在平稳运行时采用压差控制。优先级设定:在压差和流量均需控制的情况下,可以设定一个优先级。例如,以压差为优先,流量作为辅助控制目标。阶梯控制:分阶段控制,通过主控从控实现多目标优化。例如,在一级侧有较大调节余地时,先控制压差,再调整流量。4.

CDU

告警点在冷板式液冷系统的

CDU

中,为确保系统在发生异常情况时能够及时发现并采取相应的措施,将典型故障和告警类别作为告警点。CDU

出现告警后,需要通过声光报警及时通知相关维护人员,在设备自控系统界面上显示详细的告警信息,并将测点数据报告给上层系统,确保系统在发生异常情况时能够迅速响应和处理。17基于冷板式液冷的智能监控技术报告表

4

CDU

告警点位设置建议告警分类部件故障告警点部件告警,是针对

CDU

系统中关键部件的性能和运行状态进行监控,确保这些部件在正常工作范围内。1、循环泵/补液泵故障告警:循环泵变频器故障、通信中断、综合故障

(当前设备工作状态异常)、启动故障

(设备运行命令给出后未接受到运行反馈)。2、阀门故障告警:阀门卡死或无法正常开启/关闭。3、换热器/过滤器堵塞告警:压差异常(前后压差值超出设定范围)。4、电源故障:电源中断或电压异常、机组运行过程中异常掉电。传感器故障

传感器故障告警,是针对

CDU

系统中各类传感器的工作状态进行监控,确保数据采集的准确性和可靠性。1、传感器异常告警:读数异常,长期保持某一固定值或者快速变化。2、传感器故障/通信中断:无法采集数据或数据错误。设备异常设备异常告警,是针对

CDU

系统整体运行的各项指标进行监控,确保系统在临界状态或异常情况下,能够及时触发告警并采取措施。1、系统压差异常:冷媒出入口压力超出设定范围、外部管道关键节点(如不利点)的压力不足。2、系统流量异常:一二次侧流量超出预设范围。3、系统温度异常:冷媒温度过高或过低。18基于冷板式液冷的智能监控技术报告4、系统液位异常:储液箱液位低于或高于设定范围(液体泄漏或补液不足)。5、漏液告警:水浸开关漏液告警。5.

CDU

自控系统功能CDU

需要通过触控面板提供人机交互界面,允许用户实时监控和控制系统的运行状态。表

5

CDU

自控系统功能建议交互功能功能要求状态监测

在界面主页显示当前系统的各项关键参数,如温度、压力、流量、液位等。以组态方式展示

CDU

的状态,包括冷却回路、泵、换热器、阀门等的运行状态。用不同颜色或图标标识正常、异常和告警状态。控制操作

提供泵和其他关键设备的开/关控制按钮。允许用户改变温度、压力、流量等关键参数的设定值。告警管理

弹出窗口或明显标识显示当前的故障和警告信息。记录并展示历史警报事件,方便回溯和分析。数据记录

以图表形式显示温度、流量、压力等参数的变化趋势。允许导出历史数据,用于更详尽的分析。维护提醒

显示维护预警,如过滤器更换、系统检查等提醒。权限控制

需要用户登录,确保系统操作的安全性。不同级别的用户权限设置,在关键操作上需要二次鉴权。系统管理

配置系统基础设定,如控制逻辑、系统参数等。19基于冷板式液冷的智能监控技术报告提供系统时间设定和同步功能;提供网络配置界面,允许用户设置系统的

IP

地址、子网掩码、网关和

DNS。操作日志

记录所有用户的操作日志,确保操作透明和安全可追溯。支持日志导出和查询,使管理和审计更方便。图

6

CDU

监控界面示例一图

7

CDU

监控界面示例二20基于冷板式液冷的智能监控技术报告6.

CDU

自控系统对外通信上层监控系统需要采集

CDU

的实时数据,如温度、压力、流量等,也需要远程设置

CDU

的工作参数,如泵启动/停止、温度设定值调整等。此时,接口标准和通信协议格式的选择,是确保系统能够与外部设备和上层监控系统高效、可靠地通信的关键因素。在通信接口方面,RS-485

与以太网接口(网口)是主流的两种接口。在使用

RS-485

接口时,需要部署采集器,将

CDU

数据集中采集后,再传输到上层监控平台;而使用以太网接口时,可以直接将数据通过以太网传输到监控服务器,实现快速、稳定的数据传输。按目前的监控技术发展,在

CDU

对外通信的接口层面采用以太网接口是更为适用的方案。表

6

RS-485

对比以太网通信接口RS-485以太网接口(网口)标准RS-485

是一种用于多点以太网接口是用于有线局域通信的串行通信标准,由

网(LAN)的标准接口,由

IEEEEIA(电子工业联盟)制

802.3

标准定义,它是目前最定,广泛应用于工业自动

广泛使用的计算机网络技术化和数据采集系统中。之一。抗扰能力

高,适用于工业环境需要网络防护设备通常为

100

米,可通过交换机扩展传输距离

长达

1200

米传输速率

低,9600

115200

波特

高,10Mbps

1Gbps成本较低较高多点通信

支持

32

个设备需通过网络设备实现多设备21基于冷板式液冷的智能监控技术报告通信配置难度

配置复杂远程访问

不支持通常较为简单,支持自动配置支持,适合远程监控和管理标准化局部标准(物理层和数据

全球标准,全面支持

TCP/IP链路层)

协议在通信协议格式方面,Modbus

SNMP

是主流的两种格式。在当今的监控技术发展趋势下,建议

CDU

自控系统同时支持

Modbus和

SNMP

这两种协议,这样可以提供更大的灵活性和兼容性,以适应不同的上层监控系统需求。表

7

Modbus

对比

SNMP

协议特性ModbusSNMP基本原理

Modbus

协议是一种主/从

SNMP

通过管理信息库(MIB)(Master/Slave)或客户端

来保存所管理的对象集合,并/服务器(Client/Server)

通过代理(Agent)和管理系架构的通信协议,允许一

统(Manager)之间的通信,个主设备与多个从设备之

实现对设备的状态监控和控间进行数据交换。常用数

。SNMP

使用

UDP

协议传输据格式是

16

位的寄存器

数据,具有较高的传输速率和和离散的输入/输出点(也

较低的通信开销。就是线圈)。开放性和

开放的工业标准,易于实

网络设备管理的标准协议,被标准化现广泛支持简单易用

协议结构简单,易于开发

复杂度高,涉及

MIB

文件,22基于冷板式液冷的智能监控技术报告和调试多种操作类型传输层支

支持多种传输方式(RTU,

基于

UDP/IP

通信,适合分布持TCP)适合局部工业网络,成本

适合大规模网络管理和远程效益高

监控安全功能

基本的安全功能,需要外

SNMPv1/v2c

,式网络适用性部保护SNMPv3

较好数据类型

支持的数据类型有限支持复杂数据结构和多个数据类型主动告警

不具备主动告警功能实现成本

较低支持

Trap

机制,具备主动告警功能实现复杂,相关设备和工程师成本较高(三)室外冷源自控系统1.

室外冷源方案在冷板式液冷系统中,室外冷源的主要作用是为一次侧冷却回路提供低温冷却液,并通过热交换的方式将系统内产生的热量带出到大气环境中。室外冷源方案由于需要适应不同的气候条件和水资源的可用性,因此在设计和选型上有多种多样的方案。表

8

常见的室外冷源方案室

源方案方案介绍23基于冷板式液冷的智能监控技术报告冷却塔+循

适用范围环泵气温低,全年可用自然冷源,水资源丰富。制冷原理冷却塔是通过将水喷洒到热交换填料上,使水与空气接触蒸发带走热量。冷却塔分为湿式、干湿结合式等多种类型,冷却效率高,可以处理大量热负荷。然而,冷却塔需要大量水资源,并且涉及水质处理、防腐蚀和防结垢的维护。干冷器+循

适用范围环泵

气温低,全年可用自然冷源,水资源匮乏。制冷原理干冷器是利用空气作为冷却介质,通过自然对流或强制对流将冷却液中的热量散发到空气中,其设计简单。然而,干冷器在高温环境下冷却效率较差,通常也会配备喷淋系统,这样可以在峰值负荷情况下提供额外的冷却能力。水冷机组+

适用范围冷却塔+板

气温高,需要机械制冷补冷,水资源丰富。换+循环泵

制冷原理冷机是通过制冷剂在压缩、冷凝、膨胀和蒸发过程中相变吸收热量,从而精确控制冷却液的温度。冷机可以提供稳定的全年冷却服务,灵活适应多变的环境条件。然而,冷机的初期投资成本高,设备复杂,需要专业维护和管理,运行能耗较大,尤其在高温条件下运行成本更24基于冷板式液冷的智能监控技术报告高。风冷机组+

适用范围循环泵气温高,需要机械制冷补冷,水资源匮乏。制冷原理风冷机组通过制冷剂在系统中进行压缩、冷凝、膨胀和蒸发的循环过程,从而吸收和排放热量。不依赖水源,适用于缺水地区。对于采用水冷机组或风冷机组的室外冷源方案,通常通过传统的BA

监控系统进行管理,因此在此不再详述。相对而言,冷却塔或干冷器的监控方案因其制冷原理、设备结构及监控需求相似,且在冷板式冷源项目中,通常采用高温供冷,这个方案也是冷板式液冷项目当中更为常见的。在监控层面,因一次侧的循环泵通常接入冷却塔或干冷器的设备自控系统进行集中监控,因此以下将这一类的一次侧设备自控系统,统称为室外冷源自控系统,详细阐述监控方案。2.

室外冷源主要部件以及监控要求在冷却塔或干冷器组成的室外冷源方案中,通常由冷却液循环系统、热交换系统、补液系统和喷淋系统组成。当然,因项目规模或需求不同,各厂家生产的冷却塔或干冷器在部件构成上可能有所差异,以下以配置相对齐全的方案为例进行阐述。25基于冷板式液冷的智能监控技术报告表

9

室外冷源主要部件及监控要求部件监控要求换热器用途:负责将冷却液中的热量传递给周围的空气。监控要求:温度监控、压差监控。用途:加速空气流动,加速散热。监控要求:启停状态、转速。风机循环泵用途:维持冷却液的流动,提供所需的流量和压力。监控要求:温度监控、流量监控、压力监控、启停状态、转速。补液泵用途:补液泵通过补充冷却液,确保系统中的冷却液压力维持在设计的稳定范围内。监控要求:启停状态、转速。加药装置

用途:维持冷却液的水质。监测要求:pH

值、电导率。喷淋泵储液罐阀门用途:喷淋泵负责将水从储水罐或直接从水源泵至喷嘴,提供所需的水压,使水能够均匀地喷洒到换热器的表面。监测要求:启停状态、转速。用途:连接补液泵,当系统液位或压力低于设定值时,从储液罐中补充冷却液。监测要求:液位监控。用途:控制冷却液的流动路径和流量。监测要求:位置监控、操作状态监控、流量监控。26基于冷板式液冷的智能监控技术报告电源模块

用途:为各个部件以及相关的传感器、控制器和执行器等提供稳定的电力供应。监测要求:电压监控、电流监控、功率监控、开关状态监控。3.

室外冷源传感器部署室外冷源的传感器集中在温度、流量和压力等关键参数的监测上,部署相对简单。图

8

室外冷源传感器部署示意图表

10

室外冷源传感器部署建议传感器传感器要求供回液温度

用途:测量侧供液和回液温度。传感器

数量:入口,至少

1

个;出口,至少

1

个。测量精度:±0.2°C

以内;测量范围:-40°C

150°C

之间;响应时间:1

秒以内。27基于冷板式液冷的智能监控技术报告供回液压力

用途:测量供液和回液压力。传感器数量:入口,1

个;出口,1

个。测量精度:±0.5%FS(满量程)以内;测量范围:0-10bar(0-145

psi);响应时间:1

秒以内。流量传感器

用途:测量液体流速。数量:入口或出口,1

个。测量精度:±2%读数范围内;测量范围:预期最大流量的

1.5

2

倍;响应时间:1

秒以内;低压降:传感器在最大流量下产生的压力损失应小于

1%FS(满量程);通道直径:确保通道直径大于或等于液体管路的直径,推荐值一般为≥4

mm。水质传感器

用途:监测液体的化学特性。数量:一次侧管道,pH

传感器

1

个,电导率传感器

1个。pH

传感器测量精度:±0.1pH

以内;测量范围:0-14

pH;响应时间:30

秒以内。电导率传感器测量精度:±1%读数范围内;测量范围:0.1μS/cm

到20,000μS/cm;响应时间:30

秒以内。液位传感器

用途:监控冷却液储液罐的液位,防止液体过少或溢出。数量:储液罐内,至少

1

个。类型:在小型储液罐,推荐浮球液位传感器;在较大28基于冷板式液冷的智能监控技术报告规模储液罐,推荐超声波液位传感器,或电容式液位传感器。环境温湿度

用途:实时监测周围空气的温度和湿度。传感器数量:进气口附近,1

个。测量精度:温度在±0.2°C

范围内,相对湿度在±3%RH

内;测量范围:温度在-40°C

到+120°C,相对湿度在

0%到

100%

RH;响应时间:温度在

10

秒以内,湿度在

20

秒以内。管道温度传

用途:监测外部管道内的温度。感器

数量:若干。管道压力度

用途:监测外部管道内的压力。传感器

数量:若干。4.

室外冷源主要控制逻辑在室外冷源的自动控制系统中,控制逻辑主要围绕循环泵控制、风机控制、喷淋系统控制展开,主要的控制点包含供液温度设定、回液温度设定和供回液压差设定。表

11

室外冷源控制参数建议控制参数控制说明供液温度

适用场景环境温度波动较大的场景,通过精准的温度控制确保系统稳定运行。控制逻辑29基于冷板式液冷的智能监控技术报告1、实时监测冷却液的供液温度;2、通过控制系统设定供液的温度目标,例如

30°C,利用

PID

控制算法,调节风机转速或喷淋系统的喷雾量。3、当供液温度偏高时,增加风机转速,或增加循环泵的速度;当供液温度偏低时,降低风机转速,或降低循环泵速度;4、在高温环境或高负荷情况下,启动喷淋系统,以进一步降低供液温度。回液温度

适用场景负载装置需要高效散热的情况,例如高性能计算环境。控制逻辑1、实时监测冷却液的回液温度;2、通过控制系统设定回液的温度目标,例如

35°C,利用

PID

控制算法,调节风扇的转速或循环泵的速度。3、当回液温度偏高时,增加风机转速,或增加循环泵的速度;4、当回液温度偏低时,降低风机转速,或降低循环泵速度。供回液压

适用场景差系统负载动态变化较大,通过供回液压差控制,实时调整泵速和阀门状态,确保系统高效运行。控制逻辑1、实时监测室外冷源出口和入口的压力,计算压差;2、在控制系统中设定适宜的压差目标,如

0.5

bar,利30基于冷板式液冷的智能监控技术报告用

PID

控制算法调整循环泵的速度或调节阀的开度;3、如果实际压差低于设定值,通过增加泵的转速或者调整阀门开度增加流量,可增加压差;4、如果实际压差高于设定值,通过减少泵的转速或调小阀门开度,可降低压差。由上所述,控制变量主要是风机和循环泵,无法同时满足三个目标的设定,因此在实际应用中,会根据整体系统性能和末端负载的特征,进行三选二控制,舍弃一个目标作为自由变量。5.

室外冷源告警点为确保冷板式液冷系统中的室外冷源安全可靠运行,应在自控系统中设定关键告警点,如温度、压力、流量和电力供应异常。当这些参数超出预设范围时,系统需自动记录详细的告警信息,并在操作界面上实时显示,同时触发声光报警以引起操作者注意,并将告警数据实时传输至上层管理系统。表

12

室外冷源告警设置建议告警分类部件故障典型告警点1、风机/循环泵/喷淋泵/补液泵故障告警变频器故障:如果变频器发生故障,可能导致风机或水泵速度无法调节,从而影响冷却效果。通信中断:如果风机或水泵控制系统与主控制系统之间的通信中断,应立即报警。启动故障:风机或水泵接到启动命令后,如果没有31基于冷板式液冷的智能监控技术报告正常启动,应触发启动故障告警。综合故障:主要监风机或水泵是否存在任何运行状态异常或性能下降的情况。2、电源故障电源中断:干冷器的电源供应中断或不稳定,应立即报警。电压异常:如果输入电源电压异常,可能影响设备稳定运行,应设置相应的电压异常告警。传感器故障

1、传感器异常告警读数异常,长期保持某一固定值或者快速变化2、传感器故障/通信中断无法采集数据或数据错误设备异常1、系统压差异常测到干冷器的冷却介质进出口压力超出正常操作范围时,应立即触发告警,这种情况可能是由于管道阻塞或泵功能异常导致。2、系统流量异常如果入口或出口的流量超出预定的安全范围,系统应自动告警,指示可能存在泵效率问题或管路泄漏。3、系统温度异常干冷器冷却介质的温度如果过高或过低,都应触发告警。过高的温度可能意味着冷却效率不足,而过低的温度可能会导致介质凝固问题。4、系统液位异常32基于冷板式液冷的智能监控技术报告如果干冷器的储液箱液位低于或高于正常水位线,应触发告警。低液位可能表明系统存在泄漏,而高液位可能是由于控制系统故障导致补液过多。5、水质异常告警如果电导率超出预设范围,可能意味着水中矿物质浓度过高或过低,需调整水处理设施或更换循环水。pH

值过低可能导致腐蚀问题,而

pH

值过高可能导致结垢问题。维持适宜的

pH

范围对预防这些问题至关重要。6.

室外冷源自控系统功能在系统交互层面,室外冷源自控系统与

CDU

自控系统的要求是一致的,请参考上方的“CDU

自控系统功能”,不再赘述。33基于冷板式液冷的智能监控技术报告五、冷板式液冷的群控系统对于规模较小的冷板式液冷项目,各个冷却单元的数量可能较少,系统的控制要求也相对简单,这种情况下,通过设备自控系统通常即可满足大多数运行和控制需求。然而,对于较大规模的冷板式液冷项目,室外冷源和

CDU

可能采用

N+1

及以上冗余结构设计,这就需要使用群控系统来管理。(一)群控应用场景图

9

冷板式液冷设备并机示意图由以上的液冷系统示意图来看,在大型冷板式液冷项目中,CDU和室外冷源都是成组运行,各自需要一套群控系统进行协调控制。群控系统需要满足的场景如下:并机组网:多台

CDU/室外冷源可以并联运行,通过群控系统协调,确保各系统共同承担冷却任务,提高整体系统的冷却能力和可靠性。热备功能:在某个

CDU/室外冷源出现故障时,热备系统可以立即接管其工作,确保冷却任务不中断。34基于冷板式液冷的智能监控技术报告节能控制:群控系统通过智能算法和实时数据分析,动态调整各个

CDU/室外冷源的运行状态,优化能源使用,降低运行成本。主备配置:群控系统支持主备配置,可以指定主系统和备系统,在主系统出现问题时,备系统自动接管,确保系统的连续性和可靠性。轮询机制:通过轮询机制,群控系统可以均衡各个

CDU/室外冷源的工作负载,避免某些系统长时间高负荷运行,延长设备使用寿命。冗余配置:系统支持多层次的冗余配置,包括设备冗余、网络冗余和控制冗余,确保系统在各种故障情况下仍能稳定运行。故障切换:在检测到系统故障时,群控系统能够自动进行故障切换,将故障系统的任务转移到正常运行的设备上。(二)群控系统的实现群控系统的实现是一个复杂且精细的工程,其核心目的是通过集中控制来提高整个系统的效率和可靠性。这通常涉及到控制主机的设定、数据采集和指令下发以及适当的应急处置方案。控制主机的设定群控主机是整个设备群控系统的中枢,负责数据采集、分析、决策和指令下发。它可以是专用的控制设备,也可以由处于同一个组网下的某台室外冷源或

CDU

来承担。群控主机不断从

CDU

和室外冷源收集实时参数数据,如设备运行状态、冷却液的温度、压力和流量。这些设备和传感器通过网络与群控主机连接,确保数据传输的实时性和可靠性。群控主机使用先进的控制算法(如机器学习和数据驱动优化模型),能够持续学习和改进控制策略。通过对历史数据的分析,群控系统可以预测未来的冷却需求,并提前做出调整。群控系统也可以构35基于冷板式液冷的智能监控技术报告建精确的系统模型,用于实时监控和故障诊断,提高系统的可靠性和稳定性。指令下达与执行指令下达与执行是群控系统核心功能的一部分,这一过程需要精确、高效,并具备良好的反馈机制以保证整个系统的稳定性。a、指令的生成与下达参数设置与调整:群控主机允许操作员便捷地设置和调整控制参数,如温度设定、流速、压力限制等。这些参数可以基于用户输入或自动由系统推荐的最优设置。智能决策支持:控制策略不仅基于实时监测数据,还应结合预测模型和机器学习算法,预测未来的操作环境和设备状态,自动调整控制指令以适应这些变化。指令下达:经过计算和验证的控制指令被发送到特定设备,如CDU

的水泵或干冷器的风机。群控主机应通过安全的协议和可靠的网络线路发送这些指令。b、设备的响应与执行接收与执行:各个设备从群控主机接收指令后,自动调整其运行状态如改变流速或转速等。设备控制应有足够的精确性和反应速度,以准确响应控制指令。状态监测:设备执行控制指令的同时,持续监测与记录关键运行参数,确保操作在安全和预定的范围内进行。c、反馈与闭环控制执行结果反馈:设备执行后的结果和当前状态通过传感器实时反馈到群控主机。这包括操作前后的参数变化、执行指令的成功与否等信息。36基于冷板式液冷的智能监控技术报告数据处理与自适应调整:群控主机接收到反馈数据后,通过数据分析判断指令执行的效果,并根据实际结果自动调整后续指令,实现闭环控制。d、用户界面与监控:操作界面:提供用户友好的操作界面,使得用户可以轻易地监视整个系统的运行状态,包括实时数据视图、历史数据分析、警报和事件日志。指令记录与审计:系统应记录所有下达的控制指令和相应的执行结果,供未来审计和性能评估使用。适当的应急处置方案适当的应急处置方案是群控系统的一个重要组成部分,确保在发生故障或异常情况时能够快速恢复系统运行,防止损失的扩大。以下是群控系统需要完善的各项应急处置措施:a、手动干预流程快速切换模式:确保操作人员可以迅速接入系统进行手动干预。为此,系统应设计一键切换功能,如系统不能自动恢复时,提供手动复位或切换至备份系统的选项。清晰的操作指南:提供详尽的手动操作指南和应急流程文档,确保操作人员在紧急情况下可以快速准确地采取行动。b、启动本地控制自动化本地备份方案:被控设备在设计时应具备在失去与主控机通信时启动本地预设程序的能力,用以维持基本运作,例如自动调节冷却系统以保持在安全温度范围内。系统的自恢复能力:增进系统的自我修复功能,使其能在一定条件下自行解决简易的技术故障,减轻对于即时人工干预的依赖。37基于冷板式液冷的智能监控技术报告c、控制参数范围限制动态参数调整:根据系统的实时数据和环境变化,动态调整控制参数的安全范围,增强系统适应性和抗干扰能力。警报系统:当控制参数接近或超出设定范围时,系统应自动发出警报,并在可能的情况下自行调整或等待人工确认。d、异常监测与反馈机制增强的错误诊断:系统应具备高级诊断功能,能够自动检测和分析执行错误或异常状态的原因,提供可能的解决方案或修复建议。实时反馈与日志记录:实时监控群控系统的效果,并与预期结果进行对比。错误的或未按预期执行的指令应该被系统记录在详细的操作日志中,并进行分析。必要时,系统应通知维护团队进行人工干预,并自动隔离故障部分,防止错误扩散。(三)群控应用方案示例方案一:大型数据中心应用方案项目背景:某大型数据中心计划采用冷板式液冷系统来冷却其高密度的计算设备。该数据中心拥有数百台冷板和多个

CDU,冷却系统的复杂性较高。需要群控系统完成以下操作:通过群控主机协调多个冷板和

CDU

的运行,避免了某些冷板过载而其他冷板闲置的情况;根据实时数据,群控系统动态调整各个冷板的负载,确保冷却资源的合理利用。例如,在计算任务高峰时段,群控系统会自动增加冷板的冷却能力,而在低负载时段则降低冷却能力,以节约能源;在某个

CDU

发生故障时,群控系统迅速切换到备用

CDU,保证38基于冷板式液冷的智能监控技术报告冷却效果不受影响。群控预期效果:提高冷却效率,降低能耗;增强系统的可靠性和稳定性;实现智能化管理,减少人工干预。方案二:中型企业应用方案项目背景:某中型企业的数据中心计划采用简化版的冷板式液冷系统,冷却单元数量较少,系统控制要求相对简单,要求群控系统具备以下功能:每个冷板和

CDU

都配备独立的控制单元,能够根据预设的参数自动调节运行状态。例如,当冷却液温度超过设定值时,CDU

会自动增加水泵流速,以提高冷却效果。通过远程监控系统,运维人员可以实时查看冷却设备的运行状态,并在必要时进行调整。例如,在发现某个冷板的温度异常升高时,运维人员可以通过远程系统手动调整冷却参数,确保设备正常运行。在夜间低负载时段,系统自动降低冷却能力,减少能源消耗。群控预期效果:·满足中型企业的数据中心冷却需求;·降低运维成本,提高冷却效率;·实现基础的智能化管理。39基于冷板式液冷的智能监控技术报告六、冷板式液冷的运维监控系统在冷板式液冷项目中,除了室外冷源、CDU

等核心设备外,还存在许多其他配套设备,这些设备包括但不限于空调系统、列头柜、配电柜等。这些设备共同构成了数据中心的冷却和电力基础设施,确保整个系统可靠、高效地运行。对于运维团队来说,能够集中监控和管理所有这些设备至关重要,因为这有助于系统级的管理。因此,建立一套上层监控系统是非常必要的,由此诞生出了动环系统和

DCIM

系统。动环监控系统主要负责对冷板式液冷设备以及周边配套设备的数据采集和告警监控。DCIM

系统,则往往是动环监控系统的再上一层监控系统,用于全面整合和管理数据中心的各个方面,包括电力、制冷、能源利用、网络和物理空间。该系统不仅提供实时监控,还具备数据分析功能,有助于资源优化和提高运营效率。不过,随着技术的不断进步和设备联网能力的提升,动环系统和DCIM

系统之间的界限变得越来越模糊。在适当的场景下,它们可以部分或完全替代彼此,以优化管理和监控数据中心及其相关的基础设施。动环系统可以通过扩展,提供基本的数据分析和报表功能,如历史数据趋势、报警记录、设备运行报告等。而当

DCIM

系统,通过网口化数据采集,整合所有设备的数据采集时,也可以覆盖和整合动环系统的功能。以下将以

DCIM

系统为例,阐述冷板式液冷项目当中,上层的运维监控系统应当具备的监控功能。40基于冷板式液冷的智能监控技术报告(一)DCIM

系统的监控范围在冷板式液冷项目的设计中,主要包含冷板式液冷设备、配套空调设备、环境监测传感器和配电设备。特别是针对配套空调和配电设备,虽然背后有完整的系统支撑,但我们在此只讨论冷板式液冷项目中直接相关的空调末端和配电末端设备,不做深入展开。表

13

DCIM

监控范围以及要求设备CDU监控要求用途:冷板式液冷系统的核心设备,负责一二次侧的热交换。监控要求:采集测点数据,监控告警,并支持远程控制。用途:负责将热量从液冷系统中带走,并将热量散发到环境中。室外冷源精密空调恒湿机监控要求:采集测点数据,监控告警,并支持远程控制。用途:冷板式液冷系统的必要配套制冷设备,负责给冷板式液冷服务器的内存、主板等周边设备降温。监控要求:采集测点数据,监控告警,并支持远程控制。用途:控制数据机房的湿度水平,保障机房湿度符合

SLA要求。监控要求:采集测点数据,监控告警。用途:实时监测数据中心内的温度和湿度水平。监控要求:采集测点数据,监控告警。用途:监测机房内的漏水情况,及时检测到漏水发生。监控要求:采集测点数据,监控告警。温湿度传感器漏水绳41基于冷板式液冷的智能监控技术报告列头柜配电柜用途:给机柜配电。监控要求:采集测点数据,监控告警。用途:给

CDU、室外冷源、恒湿机、精密空调等设备配电。监控要求:采集测点数据,监控告警。(二)DCIM

数据采集、处理和存储在

DCIM

当中,对设备数据的采集、处理和存储是基础的监控功能。当然,对于冷板式液冷项目,这一项可以直接按

DCIM

的标准方案进行处理,以下是

DCIM

系统中的方案概要介绍。数据采集采集方式:DCIM

系统应支持

Modbus

SNMP

等标准通信协议的数据采集,可以通过网口直接采集设备或者从采集器获取设备数据。采集频率:对于涉及电力的设备,建议采集频率不超过

3

;而对于

CDU、空调和环境传感器,由于数据变化较慢,建议采集频率设为每

5

秒一次。采集范围:建议严格按照预设的标准点位进行数据采集,同时对于设备厂家提供的其他点位,也可以作为非标点位进行管理。数据存储存储策略:对模拟量采用周期存储,每

1

分钟或每

10

秒一次;对状态量采用变化存储,以节约存储空间;在设备告警时,应增加数据存储粒度,甚至进行全量存储以便事后分析。存储时长:历史数据应至少保留

5

年,以支持长期的数据回溯。数据处理42基于冷板式液冷的智能监控技术报告实时计算:DCIM

系统应具备实时处理数据的能力,进行求和、平均、差值等基础运算。报表数据:系统应根据预设模板和规则定期生成各类报表,如能耗、温度趋势等,以支持决策制定。(三)冷板式液冷的监控视图对于冷板式液冷项目,DCIM

监控视图在确保系统高效和稳定运行方面发挥着关键作用。这些视图不仅提供设施的详尽图像,还允许进行实时性能跟踪和问题快速定位。下面是针对冷板式液冷项目的监控视图的详述:1.

空间设备布局图对于冷板式液冷系统,空间视图能展示冷板的物理位置及其与服务器和其他硬件的相对位置关系。在发生故障时,运维人员可以通过空间视图快速判断出可能的问题点。空间视图的制作要求:使用组态类工具绘制空间视图按

2D、2.5D

3D

展示,确保清晰直观地展示冷板式液冷相关房间内全部设备的布局,包括房间尺寸、服务器机架位置、冷板设备安装位置及管道布置。如果冷源靠近液冷房间,在房间视图上进行一致展示,确保系统整体性。对于远离液冷房间的冷源,单独绘制室外冷源的空间视图,同时在房间视图中标注连接点和方向,以便快速定位。图元要求核心设备如

CDU、室外冷源和空调的图元应动态展示设备的实际运行状态(如运行、停机),使用动态图标、颜色变化或动画效果来43基于冷板式液冷的智能监控技术报告反映设备的实时状态。设备图元应当关联其告警效果,当设备存在告警时,应有醒目的提示。使用闪烁、颜色变化或弹出消息提示等方式,以立即引起运维人员注意。对于所有设备,挑选关键测点(如温度、压力、流量等)直接展示在图元旁边。数据展示应实时更新,确保运维人员获取最新的设备状态。用户可点击设备图元,弹出窗口或侧边栏展示设备的详细数据。整体运行指标展示在空间视图下,展示空间内的整体运行指标,例如

IT

功率、CDU和空调的制冷量数据等。将这些指标数据展示在视图的适当位置,避免遮挡核心设备或关键通道。用户友好界面确保界面清晰简洁,不显得凌乱。提供层次分明的导航和缩放功能,便于用户从整体视图快速切换到细节视图。2.

液冷系统图液冷系统图从冷板式液冷的系统结构层面绘制,侧重于展示冷板式液冷各类设备的逻辑关系。它显示了室外冷源、CDU、管道等关键设备的布局和状态。对于监控冷却液的循环、进行能效分析和故障诊断具有关键作用,确保冷却系统能够连续无间断地运行。44基于冷板式液冷的智能监控技术报告图

10

冷板式液冷系统图液冷系统图的制作要求:使用组态类工具绘制液冷系统图将存在相关影响关系的多组冷板式液冷系统整合成一个整体的液冷系统图。准确绘制出室外冷源、CDU、环网管道的连接关系。标示出室外冷源的风机和循环泵的运行状态;标示出

CDU

中的循环泵的运行状态,确保图元动态反映实际情况。用不同颜色区分各环网,以便于直观了解流向和结构。设备图元需要关联告警效果,当设备存在告警时,应有醒目的提示(如颜色变化、闪烁等)。使用组态类工具或

H5

网页绘制液冷参数总览视图在绘制液冷系统图时,考虑到页面显示局限,还需要提供一个配套页面专门展示液冷系统的核心参数,用来构建一个完整且功能丰富45基于冷板式液冷的智能监控技术报告的液冷系统监控系统。这里需要展示:液冷系统的关键参数,如温度、压力、流量等;可远程控制的参数,如冷却风扇速度、泵流量设置等;使用图表展示关键参数的历史变化趋势,帮助分析系统的长期稳定性和效率。提供多参数对比功能,让用户能同时看到多个参数的历史变化趋势,便于发现异常和进行故障诊断。对于控制类的设备测点,需要提供友好的控制面板,允许用户在权限范围内调整设置。使用滑块、按钮、输入框等交互元素。并设置确认弹窗和权限验证,确保每次远程控制操作都记录在案。3.

液冷设备运行图在

DCIM

系统中绘制液冷设备级的运行图,是为了提供对液冷系统核心设备如

CDU

和室外冷源设备的直观监控方案。这种运行图不仅需要详细展示这些设备的主要部件和传感器的运行状态,而且通过实时数据的集成,为运维团队提供包括冷板温度、流量和压力在内的全面信息视图。此外,它还应呈现所有重要的警报和性能指标,从而使设施管理人员能够及时识别和解决任何潜在问题。为了确保运维人员可以轻松理解运行图中的信息并迅速采取行动,运行图的视图界面设计原则上应与设备自控系统的主界面保持一致或类似。这种界面的一致性或相似性有助于减少训练时间,提高操作效率,尤其是在紧急情况下,能够迅速和准确地做出响应。46基于冷板式液冷的智能监控技术报告图

11

冷板式液冷设备运行图对于大型项目,由于设备数量众多,应采用模块化的绘制方法,将不同设备或设备群分别绘制在不同的页面或图层上。这种方法有助于维持运行图的清晰度和操作的简易性,同时保留了对系统全貌的把控。对于小型项目,如果设备数量相对较少,可以考虑将所有关键设备绘制在一张综合运行图上。这样不仅方便进行整体情况的监控,而且可以在单一界面上实现快速的状态检查和问题诊断。(四)冷板式液冷的容量和能效分析功能DCIM

系统应当为冷板式液冷项目提供容量管理和能效分析功能,以可视化报表或页面展示关键指标和数据,通过深度分析方法帮助运维人员优化冷板式液冷性能。1.

容量管理针对冷板式液冷项目,推荐的容量管理包含以下页面:47基于冷板式液冷的智能监控技术报告总容量使用报表页面功能描述:提供冷板液冷系统的总体容量使用状况,为管理层和运维人员快速了解资源利用情况。页面内容:总

IT

负载、总制冷能力、冷量使用比例、冷量供需比。可视化:用条形图或饼图表示制冷系统的使用比例,用折线图展示冷量供需比的历史数据趋势。设备容量使用报表页面功能描述:提供关于各冷板液冷组件(如

CDU、泵、风机等)的详细使用数据,帮助识别高负载设备和潜在容量瓶颈。页面内容:设备组的冗余和负载率(实时监测设备组的状态来计算当前冗余情况,并评估整个设备组的实际冷量供应情况,将其与设计值进行对比、单设备的负载率(设备实际制冷量与其额定冷量的比值)。可视化:用表格形式列出详细的设备使用数据,条形图展示各设备的负载与最大负载对比。冷量分配报表页面功能描述:分析冷板液冷系统的冷却能力在不同区域和设备间的分配情况,优化冷却资源配置。页面内容:区域冷却能力(不同机房或区域的总冷却能力及其使用状况)、设备冷却分配(展示冷却能力在各设备上的分配情况,包含冷板系统的冷量和精密空调的冷量对比)可视化:用热图展示各区域冷量分布和使用情况,用条形图显示冷量在不同设备间的分配比例。容量趋势和预测报表页面48基于冷板式液冷的智能监控技术报告功能描述:基于历史数据提供未来容量需求预测,帮助运维人员提前规划和决策。页面内容:历史容量数据、趋势分析、预测数据。可视化:用折线图展示历史容量使用情况和未来容量需求预测,用散点图或回归分析图展示容量使用趋势。2.

能效管理针对冷板式液冷项目,推荐的能效管理包含以下页面:综合能效报表页面功能描述:展示冷板液冷系统的综合能效,包括

PUE、CLF

等指标及其历史趋势。页面内容:关键能效指标(PUE、CLF

的实时和历史数据)、冷量供需比(空调冷量和

CDU

提供的冷量之和,与

IT

设备的功率进行比较)、风液供冷比(精密空调供冷与冷板供冷的比例)。可视化:用折线图和柱状图展示能效指标的历史趋势,用饼图展示能耗分布情况。设备能耗详细报表页面功能描述:提供冷板液冷系统各组件的详细能耗数据,帮助识别高能耗设备。页面内容:设备能耗记录、能耗趋势分析、能效相关设备测点数据(精密空调的风机转速、送回风温差,风机转速,水泵转速)。可视化:用表格形式记录各设备的能耗数据,用折线图和柱状图展示能耗趋势。49基于冷板式液冷的智能监控技术报告七、冷板式液冷的智能监控功能(一)基于动态基线的设备故障预警冷板式液冷系统具有显著的非线性和时变特性,例如冷却液流速和传热系数在不同运行条件下会发生明显变化,导致运行参数波动复杂。如果仅依赖传统的阈值告警系统,往往会导致告警滞后。然而,基于动态基线技术的故障预警能够在这种情况下实现准确、及时报警。动态基线是通过时间序列预测算法,对关键测点构建动态基线阈值。算法包括但不限于

LSTM(长短期记忆网络)、ARIMA(自回归积分滑动平均模型)等方法,对系统运行数据进行实时分析和预测。这些模型可以根据长期历史数据和短期当前数据,预测未来的合理运行区间,从而判断系统是否存在异常。例如,LSTM

可以捕捉数据中的长期依赖关系,适用于复杂的时间序列数据,而

ARIMA

则通过自回归和移动平均的方式,对数据进行平滑和预测。当采集到的新的实时数据超出预测的正常运行范围时,系统将自动触发报警。50基于冷板式液冷的智能监控技术报告图

12

动态基线预警示意图动态基线相比固定的静态阈值告警的特点在于:首先,它配置比较简单,不需要人工设置阈值,算法能够结合长期和短期历史数据,计算并自适应调整阈值。其次,它可以做到提前预警。在挑选动态基线算法时,可以依据设备测点独有的波动特性,将点位分为稳定型和突变型,分别建立独立的模型预测不同类型点位未来的正常运行区间,相比静态阈值告警更灵敏,可以提前发现问题。例如,对

CDU

和室外冷源的冷却液温度、压力、流量设置动态基线预警,当测点值超出日常的波动区间后,即可触发预警。51基于冷板式液冷的智能监控技术报告按实践来看,相较于固定阈值告警,使用动态基线可以在空气温升场景快

3

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论