某超算中心机房基础设施运行维护风险管理_第1页
某超算中心机房基础设施运行维护风险管理_第2页
某超算中心机房基础设施运行维护风险管理_第3页
某超算中心机房基础设施运行维护风险管理_第4页
某超算中心机房基础设施运行维护风险管理_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

某超算中心机房基础设施运行维护风险

管理摘要:本文以某超算中心机房项目为例,介绍了超算中心动环系统的特点,以及对应的基础设备设施运行管理的策略。关键词:超算中心机房基础设施运维风险管理0引言超级计算能力是一个国家科技核心竞争力和综合国力的重要标志,是国家创新体系的重要组成,是解决经济建设、国防建设、科学进步、社会发展等各领域一系列挑战性问题的重要手段。它作为一种通用基础技术,广泛应用于航空航天、气象预测、宇宙探索、新材料研究、石油天然气开采、分子模拟、航空动力学模拟、核能仿真计算和动漫渲染等国民经济领域。以超级计算机为核心工具的国家超级计算中心是国家战略性信息基础设施和科技创新战略平台。2021年6月最新的全球超算排行榜top500强名单中,中国188台,所占份额为37.6%,继续蝉联全球部署顶尖高性能计算最多的国家。1项目概况本文所述超算中心机房,为曙光C8000刀片式计算模组部署地,超算部分总建筑面积10500m2,地上2层,地下2层,设计总用电量为24000kW。该超算中心具有数据机柜多、热流密度高,单位面积电子元件能耗大,发热密度高等特点。其中电子设备热流密度的增加,对基础设施设备的可靠性提出了更高的运维安全要求。2超算中心基础设施特点超算中心由超算机房、通用机房、直流配电间、超算维护间、主机房、UPS间、电池室、变配电间、冷源机房、设备机房等组成。超算中心的基础设施运维安全的决定性因素主要来源于供电安全和温度安全两方面。2.1供电安全本项目供电质量要求高、供电设备数量多、操作复杂、运行难度大。曙光交流存储设备、弱电机房设备、安防设备等为一级负荷中的特别重要负荷,Pe=889kW;水冷冷水机组以及配套的冷冻水泵、定压补水设备、冷却塔等机房动力负荷、消防、电梯、潜污泵等设备负荷为一级负荷,Pe=2893kW(不含火灾时投入的消防专用设备);曙光直流计算设备,其它普通电力、普通照明等为三级负荷,Pe=24716kW。根据供电等级及运行策略,曙光计算部分由单路供电,计算部分变压器低压为单母线分段运行,不设置母联。曙光存储部分及持续制冷设备的变压器低压为单母线分段运行,联络开关设自投自复/自投不自复/手动转换开关。自投时有一定的(可调)延时,当电源主断路器因过载或短路故障分闸时,母联断路器不允许自动合闸,另外自投时还应自动断开非保证负荷,以保证另一台变压器承担全部负荷。同组两路低压主进开关与联络开关之间设电气联锁,任何情况下只能合其中的两个开关。2.2温度安全本项目数据机房空调制冷中以超算部部分的温度控制最为重要。超算超算中心具有高发热量,低散湿量,相关配套用房发热量也很大。其空调负荷特点为负荷量大,局部热点较多,其空调方式,例如:房间级空调、行间空调、背板式空调等已经无法满足机柜的使用需求。因此,此项目采用了液冷空调及液冷机柜就近制冷,解决了超算机柜发热量大、局部热点的问题。超算中心由于负荷量较大,末端空调形式比较多,有浸没式液冷CDM柜、冷板式液冷CDM柜、冷冻水行间空调、冷冻水列间空调、房间级精密空调等,为了满足设备散热需求,根据不同的空调形式,提供不同的空调系统及不同的冷冻水温度。该工程空调供回水温度共4类,分别为7/12°C、44.5/49.5°C、12/18°C和35/43°C。其中:低温冷源由大楼办公区提供,夏季供冷(7/12C),冬季供热(44.5/49.5°C),主要负担该超算机房区的新风负荷+走廊冷热负荷。中温冷冻水冷源(12/18C由地下冷源机房内的冷水机组提供,主要负担超算机房区的行间列间空调、房间级精密空调等的负荷,共设置离心式冷水机组,单台制冷量为3500kW共3台,2用1备。中温冷却水冷源(35/43°C)由冷却塔+板式换热器提供,单台板式换热器换热量为5000kW,共6台,6用,板式换热器和冷却塔为一对一设置,主要负担浸没式液冷CDM柜、冷板式液冷CDM柜的负荷。为了维持超算机房及存储机房内的舒适度的要求,考虑设备对房间的散热,设置了多联机系统,满足人员对环境温湿度的要求。充分考虑节能需求,该冷源系统有三种运行工况:电制冷工况、部分免费供冷工况、全部免费供冷工况。电制冷工况:当室外为夏季时,全部采用离心式冷水机组提供冷量,通过开式冷却塔散热的方式供冷。部分免费供冷工况:采用冷水机组+板式换热器+冷却塔作为冷源供冷,根据室外湿球温度变化,采用冷却水通过板式换热器对冷冻水进行欲降温处理,实现部分自然冷却供冷,减少机械制冷能耗。全部免费供冷工况:优先采用办公区热泵机组冷水供冷,在满足热泵机组向全楼供热的同时,机房区供冷不足部分,采用机房区冷却塔作为补充冷源。为保证超算中心系统用水的可靠性,设置冷却塔补水池,补水池按照12小时冷却水补水量的要求设置。补水池的蓄水量为260m2的蓄水池。该超算机房中温冷冻水冷负荷为25714kW,为超算机房的主要负荷。中温冷却水系统末端空调夏季供回水温度为35/43C,冬季供回水温度为29/21C。由于该部分负荷量较大,水温较高,考虑空调系统节能及节约建筑空间等综合因素,确定该系统采用冷却塔+板式换热器供冷的形式。考虑15%的备份需求,单台板式换热器换热量为5000kW,共6台,6用,冷却塔共6台,供回水温度夏季供回水温度为33/41C,冬季供回水温度为16/24C。板式换热器、冷却塔、冷源侧冷却水泵、用户侧冷却水泵均为一对一设置。空调水系统一次侧和二次侧均为环状设置,满足系统灵活、安全运行的需求。3超算中心基础设施运维项目的特点及策略超算中心基础设施运维安全可靠性要求非常高,这就对运维工作提出了更高的要求。需要在日常运维工作中提高超算中心风险识别能力,提前“排雷”规避风险降低故障发生的概率,提高风险应对能力。以确保运维质量的持续改进与高效可靠。超算中心基础设施涉及的供配电、空调、消防、安防、防雷接地、弱电监控等子系统,各系统之间相互关联、相互影响,对于这样一个复杂系统的运维管理,是一个多目标优化的决策过程,只有确保各系统整体最优,才能使得超算中心实现高可靠性。3.1风险管理理论与技术工具对于超算中心基础设施运维管理,引入风险管理相关理论与技术工具。主要包括:根据已经制定完成的基础设施高危设备巡检清单与相关运维技术工具对各机房按季度展开“体检”形式的巡检,将现场采集来的设备运行数据及故障记录进行容量管理等分析研究,以确定哪些设备存在“生病”的征兆,及时联系设备厂家进行更换与保养,同时将现场隐患排查出来的风险按其严重性进行优先级分类,形成风险登记册,制定整改方案与计划及时进行闭环处理,以提高机房基础设施的安全可靠性。根据已制定超算中心基础设施健康检查清单,确定运维关键指标,对选定机房进行全面体检。3.2数据采集与分析根据高危设备巡检清单与设备安全运行关键性指标采用热成像仪、万用表,接地电限测试仪等仪器仪表对超算中心基础设施的运行情况进行容量、温升、设备保养等方面数据进行采集与分析并结合维护经验与工程实践,对超算中心高危设备进行风险识别与隐患排查,通过对高危设备系统性“体检”及指标分析,以提高超算中心的“免疫力”,降低事故发生的概率。3.3运维规范标准的统一与模式化量化运维指标,提升巡检深度,提高设备安全运行可靠性;及时发现安全隐患,降低故障发生概率;提高竣工验收成效,减少前期工程的缺陷对后期运维安全的影响:加强对运维团队的监督与管理,提高团队维护力度;形成超算中心运维规范标准的统一与模式化,为超算中心提供标准化运维服务。利用统一的巡检清单与运维指标,提升运维水平与部署能力。3.4风险管理与按时闭环对超算中心基础设施运维进行风险管理:风险识别、风险评估、建立运营风险册、风险规避形成PDCA管理水平提升的4个循环模式,使得超算中心运维管

PL,UIK)起算中心基.础没帷惟冒理值程图锥护散指虻或段定划电肿按亏汁实乖5杖

据务化析;故打析PL,UIK)起算中心基.础没帷惟冒理值程图锥护散指虻或段定划电肿按亏汁实乖5杖

据务化析;故打析4超算中心基础设施运维实施步骤4.1建立完备的设备设施运维CHECK制度应秉承“设备不是修出来的,而是养出来的”的理念,将反应性维护与预防性维护相结合,通过对采集基础设施定量数据如:振动、润滑、噪音、电流、电压、温度等各种关键运行数据,观察其趋势的发生,判断设施是否劣化,使得标准能随着设施的安全生命周期进行适当的调整,指导进行针对性的维护工作,确保本项目内各项设备设施的良好运行和及时养护维修,并达到延长设备使用寿命的目标。1) 建立健全各项设备设施台账,做到对设备参数、运行状态、操作规程、应急处理流程心中有数,并将各项操作规程上墙,认真落实持证上岗,定期对员工进行实操培训;2) 根据设备养护需求,建立定期维修保养定期计划,坚持主动预防式保养,将故障排除在隐患阶段,保证设备完好;3) 建立机房负责人制度,确保对配电值班室、中控值班室、供水、排风等各设备机房的定期巡查和养护;4) 根据设备检测计划,定期进行配电系统、空调系统、控制系统、电梯等各项检测,确保设备设施的运行状态良好。

5)对于未接管的设施设备,向甲方提出合理的管理措施,确保设备保值增值。4.2根据项目情况总结重点设备设施运维要点由于系统的复杂性、施工交接还没有完全到位,运维团队将对设备设施存在的问题进行详细的系统梳理,结合前一年试运行时的情况及现场梳理各系统实际情况,总结分析出超算中心基础设施运维存在或预判问题。目标:::福量方某:超垸中心堇础设施后维准则,降似故障虬响4.3形成不断完善目标:::福量方某:超垸中心堇础设

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论