云数据中心蓄电池管理方案_第1页
云数据中心蓄电池管理方案_第2页
云数据中心蓄电池管理方案_第3页
云数据中心蓄电池管理方案_第4页
云数据中心蓄电池管理方案_第5页
已阅读5页,还剩25页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

云数据中心蓄电池管理方案目录1 蓄电池运维困惑 12 蓄电池应用环境要求 33 蓄电池管理参数设置 113.1 浮充转均充电流 113.2 浮充转均充容量 113.3 均充转浮充电流 113.4 均充延时(也叫稳流均充) 113.5 手动均充 124 蓄电池放电维护方式 155 蓄电池状态评判 195.1 使用直流放电测试仪进行放电 205.2 电源设备自带的容量测试功能进行放电 216 监控平台管理 246.1 电池监控仪 246.2 本地动环系统 246.3 远程集中管控平台 25“养兵千日,用兵一时”,这句话用来形容蓄电池再合适不过了。作为数据中心常用的后备储能器件,蓄电池大部分时间都处于“闲置”充电状态,但在应对各种突发市电异常时,它能够将内部存储的化学能转换为电能,并通过高压直流(HVDC)或UPS等电源设备持续不断地将能量提供给重要负载使用,保障业务的连续性,其重要程度不言而喻。蓄电池运维困惑从1800年世界上第一节电池发明至今,电池行业已经走过了两百多年历史。随着技术与材料的发展,市场上各类电池多种多样,已经无所不在地融入了我们的工作和生活当中。阀控式免维护铅酸蓄电池(简称VRLA,图1)因技术成熟、原材料广泛、相对稳定等因素,目前仍然是众多数据中心的首选。图1,阀控式免维护铅酸蓄电池通常一个超大规模数据中心需要的蓄电池数以万计,其建设及维护成本非常高昂。为了满足大功率放电需求,各数据中心在设备选型时大多采用了理论设计寿命达到10年的高放电功率产品(环境温度25℃)。但理论不等于实际,根据多年的运维经验发现,即使设计寿命长达10年的蓄电池,往往也可能会过早地开始出现失效故障,根本原因就在于实际应用环境及使用方式无法同设计寿命所参考的因素一模一样,当多个因素偏离项出现时,将对蓄电池寿命产生难以估量的影响。图2是表示产品可靠性的浴盆曲线,在经过了早期失效期(受原材料质量、生产工艺等因素影响)后,如果能通过良好的应用环境、以及合理的维护方式延长偶发失效周期,则会极大地提高蓄电池的实际使用寿命,从而延缓设备更新采购的时间,降低折旧成本。图2,产品可靠性浴盆曲线作为运营管理者,在面对机房内数量众多的蓄电池,思考提高其使用寿命的维护方案时,又不免会出现以下困惑:本文将结合数据中心多年的运营经验,围绕以上问题探讨提升机房蓄电池运维管理水平的一些思路。

蓄电池应用环境要求通风是蓄电池应用环境的基本要求,这是因为铅酸蓄电池内部化学反应过程中会产生少量氢气(图3),在内部压力释放时通过单向排气阀排出。从防腐蚀及防爆安全的角度考虑,不管是电池柜、电池架,还是电池室,都应设计专门的通风装置,避免在完全密封环境下使用蓄电池。同时有条件的机房还可安装氢气检测装置。图3,电池内部化学反应产生氢气除了通风,温度则是与蓄电池使用寿命强相关的环境因素,图4是某品牌蓄电池的技术参数,从中可以看到蓄电池寿命是随温度而变化的。目前类似于蓄电池、电容等产品的可靠性推算可以参考一个较为通用的近似方式,即10℃法则。该法则实际是由瑞典化学家阿伦尼乌斯创立的经验公式Arrheniusequation,即化学反应速率常数随温度变化关系公式推导而来,简单来说就是当温度每上升10℃,产品寿命约减半。但是对于蓄电池而言,过低的温度却又会导致蓄电池内部活性的下降,从而造成放电容量的降低(图5),因此各品牌蓄电池在设计寿命时的环境温度同多数电器电子产品一致,都以25℃作为了基准。这个温度值在±2℃的浮动范围内刚好同大部分机房的环境温度要求保持了一致,比如IT设备冷通道。图4,某品牌蓄电池寿命温度关系图图5,某品牌蓄电池运行温度与放电容量关系图当前,在数据中心机房内,蓄电池的安装环境主要有以下两种类型:电池架蓄电池安装于开放式电池架上(如图6),并单独放置在独立电池房间内,主要用于动力辅助设施、以及传统IT机房的HVDC、UPS等设备配套使用。优点是处于同一房间内的电池环境温度一致性较好,且电池架高度一般不超过4层,所有电池外观及接线端子可视,便于日常巡检和维护。图6,开放式电池架电池柜蓄电池按分组安装于电池柜内(图7),主要用于MDC、T-Block等模块化机房中的HVDC设备配套使用。优点是当蓄电池物理安装位置靠近IT设备时,可以保持蓄电池在相对独立的运行环境里,不会受到热通道高温的影响,且降低了IT运维人员可能接触到直流电源的风险。图7,电池柜从维护便利性上来看,开放式电池架是优于电池柜的,但是在配套模块化结构设计的机房使用时,只有电池柜才能在与其它设备拼接后,组成封闭的环境实现冷热通道的隔离。因此为了给电池柜内的蓄电池提供良好的环境温度,腾讯数据中心在电池柜的结构设计上做了一定的考虑(如图8)。电池柜前后门设计防水百叶,同时在前门增加散热风扇,且百叶面积通孔率以及风扇规格均通过详细计算,满足电池柜内散热需求;前门散热风扇具备手/自动控制功能,可通过电池柜内温度监测实现自动启停;电池组各层间距(即电池顶部到上一层板底部)距离规定不小于140mm,同层蓄电池水平间距不小于30mm,保证电池柜内通风顺畅。同时电池柜尺寸余量足够,充分适应各品牌多种容量电池尺寸;电池柜侧板增加阻燃隔热棉,避免柜体两侧的HVDC或IT设备运行时产生的热传导。图8,电池柜散热结构设计除此以外,为提高同组蓄电池的温度均衡性,在模块化机房内使用电池柜时,还应关注空调设备的控制参数设置,优化从冷通道进入柜体内的气流,以确保柜体内不同位置蓄电池散热条件的一致性。以图9的数据为例,该图显示的某组安装于电池柜内的蓄电池在放电测试后恢复充电时的数据,通过绿色的温度柱状图可以发现不同编号的蓄电池出现了较大的温度差异,其中最高的接近29℃,而最低的只有24.5℃。图9,某电池组充电时的温差经过检查发现,该模块化机房因负荷较低,现场开启的列间空调数量少,且空调的风速参数设置只有0.4Pa,导致冷热通道的风压差过小,无法提供充足冷量流经蓄电池表面带走热量。在调整空调风速参数至3Pa后,各只电池温度开始逐渐变得均衡,极差从4.4℃快速降至0.9℃(见图10)。在模块化数据中心大规模发展的同时,作为运营管理者,不仅要重视IT类设备的运行环境,同样也不能忽视了蓄电池这类传统基础设施设备在新的应用场合下的环境条件。图10:调整列间空调参数后的温差既然提到了温度,这里就再讨论一下温度补偿功能。蓄电池在低温环境下适当提高充电电压、在高温环境下适当降低充电电压,这是所有蓄电池厂家的技术要求。而现如今的UPS、HVDC都具备了温度自动补偿功能,但是从风险和管理角度并不太推荐在数据中心室内环境下使用该功能,主要有以下几点原因:

为了保证后备时间,数据中心采用多组电池并联的方式,而UPS、HVDC对蓄电池的充电管理是无法做到每组电池独立控制的,且温度补偿大都只能接入一个位置的采集数据,当蓄电池组之间有温差时,就不能做到每组电池都以合理的电压充电;温度采集器自身也存在精度偏差甚至故障的问题,假设温度采集数据低于了实际温度,若未及时发现并采取干预,便可能出现因充电电压过高而导致的过充甚至热失控事故;数据中心机房内电池环境温度由精密空调控制,且有动环监控系统,因此环境温度是实时可控的,能够长期满足电池厂家要求的标准温度。因此建议,UPS、HVDC等电源设备配置并接入电池温度传感器,但只需要用来监测电池环境温度并用作报警、或进一步通过报警禁止均充功能即可(降低热失控风险),而不需要将温度值用做充电电压的实时补偿调节。

蓄电池管理参数设置一个数据中心可能会同时选用多个品牌的蓄电池,每个厂家对电池充放电管理参数都有一定的要求且不尽相同,比如充电电压、均充时间等,而同样配套使用的UPS、HVDC也是品牌型号多样,电池管理的软件逻辑就各不相同了。以某个机房为例,电池品牌涉及A品牌和B品牌两家(后面以A电池、B电池表示),配套的电源设备包含C品牌HVDC、C品牌UPS、D品牌HVDC三种,按照现场实际配置关系有以下4种组合:首先根据不同蓄电池厂家的技术要求,我们可以理解A电池和B电池会有两套不同的电池管理参数。但是为什么同样是A电池,在C品牌和D品牌的电源设备中参数设置会不同,并且同是C品牌的HVDC和UPS还不同?为了解释清楚,首先介绍电池管理参数里的几个设置:浮充转均充电流当电源设备检测到电池充电电流超过该设定值(一般为0.06C,C等于蓄电池容量)时,电源设备可以由浮充切为均充。浮充转均充容量电源设备会计算电池放电过程中的放电容量,若放电容量超过设定值(一般为20%),在由放电恢复为充电后,电源设备可以将浮充切为均充。均充转浮充电流电池处于均充过程时,随着容量的增加,充电电流会逐渐降低,当电源设备检测到电池充电电流低于该设定值(一般为0.02C,C等于蓄电池容量)时,电源设备可以将均充转回浮充。均充延时(也叫稳流均充)电池处于均充过程时,当HVDC检测到电池充电电流低于均充转浮充电流,再保持一定时间的小电流均充状态,然后才转回浮充,这个时间就是均充延时。手动均充电池长期未放电、且一直处于浮充状态,需要每隔一定时间手动执行一次均充,每次保持8至12小时,以保持电池的活性及单体电压均衡性。先来看C品牌HVDC和D品牌HVDC在浮充转均充判据上的差别,以及现场针对性的参数调整:然后再来看一下同为C品牌的UPS和HVDC,这两类产品虽是同一个厂家生产,但是属于不同的设备类型(设计团队可能不同),实际在电池管理功能上也会存在一些差异。比如UPS软件则没有“均充延时”这个逻辑,因此在每次放电完成后,只要“均充转浮充电流”达到判据条件,则会立即转浮充。而HVDC在同等判据下,还会根据“均充延时”维持一段时间的小电流均充过程。所以如果UPS和HVDC设定为同样的均充转浮充电流,则会在同等放电工况下出现HVDC配套蓄电池均充时间大于UPS蓄电池的情况。在参数设置时,HVDC若启用了“均充延时”功能,可考虑将“均充转浮充电流”判据适当调高一些。图11,UPS软件逻辑中的电池充放电过程示意图那么过长的均充状态会有什么危害呢?如果各单体蓄电池电解液饱和度有一定的差异,在均充过程末期,饱和度较高的蓄电池电压就会开始上升,导致各单体之间电压不均衡,进而触发后台监控系统告警。尤其是对于使用寿命已到中后期的蓄电池来说更要特别注意,因为非计划性的均充较多情况出现在电池放电后,该过程完全由电源设备自动控制,现场运维人员若未及时关注均充时的单体电池状态,部分老化电池则有可能在长时间的均充过程中出现电压持续上升、异常发热的情况。图12为某组蓄电池放电后,在自动均充下的电压数据曲线,可以看到在21:50左右,开始有个别电池电压出现持续上升,在人为手动关闭均充前,最高值达到了15.4V。图12,某组蓄电池均充后期的单体电压数据由上可以看出,现场运维人员应该仔细了解不同品牌蓄电池的参数特性,并熟知各类型电源设备的电池管理功能,同时对蓄电池的运行数据进行分析,以便于对不同搭配组合进行差异化参数设置,而不是让系统工作于默认参数下。但由此带来的问题是设备组合一旦变多,就会导致机房设备参数的复杂性,增加管理的难度。因此对于大体量的数据中心建议采取的做法是:对不同蓄电池厂家的技术要求进行梳理,然后制定统一的电池管理功能需求,通过软件逻辑定制化的方式实现不同品牌类型电源设备的电池管理功能一致性。蓄电池放电维护方式阀控式铅酸蓄电池内部由正极板、负极板、AGM隔板、电解液组成,正负极板上的活性涂膏物质与电解液在充放电过程中进行化学转换,若长期保持充电而不进行放电循环,极板上的涂膏物质将失去活性,导致蓄电池容量性能下降。图13,极板涂膏前后现有的大型数据中心大都是按照A级机房标准建设的,当外市电出现异常时,机房内的中低压配电设备会根据逻辑执行相应的自动切换,因此蓄电池放电时间最长一般在1分钟左右(双路市电停电后由柴发启机带载时),而大部分场景只有10至30秒(单路市电停电后中低压设备自动切换时)。更何况数据中心选址时已充分考虑了当地的电网供电环境,所以平均每年蓄电池因市电异常引起的被动放电次数也屈指可数。为了保持蓄电池的良好性能,就需要运维人员定期主动执行放电维护工作,同时通过维护时获取的数据更直接地对电池健康程度进行评估。那么应该如何进行放电维护呢?先来了解以下两个特点:1.蓄电池应避免小电流长时间放电蓄电池应避免小电流长时间放电(电流小于0.05C,不同厂家要求略有不同),否则正、负极板深层的物质将有可能参与反应变为体积较大的硫酸铅晶块,且很难还原;另外,小电流放电也无法实现检查发现落后电池的目的。2.蓄电池放电测试的时间应以容量为优先判定条件

蓄电池放电测试的时间应以容量为优先判定条件,而不是固定的放电时间或者放电测试截止电压,因为每套系统的负载大小是不相同的,当蓄电池进行放电测试时的电流会存在大小差异,同样导致了截止电压、以及可放电容量的差异(放电电流越大,活性物质利用率反而越低,因此可放电容量越小,放电截止电压可以更低),参见图14。图14,电池放电电流与截止电压的关系因此主动放电测试必须在一定负载条件下进行,并根据放电电流大小调整测试时间以及测试截止电压。某机房分别对A品牌、B品牌两个电池厂家的放电维护要求进行整理如下:表1,两个品牌电池对放电测试条件的要求放电条件A品牌电池B品牌电池备注放电电流小于0.05C只进行放电功能测试,不进行放电性能测试;每半年手动均充一次,持续时间12小时;只进行放电功能测试,不进行放电性能测试;每季度手动均充一次,持续时间10小时;1、放电功能测试,即利用配电切换测试机会,检查电池及电源设备短时间能否放电;

2、放电性能测试,即对电池进行一定时间的放电,通过电压、电流、内阻、温度等数据评估电池性能;放电电流满足(0.05~0.1C)之间每年一次放电性能测试,放电容量20%-30%;半年时手动均充一次,在年度放电测试后自动均充一次,持续时间12小时;放电电流满足0.1C以上每半年一次放电性能测试,放电容量50%;每半年放电测试后自动均充一次,持续时间12小时;每半年一次放电性能测试,放电容量50%;每半年放电测试后自动均充一次,持续时间10小时;基于以上要求,对该机房内满足不同放电电流条件的蓄电池占比分析如图15所示,当前机房内大约有一半的蓄电池因负载率过低,无法利用实际负载进行放电测试维护。若要保持蓄电池良好的活性,就必须通过机架式假负载来创造放电测试的条件。根据业务部署的进度安排,目前国内很多大型数据中心在运营初期都会遇到同样的问题,建议在运维工具采购时增加一部分假负载,既可以用于运营阶段的机柜PDU改造压测等测试场景,也可以用于定期的放电测试(推荐选用PTC陶瓷电阻型机架式假负载,不会出现传统假负载的红热现象,用于正式运营环境下相对更安全)。图15,满足不同放电电流条件的蓄电池占比分析另外在电池厂家供货周期能够得到保障的前提下(比如建立多个供应商资源池),且业务部署计划能够提前准确制定,新建数据中心甚至可以考虑在IT综合布线前分批次完成蓄电池的采购、安装调试及测试(整个交付周期主要取决于供货时间),这样也可以一定程度上降低机房的TCO成本。当然,这种方式也会存在原材料价格波动的不确定性,还需要综合时间因素来考量成本的可优化性。

蓄电池状态评判蓄电池状态评判需要对电池外观、电压、电流、内阻、温度、时间等因素进行综合考虑,同时要结合充电、放电两种工况,并且还要对当前、以及历史的数据做一定纵向、横向的分析,因此是一项非常复杂的工作。面对在网运行的海量蓄电池,作为运营管理者来说,需要寻找一套相对简单的评判方法和标准,其中最常用一种的就是对比法(由于内阻的测量数据取决于仪器检测原理,因此为了保证对比结果的准确性,进行内阻数据分析时一定要在相同测试仪器条件下进行).1.横向对比即通过对同组电池的不同单体之间进行对比,或者对相同运行环境、负载率、维护方式的不同电池组之间进行对比,找出差异。2.纵向对比即通过对相同电池在不同历史时期,但相同运行环境、负载率、维护方式等条件下的数据进行对比,找出差异和变化趋势。3.标准参数对比

即根据厂家提供的各种参数曲线表,通过模拟测试条件,将电池的实测数据与标准参数进行对比,找出差异。在此基础上还需要意识到一个问题,也就是不同厂家对蓄电池异常状态的评判标准是存在差异的。表2中体现的是A品牌和B品牌两个蓄电池厂家内部对电池数据的异常范围定义。从表中可以看到两个厂家在某些参数上的评判标准存在较大的不同,这对于动环等DCIM系统自动告警策略的制定来说,会产生一定的难度。因此若一个数据中心同时使用多个品牌蓄电池时,建议参考国标或行业标准,组织各厂家共同制定相互认可的统一异常判定标准。表2,不同厂家对电池部分数据的异常判据事项A品牌电池异常标准B品牌电池异常标准备注外观外壳变形、鼓胀、开裂、漏液_端子极柱变形或爬酸、端子螺纹损坏无法拧紧电压浮充状态超过14.1V并持续72小时(即12V电池单体浮充电压与平均值差异大于0.5V)同批次电池均充状态均充电压>16.5V均充电压>16V同批次电池放电状态低于同组平均电压0.6V,或电压低于10.80V,二者之一内阻浮充状态单体内阻超过同组电池内阻平均值2倍以上;或单体内阻检测值超过5mΩ以上;单体内阻超过同组电池内阻平均值50%以上对于内阻异常的蓄电池需重点关注,并通过放电测试数据来进行综合判断以上所列出的标准是针对单体电池的异常评判,若要对蓄电池组整体健康状况进行评估,则应通过容量测试。所谓电池容量测试,即使用恒定的负载对蓄电池组进行放电,直到电压降至放电保护截止电压为止,并根据该过程获得的相关数据计算出蓄电池的实际容量。容量测试有两种可选方案:使用直流放电测试仪进行放电优点是可以单独测试某一组电池,而不影响并联的其它电池组,且放电电流恒定,可以比较准确地得到电池实际容量。缺点在于放电测试前后需要对电池组的接线端子进行拆装,存在一定安全风险;图16,蓄电池放电测试仪电源设备自带的容量测试功能进行放电利用UPS、HVDC等电源设备自带的容量测试功能进行放电(如图17),优点在于不用将电池拆除并脱离系统,只需在设备面板执行相关操作即可,且放电过程中若突发异常故障,电源设备会自动终止放电测试并恢复正常模式运行。但是这种方法利用的是实际负载放电,因此大部分情况无法实现恒电流方式,容量计算准确率会低于上一种方式,并且无法对并联电池组中某一组蓄电池单独进行测试。图17,电源设备自带容量测试功能由于容量测试过程所需时间相对更长,且存在一定的风险(比如第一种方式在拆装电池组端子时发生意外短路,或第二种方式测试快结束时突发市电停电、蓄电池无法再满足后备需求),因此一般会有策略地抽取部分电池执行容量测试,比如按运行环境、负载率、维护方式等条件对电池组进行分类,然后从每一类中随机抽测部分样本,这样便可以完成整体的状态评估,以决定蓄电池未来一段时间内的运维对策,如图18所示。图18,电池容量测试判据为什么蓄电池容量低于初始值的80%就一定要更换呢?原来计划后备时间15分钟,如果我们接受一定程度的后备时间减少,是不是就可以继续使用呢?答案是否定的,因为这个要求并不仅仅只考虑了后备时间的变化,而更重要的是此时的蓄电池内部已经开始出现了较严重的老化,存在电解液干涸甚至热失控的风险,下图中的画面是所有机房都不希望看到的。图19,蓄电池热失控及起火故障案例监控平台管理现今大多数机房通过配置电池监控仪设备,都实现了蓄电池单体电压、电流、内阻、温度数据的实时监控,相比起传统的手持仪器测量方式,在线监控能够快速便捷地采集到所有运行数据,更重要的是监控平台中的各种历史数据也都能随时调用,方便进行追溯和分析。除此之外,在线监测也实现了异常蓄电池的快速报警,提高了故障处理及时性。以某机房为例,可以通过多个方式实现蓄电池实时监测及报警功能:电池监控仪作为电池末端数据的采集设备,其内部软件也具备告警功能,安装调试阶段由厂家工程师根据现场电池配置情况进行参数设置,电池监控仪主机会根据检测值自动触发报警,可通过设备自带的显示面板查看或上传至本地动环系统;图20,某电池监控仪内部参数设置项本地动环系统

根据电池监控仪上传的数据,动环系统按照协议解析,可以将其中部分状态量以告警形式呈现出来,同时现场运维人员也可以自行设定模拟量的报警阈值,由动环系统根据采集数据自动触发报警;远程集中管控平台作为数据中心运营管理的重要工具,管控平台将不同区域的多个机房数据汇聚在一起,可以由用户制定统一的测点标准,并且自定义各种告警策略,不再受限于不同厂家协议标准、以及软件逻辑的差异限制,是现今大规模数据中心管控的发展趋势,也是未来提升数据中心运维人员工作效率、实现运维质量把控分析的基础。基础设施监控只是管控平台的一个基本功能模块,通过监测北向接口采集到的数据,按照系统

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论