数据中心老旧设备风险评估模型研究与实践_第1页
数据中心老旧设备风险评估模型研究与实践_第2页
数据中心老旧设备风险评估模型研究与实践_第3页
数据中心老旧设备风险评估模型研究与实践_第4页
数据中心老旧设备风险评估模型研究与实践_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

近年来,随着数字化转型的逐步深入,数据中心成为数字化、网络化、智能化等重点产业技术及其应用的重要载体。同时,在国家层面也大力支持数据中心实现高质量发展,四部委联合印发《全国一体化大数据中心协同创新体系算力枢纽实施方案》,要求加强绿色数据中心建设,强化节能降耗,加快推动老旧基础设施转型升级。然而,对于传统大型数据中心而言,由于云化程度不足、基础设施与应用系统耦合度高等原因,每年均会产生大量的到龄老旧设备,不仅降低了数据中心的能效水平,也给应用系统稳定运行带来了安全隐患。在此背景下,如何高效利用有限资源,实现企业数字化转型与解决老旧设备安全隐患,已成为大型数据中心急需解决的难题。对此,本文结合农业银行老旧设备特点提出了风险评估模型,并针对不同的设备风险级别提出了应对策略。一、老旧设备风险评估模型概述整体而言,老旧设备风险评估模型(以下简称“评估模型”)基于历史数据分析,旨在直观反映风险因素与老旧设备下线之间的相互关系,并选取与老旧设备下线密切相关的风险指标,覆盖了承载业务、超龄时间、运维保障、服务风险等四大维度。1.承载业务维度设备上承载的业务系统或设备发生故障时可能影响的业务系统既是开展设备风险评估的基线,也是判断老旧设备是否需要下线的重要依据。对此,评估模型结合系统用户规模、日均交易量、日均交易金额等参数,将业务系统划分为核心业务系统、重要业务系统和一般业务系统。其中,核心业务系统是企业赖以生存和发展的根本,一旦发生故障会直接影响全部或多个主营业务的正常运营;重要业务系统主要指承担企业主营业务的系统或管理系统,如金融机构中的实时交易类系统、时点交易类系统、辅助交易类系统等;一般业务系统指企业除核心业务系统和重要业务系统外的其他业务系统,如企业资源计划系统(ERP)、客户关系管理系统(CRM)、办公自动化系统(OA)等。评估模型中业务承载维度量化取值设置为A,其量化标准详见表1。表1业务承载量化标准值得注意的是,如果某一设备同时承载或影响多个业务系统,应取信息系统中最高的系统级别;如果重要程度最高者同时存在两个及以上的,可以适当上调一级;而对于新建系统或者未定级系统,则应参照同类系统进行定级取值。此外,当企业经营范围、战略重心发生调整时,系统分级也有可能会发生改变,且随着企业经营策略、重心的不同,同一个业务系统在不同企业中的等级划分也可能不同。因此,企业应定期或在出现重大业务调整时及时进行业务系统重新定级。2.超龄时间维度超龄时间主要指设备超过安全生产年限的时长,其中安全生产年限是依据设备类型、使用特性、设计工艺等因素确定的设备合理使用寿命。按设备类型的安全生产年限详见表2。一般而言,设备超龄时间越长,发生故障的可能性越大,关联业务系统受影响的风险也越大。超龄时间的具体计算方式如下:超龄时间(T)=考核周期年底时间(T1)-设备开始使用时间(T2)-安全生产年限(T3)表2按设备类型的安全生产年限为优化超龄时间量化取值,评估模型以年为单位计算超龄时间,设置超龄时间参数为B,B为T向上取整加1,其量化标准详见表3。表3超龄时间量化标准3.运维保障维度运维保障维度包括设备购买的维保服务、运维人员的技术能力等,主要指当设备发生故障时可以提供的运维支持。本文所述模型按照企业购买的维保情况以及自身运维能力,将运维保障能力分为厂商维保、具备运维能力、无运维能力等三大类。其中,厂商维保指企业已经购买原厂或者第三方维保,当设备发生故障时,厂商可以及时提供设备/产品的替换或维修服务;具备运维能力指企业未购买维保服务或维保服务已过期,但企业自身有存量的备品、备件,且运维人员具备及时恢复业务的能力;无运维能力指企业未购买维保服务或维保服务已过期,同时企业也不具备相应的运维能力。模型中运维保障参数设置为C,其量化标准详见表4。表4运维保障量化标准4.服务风险维度服务风险维度重点包含了使用风险和历史风险两个指标。其中,使用风险指依据业务部署架构、灾备方式等,当设备发生故障时可能触发的业务中断、数据丢失等风险,相对而言,不存在使用风险则是指设备发生故障后不会导致数据丢失、业务暂停,或能够满足业务RTO、RPO要求。模型中使用风险参数设置为D,其量化标准详见表5。表5使用风险量化标准历史风险主要指设备以往的故障情况,即曾发生过严重故障或触发生产事件的设备应优先考虑下线。模型中将历史风险参数设置为E,其中严重性故障是指设备发生过宕机等重大故障或因设备故障而触发过生产事件;一般性故障指除严重性故障外的其他类型故障(如端口故障等),其量化标准详见表6。表6历史风险量化标准二、老旧设备风险定级及优化1.风险定级老旧设备基于承载业务、超龄时间、运维保障、服务风险的量化取值与设备的风险等级成正比。基于此,为反映设备突发故障、维保过期等情况对风险值的影响,本文尝试提出了老旧设备风险评估模型,风险值计算方法如下所示:R=A×B×C×(D+E)其中,R为老旧设备风险值,A为承载业务系统量化取值,B为超龄时间量化取值,C为运维保障量化取值,D为使用风险量化取值,E为历史风险量化取值。设备风险值与风险级别对照见表7。表7设备风险值与风险级别对照2.风险调整鉴于老旧设备与系统业务、架构部署、关联设备等均存在依赖关系,因此老旧设备的下线优先级也需结合架构、系统等进行综合考虑。例如,当架构、系统、关联设备等有调整计划时,应将高耦合设备的风险级别调为最高,优先考虑将此类设备下线。同时,当高耦合设备的风险取值高于目标设备时,还应调整目标设备的风险值,使其与高耦合设备保持一致。3.老旧设备风险应对策略针对不同风险级别的老旧设备,笔者建议采取不同的应对措施,同时优先开展高风险级别老旧设备的下线工作,而同风险级别则优先考虑风险值较高的设备。例如,对于高风险级别的设备,责任方应在1个月内制定下线方案,在6个月内完成项目实施。对于中风险级别的设备,责任方应在1个月内制定设备下线方案,在1年内完成项目实施。对于低风险级别的设备,责任方应结合设备承载系统、设备性能等进行设备鉴定,之后再决定是否需要下线。除此之外,老旧设备下线前,设备及系统责任方均应完善应急预案,保障系统稳定运行,且在无法按时制定实施计划或完成设备下线时应提高审批层级,最终在通过群体决策后,再暂缓该设备在本周期内的下线工作。三、结论与展望实际工作中,笔者提出的老旧设备风险评估模型已经在某金融数据中心开展了试运行。经模型测算,该数据中心大多数设备因承载的业务系统等级低、超龄时间较短(1~3年),评估结果为设备风险较低,可在责任方进行设备鉴定后再确定是否需要下线。总体而言,该模型投入应用后不仅可快速分析发现少量风险系数高、急需下线的设备,集中有限资源解决安全隐患,还有助于准确筛选出低风险设备继续投入使用,从而进一步提高资源利用率,降低设备投入成本。同时,本文提出的风

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论