YDT 4458-2023数据中心精细化运维技术要求及评估方法_第1页
YDT 4458-2023数据中心精细化运维技术要求及评估方法_第2页
YDT 4458-2023数据中心精细化运维技术要求及评估方法_第3页
YDT 4458-2023数据中心精细化运维技术要求及评估方法_第4页
YDT 4458-2023数据中心精细化运维技术要求及评估方法_第5页
已阅读5页,还剩18页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

ICS33.020

CCSL70

YD

中华人民共和国通信行业标准

YD/TXXXX-XXXX

数据中心精细化运维技术要求及评估方法

Datacenterrefinedoperationandmaintenancetechnicalrequirementsandevaluation

methods

(报批稿)

2022-xx-xx发布2022-xx-xx实施

中华人民共和国工业和信息化部发布

YD/TXXXX-XXXX

前言

本文件按照GB/T1.1—2020《标准化工作导则第1部分:标准化文件的结构和起草规则》给出的规

则起草。

请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别这些专利的责任。

本文件由中国通信标准化协会提出并归口。

本文件起草单位:中国信息通信研究院、中国移动通信集团有限公司、北京世纪互联宽带数据中心

有限公司、维谛技术有限公司、上海数据港股份有限公司、中金数据系统集团有限公司、中国电信集团

公司、北京万国长安科技有限公司、上海有孚网络股份有限公司

本文件起草人:王月、李洁、郭亮、许可欣、刘天龙、杨磊、周浩、钱荣华、胡顺健、曲鑫、王少

鹏、韩会先、吴美希、王茜、谢丽娜、周重阳、任帅、朱晶、郭广建、巴君鸿、李晨、甘东山、商彦强、

王红亮、张一星、周彩红

II

YD/TXXXX-XXXX

数据中心精细化运维技术要求及评估方法

1范围

本文件规定了数据中心运行维护管理在流程管理、质量管理、设备管理、资源管理、人员与组织管

理等关键环节的技术要求和评估方法。

本文件适用于数据中心企业使用或构建运维流程体系,以及有关机构进行评价和指导,可供其他相

关行业或组织进行参考。

2规范性引用文件

下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件,仅所注日期的版本适用于本文

件。凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。

GB/T24405.1-2009信息技术服务管理第1部分:规范

3术语和定义

下列术语、定义适用于本文件。

3.1

服务级别协议servicelevelagreement

服务提供商与服务需方之间签署的记录服务和约定服务级别的协议。

[来源:GB/T24405.1-2009,定义2.13]

4缩略语

下列缩略语适用于本文件。

MOP维护操作流程maintenanceoperationprocess

PUE数据中心电能利用效率powerusageeffectiveness

SLA服务级别协议servicelevelagreement

WUE数据中心水资源利用效率waterusageeffectiveness

5技术要求

5.1流程管理

5.1.1维修

5.1.1.1维修制度

重大维修应制定维修方案,经过评估审核后执行。

5.1.1.2维修准备工作

3

YD/TXXXX-XXXX

维修前应做好充分的准备工作,维修前充分的准备工作是保证维修过程顺利、安全进行的重要保障,

包括:

a)维修工作应提前沟通相关方进行确认,满足数据中心服务响应需求,前置确认相关资源(如备

品备件存储和人员)的准备情况,对人员进行提前培训;

b)应提前进行供应商作业人员的资质审核(如操作资质、能力资质等),现场应进行安全技术交

底,维修方案培训和记录应存档。

5.1.1.3维修过程监管

维修过程应加强监管,以加强现场监督为前提进行监管,包括:

a)应全程监管维修过程,督促维修人员按照维修方案、要求执行,并由运维人员检查工作质量;

b)过程中应注重安全监护,应确认安全防护用品穿戴情况、安全标识正确悬挂情况、设备操作环

境,操作前后应有复核确认等。

5.1.1.4维修后评估

应建立维修后评估等机制,以提升现场维修质量和供应商服务质量,包括:

a)应执行对设备维修效果评估,测试设备状态及性能是否符合预期;

b)应对供应商服务进行评估,包括响应时效、服务态度、安全施工等,并作为供应商考核依据;

c)数据中心负责人、故障处理参与人应在故障处理结束后组织复盘讨论会,分析故障原因、讨论

故障处理过程中的优秀做法与不足、总结规避措施,会后应组织排查同类问题隐患。

5.1.2维保

5.1.2.1维保计划制定

应编制详细的设备、设施维保计划,包括:

a)应制定完整合理的维保计划(维保计划一般包含维保内容、周期、责任方、颗粒细化到周的计

划时间、完成记录等);

b)应区分自行维保和供应商维保,呈现完整的年度计划,维保周期应设定合理;

c)重大维保工作应提前制定维保方案,提前沟通相关方,确认后实施;

d)常规维保工作可依据已制定的标准维保流程执行;

e)重保(保障期)延误保养应提前向客户说明,具有调整流程。

5.1.2.2维保标准要求制定

维保标准应科学合理,具有良好可操作性,包括:

a)应具备完整合理的MOP文件,覆盖所有维保作业(自维护、供应商代理维护)制定标准维保流程

(内容一般包含维保项目、触发条件、维保操作方法、维保质量标准等);

b)应明确维保安全风险及注意事项说明,完工后检查标准(内容包含工器具检查、设备状态等)。

5.1.2.3维保作业实施

维保实施应按照维保标准严格执行,包括:

a)实施前应有专业管理人员与维保人员进行现场交底及进行工具有效性确认,实施中应能识别风

险及安全隐患并进行有效处理;

4

YD/TXXXX-XXXX

b)维保记录应完整、清晰,并与MOP相对应;

c)应提前识别和告知相关方无法按照计划执行的实施计划,并依据实际情况重新制定维保日期。

5.1.2.4维保作业核查及总结

应对维保作业实施过程和结果进行跟进和复查,确保维保计划有效执行,数据中心安全运行,包括:

a)实施后应有专业工程师或指定人员对维保作业完成情况和质量进行确认;

b)应对维保执行情况进行跟进,对年度维保执行情况总结,总结应包含完成率、延迟率、原因分

析、需优化和改进措施等,总结应完整且可以指导持续改进优化。

5.1.3巡检

5.1.3.1巡检规范要求制定

应具备包括但不限于针对日常运维巡检、周期性深度巡检和专项检查(针对灾害天气、重大保障等)

完善的规范要求,要求应明确巡检路线、巡检内容、巡检要求、巡检时效等内容。

5.1.3.2巡检实施

巡检实施应按照巡检规范要求严格执行,包括:

a)现场应具备内容完善的针对日常运维巡检、周期性深度巡检和专项检查的巡检记录,数据留存

且完整;

b)现场应可识别出不在监控范围内或在管理界面外的区域,并对监控范围内的设备进行复核检查,

及对不在监控范围内的关键设备及区域进行现场检查。

5.1.3.3巡检质量复核

应建立质量复核机制并实施,包括:

a)现场应有专业工程师或指定人员对巡检作业完成情况和质量进行确认,应对巡检记录及运行记

录执行情况进行复核,复核渠道包括但不限于班组内部复核、机房内部定期检查、外部监察等;

b)巡检发现的问题,能够在交接班记录中体现,应能与事件工单、变更工单相对应。

5.1.3.4优化与改进

巡检完成后,应在进入下一周期前,根据变化情况,提前做好巡检规范的调整优化,且巡检方案合

理,应覆盖关键设备和区域,如新采购智能设备、运维人员调整等情况都应对巡检规范要求进行动态调

整。

5.1.4演练

5.1.4.1演练计划制定

演练计划制定应有一定完整性,包括:

a)应依据运维过程中识别的全面运维能力的提升要求及全部不可预知的风险,制定年度演练计划;

b)演练计划应包含演练场景、演练方式(模拟、实际)、演练分级、计划时间、负责人员、参训

人员等。

5.1.4.2演练方案制定

演练方案应科学合理,具有良好可操作性,包括:

5

YD/TXXXX-XXXX

a)对可能导致数据中心无法正常运行、设备和系统冗余风险、对业务运行有较大隐患的演练场景,

应编制演练方案;

b)演练风险应提前识别,并在方案中明确风险、应急和回退措施。

5.1.4.3演练管理

应对演练过程进行事前管理,包括:

a)演练前,应检查资源准备情况,及时调整补充,做好应急准备;

b)应组织启动会议,宣讲演练方案,包括场景以及内容、演练步骤、职责分工、注意事项等,必

要时进行预演练。

5.1.4.4演练实施组织

应按照制定的行动方案和演练计划执行,包括:

a)演练过程中,严格按照流程和职责分工进行操作,做好现场安全控制,记录演练过程、关键时

间节点;

b)演练风险应提前识别,并在过程中严格执行。

5.1.4.5演练总结与提升

应在演练后进行总结,以提升运维应急能力,并识别和优化不足之处,包括:

a)演练结束后对演练的结果、安全措施落实情况、演练组织工作等进行总结评估;

b)对于演练中暴露的问题,应制定改善措施;

c)对于应急预案的不符和、不完善项应进行修订,并做好宣贯培训;

d)宜对演练成本进行较为详细的测算,包括投入人力、物资、以及对客户的影响评估。

5.2质量管理

5.2.1风险管理

5.2.1.1风险识别和记录

应建立风险识别、记录机制,识别并记录运维管理和相关方活动对机房管理和运行所造成的风险,

包括:

a)应能识别全类全面的风险,针对运维管理风险、机房运行风险等多源风险具备完善的风险识别

评估表,并在运维过程中不断补充和完善;

b)应根据风险范围和内容,考虑覆盖常规和非常规、紧急状态下的作业过程,并在过去、现在和

将来的三种时态下识别风险点,以及可能导致的事件,记录在风险识别评估表内;

c)风险识别的组织人员应包含机房管理人员、机房技术人员、客户等。

5.2.1.2风险控制实施计划制定

应制定完整完善的风险控制实施计划,包括:

a)应针对不同类的风险进行分级管理并形成完善的计划及目的,且应明确责任部门或责任人、计

划完成时间;

b)具备多种控制方式相结合的合理可行的风险控制措施,控制措施应考虑其可行性和有效性等;

c)针对已识别的风险点根据发生可能性和影响程度进行评估,计算出风险值,确定风险等级,选

择适宜的控制措施方式。

6

YD/TXXXX-XXXX

5.2.1.3风险监控、验证、回顾

应建立风险监控、验证、回顾机制,包括:

a)应将风险监控的全流程形成完整的记录,对于采用会议或培训的措施,应在完成后查看记录,

验证实施内容并通过询问相关人员了解措施完成的效果,机房应保留记录;

b)应对定级后的风险进行多种形式的监督与验证;

c)对于采用监督检查类的措施,应由机房制定或完善监督检查表,定期检查,机房应保留记录;

d)对于采用制定方案、操作规程或增加文件等类型的措施,机房应编制相应方案、规程等文件或

表单,并组织实施,机房应保留文件和记录。

5.2.1.4风险库及评估更新

应形成风险库及时有效的更新和控制,包括:

应根据已识别评估的风险实时更新风险库,优化和调整风险识别评估表、对应的风险控制措施计划

表,定期更新修订风险库,替换已废除的风险项定期更新评估表等文件。

5.2.2事件管理

5.2.2.1事件记录

所有事件(包括被动、主动识别的事件)均应被记录,闭环并形成完整记录,宜以平台工作流程或

线下记录体现,事件来源应包括监控发现、巡检发现等。

5.2.2.2事件管理

应建立事件管理机制,建立事件处理相关流程,包括:

a)应依据影响程度、紧急程度、优先级对事件进行分类及分级,并依据不同类别和级别采取相应

处理机制和升级;

b)应有明确的事件管理范围及工作要求,包括事件类型、事件等级、响应机制、通报流程、反馈

机制、事件升级机制等;

c)应具备事件关闭策略,事件在关闭之前能够依照关闭策略进行复核确认。

5.2.2.3事件升级

应建立事件升级机制,提升处理有效性和及时性,包括:

应定义事件升级规则,根据事件升级规则,转派后线支持人员进行职能升级处理,或加强事件处理

力度进行结构升级处理事件处理和恢复。

5.2.2.4事件处理和恢复

应遵循“先抢通,再抢修”处理原则,快速解决影响数据中心运维的事件,保障IT设备可用性。

5.2.2.5事件复盘和关闭

应对事件复盘和分析以实现提升改进,包括:

a)应明确事件关闭规则,关闭规则一般覆盖事件已恢复,故障设备或系统已恢复正常运行状态,

相关预防性计划和措施已落实等;

b)重要问题应进行复盘,回溯发生和处理过程,总结经验和反思不足,制定改进措施;

7

YD/TXXXX-XXXX

c)应定期对事件进行汇总和全方位分析,分析应包括数量、分级统计、分类统计、响应时间、处

理时间、恢复时间等,并输出优化措施、持续跟进。

5.2.3问题管理

5.2.3.1问题识别和记录

应建立问题识别、记录机制,包括:

a)应明确问题识别触发条件,触发条件一般包含事件恢复后遗留故障、反复发生的事件、重要事

件;

b)识别的问题均应闭环并形成完整记录,问题记录应以平台工作流程或线下记录形式体现。

5.2.3.2问题管理

应建立完备的问题管理制度,对问题分级管理,包括:

a)应具备符合管理要求的问题流程管理制度,制度应对运维岗位定义明确的流程角色;

b)应依据专业分类、设备类型、问题现象、问题原因等进行问题分类,问题分级应依据影响程度、

紧急程度等进行分级。

5.2.3.3问题分析和升级

应查找问题的根本原因,制定标准分析流程,通过大数据、人工智能等技术逐级升级分析,定位问

题原因。

5.2.3.4问题解决

应制定问题解决方案并实施,依据问题分析结果,制定解决方案或规避措施,问题处理过程应全程

记录时间、人员、更换配件等信息。

5.2.3.5问题关闭与沉淀

应沉淀问题解决方案,不断提高运维人员排除故障的能力,提升运维团队专业素养,包括:

a)应回顾和关闭问题,应明确问题关闭规则,关闭规则应包括问题排查,整改措施并完成现场处

理结果的多级确认;

b)问题报告编制,应回溯发生、分析、处理和同类问题排查过程,并组织学习和分享;已关闭的

问题应开展横向排查并整改。

5.2.4资料文档管理

5.2.4.1文档管理范围确定

应明确全面且完善的文档管理范围及要求,包括:

a)资料文件范围及内容应全面,包括但不限于设计图纸、运维文档、调试报告、交付报告、合同

文件、质保文件、设备说明书、许可证等;

b)运维工作文件宜保证定期更新,关键文件可进行电子、纸质文件双备份。

5.2.4.2文档管理策略确定

文档应有专人进行管理,并具备明确的保密分级机制,不同级别员工对不同保密等级的文件的查看、

下载、转发等权限应不同。

8

YD/TXXXX-XXXX

5.2.4.3文档管理实施

应按照策略有效实施,宜具备线上文档管理系统,实现文件权限与分级管理,文件版本(如发布、

作废等)记录应保持清晰,运维工作文件应实现实时动态更新。

5.3设备管理

5.3.1设备监控

5.3.1.1监控方案制定

应制定完善的监控方案,包括:

a)监控系统规划时应梳理监控系统的范围,实现监控无盲区;

b)监控系统全面覆盖,使系统达到高稳定性,无事态扩大化;

c)应分析确定监控需求,制定完善的监控方案;

d)有效管理基础设施各子系统,监控、分析各系统运行状态,提高监控系统可靠性、安全性,更

好地服务基础设施运维团队。

5.3.1.2监控画面架构制定

应集成一个总告警画面便于告警信息汇总,画面应清晰柔和,避免监控值班员长期视觉疲劳。

5.3.1.3监控方案实施

应按照监控方案严格实施,保证设备故障时可触发告警,通知运维人员及时处置,保障数据中心系

统安全、稳定运行,包括:

a)应覆盖被监测运维系统的全部重要点位(包括但不限于电压、电流、压力、温度、湿度等);

b)应具备专职的监控值班人员7*24h监控系统运行的参数变化及告警事件的分派;

c)应根据SLA要求设定统一阈值。

5.3.1.4监控报表管理

应根据运维的需求给出能耗、负载率、PUE、WUE等报表模板,根据模板进行报表的开发具备多类报

表模板,可基于模板进行报表二次开发。

5.3.2告警管理

5.3.2.1告警方案制定

应具备完善的告警事件分级分类管理内容,根据告警等级确立通报流程、通报人员及通报范围。

5.3.2.2告警方案实施

应按照告警方案严格实施,保证告警处置通报及时,便于客户做好数据备份,包括:

a)主管人员应明确值班人员的工作内容及设备责任人,明确相关设备责任工程师及联系方式,建

立部门、客户紧急联系通讯录;

b)应具备完整的告警通报流程及通报模板(主要内容包括但不限于时间、地点、区域、设备名称、

故障原因、影响范围、处置措施、处理人员等信息)。

5.3.2.3告警分析

9

YD/TXXXX-XXXX

应建立告警分析机制,缩小故障的影响范围,包括:

a)值班人员应每天对告警进行统计,机房经理应每月对告警内容进行分析;

b)应定期安排工程师对各监控系统告警点位进行测试,验证各监控点位的可靠性;

c)宜建立完善的告警处置知识库。

5.3.3设备状态管理

5.3.3.1管理制度

应建立完备的管理制度,包括:

a)应制定完善的设备管理策略、表单、流程;宜利用管理平台进行管理;

b)管理制度应定期进行宣导及培训并纳入绩效体系。

5.3.3.2管理实施

应严格按照管理制度实施设备状态管理,使设施设备处于有效的管制状态中,进而全面改善设备性

能,提高生产效率,保证安全正常地提供服务,包括:

a)应覆盖与IT有关的全部基础设施,应对设备全生命周期进行管理;

b)应具备规范、清晰、全链条的设备标识管理;

c)应对操作人员资格有明确的要求与操作制度;

d)应定期对工器具盘点及维护保养,对于备品备件的情况进行分析并及时补充。

5.3.4设备健康度管理

5.3.4.1制定设备健康度管理计划

应制定完善的设备健康度管理制度及标准化地流程,包括设备范围、健康度指标、健康度评估模型

(包括但不限于运行质量、系统结构、容量管理等),宜根据年度开展。

5.3.4.2实施健康度评估

应对全量设备建立设备健康度档案,按照年度健康度评估计划,通过对设备进行预防性维护、应急

演练切换、维护保养等手段,宜每年一次对设备健康度进行评估打分。

5.3.4.3实施健康度提升措施

应定期进行健康度评估并采取相应的优化改进措施,实现设备性能和运行安全的提升,避免产生重

大运行事故,包括:

a)应按照健康度管理计划,对健康度不满足运行要求的设备或系统进行评估,并制定提升方案、

应急预案(特别是针对健康度较低的设备或系统);

b)应对提升方案和应急预案进行评审,并按照评审通过的提升方案予以实施。

5.3.4.4健康度后评估

应在健康度提升措施实施后进行健康度后评估,包括:

a)应按每年度一次的频率对设备健康度提升工作落实情况及效果进行后评估,检查其实施效果;

b)应根据评估后结果对健康度档案进行更新。

5.4资源管理

10

YD/TXXXX-XXXX

5.4.1能效管理

5.4.1.1绿色节能管理体系

应建立运行维护生命周期中的能效精细化管理制度,包括:

a)应具备明确的能耗管理组织架构和职责分工;

b)应具有完善的能源管理制度,组建基本的能效监管团队,定期推行宣传及培训;

c)应制定能源管理目标,定期核查目标达成;应建立高耗能设备淘汰机制,引入绿色节能系统、

设备。

5.4.1.2采集呈现关键指标

应建立能效管理平台,关键指标呈现应准确、完整,包括:

a)应具备能效管理平台,实时自动呈现数据,并主动提醒运维人员;

b)应比对仪表、监控数据情况,并作校准操作,宜以季度为周期开展。

5.4.1.3统计和分析能耗指标

统计和分析能耗指标应覆盖数据中心运行中涉及的所有能源范围,包括:

a)应统计分析各设备、各区域能耗指标,并生成能耗分析报告,宜根据日、月、年等周期提供统

计;

b)宜利用监控平台实现能耗实时分析,并利用趋势预警,异常能耗,能耗同比、环比等数据输出

提醒信息。

5.4.1.4优化和改进

应在能效管理实施后进行分析与总结,确保在运行中的能耗达到或优于设计的指标,包括:

a)应根据统计分析进一步寻求改进机会,制定节能降耗措施;

b)应在执行改进措施前评估相关风险,并制定应急措施。

5.4.2容量管理

5.4.2.1容量需求分析

应合理分析容量需求,保证信息系统以最经济和有效的方式运行并与发展中的业务需求相匹配,包

括:

a)应定期收集容量信息并进行分析,时间以月度收集和分析容量使用情况为宜,容量信息应包含

电力容量、制冷容量、空间容量等信息;

b)可利用管理平台和监控平台进行策略制定,监测和分析容量使用情况和使用趋势;

c)应周期性识别容量原因造成的风险。

5.4.2.2容量计划制定

应基于历史数据、外部需求、计划外需求等信息制定完善的容量管理计划,应体现对系统或设备容

量进行的分析和预测。

5.4.2.3资源配置及性能分析

11

YD/TXXXX-XXXX

应对资源配置和性能进行分析,以实现通过配置合理的服务容量使资源发挥最大的效能,包括:

a)应对容量情况进行监测、阈值设定和分析,必要时进行容量优化变更实施;

b)应依据容量计划对需求的资源进行合理分配,对已逼近安全容量的设施应启动调整方案;

c)应定期实行容量核查,并发出资源利用报告。

5.4.2.4容量报告和复盘

容量管理实施后,应进行总结复盘,包括:

a)应对当前容量使用情况和资源性能情况进行评估;

b)定期对容量情况分析后,应提前制定容量扩容规划;

c)应对计划执行情况进行总结复盘,并输出季度/年度报告。

5.4.3资产与配置管理

5.4.3.1资产与配置管理计划

应进行科学合理的资产与配置管理计划,包括:

a)应明确资产与配置管理的范围,制定资产与配置管理计划,包括但不限于各类资产与配置项的

的标识方法、命名规范以及属性,确定资产与配置项的管理策略,并对资产配置项分级分类;

b)应具备设备备件、办公耗材、钥匙、检测工具、应急工具管理清单,清单应实时更新,同时记

录存放地点。

5.4.3.2资产与配置项识别

应对资产与配置项进行识别,包括:

a)应识别资产与配置项以及关联关系,唯一标识并记录到资产与配置管理数据库中;

b)应制定资产与配置管理数据库的访问控制权限,并有专人对工具、仪表、备件、耗材等进行管

理。

5.4.3.3资产变更管理

应对资产变更进行全生命周期管理,包括:

a)应建立资产实物的计划、采购、入库、安装、运行、变更、闲置、报废等管理活动,明确全生

命周期的管理要求;

b)应制定资产出入库清单,清单应实时更新,并对领用情况进行纪录。

5.4.3.4资产与配置项验证与审核

应对资产与配置项进行验证与审核,保证数据中心运营环境信息的完整性和稳定性,包括:

a)应核对和验证资产与配置项信息,确保资产与配置项信息正确记录到资产与配置管理数据库中;

b)应建立并持续更新设备和关键零部件的全生命周期管理表。

5.5人员与组织管理

5.5.1供应商管理

5.5.1.1供应商管理要求策略制定

应制定完善的供应商管理要求策略,规范供应商管理,包括:

a)应制定完善的供应商管理要求策略(包括但不限于供应商的选择、沟通、考核和淘汰机制);

12

YD/TXXXX-XXXX

b)应具备较为完整的供应商信息,包括服务内容与要求、人员通讯录、人员资质信息等,同时定

期执行更新校验工作。

5.5.1.2供应商选择与采购

对于供应商选择与采购应做科学合理分析,确保供应商向数据中心提供优质的外部技术资源和支

持,包括:

a)应综合分析和确定外部资源需求,分析内容宜包括申请内容、使用范围、必要性以及资源数量

实施供应商选择和采购;

b)应对备选供应商执行尽职调查和风险分析;

c)供应商服务响应时间应与现场关键设备冗余后备时间、客户SLA要求、备品备件库等信息相匹

配。

5.5.1.3供应商日常管理

应对供应商的日常行为进行管理,包括:

a)应对现场供应商行为进行全程把控,包括入场前、入场中、入场后各个环节;

b)入场前应检查作业人员资质证件信息,对其进行行为告知,如工作流程、工作界面、行为要求、

安全注意事项等方面的告知;

c)入场施工中应对齐工作内容并进行随工监管;

d)入场施工后应对工作质量、现场环境、遗留物品进行排查。

5.5.1.4供应商评价

应对供应商的执行进行评价,包括:

a)应按计划时间间隔,每年至少一次进行供应商评价,并根据评价结果持续改进;

b)应明确供应商相关管理要求(内容包括但不限于供应商分类、管理流程、供应商服务评价标准、

考核标准等),执行记录应与标准要求一致且完整可查。

5.5.2交接班管理

5.5.2.1交接班管理

交接班工作内容应清晰完善,包括:

a)交接班记录内容应清晰完善,能够体现本班组中发生的重要工作和异常情况(包括但不限于事

件、变更、维护等)、交接班期关键运行信息(包括但不限于用水量、用电负荷、储水量、储油量等);

b)应具备交接班内容检查确认流程及交接班期间突发异常状况处理流程与方式。

5.5.2.2排班/考勤管理

排班考勤应合理并可追溯,包括:

a)应具备排班表和考勤记录,同时人员休假、替换班等信息在排班表中应同步更新;

b)宜每月分析团队各类人员工作时长信息,保证合理合规性,并具备值班考勤检查。

5.5.3培训与考核

5.5.3.1培训计划制定

应通过培训需求的分析对培训制定详细的计划,包括:

13

YD/TXXXX-XXXX

a)应对人员现状与需求进行分析与评估;

b)培训范围应全面覆盖内部人员,针对不同人员体现适宜且完善的培训,且为不同参训人员准备

培训教材。

5.5.3.2培训执行

应严格按照计划落地执行,包括:

a)应在培训时做培训记录,包含培训签到、培训照片,必要时需要录制培训视频;

b)培训过程记录、考核记录应专人存档。

5.5.3.3培训考核及改进

应加强对培训的考核并持续改进,包括:

a)应结合培训内容与人员进行多种方式的考核;

b)培训后应对培训进行优化调整,并将调整内容体现在下个周期的培训计划中。

5.5.3.4人员综合评估和规划

应加强对人员的综合评估和规划,确保运维员工的工作能力及业务素质能满足公司发展需求,包括:

a)应对运维团队进行综合评估;

b)应对运维团队人员合理进行绩效评价,并结合评估、考核等结果对运维团队人员进行职业发展

规划。

数据中心精细化运维等级评定方法应按照附录A实施。

14

YD/TXXXX-XXXX

附录A

(规范性)

数据中心精细化运维分级(O1-O5)

A.1数据中心精细化运维分级要求

分级要求如表A.1所示。

表A.1数据中心精细化运维分级要求表

关键域关键指标关键活动分值

维修制度2

维修准备工作2

维修

维修过程监管2

维修后评估2

维保计划制定2

维保标准要求制定2

维保

维保作业实施2

维保作业核查及总结2

流程管理巡检规范要求制定2

巡检实施2

巡检

巡检质量复核2

优化与改进2

演练计划制定2

演练方案制定2

演练演练管理2

演练实施组织2

演练总结、提升2

风险识别和记录2

风险控制实施计划制定2

风险管理

风险监控、验证、回顾2

风险库及评估更新2

事件记录2

事件管理2

事件管理事件升级2

事件处理和恢复2

质量管理

事件复盘和关闭2

问题识别和记录2

问题管理2

问题管理问题分析和升级2

问题解决2

问题关闭与沉淀2

文档管理范围确定1

资料文档管理

文档管理策略确定1

15

YD/TXXXX-XXXX

文档管理实施1

监控方案制定1

监控画面架构制定1

设备监控

监控方案实施1

监控报表管理1

告警方案制定1

告警管理告警方案实施1

设备管理告警分析1

管理制度1

设备状态管理

管理实施1

制定设备健康度管理计划1

实施健康度评估1

设备健康度管理

实施健康度提升措施1

健康度后评估1

绿色节能管理体系1

采集呈现关键指标1

能效管理

统计和分析能耗指标1

优化和改进1

容量需求分析1

容量计划制定1

资源管理容量管理

资源配置及性能分析1

容量报告、复盘1

资产与配置管理计划1

资产与配置项识别1

资产与配置管理

资产变更管理1

资产与配置项验证与审核1

供应商管理要求策略制定1

供应商选择与采购1

供应商管理

供应商日常管理1

供应商评价1

交接班管理1

人员与组织管理交接班管理

排班/考勤管理1

培训计划制定1

培训执行1

培训与考核

培训考核及改进1

人员综合评估和规划1

A.2数据中心精细化运维评级

由以上项目的总得分,按照以下分级方法,可得到该数据中心对应的精细化运维等级,如表A.2所示。

16

YD/TXXXX-XXXX

表A.2数据中心精细化运维评级表

分数分级

[0,65)O1

[65-75)O2

[75-85)O3

[85-95)O4

[95-100]O5

________________________________

17

YD/TXXXX-XXXX

目次

1范围................................................................................33域代码已更改

2规范性引用文件......................................................................33域代码已更改

3术语和定义..........................................................................33

域代码已更改

4缩略语............................................................................33

域代码已更改

5技术要求............................................................................33

域代码已更改

5.1流程管理........................................................................33

域代码已更改

5.2质量管理........................................................................65

5.3设备管理........................................................................98域代码已更改

5.4资源管理.......................................................................109域代码已更改

5.5人员与组织管理................................................................1211域代码已更改

附录A(规范性)数据中心精细化运维分级(01-05)......................................1513域代码已更改

域代码已更改

I

YD/TXXXX-XXXX

数据中心精细化运维技术要求及评估方法

1范围

本文件规定了数据中心运行维护管理在流程管理、质量管理、设备管理、资源管理、人员与组织管

理等关键环节的技术要求和评估方法。

本文件适用于数据中心企业使用或构建运维流程体系,以及有关机构进行评价和指导,可供其他相

关行业或组织进行参考。

2规范性引用文件

下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件,仅所注日期的版本适用于本文

件。凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。

GB/T24405.1-2009信息技术服务管理第1部分:规范

3术语和定义

下列术语、定义适用于本文件。

3.1

服务级别协议servicelevelagreement

服务提供商与服务需方之间签署的记录服务和约定服务级别的协议。

[来源:GB/T24405.1-2009,定义2.13]

4缩略语

下列缩略语适用于本文件。

MOP维护操作流程maintenanceoperationprocess

PUE数据中心电能利用效率powerusageeffectiveness

SLA服务级别协议servicelevelagreement

WUE数据中心水资源利用效率waterusageeffectiveness

5技术要求

5.1流程管理

5.1.1维修

5.1.1.1维修制度

重大维修应制定维修方案,经过评估审核后执行。

5.1.1.2维修准备工作

3

YD/TXXXX-XXXX

维修前应做好充分的准备工作,维修前充分的准备工作是保证维修过程顺利、安全进行的重要保障,

包括:

a)维修工作应提前沟通相关方进行确认,满足数据中心服务响应需求,前置确认相关资源(如备

品备件存储和人员)的准备情况,对人员进行提前培训;

b)应提前进行供应商作业人员的资质审核(如操作资质、能力资质等),现场应进行安全技术交

底,维修方案培训和记录应存档。

5.1.1.3维修过程监管

维修过程应加强监管,以加强现场监督为前提进行监管,包括:

a)应全程监管维修过程,督促维修人员按照维修方案、要求执行,并由运维人员检查工作质量;

b)过程中应注重安全监护,应确认安全防护用品穿戴情况、安全标识正确悬挂情况、设备操作环

境,操作前后应有复核确认等。

5.1.1.4维修后评估

应建立维修后评估等机制,以提升现场维修质量和供应商服务质量,包括:

a)应执行对设备维修效果评估,测试设备状态及性能是否符合预期;

b)应对供应商服务进行评估,包括响应时效、服务态度、安全施工等,并作为供应商考核依据;

c)数据中心负责人、故障处理参与人应在故障处理结束后组织复盘讨论会,分析故障原因、讨论

故障处理过程中的优秀做法与不足、总结规避措施,会后应组织排查同类问题隐患。

5.1.2维保

5.1.2.1维保计划制定

应编制详细的设备、设施维保计划,包括:

a)应制定完整合理的维保计划(维保计划一般包含维保内容、周期、责任方、颗粒细化到周的计

划时间、完成记录等);

b)应区分自行维保和供应商维保,呈现完整的年度计划,维保周期应设定合理;

c)重大维保工作应提前制定维保方案,提前沟通相关方,确认后实施;

d)常规维保工作可依据已制定的标准维保流程执行;

e)重保(保障期)延误保养应提前向客户说明,具有调整流程。

5.1.2.2维保标准要求制定

维保标准应科学合理,具有良好可操作性,包括:

a)应具备完整合理的MOP文件,覆盖所有维保作业(自维护、供应商

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论