数据中心运维工作管理规范_第1页
数据中心运维工作管理规范_第2页
数据中心运维工作管理规范_第3页
数据中心运维工作管理规范_第4页
数据中心运维工作管理规范_第5页
已阅读5页,还剩31页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

文件编码:

数据中心运维项目

运维工作管理规范

(版本号:V2.1)

文件版本历史

文件版本修订日期/修订人审核日期/审核人批准日期/批准人修订说明

V0.8编写文档

根据一次内审结果进行修

V0.9

根据二次内审结果进行修

V1.0

根据11年人员和工作情况

V1.1

进行修改

按照质控中心要求修改文

V1.2

根据12年人员变动和工作

V1.3

情况进行修改

根据12年人员变动和工作

V1.4

情况进行修改

按照质控中心提供最新模

V1.5

板修改文档格式

V2.0双路市电改造,修改文档

编写14年配置计划,根据

V2.1

人员变动修改文档

说明:

1.封皮页版本号应与“文件版本控制页”最后一条版本记录的“文件版本”保持一致;

2.采用《文件更改申请单》完成更改编审批时,“修订说明”可直接填写文件更改申请单单号,否则应记录具

体修改内容。

目录

1组织职责....................................................................5

2目标和范围..................................................................5

3服务目录和服务级别协议......................................................6

4工作计划....................................................................6

4.1配置管理计划............................................................7

4.2能力和可用性计划........................................................8

5项目管理....................................................................9

5.1服务支持管理和服务交付管理..............................................9

5.1.1编号规贝U..................................................................................................................10

5.1.2表单的使用说明...................................................10

5.2供应商管理.............................................................11

5.3投诉管理...............................................................11

5.4预算管理...............................................................11

5.5报告管理...............................................................11

5.6风险管理..............................................................12

5.7质量管理..............................................................12

5.8文档管理...............................................................12

6工作规范...................................................................12

7绩效考核...................................................................12

8附件.......................................................................14

附件一:角色人员对应表.....................................................14

附件二:岗位职责...........................................................23

综合管理人员职责.......................................................23

服务支持人员职责.......................................................23

机房值班人员职责.......................................................24

附件三:各设备系统的运行维护职责...........................................24

空调系统运维职责.......................................................24

UPS电源系统维护职责..................................................25

供配电系统运维职责.....................................................25

消防运维职责...........................................................25

附件四:配置管理流程的操作说明.............................................27

附件五:机房管理规定.......................................................29

机房用户须知...........................................................29

机房人员出入管理制度...................................................30

机房设备移入移出管理制度...............................................31

机房值班制度...........................................................32

机房交接班制度.........................................................33

机房安全及保密规定.....................................................34

机房消防安全管理条例...................................................35

机房施工管理规定.......................................................36

运维工作管理规范

1组织职责

需数据中心根据客户的服务需求,结合机房现有情况,由公司运维部的人员组建数

据中心运维项目组,项目组由运维部经理负责,主要承担对外提供信息化基础平台的运

行维护工作,主要任务是结合IT服务理念,建立一整套符合用户需求的运维管理体系,

保障托管客户的信息化基础平台高效、稳定运行。

数据中心项目组人员现有10名,1名项目经理,9名运维人员,按照IS020000

运维体系的要求,对以上人员进行了相应的角色分配,详见附件一。

项目组的运维岗位分为服务支持人员、机房值班人员、综合管理人员三类,详见附

件二。

同时根据工作的需要,针对消防、UPS电源系统、空调、供配电系统的运行维护需

求以及所属设备的巡检,对其的运维责任进行了明确定义,详见附件三。

数据中心运维项目组

t服

身i

敌A

0

Z.0&ZC.

KK

2目标和范围

数据中心运维项目组根据相关合同约定以及客户服务需求,制订本项目的运维工

作目标和范围。

根据数据中心的具体情况,以及公司对数据中心的业务、功能定位,数据中心运

维项目组的工作目标和范围是提供数据中心机房场地运维,包含:对电力、空调、安

模板版本:V2.15/36

运维工作管理规范

防、所属设备的监控,保证机房24小时持续运行,并使机房的环境保持在规定标准范

围内,以保证机房内设备安全、持续、稳定的工作。

服务范围是向公司目前的客户一一,以及未来其他的内部或者外部客户提供场地

运维服务。

3服务目录和服务级别协议

数据中心提供的服务内容包含机房场地租赁、机房场地环境和安防服务,以及公

司办公区网络的运维,服务目录和服务级别协议的编制参考公司IS020000体系文件

《1服务级别管理程序》执行。

《服务目录》的更新维护由项目经理负责,每年要进行修订和完善,每年至少一

次,并与客户达成一致。

4工作计划

项目经理应制定项目的年度服务工作计划,每年要调整一次,以符合客户服务需

求的变化,主要包括年度运维计划、配置管理计划、容量及可用性管理计划、人员职

责分工(详见附件一《角色人员对应表》)等相关内容。

根据项目组的实际工作,制定项目年度工作计划如下:

序号类别工作项目工作内容计划完成时间负责人

机房值班,人员、设备管

1基础运维机房管理全年

3月、6月、

季度维护

2基础运维设备维护9月、12月

半年度维护6月、12月

3基础运维制定风险管控识别、分析风险点11月

根据设备运行状态,

制定耗材计划①制定机房备件和耗材10月

计划

4耗材备件统计

结合设备运行状态和

完善应急备件②设备年限,完善应急10月

备件

完善UPS配电设备操

5文档编写完善操作手册①10月

作手册

模板版本:V2.16/36

运维工作管理规范

完善空调等设备操作

②10月

手册

完善场地监测设备操

作手册8月

消防应急流程、逃生路线、

6应急演练消防演练8月

消防灭火器材使用

4.1配置管理计划

配置管理主要是指项目中涉及的基础设施和文档的配置信息管理。对应项目的实

际需求,制定了以下的管理范围、文档需求、备份要求、工作计划、人员角色和验证

审计指标及周期。

>配置管理范围:UPS及电池组、空调、供配电系统、消防设备、监控系统、

门禁系统、软化水装置、项目托管设备清单、各种技术手册等可服务于管理控制的

信息。

>配置项选择原则:从项目组的管理需求、管理范围和配置项数据的采集难易

度等方面考虑,确定了配置项。

>配置管理流程使用的《配置项差异审计表》、《配置项信息登记表》和《配

置信息变更表》是配置管理的核心数据,对于整体项目的运营至关重要,上述资料

的保管和备份必须引起重视。在数据中心,对于上述表单都需上传至文档服务器进

行备份,更新维护工作由配置组长进行。

>数据中心在2010年年中正式投入运营,2014年配置管理的进度计划如下:

序工作

工作名称预计任务历时负责人员预计开始时间预计审核时间

号顺序

1梳理配置管理流程11周2014-5-122014-5-18

对配置项进行分类和

222周2014-5-192013-6-1

属性说明

收集配置项信息,落

3实《配置项信息登记33周2014-6-22014-6-22

表》

4进行验证审计41周2014-6-232014-6-29

5配置回顾51周2014-6-302014-7-6

6日常配置管理6全年2014-6-162014-12-31

7进行二次验证审计71周2014-12-252014-12-31

>配置管理人员如下:

角色人员邮箱电话

模板版本:V2.17/36

运维工作管理规范

配置负责人

>验证审计每年组织一次,由配置负责人发起、组织并监督,遵循交叉审计的

原则执行,回顾总结由配置负责人完成,考核指标如下:

绩效

等式目标值衡量方式报告周期负责人备注

指标

已审数量=【删除状态】为“正常”且

核CI【审核状态】为“已审核”的C1

配置负

数量总数。100%报表统计年

责人

及比比例=已审核CI数量/【删除状

例态】为“正常”的CI总数X100%

数量=【删除状态]为''正常”且

匹配

【审核状态】为“匹配”的CI总

CI数配置负

数。99%报表统计年

量及责人

比例=匹配CI数量/【删除状

比例

态】为“正常”的CI总数X100%

不匹数量=【删除状态】为“正常”且

配CI【审核状态】为“不匹配”的CI

配置负

数量总数。1%报表统计年

责人

及比比例=不匹配CI数量/【删除状

例态】为“正常”的CI总数X100%

数量=【删除状态】为“正常”且

丢失

【审核状态】为“丢失”的CI总

CI数配置负

数。0报表统计年

量及责人

比例=丢失CI数量/【删除状

比例

态】为“正常”的CI总数X1OO96

4.2能力及可用性计划

>数据中心于2010年正式落成投入使用,主要是对外提供机房场地租赁、机

房场地环境和安防服务,同时随着公司业务扩展的需要,满足日益增多的基础设施

的运维需求。

>能力和可用性管理规范了项目所提供IT服务的能力和可用性服务的管理,

根据当前和未来的业务需求与服务级别,确保在可接受的时间及成本下,充分地提

供所需的IT资源和IT服务,以满足业务目标和服务级别协议的要求。

>本计划由能力和可用性管理组长编写,能力和可用性管理负责人审批。结合

项目情况,数据中心是按照满足整体机房的满负荷运转的最大容量设计,同时电源、

空调等系统都有备份系统,每年会根据情况进行适当的演练,所以基本可以满足客

模板版本:V2.18/36

运维工作管理规范

户在未来几年内的容量及可用性需求,无扩容计划。因此,本计划会在面临机房扩

容、改造等重大变更时,触发变更管理流程时进行更新。

>对应项目的实际需求,制定了以下的监测范围、人员角色、操作细则及调用

应急预案的情况。

>能力和可用性的管理范围:详见《能力和可用性监测指标和范围定义表》。

>能力和可用性相关人员如下:

角色成员邮箱电话

能力和可用性负责人31

>操作细则:加强人员技能培训,强化人员风险防范意识,形成一切运维工作

按规章制度操作的工作习惯,详见容量及可用性管理的《日常运行维护管理操作细

则》o

>调用应急预案:运维中面临的风险主要是供配电系统、空调漏水故障、空调

风机故障、消防监控等突发事件的发生,应对措施是制定应急预案(详见持续性管

理中的《IT服务持续性计划》附件),组织进行应急演练。

5项目管理

数据中心项目的管理由项目经理负责,包括支持管理、交付管理、供应商管理、

投诉管理、预算管理、报告管理、风险管理、质量管理、文档管理等方面。

5.1服务支持管理和服务交付管理

鉴于项目组工作内容的实际情况和需要,不涉及发布管理流程的内容,因此在数

据中心项目除发布管理外,其它所有服务流程参照公司IT服务管理体系相关管理程序

的内容执行。

为了达到最佳的管理体系的执行效果,对应项目组的实际工作情况,把事件、问

题、变更的操作进行了相应的细化,编写了《事件分类分级说明》、《问题分类分级说

明》、《变更分类分级说明》及《配置管理流程的操作说明》。

模板版本:V2.19/36

运维工作管理规范

>事件根据《事件分级分类说明》中的要求,在同一时间发生时按照优先级的

高低进行处理。

>问题的分类分级参照事件的分类分级,详见《问题分类分级说明》。

>变更按照《变更分类分级说明》对变更进行分类变更,同时保证该文档的变

更持续性。

5.1.1编号规则

各个流程的编号主要是为了体现相关流程的关联,在数据中心关于服务流程的编

号规则,规定如下:

•事件流程中一次事件的编号方式为SJ0001_20100531,日期为提报日期,依

此类推。

•问题流程中编号方式为WT0001_20100531,日期为提报日期,依此类推。

•变更流程中编号方式为BG0001_20100531,日期为提报日期,依此类推。

•配置流程中《配置信息变更表》的编号方式为PZ0001_20100531,日期为提

报日期,依此类推。

5.1.2表单的使用说明

>事件管理:《事件汇总单》是项目组统计处理事件数量和处理效果的重要单

据,因此《事件记录单》中的事件和《机房内施工作业审批表》中的服务请求由一

线工程师在受理事件的同时,要汇总到《事件汇总单》中,编号顺延编写。

>问题管理:项目组人员把由事件升级、趋势分析、由维护中提出的需要关注

并要根本解决的事件,转入问题管理流程,填写《问题记录单》交由项目经理审批。

通过审批后,再把问题情况和其处理情况详细记录在《问题汇总单》中,并把问题

的解决方案写进《已知错误数据集》,使其被更新维护成为项目的知识库。

>变更管理:在处理事件、问题的过程中,需要进行变更操作时,需填写《变

更记录单》,交由项目经理审批。通过审批后,再把变更处理情况详细记录在《变

更汇总单》中。

>配置管理:CI信息的变更由变更流程触发,填写《配置信息变更表》并由

项目经理审批后,由配置组长更新。

模板版本:V2.110/36

运维工作管理规范

5.2供应商管理

遵循公司IS09000体系的7.4《采购过程控制程序》的管理规定以及IS020000对

供应商的细化要求(详见IS020000的《IT服务管理体系质量手册》)。

5.3投诉管理

为了向客户提供持续、优质的服务,对于工作中出现的双方服务关注点,要友好

的磋商,达成客户服务合同的要求。

当提供的服务达不到服务目录中的承诺目标时,客户可通过公司的统一投诉电话

对项目组的服务进行投诉。

投诉管理遵循公司《BGPITC_ITSM-3-SMS-003客户投诉管理指引》的管理规定

执行。

5.4预算管理

按照公司财务部门的要求编制项目成本预算。

5.5报告管理

项目组成员按照规定填写各种设备检查监测表单,并根据实际情况填写《事件记录

单》、《事件汇总单》、《问题记录单》、《问题汇总单》、《变更记录单》、《变更

汇总单》、《配置信息变更表》,进行人员进出登记,管理设备移入移出申请及记录、

门禁卡申请等。

项目组每月编写服务报告(月报),包含事件、问题、变更、配置、容量及可用

性、安全的内容。每年进行一次配置审计,填写《CI信息审计表》以及《配置管理审计

报告》。

事件管理中,按照《事件分级分类说明》中重大事件的定义,优先处理重大事件,

并提交《重大事件报告》。

服务报告管理遵循《服务报告控制矩阵表》的要求。项目组成员将填写的所有表单

都交予质量管理负责人,由其统一收集管理所有表单、报告。

模板版本:V2.111/36

运维工作管理规范

5.6风险管理

对于服务中可能会出现的各种风险,确定各种风险的等级,制定应急预案(详见连

续性管理中的《IT服务持续性计划》附件),每年组织一次应急演练。

5.7质量管理

根据质量管理体系要求收集各类作业文件,并制定质量目标及考核方式;时时更

新各类作业文件内容;每年在项目管理部组织下对用户做满意度调查;接受质量的审

查。

5.8文档管理

项目组的技术手册和管理文档都在项目组的文档服务器中保存,每位项目组成员

都可以登陆上去阅读、使用资料。

由质量管理负责人作为文档服务器的管理员,文档的上传由其负责,其他人对于

文档的更新要通过他来完成,邮件发给他,由其上传文档服务器。这样避免了文档服

务器中文档发生维护类的错误,保证了所有文档的可用和最新。新增知识上传文档服

务器后,应由质量管理负责人发邮件通知项目组成员学习。

同时质量管理负责人和项目经理要对文档服务器中文档进行及时的备份,另外在

本地个人计算机中进行保存。

6工作规范

为确保服务绩效,服务团队在服务提供过程中,除了严格按照服务流程履行服务

职责外,还严格遵守公司、部门、客户的相关规章制度和工作规范。项目组结合工作

实际需要制定的各项规定,详见附件五《机房管理规定》。

7绩效考核

为了促进项目综合实力的增强,使人力资源作用发挥更大,公司每年都组织进行

模板版本:V2.112/36

运维工作管理规范

数据中心项目组的员工绩效考核,主要从工作业绩、工作能力、工作态度等方面考

察,意在收集、分析、传递有关个人在其工作岗位上的工作行为、表现和工作结果等

方面信息的过程。

模板版本:V2.113/36

运维工作管理规范

8附件

附件一:角色人员对应表

角色人员对应表

模块角

职责工作内容成员邮箱电话

名称色

1、协助本项目/部门领导确保体系在本部门监督体系运行

的有效运行;情况:组织推

2、传达体系思想、协调项目/部门资源,负广工作进行;

责解答项目/部门成员体系运行中遇到的问传达体系思

题;想;解答疑问;

质量3、负责项目/部门体系运行的过程检查与监沟通协调。

QMT

管理督,负责本项目/部门相关的体系改进工作;

质量

负责4、负责本项目/部门体系运行数据的收集、

管理

人分析、汇总和上报;

5、参加公司内审,并根据内审中发现的不符

合组织本项目/部门的改进;

6、迎接外审,并负责关于体系在项目/部门

中如何落地的解答;

7、体系优化建议的提报。

1、定期管理服务项目的所有相关报告,分析根据工作情

服务汇总报告信息,提出改进建议;况,维护《服

SRP

报告2、对报告中出现的重大异常情况应提请IT务报告控制矩

服务

负责服务管理体系管理者代表审批;阵表》;定期

报告

人3、维护《服务报告控制矩阵表》。编写《服务报

告》。

1、进行客户需求沟通,确定合理可行的服务组织更新《服

级别需求和服务级别目标;务目录》、《技

2、在内部和与供应商沟通和确定OLA、UC术服务目录》;

服务

SLV以支持SLA;定期向客户或

级别

服务3、磋商和签订SLA、OLA、UC;内部组织提供

负责

级别4、监控SLA的实现情况,提出服务改进建议;《服务报告》。

5、制作服务报告,定期报告SLA实现情况;

6、发起、组织和实施SLA定期回顾会议,对

SLA的变更提交变更请求。

模板版本:V2.114/36

运维工作管理规范

1、一个或多个服务的运维负责人;维护《服务目

2、(根据项目)基于SLA和SC,制定内部录》,准备与

实现的技术服务目录或SOP,细化技术操作客户评审《服

规程;务目录》或服

服务3、负责监控所负责服务的可靠性、可用性和务的《会议纪

级别性能,对发现的待改进之处,提出服务改进要》。

组长建议;

4、协助服务级别负责人进行相关服务级别管

理的支持工作,比如识别客户的服务级别需

求是否合理可行,与服务级别负责人协商和

确定所负责服务的OLA等。

1、通过服务台来确保客户满意,确保事件快监督事件管理

速解决;流程(包含项

2、出现紧急、重大事件时,负责协调外部资目组自有的网

源尽快解决;络、电源系统、

事件3、当事件优先级为紧急或者事件将超过规定风机、漏水故

负责的时限,负责按照升级方法对事件进行处理障的处理流

人确保有效协调资源,促进快速恢复正常服务;程)落实情况,

4、确保正确和广泛地收集和分析事件数据,提出改进措

发现IT和业务相关的问题;施。

5、确保与问题管理、外部供应商等部门的有

效合作。

1、作为客户事件沟通的唯一联系点;1、落实并维护

2、在指定的响应时间内响应所有服务台热线《事件分类分

电话、邮件、工单等事件报告;级说明》;

3、正确、完整记录所有接收的事件信息,包2、落实《事件

INC括:记录事件报告人的详细联系方式、事件记录单》、《事

事件特征表现、描述、发生时间等;件汇总单》;

管理4、进行初步支持,为事件进行适当的分类、3、多次发生的

为事件分配优先级等属性;事件、需要查

5、检查事件记录的处理进度,保持与用户的找根本解决办

服务

联系,适时通知事件处理进展;法、趋势分析

台/

6、与用户确认事件解决方案及用户满意度反得出的大概率所有值班人

一线

馈,关闭事件,并及时更新信息;事件,需要提员

工程

7、把事件的影响降低到最小,并确保快速回升为问题处

复到正常服务水平;理,落实《问

8、如事件无法解决,将事件进行升级,并寻题记录单》,

求事件负责人的支持。提交问题管理

流程;

4、若有变更发

生,则要落实

《变更记录

单》;

5、《事件报告》

模板版本:V2.115/36

运维工作管理规范

编入定期的

《服务报告》,

为其提供具体

资料;

6、若有重大事

件发生,则要

落实《重大事

件报告》。

1、接收和处理升级事件,将已解决的事件转按照流程,解

回服务台,由服务台关闭事件;决升级事件,

2、确定事件的分类、分级和关联配置项,并根据情况填写

对事件进行深入研究;《事件记录

二线3、及时提供有效解决方案,把事件的影响降单》、《事件

工程低到最小,并确保快速回复到正常服务水平;报告》或《重

师4、与其他二线小组合作,确定解决方案,如大事件报告》。

果事件无法解决,将事件升级,寻求事件负

责人的支持,必要时引入供应商的支持;

5、收集有关事件解决方案,并将事件、问题

解决步骤文档化,并录入知识库系统。

1、接受和处理升级事件,将已解决的事件转按照流程,解

回服务台(一线工程师),由服务台(一线决升级事件,

工程师)关闭事件;根据情况填写

运维部、办公

2、进一步确认支持需求,明确相关信息;《事件报告》

三线网络维护:局

3、对升级的重大事件进行深入的讨论和研或《重大事件

工程域网组人员

究,找出根本原因,并提出解决方案;报告》。

师场地:设备厂

4、可以在尽快提供解决方案的前提下,根据

相关流程缩减工作步骤;

5、收集有关事件解决方案,并将事件、问题

解决步骤文档化,并录入知识库系统。

1、接受和提报需要由供应商处理的故障;

2、参与负责整个提报过程,确保相关信息的

完整和全面:按照流程,沟

提报3、对提报故障前期的信息收集,整理和分类;通解决需要厂

贝4,定期与供应商进行沟通,督促或监督故障商处理的故

的解决;障。

5、定期对提报故障进行回顾和分析,从而获

得相关的改进信息.

模板版本:V2.116/36

运维工作管理规范

负责协调日常的问题管理工作,包括对问题1、关注问题管

的审核、监控、所需资源的协调、定期产生理流程落实情

报表等。况,提出改进

1.接受问题支持团队/人员的分析报告,对问措施。

题进行审核确认;2、审核问题,

2.确保所有相关问题信息都被正确登记;监控问题处理

3.对登记的问题进行分级和分类:进度、处理效

4.将问题分派给所属相关专业的问题支持团果。

问题队/人员进行处理:

负责5.监控问题解决全过程,确保问题分派了正

人确支持团队/人员,提高解决率;

6.根据问题优先级合理分派IT资源;

7.必要时组织客户探讨问题解决方案和变通

方法;

8.必要时组织成立问题分析专家组,并举行

问题根本原因分析研讨会议;

9.查看问题处理结果,并定期回顾;

10.根据问题解决详细记录,审核问题支持团

队/人员的关闭问题申请。

PRO

为问题的诊断和解决提供技术支持,通常由1、参照《事件

问题

各专业组技术人员承担。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论