基础设施维护方案_第1页
基础设施维护方案_第2页
基础设施维护方案_第3页
基础设施维护方案_第4页
基础设施维护方案_第5页
已阅读5页,还剩23页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

一、概述运行维护,由维护及定检两部分内容组成。维护定检不仅是在问题出现时能迅速地定消除故障隐患,使设备长期稳定地运行。对设备良好、有效的维护,不仅能够减少设备的故障率,并且可以延长设备的使用寿命。维护定检的基本原则就是在例行维护定检工作中及时发现、解决问题,防患于未然。如果维护人员能在故障发生之前,在例行巡检之中,及时检测到故障的先兆,将故障解决而且还可以避免故障严重化对整个设备所造成的损伤,从而降低板件更换等维护费用,延长设备的使用寿命。而这一切,不但要求维护人员有深厚的功底,丰富的维护经验,还要有洞察秋毫的高度敏感性。二、总则前移;事中控制,快速响应;事后改进,持续评估”的持续改进原则。2.1可用性采取适当措施,确保按服务协议提供长期、持续的满足需求的优质服务,保持服务对象符合SLA的可用性要求。包括:a)和备份规范,以满足需方对可用性的要求;b)进行合理的人员岗位设置和职责定义,保证专人专岗并设置人员备份;c)人员能力具体要求;d)选择适用的运行维护技术,以保证服务的可用性;e)应的运行维护工具,以保证服务水平。运行维护工具等级;f)2.2安全性采取各种安全手段或措施,有效控制数据中心运行维护服务的各个环节,保护数据中心运行维护服务中的物理安全、网络安全、系统安全、应用安全和数据安全。包括:a)b)全保密协议等;c)保服务人员了解并遵守数据中心安全、保密相关规定;d)评估,提供相应的安全建议,并对服务对象进行适当的监控和保护;e)对数据中心安全进行监控、分析,把安全风险控制在可接受范围内,防止安全事件发生;f)建立有效的安全通报机制,以及时通报安全事件相关情况和相应防范处理措施等。2.3及时性采取适当的手段确保提供满足SLA时间指标要求的运行维护服务。包括:a)对事件、问题、变更建立明确的分级策略,并与服务窗口时间、响应时间等指标相匹配;b)的及时响应;c)建立有效的服务资源调度机制及与服务相关方的协同机制,配置必要的备品备件,以提供及时的服务保障;d)持;e)建立有效机制,周期性对事件级别定义进行更新,以确保定义准确有效。2.4规范性建立适当的服务管理流程、服务活动指导文件或实施规则,以保证服务过程的规范运作。包括:a)建立有效的服务管理流程文件,以保证服务过程实施规范性;b)建立或遵循需方的数据中心相关管理制度,如出入场管理制度、安保控制制度等;c)对于例行操作服务,应制定详细、可操作的技术手册,以降低操作风险;d)的实施方案,并进行风险评估及分析,采取相应的风险规避措施和回退手段;e)在服务过程中进行的任何活动,应建立服务档案,可形成服务报告,保留完整的服务记录。三、服务对象与交付说明3.1服务对象及内容(1)定期对硬件设备进行巡检、保养,以保障设备运行正常(具体设备范围因合同而异,基本包括电力系统、空调系统、安防系统、网络系统、监控系统以及综合布线系统(2)定期升级配套软件的版本;(3)协助采购人制订安全策略,定期检查、排除风险,保障设备及网络环境安全;(4)针对重要设备,实时监控运行状况,及时发现故障、排除故障;(5)针对周期性巡检发现的安全隐患进行防范和处理;(6)提供配件维修、更换服务(7)系统重部署及调试:新机上架协助及系统移位协助。(8)协助采购人,规范硬件管理维护标准化工作。3.2交付内容服务交付内容包括调研评估、例行操作、响应支持和优化改善四类,其中:a)运行环境进行现状调研、系统分析和评估并提出相应的建议和服务方案;b)例行操作服务:按照约定条件触发或预先规定的常态服务,分为监控、预防性检查和常规作业;1)监控:指采用各类工具和技术,对服务对象的动态指标、静态指标、运行状况和发展趋势等进行记录、分析和告警;2)预防性检查:保证服务对象的持续正常运行,根据服务对象的监控记录、运行条件和运行状况进行检查和趋势分析,发现其脆弱性,以便消除或改进;3)常规作业:对数据中心服务对象进行的日常维护,包括定期保养、配置备份、数据备份、恢复、定期重启等活动,以保证服务对象的稳定运行。c)响应支持服务:根据响应的前提不同,分为事件驱动响应、服务请求响应和应急响应;1)事件驱动响应:由于不可预测原因导致服务对象整体或部分性能下降、功能丧失,触发将服务对象恢复到正常状态的服务活动。事件驱动响应的处理过程首先争取在最短的时间内恢复服务或启用备份资源,维持服务的持续提供,并应对事件做出分析、明确诱发事件的原因和影响的范围,采取有效的防控措施,减少类似事件的再次发生。事件驱动响应的触发条件包括外部事件、系统事件和安全事件三种;2)服务请求响应:由于需方提出各类服务请求,引发的需要针对服务对象、已有的SLA/SOW做出判断,对服务的实施进行影响评估,制定详细的实施方案和回退措施,并在条件允许的情况下执行实施方案和回退方案的测试。变更型响应服务实施完成后,应进行总结,确认已达到预期的目标。此类响应可能涉及服务等级变更、服务范围变更、技术资源变更、服务提供方式变更等;3)应急响应:指在出现跨越预定的应急响应阈值的重大事件、发生重大自然灾害、由于政府部门发出行政指令或需方提出要求时,应当启动应急处理程序。d)优化改善服务:包括适应性改进、增强性改进和预防性改进三种类型;1)适应性改进:为保持服务对象在已变化或正在变化的环境中可持续运行而实施的改造;2)增强性改进:根据运行需求或由于服务对象的缺陷,采取相应改进措施增强数据中心的安全性、可用性和可靠性;3)预防性改进:检测和纠正服务对象运行过程中潜在的问题或缺陷,以降低系统风险,满足未来可靠运行的需求。四、运行维护交付内容4.1服务对象系络系统及设备、PC服务器、小型机等服务器以及综合布线系统。4.2调研评估基础设施调研评估服务内容包含但不限于:a)分析及布置改进建议、机房送风、回风方式改进建议,新风风量、风压指标分析及改进建议;辅助制冷单元配置建议等;b)电力系统(供配电系统、UPS房回路调整分析调整建议、机房扩容建议等;发电机负荷分析及调整建议等;UPS运行分析及扩容建议,超过设计使用寿命的电池更换建议、整流直流电容、逆变交流电容等;c)监控系统的分析和改进建议、门禁系统的分析和改进建议等;d)综合布线系统等:光纤、铜缆容量、使用效率分析;应用环境及性能分析;数量、路由改进或扩容建议;级别提升建议等。e)机房电源使用效率:通过对机房PUE连续监测分析,提供机房能效改进建议,包括但不限于:空调系统优化(消除机房热点、冷热通道遏制、改善送回风、使用节能型设备制冷容量及空间容量进行统筹管理,以充分利用资源)等。f)局部)网络配置调优分析与建议等。g)服务器调研评估:服务器负载情况分析;服务器安全策略分析;服务器的高可用性分析;服务器性能分析及调整建议。4.3例行操作基础设施的例行操作服务包括:监控、预防性检查、常规作业。4.3.1监控对基础设施的监控内容参见表1,包括但不限于:表1基础设施监控内容表服务对象空调系统、新风环境温度、环境湿度、出风温度、回风温度,告警情况等系统)谐波等发电机:启停情况、电流、电压、负载率、控制系统供电情况等UPS:输入电流电压、输出电流电压、频率、负载率、温度、报警情况、电池充电/放电电压等电源使用效率:PUE值(通过监控软件监测或计算得出)防雷接地系统:浪涌保护器、避雷器状态等消防系统:消防控制系统状态、气体灭火钢瓶压力、灭火器有效期检查视频监控系统:告警情况、监控录像等门禁系统:门禁状态、告警情况条目变化管理权限用户的行为审计设备软件配置变动审计设备日志审计服务器整体运行状态服务器电源工作状态服务器CPU工作状态服务器内存工作状态服务器硬盘工作状态服务器网络端口工作状态服务器4.3.2预防性检查在监控服务的基础上对基础设施进行预防性检查。包括:性能检查和脆弱性检查。基础设施预防性检查内容参见表2,包括但不限于:表2基础设施预防性检查内容表服务对象机房热点情况、室内机冷冻水压力、温度,冷却水压力、漏水检查、室外风机运转情况、加湿罐阳极棒空调系统风机运行情况、风速,预处理系统过滤网检查、风压差检工作状态,上下水情况等查接地电阻、零序电流、器件发热情导线、器件发热情况,油位,吸气、排烟通道等电力系统器件发热情况、电池情况(外观、检查通风情况(风扇、入气口、出气口)等器件、导线发热情况,电池放电时间、通风情况等安防防雷接地引下线检查、接地汇接启动瓶、管道开关、气体压力等视频监控监控系统运行状态、监门禁系统与消防系统和服务器、控制器、读卡器、门磁等视频监控系统的联动检常情况报警检查线缆两端应贴有识别标光纤、铜缆链路测试,性能测试等签,标志要与实际拓扑图完全一致设备机身、板卡或模块的工作情况是否需要升级系统微码设备链路的冗余度要求内存使用峰值情况安全事件周期性整理分IP包传输时设备生命周期评估备件可用性周期性检查效IP包(包括攻击性IP包、欺骗性IP包、垃圾IP包等)检查其它的关键指标项,例如各类关键表项、会话连接数等服务器资源分配是否超过预定阀值服务器的资源分配情况和策略服务器关键部件是否满足运行冗余度要求CPU使用峰值情况服务器关键部件的微码内存使用峰值情况版本是否需要升级文件系统空间使用情况服务器服务器关键部件链路的IO读写情况冗余度要求服务器硬盘是否RAID保服务器文件空间使用是否达到预定阀值4.3.3常规作业基础设施的常规作业包括基础类操作、测试类操作和数据类操作,其中:a)基础类操作:按服务管理手册的有关规定,执行设备的日常运行、维护和保养;b)c)数据类操作:按事先规定的程序,对基础设施运行日志、记录等数据进行操作。基础设施常规作业内容参见表3,包括但不限于:表3基础设施常规作业内容表数据类操作运行日志备份,报警记录备份、清除等运行记录备份(如果有)数据类操作运行日志备份,报警记录备份、清除等运行日志备份,试、周期性主备切换/报警记录备份、UPS系统旁路、清洁等防雷接地系统运行记录备份(如果有)紧固,浪涌、防雷接地电阻测试保护器复原等消防系报警记录备份、清除出入记录导出、备份,监控图像控系统云台保养报警记录备份、清除等数据类操作运行日志备份,报警记录备份、清除等门禁系布线系统拓扑图数据更新设备软件配置备份及存档监控系统日志备份及存档监控系统日志数据分析与报告生成网络配置变更文件的审核网络配置变更的操作数据类操作4.4响应支持4.4.1事件驱动响应针对设备的软、硬件故障引起的业务中断或运行效率无法满足正常运行要求,而进行的响应服务,包括但不限于:a)b)电力系统:配电系统包括故障排查、投入备用电源回路、关闭非重要回路等;发电机系统包括故障排查、启动发电机、油料补充等;UPS系统包括故障排查、旁路系统、关闭非重要输出等;c)安防系统:防雷接地系统包括浪涌保护器复原、更换,接地电阻降阻等;消防系统包括故障排查、系统启动、报警联动、疏散警示等;视频监控系统包括故障排查、监控头检查告警或监控记录等;f)服务器事件驱动响应根据应用系统运行需要或需方、服务相关方的请求,而进行的响应服务,包括但不限b)c)安防系统:防雷接地系统包括新设备接地等;消防系统包括增减终端设备、检查及提供告警及监控记录、备份或清除记录等;视频监控系统包括调整摄像机位置、增加摄像机,增加录像机容量等;门禁系统包括增加、删减、变更门禁权限等;启动、关闭端口或服务;服务器设备清洁维护等。4.5优化改善根据应用系统特点和运行需求,对基础设施进行调整,包括但不限于:a)空调系统:调整温湿度参数等、调整机组位置、增减新风风量等;b)电力系统:配电系统包括更换开关、导线以适配负载容量等,发电机包括调整启动c)安防系统:调整防雷接地系统、消防系统、视频监控系统和门禁系统,以适应应用系统的变化;监控对象覆盖范围调整;局部交换优化;根据应用系统的特点和运行需求,通过对基础设施的运行记录、趋势的分析,对基础设施进行调整、扩容或升级,包括但不限于:b)ATS系统包括增加主机数量、增加电池数量等;c)安防系统:防雷接地系统包括增加冗余引下线、接地装置,降低接地电阻阻值等;消防系统包括增加传感器和喷头数量,更换高性能控制主机;视频监控和门禁系统包括增加报警联动、增加终端数量、增加存储容量等;d)综合布线系统:线路扩容、更换高性能布线等。e)网络及网络设备增强性改进硬件容量变化,如网络设备硬件、软件升级、带宽升级等;整体网络架构变动;系统功能变化,如新增功能区、新增安全系统、新增审计系统等;为本服务器从存储系统上分配更大空间;服务器CPU个数增加;根据对基础设施的运行记录、趋势的分析,结合应用系统的需求,发现基础设施的脆弱点,有针对性地进行改进性作业,包括但不限于:a)空调系统:调整机组位置,调整出回风方式等;b)电力系统:配电系统包括更换开关、更换导线、调整回路等;发电机包括更换或添加高标号油料等;c)安防系统:防雷接地系统包括焊接点加固、防腐处理等;消防系统包括消防系统预防系统和视频监控系统的联动;配置参数优化,例如关闭不必要的服务、打开缺省的增强功能、加快三层网络路由收敛速度、加快二层网络生成树收敛速度等;检查服务器硬盘RAID配置,及时修复或更换故障硬盘;增加服务器网卡、光纤卡以及链路冗余情况;增加服务器电源供电模块冗余。5.1服务时间(1)接收服务请求和咨询:在5*8服务台事件处理结果。(2)在非工作时间设置有专人7*24小时接听的移动电话热线,用于解决内部的技术问题以及接听7*24小时机房监控人员的机房突发情况汇报。(3)服务响应时间:故障级别响应时间具体时间因项目而定具体时间因项目而定具体时间因项目而定IV30分钟,2小时内提交故障处理具体时间因项目而技术支持人员在解决故障时,会最大限度保护好数据,做好故障恢复的文档,力争恢复到故障点前的业务状态。对于“系统瘫痪,业务系统不能运转”的故障级别,如果不能于12小时内解决故障,将在合同小时内提出应急方案,确保业务系统的运行。故障解决后24小时内,提交故障处理报告。说明故障种类、故障原因、故障解决中使用的方法及故障损失等情况。5.2行为规范(1)遵守用户的各项规章制度,严格按照用户相应的规章制度办事。(2)与用户运行维护体系其他部门和环节协同工作,密切配合,共同开展技术支持工作。(3)(4)出现疑难技术、业务问题和重大紧急情况时,及时向负责人报告。现场技术支持时要精神饱满,穿着得体,谈吐文明,举止庄重。接听电话时要文明礼貌,语言清晰明了,语气和善。(5)遵守保密原则。对被支持单位的网络、主机、系统软件、应用软件等的密码、核心参数、业务数据等负有保密责任,不得随意复制和传播。5.3现场服务支持规范重大问题及时汇报。严格遵守工作作息时间,严格按照服务工作流程操作。(1)现场支持工程师应着装整洁、言行礼貌大方,技术专业,操作熟练、严谨、规范;现场支持时必须遵守用户单位的相关规章制度。(2)现场支持工程师在进行现场支持工作时必须在保证数据和系统安全的前提下开展工作。(3)现场支持时出现暂时无法解决的故障或其他新的故障时,应告知用户并及时上报负责人,寻找其他解决途径。(4)故障解决后,现场支持工程师要详细记录问题的发生时间、地点、提出人和问题描述,并形成书面文档,必要时应向用户介绍故障出现的原因及预防方法和解决技巧。5.4问题记录规范根据使用人员提出问题的类别,将问题分为咨询类问题和系统缺陷类问题二类:咨询类问题是指通过服务热线或现场解疑等方式能够当场解决用户提出的问题,具有问题解答直接、快速和实时的特点,该问题到现场支持人员处即可中止,对于该类问题的记录可使用咨询类问题记录模版进行记录。系统缺陷类问题是指使用人员提出的问题涉及到系统相应环节的确认修改,需要经过逐级提交、诊断、确认、处理和回复等环节,处理解决需要项目组的分析确认,问题有解决方案后,将解决方案反馈给用户。具体提交流程如下:(1)问题提交。应用信息系统的用户发现属于系统缺陷类的问题时,填写系统缺陷类问题提交单,提交服务支持中心。(2)问题分析。服务中心接到用户提交的问题单,要组织相应人员对问题单中描述的问题进行分析研判,确定问题的类型(技术问题、业务问

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论