版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第页信息化系统安全运维服务方案三篇篇一:信息化系统安全运维服务方案1.1服务范围和服务内容本次服务范围为XX局信息化系统硬件及应用系统,各类软硬件均位于XX局第一办公区内,主要包括计算机终端、打印机、服务器、存储设备、网络(安全)设备以及应用系统。服务内容包括日常运维服务(驻场服务)、专业安全服务、主要硬件设备维保服务、主要应用软件系统维保服务、信息化建设咨询服务等。1.2服务目标保障软硬件的稳定性和可靠性;保障软硬件的安全性和可恢复性;故障的及时响应与修复;硬件设备的维修服务;人员的技术培训服务;信息化建设规划、方案制定等咨询服务。2系统现状2.1网络系统XX局计算机网络包括市电子政务外网(简称外网)、市电子政务内网(简称内网)以及全国政府系统电子政务专网(简称专网)三部分。内网、外网、专网所有硬件设备集中于XX局机房各个独立区域,互相物理隔离。外网与互联网逻辑隔离,主要为市人大建议提案网上办理、XX局政务公开等应用系统提供网络平台,为市领导及XX局各处室提供互联网服务。外网安全加固措施:WSUS服务器、瑞星杀毒软件服务器为各联网终端提供系统补丁分发和瑞星杀毒软件管理服务,建立IPS、防火墙等基本网络安全措施。内网与外网和互联网物理隔离,为XX局日常公文流转、公文处理等信息化系统提供基础网络平台。内网安全加固措施:WSUS服务器、瑞星杀毒软件服务器为各联网终端提供系统补丁分发和瑞星杀毒软件管理服务;配备防火墙实现内网中服务器区域间的逻辑隔离及安全区域间的访问控制,重点划分服务器区,实现相应的访问控制策略。专网由XX局电子政务办公室统一规划建设,专网和互联网、内网及其他非涉密网络严格物理隔离,目前主要提供政务信息上报服务和邮件服务。(内网结构图)(外网结构图)(专网结构图)2.2设备清单XX局各个计算机网络及应用系统硬件设备集中于XX局专用机房。清单如下:硬件设备汇总表设备类型设备型号数量备注服务器服务器合计39交换机42光纤交换机11交换机合计8防火墙5内外网各一台冷备安全审计1IPS1存储2111磁带库1虚拟带库1其他设备1机房监控系统使用支撑软件统计表类型版本数量数据库操作系统除上述设备外,维护内容还包括约XX台电脑终端(含笔记本电脑)和XX台打印机。2.3应用系统XX局日常公文流转、公文办理等日常工作均在基于内网的不同应用系统上得以实现。各系统使用的操作系统包括MS-WinServer和LINUX两大类,数据库包括Lotus、Access、MS-SQL等。主要应用系统清单如下:应用系统清单序号系统名称访问地址对于其中部分重要应用,描述如下:1、XX局办公资源网2、政府公文综合管理系统3、政府信息管理服务平台3服务方案3.1系统日常维护系统首要维护工作是信息化系统的日常维护,主要包括以下4个方面:3.1.1系统支撑软硬件的日常维护系统支撑软硬件主要包括PC服务器、存储、网络、安全设备及数据库软件、中间件等基础软硬件设施。3.1.1.1服务器维护服务器系统主要包括信息处目前在用的各类服务器:数据库服务器、应用服务器、WEB/网管/备份服务器、门户网站、防病毒服务器等。具体服务内容包括:服务器硬件状态检查服务器硬件安装与调整服务器设备事件管理服务要求运维团队根据服务器的情况制订相应的事件管理文档,由现场服务人员对服务器发生的事件进行记录、跟踪与分析,通过对事件的分析,及时发现服务器中存在的潜在问题,并进行解决或提出相应的解决方案。服务器性能监控要求运维团队每天由现场服务人员根据制定的性能监测模板对服务器的性能监控,监控的参数为服务器的CPU、memory、hdd、network,并根据各服务器的应用情况,分析出服务器性能的基本基准线。应用维护要求运维团队现场服务人员对这些应用进行定期的维护,对防病毒软件的防护状态与更新情况进行每天检查。服务器进程与服务检查服务器磁盘空间检查服务器系统漏洞修补系统配置与变更管理系统垃圾清理记录与报告服务器操作管理手册服务器事故管理文档服务器监控报告服务器设备标识,配置记录服务器故障处理报告服务器运维分析报告应用系统故障处理报告服务器系统配置记录垃圾信息清理记录3.1.1.2存储设备维护存储系统平台主要包括:SAN存储系统(接入SAN网络的服务器客户端、SAN交换机)、磁盘阵列、磁带库等的管理和维护工作。具体服务内容包括:存储设备配置管理服务备份作业检查SAN交换机日常状态检查维护存储设备事件管理服务备份及恢复策略制定备份介质管理备份软件维护备份数据恢复当系统出现异常数据丢失时,协同应用厂商,在信息处的授权下,要求运维团队现场服务人员对相应的备份数据进行数据恢复,以快速保证与恢复客户的应用。备份数据整理由于目前备份数据没有明确的管理制度,备份数据管理程无序化状态,对于备份数据的保存声明周期没有周密的限定计划,造成备份数据占用大量的存储空间,要求运维团队现场服务人员根据备份和存储数据的情况,提出数据整理频率计划,并信息处进行数据的整理。存储设备运行维护要求运维团队现场服务人员对存储设备硬件状态监控,问题及时处理。记录与报告存储设备操作管理手册设备检修报告故障处理报告存储设备运维分析报告数据备份操作管理手册数据备份记录存储系统配置记录存储系统空间调整记录备份策略调整更新记录3.1.1.3网络、安全设备维护网络、安全平台维护的目标是:通过网络、安全系统管理服务,降低网络设备故障率,提高网络设备的运行性能。提高XX局网络运行的稳定性、可靠性,以专业化运作模式解决XX局各类信息系统信息化发展的需求。需要提供故障诊断、远程支持、现场支持、软件升级、设备搬迁、网络优化、网络巡检、现场培训、技术交流、网络安全、网络建设建议等服务。具体服务内容如下:网络故障排查网络设备硬件状态检查网络流量监测安全策略配置及配置优化网络设备配置管理服务网络设备资料整理,配置参数整理网络使用状况趋势分析及建议3.1.1.4数据库系统维护数据库为SQL2000及SQL20XX,其维护服务内容主要包括:数据库实例状态检查数据库表空间使用情况监控查看数据库的连接情况表空间使用情况和性能检查数据库告警日志检查分析数据库备份检查3.1.1.5中间件维护中间件软件维护服务内容主要包括:数据维护数据备份系统日常维护中间件升级而对应用软件进行适应性更新与调测服务中间件维护操作手册及应急流程更新3.1.2应用系统的日常维护维护要求为:通过对应用系统的维护,分析用户的不断更新的需求,分析应用系统对服务平台性能的要求,提出系统优化扩容解决方案,保障应用系统的处理服务性能。主要维护内容包括:业务数据维护;业务数据备份;业务系统日常维护;软件更新服务;对业务管理系统健康状态检查与分析报告;对系统用户信息进行维护和修改,添加系统用户、更改系统用户信息、权限,负责系统中管理人员、操作人员、监督人员名单的调整,以及数据同步。3.1.3终端设备的日常维护3.1.3.1电脑终端运维服务主要包括XX局工作人员的台式电脑、笔记本电脑等,共计约XX台。具体维护内容为:操作系统安装维护及补丁安装对终端用户的计算机的操作系统的安装与维护请求进行响应;(操作系统安装介质由信息处提供)对终端用户的计算机的操作系统的补丁安装;在重装前协助终端用户进行计算机数据的备份。终端防病毒软件安装及升级对终端计算机的防病毒软件故障进行现场处理与解决;对其他用户的防病毒软件进行电话技术支持与问题解决。终端网络接入调整对终端计算机的网络连接的调整(不包括布线)。终端事件检查及排查对终端计算机的安全事件进行故障定位与排查;对终端计算机的故障事件进行故障定位与排查。通用办公软件安装提供对终端计算机的通用软件的安装;(通用软件包括office等办公软件,安装介质由信息处提供)提供对终端计算机的客户需求软件的安装。(软件由用户提供)计算机使用规范制定计算机的使用规范,使用规范主要包括计算机的使用注意事项、U盘的使用注意事项、计算机使用的一些小常识等,该规范主要是帮助用户了解计算机的使用常识与技巧,减少故障的发生频率。该规范可做成相应的贴示张贴在终端用户计算机的显示器或机箱上。计算机安装操作规范计算机安装规范主要是对终端用户的计算机安装过程进行规范,规定相应的文件备份地点、分区大小、补丁安装、安全加固、软件安装等方面。通过制定相应的计算机安装操作规范,以规范与保证服务人员在服务过程中的服务质量。记录与报告计算机使用规范(贴示);计算机安装操作规范;服务确认单;电话支持记录单;故障处理报告。3.1.3.23.1.3.3网络信息点位维护(1)根据信息点的编号,分别将编号的单数和双数规划为网络信息接口和语音接口,并统一建立信息点数据。通过对XX局的调研和了解,对各办公室的信息点作出适当调整和数据的修改。(2)各处室接入期间,做好配合工作,包括楼层交换机调试、桌面跳线等。(3)要求运维团队现场服务人员做好定期对网络信息点、配线架、理线架、终端模块的巡检工作。3.1.4维护制度建设制度是一种必须共同遵守的行为规范,是保证工作有序开展和任务圆满完成的基础。建立和健全XX局信息化设施运行维护的各项管理制度,对于维护工作的顺利完成是必需的。要求运维团队依据以下标准,协助XX局建立规范、科学、实用的维护制度。(1)《电子信息系统机房设计规范》(GB50174-20XX)(2)《综合布线设计规范》GB50311-20XX(3)《中华人民共和国消防法》(4)《电力供电标准与内部控制管理制度全集》(5)《成都市电子政务外网使用管理规定》(6)ISO/IEC9001:20XX质量管理体系(7)ISO/IEC20000:20XXIT服务管理体系(8)ITIL(InformationTechnologyInfrastructureLibrary)2.0IT基础架构库终端设备的日常维护(9)ITSS(InformationTechnologyServiceStandards)信息技术服务标准3.2信息系统安全服务风险评估和安全加固工作贯穿于信息系统的整个生命周期的各阶段中。在运行维护阶段,要不断地实施风险评估以识别系统面临的不断变化的风险和脆弱性,并通过安全加固进行有效的安全措施干预,确保安全目标得以实现。3.2.1风险评估风险评估的目的是了解和控制运行过程中的信息系统安全风险,运维阶段的风险评估是一种较为全面的风险评估。评估内容包括对真实运行的信息系统、资产、威胁、脆弱性等各方面。(1)资产评估:对真实环境下较为细致的评估,包括实施阶段采购的软硬件资产、系统运行过程中生成的信息资产、相关的人员与服务等。本阶段资产识别是前期资产识别的补充与增加;(2)威胁评估:真实环境中的威胁分析,应全面地评估威胁的可能性和影响程度。对非故意威胁产生安全事件的评估可以参照事故发生率;对故意威胁主要由评估人员就威胁的各个影响因素做出专业判断;同时考虑已有控制措施;(3)脆弱性评估:全面的脆弱性评估。包括运行环境下物理、网络、系统、应用、安全保障设备、管理的脆弱性。对于技术的脆弱性评估采取核查、扫描、案例验证、渗透性测试的方式验证脆弱性;对安全保障设备脆弱性评估时考虑安全功能的实现情况和安全措施本身的脆弱性。对于管理脆弱性采取文档、记录核查进行验证;(4)风险计算:根据相关标准,对主要资产的风险进行定性或定量的风险分析,描述不同资产的风险高低状况。3.2.2安全加固安全加固是指对在风险评估中发现的系统安全风险进行处理,按照级别不同,应该在相应时间内完成。安全加固的内容主要包括:(1)日常安全加固工作,主要是根据风险评估结果进行系统安全调优服务,根据系统运行需要适时调整各类设备及系统配置、合理规划系统资源、消除系统漏洞,提高系统稳定性和可靠性;(2)主动安全加固,在未出现安全事故之前就对已经通报或者暴露出来的软件漏洞或最新病毒库更新,就主动进计划的升级和改进,从而避免出现安全事故。具体加固内容包括但不限于:帐户策略、帐户锁定策略、审核策略、NTFS、用户权限分配、系统服务策略、补丁管理、事件日志、应用软件的更新等。3.2.3应急响应应急状态的安全值守、响应工作,主要是系统应急响应、重大安全故障处理,确保系统出现安全事件时快速反应、及时处理,降低系统安全问题对XX局内工作的影响。3.2.4安全巡检安全巡检主要是指深入现场,了解情况:质检服务内容中的各类安全设备,了解安全设备运行情况,仔细观察各个安全节点的可靠性,并综合安全巡检情况,定制安全策略。3.2.5安全监控对服务内容进行监控,在安全环境产生变化时,及时更新安全策略,在现有设备和网络情况有改变的时候,快速制定,针对更新后设备环境的安全策略,并实施部署。避免因设备变更而带来的安全风险。3.2.7安全通告定期安全通告,在互联网上出现新型病毒或者新出现漏洞并且部分修补的情况下,制作安全通告及时告知相关运维人员,增强对于新型病毒和漏洞的防御力。3.3系统设备维修及保养服务针对本项目中的系统硬件设备,除在4.1.1中提供的日常运维服务外,要求运维团队提供设备的维修及保养服务。主要包括:当硬件设备出现故障时,硬件设备故障部件的现场替换工作或对返修工作,具体如下:故障设备名称现场替换返修备注内存条是硬盘是CPU是视现场情况,可提供现场更换主板是电源模块是是有冗余电源的,返修后更换;无冗余电源现场更换。网卡是散热模块是散热模块都有冗余,可在返修后进行更换其他设备是其他非常规设备,只能原厂返修非故障时期对系统硬件设备的定期现场巡检、功能性能测试等日常保养工作,具体如下:电源是否稳定;散热是否正常;检查服务器指示灯是否有故障灯亮起;定期用测试软件对服务器CPU性能进行压力测试,并给予打分;定期用测试软件对服务器内存读取速度进行测试,并给予打分;定期用测试软件对服务器硬盘I/O能力进行测试,并给予打分;检查出故障的按第一条进行相应处理,无故障但是在性能测试中分数较低者,提出相应更换或者维修建议。要求运维团队每年定期对服务器进行一次除尘工作,既提高服务器的散热能力,也可避免由于微尘造成的服务器线路不通、性能降低或短路等危险。3.4软件系统升级及维保服务针对本项目中的防病毒软件、公文综合管理及会议管理系统、智能文件交换系统三个较为重要的应用,除在4.1.2中提供的日常运维服务外,要求运维团队提供系统的原厂升级及维保服务。主要包括:(1)防病毒软件的原厂升级服务,保证杀毒引擎和病毒库随时更新;(2)公文综合管理及会议管理系统的业务流程调整、简单功能调整等小开发量维保服务;(3)智能文件交换系统所包含的专用设备(文件柜、锁等)的维保服务。4服务要求在本服务项目中,运维团队应明确自己的责任和义务,在充分了解项目所述各个系统现有环境的基础上,提供规范化、高质量的服务,并对服务质量做出可量化的承诺。4.1基本要求4.1.1日常运维服务针对XX局的不定时工作日制度,为客户提供系统级的日常维护、定期巡检、性能测试、故障排查等服务。具体内容包括:4.1.1.1工作日服务主要指现场值守服务,维护团队需要指派3名资深服务技术服务工程师长期值守在XX局现场,负责对现场设备运行状态进行监视、管理和维护以及工作终端的管理和维护,通过对系统运行日志的分析提前发现并排除可能发生的潜在故障,并在全部维护服务团队支持下,在1小时内排除普通故障,2小时内排除较大故障,4小时内排除重大故障,24小时内排除特大故障。维护期内提供技术人员进行现场监控服务。4.1.1.2故障响应服务除了现场值守服务方式外,同时,提供7×24小时故障响应服务具体包括:维护期内提供电话、传真、电子邮件等方式的咨询和支持服务。主要系统设备出现故障时,15分钟内响应,当现场维护工程师或节假日值班维护工程师无法排除故障时,1小时内中心派专业工程师赶赴现场进行故障诊断及处理,在1小时内排除普通故障,2小时内排除较大故障,4小时内排除重大故障,24小时内排除特大故障。一般故障,正常工作日内响应。4.1.2其他时间及夜间服务当系统在非工作日出现异常时,维护团队现场人员将在1小时内赶赴现场并排除系统普通故障,特大故障将在24小时内处理完毕。具体联系方式包括:通过维护团队提供的7×24小时响应服务热线;现场维护人员通过移动通信网络(当运维管理系统具备短信故障报警通知功能时)接收到系统报警信息;或维护人员接到服务请求电话时。4.1.3临时保障服务当遇到重大活动需要提供临时保障服务时,维护团队须在需要保障服务的前三天进驻现场,并对所有设备进行临时性安全检查,排除安全隐患,以做到万无一失。4.1.4月度检查每月对各系统及设备进行检查,进行安全系统、防病毒系统检查,进行漏洞扫描,并对检查中存在的故障及安全隐患进行处理。每月第一周向用户单位提交上月的《月度巡检报告》,报请用户单位审批签署。4.1.5季度检查每季度对由维护团队的专业维护队伍对所有设备进行安全评估和风险分析,提交完整的安全状况评估报告,分析存在的安全漏洞情况,提出《整改方案和建议》。4.1.6年度检查每年由维护团队组织相关的专家(含硬件和软件)对整个系统进行安全检查,对每个硬件设备使用状态进行风险评估,并对下一年可能存在的问题进行风险预测,对每个设备的状态出具使用报告。4.2服务队伍要求要求维护团队拥有强大的技术支持力量,拥有稳定的专业化的技术支持服务队伍,完善的技术支持服务体系。现场服务人员负责网络的监控、简单故障的解决,接听技术热线。现场服务人员按照计划对现场工作终端、楼层设备、机房及机房设备等进行例行巡检。技术专家负责重大故障的处理,定期对运行情况进行分析,并提出整改或优化方案和建议。4.3服务流程要求4.3.1主动式服务(1)定期预防性维护服务维护团队根据系统维护服务计划或用户要求为用户提供定期预防性维护服务。此类服务是有计划有步骤进行的,目的是为了提高系统的可使用率和高可靠性,把系统故障的可能性降低到最低。在硬件维护方面,要求维护团队工程师每两周进行一次现场例行检查,为用户维护硬件设备,并为用户替换那些虽然能够工作但不是很正常的部件,以避免系统崩溃的情况发生,防患于未然。在系统服务方面,投标方应指定预防性服务级别,安装预防性PTF软件(补丁软件)检测系统运行状况,解决系统软件问题,使用户的系统保持良好的运行状况。(2)系统运行健康检查维护团队应提供一月一次的系统运行健康检查,按计划由专家定期对主机系统性能进行诊断,根据结果出具性能诊断报告,并征得用户同意后调整系统参数,使系统始终在最佳状态下运行。对可能出现的问题提供科学预测,并采取必要的预防和补救措施,防患于未然。(3)系统运行状况分析每季一次对系统的运行状况分析。提供本项目系统设备和PC服务器设备运行状态和性能的分析、评估服务,以提高系统的可靠性、可用性和整体性能。每年一次向用户提交详细的系统可用性、安全性、运行状况分析等预防性维护策略、报告和总结。4.3.2纠错性维护/维修服务维护团队应提供电话技术支持服务或到场维修服务。在部件服务方面,维护团队应及时确认故障原因,并更换故障部件,恢复系统正常运行。解决系统软件问题,恢复系统软件正常运行,作系统备份,递交系统检查报告等。4.4服务响应要求4.4.1日常服务响应时间由于针对本项目采用的驻留现场服务方式,维护团队需指派驻3名资深工程师采取同步的作息时间,因此,现场服务的响应时间为及时响应。4.4.2事故分级响应服务时间各级故障事件的最晚响应时间为:确认时间一级故障事件二级故障事件三级故障事件四级故障事件1小时技术服务人员4小时专业工程师技术服务人员24小时技术支持专家专业工程师技术服务人员48小时服务项目经理服务项目经理专业工程师技术服务人员故障事件等级划分如下:一级故障事件:现有的网络或系统停机,或遭到严重攻击行为或安全事件,对信息系统的业务运作有重大影响;二级故障事件:现有网络或系统的操作性能严重降级,或由于网络性能失常或安全事件严重影响信息系统用户业务运作;三级故障事件:网络或系统的操作性能受损,安全事件(例如病毒在小范围内发作),但大部分业务运作仍可正常工作;四级故障事件:在网络、服务器、存储、安全设备功能、安装或配置方面需要调整或优化。本级故障事件对信息系统的业务运作几乎无影响,或影响很小。依据事故重要性和紧急性的原则,每一级事故严格定义升级时间为2小时,其中在二级事故和一级事故应急处理过程中,要及时考虑替代恢复方案,尽可能在最短的时间内恢复业务系统。其中三级事故的处理,驻场服务人员在事故响应1个小时内,如果不能快速判断问题所在,可以寻求整个服务团队的支持。在一、二级事故判断中,服务人员在监控中发现问题,一方面应迅速将问题向部门领导进行反应,一方面须快速判断问题和收集事故信息,涉及到具体产品提供商或服务商内,及时告知客户协调相关厂商现场支持。为保障业务平台的正常运行,除对突发故障的应急支持外,要充分保障日常对业务系统软硬件的应急灾备恢复预案,并通过定期的演练加强应对突发事故的意识和流程。4.5服务报告要求维护团队定期提供服务报告,服务期结束前应提供服务年报,并对每一次重大故障和问题的原因、解决方法、完成情况等形成专门报告,及时报送用户部门和服务管理部门。在运维服务过程中将产生不限于以下的记录和报告:日常维护报告系统巡检日志系统维护记录系统优化记录各类优化的管理制度故障分析处理记录故障整改方案和建议交接班登记表重大故障记录报告4.6运维保障资源库建设要求在运维工作开展前期,把有助于用户运维的相关资料进行收集整理,以确保在实际运维过程中不会由于缺少沟通或者遗漏部分环节导致的问题处理延迟,具体保障资源如下:机房设备相关资料收集:整理各设备相关管理人员联系方式、设备物理位置等,书面文档与电子文档相结合,以确保出现设备故障或需要远程支持时能在第一时间联系到具体负责人,及早完成设备故障处理工作。设备操作文档收集:整理设备有关的操作文档,并整理成册,书面文档与电子文档相结合,辅助工程师处理相关问题。设备配置库整理汇总:整理所有设备原始配置资料,整理入库,且在修改设备配置后及时对录入的数据进行更新,以确保设备配置的准确性及安全性。运维知识库的建立和维护:收集维护过程中出现的各类资料,进行分类整理入库,为维护工作提供知识库。4.7项目管理要求维护团队应派遣一名具有专业知识的资深管理人员负责本项目的项目管理,统筹相关工作,项目监督与情况汇报,控制工作质量和预算,执行变更和应急情况管理,并根据实际状况调整服务方人员安排,以保证此项目的正常高效运作。4.8质量管理要求维护团队应根据本项目要求提出服务质量管理及监控具体措施,并对所提供的服务质量和标准做出明确可量化的承诺。4.9技术交流及培训维护团队应提供必须的服务技能培训,并对相关技术问题进行充分交流,以提高用户技术水平,使用户能熟练使用现有系统。培训包括不定期或面对面培训,并提供对部分用户简单故障排除方法培训。5经费预算项目预算金额为xx万元。序号项目内容描述小计(万元)备注日常维护机房管理:服务器、存储、网络、安全设备及数据库软件、中间件等基础支撑软硬件设施运行监测、定期检查、故障处理、系统备份;应用系统:终端设备:管理制度:制定运维技术管理、运行管理、备品备件管理、服务质量考核等相关制度,建立规范化标准化的运维体系。专业网络安全服务网络安全运行监控,记录、监控相关安全事件;专业技术服务工程师2人定期驻场服务,4万/人·年。系统安全巡检服务,系统安全调优服务,应急响应、重大安全故障处理主要硬件设备维保服务服务器维修保养,包括服务器的电源模块、主板、硬盘、内存、网卡等部件的维保;主要软件系统维保服务小计
篇二:XX局信息化系统运维服务方案1概述1.1服务范围和服务内容本次服务范围为XX局信息化系统硬件及应用系统,各类软硬件均位于XX局第一办公区内,主要包括计算机终端、打印机、服务器、存储设备、网络(安全)设备以及应用系统。服务内容包括日常运维服务(驻场服务)、专业安全服务、主要硬件设备维保服务、主要应用软件系统维保服务、信息化建设咨询服务等。1.2服务目标保障软硬件的稳定性和可靠性;保障软硬件的安全性和可恢复性;故障的及时响应与修复;硬件设备的维修服务;人员的技术培训服务;信息化建设规划、方案制定等咨询服务。2系统现状2.1网络系统XX局计算机网络包括市电子政务外网(简称外网)、市电子政务内网(简称内网)以及全国政府系统电子政务专网(简称专网)三部分。内网、外网、专网所有硬件设备集中于XX局机房各个独立区域,互相物理隔离。外网与互联网逻辑隔离,主要为市人大建议提案网上办理、XX局政务公开等应用系统提供网络平台,为市领导及XX局各处室提供互联网服务。外网安全加固措施:WSUS服务器、瑞星杀毒软件服务器为各联网终端提供系统补丁分发和瑞星杀毒软件管理服务,建立IPS、防火墙等基本网络安全措施。内网与外网和互联网物理隔离,为XX局日常公文流转、公文处理等信息化系统提供基础网络平台。内网安全加固措施:WSUS服务器、瑞星杀毒软件服务器为各联网终端提供系统补丁分发和瑞星杀毒软件管理服务;配备防火墙实现内网中服务器区域间的逻辑隔离及安全区域间的访问控制,重点划分服务器区,实现相应的访问控制策略。专网由XX局电子政务办公室统一规划建设,专网和互联网、内网及其他非涉密网络严格物理隔离,目前主要提供政务信息上报服务和邮件服务。(内网结构图)(外网结构图)(专网结构图)2.2设备清单XX局各个计算机网络及应用系统硬件设备集中于XX局专用机房。清单如下:硬件设备汇总表设备类型设备型号数量备注服务器服务器合计39交换机42光纤交换机11交换机合计8防火墙5内外网各一台冷备安全审计1IPS1存储2111磁带库1虚拟带库1其他设备1机房监控系统使用支撑软件统计表类型版本数量数据库操作系统除上述设备外,维护内容还包括约XX台电脑终端(含笔记本电脑)和XX台打印机。2.3应用系统XX局日常公文流转、公文办理等日常工作均在基于内网的不同应用系统上得以实现。各系统使用的操作系统包括MS-WinServer和LINUX两大类,数据库包括Lotus、Access、MS-SQL等。主要应用系统清单如下:应用系统清单序号系统名称访问地址对于其中部分重要应用,描述如下:1、XX局办公资源网2、政府公文综合管理系统3、政府信息管理服务平台3服务方案3.1系统日常维护系统首要维护工作是信息化系统的日常维护,主要包括以下4个方面:3.1.1系统支撑软硬件的日常维护系统支撑软硬件主要包括PC服务器、存储、网络、安全设备及数据库软件、中间件等基础软硬件设施。3.1.1.1服务器维护服务器系统主要包括信息处目前在用的各类服务器:数据库服务器、应用服务器、WEB/网管/备份服务器、门户网站、防病毒服务器等。具体服务内容包括:服务器硬件状态检查服务器硬件安装与调整服务器设备事件管理服务要求运维团队根据服务器的情况制订相应的事件管理文档,由现场服务人员对服务器发生的事件进行记录、跟踪与分析,通过对事件的分析,及时发现服务器中存在的潜在问题,并进行解决或提出相应的解决方案。服务器性能监控要求运维团队每天由现场服务人员根据制定的性能监测模板对服务器的性能监控,监控的参数为服务器的CPU、memory、hdd、network,并根据各服务器的应用情况,分析出服务器性能的基本基准线。应用维护要求运维团队现场服务人员对这些应用进行定期的维护,对防病毒软件的防护状态与更新情况进行每天检查。服务器进程与服务检查服务器磁盘空间检查服务器系统漏洞修补系统配置与变更管理系统垃圾清理记录与报告服务器操作管理手册服务器事故管理文档服务器监控报告服务器设备标识,配置记录服务器故障处理报告服务器运维分析报告应用系统故障处理报告服务器系统配置记录垃圾信息清理记录3.1.1.2存储设备维护存储系统平台主要包括:SAN存储系统(接入SAN网络的服务器客户端、SAN交换机)、磁盘阵列、磁带库等的管理和维护工作。具体服务内容包括:存储设备配置管理服务备份作业检查SAN交换机日常状态检查维护存储设备事件管理服务备份及恢复策略制定备份介质管理备份软件维护备份数据恢复当系统出现异常数据丢失时,协同应用厂商,在信息处的授权下,要求运维团队现场服务人员对相应的备份数据进行数据恢复,以快速保证与恢复客户的应用。备份数据整理由于目前备份数据没有明确的管理制度,备份数据管理程无序化状态,对于备份数据的保存声明周期没有周密的限定计划,造成备份数据占用大量的存储空间,要求运维团队现场服务人员根据备份和存储数据的情况,提出数据整理频率计划,并信息处进行数据的整理。存储设备运行维护要求运维团队现场服务人员对存储设备硬件状态监控,问题及时处理。记录与报告存储设备操作管理手册设备检修报告故障处理报告存储设备运维分析报告数据备份操作管理手册数据备份记录存储系统配置记录存储系统空间调整记录备份策略调整更新记录3.1.1.3网络、安全设备维护网络、安全平台维护的目标是:通过网络、安全系统管理服务,降低网络设备故障率,提高网络设备的运行性能。提高XX局网络运行的稳定性、可靠性,以专业化运作模式解决XX局各类信息系统信息化发展的需求。需要提供故障诊断、远程支持、现场支持、软件升级、设备搬迁、网络优化、网络巡检、现场培训、技术交流、网络安全、网络建设建议等服务。具体服务内容如下:网络故障排查网络设备硬件状态检查网络流量监测安全策略配置及配置优化网络设备配置管理服务网络设备资料整理,配置参数整理网络使用状况趋势分析及建议3.1.1.4数据库系统维护数据库为SQL2000及SQL20XX,其维护服务内容主要包括:数据库实例状态检查数据库表空间使用情况监控查看数据库的连接情况表空间使用情况和性能检查数据库告警日志检查分析数据库备份检查3.1.1.5中间件维护中间件软件维护服务内容主要包括:数据维护数据备份系统日常维护中间件升级而对应用软件进行适应性更新与调测服务中间件维护操作手册及应急流程更新3.1.2应用系统的日常维护维护要求为:通过对应用系统的维护,分析用户的不断更新的需求,分析应用系统对服务平台性能的要求,提出系统优化扩容解决方案,保障应用系统的处理服务性能。主要维护内容包括:业务数据维护;业务数据备份;业务系统日常维护;软件更新服务;对业务管理系统健康状态检查与分析报告;对系统用户信息进行维护和修改,添加系统用户、更改系统用户信息、权限,负责系统中管理人员、操作人员、监督人员名单的调整,以及数据同步。3.1.3终端设备的日常维护3.1.3.1电脑终端运维服务主要包括XX局工作人员的台式电脑、笔记本电脑等,共计约XX台。具体维护内容为:操作系统安装维护及补丁安装对终端用户的计算机的操作系统的安装与维护请求进行响应;(操作系统安装介质由信息处提供)对终端用户的计算机的操作系统的补丁安装;在重装前协助终端用户进行计算机数据的备份。终端防病毒软件安装及升级对终端计算机的防病毒软件故障进行现场处理与解决;对其他用户的防病毒软件进行电话技术支持与问题解决。终端网络接入调整对终端计算机的网络连接的调整(不包括布线)。终端事件检查及排查对终端计算机的安全事件进行故障定位与排查;对终端计算机的故障事件进行故障定位与排查。通用办公软件安装提供对终端计算机的通用软件的安装;(通用软件包括office等办公软件,安装介质由信息处提供)提供对终端计算机的客户需求软件的安装。(软件由用户提供)计算机使用规范制定计算机的使用规范,使用规范主要包括计算机的使用注意事项、U盘的使用注意事项、计算机使用的一些小常识等,该规范主要是帮助用户了解计算机的使用常识与技巧,减少故障的发生频率。该规范可做成相应的贴示张贴在终端用户计算机的显示器或机箱上。计算机安装操作规范计算机安装规范主要是对终端用户的计算机安装过程进行规范,规定相应的文件备份地点、分区大小、补丁安装、安全加固、软件安装等方面。通过制定相应的计算机安装操作规范,以规范与保证服务人员在服务过程中的服务质量。记录与报告计算机使用规范(贴示);计算机安装操作规范;服务确认单;电话支持记录单;故障处理报告。3.1.3.23.1.3.3网络信息点位维护(1)根据信息点的编号,分别将编号的单数和双数规划为网络信息接口和语音接口,并统一建立信息点数据。通过对XX局的调研和了解,对各办公室的信息点作出适当调整和数据的修改。(2)各处室接入期间,做好配合工作,包括楼层交换机调试、桌面跳线等。(3)要求运维团队现场服务人员做好定期对网络信息点、配线架、理线架、终端模块的巡检工作。3.1.4维护制度建设制度是一种必须共同遵守的行为规范,是保证工作有序开展和任务圆满完成的基础。建立和健全XX局信息化设施运行维护的各项管理制度,对于维护工作的顺利完成是必需的。要求运维团队依据以下标准,协助XX局建立规范、科学、实用的维护制度。(1)《电子信息系统机房设计规范》(GB50174-20XX)(2)《综合布线设计规范》GB50311-20XX(3)《中华人民共和国消防法》(4)《电力供电标准与内部控制管理制度全集》(5)《成都市电子政务外网使用管理规定》(6)ISO/IEC9001:20XX质量管理体系(7)ISO/IEC20000:20XXIT服务管理体系(8)ITIL(InformationTechnologyInfrastructureLibrary)2.0IT基础架构库终端设备的日常维护(9)ITSS(InformationTechnologyServiceStandards)信息技术服务标准3.2信息系统安全服务风险评估和安全加固工作贯穿于信息系统的整个生命周期的各阶段中。在运行维护阶段,要不断地实施风险评估以识别系统面临的不断变化的风险和脆弱性,并通过安全加固进行有效的安全措施干预,确保安全目标得以实现。3.2.1风险评估风险评估的目的是了解和控制运行过程中的信息系统安全风险,运维阶段的风险评估是一种较为全面的风险评估。评估内容包括对真实运行的信息系统、资产、威胁、脆弱性等各方面。(1)资产评估:对真实环境下较为细致的评估,包括实施阶段采购的软硬件资产、系统运行过程中生成的信息资产、相关的人员与服务等。本阶段资产识别是前期资产识别的补充与增加;(2)威胁评估:真实环境中的威胁分析,应全面地评估威胁的可能性和影响程度。对非故意威胁产生安全事件的评估可以参照事故发生率;对故意威胁主要由评估人员就威胁的各个影响因素做出专业判断;同时考虑已有控制措施;(3)脆弱性评估:全面的脆弱性评估。包括运行环境下物理、网络、系统、应用、安全保障设备、管理的脆弱性。对于技术的脆弱性评估采取核查、扫描、案例验证、渗透性测试的方式验证脆弱性;对安全保障设备脆弱性评估时考虑安全功能的实现情况和安全措施本身的脆弱性。对于管理脆弱性采取文档、记录核查进行验证;(4)风险计算:根据相关标准,对主要资产的风险进行定性或定量的风险分析,描述不同资产的风险高低状况。3.2.2安全加固安全加固是指对在风险评估中发现的系统安全风险进行处理,按照级别不同,应该在相应时间内完成。安全加固的内容主要包括:(1)日常安全加固工作,主要是根据风险评估结果进行系统安全调优服务,根据系统运行需要适时调整各类设备及系统配置、合理规划系统资源、消除系统漏洞,提高系统稳定性和可靠性;(2)主动安全加固,在未出现安全事故之前就对已经通报或者暴露出来的软件漏洞或最新病毒库更新,就主动进计划的升级和改进,从而避免出现安全事故。具体加固内容包括但不限于:帐户策略、帐户锁定策略、审核策略、NTFS、用户权限分配、系统服务策略、补丁管理、事件日志、应用软件的更新等。3.2.3应急响应应急状态的安全值守、响应工作,主要是系统应急响应、重大安全故障处理,确保系统出现安全事件时快速反应、及时处理,降低系统安全问题对XX局内工作的影响。3.2.4安全巡检安全巡检主要是指深入现场,了解情况:质检服务内容中的各类安全设备,了解安全设备运行情况,仔细观察各个安全节点的可靠性,并综合安全巡检情况,定制安全策略。3.2.5安全监控对服务内容进行监控,在安全环境产生变化时,及时更新安全策略,在现有设备和网络情况有改变的时候,快速制定,针对更新后设备环境的安全策略,并实施部署。避免因设备变更而带来的安全风险。3.2.7安全通告定期安全通告,在互联网上出现新型病毒或者新出现漏洞并且部分修补的情况下,制作安全通告及时告知相关运维人员,增强对于新型病毒和漏洞的防御力。3.3系统设备维修及保养服务针对本项目中的系统硬件设备,除在4.1.1中提供的日常运维服务外,要求运维团队提供设备的维修及保养服务。主要包括:当硬件设备出现故障时,硬件设备故障部件的现场替换工作或对返修工作,具体如下:故障设备名称现场替换返修备注内存条是硬盘是CPU是视现场情况,可提供现场更换主板是电源模块是是有冗余电源的,返修后更换;无冗余电源现场更换。网卡是散热模块是散热模块都有冗余,可在返修后进行更换其他设备是其他非常规设备,只能原厂返修非故障时期对系统硬件设备的定期现场巡检、功能性能测试等日常保养工作,具体如下:电源是否稳定;散热是否正常;检查服务器指示灯是否有故障灯亮起;定期用测试软件对服务器CPU性能进行压力测试,并给予打分;定期用测试软件对服务器内存读取速度进行测试,并给予打分;定期用测试软件对服务器硬盘I/O能力进行测试,并给予打分;检查出故障的按第一条进行相应处理,无故障但是在性能测试中分数较低者,提出相应更换或者维修建议。要求运维团队每年定期对服务器进行一次除尘工作,既提高服务器的散热能力,也可避免由于微尘造成的服务器线路不通、性能降低或短路等危险。3.4软件系统升级及维保服务针对本项目中的防病毒软件、公文综合管理及会议管理系统、智能文件交换系统三个较为重要的应用,除在4.1.2中提供的日常运维服务外,要求运维团队提供系统的原厂升级及维保服务。主要包括:(1)防病毒软件的原厂升级服务,保证杀毒引擎和病毒库随时更新;(2)公文综合管理及会议管理系统的业务流程调整、简单功能调整等小开发量维保服务;(3)智能文件交换系统所包含的专用设备(文件柜、锁等)的维保服务。4服务要求在本服务项目中,运维团队应明确自己的责任和义务,在充分了解项目所述各个系统现有环境的基础上,提供规范化、高质量的服务,并对服务质量做出可量化的承诺。4.1基本要求4.1.1日常运维服务针对XX局的不定时工作日制度,为客户提供系统级的日常维护、定期巡检、性能测试、故障排查等服务。具体内容包括:4.1.1.1工作日服务主要指现场值守服务,维护团队需要指派3名资深服务技术服务工程师长期值守在XX局现场,负责对现场设备运行状态进行监视、管理和维护以及工作终端的管理和维护,通过对系统运行日志的分析提前发现并排除可能发生的潜在故障,并在全部维护服务团队支持下,在1小时内排除普通故障,2小时内排除较大故障,4小时内排除重大故障,24小时内排除特大故障。维护期内提供技术人员进行现场监控服务。4.1.1.2故障响应服务除了现场值守服务方式外,同时,提供7×24小时故障响应服务具体包括:维护期内提供电话、传真、电子邮件等方式的咨询和支持服务。主要系统设备出现故障时,15分钟内响应,当现场维护工程师或节假日值班维护工程师无法排除故障时,1小时内中心派专业工程师赶赴现场进行故障诊断及处理,在1小时内排除普通故障,2小时内排除较大故障,4小时内排除重大故障,24小时内排除特大故障。一般故障,正常工作日内响应。4.1.2其他时间及夜间服务当系统在非工作日出现异常时,维护团队现场人员将在1小时内赶赴现场并排除系统普通故障,特大故障将在24小时内处理完毕。具体联系方式包括:通过维护团队提供的7×24小时响应服务热线;现场维护人员通过移动通信网络(当运维管理系统具备短信故障报警通知功能时)接收到系统报警信息;或维护人员接到服务请求电话时。4.1.3临时保障服务当遇到重大活动需要提供临时保障服务时,维护团队须在需要保障服务的前三天进驻现场,并对所有设备进行临时性安全检查,排除安全隐患,以做到万无一失。4.1.4月度检查每月对各系统及设备进行检查,进行安全系统、防病毒系统检查,进行漏洞扫描,并对检查中存在的故障及安全隐患进行处理。每月第一周向用户单位提交上月的《月度巡检报告》,报请用户单位审批签署。4.1.5季度检查每季度对由维护团队的专业维护队伍对所有设备进行安全评估和风险分析,提交完整的安全状况评估报告,分析存在的安全漏洞情况,提出《整改方案和建议》。4.1.6年度检查每年由维护团队组织相关的专家(含硬件和软件)对整个系统进行安全检查,对每个硬件设备使用状态进行风险评估,并对下一年可能存在的问题进行风险预测,对每个设备的状态出具使用报告。4.2服务队伍要求要求维护团队拥有强大的技术支持力量,拥有稳定的专业化的技术支持服务队伍,完善的技术支持服务体系。现场服务人员负责网络的监控、简单故障的解决,接听技术热线。现场服务人员按照计划对现场工作终端、楼层设备、机房及机房设备等进行例行巡检。技术专家负责重大故障的处理,定期对运行情况进行分析,并提出整改或优化方案和建议。4.3服务流程要求4.3.1主动式服务(1)定期预防性维护服务维护团队根据系统维护服务计划或用户要求为用户提供定期预防性维护服务。此类服务是有计划有步骤进行的,目的是为了提高系统的可使用率和高可靠性,把系统故障的可能性降低到最低。在硬件维护方面,要求维护团队工程师每两周进行一次现场例行检查,为用户维护硬件设备,并为用户替换那些虽然能够工作但不是很正常的部件,以避免系统崩溃的情况发生,防患于未然。在系统服务方面,投标方应指定预防性服务级别,安装预防性PTF软件(补丁软件)检测系统运行状况,解决系统软件问题,使用户的系统保持良好的运行状况。(2)系统运行健康检查维护团队应提供一月一次的系统运行健康检查,按计划由专家定期对主机系统性能进行诊断,根据结果出具性能诊断报告,并征得用户同意后调整系统参数,使系统始终在最佳状态下运行。对可能出现的问题提供科学预测,并采取必要的预防和补救措施,防患于未然。(3)系统运行状况分析每季一次对系统的运行状况分析。提供本项目系统设备和PC服务器设备运行状态和性能的分析、评估服务,以提高系统的可靠性、可用性和整体性能。每年一次向用户提交详细的系统可用性、安全性、运行状况分析等预防性维护策略、报告和总结。4.3.2纠错性维护/维修服务维护团队应提供电话技术支持服务或到场维修服务。在部件服务方面,维护团队应及时确认故障原因,并更换故障部件,恢复系统正常运行。解决系统软件问题,恢复系统软件正常运行,作系统备份,递交系统检查报告等。4.4服务响应要求4.4.1日常服务响应时间由于针对本项目采用的驻留现场服务方式,维护团队需指派驻3名资深工程师采取同步的作息时间,因此,现场服务的响应时间为及时响应。4.4.2事故分级响应服务时间各级故障事件的最晚响应时间为:确认时间一级故障事件二级故障事件三级故障事件四级故障事件1小时技术服务人员4小时专业工程师技术服务人员24小时技术支持专家专业工程师技术服务人员48小时服务项目经理服务项目经理专业工程师技术服务人员故障事件等级划分如下:一级故障事件:现有的网络或系统停机,或遭到严重攻击行为或安全事件,对信息系统的业务运作有重大影响;二级故障事件:现有网络或系统的操作性能严重降级,或由于网络性能失常或安全事件严重影响信息系统用户业务运作;三级故障事件:网络或系统的操作性能受损,安全事件(例如病毒在小范围内发作),但大部分业务运作仍可正常工作;四级故障事件:在网络、服务器、存储、安全设备功能、安装或配置方面需要调整或优化。本级故障事件对信息系统的业务运作几乎无影响,或影响很小。依据事故重要性和紧急性的原则,每一级事故严格定义升级时间为2小时,其中在二级事故和一级事故应急处理过程中,要及时考虑替代恢复方案,尽可能在最短的时间内恢复业务系统。其中三级事故的处理,驻场服务人员在事故响应1个小时内,如果不能快速判断问题所在,可以寻求整个服务团队的支持。在一、二级事故判断中,服务人员在监控中发现问题,一方面应迅速将问题向部门领导进行反应,一方面须快速判断问题和收集事故信息,涉及到具体产品提供商或服务商内,及时告知客户协调相关厂商现场支持。为保障业务平台的正常运行,除对突发故障的应急支持外,要充分保障日常对业务系统软硬件的应急灾备恢复预案,并通过定期的演练加强应对突发事故的意识和流程。4.5服务报告要求维护团队定期提供服务报告,服务期结束前应提供服务年报,并对每一次重大故障和问题的原因、解决方法、完成情况等形成专门报告,及时报送用户部门和服务管理部门。在运维服务过程中将产生不限于以下的记录和报告:日常维护报告系统巡检日志系统维护记录系统优化记录各类优化的管理制度故障分析处理记录故障整改方案和建议交接班登记表重大故障记录报告4.6运维保障资源库建设要求在运维工作开展前期,把有助于用户运维的相关资料进行收集整理,以确保在实际运维过程中不会由于缺少沟通或者遗漏部分环节导致的问题处理延迟,具体保障资源如下:机房设备相关资料收集:整理各设备相关管理人员联系方式、设备物理位置等,书面文档与电子文档相结合,以确保出现设备故障或需要远程支持时能在第一时间联系到具体负责人,及早完成设备故障处理工作。设备操作文档收集:整理设备有关的操作文档,并整理成册,书面文档与电子文档相结合,辅助工程师处理相关问题。设备配置库整理汇总:整理所有设备原始配置资料,整理入库,且在修改设备配置后及时对录入的数据进行更新,以确保设备配置的准确性及安全性。运维知识库的建立和维护:收集维护过程中出现的各类资料,进行分类整理入库,为维护工作提供知识库。4.7项目管理要求维护团队应派遣一名具有专业知识的资深管理人员负责本项目的项目管理,统筹相关工作,项目监督与情况汇报,控制工作质量和预算,执行变更和应急情况管理,并根据实际状况调整服务方人员安排,以保证此项目的正常高效运作。4.8质量管理要求维护团队应根据本项目要求提出服务质量管理及监控具体措施,并对所提供的服务质量和标准做出明确可量化的承诺。4.9技术交流及培训维护团队应提供必须的服务技能培训,并对相关技术问题进行充分交流,以提高用户技术水平,使用户能熟练使用现有系统。培训包括不定期或面对面培训,并提供对部分用户简单故障排除方法培训。5经费预算项目预算金额为xx万元。序号项目内容描述小计(万元)备注日常维护机房管理:服务器、存储、网络、安全设备及数据库软件、中间件等基础支撑软硬件设施运行监测、定期检查、故障处理、系统备份;应用系统:终端设备:管理制度:制定运维技术管理、运行管理、备品备件管理、服务质量考核等相关制度,建立规范化标准化的运维体系。专业网络安全服务网络安全运行监控,记录、监控相关安全事件;专业技术服务工程师2人定期驻场服务,4万/人·年。系统安全巡检服务,系统安全调优服务,应急响应、重大安全故障处理主要硬件设备维保服务服务器维修保养,包括服务器的电源模块、主板、硬盘、内存、网卡等部件的维保;主要软件系统维保服务小计
篇三:机房系统运维服务方案服务方案一、机房及设备维护方案与计划1、预防性检查1.1巡检时间每个工作日上午9点1.2、巡检地点计算机机房、精密空调、UPS1.3、巡检目的进行机房检查,对机房设备及供电系统、UPS系统、精密空调系统、录像系统等设备进行检查,及时发现设备隐患,排除故障。1.4、巡检要求1.4.1.巡检期间,进行状态检查,若发现问题,如计算机机房物理环境异常、精密空调异常、UPS及配电系统异常等,应按照应急预案及操作流程进行处理。(1)电源、UPS:检查机房供电状况,UPS工作情况、指示状态。检查UPS蓄电池使用状态,确保蓄电池无松动。并使用温度枪进行检测物理温度。确保配电柜及UPS、蓄电池无温度过高现象。(2)机房环境:检查机房卫生状况及物理环境。(3)机房温度:检查温湿度,将温湿度控制在一定范围内。温度:22℃±5℃,湿度≤60%.(4)机房空调:空调运行状态、空调内部有无漏水现象、空调噪音、空调风量等。(5)机房照明:机房照明系统是否正常,有无异常状况。(6)机房PDU:PDU市电或UPS是否正常,使用温度枪进行检测外部物理温度。(7)机房整体:检查机房其余设备运行状态,有无报警及指示灯异常状态。1.4.2.如果故障按恢复规程无法有效恢复,特别是当发生机房环境(动力、空调)故障、关键的设备、网络、系统、服务如无法及时恢复时,应立即通知甲方相关领导,由相关领导协调资源进行故障处理。1.4.3.故障处理过程必须在机房日常巡检表的备注栏中详细记录,以备查阅。1.5、计算机机房现场管理要求1.除工作人员外,其他工作人员进出机房,需签字后方可进入,同时计算机机房人员要在现场,检查监督其人员工作,避免其他人员未经授权擅自接触机房物理设备。2.机房的机柜、线缆、设备等的标签管理;3.机房环境清理。1.6每日检查内容列表项目性能检查内容脆弱性检查内容空调系统高压压力、低压压力(风冷系统),冷冻水压力、温度,冷却水压力、温度(水冷系统),风机运行情况,滤网、内机排水系统、灰尘情况等。机房热点情况、室内机漏水检查、室外风机运转情况、加湿罐阳极棒检查、过滤网检查等。供配电系统输入输出功率,输入输出电流、断路开关、接地电阻、零序电流、器件发热情况等。导线、器件发热情况,断路开关、防浪涌器件情况等。UPS系统负载功率情况、器件发热情况、电池情况(外观、液位、接线柱)等。器件、导线发热情况,电池放电时间等。安全系统录像备份管理、出入机房登记、器件灵敏度、画面清晰度(不同照度情况下)、云台运行等。器件灵敏度、监控死角问题等。设备运行机房环境查看设备运行指示灯、机房照明运行情况、机房环境设备运行是否有报警情况、照明是否正常、机房卫生是否整洁等2、现场故障维修每日巡检过程中,如有发现设备及环境系统有故障状态,需进行记录并恢复故障状态。如不能立即恢复故障状态,则需进行应急预案处理。具体如下:2.1环境故障:卫生、温湿度、照明。(四级故障)2.2交换机故障:交换机蜂鸣,交换机启动不正常,指示灯异常。(三级故障)2.3空调故障:空调压缩机故障、空调冷凝水故障、空调漏水故障、空调制冷故障、空调加湿器故障等。(二级故障2.4UPS故障:UPS逆变故障、UPS旁路、UPS蓄电池温度、UPS蓄电池外观鼓包现象、UPS蜂鸣报警等(一级故障)2.5配电柜故障:配电柜内温度过高、配电柜打火现象等。(一级故障)在解决故障时,最大限度做好故障恢复的文档,力争恢复到故障点前的业务状态。对于“系统瘫痪,业务系统不能运转”的故障级别,如果不能于30分钟内解决故障,应立即提出应急方案,确保业务系统的运行。故障解决后24小时内,提交故障处理报告。说明故障种类、故障原因、故障解决中使用的方法及故障损失等情况。故障类型、级别及相应标准列表:故障级别响应时间故障解决时间I级:属于紧急问题;其具体现象为:机房出现电力事故等意外情况导致业务停止、UPS系统崩溃导致业务停止、空调系统崩溃导致业务停止。电话立即响应,5分钟内人员抵达现场,30分钟内恢复业务使用,2小时内提交故障处理方案。12小时以内II级:属于严重问题;其具体现象为:出现部分部件失效、系统性能下降但能正常运行,不影响正常业务运作。电话立即响应,5分钟内抵达现场,1小时内提交故障处理方案24小时以内III级:属于较严重问题;其具体现象为:出现系统报错或警告,但业务系统能继续运行且性能不受影响。电话立即响应,5分钟内抵达现场,2小时内提交故障处理方案48小时以内IV级:属于普通问题;其具体现象为:系统技术功能、安装或配置咨询。电话立即响应,30分钟内抵达现场,2小时内提交故障处理方案3天内3、后台故障维修后台故障状态维修,需要在甲方允许的情况下,对设备进行维护及维修。3.1质保期内的设备由我方查找故障原因并填写故障申请单,交由甲方进行协调处理,并协助甲方进行故障排除及维修。如需联系厂商,则由我方负责。3.2三级及四级故障状态,我方可自行进行维护和维修的设备,报由甲方同意后,我方自行进行设备维修,更换零配件部件等,并将维修记录保存文档交由甲方及我方双方管理。3.3质保期外的设备出现故障,则由我方统一进行维修,费用由我方负责。并将维修记录报由甲方确认并存档。3.4设备更换对于无法修复的设备,在合同有效期内,经甲方审核,由乙方负责整体更换同型号或类似型号的产品,无法维修的设备交由甲方。更换单个备品备件费用大于等于500元时,报甲方审核同意,备品备件费用由甲方承担;更换单个备品备件小于500元时,备品备件费用由乙方承担,质保期内由供货商(厂商)进行更换的除外。4、资产管理4.1对硬件设备型号、数量、版本等信息统计记录4.2对软件产品型号、版本和补丁等信息统计记录4.3对机房设施设备连接统计记录4.4对综合布线系统结构图的绘制4.5对机房更换设备连接统计记录4.6每月向甲方上报低值易耗品记录,包括仓库存储情况、耗材使用情况。4.7机房更新及更换设备的统计4.8机房维护设备及备品备件的管理及记录5、应急处理随着网络信息化建设的不断深入,加强机房各类设备、系统以及信息与网络安全等方面应对突发事件的处理能力将是我们目前面临的一项重要任务。为确保系统及机房安全与稳定,以保证正常运行为宗旨,按照“预防为主,积极处置”的原则,本着建立一个有效处置突发事件,建立统一指挥、职责明确运转有序、反应迅速处置有力的机房安全体系的目标,将正在发生或已发生事故的损害程度减轻到最低,确保员工安全,特制定本应急处置预案。本预案共分为应用系统故障应急流程和机房突发事件应急流程系统故障应急流程一、系统故障应急流程说明1、故障发生系统运维服务小组可从以下途径得知故障的发生:1.1、运维服务中心通过网管告警发现故障1.2、维护站点通过维护巡检发现故障1.3、用户发现故障,报给呼叫中心1.4、驻场工程师发现故障2、报障受理监控系统运维服务小组得知系统故障发生后,立即响应,并向报障人或单位详细了解系统故障情况。3、信息研判运维服务小组根据了解到的系统故障情况进行分析判断,以确定采用一般故障处理流程还是立即启动系统突发故障应急处理预案。4、预案启动如需启动应急预案,则立刻通知系统突发故障应急领导小组,由领导小组启动应急预案,对系统突发故障应急事件进行全面管控处理。5、资源确认系统突发故障应急预案启动后,首先是根据现场突发故障实际状况、紧急程度、技术难度、备品备件等情况对相关资源(主要是参与人员)依据经验进行调度和确认,主要有以下资源:我公司技术支持人员;相关厂家技术支持人员;我公司聘请的技术专家6、预案执行按照既定的预案进行突发故障抢修,如遇到问题及时向系统突发故障应急领导小组汇报。7、预案终止预案的终止时间由故障现场技术人员根据现场的实际进展情况,在与用户单位有关部门协调后报系统突发故障应急领导小组决定。8、结果上报预案中止后,相关预案参与人员将整个事件过程中的经验和教训,修改、完善事件应急预案。然后集中上报至系统突发故障应急领导小组。二、系统故障应急处理流程图机房突发事件应急流程一、机房突发事件分类1、自然灾害:指地震、火灾等因自然因素引起的网络与信息系统的损坏。2、事故灾难:指电力中断、网络损坏、软件、硬件设备故障等引起的网络与信息系统的损坏。3、人为破坏:指人为破坏网络线路、通信设施,黑客攻击、病毒攻击、恐怖袭击等引起的网络与信息系统的损坏。二、应急处理人员组织机构三、应急机构人员岗位职责1、应急总指挥职责1.1、保证在任何时间,及时协调应急行动所有涉及的岗位人员;1.2、提供必须的紧急响应设备;1.3、在紧急情况下全面负责紧急行动;1.4、在必要时向外界求救,例如:119、110、120等。2、应急副总指挥职责2.1、在总指挥领导下具体开展工作,当总指挥不在时履行总指挥职责;2.2、根据获得的应急信息下达命令。3、各相关设备负责人职责3.1、负责尽快收集信息向应急总指挥汇报事故情况;3.2、负责现场临时设备抢救和对事态的控制;3.3、听从上级指挥人员的指挥。四、突发事件处理原则1.预防为主。立足安全防护,加强预警,重点保护基础信息网络和关系信息安全、稳定的重要信息系统,从预防、监控、应急处理、应急保障等环节,在管理、技术、人员等方面采取多种措施充分发挥各方面的作用,共同构筑安全保障体系。2.快速反应。突发事件发生时,按照快速反应机制,及时获取充分而准确的信息,跟踪研判,果断决策,迅速处置,最大程度地减少危害和影响。3.分级负责。按照“谁主管,谁负责”的原则,建立和完善安全责任制及联动工作机制。根据各负责人的职能,各司其职,加强各负责人的协调与配合,共同履行应急处置工作的管理职责。4.以人为本。把保障人员以及公共利益的安全作为首要任务。5.常备不懈。加强技术储备,规范应急处置措施与操作流程,定期进行预案演练,确保应急预案切实有效,实现网络与信息安全突发公共事件应急处置的科学化、程序化与规范化。五、机房应急开关机具体措施机房各设备关闭顺序如下:六、机房日常维护1、建立健全机房管理制度
1.1在正常工作日内,信息技术部人员负责对机房进行监控,主要职责是:巡视网络设备及系统的运行情况,发生异常情况及时处理,消除网络故障隐患。
1.2节假日期间技术人员轮流值班,负责处理有关异常情况。
1.3机房采取来人来访登记制度,未经允许,无关人员不得进入公司机房区域。
2、机房内严格采取防雷、防火、防尘、防静电等措施以及机房24小时监控等措施。
3、认真做好数据备份工作,定期做一次数据库完全备份,每月检查服务器运行和备份情况。
4、对机房的主要网络设备(路由器、主干交换机等)进行工作时间内全程监控,发现异常情况应及时进行处理,确保整个网络的正常运行。七、服务器及存储设备故障处理1、排错流程2、应急处置具体措施2.1机房漏水应急预案(1)发生机房漏水时,第一目击者应立即通知运维服务小组,并及时报告监控系统突发故障应急领导小组。(2)若空调系统出现渗漏水,运维服务小组负责人应立即安排停用故障空调,清除机房积水,并及时联系设备供应方处理,同时启动备用空调,必要情况下可临时用备用空调对服务器进行降温。(3)若为墙体或机房门渗漏水,运维服务小组负责人应立即采取有效措施确保机房安全,及时清除积水,维修墙体或门窗,消除渗漏水隐患。2.2设备发生被盗或人为损害事件应急预案(1)发生设备被盗或人为损害设备情况时,使用者或管理者应立即报告系统突发故障应急领导小组,同时保护好现场。(2)系统突发故障应急领导小组接报后,通知用户保卫部门、相关领导,一同核实审定现场情况,清点被盗物资或盘查人为损害情况,做好必要的影像记录和文字记录。(3)事发单位和当事人应当积极配合公安部门进行调查,并将有关情况向系统突发故障应急领导小组汇报。(4)系统突发故障应急领导小组安排运维服务小组、事发单位及时恢复系统正常运行,并对事件进行调查。运维服务小组和事发单位应在调查结束后一日内书面报告系统突发故障应急领导小组。事态或后果严重的,应向相关领导汇报。2.3机房长时间停电应急预案(1)定期检查机房供电设备的运行状况和电路线缆器材情况,当发生下列突发事件时,按照以下方案进行处置:
(2)当机房发生市电供电突然停电或是电源异常时。首先应和后勤部门联系确认正常停电以及预计停电时间。检查不间断电源的电池可供电时间,确保设备正常运行,如遇到突然断电,应及时将空调等不在UPS电源供电范围内的设备及时断电,预防突然来电时瞬间电流过大导致设备损坏等现象。
(3)当确定停电时间超出机房UPS承载范围后,首先确定停电的范围以及受影响的设备范围。并及时通知各部门做好停电应急准备。然后通知机房电源维护人和设备的负责人到达现场,做好各设备的电源停电准备。在UPS供电电量仅剩10%之后,严格按操作手册停掉各服务器的电源,最后停核心交换机和路由器,等待电力恢复。
(4)当确定停电原因是在本身供电系统范围内,立即汇报给负责领导,并及时联系相关维护人员达到现场检修。对于恢复时间无法预计的,要通知后勤部门做好柴油机发电及移动电源车供电准备(5)恢复供电后,严格按照操作程序逐步恢复机房设备和UPS的供电,以防瞬间电流过大造成设备损坏。
2.4通信网络故障应急预案(1)发生通信线路中断、路由故障、流量异常、域名系统故障后,操作员应及时通知本单位信息系统管理员,经初步判断后及时上报运维服务小组和系统突发故障应急领导小组。(2)运维服务小组接报告后,应及时查清通信网络故障位置,隔离故障区域,并将事态及时报告系统突发故障应急领导小组,通知相关通信网络运营商查清原因;同时及时组织相关技术人员检测故障区域,逐步恢复故障区与服务器的网络联接,恢复通信网络,保证正常运转。(3)事态或后果严重的,应向应急指挥办公室和相关领导汇报。(4)应急处置结束后,运维服务小组应将故障分析报告,在调查结束后一日内书面报告系统突发故障应急领导小组。2.5不良信息和网络病毒事件应急预案(1)发现不良信息或网络病毒时,信息系统管理员应立即断开网线,终止不良信息或网络病毒传播,并报告指挥调度中心运维服务小组和系统突发故障应急领导小组。(2)运维服务小组应根据系统突发故障应急领导小组指令,采取隔离网络等措施,及时杀毒或清除不良信息,并追查不良信息来源。(3)事态或后果严重的,应向监控中心办公室和相关领导汇报。(4)处置结束后,运维服务小组应将事发经过、造成影响、处置结果在调查工作结束后一日内书面报告系统突发故障应急领导小组。2.6服务器软件系统故障应急预案(1)发生服务器软件系统故障后,运维服务小组负责人应立即组织启动备份服务器系统,由备份服务器接管业务应用,并及时报告系统突发故障应急领导小组;同时安排相关责任人将故障服务器脱离网络,保存系统状态不变,取出系统镜像备份磁盘,保持原始数据。(2)运维服务小组应根据系统突发故障应急领导小组的指令,在确认安全的情况下,重新启动故障服务器系统;重启系统成功,则检查数据丢失情况,利用备份数据恢复;若重启失败,立即联系相关厂商和上级单位,请求技术支援,作好技术处理。(3)事态或后果严重的,应向监控中心应急指挥办公室和相关领导汇报。(4)处置结束后,运维服务小组应将事发经过、处置结果等在调查工作结束后一日内报告系统突发故障应急领导小组。2.7黑客攻击事件应急预案(1)当发现网络被非法入侵、网页内容被篡改,应用服务器上的数据被非法拷贝、修改、删除,或通过入侵检测系统发现有黑客正在进行攻击时,使用者或管理者应断开网络,并立即报告系统突发故障应急领导小组。(2)接报告后,系统突发故障应急领导小组应立即指令运维服务小组核实情况,关闭服务器或系统,修改防火墙和路由器的过滤规则,封锁或删除被攻破的登陆帐号,阻断可疑用户进入网络的通道。(3)运维服务小组应及时清理系统,恢复数据、程序,恢复系统和网络正常;情况严重的,应向监控中心应急指挥办公室和相关领导汇报,并请求支援。(4)处置结束后,运维服务小组应将事发经过、处置结果等在调查工作结束后一日内报告系统突发故障应急领导小组。2.8核心设备硬件故障应急预案(1)发生核心设备硬件故障后,运维服务小组应及时报告系统突发故障应急领导小组,并组织查找、确定故障设备及故障原因,进行先期处置。(2)若故障设备在短时间内无法修复运维服务小组应启动备份设备,保持系统正常运行;将故障设备脱离网络,进行故障排除工作。(3)运维服务小组故障排除后,在网络空闲时期,替换备用设备;若故障仍然存在,立即联系相关厂商,认真填写设备故障报告单备查。(4)事态或后果严重的,应向监控中心应急指挥办公室和相关领导汇报。2.9业务数据损坏应急预案(1)发生业务数据损坏时,运维服务小组应及时报告系统突发故障应急领导小组,检查、备份业务系统当前数据。(2)运维服务小组负责调用备份服务器备份数据,若备份数据损坏,则调用磁带机中历史备份数据,若磁带机数据仍不可用,则调用异地备份数据。(3)业务数据损坏事件超过2小时后,运维服务小组应及时报告系统突发故障应急领导小组,及时通知业务部门以手工方式开展业务。(4)运维服务小组应待业务数据系统恢复后,检查历史数据和当前数据的差别,由相关系统业务员补录数据;重新备份数据,并在工作结束后一日内报告系统突发故障应急领导小组。2.10雷击事故应急预案(1)遇雷暴天气或接上级部门雷暴气象预警,运维服务小组应及时报告系统突发故障应急领导小组,经请示同意后关闭部分服务器,切断电源,暂停内部计算机部分网络工作。(2)雷暴天气结束后,运维服务小组报经系统突发故障应急领导小组同意,及时开通服务器,恢复内部计算机网络工作,对设备和数据进行检查。(3)因雷击造成损失的,运维服务小组应会同相关部门进行核实、报损,并在调查工作结束后一日内书面报告系统突发故障应急领导小组。必要时,应向监控中心应急指挥办公室和相关领导汇报。2.11空调设备故障应急预案若机房专用空调损坏,应第一时间启用机房备用空调,并通知厂家上门进行维修,并及时报告信息部相关领导请示,获得授权后按机房设备关闭顺序关闭各类设备。2.
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 青海建筑职业技术学院《主任工作原理》2023-2024学年第一学期期末试卷
- 2024至2030年中国网路控制器行业投资前景及策略咨询研究报告
- 2024年热压生胶项目可行性研究报告
- 双头响板行业深度研究报告
- 2024至2030年中国梅毒螺旋体行业投资前景及策略咨询研究报告
- 2024至2030年犬罐头项目投资价值分析报告
- 2024至2030年出沙器项目投资价值分析报告
- 医疗设备技术创新与应用
- 2024年拉挤玻璃钢矩型材项目可行性研究报告
- 2024年中国米粉机市场调查研究报告
- 口腔客服工作总结
- 慢性肾脏病早期筛查、诊断及防治指南(2022年版)
- 砼回弹强度自动计算表
- 四川省内江市2023-2024学年高一上学期期末检测物理试题
- 幼儿园美术《各种各样的鱼》课件
- 你是独一无二的自己主题班会课件
- 数字媒体艺术课件
- 海洋科普趣味知识讲座
- 2024年浙江浙能电力股份有限公司招聘笔试参考题库含答案解析
- 鲜红斑痣疾病演示课件
- 静脉输液操作课件
评论
0/150
提交评论