运维保障服务方案_第1页
运维保障服务方案_第2页
运维保障服务方案_第3页
运维保障服务方案_第4页
运维保障服务方案_第5页
已阅读5页,还剩49页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

运维保障服务方案XXX科技有限公司2023年XX月XX日

目录一概述 3二运维管理内容 4三运维服务内容 8四运维管理制度 144.1工作汇报制度 164.2机房巡检制度 174.3人员管理制度 174.4设备管理制度 184.5人员进出制度 194.6设备进出场制度 204.7安全制度 204.8保密制度 20五应急响应方案 215.1目的 215.2应急小组组织结构 215.3组织机构职责 215.4事件定级 225.5应急预案流程 23六服务保障体系 366.1巡检管理 396.2安全管理 406.3知识管理 466.4质量管理 466.5服务报告 47七技术支持与售后服务措施 487.1技术服务热线 487.2现场支持 487.3一站式售后服务 497.4系统巡检与故障预防服务 497.5突发事件管理与应急处理方案 51概述云计算是基于可配置的计算和应用的共享资源池提供快捷、动态访问的计算模式。服务具有多种特性:资源充分共享,快速部署和回收资源,按需分配,按使用量和服务级别计费、自助式服务。云平台具有多方面的优势,包括:• 真正支持跨平台、多厂商、异构环境的云平台;• 对物理资源和虚拟资源提供一致、统一的管理解决方案;• 支持所有物理设备,同时支持多种虚拟基础架构;• 提供端到端多层次自动化部署技术,最大限度地提高效率与自动化程度;• 实现完整的生命周期控制;• 建设符合ITILv3标准的服务目录和流程;• 支持精确的资源自动发现;• 从业务角度管理云环境;• 选用经过实践验证的成熟产品。云平台以结构化的方式部署云计算基础架构,使用已被证明有效的解决方案和技术,涉及云计算的各个环节,确保能够正确覆盖云基础架构的所有关键要素,同时也允许服务对象定制其结构以满足某些业务的特殊需求。平台整合了高效运维、自动化服务交付模式,并将其与云计算的动态特性相互集成,代表着业界的最佳实践。运维管理内容政务云平台运营管理涵盖的内容主要包括:流程管理、资源管理、自动化和标准化管理,功能描述详见下表:流程管理用户自助服务根据用户的权限,可以提交资源使用申请,并能够在申请服务器配置和服务时间根据用户的权限,可以提交修改资源配置申请根据用户的权限,可以提交资源使用延期申请。根据用户的权限,可以提交软件安装申请。审批管理根据用户的申请,管理员可以批准或拒绝用户的申请。资源也可以有预审批属性,即由系统自动审批,不需要人工干预。邮件通知在自动化操作完毕后,自动给申请人以及相关人员发邮件通知。服务目录系统支持基于ITILv3的服务目录,对系统可提供的服务进行标准化管理。可根据用户角色为用户列出服务列表,同时提供服务目录的增、删、改功能。资源管理生命周期管理对资源的申请、部署、监控、调整和回收的整个生命周期进行全方位的管理资源自动回收预约时间到期后系统会触发资源自动回收流程资源回收前可通知用户,用户可提交延期申请,否则,到期时系统会把资源释放,返回资源池虚拟化管理标准功能支持各种虚拟化技术,实现对x86PC服务器的虚拟化管理。资源池管理资源池中的资源可支持物理机、虚拟机、存储、网络、数据库、中间件、应用等可自动地标识资源池中的资源的数量、关键属性、可用状态每次资源在部署或回收之后要动态更新资源池状态可将CPU、内存、存储等划分为资源池,实现资源的集中管理。配置管理具备单一的配置信息数据库,存放各种配置信息可向资源池中添加资源定义,变更资源所在资源池可定制和筛选查看内容可查看虚拟化资源的配置信息,包括虚拟机CPU、内存、磁盘情况及IP地址等资源分析可按资源池统计资源的使用情况。可按部门统计资源的使用情况。可按项目统计资源的使用情况。可按使用时间统计资源的使用情况。自动化和标准化管理系统介质库集中存放操作系统安装介质集中存放操作系统镜像介质,例如:windows\Linux补丁介质库集中存放补丁介质(操作系统补丁)软件介质库集中存放软件介质(应用软件,例如:Oracle、WebSphere、IIS等)脚本库集中管理脚本操作自动化流程库集中管理自动化处理流程与流程管理的集成自动化部署过程与流程管理无缝集成。各种流程中设计系统配置或变更的动作将触发自动化过程自动完成,无需人工干预与配置管理的集成自动化部署过程会自动对配置数据库进行更新,保证配置信息与物理系统实际状态一致资源调度系统具有通用的调度引擎,和各种主流的软硬件有内置的接口,可以根据用户的申请自动地下达指令给相应的软硬件资源,实现自动化资源调度虚拟机自动化部署用户在申请虚拟机的请求被批准后,系统会自动从资源池中分配资源,创建虚拟机自动化部署过程可完成虚拟机创建、存储划分、系统镜像部署、IP地址分配、软件安装等一系列步骤提供虚拟机的安装和基线审核的自动化操作流程的增、删、改功能提供虚拟机安装自动化操作流程执行过程中,安装参数输入\选择、临时性手工操作和安装信息反馈输出等功能软件自动化部署用户在申请和使用资源时,可以动态的自动化部署软件。在软件或补丁安装的过程中,如果出现问题,系统可以自动回滚到安装前的状态。提供软件的安装和基线审核的自动化操作流程的增、删、改功能提供软件安装自动化操作流程执行过程中,安装参数输入\选择、临时性手工操作和安装信息反馈输出等功能提供软件安装的审核基线(包括:系统,数据库、应用的配置,关联信息)虚拟服务器管理用户可以对虚拟服务器进行备份、恢复、删除、启动、停止、重启等操作。运维服务内容驻场服务支持我公司为云计算大数据平台提供专业的技术维护人员驻场,对入驻的硬件设备和基础软件提供7*24小时服务。基础设施运维服务平台基础设施运维服务是对平台基础设施进行监视、日常维护和维修保障。服务涉及的基础设施包括网络系统、主机系统、存储/备份系统、终端系统、安全系统、机房动力及环境等。服务内容主要包括:7*24小时日常维护类服务:我公司驻场技术人员对机房基础设施进行7*24小时日常维护。包括但不限于以下内容:清理并保持机房卫生环境,保持室内卫生整洁、有序;测量并保持机房温度、湿度符合设备运行环境要求;定期检查机房用电负载,检查UPS负载情况,及时排除用电隐患,保证机房内设备取电用电安全;巡检机房空调设备运行情况,记录温度、湿度等信息,能够及时联系厂商对设备进行维护保养;巡检机房内服务器及存储设备物理运行状况,对可见、可稳的设备物理故障第一时间通知用户并配合用户及厂商进行后续处理。巡检机房内网络设备及其他设备物理运行状况,对可见、可稳的设备物理故障第一时间通知用户并配合用户及厂商进行后续处理;定期对机房内设备进行盘点,对设备硬件信息、运行情况等进行统计整理。监控类服务:我公司驻场工作人员提供7*24小时对政务云平台及信息平台网络进行监控。包括但不限于以下服务:对政务云平台物理设备及虚拟机运行情况进行监控,第一时间发现物理主机及虚机的告警、宕机等情况并迅速处理;对政务云平台虚机CPU、内存、磁盘、网络利用情况进行监控,对发现的资源紧张情况及时反映给用户,建议用户扩容获采取其他方案,避免影响业务处理性能;定期对政务云平台所有虚机资源利用情况进行整理及统计,研究并发现其中的规律,规避可能出现的资源受限问题,并提出合理规划建议;对信息平台网络设备重要点进出流量进行监控,统计分析网络带宽利用率、网络流量的发展趋势、异常流量,以此评估网络资源利用及消耗趋势,做出合理化建议;对信息平台网络性能进行监控,包括对网络丢包率、延迟、路由进行监控,对网络性能进行评估,及时进行网络性能瓶颈进行预警,并提出合理化建议。维修保障类服务:我公司驻场工作人员对机房设备维修提供7*24小时保障。对于我公司负责维保的设备,出现故障后保证第一时间告知用户,并迅速组织技术人员对故障设备进行检修,如需进行备件更换的,优先处理。保证对用户的业务运行影响降到最低。并在维护结束后,向用户提交详细维护过程记录,如有必要,提出合理化建议。对于用户自行维护或者第三方公司进行维护的设备故障,我驻场工作人员保证全程配合,为用户及第三方公司技术人员提供必要的方便,例如提供工具、跳线等。直至设备维护结束。如用户需要,可在维护完成后,提供用户设备维护记录。云中心安全管理安全管理服务对信息化环境涉及的网络、应用系统、终端、内容信息的安全进行管理,包括安全评估、安全保护、安全监控、安全响应及安全预警等服务。定期对云平台的受管服务器设备及网络设备进行漏洞扫描、补丁升级等、安全设备防攻击、防病毒库进行升级等,整理并撰写安全报告,记录发生的安全问题,对发现的安全隐患及时进行修补,对可能的安全问题进行预警,并提出安全规划建议。网络安全接入服务网络接入服务提供网络规划和接入,包括互联网接入服务、内网接入服务等。对于互联网和内网接入,提供合理规划,规避地址冲突问题。网络接入提供安全过滤及建议,保障网络接入安全可靠,避免网络攻击对用户引用造成影响。内容信息服务内容信息服务对内容信息进行采集、发布、巡检、统计、编辑、信息挖掘以及汇报,为内容信息的获取和进一步处理提供支持。综合管理服务综合管理服务包括咨询与培训服务、技术支持服务、优化服务等。其他增值服务网络系统性能分析和优化服务我司的技术专家定期现场协助分析网络系统性能和优化网络系统的运行。可对政务云中心的物理、网络环境进行全面、详细的分析,指出超出政务云中心系统规格的条件,并提出相关建议,以便减少由于物理和环境等因素所导致的停机时间。无推诿服务运维服务在运行过程中出现任何问题而致使系统发生不正常情况时,无论是何方原因,我公司工程师全力协助解决并排查故障,使系统尽快恢复正常政务云中心作为高优先级用户,享有优先获得我公司服务的权力。新技术及业务咨询服务信息技术的发展日新月异,我们的各行业、各领域技术专家会帮助政务云中心决定哪些新的技术会帮助业务系统提高应用的水平。业务咨询服务帮助政务云中心从业务发展的角度来规划业务系统,通过聚焦于用户的业务和基础架构、管理、结构、以及对运营的管理,向政务云中心提供相关的信息化策略和架构的规划等咨询服务。巡检服务与巡检报告定期对整体系统进行安全巡检,包含机房巡检服务、监控巡检服务。巡检频率小于45分钟1次,配套设施及各部门应用设备应每月至少巡检优化1次,并提供调优建议、故障解决等服务,定期巡检是为了及早发现系统隐患、排除潜在故障以保证用户方信息系统的正常运行和性能稳定,我金牌维保服务包含定期巡视和检查服务。针对政务云中心运维服务项目的巡检服务将包括每月一次的定期巡检。我们的巡检工程师会为政务云中心建立完整的巡检服务档案,并提供定期的预防性维护服务,从而提高设备的连续可使用率,提高系统的稳定性。巡检内容包括但不限于以下内容:机房环境检查、硬件设备情况检查、软件运行情况检查、数据线路状态检查、服务器配置管理和日志分析、应用系统状态分析、系统性能分析和优化建议,网络安全建议等。巡检完毕提供巡检报告,每年度提供年终服务总结报告。巡检服务档案的内容主要有:用户的基本信息技术服务小组人员表及联系电话用户的软硬件配置表及数据通信网络配置图预防性维护计划表各系统的维修历史记录表修正性软件的安装记录巡检工程师针对系统的设备配置情况,与用户系统管理人员共同研究制定年度的预防性维护服务的内容和时间表,并做到定期到现场对维保设备进行预防性维护,防患于未然。巡检期间预防性设备维护的主要方法有:检查系统状态并做好记录,包括系统各部分详细的出错记录,可以据此尽早采取措施,排除故障隐患。利用远程诊断系统,通过ISP网络,把用户的系统联入,实现问题的24小时自动报告与跟踪等。工程师即可根据结果进行及时检测和维修。进行设备测试检查,找出隐患,尽早排除。进行设备的清洁保养。及时向用户主管人员汇报设备状态的第一手信息。我们的服务人员定期与政务云中心的主管人员会面,总结以往的服务情况和设备的使用状况,并给予将来的工作计划建议。我们所提供的巡检服务可以提供一定的故障预防保障,除此之外,我们建议政务云中心应当特别注意在系统正常运转时的异常检测。常用的预防措施有:建立系统基线、线路备份、主机备份、电源备份、异常事件诊断、日志审阅等。很好的使用这些预防措施可以有效预防发生故障,降低故障损失,我们也将配合用户做好日常维护管理手册的制作。运维管理制度1、运维服务体系架构:服务宗旨、“信”字为先;快速响应、高效服务;致力于每个细节都超出用户的期望;不畏变革,大胆创新,做竞争对手做不到的。2、组织管理模式层确定和规范运维管理体系运行的管理方式和与之相配套的人员岗位职责安排、机构设置,将信息化服务相关的全部活动进行统一决策与规划,形成集中统一的运维管理机制,实现对用户的端到端服务。在集中统一的运维管理模式下,按照运维管理任务科学设置或调整组织机构,划分任务、角色、岗位,合理配置运维管理资源,达到人、工具、流程的有机融合。3、制度规范层分别从管理与操作方面建立运维管理过程中各个参与要素(人、流程、工具)的行为准则与工作程序,从运维管理体系总体运行、流程执行和岗位职责3个层次建立考核评价体系,确定运维费用的组成与计算方式,规范运维费用的来源保障,实现运维管理的量化管理。具体内容包括管理制度的制定、管理流程的设计、评价考核体系的执行、运维费用的管理等。4、技术支撑层建立面向业务用户的信息化服务请求响应窗口和面向技术支持人员的体系运行管理窗口,建立负责运维管理流程运行的流程管理平台和负责信息化基础设施和业务应用系统运行监控的集中监控管理平台,根据不同类型基础设施和业务应用系统的管理职能,建立技术管理子系统,建立知识库、配置库、报表及日常操作等共享支持子系统和为业务管理提供服务的业务运维管理子系统。5、体系建设内容运维管理体系要真正发挥效益,避免“为技术而技术”,需要融合人、流程、技术。根据信息化的发展要求,配套的管理措施应包括组织模式、管理制度、管理流程、绩效考核、运维费用、技术支撑等内容。工作汇报制度为保障运维质量和更有效完成运维工作,驻场运维人员每周总结本周工作内容:机房内是否有设备变化、是否遇到故障处理,是否有遗留问题还没有处理完成。对发生的重要情况进行讨论并制定策略,其次对下步工作进行排序,提出计划。对本周工作提交书面周报发送给客户及我相关领导。我驻场运维人员每月末对本月工作进行总结,对本月发生的机房变动、故障处理、重大事件进行汇总,对云服务项目平台资源利用情况进行分析统计,形成规范报告文档,然后向客户及我相关领导进行汇报,并接受领导意见及下个月工作指示,不断改善工作质量及服务质量。机房巡检制度每隔1小时对数据中心机房进行一次细致巡检,检测机房内设备有无可见可闻的故障告警;7X24小时实时监控数据中心各项指标参数信息,一旦发现异常,迅速处理。巡检时,保持各机房环境卫生,若发现地板有污渍、水渍、垃圾等物,第一时间进行清理;巡检时发现问题,及时联系相关负责人,并登记记录,汇报客户领导;实时通过运维监控平台查看云服务项目平台服务器是否报警每次机房巡检时查看云服务项目平台服务器的硬件状态是否正常每隔3小时登录运维平台查看所有设备是否正常每天查看管理控制台系统日志是否正常每天查看安全设备日志有无报错每天查看运维平台是否有报错或者警告显示每天查看运维平台的权限属性是否正常每周对网络设备备份检查每周查看物理服务器备份检查运维人员严格按照平台巡检制度检查各个项目运维人员严格遵守保密协议对于有报警的设备及服务器要立刻通知相关负责人解决。人员管理制度驻数据中心运维人员必须注意个人卫生,仪表、穿着要整齐、谈吐文雅、举止大方。运维人员个人用品要各归其位,不能随意乱放。运维人员离开工作工作区域前,应保证工作区域内保存的重要文件、资料、设备、数据处于安全保护状态。如锁定工作电脑、并将桌面重要资料和数据妥善保存等等。运维工作人员未经客户领导批准,禁止将机房相关的钥匙、密码等物品和信息外借或透露给其它人员,同时有责任对保安信息保密。对于遗失钥匙、泄露保安信息的情况要即时上报,并积极主动采取措施保证机房安全。进入机房人员必须注意环境卫生,禁止在机房内吃食物、抽烟、随地吐痰;对于意外或工作过程中弄污机房地板和其它物品的,必须及时采取措施清理干净,保持机房无尘洁净环境。所有机房内的施工,在施工结束后,施工人员要将施工过程中产生的垃圾等清扫干净、物品摆放整齐。禁止施工人员在无人看管下在机房中使用高温、炽热、产生火花的用电设备。不允许任何人在服务器、网络设备等核心设备上进行与工作范围无关的任何操作。设备管理制度每周督促检查电源供电设备。建立完整的设备维修档案,每周要调阅各类机器记录进行分析比较,捕捉故障苗头,及时采取措施。加强现场观察,捕捉异常现象。从正常运行时的噪声,设备上指示灯的状态,以及设备发热程度等方面捕捉可能故障的预发现象。做好故障情报工作,审定各种可能发生的故障的处理方案。认真作好日常的例行性维护和测试。建立预防性维护的有关制度。例如:机房各类人员的技术岗位责任制度,系统和设备的运行情况记录制度,系统故障及异常情况的登记报告制度,设备维修过程的记录及文档整理、归档制度,零备件,易损件的保管及请领、汇报制度等。当设备在运行中发生故障时,必须报告相关领导,认真记录故障现象,保护故障现场,请维修人员检查。人员进出制度进入数据中心机房的人员必须登记,入驻数据中心单位人员必须持证进入,其他无证人员进入机房须有入驻单位工作人员持证带领登记。进入数据中心机房人员必须穿戴鞋套;进入数据中心机房人员必须保持机房环境干净卫生,不得乱扔杂物。进入数据中心机房人员只允许携带必须物品,其他物品放入机房门口储物柜储存,进入机房人员不得将食品、饮料以及易燃、易爆物品带入机房进入数据中心机房在办理登记手续时领取储物柜钥匙,在离开机房办理手续时将钥匙归还。进入数据中心机房人员完成工作后,出机房时需要进行登记,记录离开时间并归还借用物品。对违反上述规定者,值班人员有权拒绝其进入机房;对造成损失的,应追究其相关责任。设备进出场制度设备入驻或搬出数据中心机房,必须出示加盖责任单位公章的证明文件,并出示客户审核通过的证明文件。设备入场前,应在机房外去除设备包装,然后将设备搬入机房上架安装。设备进出场,必须经驻场运维人员登记,记录相关信息。设备进场或出场后,相关设备安装人员必须及时清理设备产生的杂物,例如纸箱、泡沫、废纸等物品,保证机房整洁卫生。安全制度机房内禁止明火作业,如有不得不在机房进行的明火作业,施工单位必须获得客户的同意,并出具相关证明。不得擅动各单位托管到数据中心机房的设备,除非获得责任单位许可;机房内不得擅自私拉电线,严禁使用非机房使用的大功率设备;严禁擅自移动消防物品排放位置;严禁占用消防通道;严禁任何人携带易燃、易爆物品进入机房;保密制度所有数据中心驻场运维员工需要签订保密协议。任何驻场运维人员不得将掌握的客户设备信息未经客户许可泄露给其他人知道。驻场运维人员任何时候不得私自打开机房内客户设备。驻场运维人员任何时候不得私自拷贝、更改、删除客户服务器数据。非工作需要,驻场运维人员不得掌握非工作范围内设备的口令。办公电脑中若有涉密信息,人员离开时必须锁定屏幕或者关闭主机,主机必须设置强口令。应急响应方案目的为了确保中心发生突发事件后,运维人员能够有条不紊的处理应急事件,特制定云计算中心相关应急预案。应急小组组织结构应急响应的组织机构由管理、业务、技术和行政后勤等人员组成,一般可设为:应急领导小组包含:专家团队、应急日常运行小组、外部机构应急小组。其中应急日常运行小组包括系统工程师、网络工程师、安全工程师、数据库工程师、云平台工程师等。组织机构职责应急响应领导小组是运维应急响应工作的组织领导机构,组长由政府主管部门以及我相关主管负责人担任,主要职责如下:审核并批准恢复策略;审核并批准应急响应计划;批准应急响应计划的执行;应急处理时,协调一切可以协调的资源。应急响应日常运行小组主要职责如下:应急响应的需求分析,确定应急策略和等级;编制应急响应计划文档,维护和管理应急响应计划文档;组织并参与应急响应计划的测试、演练和培训。运维突发事件发生时的损失控制和损害评估;运维事件发生后信息系统和业务功能的恢复;运维事件发生后的外部协作。专家团队由我针对信息化设施及应用系统机房的平台、基础环境、网络安全等方面的资深技术专家组成,在信息化设施及应用系统机房紧急、重要故障在有效时间内无法得到解决,可由现场人员向应急领导小组领导申请专家支持,如何支持以及其他相关要素由应急领导小组进行协调。关于应急故障具体的处理流程详见工作流程中的应急故障处理流程。事件定级运维事件可划分为三级:紧急事件(Ⅲ级)、重要事件(Ⅱ级)和一般事件(Ⅰ级),级别划分的主要参考要素为:信息系统的重要程度信息系统的重要程度主要考虑信息系统所承载的业务对组织的重要性,以及业务对信息系统的依赖程度,可据此划分为特别重要信息系统、重要信息系统和一般信息系统。系统损失系统损失是指由于运维事件对信息系统的软硬件、功能及数据的破坏,导致系统业务中断,从而给组织造成的损失,其大小主要考虑恢复系统正常运行和消除事件负面影响所需付出的代价。社会影响社会影响是指运维事件对社会所造成影响的范围和程度,其大小主要考虑国家安全、社会秩序、经济建设和公众利益等方面的影响。应急预案流程针对机房可以预见的一些应急故障,输出如下关于电力、空调、消防以及系统网络应急流程。应急故障处理流程网络应急预案网络中断时,及时判断网络中断范围,局部中断检查汇聚层设备,全面中断时,检查核心交换、路由、安全设备。网络中断时,及时通知联通公司网络维护工程师,告知其故障范围和现象,由联通公司网络维护工程师进行故障排除。故障解决后,输出《机房故障报告》以及针对此类故障后期的预防、改进措施。服务器被攻击预案接到服务器被攻击的信息后,立即判断受攻击服务器的位置和网络连接走线情况,并采取拔除网线方式切断攻击。及时通知入驻单位负责人对服务器进行检查,保留日志等记录分析攻击来源和安全漏洞,找出安全漏洞并采取修补措施,确认服务器状态安全后恢复网络连接。故障解决后,输出《机房故障报告》以及针对此类故障后期的预防、改进措施。电力应急预案机房机房采用双路市电供电,一般情况下,不会出现全部电力中断的情况;但仍必须提前做好应急预案应对极端情况,在出现问题时忙而不乱,沉着、有序的执行预定步骤,将风险和影响控制到最低。市电线路例行停电接到停电通知后,上报应急小组并做好应急准备,提前降低机房温度。密切关注电力恢复情况、机房温度情况。对停电情况进行记录,并将过程进行总结汇报机房应急小组。市电线路出现故障将该情况立即报告机房应急小组。短时间停电情况下,增加机房巡检次数,密切关注供电情况。准备多个物理温度计,放置于机房各个监测点。如果发现某点温度过高(一般服务器工作温度不应超过40°C),立即联系该点负责的管理员,经应急小组授权后关闭部分设备,关闭设备顺序应优先关闭公众影响小的设备,后关公众影响大的设备。对于局部温度过高区域采用大功率工业风扇散热。故障排除后将故障过程总结汇报机房应急小组。UPS电源故障将电源故障情况报告机房应急小组。并对UPS尽快检修,解决故障。在故障处理期间,增加巡检次数,密切关注机房设备状态。故障排除后将故障过程形成总结汇报机房应急小组。

空调应急预案

机房内某台空调出现故障,立即进行处理。启动机房内的备用空调。解决故障并记录。故障解除后对机房内所有空调做一次检测,检查有无隐患。如果机房内所有空调均无法使用,考虑是否市电供电线路故障,应急预案参考《电力故障应急预案》。消防应急预案当消防控制盘有声音报警时,应及时疏散机房和值班室工作人员。如果火势较小,在佩戴专业呼吸面罩后使用手提式灭火器灭火,并通知其他人协助灭火。如果火势较大,在佩戴专业呼吸面罩后操作消防控制盘灭火。火势扑灭后应检查机房内有无烟、火情况。火灾处理后联系各入驻单位,及时抢救重要数据;并对事故情况进行总结,分析事故原因形成报告汇报机房应急小组。网络及系统应急预案应急预案级别预警级别警报内容预警级别介绍一级预警网络流量升高主机性能降低数据备份出现异常异地备份出现异常工作站出现病毒监控软件出现故障一级预警表示系统出现故障,但不影响运维系统的正常运行二级预警网络中断或网络设备异常主机、存储和带库出现故障数据库相关故障黑客入侵或病毒大面积发作二级预警表示系统出现故障,影响运维系统的正常运转,但运维工程师可以在短时间内进行故障排除三级预警网络防火墙宕机无法正常使用。主机、存储、带库宕机并无法启动数据库或数据仓库无法正常使用收到不可抗力或自然灾害的破坏三级预警表示系统出现故障,影响运维系统的正常运转,运维工程师不能在短时间内进行故障排除或无法排除。应急预案处理流程运维过程中出现重要故障或紧急情况时,按一下规定流程进行处理及汇报。在遇到故障时,及时汇报上级领导并采取措施及时解决,具体汇报流程如下:一级预警处理运维过程中,如果遇到已经预警,按一下流程进行处理:当通过监控或得知系统出现故障时,首先在最短的时间查看故障点状态,并分析故障原因。运维工程师在排查出故障后,立即着手解决。在故障排除后,对所发生故障的设备进行事后跟踪。在故障排除后,运维工程师应对故障原因及解决办法进行详细说明并总结上报机房应急小组。二级预警处理当通过监控或得知系统出现故障时,首先在最短的时间内查看故障点状态,并分析故障原因。立即报告给运营经理,运营经理应通过电话或当面把故障报告相关部门领导。运维工程师在排查故障后,如能够立即解决,则立刻解决故障,如需要设备厂商的技术人员到现场,应立即联系技术厂商的技术工程师,请求立刻到现场进行故障排除。在故障排除后,运维工程师应对故障原因及解决办法进行详细说明并总结上报机房应急小组。三级预警处理当通过监控或得知系统出现故障时,首先在最短时间查看故障点状态,并分析故障原因。立刻报告给运营经理,运营经理应通过电话或当面把故障报告给相关领导部门.运维工程师在排查出故障后,如能立刻解决,在立刻解决故障。如需要设备厂商的技术人员到现场,应立刻联系技术厂商工程师请求立刻到现场进行故障排除。如果因硬件设备出现故障而无法修复,需要更换时,应报运维中心主管人员,主管人员办理硬件更换事宜。在故障排除后,运维工程师应对故障原因及解决办法进行详细说明并总结上报机房应急小组。服务保障体系(一)服务台故障申告和技术支持工作流程1、工作流程1) 一线客服工程师或值班工程师接到用户来电,记录来电人信息和故障描述;2) 一线客服工程师核实来电人的客户信息,初步判断故障范围和原因;3) 一线客服工程师生成故障记录,处理和解决一般的问题和故障;4) 如一线客服工程师无法解决故障,生成工单并在流程管理系统中转交二线技术支持工程师处理;5) 二线技术工程师处理完毕后,填写工单并将处理结果和工单反馈至一线客服,一线客服回访用户处理情况,根据回访结果关闭工作流程。如回访后用户问题未得到解决,则重新生成新的工单,工作流程继续;6) 7*24小时值班工程师发现监控报警后,可以电话通知一线客服工程师2、流程图服务台-故障处理流程3、记录故障解决报告(二)服务台业务咨询及变更工作流程1、工作流程一线客服工程师记录用户变更需求,核实用户身份;一线客服工程师负责对变更业务或咨询业务进行相应的解释工作;一线客服工程师判断变更需求,将不涉及到收费的变更请求生成工单,转交二线技术支持工程师处理变更,二线工程师完成变更后将变更结果反馈至一线客服,一线客服通知用户变更结果,待用户确定无误后关闭流程并更新用户信息;一线客服工程师判断变更需求,将涉及收费的变更通知客户产品经理,产品经理确认商务问题后发起派工单;二线工程师完成变更后通知一线客服和产品经理,一线客服通知用户变更结果,待用户确定无误后关闭流程并更新用户信息,告知产品经理。2、工作流程图服务台-咨询及变更流程3、记录服务派工单、客户档案信息巡检管理1) 机房实行巡检制度,定期对机房进行常规物理巡检,检查服务器及网络设备运行状态和机房环境状况。2) 巡检时间,巡检频率小于45分钟1次,配套设施及各部门应用设备应每月至少巡检优化1次,并提供调优建议、故障解决等服务。3) 巡检内容包括但不限于网络设备、服务器硬件设备的工作状态;机房环境温度、湿度等。4) 巡检过程:a) 应检查监控室内网络监控、机房环境监控等屏幕上是否有报警,检查消防设施是否正常;b) 应检查机柜门是否锁闭、检查机房内是否有异响异味、清洁及布线;c) 应检查机房内服务器及网络设备电源指示灯、运行状态指示灯是否正常,有无异常警告;d) 应检查空调机房、通信机房、电池室、钢瓶间;e) 应检查机房监控系统及其记录是否正常;5) 如果遇到异常情况需及时上报,服务器、网络设备等异常尽快通知设备责任人;6) 下班前应检查门、窗、灯是否关闭,机房、机柜等是否锁好;7) 巡检后应及时填写日常巡检记录。安全管理云平台硬件安全使用制度机房人员必须熟知机房内设备的基本安全操作和规则。应指定机房人员,对机房的出入、服务器的开机或关机、维护等工作进行管理;应定期检查、整理硬件物理连接线路,定期检查硬件运作状态(如设备指示灯、仪表),从而及时了解硬件运作状态。禁止随意搬动设备、随意在设备上进行安装、拆卸硬件、或随意更改设备连线、禁止随意进行硬件复位。禁止在正式运行的系统上进行试验性质的配置操作,需要对系统进行配置,应在其它可进行试验的机器上调试通过并确认可行后,才能对系统进行准确的配置。对会影响到全局的硬件设备的更改、调试等操作应预先发布通知,并且应有充分的时间、方案、人员准备,才能进行硬件设备的更改。对重大设备配置的更改,必须首先形成方案文件,经过讨论确认可行后,由具备资格的技术人员进行更改和调整,并应做好详细的更改和操作记录。对设备的更改、升级、配置等操作之前,应对更改、升级、配置所带来的负面后果做好充分的准备,必要时需要先准备好后备配件和应急措施。不允许任何人在服务器、网络设备等核心设备上进行与工作范围无关的任何操作。未经机房管理人员允许,更不允许他人操作机房内部的设备,对于核心服务器和网络设备的调整配置,更需要小组人员的共同同意后才能进行。云平台软件安全使用制度1) 必须定期检查软件的运行状况,进行数据和软件日志备份。2) 禁止在正式运行的服务器上进行试验性质的软件调试,禁止在服务器随意安装软件。需要对服务器进行配置,必须在其它可进行试验的机器上调试通过并确认可行后,才能对服务器进行准确的配置。3) 对会影响到全局的软件更改、调试等操作应先发布通知,并且应有充分的时间、方案、人员准备,才能进行软件配置的更改。4) 对重大软件配置的更改,应先形成方案文件,经过讨论确认可行后,由具备资格的技术人员进行更改,并应做好详细的更改和操作记录。对软件的更改、升级、配置等操作之前,应对更改、升级、配置所带来的负面后果做好充分的准备,必要时需要先备份原有软件系统和落实好应急措施。5) 不允许任何人员在服务器等核心设备上进行与工作范围无关的软件调试和操作。未经机房管理人员允许,不允许带领、指示他人进入机房、对网络及软件环境进行更改和操作。云平台资料安全制度资料、文档、数据等必须有效组织、整理和归档备案。工作人员不得在办公区接待来访人员。禁止任何人员将机房内的资料、文档、数据、配置参数等信息擅自以任何形式提供给其它无关人员或向外随意传播。对于牵涉到网络安全、数据安全的重要信息、密码、资料、文档等等必须妥善存放并做好备份。工作人员离开座位应确保终端计算机退出登录状态和桌面上没有包含敏感信息的纸档文件。机房内重要文件及打印有企业数据的纸张销毁,应使用碎纸机粉碎处理,不得随意丢弃;载有各种数据的计算机存储介质(磁盘、光盘、U盘)要专用专管,严禁随意放置。存储介质应确保放置安全、可靠的位置,并指定专人管理,存储介质中数据应保证同时存在多个数据备份。并根据特殊需要,实行异地存储,存储地的环境要求和管理方法应与本地相同。存储介质在物理传输过程中,应指定专门人员进行介质包装,并对介质出入做出详细记录。存储介质的归档和查询等应进行登记记录;存储介质专职人员应定期根据存档介质的目录清单进行盘点;重要介质中的数据和软件应采取加密存储,并根据所承载数据和软件的重要程度对介质进行分类和标识管理。存储介质若需带出工作场所,应首先对存储介质进行内容加密,并进行存储介质若需送出送出维修或销毁,首先要确保已经清除介质中的敏感数据存储介质在销毁前确保数据已经安全可靠的备份完毕。存储介质在确认存在无法修复的物理损坏后,应及时进行物理销毁。对保密性较高的存储介质须进行销毁审批,未经批准不得自行销毁;工作人员调离办公室应立即交还该办公室钥匙。云平台资产保护制度应编制并保存与信息系统相关的资产清单,包括资产责任部门、重要程度和所处位置等内容,规定信息系统资产管理的责任人员或责任部门,并规范资产管理和使用的行为;应根据资产的重要程度对资产进行标识管理,根据资产的价值区分责任人员和责任部门;应对资产信息分类与标识方法作出规定,并对信息的使用、传输和存储等进行规范化管理。机房工作人员应有义务安全和小心使用机房的任何设备、仪器等物品,在使用完毕后,应将物品归还并存放于原处,不应随意摆放。对于使用过程中损坏、遗失的物品应汇报登记,并对责任人追究相关责任。未经机房管理人员同意,不允许向他人外借或提供机房设备和物品。云平台保安制度1) 出入机房应注意锁好门窗。对于有客人进出机房,机房相关的工作人员应负责该客人的安全防范工作。最后离开机房的人员必须自觉检查和关闭所有机房门窗、锁定防盗装置。应主动拒绝陌生人进出机房。2) 工作人员离开工作区域前,应保证工作区域内保存的重要文件、资料、设备、数据处于安全保护状态。如锁定工作电脑、并将桌面重要资料和数据妥善保存等等。3) 外来人员出入应登记。4) 外来人员进入必须有相关的工作人员负责其行为安全。5) 未经机房管理人员批准,禁止将机房相关的钥匙、密码等物品和信息外借或透露给其它人员,同时有责任对保安信息保密。对于遗失钥匙、泄露保安信息的情况要即时上报,并积极主动采取措施保证机房安全。6) 机房人员对机房保安制度上的漏洞和不完善的地方有责任及时提出改善建议。7) 禁止带领与机房工作无关的人员进出机房。8) 不允许与机房工作无关的人员直接或间接操纵机房任何设备。9) 出现机房盗窃、破门、火警、水浸、110报警等严重事件时,机房工作人员有义务以最快的速度到达现场,协助处理相关的事件。云平台安全保密制度1) 遵守国家、省、市相关法律法规,严格执行国家计算机信息网络安全保密规定。2) 机房维护和管理人员应熟悉并严格执行安全保密规定。3) 工作人员须签署保密协议,遵守保密条款,履行保密义务。4) 工作人员未经授权不得打开机房内用户设备,不得拷贝、更改、删除用户服务器数据,不得将用户信息泄露给其他单位或个人。5) 外来人员和非本职工作人员,未经批准不得进入机房,不得上机操作,确保机房的安全保密。6) 不得泄漏云计算中心的机密信息,数据以及文件等。7) 未经授权,任何人不得接触和使用云计算中心或其他用户的设备。8) 核心业务资料等均属保密,不得任意抄录、复制及带出机房,也不得转于工作无关人员9) 核心业务系统的各级帐号、密码要定期修改,并以某种介质形式密封保存于安全可靠处10) 个人计算机密码要定期修改,长度至少为8位,必须字母、数字及其他符合混用11) 对离开本岗位的人员,应及时禁用其全部相关帐号12) 如果系统管理员变更,要及时修改超级用户密码13) 系统管理员应定期检查系统帐号的变更情况14) 未经许可,任何人员不得擅自翻看、抄录、复制、下载各类机密资料及图纸、设计文件、技术档案、内部资料、技术文档等(包括电子文档),严禁将上述资料带出云计算中心。知识管理为保证知识管理的正常运作,特别是在前期需要达到所有管理员工能把日常性的知识文档统一在知识管理平台中进行管理的这样一个目标,提高知识管理和工作运作效率,为云计算中心知识的沉淀、共享、应用、创新的动态循环。通过制度,可以达到为云计算中心在知识管理的过程中,形成知识的积累、知识的共享、知识的利用、知识的创新一个循环的知识管理状态,并逐步形成一个知识共享文化的环境;同时对与知识管理密切相关的自我学习意识的建立、及培训工作中的内部自我培训的建议、以及日常会议中的记录形成等方面。并以可行的激励方式使全体员工逐步形成内部知识共享文化氛围的形成,从而提高内部信息交流的效率和质量。通过本制度的执行能使云计算中心在以后的知识管理推进实施阶段逐步加深。质量管理为保障云计算中心安全稳定运行和规范服务,保障服务质量水平,降低服务质量风险,使质量管理系统化、规范化,特制定本制度。服务报告本文档适用于云计算中心运维管理中心的内部IT服务管理报告,以及向客户提交的相关报告。角色职责工作任务服务报告经理管理IT服务管理体系的所有报告,为内部管理与外部监督提供决策和参考的依据。汇总和分析IT服务管理体系的所有报告,为服务级别管理流程提供参考;若报告出现重大异常情况,提前服务管理体系负责人审批。客户/内部管理层阅览报告;审批报告中出现的重大异常情况。评价IT服务管理活动;审批报告中出现的重大异常情况。技术支持与售后服务措施为了让用户获得我公司提供的优质服务,解决系统运行中出现的问题。我公司将在保修期内向用户提供旨在提高用户的系统可用性的持续支持服务。通过技术支持与服务,我公司希望以预防的手段,避免系统故障发生,且将故障率降到最低,以减少不必要的损失;通过保证用户系统高度的可用率,保护用户的利益。我公司提供服务,技术支持和售后服务的程序、内容及措施等情况如下:技术服务热线我公司将为用户提供7×24小时的400热线电话(中文),如果用户在设备使用中遇到问题,无论是软件、硬件,都可以通过热线电话得到支持与帮助。请用户仔细记录故障现象,然后通过服务热线与我公司联系,我公司的技术服务专家在尽可能短的时间内协助和指导用户制定解决问题的方案,及时提出解决问题的建议和操作方法,然后由用户反馈给我公司解决方案是否有效,我公司会依据反馈信息决定进一步的支持措施。现场支持在接到用户设备故障通知后,在通过电话不能解决

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论