版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
方案建议书项目背景随着中国移动互联网业务的飞速发展,承载业务的云计算资源池规模也随之扩大,2014年度将扩容至1000台PC服务器的规模;支撑的系统包括:MM开发者域、彩云、彩云通讯录、飞信、无线城市、用管中心,智能语音云,融合通信等。为了保证云资源池软硬件稳定运行,虚拟资源配置合理,能够及时响应上层业务对资源的使用需求,计划建立一套完整的监控巡检、系统运维、故障处理、技术支持、安全管理、资产管理的统一运维体系,以确保业务系统的安全、稳定、高效运行。项目目标本项目的任务是组建云计算资源池系统统一运维服务支撑团队,提供对云计算资源池的统一运维服务,包括但不限于如下内容:1.以ITILv3、ISO20000以及中国移动相关的规范制度为依据建立云计算资源池维护服务体系,通过服务体系的建立及优化提升云计算资源池整体运维服务水平。2.提供云计算资源池所有硬件设备的日常监控、设备巡检、故障处理、资源管理、数据备份、系统优化、安全管理及网管支撑平台需求管理等内容。3.提供云计算资源池主动预防维护服务,包括:风险评估、应急容灾、优化分析、故障总结回顾等内容,从而提前发现系统存在的潜在风险,降低系统风险,提高系统稳定性。需求分析服务内容IT运维服务管理需求运维体系建设维护方需提出明确的运维体系建设及管理方案,以满足运维需求。包括但不限于下列部分:项目管理、团队管理、流程管理、资源管理、质量管理、故障/问题管理、变更/发布管理、配置/容量管理、能力/知识管理、IT服务持续性管理、服务目录及SLA管理、可用性管理、安全/应急管理等内容。流程管理根据项目的流程管理需求,至少需要对以下流程进行设计和标准化管理:事件管理、问题管理、变更管理、发布管理、配置管理、能力管理、IT服务持续性管理、可用性管理、安全管理、应急管理、故障管理、知识管理等流程。事件管理事件管理流程的主要功能是尽快解决出现的事件,保持云计算资源池系统的稳定性。设计合理的事件管理流程,明确流程中各角色的分工界面,把控事件的流转和升级,及时汇报处理结果,保障日常服务正常进行。信息发布采用布告栏、Email、屏幕消息、短信等方式为用户提供:停机公告、重大故障情况通告、系统升级公告、维护月报、统计分析结果、问题跟踪情况反馈等信息。运维质量管理通过科学的质检方法采集、分析质检数据,规范运维行为,通过连续的质量控制提升运维服务质量。知识管理根据系统的实际运作状况,整理资源池、系统相关技术文档,同时对汇总资源池技术资产,存档资源池变更历史,确保资源池文档库的完整及更新。运行监控7×24小时实时监控系统运行功能和性能状况,掌握各部件的日常运行状况,及时发现异常状况并进行处理。维护方需针对对系统的实际情况制定了完善的运行监控方案,进行主动预防性维护服务,尽可能减少系统故障的产生。当故障发生时,维护方按照不同的故障等级,在建立完善故障处理流程的基础上快速响应、快速恢复业务。配合故障排查及定位,准确定位的基础上配合开展修复工作,及时通报故障解决进展。如遇产品本身故障,协调相关原厂服务进行产品故障修复工作,确保故障得到及时的解决,减小故障影响。工作内容包括:依托网管支撑系统,实时对硬件设备及系统组件的CPU、内存、运行日志、目录、资源、磁盘使用情况、系统进程、I/O等指标进行监控。结合监控数据分析日常运行情况,对设备、系统、虚拟机及网络设备性能指标值突变,应能判断分析异常状况。监控服务应提交监控结果报告、异常情况及时预警移动负责人,同时每周提交系统负载情况监控、性能趋势分析,磁盘使用率等监控指标趋势分析。协助将所有监控对象联调到网管支撑平台。IT基础设施运维需求IT基础设施运维包含:主机、存储、虚拟化、网络设备的管理、维护、技术支撑,以及网管支撑资源池需求管理。分为日常运维需求及高级运维需求两大部份。日常运维工作需求日常运维包括:设备巡检、运行监控、事件处理、资源池管理、资源管理、参数管理、系统升级、应急管理、文档管理等系列工作。设备巡检定期对系统各部件和组件进行巡检,巡检实施前提交巡检计划,在得到各方确认后组织资源力量按照健康检查计划实施健康检查,在工作完成后提交巡检报告并组织讨论,并对巡检报告的相关事项进行相关预防性跟踪处理,协调落实相关调优/调整/补丁安装措施,保障系统运作稳定。具体工作包括:根据云计算资源池硬件现状,确定巡检设备列表、巡检内容、巡检手段、巡检频率以及巡检结果记录模板,制定巡检执行计划。其中关键指标巡检至少应做到2次/天,如遇紧急情况应提升频率以确保资源池可用性。以现场巡检和操作系统命令等方式,定期对机房环境、设备、配套设备定期现场巡检。对主机的运行状况以及其上虚拟机的运行状况等指标巡检。定期检查网络设备,防火墙及负载均衡等设备连接数等指标。巡检服务应提交巡检结果报告,异常情况及时预警移动负责人,同时每周提交性能分析报告,指出系统存在隐患。备份管理对云计算资源池所涉及重要配置数据以及关键应用建立完整的备份策略,进行全面或者部分重要数据恢复测试,并根据实际情况不断调整备份策略,优化备份技术方案,保证重要数据的安全以及可恢复性制订/优化/实施操作系统、虚机、数据库及网管支撑平台备份策略。进行数据恢复测试。优化备份软件运行效率。梳理历史备份数据。资源管理管理和维护计算、网络和存储的虚拟化资源,按照业务需求对资源进行分配、回收及安全管理等,具体工作包括:对资源申请进行核实。对资源(包括所有虚拟资产)进行分配、回收和安全管理。对资源使用提供相关建议。配合完成业务接入需求评估、方案设计、接入测试、上线运行、业务退网等工作。参数管理根据资源池的实际运行状况和具体要求,进行设备、系统和第三方软件参数和资源调整,并确保调整的合理性以及正确性。同时,对已知或经过验证的配置(包括主机、网络、存储和安全性设置)进行捕获并将其应用于其他主机,以此方式简化设置。主机配置/参数管理。虚拟机配置/参数管理及内存/CPU资源的动态调整。存储配置/参数管理,卷组、文件系统的划分。防护墙、交换机、路由器及负载均衡等网络设备配置/参数管理数据库、中间件配置/参数管理,定时任务的部署。上述设备、虚拟资源及组件的配置参数变更管理。设备及系统的策略配置变更,满足安全和业务新需求。系统升级为保证系统版本滚动上线或者基础架构变更情况下业务稳定性,对上线割接过程进行过程,在项目建设方的交付过程中,配合上线前、后系统验证测试,保证系统在上线前后IT基础设施的稳定运行与功能保障。上线前审核项目建设方提交的系统割接方案,并提出整改建议。上线前及上线后系统验证测试及提交是否上线建议。上线后观察资源池使用情况并总结分析评估上线质量。应急冗灾作为应对严重故障和灾难情况下的保障措施,根据系统架构,制订针对单点组件、重要部件失效的切换方案,制定应急预案,按计划定期进行应急演练。具体内容:制订重大故障应急预案,评估失效影响,建立定期进行单点部件、重要部件以及资源池整体的应急切换计划。定期进行相关应急演练,形成演练报告,并不断优化应急切换计划;在演练过程中验证应急管理的有效性。如遇重大节日和事件,按需求方要求开展不定期的应急演练和恢复演练工作。文档管理根据系统的实际运作状况,整理资源池相关技术文档,同时对汇总资源池技术资产,存档资源池变更历史,确保资源池文档库的完整及更新。包括有:维护系统资产信息,在资产新增、报废、变更时及时更新配置数据,同时存档变更历史。维护系统配置信息,在系统升级、扩容、割接时审核方案并做好变更配置信息的及时更新,保证配置信息的及时性和准确性,同时存档变更历史。维护系统拓扑图、设备物理位置、设备连接及部署环境信息,在系统升级、扩容、割接时审核方案并做好变更配置信息的及时更新,同时存档变更历史。维护系统巡检和健康检查结果,进行系统运行不同时段各部件功能和性能指标消耗情况的记录及归档。系统故障库维护故障信息记录及特侦,至少包括故障现象、发生时间、原因、跟进人、临时处理措施以及业务用侧详细信息。重大故障提交故障报告,包括故障发生到解决涉及到的所有细节内容。维护资源池应急演练和应急切换历史数据,包括演练和切换过程中遇到问题以及解决过程的细节内容。编写运维文档:如运维手册、分析报告,如日报、周报、运维质量报告等。在其他厂家实施项目中涉及需要配合他们提交的各类文档。配合工作配合SOX常规安全检查、系统安全审计等样本提取和解释工作配合业务部门和信息系统部要求的安全合规扫描、基线扫描、漏洞扫描和其他安全扫描工作。重大节日或者关键工作现场值守进行保障。高级运维工作内容涉及一线工程师无法及时解决的故障、系统部件或者组件打补丁、升级、重装、系统深度巡检等工作,驻场高级工程师应提供二线专家技术支持服务予以解决。同时高级工程师应开展系统持续优化等工作,包括定期回顾重大故障、系统性能分析等。风险评估维护方需要充分了解客户信息系统存在的隐患、风险,以及面临的网络安全威胁,就需要使用多种安全检查方法收集准确的基础数据信息,客观的从技术架构层面分析出系统存在的隐患和安全风险。梳理系统监控指标,分析历史监控数据,不断完善监控体系,优化告警阀值,标准化告警预处理。持续优化基于资源池的故障管理,深度巡检,监控数据以及日常运维,在不断积累日常运行健康基线数据的基础上,整合相关厂家的最新产品维护建议以及重要补丁信息,开展主动预防性服务,主要包括重要参数调整以及重要补丁安装,消除重大故障隐患。结合资源池使用现状和安全加固要求,提出安全加固建议和措施。具体工作如下:重要产品补丁安装/参数调整建议以及规划针对广东移动内部萨班斯内审要求,对操作系统进行漏洞修补和安全加固服务。结合平台使用现状和安全加固要求,提出安全加固建议和措施,并在通过审核的基础上进行实施安排。定期根据业务及系统要求及时更新优化监控和巡检指标项目、告警阀值和告警等级。持续完善监控和巡检方式,提交优化自动化脚本或者工具提升监控和巡检工作准确性和效率的方案和措施,并在通过审核的基础上进行实施安排。对资源池资源的总体容量跟踪,跟踪/记录资源使用情况,定期评估资源使用的合理性以及高效性,并提交调整建议,并在通过审核的基础上进行实施安排。例如:索引重建、虚拟机性能调优;虚拟资源占用情况评估及调优;中间件、数据库参数、TCP连接缓存数、集群通讯运行情况评估以及参数调优;操作系统及网络设备调优等。定期分析资源池各部件的配置参数信息库,评估参数配置合理性,并在通过审核的基础上进行实施安排。故障处理开展系统运行故障处理工作,首先进行故障的排查及定位工作,准确定位的基础上进行开展修复工作,及时通报故障解决进展,如遇产品本身故障,协调相关原厂服务进行产品故障修复工作,确保故障得到及时的解决,减小故障影响。故障等级及响应、恢复时限要求如下: 故障级别故障描述响应时间要求业务恢复时间要求一级故障整个系统瘫痪,基本功能不能实现或者全面退化小于10分钟2小时内恢复二级故障潜在的整个数据库瘫痪小于15分钟4小时内恢复三级故障直接影响服务,设备性能或服务部分退化小于1小时8小时内恢复四级故障断续或间接影响服务小于2小时24小时内恢复提供专家级技术支持,对故障进行深入分析,提交结论、评估故障修复方案,跟踪问题解决过程以及评估故障分析报告。系统宕机的恢复支持:恢复系统可用性,检查日志,收集错误信息,进行故障原因分析。针对资源池硬件设备制定微码补丁升级策略和计划并实施。定期分析故障知识库内容,总结提炼故障处理经验,提交故障优化处理机制方案,提升故障处理效率。定期对某时期的重大故障进行回溯。汇总故障原因,故障处理过程,故障修复过程,故障修复技术方案,不断对故障处理机制进行梳理优化,排查故障特征以及修复。深度巡检定期进行系统全面深入的健康检查,并在健康检查实施前提交健康检查计划,在得到各方确认后组织资源力量按照健康检查计划实施健康检查,在工作完成后提交健康检查报告并组织讨论,并对健康检查报告的相关事项进行相关预防性跟踪处理,落实相关调优/调整/补丁安装措施,保障系统运作稳定。确定云计算资源池全面深入的健康检查的技术方案、确定健康检查实施工具、实施计划以及资源要求。安排资源,实施健康检查、提交健康检查报告并进行讨论,对资源池各部件和组件的健康状况和性能消耗状况进行深入分析,例如资源池各部件健康情况趋势对比、健康状况评估、根据业务量增长趋势对资源池健康状况进行预测,发现潜在的风险。根据资源池的风险提出改善和优化方案和措施。制定相关调优/调整/补丁安装具体措施,制定调整计划,并跟进后续修复/优化工作。安装配置为保证系统能时时处于正常工作状态系统,合理规划资源池软硬件、虚拟机、操作系统等各部件的安装、重装、迁移和配置变更工作。具体内容:硬件重新装配、重配置以及迁移服务。设备涉及的操作系统重新安装。虚拟机重装、重配置以及迁移服务。由于配置或功能变化,必须的系统补丁安装和硬件微码升级工作。操作系统配置更改。存储配置更改。应用软件重装及重配置服务。数据迁移服务。技术交流提供系统软硬件和应用层技术交流服务、为客户方或系统管理员、系统集成商介绍相关技术、提供设备的维护要点、以及共同探讨相关系统优化方向;汇总、提炼运维中产生的问题、分析方法、工具使用等知识点,推动知识共享,提高项目团队技术能力。具体工作包括:提供开展资源池服务器、网络设备等硬件设备的技术支持及交流服务;提供数据库、中间件等第三方软件的技术支持及交流服务;提供虚拟化技术的技术支持及交流服务;提供资源池性能优化、资源管理优化、高可用性优化、自动化运维优化的技术支持及交流服务;安全管理维护方需制定并执行相应的安全保障策略,从技术、管理、工程、人员及虚拟资产等方面提出安全保障要求,确保信息系统的保密性、完整性和可用性,降低安全风险到可接受的程度,从而保障系统实现组织机构的使命。网管支撑系统需求管理归纳总结云计算资源池统一运维系统日常使用中的问题,及开展运维工作产生的实际需求,提供网管支撑系统开发商作为功能开发的依据,并持续跟进需求进度,推动网管支撑平台的能力不断完善。同时需要使用适合的工具作为网管支撑系统的有益补充,实现运维工作自动化和标准化,提高工作效率和工作质量。项目特点当前,各个运营商的云平台正面临平台数量大、硬件资源利用率低、运维成本高、能源消耗大、等众多问题。随着云计算的日趋成熟和发展,通过从技术和商业两个方面对传统应用模式进行颠覆,通过资源集中化、服务网络化、计费按需化和需求弹性化等,解决现有信息技术环境下资产利用率低、资源需求分散、系统冗余等问题,是新IT时代降低IT服务成本、有效提升服务灵活性的重要手段。面对新IT全新业务挑战,互联网基地云平台项目应该如何更好进行业务模式创新,实现业务能力的提升?其中,运用虚拟化技术建设的云计算资源池,实现对业务平台的统一承载成为运营商业务平台整合、提高业务竞争能力的重要途径。作为国内运营商领域的龙头,中移动互联网基地积极进行了云平台建设和维护项目的实时,以基地现有机房设备为依托,为多用户提供各类云计算服务,整体提升互联网基地云计算资源池的服务水平和业务能力。缺乏统一维护模式目前互联网基地云计算资源池各系统和业务的维护工作分散在各业务线,资源利用率低下,缺乏自动化支持手段,设备管理操作不灵活,需要通过“统一运维”方式来改变这种格局,以求有效提升IT支撑系统性能和响应能力。统维的优点可实现:对IT基础设施资源统一监控、维护及管理;组建专业维护团队,集中维护技术力量,提高维护工作专业性;业务部门专注业务发展,无需承担繁重底层维护工作;提升维护效率,节省维护成本。关联业务广互联网基地云计算资源池在12-13年有mm开发者域、彩云、彩云通讯录、飞信、无线城市、用管中心,智能语音云等业务提供服务,在14年中又有融合通信移交;另有新建统一分析、安全扫描、统一监控、统一拨测系统。14年计划将部分项目进行整合,纳入到统一维护中,目前维护范围:系统维护:包括MM开发者域、无线城市、用管中心、统一分析、统一监控、统一拨测、安全扫描。(整合了二部约60%的中小系统)。业务维护:主要涉及MM开发者域业务,包含应用内计费、能力池、终端池、开发者社区。统一监控:计划将我部所有系统都接入到统一监控中,其中13年已接入MM、无线城市、移动微博、139邮箱4个业务系统;14年计划接入彩云、彩云通讯录、用管中心3个业务系统。信息安全要求高系统安全保障主要是通过定期检查系统安全设置,以防止对系统未经允许的访问。定时进行系统安全性检查,定期进行系统密码回收和检查,定时对系统的补丁、漏洞等进行检查,对不知情攻击进行分析、总结,从技术角度进行安全加固,消除故障隐患,一旦系统出现漏洞会可能会导致各种非法的操作以及大量的信息泄露。因此服务团队需要有非常高的信息安全意识才能更好的理解资源池一些新的业务需求,不断的对资源池的信息安全管控方式方法进行调优和加固。运维服务复杂随着互联网基地云计算资源池一二期建设的交维。可以预见随着后续承载的业务量的逐步增加、关联的业务系统越来越多、信息安全要求越来越高,因此在运行维护过程中涉及的程序、规范、人员、工具也越来越多,用户对信息服务质量要求已越来越高,对专业的技术支持服务的依赖性也与日俱增,维护服务质量的细粒度也将从面到点体现。需要在现有运维管理流程规范基础上不断完善和优化,并通过各种手段和自动化工具建立统一的运维管理体系。设备种类复杂多样化本次服务项目涵盖了一二期资源池建设项目的所有硬件设备,包括了中低高三档服务器、存储虚拟化相关设备、负载均衡、交换路由设备、信息安全管控设备等,涉及范围广、种类多,都极大地增加了维护服务的难度,也对运维服务提供商的运维经验和实施方案提出更高更全面的要求,硬件设备列表如下:设备名称单位2013年设备数量(一期)2014年新增设备数量(二期)总数服务器台5357501285存储设备TB70115822283网络设备台302656信息安全设备台122436系统软件套328403731合计160627854391
?????方案综述?????实施计划?????服务体系构建运维团队组建运维组织架构岗位及职责说明项目经理岗位职责:整体安排团队人员的具体工作,协调内部事宜;协调支撑团队与维护团队的关系,保证工作衔接正常;负责系统、资源、云资源池等所有优化的评估与实施工作;负责团队成员的基本素质培训和专业技术培训;定期组织团队进行工作总结,并组织工作汇报;落实需求方对支撑团队工作的安排和要求;负责重大事件的全面跟进和解决,以及与受影响的各方的沟通协调;对服务流程提出合理化建议,优化工作方式,提高服务效率。技能要求:精通主流服务器/存储/网络硬件、操作系统、云资源池虚拟化等技术;3年以上与需求方合作经验,熟悉需求方的管理制度;优秀的协调沟通能力,具备丰富的沟通技巧和手段;较强的团队管理能力和领导力;较强的口头和文字表达能力;具有PMP管理认证或ITIL认证。具有同类项目经验。管理组-质量管理岗岗位职责:牵头制定项目的质量管理的流程规范;负责各项服务质量及报告收集、汇总、整理、提交工作;负责服务组、运维组工作质量评估和流程优化工作。承担服务组长B角,负责服务组日常管理工作;负责各类重要会议的速记及会议纪要编写工作。负责各类突发性的各类汇报材料撰写工作;其它临时专项工作。技能要求:大学本科及以上学历,1年以上IT服务质量管理工作经验;熟悉IT运维工作,对质量考核标准,各项KPI绩效指标,ISO20000&ITIL有一定了解;了解各类IT基本原理知识;熟练掌握word、excel、ppt等常用办公软件,文笔出色。较强的逻辑思维、分析问题能力;主动思考,善于总结,能承受工作压力。管理组-安全管理岗岗位职责:牵头制定安全管理相关的流程规范,从技术、管理、工程和人员等方面提出安全保障要求,确保信息系统的保密性、完整性和可用性,降低安全风险到可接受的程度,从而保障系统实现组织机构的使命。制定项目安全收集、分析和加固计划,及时发现安全隐患、风险以及面临的安全威胁,保障网络、服务器、支撑系统安全可靠运行;负责SOX安全检查、系统安全审计等样本的提取和解释工作;配合业务部门和安全部门要求的安全合规扫描、基线扫描、漏洞扫描和其他安全扫描;负责安全事件的处理,保证安全事件及时、有效解决;承担网络运维组长B角,负责网络运维组日常管理;负责其它临时专项工作。技能要求:计算机相关本科,具有三年以上相关工作经验;精通绿盟等主流网络扫描系统的管理,能针对扫描结果制定安全报告和安全加固方案;熟悉多种网络安全技术,对于TCP/IP协议有着深入的理解,了解Firewall,VPN,IDS,IPS等技术、熟悉市场主流网络及安全产品(Cisco、Huawei、Juniper等);熟悉多种操作系统,掌握Linux、windows安全管理技术;工作认真负责,良好的沟通能力。管理组-技术管理岗岗位职责:总体负责云计算方面的技术应用研究项目,制订研究方向和计划。负责云计算平台运维三线技术支撑。把握技术趋势,为团队发展指导方向。负责新技术研究,制定运维优化方案,推动新技术在项目落地;牵头开展运维管理相关的技术培训,提升项目组整体技术水平;组织故障分析会,制定故障处理及应急冗余方案;负责其他临时性专项工作。技能要求:熟悉云数据中心系统的技术体系结构及运维流程架构;熟悉主流J2EE、PHP、Python系统软件架构;熟悉主流问题需求追踪管理工具;思路开阔,乐于钻研云计算技术体系、开源技术体系和敏捷运维文化,如Devops等;具备良好的文档能力及沟通协调能力。管理组-综合管理岗岗位职责:负责运营、运维数据的统计、分析;负责项目知识库的建设和维护;承担项目的人事及行政接口;负责项目相关的接待及展示工作;负责项目人员的现场管理;积极开展团队建设活动,形成良好的工作氛围,提高团队工作绩效;负责其他临时性专项工作。技能要求:大学本科及以上学历,1年以上IT服务服务管理工作经验;熟悉知识库的管理手段,对知识的收集、整理、入库、错漏发现、老化评估、更新的流程和方法有较深刻的理解;了解各类IT基本原理知识;熟练掌握word、excel、ppt等常用办公软件,文笔出色。较强的逻辑思维、分析问题能力;具备良好的沟通能力,能承受工作压力。服务组-服务组长岗位职责:负责服务组日常工作计划并跟进落实,保证服务组各项工作正常进行;负责服务组各项工作流程、规范的制定和优化,审核组内各项工作完成质量,持续提升服务质量;负责服务组日常客户服务类工作管理和安排,以及客户专员岗月度考核工作;保证服务台客户服务工作正常开展;负责服务组相关文档的管理工作,保证各类工作文档质量;负责定期组织服务台例会,加强人员工作沟通,确保服务质量持续优化;承担质量管理岗B角,负责项目的质量管理工作;负责其他临时性专项工作。技能要求:大学本科及以上学历,3年以上IT服务台、callcenter工作,1年以上服务台管理经验;熟悉IT运维工作、质量考核标准,各项KPI绩效指标,对ISO20000&ITIL有一定了解;了解各类IT基本原理知识;熟练掌握word、excel等常用办公软件,文笔出色;较强的沟通表达能力,良好团队领导和组织能力;主动思考,善于总结,能承受工作压力,适应加班;持PMP/ITIL及相关证书者优先;服务组-客户服务岗岗位职责:负责统一受理项目客户各类类服务请求,派发工单,跟进处理进度,定时向服务请求人员反馈结果,保证及时受理各服务请求;负责统一对外、对内发布各类业务邮件及工程作业信息通报,保证信息发布的及时性;负责维护更新各类记录表单,准时收集、提交各接口部门所需机房资源情况统计报表;负责定期更新服务知识库、编写及更新热线操作手册,保证支撑文档的可用性;负责其他临时性专项工作。技能要求:大学专科及以上学历,计算机相关专业优先;1年以上客服相关工作经验,优秀应届毕业生亦可;有计算机基础知识;熟悉office软件,普通话流利,懂粤语,声音甜美;良好的沟通及表达能力,善于倾听,具备较强的服务意识与服务能力;善于学习,责任心强,诚实敬业,做事耐心细致,稳定,踏实,能够承受较强工作能力;熟悉IDC及云计算相关业务知识、具备一定的网络基础知识优先。服务组-监控服务岗岗位职责:负责项目7*24小时监控工作,保障项目基础设施、云平台、支撑系统的正常运作;负责异常事件、监控告警、故障告警的预处理工作,确保处理及时有效,并做好信息通报工作;负责非工作时间的服务受理工作,保证服务受理、转发工作正常开展;负责节假日期间项目的应急保障工作,并按要求完成各项工作;负责其他临时性专项工作。技能要求:计算机专业大专及以上学历;具有两年以上网络监控的相关工作经验;熟悉Cisco、华为等厂商设备配置及维护,具有良好的故障判断能力、故障分析能力,能识别一般及严重故障;CCNA或同等级证书以上资质优先;熟悉Linux、windows操作系统的维护管理;具有良好的沟通能力和协调能力;具备良好的文档编写能力;服务组-综合服务岗岗位职责:负责客户投诉/建议的受理、跟进及反馈,建立客户满意度调查机制,持续提升客户满意度;负责对外临时性公告的编写及发布;负责重点工单的全程跟进,确保工单完成的时效和质量;负责服务组相关服务报告的整理提交工作;协助服务台流程管理,保证流程流转与实现,提升工作效率;协助开展项目组培训工作,保证培训质量;负责其他临时性专项工作。技能要求:大学专科及以上学历,计算机相关专业优先;1年以上客服相关工作经验,优秀应届毕业生亦可;具有良好的口头表达能力,熟悉office软件,普通话流利,懂粤语,声音甜美;工作认真、负责、主动,具有良好的沟通能力和团队协作能力;熟悉大型IDC、云数据中心的整体架构和相关业务产品知识;熟悉IT服务管理,有ISO20000/itil工作经验;运维组-虚拟化运维组长岗位职责:负责虚拟化组工作整体规划及安排,监督重点专项工作的的处理进度;工作流程及规范的制定与更新,保证流程及规范的可执行性;负责虚拟化相关重大故障处理及技术支持,保障虚拟化故障得到及时有效解决;负责审核虚拟化资源分配及重要虚拟化运维操作,保证资源分配规范、配置管理安全;负责虚拟化专业技能知识培训,提升项目人员技术能力;负责其它临时性专项工作。技能要求:精通VMware、KVM、XEN、Hyper-V等虚拟化技术,且具有3年以上同类项目实施经验;精通至少一种数据库或中间件的软件技术;具备Linux、windows等操作系统的使用维护经验;具备设备集成实施或自动化维护能力;具备软件层高可用性以及集群架构实施或维护能力;具有VCP证书或同等资格认证。运维组-虚拟化运维岗岗位职责:负责云资源池设备巡检、参数管理、备份管理、故障处理等运维工作;负责完成资源调整、配置变更、资源优化、业务迁移生产保障等具体工作;负责风险评估,持续优化等高级运维工作。负责巡检报告、故障报告、优化报告等各类报告的撰写;协助开发商处理业务故障、升级、割接,协助硬件厂商更换硬件配件;技能要求:精通VMware虚拟化技术,且具有3年以上同类项目实施经验;精通至少一种数据库或中间件的软件技术;具备Linux、windows等操作系统的使用维护经验;具备设备集成实施或维护能力;具备软件层高可用性以及集群架构实施或维护能力;具有VCP证书或同等资格认证。运维组-平台运维组长岗位职责:技能要求:运维组-平台运维岗岗位职责:技能要求:运维组-主机/存储运维组长岗位职责:负责主机/存储组工作整体规划及安排,监督重点专项工作的的处理进度;工作流程及规范的制定与更新,保证流程及规范的可执行性;负责主机/存储重大故障处理及技术支持,保障主机/存储故障得到及时有效解决;负责审核主机/存储资源分配及重要设备操作,保证资源分配规范、配置管理安全;负责主机/存储类专业技能知识培训,提升项目人员技术能力;负责其它临时性专项工作。技能要求:大中型x86服务器集群和SAN/NAS存储维护管理经验,熟悉存储技术体系;熟悉服务器运维体系和技术体系,了解Intel、AMDCPU体系架构各版本的架构区别,熟悉x86服务器IPMI管理技术及主要带内管理工具,掌握大规模服务器批量监控、维护、备品备件管理的方法和工具;掌握Linux操作系统基本维护工具和方法,BMC、BIOS等固件及硬件驱动的升级更新等;良好的沟通和协调能力。运维组-主机/存储运维岗岗位职责:负责主机/存储设备的日常巡检、日志分析、故障处理等日常运维工作;负责服务器对存储资源进行划分和优化;及时响应处理存储方面的告警和故障。技能要求:掌握ESXi、KVM、Hyper-V、XEN等虚拟化技术熟悉SUSE、Linux、windows等操作系统基础知识和操作命令;熟悉NFS/CIFS/POSIX基本原理和配置;了解数据网络基本原理,了解存储相关的知识如RAID、条带等;熟悉分布式存储原理、架构、组网、部署方案等;掌握分布式存储的日常维护、故障界定基本方法等,精通分布式存储的管理如空间划分、参数配置、共享设置、参数调整等;运维组-网络运维组长岗位职责:负责网络组工作整体规划及安排,监督重点专项工作的的处理进度;工作流程及规范的制定与更新,保证流程及规范的可执行性;负责网络重大故障处理及技术支持,保障网络故障得到及时有效解决;负责汇聚层以上网络设备管理和配置并持续进行优化,保障核心网络的稳定性及性能;负责审核网络资源分配及重要网络设备操作,保证资源分配规范、配置管理安全;负责网络类专业技能知识培训,提升项目人员技术能力;负责其它临时性专项工作。技能要求:计算机相关本科;具有二年以上大型网络项目维护经验,处理过重大网络故障及疑难解析;熟悉网络优化,规划调整及CISCO/华为/Juniper厂家网络设备的配置,精通OSPF/BGP的实现原理及路由控制;CCIE资质;工作认真负责,良好的沟通能力。运维组-网络运维岗岗位职责:负责网络设备监控、巡检、日志分析、一般故障处理等日常运维工作;负责完配置变更、系统优化、策略变更、端口放通等具体工作;及时响应处理系统一般故障;负责巡检报告、故障报告、优化报告等各类报告的撰写;协助开发商处理业务故障、升级、割接,协助硬件厂商更换硬件配件;技能要求:熟悉思科、华为和H3C等品牌的路由器和交换机;熟悉网络工程的设计和部署,且具有3年以上管理或实施经验;精通以太网、SAN光纤存储网技术;具有同类项目经验。从事本项目人员一览表备选人员列表转维交接方案交接计划制定项目交接需要明确交接计划,根据我们对项目的评估计划在1个月之内完成工作的移交。项目交接计划如下,其中,1-9项在1周内完成,第2周开始并行维护,1个月完成项目的交接工作。项目基本情况调研;明确项目的服务范围以及与其他专业组的分工界面;项目相关的资料移交,至少包括项目相关制度、流程、规范;资源、业务、系统相关的列表和信息;运维相关的方案、手册、报告;移交资料梳理/评审,对于不完善和缺失的,要求原维护商在交接期间逐步补全;根据上述阶段的梳理情况,输出初步的服务目录以及服务承诺;测试环境权限授权,结合交接资料开展内部的学习和知识传递和积累;根据学习过程中发现的问题,召开答疑交流。开展内部维护技能评估;生产环境权限授权;并行维护阶段,双方共同完成项目运维工作。前期由开发/集成商主导,逐步过渡由上海新炬团队主导。召开会议,正式移交项目运维工作。交接范围确定在对项目运维有基本了解之后,对项目运维工作进行分类和细化,明确体系内的各个运维单位的分工界面以及对外的服务承诺。开展服务目录及服务承诺的评审工作,听取各方建议不断完善和优化培训及资料移交云平台及支撑系统资料系统介绍系统设计及需求说明书功能及业务说明书系统角色及权限列表用户群体资料相关管理办法运维管理手册用户操作手册干系人联系表(包括系统管理员列表)运维工作资料常见问题FAQ系统维护手册已知故障列表及解决方案系统应急预案系统巡检方案系统维护账号密码业务逻辑图系统架构图网络拓扑图硬件资料服务清单(业务系统服务类型、访问方式)与其他系统的接口资料现有监控手段及监控列表监控指标及阈值系统例行维护时间表技能掌握及能力评估上海新炬运维团队成员都具备丰富云计算运维项目经验,在项目交接期间,分组开展现场调研和移交资料梳理等工作,再通过内部讨论、培训等方式,达到知识的快速传递。并加强与原维护团队及开发厂商的沟通交流,通过答疑会及交流等方式快速掌握运维技能。由在正式开展并行维护之前,上海新炬将对项目所有成员的技能和运维环境的了解情况进行深入的评估,对于不符合要求的成员采取再培训或替换等方式,确保所有上线人员均能满足维护工作的要求。并行维护与开发/集成厂商共同处理项目日常的运维工作。第1-2周,由开发/集成厂商主导,上海新炬配合,运维的结果由开发/集成厂商负责。并行第3周,日常的运维操作由上海新炬主导,开发/集成厂商提供监督和必要的技术支持。正式移交召开交接总结大会,项目运维工作正式移交上海新炬,运维结果由上海新炬负责,开发/集成厂商提供必要的技术支持。端到端工作梳理在完成转维交接工作后,有必要对运维体系下相关的物理拓扑、云平台/支撑系统和所有使用到的底层技术以及业务流程进行全面深入的梳理和验证。一方面确保掌握的信息完整、准确;另一方面,深化对运维环境的了解,提高后续运维管理、运维优化、故障处理的能力物理拓扑梳理通过梳理主机、存储、网络的拓扑架构图,以此为基础注释每一节点的接口类型、接口信息、配置信息、并对用途进行描述。该阶段预计产出物包括:《物理服务器机房信息表》《存储机柜机房信息表》《设备网络连接端口信息表》《物理设备机房拓扑图》通过对物理拓扑的梳理,可以在运维过程中做到:物理设备机房定位链路异常定位机房巡检登记服务器配置查询系统构架梳理主要是针对项目运维所涉及的云平台、虚拟化平台、运维支撑系统。结合上一阶段物理拓扑的梳理成果,梳理产生各系统的系统构架图,并标识每个节点的功能、作用以及系统间调用关系与依赖功能。该阶段预计输出物包括:《系统架构图及节点说明集》通过对系统构架的梳理,依据产生的输出物,可以在日常运维过程中做到方便查询系统调用关系及时准确的故障定位精确判断故障影响范围为后继业务梳理提供结构描述技术架构研究在已完成系统架构梳理的基础上,进一步厘清公众云各平台底层所使用的技术,从而学习掌握包括系统部件、核心进程、配置文件、日志格式、日志事件等内容。该阶段预计输出物包括:《系统部署结构图》《系统配置文件作用表》《关键日志时间信息表》《后端关键进程表》完成技术架构的梳理后。将更加翔实的了解运维相关系统的底层架构。从而做到:故障即时发现故障精确定位故障快速回复防止配置误操作支撑流程梳理将前期完成的物理拓扑、系统架构、技术架构等内容梳理。对应具体的支撑系统,结合系统架构图明确各个节点经过的设备信息以及操作类型和内容,从而完成对支撑系统流程梳理。该阶段预计输出物包括:《支撑系统业务流关系图》 完成对业务流程的梳理后。将从以下四个方面提高运维团队对业务系统的保障能力:方便查询业务关系提高用户投诉定位速率提高订单生效查询速率促进业务流程优化制定服务目录梳理流程梳理及角色分工角色定义承载业务系统客户统一运维服务团队客服、监控、云平台/支撑系统三线设备及集成厂商三线流程梳理及分工界面通用流程服务目录管理流程概要过程:各种服务目录的探讨:探讨和制定服务目录的流程和管理;各种服务目录处理的检讨:检讨服务目录流程的可用性;管理和维护服务目录的相关工作:对服务目录进行管理和改进;角色分工界面:客户服务岗:在根据服务目录受理承载业务系统客户的工作中,提出服务目录的改进工作;综合服务岗:汇集工作中服务目录的改进事项,提出服务目录改进思路;配合服务组长开展改进工作;服务组组长:组织开展服务目录改进工作,配合综合管理岗更新服务目录管理;综合管理岗:提出和把控更新服务目录管理,组织各个角色人员开展工作;各小组运维岗(虚拟化、平台、主机/存储、网络):根据各小组组长的指示,对服务目录管理中的服务处理进行优化工作;各小组运维组长:根据综合管理岗的指示,配合指导各小组运维岗开展服务处理优化;技术管理主管:必要时对各个运维组提供服务处理建议和指导;质量管理岗:把控服务目录的质量;服务水平管理流程概要过程:各种服务水平的检讨:在提供服务中检讨服务质量水平;各种服务水平的提升:定期检讨,提升培训;角色分工界面:客户服务岗:定期对服务水平进行自我检讨和反思;综合服务岗:定期对服务水平进行自我检讨和反思,协助服务组长对客户服务岗进行服务水平提升培训;服务组组长:定期对服务水平进行自我检讨和反思,对各个服务岗进行服务水平考核和提升培训;各小组运维岗(虚拟化、平台、主机/存储、网络):定期对服务水平进行自我检讨和反思;各小组运维组长:定期对服务水平进行自我检讨和反思,对各小组运维岗进行服务水平提升培训;综合管理岗:对整个运营服务水平进行考核,帮助制定提升服务水平的方法;质量管理岗:把控整个运营服务水平的质量;咨询管理流程概要过程:咨询的记录和初步解答:记录详细的咨询信息,初步根据客户的咨询进行沟通解答,对未解答进行派单;咨询升级和解决:二线接受服务组的派单,对咨询进行沟通解答;咨询关闭:如果咨询得到了解决,则遵循咨询关闭过程结束该事件;角色分工界面:客户服务岗:受理承载业务系统客户(包括第三方代维人员)通过电话、邮件等方式的咨询,通过简单的Q&A进行解决;如果咨询无法得到初步解决,以邮件提交相应的运维组进行解答,并关注咨询直至解决。各小组运维岗(虚拟化、平台、主机/存储、网络):接受客户服务岗的咨询派单请求,按咨询的优先级进行沟通解答。对于定位错误非本小组的咨询,及时转交相应的运维小组沟通解答。如咨询无法解答,升级由本小组组长进行处理。如组长依然无法解答,请求三线厂商的支持。各小组运维组长:接受本小组运维岗咨询升级的处理请求进行沟通解答。如果咨询无法解答,请求技术管理主管或三线厂商的支持。技术管理主管:接受各小组运维升级的处理请求,保持与各运维小组、三线厂商之间的沟通。沟通汇报管理流程概要过程:服务组的沟通汇报:由客户服务岗和监控服务岗向综合服务岗或服务组组长沟通汇报;综合服务岗向服务组组长或综合管理岗汇报;运维组的沟通汇报:由各小组运维岗向本小组运维组长沟通汇报;各小组运维组长向技术管理主管沟通汇报;管理岗的沟通汇报:由质量管理岗、综合管理岗、技术管理主管向项目经理汇报;角色分工界面:客户服务岗:在整个客户服务体系中,遇到无法定位或定级等情况,向综合服务岗或服务组组长进行沟通和汇报;监控服务岗:在整个监控服务体系中,遇到无法协同等情况,向综合服务岗或服务组组长进行沟通和汇报;综合服务岗:在整个服务体系中,保持向服务组组长进行沟通和汇报;必要时作为服务组组长的B角色。服务组组长:在整个服务体系中,保持和各个服务岗的沟通,向综合管理岗汇报;综合管理岗:在整个服务体系中,保持与综合服务岗和服务组组长沟通,向项目经理汇报;必要时还需要与局方负责人保持沟通和汇报;各小组运维岗(虚拟化、平台、主机/存储、网络):在整个运维体系中,保持与各小组运维岗和本小组运维组长的沟通,向本小组运维组长汇报;各小组运维组长:在整个运维体系中,保持与本小组运维岗的沟通,向技术管理主管沟通和汇报;必要时向质量管理岗沟通和汇报;技术管理主管:在整个运维体系中,保持与各小组运维组长的沟通,保持与各个管理岗的沟通,向项目经理汇报;必要时还需要与局方负责人保持沟通和汇报;质量管理岗:在整个运营运维体系中,保持与各个管理岗的沟通,向项目经理汇报;必要时还需要与局方负责人保持沟通和汇报;项目经理:在整个运营运维体系中,保持与各个管理岗的沟通,定期与局方负责人沟通和汇报;信息发布管理流程概要过程:1) 发布的确认:确认发布变更请求的必备信息;2) 制定和规划:制定发布策略,规划发布内容3) 通知和保障:落实通知,协调各方人员和资源的配合和保障4) 发布结束:发布变更完成,由服务组遵循发布关闭过程结束发布。角色分工界面:客户服务岗:受理承载业务系统客户(包括第三方代维人员)通过邮件、工单等方式申告的发布,经过初步的定位,以工单形式提交相应的运维组定级。整理对外发布公告内容,通过平台、短信、邮件和电话的方式及时发布变更进度公告。在变更完成后,反馈用户结果。如变更无法定位,可依次提交给综合服务岗、服务组长、技术管理岗协助确定;如重大变更或紧急变更,通知服务组长、综合服务岗,由综合服务岗全程跟进处理完成。综合服务岗:接受客户服务岗的重大变更和紧急变更的跟进请求,确定变更定位的结果,全程跟进变更的情况。协调人员和资源,指导客户服务岗落实通知和发布公告。如存在多个重大变更和紧急变更同时发生等情况,保持与技术管理主管、各个运维组的沟通,明确变更的优先顺序。如出现变更进度把控困难等情况,可升级由客户组长处理。服务组组长:接受综合服务岗的重大变更和紧急变更的跟进请求,把控重大和紧急的变更情况,保持与技术管理主管、质量管理岗的沟通,必要时作为综合服务岗的B角色协助跟进。各小组运维岗(虚拟化、平台、主机/存储、网络):接受客户服务岗的一般变更处理请求,确定变更定位和定级的结果,按照变更的优先级进行评估处理,处理完成后进行测试并反馈处理结果。对于定位错误,非本小组处理的变更,及时转交相应的运维小组处理。对于定级错误,反馈本小组组长跟进。配合本小组组长评估处理,必要时制定变更计划、变更方案。各小组运维组长:接受综合信息岗大变更和紧急变更的处理请求,确认变更的影响和排程,制定变更计划和方案,验收变更结果。保持与各运维小组、技术管理主管和质量管理岗之间的沟通,主导本小组运维岗处理。如存在多个重大变更或紧急变更同时发生等情况,定位变更处理的优先级,交由技术管理主管审批。将配合技术管理主管确定变更方案并主导变更方案的实施及结果反馈。技术管理主管:接受运维小组重大变更和紧急变更的处理请求,审批变更计划和方案,保持与各运维小组、三线厂商以及其他资源之间的沟通,提供技术支撑和指导,验收变更结果。将配合项目经理汇报处理情况。质量管理岗:接受运维小组变更的处理请求,保持与技术管理主管、各运维小组、三线厂商以及其他资源之间的沟通,把控重大变更处理的质量。必要时对变更结果进行验收测试。协助项目经理向局方接口人汇报处理情况。项目经理:接受运维小组重大变更和紧急变更的处理请求,审批变更计划,保持与技术管理主管、质量管理岗、各运维小组、三线厂商以及其他资源之间的沟通,总结变更方案,并向局方接口人汇报处理情况。客户满意度管理流程???监控管理流程概要过程:监控的记录:对监控和巡检的信息记录;监控告警的发起:对告警进行自主发起处理;监控告警的处理:对告警进行处理;角色分工界面:监控服务岗:提供7*24小时的监控相应服务,对于监控系统产生的告警,经过预处理定位、定级告警,以工单形式提交相应的运维组处理,并关注告警直至解决;在告警恢复之后,检查告警现象是否已经消失,并关闭工单,清除监控告警。如告警无法准确定位,可依次提交给综合服务岗、服务组长、技术管理岗协助确定;如告警属于严重级别,在提交运维组处理的同时,同时通知服务组长、综合服务岗,由综合服务岗全程跟进处理直至解决;如告警属于重大级别,由综合服务岗通过平台、短信或邮件的方式发布告警故障公告,并通知局方项目接口人、项目经理、技术管理主管以及相关组的组长,由项目经理协调资源、全程把控处理进度,由技术管理主管主导处理故障并整理输出故障相关的分析报告。综合服务岗:接受监控服务岗的严重级别以上的告警跟进请求,确认告警分级和定位的结果,全程跟进告警处理的效率和质量,确保告警恢复时间符合对应等级的告警恢复时限的要求,保证不会影响当月项目整体的SLA。如出现资源调配、进度把控困难等情况,可升级由客服组长处理。如存在多个告警同时发生等情况,客服组长将作为B角协助跟进。对于重大告警故障,综合服务岗有责任收集运维组、技术管理主管对告警故障的原因、影响范围分析以及预计恢复的时间,整理对外发布的公告内容,通过平台、短信或邮件的方式及时发布并定期发布进度公告。服务组长:接受综合服务岗的告警升级处理请求,确认告警分级和定位的结果,主导或配合综合服务岗跟进告警。如出现资源调配、进度把控困难等情况,可升级由项目经理协调跟进。各小组运维岗(虚拟化、平台、主机/存储、网络):接受监控服务岗的告警处理请求,确认告警分级和定位的结果,按告警的优先级进行处理并反馈处理结果。对于定位错误,非本小组处理的告警,及时转交相应的运维小组处理。对于无法处理的告警,依次提交本小组运维组长、技术管理主管、三线厂商处理。如告警故障属于严重故障以上级别,无论是否能够独立解决都必须向本小组组长报备。如属于告警重大故障,告警故障处理将由技术管理主管牵头处理,运维组相关全程配合,并记录告警故障期间关键时间点及操作,为后续的告警故障分析报告提供原始依据。各小组运维组长:接受本小组运维岗严重级别以上的告警故障报备和告警故障处理升级请求,确认告警分级和定位的结果,保持与各运维小组、技术管理主管之间的沟通,主导或配合本小组运维岗处理。如属于重大告警故障,告警故障处理将由技术管理主管牵头处理,运维组长将尽可能调配资源,全力配合告警故障处理。技术管理主管:接受运维小组严重级别以上的告警故障处理升级请求,确认告警故障分级和定位结果,保持与各运维小组、三线厂商之间的沟通,提供技术支撑和告警故障处理方案。如属于重大告警故障,将配合项目经理确定处理方案并主导处理方案的实施及结果反馈。主导整理输出故障相关的分析报告。项目经理:接受运维小组严重级别以上的告警故障处理升级请求,确认告警分级和定位结果,保持与技术管理主管、各运维小组、三线厂商以及其他资源之间的沟通,总结各方意见确定告警故障处理方案。如属于重大告警故障,将调配所有可调配资源、全程把控处理进度,并阶段性向局方接口人汇报处理情况。例行维护管理流程概要过程:例行维护的发起:由质量管理岗发起,客户服务岗进行必要的信息发布和沟通;例行维护的工作制定:各小组运维岗制定和指导进行例行维护,监控服务岗协助。角色分工界面:客户服务岗:收集整理各小组运维岗提出的例行维护,及时邮件发布相关的信息和进度,与承载业务系统客户(包括第三方代维人员)电话沟通落实信息。监控服务岗:制定例行维护的监控措施和方法,协助各小组运维岗及时反馈监控情况信息;各小组运维岗(虚拟化、平台、主机/存储、网络):协助本小组运维组长制定例行维护方案,跟进和处理例行维护工单。及时反馈最新进展给客户服务岗。各小组组长:主导制定例行维护方案,向技术管理主管和质量管理岗汇报方案和结果。技术管理主管:审阅例行维护方案,提出建议,保持各方资源的沟通。质量管理岗:把控例行维护的处理结果。必要时协同制定例行维护方案。事件管理流程概要过程:1) 事件的查明和记录:记录详细的事件信息;2) 初步归类和初步支持:对事件进行分类/分级,初步根据类型向客户提供必要的支持,对未支持进行派单;3) 解决事件:二线/三线接受服务组的派单,对事件进行处理解决;4) 事件关闭:如果事件得到了解决,则遵循事件关闭过程结束该事件;5) 事件升级:如果事件升级为问题,交由综合服务岗、服务组长跟进;角色分工界面:客户服务岗:受理承载业务系统客户(包括第三方代维人员)通过电话、邮件、工单等方式申告的事件,经过初步的事件定位和定级,以邮件或工单形式提交相应的运维组处理,并关注事件直至解决;在事件解决之后,反馈用户处理结果。如事件无法准确定位,可依次提交给综合服务岗、服务组长、技术管理岗协助确定;如事件属于重大级别,在提交运维组处理的同时,同时通知服务组长、综合服务岗,由综合服务岗全程跟进处理直至解决;综合服务岗:接受客户服务岗事件升级的跟进请求,确认事件分级和定位的结果,全程跟进事件处理的效率和质量,确保事件解决的时限要求,保证不会影响当月项目整体的SLA。如出现事件无法准确定位等情况,可升级由客服组长处理。如存在多个事件同时发生等情况,客服组长将作为B角协助跟进。对于重大事件,综合服务岗有责任收集运维组、技术管理主管对事件的原因、影响范围分析以及预计恢复的时间,整理对外发布的公告内容,通过平台、短信或邮件的方式及时发布并定期发布进度公告。服务组长:接受综合服务岗的事件升级处理请求,确认事件分级和定位的结果,主导或配合综合服务岗跟进事件。如出现事件升级为问题等情况,可升级由综合管理岗协调跟进。综合管理岗:接受服务组长的事件升级处理请求,确定事件分级和定位的结果,主导或指导综合服务岗、服务组长跟进事件。如事件情况无法准确定位等情况,可协调技术管理主管对事件的原因升级为问题进行处理。各小组运维岗(虚拟化、平台、主机/存储、网络):接受客户服务岗的事件处理请求,确定事件分级和定位的结果,按事件的优先级进行处理并反馈处理结果。对于定位错误,非本小组处理的事件,及时转交相应的运维小组处理。对于无法处理的事件,依次提交本小组运维组长、技术管理主管、三线厂商处理。如事件属于重大级别,无论是否能够独立解决都必须向本小组组长报备。如事件升级为问题,问题处理将由本小组组长进行定位,运维组相关全程配合,并并记录问题期间关键时间点及操作,为后续的问题分析报告提供原始依据。各小组运维组长:接受本小组运维岗事件升级的处理请求,确定事件分级和定位的结果,保持与各运维小组、技术管理主管之间的沟通,主导或指导本小组运维岗处理。如事件属于重大事件,无论是否能够解决都必须向技术主管报备。调配资源,全力配合故障处理。如事件升级为问题,问题处理将由技术管理主管进行定位,运维组长将尽可能调配资源,全力配合问题处理。技术管理主管:接受事件升级的处理请求,确定事件分级和定位结果,保持与各运维小组、三线厂商之间的沟通,提供技术支撑和处理方案。如属于重大问题,将配合项目经理确定处理方案并主导处理方案的实施及结果反馈。主导整理输出故障相关的分析报告。项目经理:接受事件再三升级的处理请求,将调配所有可调配资源、全程 把控处理进度,并阶段性向局方接口人汇报处理情况。故障管理流程概要过程:1) 故障检测和记录:记录故障申告的相关信息;2) 分类和初步支持:向客户提供必要的远程支持、对故障进行分级/分类,对未能通过初步支持解决的故障进行派单;3) 解决和恢复:二线/三线接受服务组的派单,对故障进行调查和分析,解决和恢复故障;4) 故障关闭:如果故障得到了解决,则遵循故障关闭过程结束该故障;5) 故障监视:监视故障的处理过程,必要时进行管理升级并负责和客户沟通。角色分工界面:客户服务岗:受理承载业务系统客户(包括第三方代维人员)通过电话、邮件、工单等方式申告的故障,经过初步的故障定位和定级,以工单形式提交相应的运维组处理,并关注故障直至解决;在故障恢复之后,检查故障现象是否已经消失,并按需反馈用户处理结果。如故障无法准确定位,可依次提交给综合服务岗、服务组长、技术管理岗协助确定;如故障属于严重级别,在提交运维组处理的同时,同时通知服务组长、综合服务岗,由综合服务岗全程跟进处理直至解决;如故障属于重大级别,由综合服务岗通过平台、短信或邮件的方式发布故障公告,并通知局方项目接口人、项目经理、技术管理主管以及相关组的组长,由项目经理协调资源、全程把控处理进度,由技术管理主管主导处理故障并整理输出故障相关的分析报告。监控服务岗:提供7*24小时的监控相应服务,对于监控系统产生的告警,经过预处理定位、定级故障,以工单形式提交相应的运维组处理,并关注故障直至解决;在故障恢复之后,检查故障现象是否已经消失,并关闭工单,清除监控告警。如故障无法准确定位,可依次提交给综合服务岗、服务组长、技术管理岗协助确定;如故障属于严重级别,在提交运维组处理的同时,同时通知服务组长、综合服务岗,由综合服务岗全程跟进处理直至解决;如故障属于重大级别,由综合服务岗通过平台、短信或邮件的方式发布故障公告,并通知局方项目接口人、项目经理、技术管理主管以及相关组的组长,由项目经理协调资源、全程把控处理进度,由技术管理主管主导处理故障并整理输出故障相关的分析报告。综合服务岗:接受客户服务岗及监控服务岗的严重级别以上的故障跟进请求,确认故障分级和定位的结果,全程跟进故障处理的效率和质量,确保故障恢复时间符合对应等级的故障恢复时限的要求,保证不会影响当月项目整体的SLA。如出现资源调配、进度把控困难等情况,可升级由客服组长处理。如存在多个故障同时发生等情况,客服组长将作为B角协助跟进。对于重大故障,综合服务岗有责任收集运维组、技术管理主管对故障的原因、影响范围分析以及预计恢复的时间,整理对外发布的公告内容,通过平台、短信或邮件的方式及时发布并定期发布进度公告。服务组长:接受综合服务岗的故障升级处理请求,确认故障分级和定位的结果,主导或配合综合服务岗跟进故障。如出现资源调配、进度把控困难等情况,可升级由项目经理协调跟进。各小组运维岗(虚拟化、平台、主机/存储、网络):接受客户服务岗及监控服务岗的故障处理请求,确认故障分级和定位的结果,按故障的优先级进行处理并反馈处理结果。对于定位错误,非本小组处理的故障,及时转交相应的运维小组处理。对于无法处理的故障,依次提交本小组运维组长、技术管理主管、三线厂商处理。如故障属于严重故障以上级别,无论是否能够独立解决都必须向本小组组长报备。如属于重大故障,故障处理将由技术管理主管牵头处理,运维组相关全程配合,并记录故障期间关键时间点及操作,为后续的故障分析报告提供原始依据。各小组运维组长:接受本小组运维岗严重级别以上的故障报备和故障处理升级请求,确认故障分级和定位的结果,保持与各运维小组、技术管理主管之间的沟通,主导或配合本小组运维岗处理。如属于重大故障,故障处理将由技术管理主管牵头处理,运维组长将尽可能调配资源,全力配合故障处理。技术管理主管:接受运维小组严重级别以上的故障处理升级请求,确认故障分级和定位结果,保持与各运维小组、三线厂商之间的沟通,提供技术支撑和故障处理方案。如属于重大故障,将配合项目经理确定处理方案并主导处理方案的实施及结果反馈。主导整理输出故障相关的分析报告。项目经理:接受运维小组严重级别以上的故障处理升级请求,确认故障分级 和定位结果,保持与技术管理主管、各运维小组、三线厂商以及其他资源之 间的沟通,总结各方意见确定故障处理方案。如属于重大故障,将调配所有 可调配资源、全程把控处理进度,并阶段性向局方接口人汇报处理情况。问题管理流程概要过程:1) 问题的记录:记录详细的问题信息;2) 初步归类和初步支持:对问题进行分类/分级,初步根据类型向客户提供必要的支持,对未支持进行派单;3) 解决事件:二线/三线接受服务组的派单,对问题进行处理解决;4) 问题关闭:如果问题得到了解决,则遵循问题关闭过程结束该事件;5) 问题升级:如果问题升级为故障,交由服务组长、综合管理岗跟进;角色分工界面:客户服务岗:受理承载业务系统客户(包括第三方代维人员)通过电话、邮件、工单等方式申告的问题,经过初步的问题定位和定级,以邮件或工单形式提交相应的运维组处理,并关注问题直至解决;在问题解决之后,反馈用户处理结果。如问题无法准确定位,可依次提交给综合服务岗、服务组长、技术管理岗协助确定;如问题属于重大级别,在提交运维组处理的同时,同时通知服务组长、综合服务岗,由综合服务岗全程跟进处理直至解决;综合服务岗:接受客户服务岗问题升级的跟进请求,确认问题分级和定位的结果,全程跟进问题处理的效率和质量,确保问题解决的时限要求,保证不会影响当月项目整体的SLA。如出现问题无法准确定位等情况,可升级由客服组长处理。如存在多个问题同时发生等情况,客服组长将作为B角协助跟进。对于重大问题,综合服务岗有责任收集运维组、技术管理主管对问题的原因、影响范围分析以及预计恢复的时间,整理对外发布的公告内容,通过平台、短信或邮件的方式及时发布并定期发布进度公告。服务组长:接受综合服务岗的问题升级处理请求,确认问题分级和定位的结果,主导或配合综合服务岗跟进事件。如出现问题升级为故障等情况,可升级由综合管理岗协调跟进。综合管理岗:接受服务组长的问题升级处理请求,确定问题分级和定位的结果,主导或指导综合服务岗、服务组长跟进问题。如问题情况无法准确定位等情况,可协调技术管理主管对问题的原因升级为故障进行处理。各小组运维岗(虚拟化、平台、主机/存储、网络):接受客户服务岗的问题处理请求,确定问题分级和定位的结果,按问题的优先级进行处理并反馈处理结果。对于定位错误,非本小组处理的问题,及时转交相应的运维小组处理。对于无法处理的问题,依次提交本小组运维组长、技术管理主管、三线厂商处理。如问题属于重大级别,无论是否能够独立解决都必须向本小组组长报备。如问题升级为故障,故障处理将由本小组组长进行定位,运维组相关全程配合,并并记录故障期间关键时间点及操作,为后续的故障分析报告提供原始依据。各小组运维组长:接受本小组运维岗问题升级的处理请求,确定问题分级和定位的结果,保持与各运维小组、技术管理主管之间的沟通,主导或指导本小组运维岗处理。如问题属于重大事件,无论是否能够解决都必须向技术主管报备。调配资源,全力配合故障处理。如问题升级为故障,故障处理将由技术管理主管进行定位,运维组长将尽可能调配资源,全力配合故障处理。技术管理主管:接受问题升级的处理请求,确定问题分级和定位结果,保持与各运维小组、三线厂商之间的沟通,提供技术支撑和处理方案。如属于重大问题,将配合项目经理确定处理方案并主导处理方案的实施及结果反馈。主导整理输出故障相关的分析报告。项目经理:接受问题再三升级的处理请求,将调配所有可调配资源、全程 把控处理进度,并阶段性向局方接口人汇报处理情况。变更管理流程概要过程:1) 变更启动和记录:收集变更请求的必备信息;2) 评估和审批:由运维组进行评估和上级领导审批;3) 计划与排程:由运维组制定变更计划、变更方案和回退方案;4) 实施和测试:,由二线/三线进行变更实施,上级领导进行验收,质量管理岗监督把控。必要时由服务组发布变更计划通知。5) 变更关闭:变更完成,由服务组则遵循变更关闭过程结束变更。角色分工界面:客户服务岗:受理承载业务系统客户(包括第三方代维人员)通过邮件、工单等方式申告的变更,经过初步的定位和定级,以工单形式提交相应的运维组评估。在制定好变更方案后,必要时发布变更计划公告。在变更完成后,反馈用户处理结果。如变更无法定位或定级,可依次提交给综合服务岗、服务组长、技术管理岗协助确定;如重大变更或紧急变更,通知服务组长、综合服务岗,由综合服务岗全程跟进处理完成。综合服务岗:接受客户服务岗的重大变更和紧急变更的跟进请求,确定变更定位和定级的结果,全程跟进变更的情况。整理对外发布公告内容,通过平台、短信、邮件和电话的方式及时发布变更进度公告。如存在多个重大变更和紧急变更同时发生等情况,保持与技术管理主管、各个运维组的沟通,明确变更的优先顺序。如出现变更进度把控困难等情况,可升级由客户组长处理。服务组组长:接受综合服务岗的重大变更和紧急变更的跟进请求,把控重大和紧急的变更情况,保持与技术管理主管、质量管理岗的沟通,必要时作为综合服务岗的B角色协助跟进。各小组运维岗(虚拟化、平台、主机/存储、网络):接受客户服务岗的一般变更处理请求,确定变更定位和定级的结果,按照变更的优先级进行评估处理,处理完成后进行测试并反馈处理结果。对于定位错误,非本小组处理的变更,及时转交相应的运维小组处理。对于定级错误,反馈本小组组长跟进。配合本小组组长评估处理,必要时制定变更计划、变更方案。各小组运维组长:接受综合信息岗大变更和紧急变更的处理请求,确认变更的影响和排程,制定变更计划和方案,验收变更结果。保持与各运维小组、技术管理主管和质量管理岗之间的沟通,主导本小组运维岗处理。如存在多个重大变更或紧急变更同时发生等情况,定位变更处理的优先级,交由技术管理主管审批。将配合技术管理主管确定变更方案并主导变更方案的实施及结果反馈。技术管理主管:接受运维小组重大变更和紧急变更的处理请求,审批变更计划和方案,保持与各运维小组、三线厂商以及其他资源之间的沟通,提供技术支撑和指导,验收变更结果。将配合项目经理汇报处理情况。质量管理岗:接受运维小组变更的处理请求,保持与技术管理主管、各运维小组、三线厂商以及其他资源之间的沟通,把控重大变更处理的质量。必要时对变更结果进行验收测试。协助项目经理向局方接口人汇报处理情况。项目经理:接受运维小组重大变更和紧急变更的处理请求,审批变更计划,保持与技术管理主管、质量管理岗、各运维小组、三线厂商以及其他资源之间的沟通,总结变更方案,并向局方接口人汇报处理情况。日志管理流程概要过程:日志的保存:制定各种日志的保存方法;日志的归档:定期对各种日志进行收集、分类和归档;日志的分析:定期对日志进行分析,总结优化;角色分工界面:监控服务岗:对日程监控的日志进行收集,定期进行分类和归档;各小组运维岗(虚拟化、平台、主机/存储、网络):对日常设备、平台、系统和应用等日志进行收集,定期进行分类和归档;各小组运维组长:定期对日志进行分析,主导优化;质量管理岗:协助各小组运维组长对日志进行分析,制定优化建议和方向;技术管理主管:协助日志分析,提出优化建议和方向。权限管理流程概要过程:权限的和记录:记录权限申请的相关信息;分类和开通:明确权限的范围和级别,开通相应权限;检测和回收:定期对相关权限帐号、安全规则和安全策略进行检测,回收没有使用的权限;角色分工界面:客户服务岗:受理承载业务系统客户(包括第三方代维人员)通过邮件、工单等方式申告的权限,经过初步明确权限范围和级别,以工单形式提交相应的运维组处理。并根据反馈客户信息。如权限范围无法明确,由综合服务岗进行沟通跟进。综合服务岗:接受客户服务岗的升级处理请求,沟通明确权限范围后交回客户服务岗派单。各小组运维岗:(虚拟化、平台、主机/存储、网络):接受客户服务岗的派单,明确权限范围和级别,开通相应权限。如级别过高,交由本小组运维组长判定。另外,定期对权限进行回收和安全检测;各小组运维组长:接受各小组运维岗的升级处理请求,对权限级别不适宜开通需要协助客户服务岗反馈信息给客户。另外,组织进行权限安全检测。质量管理岗:制定安全检测方案,协调各小组运维组长开展权限安全检测。备份管理流程概要过程:备份信息的记录:记录被备份申请的相关信息;分级和制定:对备份内容进行分级,制定相应的备份方式和策略;备份归档:定期归档保留完全备份,删除增量或差异备份;角色分工界面:客户服务岗:受理承载业务系统客户(包括第三方代维人员)通过邮件、工单等方式申告的备份,以工单形式提交相应的运维组处理。并根据反馈客户信息。虚拟化运维岗:接受客户服务岗的处理请求,根据业务系统进行分级和制定,开通相关备份策略。如业务系统无法分级,提交由运维组长进行确定级别。另外,定期对备份进行归档整理。虚拟化运维组长:接受本小组的处理升级请求,协助判定备份级别。配置管理流程概要过程:配置的保存:制定平台、主机/存储、网络配置的保存方法;角色分工界面:各小组运维岗(虚拟化、平台、主机/存储、网络):对日常平台、主机/存储、网络在进行变更时需要先进行配置保存。另外,定期对配置保存进行归档存放。备件管理流程概要过程:备件的保存:各种备件的保存和清点;检测和补给:定期对各种备件进行检测和补给;角色分工界面:监控服务岗:定期对各种配件进行清单和保存管理。各小组运维岗(虚拟化、平台、主机/存储、网络):定期对各种备件进行检测,对已坏备件及时提出更换和购置。综合管理岗:对运维组的提出的备件更换和购置进行审批。质量管理流程角色分工界面:客户服务岗:对处理事件进行用户回访,接收和处理用户投诉,反馈服务组组长;综合服务岗:负责监控服务的处理过程,服务数据的统计并报送服务组组长、质量管理岗。服务组组长:,跟踪客户投诉的处理过程,定期组织服务组召开质量分析会。完善服务组能力和质量。各小组运维岗(虚拟化、平台、主机/存储、网络):按照运维岗位职责的要求、工作流程及质量要求,实施具体运维服务任务,并将过程形成记录。各小组运维组长:对服务台提供的客户服务质量调查结果进行处理,定期组织本小组召开质量分析会,完善运维服务能力和质量。质量管理岗:,制定服务质量改进计划,定期组织质量分析会。编写总结报告,协助项目经理对局方负责人汇报。综合管理岗:协助质量管理岗进行对服务质量进行监控,定期组织召开质量分析会。项目经理:向局方接口人汇报服务质量改进情况,对服务质量改进计划进行审批。工程割接管理流程概要过程:工程的记录:记录工程割接的相关信息;验收和结果报告:对工程进行验收和结果报告;割接的公告:对工程割接完成后的公告;角色分工界面:客户服务岗:受理承载业务系统客户(包括第三方代维人员)的工程割接申请,明确工程割接的相关信息。通报服务组组长。协助发布相关的割接公告。服务组组长:接受客户服务岗的通报,组织协同各小组运维组长参与工程割接。向综合管理岗汇报。各小组运维岗(虚拟化、平台、主机/存储、网络):参与工程割接的相关内容,做好保障工作
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 二零二五年度生态大棚项目合作与农业节水技术合同3篇
- 2025年人教新课标九年级历史上册月考试卷
- 2025产品代售合同范本
- 2025广告承揽合同
- 2025买卖合同(设备仪器)
- 2025医疗服务居间合同
- 2025年度成都二手房买卖合同范本包含贷款及抵押信息4篇
- 二零二五年度老年大学60岁以上学员劳动合同模板3篇
- 2025年电商运营兼职人员健康体检及保险合同4篇
- 2025商品买卖(分期)合同
- 电网建设项目施工项目部环境保护和水土保持标准化管理手册(变电工程分册)
- 介入科围手术期护理
- 体检科运营可行性报告
- 青光眼术后护理课件
- 设立工程公司组建方案
- 设立项目管理公司组建方案
- 《物理因子治疗技术》期末考试复习题库(含答案)
- 退款协议书范本(通用版)docx
- 焊锡膏技术培训教材
- 江苏省泰州市姜堰区2023年七年级下学期数学期末复习试卷【含答案】
- 答案之书(解答之书)-电子版精选答案
评论
0/150
提交评论