以UNIX系统技术为平台推动运维服务规范化方案_第1页
以UNIX系统技术为平台推动运维服务规范化方案_第2页
以UNIX系统技术为平台推动运维服务规范化方案_第3页
以UNIX系统技术为平台推动运维服务规范化方案_第4页
以UNIX系统技术为平台推动运维服务规范化方案_第5页
已阅读5页,还剩80页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1.服务实施原则 41.1规范化的服务流程 41.2客户为中心原则 41.3数据安全为最高原则 41.4服务质量无止境原则 41.5主动服务原则 41.6服务项目实施小组 71.7客户的服务协议和服务合同 71.8规范的技术服务流程 81.8.1主动维护服务流程 81.8.2技术支持流程 1.8.3巡检服务流程 1.8.4应急服务流程 1.9服务考评制度 1.10服务反馈 2.数据生命周期服务 2.2数据库架构设计-数据创建阶段 2.2.1设计目标 2.2.2服务内容 2.3数据库系统高可用架构设计与实施-数据保护阶段 2.3.1设计目标 2.3.2服务内容 2.4数据备份与恢复策略设计与实施-数据保护阶段 2.4.1设计目标 2.4.2服务内容 2.5系统容灾解决方案设计及实施-数据保护阶段 2.5.1设计目标 2.5.2服务内容 2.6运维安全管理-数据保护阶段 2.7运维保障-数据访问阶段 2.7.1主动运维保障 2.7.2响应运维保障 2.8性能优化管理-数据访问阶段 2.8.1设计目标 2.8.2服务内容 2.9数据库、中间件升级管理-数据迁移阶段 2.9.1设计目标 2.9.2服务内容 2.10数据库、中间件迁移管理一数据迁移阶段 2.10.1设计目标 2.10.2服务内容 2.11数据归档管理-数据归档阶段 2.11.1服务内容 2.12数据回收管理-数据回收阶段 2.12.1服务内容 13.1整体风险控制 3.2项且经理负责制 1 24.1服务过程文档化 24.2定期服务总结报告 24.3故障处理报告 24.4系统设置调整报告 24.5年度工作总结 24.6项目管理员跟踪过程问题 2 3 4 56.1概述 56.2技术服务团队架构 66.3客户服务管理 76.4服务流程 86.4.1谁备工作 8 86.4.3后续工作 96.4.4客户反馈调查 96.4.5谁备工作 96.4.6现场服务实施工作 6.4.7项目验收工作 6.5问题升级流程 1.服务实施原则1.1规范化的服务流程数据库系统是整个业务系统稳定运行的基础,要求从前期的系统设计、安装调试、系统运维有明确的规范。尤其是在系统问题处理、性能调优,故障恢复的环节,这些都是要在生产系统上进行操作,只有规范化的服务流程和操作步骤,才能保证工作的有效,有效的控制项目实施过程的风险,降低对业务系统的影响。1.2客户为中心原则体现一切以客户为中心的思想,围绕着客户需求开展具体的服务工作,才能体现出服务为客户创造价值,满足客户不同的需求,提高客户工作效率,方便用1.3数据安全为最高原则在服务过程中,需要考虑的最高原则就是数据的安全、可靠。在这个原则的1.4服务质量无止境原则技术服务无界限,服务质量无止境,服务的工作没有终极目标,只有关注客户,不断的提高客户满意度。服务的质量只有更好,没有最好。1.5主动服务原则专注于服务环节,加强和客户的沟通,采取主动服务的方式,协助客户解决技术服务质量保证体系成立于年,以UNIX系统技术闻名遐尔。经过多年来的稳定积累,在金融、保险、邮电、劳动与社会保障、石油、铁路、财政等行业打下了深厚的基础,赢得了宝贵的行业资源和丰富的实施应用经验。作为国内最知名的ORACLE服务供应商和ORACLE在中国最重要的服务合作伙伴之一,长期的服务实施工作中,形成了完善的质量保证体系,设立客户服务中心,集客户服务质量管理、客户投诉建议受理与反馈、客户服务满意度跟踪与回访和售后技术支持为一体的统一客户服务平台。服务标准化:基于ISO9001质量控制体系的技术服务标准,形成标准化的作业流程,严格的追诉制度,规范化的文挡与服务用语。服务体系化:建立了以分公司为中心的服务体系,有多位专业的服务工程师让客户的问题在最短的时间内得到解决。服务多样化:在售前、售中、售后,倡导基于客户满意度为99%的个性化关怀;满足客户标准化服务以外的特殊使用需要。服务主动化:定期回访制度,针对客户问题比对历史案例,提出预先解决方案,并保证服务在短时间内到位。在服务过程中,为保证服务策略得到充分的贯彻和实施,建立如下图所示的服务质量控制模型,从被动式服务响应和主动式服务二个方面入手,以确保服客户客户服务反馈服务考评制度服务流程和规范客户服务协议和服务合同服务实施项目小组主动提供服务响应客户需求经过多年的发展壮大,培养了一批既有Oracle专家认证(OCP)又有丰富实践经验的优秀工程师,精通ORACLE,对主机、UNIX、存储、应用开发都有深刻的理解和丰富的经验,形成了从工程师、高级工程师到技术顾问的完善技术服务梯队,加上完善的服务流程,确保了为客户提供优质、高效、主动、迅速的技为保证客户方服务的顺利实施,公司针对每个项目都会安排专人组成项目组,与客户方一起协同工作,以确保服务的成功。其中项目经理将负责统一协调双方关系。整个服务项目包含客户方的项目负责人和的项目组。具体说明如下:职责客户方项目负责人>负责客户方的资源调配,以及与的沟通。>负责与客户的沟通,协调双方的步调和意见;>负责指派工程师做现场服务;服务项目经服务项目经>负责保证服务质量;>负责监督客户服务档案的建立和完善;>负责给客户提供各种服务报告;>服务项目经理一般由资深技术顾问担任,对技术总监负责。项目专职服务团队>负责实施现场服务、现场培训、远程技术服务;>负责书写各种服务报告;>及时向公司反映客户的一线需求。1.7客户的服务协议和服务合同特别强调客户的服务协议和服务合同,合同是向客户提供其所需服务和达致客户满意的根本基础。在被动式响应服务时,信守合同承诺,严格按照合同规定通过客户反馈和服务记录的检查,做到有效控制具体服务工作。1.8规范的技术服务流程作为国内最知名的ORACLE服务供应商和ORACLE在中国最重要的服务合作伙伴,拥有完全符合ITIL(IT服务管理国际标准)和ISO9000(国际质量管理标准)的完善客户服务流程,规范化的运作有效保证了优质高效地完成各项服务工作。主要服务流程的简要介绍如下:工程师以电话、邮件、MSN、巡检方式主动与客户针对系统的运行现状进行交流和沟通,发现现有或者潜在的问题。在征得客户认可的情况下与客户工程师一起采取措施对现有问题进行修复,或者采取措施杜绝潜在问题的发生。客户认可工程师的服务后,由工程师生成服务报告。由客服对服务报告进行存档并复制给客户相关人员,同时对该服务进行质量回访,接收客户的反馈信息。客户客户龙马工程师客服800电话电话支持7*24支持电话普通电话其他方式现场支持土服务报告工故障定级工远程支持工邮件支持向题解决-N-问题升级Y存档质量回访反馈技术服务中心设立专人值守热线电话和相应技术支持服务小组(系统专家组和项目支持组)。用户可以通过800电话,7*24小时支持电话,普通电话,其他方式,包括邮件/MSN等网络方式把问题详细情况反应给相应工程师。工程师会针对问题的实际情况,对问题进行定级并确定电话支持、远程支持、邮件支持、现场支持等方式中一种或者多种对客户进行技术支持。若工程师采取电话支持/远程支持/邮件支持等方式进行技术支持,不能使问题得到圆满解决,在此种情况下问题会被升级,并立即采取现场支持方式。问题被解决后,工程师出具服务报告,详细记录所做操作,问题的解决过程,客服人员对此次服务全程跟踪并进行存档,对服务质量进行回访并记录反馈信息。承诺提供7×24小时的电话支持服务。项目负责人与客户取得联系,预约数据库健康安全检查的时间。预定的时间内的技术工程师到达客户现场。工程师取得客户方同意后,对系统硬件和软件进行常规的系统检查。工程师对检查结果进行分析,如果当前系统存在问题或者潜在问题,工程师将会采取相应措施修复问题。对分析结果或者处理结果取得客户认可后,工程师出具巡检报告。的客服人员对巡检报告以及本次服务进行存档,并对客户进行服务质量的回如果现场工程师没有把客户数据库存在的问题解决好。在这种情况下,技术服务部会立即对该案例进行升级。迅速响应,把该案例提交技术专家组会诊,并给出解决方案。如果在专家组会诊情况下仍然不能把问题圆满解决。此时技术部会把该案例会协调资源,请ORACLE高级专家进行诊断,并圆满解决问题为止。1.9服务考评制度有效的服务考评制度是建立在完善的客户服务档案的基础上的。为客户方建报告类型报告内容非现场服务报告现场服务报告

工程师现场服务确认报告(由客户签字);

每次系统现场巡检的健康检查报告;

系统调优报告;

系统灾难恢复报告;

软件安装和数据库创建配置报告;

系统备份恢复策略配置报告;

数据库备份策略检查报告;

软件及数据库升级报告;

数据库数据迁移报告;每份报告主要包含如下内容:服务时间负责实施的工程师和客户方的技术维护人员服务内容说明服务效果说明遗留问题说明客户服务中心在收集并统计上述服务报告的基础上通过定制的服务质量评测标准、流程和文档,服务期内,全程跟踪客户服务质量、进行服务质量评测。客户服务专员会定期通过电话、问卷等方式调查客户对服务的满意情况。对远程服务,包括电话咨询、电话技术支持、远程拨号等,客户服务中心会定期进行抽样调查。客服专员会根据服务标准,致电最终客户电话调查服务质量,听取客户意见,以客户的满意度作为评价工程师工作表现的记录。如遇客户不满意的情况,会限时整改,并记入工程师评分记录以便奖惩。对现场服务,工程师都会认真填写现场服务报告,经最终客户签字确认,同时现场服务报告上面还会请最终客户针对本次现场服务的服务质量进行评分。如遇客户不满意的情况,会限时整改,并记入工程师评分记录以便奖惩。一直以来,都十分重视客户的服务反馈,这是改进服务质量,提供客户满意度,实现“共同进步、共享成功”的基础。通过以下手段来获得服务反馈:客户对服务过程中有任何的不满意或建议都可以直接联系客户服务中心进行投诉,客服中心接到投诉后会及时受理并将最终的处理结果反馈给客户。由提供,由客户方填写服务反馈报告,包括:现场服务调查表、非现场服务调查表、服务满意度调查表等;以便获得全面的服务反馈信息,发现问题和解决会不定期举行客户研讨会,邀请广大客户到会,当面听取广大客户的评价和反馈,全面提升服务质量。2.数据生命周期服务企业在信息化建设中最关键的是数据,数据构成了企业发展进程中的核心竞数据从产生的那一刻起就自然地进入到了一个循环,经过:企业在信息化建设中最关键的是数据,数据构成了企业发展进程中的核心竞争力。数据从产生的那一刻起就自然地进入到了一个循环,经过:>创建保护访问迁移归档回收等多个步骤,最终完成一个生命周期。业务生产发展很快,怎样做才能更好地支撑不断提高的系统运营要求?关键业务流程完成时间是否可以持续稳定地满足要求?如何确保业务要求的不间断运行指标,及如何规划计划内停机,并如何最大限度控制意外停机造成的服务终止时间窗口?目前的硬软件投资是否能真正满足设计的服务周期?当前架构是否能发挥硬软件系统的最大潜力?究竟还能用多久就必须扩容了?不断有新应用模块加入、数据整合等,这些项目都能否按时保质完成?硬软件厂商总是让我升级,是否真的有必要?即使真的有必要升级,我是否能最大化利用升级后的系统能力?在数据量块速增长的趋势下,5年、甚至10年后我的历史数据该怎么处理?是否都与当前年度数据放在一起?海量数据中应用程序运行效率如何保障?我的系统复杂度越来越高,我应该怎样提高我们自身IT管理队伍的技能以满足不断变化的业务需求?一方面提高自身IT维护人员的技术水平另一方面使自身IT人员更加专注于与业务部门的沟通与项目规划和管理,由专业公司提供底层技术保障在这个过程中企业需要进行很好地规划,以达到资源利用的最大化,提高IT投资回报率。配合上述用户的IT建设需求,针对数据生命的各个阶段,提供数据库架构设计(创建阶段)数据库系统高可用架构设计与实施(保护阶段)数据备份与恢复策略设计与实施(保护阶段)系统容灾解决方案设计与实施(保护阶段)运维安全管理系统(保护阶段)运维保障(访问阶段)性能优化管理(访问阶段)数据库/中间件升级管理实施(迁移阶段)数据库/中间件迁移管理实施(迁移阶段)数据归档管理(归档阶段)数据回收管理(回收阶段)数据生命周期的六个阶段数据从产生的那一刻起就自然地进入到了一个循环,经过创建、保护、访问、迁移、归档、退出等多个步骤,最终完成一个生命周期。一、数据创建阶段企业在生产过程中不断产生的数据需要存储环境以利于及时的处理、管理和保护数据的价值通常会随着时间逐渐降低,因此所有数据在创建时都应当获得一个由数据的类型、数据的价值和相关法规的要求决定的存储规则和删除曰期除非对过期数据的创建进行正确的控制,否则对相关数据的搜索将会导致运营效率的不断降低数据生命管理就是要根据应用的要求,数据提供的时间及数据和信息服务的等级,提供相适应的数据产生、存储、管理等条件,以保障数据的及时供应。二、数据保护阶段今天很多企业的经济效益都与信息的连续可用性、完整性和安全性息息相随着越来越多的信息以数字化的格式出现,企业面临着如何以相同或者更少的资源管理迅速增长的信息和存储的挑战信息可用性的降低,或者信息的丢失,对企业而言,都意味着时间的浪费,生产率的降低或灾难随时防止数据受到无意或者有意的破坏,数据保护和灾难恢复问题成为了人们关注的焦点大量应用系统都需要24×7的运作,系统的可用性在一定的程度上取决于数据的可用性:即使在技术上服务器和网络都是可用的,但是如果应用系统不能访问到正确的数据,用户将认为它是不可用数据生命管理将按照数据和应用系统的等级,采用不同的数据保护措施和三、数据访问阶段成功的数据访问和管理是通过深入地了解数据在企业中扮演的重要角色而实现的。要做到这一点,首先要问:“这些数据的真正价值是什么?”,另外一个数据存储基本上可以分为三类:每天都需要访问的数据需要随时访问,但访问频繁和访问速度要求不高的数据偶尔需要查询或访问的数据这三种分类体现为在线、近线和离线三种访问方式。在线存储为业务系统提供曰常业务处理所需要的数据和信息。因而,在线存储要求高的性能,大的容量,高的扩充能力,以保证业务系统的快速处理。相对应的应用数据架构设计需要从数据的访问性能、恢复速度、容灾效率等方面进近线方式需要定期但访问频率和访问速度要求不高的数据应当以近线方式保存。通过这种方式,可以实现较为及时的并且成本较低的数据访问。对应的应用数据架构设计相比在线数据则从访问性能、恢复速度、容灾效率等方面有不同(相对低一些)的要求。离线方式对那些访问速度要求不高,存放的时间较长,访问的频率更低的数据,可以将其存放在价格更低的存储介质和设备上,当数据需要被访问时,才将其恢复到在线存储设备中。对应的应用数据架构设计则从经济的角度考虑这部分数据的可用性,以及合规性。事先计划的、为了对系统进行升级或对系统配置改变而进行的停机对许多客户来说也是充满挑战的事件。越来越多的系统变更必须在运行系统上进行,最大限度保障生产的不间断运行。系统软件升级和数据迁移就是其中典型事例:将系统软件升级至一个新版本,或将数据从一个存储设备转移到另外一个存储设五、数据归档阶段维持一个数据备份和归档系统可以从多个方面支持企业的业务运作。它可以提供交易和决策记录,以及能确保那些仍然对于一个组织具有一定作用的数据可以得到妥善的保存。可以采用有针对性的数据架构设计,配合较低成本的存储设备来处理使用率很低但有需要保留的数据,降低总拥有成本。当数据在一段时期而没有继续保存的价值时,企业必须结合政府或行业的规定及自身的需要制定相关的政策,对此类数据进行销毁或回收。被销毁或回收的数据将从活动和非活动系统,以及数据仓库等系统中清除。企业应当建立科学的和明确的数据回收(销毁)规则。2.2数据库架构设计-数据创建阶段在数据产生阶段,即用户系统建设的最初阶段,通常的做法是:应用软件开发(专门开发商或用户自己的开发队伍)。在这个阶段由应用开发商主导确立使用的数据库软件品牌(Oracle、DB2、SQLServer等),即开发商建议,用户配合购买数据库硬件建设,根据硬件厂商提供的benchmark(TPCC等)指标和自身生产系统交易量(TransactionVolume)的大致预期选择服务器配置,并根据对生成系统数据量的增长趋势及总数据量选择可以想匹配的存储系统。这个阶段也通常由应用开发商给出决定性建议,用户参考从维护的大量用户生产系统的经验来看,在数据创建阶段,下面的关键问题是用户需要重点考虑的:系统服务周期怎样才能保证目前的硬件、软件投资能顺利支撑业务生产达到预期的服务周期“过期”数据的定义什么叫“过期”数据“过期”数据的存储和处理方式开发DBA角色的缺失重点关注应用软件的“能用”,而忽视“好用”。从“能用”到“好用”是一个软件的成长过程,如何缩短这个过程是每个用户需要考虑的问题。对用户数据库架构进行规划设计,在系统设计初期实现规范的数据定义、高效的数据库架构,同时为开发过程中使用的数据库技术进行分析并提供改进建议,为后期系统的稳定运行奠定良好的基础。在设计用户数据库架构过程中,将注重以下几个方面:数据生命各阶段的处理策略数据库逻辑结构的高效性关键业务流程实现方式的合理性应用分布合理性(针对RAC生产系统架构)应用程序未来潜在风险的规避应用性能满足业务需求2.2.2服务内容一、关键业务流程数据流分析通过对高峰时间段、平均时间段,及非工作时间段数据流量特点的分析,结合数据存储结构的特点,充分了解业务流程对应用系统的影响曲线。二、数据结构分析针对数据生命周期各阶段的对数据访问方式的不同特点,结合用户及行业硬件性能指标如何?哪些数据需要频繁访问?哪些需要偶尔访问,而哪些仅在产生特殊要求(如审计)时才进行访问?生产业务对这些数据访问的响应时间有何要求?如何满足这些要求?在充分了解的前提下,针对关键业务流程的应用程序实现方式提出建议,达到最优化、及规避未来风险的目的。如使用CBO或RBO的特点及注意事项应用程序的设计往往重视对业务功能的实现,而在不同程度上忽视业务对建立应用系统性能基线,即业务生产队应用系统关键响应指标的制定测试局部应用系统,以初步保障局部应用功能满足业务对性能的要求如果效果不理想,则分析原因并对应用程序做出改动,直至满足要求应用开发环境往往与最终生产环境区别较大,尤其当最终生产环境是多机集群而开发环境仅为单机的情况。此时需要根据业务特点提前对应用制定适当的分区策略,以保证将来生成系统的高可用性和高可扩展性。此时需要对应用系统进行全局的压力测试,重点找出应用系统功能问题,及通过模拟手段预测上线后系统在正常压力下能否满足业务对关键流程响应时间的要求。这个过程需要制定详细的测试计划,测试记录以及结果报告,为用户决策上线策略提供坚实的保障。六、系统上线上线计划,包括详细的上线时间窗口定义、上线步骤、停机时间表、回退计划等,需要用户与各相关厂商的严密配合上线演练,模拟上线过程,修正上线计划中存在的不足上线步骤实施经过上述步骤后,系统进入维护阶段,对数据的操作进入后续保护、访问2.3数据库系统高可用架构设计与实施-数据保护阶段数据保护阶段主要涉及到四个层面的问题第一是系统高可用性保障,即当系统主机遇到意外故障,如何保证业务的第二是业务数据保护,即当系统存储遇到故障,如何保障业务数据的完整第三是系统服务连续性的保护,即当系统主机和存储同时遇到故障,如自然灾害等,如何保证系统提供连续的服务。第四是对业务关键数据窃取的保护,即当有非法窃取关键业务数据行为发生时,如何保护数据不被窃取,及发生非法窃取后的及时发现和处理。高可用架构设计是针对第一个层面问题的服务。设计目标当主机遇到故障需要保护,通常用户需要关心的问题是:业务要求的高可用性目标是什么业务对由于主机故障而导致的服务停顿时间要求是怎样的由于软件系统的缺陷而造成的意外系统负荷激增后的应急方案是怎样的最差情况下(即整个系统由单台主机运行)系统的可接受性能指标是怎样的(不少用户由于规划不好,导致这种情况下系统根本不可用)预算有限情况下发生上述最差情况的业务流程限制方案是怎样的的解决方案是“数据库高可用架构设计与实施”,针对上述问题为客户提供周全细致的意见和建议,真正实现满足业务需要的系统高可用性。从高可用角度看,业务部门对IT生产系统的要求可以归为两类:服务中断时间窗口限制服务水平(ServiceLevel)从数据库服务器高可用架构角度考虑,需要满足在单台服务器发生故障时部分或全部应用切换到其他服务器的时间要求,同时需要考虑的问题是当服务器集群中的部分发生故障而应用系统需要由其他服务器承担的情况下,系统对关键业务流程的响应时间是否能满足业务的要求。二、系统软硬件配置策略根据业务需求分析,和现有软硬件预算/配置情况,对系统的软硬件配置给出恰当的建议,使用户对于在当前的配置水平下能否满足业务要求,或者当前的配置究竟能达到什么水平得出客观的评价。三、系统服务资源配置策略当发生部分服务器故障时系统服务资源(ServiceResource)的配置与切换对于实现高可用目标是非常关键的一步。例如:服务器A配置服务资源R1、R2,而服务器B配置服务资源R3、R4、R5,这样当A发生故障(或繁忙程度超过警戒线),需要将A上运行的服务资源全部(或部分)切换到B上,此时两个关键因素:“切换时间”和B接收了A的全部或部分服务资源后的“服务水平”,就是实现高可用目标的关键考量指标。所以制定服务资源的配置策略是构成高可根据多年的经验,在充分考虑业务需求的基础上,结合应用程序提供的服务,合理分配和建立服务资源组,经过模拟验证后形成生产运行规范。经过策略的指定,用户需要在测试环境中对上述的两个关键高可用指标进行模拟测试,考量在正常或高峰压力下系统是否可以满足业务要求。测试过程需形成详细的测试文档,及测试结果报告,使用户对高可用架构的预期结果有一个相对正确的判断,并对将来正式投产后可能发生的隐患及时采取措施进行补救,确保投产过程、及投产后生产过程的顺利进行。五、系统上线跟踪支持从上线计划的制定、上线过程模拟、正式上线实施、上线后可能的问题跟踪和解决等一系列环节,为最终建立高可用架构进行全方位的保障。六、技术培训系统运行稳定后,针对设计、实施过程的一系列技术文档和报告,为用户技术人员进行一次培训和交流,重点讲述设计的过程以及实施过程中遇到的问题和解决方法,目的在于提高用户技术人员对高可用系统特点的认知程度,为将来2.4数据备份与恢复策略设计与实施-数据保护阶段针对防止存储故障的数据保护,用户关心的问题是:业务对数据保护的目标是什么由于存储发生故障而导致的服务中断最长时间的要求是怎样的业务允许的数据库数据丢失程度是怎样的的解决方案是“备份与恢复策略设计与实施”,针对不同生命阶段的数据实施有效而恰当的保护,满足业务对存储意外故障发生后数据的及时有效恢复的要针对用户数据保护的要求,主要从业务部门的要求出发考虑下列因素:允许的最长数据恢复时间,即由于数据存储问题导致的服务中断时间允许的最大数据丢失程度备份过程对系统负荷的影响降到最低覆盖各种数据损坏场景的恢复策略常规恢复测试计划应用市场流行备份软件2.4.2服务内容一、业务需求分析针对业务部门的要求,如在存储硬件发生故障时:服务中断最长时间允许数据丢失最大程度后续所有策略的制定和实施都是基于这两个关键指标。二、备份策略制定根据业务需求、以及数据生命管理策略,制定恰当的备份策略。同时根据常见的数据损坏场景制定恢复流程。三、恢复测试在服务的众多客户中,对验证备份有效性工作重视不够,或因条件所限无法验证,导致出现花费大量投资和人力进行的备份在关键时间无法恢复数据的重大问题。推荐用户进行定期恢复测试,以验证备份数据的有效性和安全性。四、技术培训根据用户系统数据分布、备份策略以及恢复流程,为客户的技术人员进行相关知识的交流与培训,使用户充分了解自身系统数据备份的特点,以及在不同数据损失场景下的数据恢复流程。2.5系统容灾解决方案设计及实施-数据保护阶段针对第三种情况,即对主机和存储同时故障的保护,用户需要关心的问题故障发生后,系统切换到容灾系统上恢复生产的最长时间是多少系统切换时数据是否会损失,或最多可能损失多少系统切换后提供生产服务的性能指标是怎样的故障修复后系统切换回主系统的方案是怎样的结合市场上通用的容灾工具,包括OracleDataguard,OracleGoldenGate等,为客户建立稳定高效的容灾架构。在为客户设计和实施容灾方案时,主要考虑下列因素:零数据丢失尽量与具体的硬件无关能够应对各种硬件故障引起的数据库崩溃、数据丢失等问题能够应对人为的误操作导致的数据丢失情况高度的灵活性,不需要对生产系统进行“锁定”操作。保护客户的投资。客户可以根据情况,决定是否利用容灾端系统进行报表分对网络传输压力小一、容灾需求调研的资深服务工程师团队将与用户的DBA、应用开发人员、业务操作人员进行访谈。通过访谈过程详细了解用户的业务特点以及业务对IT系统可用性的要客户能够容忍的宕机时间是多少需要多少时间恢复系统(RTO:RecoveryTimeObjective)是否需要进行业务级容灾是否通过容灾系统实现统计与生产系统的分离容灾地点的具体要求,是同城异地,还是异城异地是全库容灾还是核心数据容灾对容灾数据延迟的具体要求现有的网络架构是什么样的可以预见的数据增长趋势如何如何最大程度利用现有的资源客户的这些具体需求,都是容灾系统设计所需要达到的目标,只有明确目标才能选择合理的方案,真正满足客户的需求。二、客户系统环境评估的资深服务工程师团队将对深入评估客户的现有系统的情况。主要服务内了解客户的备份系统识别出各种可能的需要进行系统恢复的场景生产系统主机资源生产系统存储资源使用情况生产系统性能指标生产系统体系结构生产系统数据库版本、RAC或是HA机制确认以最小代价方式评估硬件资源需求评估需要的第三方产品和配置只有对生产系统现状进行全面的分析和了解,才能保证设计合理的容灾方案,最大限度的保护客户原有系统的投资。三、制定、完善灾难恢复方案容灾方案的设计是容灾解决方案的核心,在掌握了生产系统的基础资料和客户需求的基础上,根据目前主流成熟的技术路线,可以选择合理的技术路线实容灾系统容量规划容灾系统性能规划数据级容灾技术路线的选择业务级容灾技术路线的选择容灾主机、存储设备的选择如何在生产端和容灾端进行切换相关数据库RDMS版本的选择满足客户的RTO满足客户的RPO容灾端数据库的建立方式如何设置主生产数据库和容灾端数据库日志文件的同步方式在容灾的技术路线上,可以为客户提供多种技术路线选择,包括从底层的存储复制机制、Oracle的Dataguard技术、或者其他第三方产品实现的数据复制。这些多样的技术路线可以充分结合客户系统的主机、存储、网络带宽等实际情况,及客户在容灾方面的具体要求进行组合选择。在完成容灾方案的设计后,就可以开展容灾的具体实施工作,不同的容灾方案决定了整个实施工作的难度和内容。按照项目管理的方式来约束和控制整个有步骤的实施工作,来保证容灾方案顺利实施。五、容灾方案验证容灾方案实施完毕后,需要进行相关的验证,来确认容灾系统的可应用性。对于整个测试验证工作来说,做好详细的测试计划是非常重要的。在测试计划中要包括验证目标,具体的测试场景设计,详细的操作步骤。这些都是保证验证环六、上线支持及后续跟踪容灾系统的投入使用与生产系统的上线工作完全一样,不仅要保证整个上线工作的顺利实施,还需要进行有效的跟踪,来保证容灾业务系统的可靠运行。在维护阶段,还需要定期对容灾系统进行验证。七、技能传授做为项目实施的最后一个阶段,资深工程师将对客户的主要技术人员进行一次本次实施过程中总结出经验的一次分享。内容包括:为客户提供关于Oracle容灾解决方案的相关知识和技能传授结合项目实施过程中遇到的问题进行案例分析,让客户拥有实践经验。2.6运维安全管理-数据保护阶段针对第四种情况,即对窃取关键业务数据行为的防范,提供了运维安全管理-“网镜”解决方案,通过对数据库访问行为的记录,实现在窃取行为(及其他需要关注的行为)发生后能够及时定位行为实施人及行为发生时间,为客户处理和防范此类行为提供审计途径。“网镜”为硬件与服务相结合的解决方案,具体内容请详见《网镜运维管理2.7运维保障-数据访问阶段系统的基础架构搭建完成后,就进入数据访问阶段。本阶段用户关注的问系统提供服务的连续性要得到保障防患为主,尽量把问题消灭在萌芽状态一旦出现问题,能得到及时高效的处理随着时间的推移,和系统运行环境/要求的变化,系统提供的服务水平会有逐渐变化的趋势。需要有应对方案,和建立监控机制在本阶段,针对上述需求,为客户提供了一系列的服务方式和内容,以满主动服务的主要目的是帮助客户定期检测系统运行中可能存在的隐患,并采取措施把问题消灭在萌芽状态,最大程度保障系统的不间断顺利运行。服务内容针对数据库和中间件,包括(但不限于):内容包括数据库或中间件的健康检查工作。通过系统巡检可以了解系统功能收集客户系统信息,分析客户系统现状,发现潜在问题并给出相关调整建议,以降低潜在的数据丢失、安全侵犯、停机、性能下降或资源限制抢救无效等风险。二、性能分析一方面,随着客户应用系统投入使用时间的加长,应用系统将会由于数据量的增加、用户数量的增加以及应用的修改等各种隐患,可能会导致应用系统性能下降的隐患;另一方面,对于刚投入使用的系统,由于技术方面或其它方面的原因,数据库及中间件设计、配置方面不合理,可能会引起的系统性能问题。通过对数据库进全面深入的性能分析,让客户全面地、系统地了解数据库及中间件的性能现状和性能瓶颈,了解影响将来业务系统运行隐患。在系统性能分析方面主要包括以下流程:收集数据库和中间件服务器运行性能数据;从性能角度,对参数配置、应用分布、数据分布、SQL与应用、系统IO、网络等各个关健点进行逐步分析;提供用户完整的性能分析报告和解决方案;调整相关数据库、中间件及操作系统参数;提出应用及sql,应用部署、存储,主机,网络整改建议供客户或相关厂商修改由于业务量的增加、统计数据出现问题、业务模块应用逻辑的修改、新业务模块的增加、存储硬盘故障以及系统软件本身的BUG等各种原因都可能使系统性能突然下降,导致了业务系统变得非常慢,严重影响业务系统的正常运行。在系统性能诊断方面积累了非常丰富的经验。对于性能故障诊断服务,主要提供用户完整的性能诊断报告和解决方法;在必要的时候实施系统的调整动作;旦数据系统发生异常,当前的备份也有可能由于设备的配置、备份的策略、甚至系统软件BUG和设备的BUG等导致了数据无法正常恢复。在多年技术服务中,根据客户的业务需求,设计各种数据丢失的场景,通过备份数据进行数据的恢复,验证客户数据备份数据的有效性和可恢复性。数据恢复测试流程包括:进行数据恢复的演练;提交恢复测试报告响应服务则为客户提供了一旦出现意外故障后的及时响应和处理,尽量缩短服务内容针对数据库和中间件,包括:一、5×8电话、邮件咨询服务正常工作时间内(通常指每周5天、每天8小时,但除国家法定节假日外)提供基于ORACLE数据库、中间件方面的基于电话、邮件方式的技术支持服务,及时解答客户提出的问题,为客户提供常规性的技术咨询。二、7×24紧急救援提供针对用户数据库系统、中间件系统的每周7天、每天24小时的紧急响应服务,以最安全最高效的方法处理紧急故障,远程无法解决的情况下承诺以最快的速度赶赴现场,使系统以最快的速度恢复正常运行,确保对业务的影响最小部分对数据库、中间件系统要求比较高的用户,当系统出现故障时,不管是严重影响业务运行的故障,还是对业务运行影响不大的故障,均要求迅速处理,确保生产系统的完全正常运行。7×24全故障处理在服务合同期内,不限人天、不限次数。对于不影响客户系统正常运行的一般故障,工程师会积极为客户提供故障处理方案,协助客户工程师解决相关问题;必要时将提供远程拨号或派工程师到客将有专门的工程师全年派驻客户现场,与客户一起工作,执行数据库DBA、中间件工程师的工作,完成客户系统的日常维护,确保客户业务系统稳定、高效运作。驻场OracleDBA、中间件工程师服务,打破客户原有非专业OracleDBA及中间件工作维护困难的局面,客户在享受专业OracleDBA、中间件服务、顺利完成系统日常维护工作的同时,又可以节省大量的人力投资,节省因人员增加而带来的薪资、福利、培训等的投入;更避免了因人才流动而造成的客户公司技术流失、工作无法衔接的风险。2.8性能优化管理-数据访问阶段用户系统运行一段时间后,随着数据量增加、系统负荷增大而面临的性能逐渐下降直至部分高峰时间段无法提供正常服务的情况,为客户提供“系统性能管理”服务,通过研究用户业务系统对系统关键性能指标的要求,结合系统运行的瓶颈,提出及时有效的解决方法,显著延长系统硬件的使用周期,为客户提高硬数据安全性-在整个优化过程中,一定要保证数据的安全和可靠。在的任何操作步骤中,都首先需要考虑如何保证数据的完整、安全、可靠。结合业务流程特点-系统优化不能单独的认为是纯技术工作,需要结合业务流程的特点,充分掌握业务的具体业务流程,根据各个环节收集到的具体指标,找到业务处理环节的瓶颈点,优化工作的可管理性-采取项目管理的方式控制整个优化过程,控制优化过程中可能存在的风险,保证优化工作的质量,让整个过程处于可控的状态下工作。业务影响最小化原则-在进行优化方案的选择时,需要考虑尽可能的减少对业务影响。技术路线的选择要尽可能的保证服务不终止。数据操作的时间要最小化,操作时间段需要选择业务一、规范工作流程在面对生产系统进行优化操作的过程中,规范的工作流程非常重要,该流程不仅可以约束工程师的具体工作,也可以很好的约束客户具体的配合工作,使得双方的工作都能够按照约定,有计划,有步骤的执行。只有这样才能全面控制人二、系统基线指标收集首先收集系统现状的具体数据,根据收集到的数据建立系统在未能实施优化工作前的性能指标基线,包括如下信息:系统整理资源占用情况关键业务点系统响应指标批量数据处理效率资源占用较多的Sql语句系统的参数配置全表扫描的具体情况系统数据量分布系统业务流程特征三、定义系统优化目标根据收集到的具体指标数据和详细的问题描述,以及系统的业务特点制定可实现的系统优化目标。建立系统性能基线,根据基线数据可以通过具体的数据来说明优化工作的效果,并对系统容做出客观的评价。如果出现性能指标在基线范围外,则说明需要启动下一轮的性能优化工作,或者证明系统确实需要对硬件或者其他产品进行升级。五、确认具体的优化方案系统优化是一个全面的系统工程,在实现技术路线上有多种选择,在优化工作实施前,需要根据系统的业务特点,选择合理的实施方案。包括涉及到的各方如应用软件开发商,硬件厂商等的配合步骤,系统调整时间窗口,回退方案等。六、方案分步实施按照既定计划实施整个优化工作。跟踪优化工作结果。根据每一个步骤所反馈出来的问题再进行实时的调整,确认计划与实际工作中的具体差距,并采取措施保证目标实现。七、结果评估在完成优化方案后,需要全面收集系统信息,确认目标达成情况,确认系统性能基线定义是否准确,根据业务流程的具体要求和实际工作结果调整基线。八、长期数据收集及跟踪整个业务系统性能优化的工作是一个长期的、持续的工作。在一次优化达成目标后,需要长期的、持续的进行相关数据的收集及跟踪。这些收集到的数据将是下一次性能优化工作的基础数据。2.9数据库、中间件升级管理-数据迁移阶段系统运行一段时间后,随着业务需求的不断提升和发展,用户需要进行数据库版本升级、中间件版本升级等需要对生产环境实施变更。用户主要关注的问题计划内系统中断服务的时间规划升级过程保证数据的完整性保障升级动作的顺利完成万一不顺利,如何回退升级后保证系统的服务水平升级之前的服务水平是怎样的如何保证升级后的服务水平针对这个阶段的特点,结合多年的实践经验,的解决方案包括下面内容。根据软件升级的特点,在为用户进行软件升级时主要关注下面几点:升级时间窗口应用程序功能的完整升级前后系统关键业务流程响应时间指标(性能基线)的一致,或改善新版本的新特性的有针对性实施数据库、中间件升级管理是根据客户系统的服务水平,通过详细的计划和周密的测试,实现客户软件升级的目标。内容包括:数据升级目标分析、制定包括了性能基线的确认、新版本软件特性的需求分析升级计划制定根据用户业务特点和升级时间窗口,制定详细的升级步骤,包括:软件新旧版本参数的变化新版本新特性对原有实现方式的影响评估根据现有条件制定升级的方式,如针对数据库来讲,是在旧版本基础上进行软件升级至新版本,还是直接建立全新的新环境再导入数据等根据上一步骤的结果,编写升级的详细技术步骤,包括具体命令、及时间预估回退计划应用程序功能测试在测试环境中,部署新版本软件及应用程序,进行应用程序功能测试如果出现问题,需要应用程序开发商给予配合修改系统压力测试在测试环境中,部署新版本软件及应用程序,进行应用系统压力测试部分涉及到应用程序的问题需要开发商给予配合修改升级演练在测试环境中,进行升级技术步骤演练,确认升级能在计划的时间内顺利完成,并在过程中不断修正、完善升级计划实施升级按照经过完善的升级计划,在生产环境中正式实施升级在正式上线前,对生产环境进行最后一轮的应用测试新系统上线上线后的意外问题快速处理项目验收统计新环境中关键业务流程的响应时间,即建立新性能基线与旧有环境性能基线比对,确认升级成功然后进入正常运维流程技术培训针对本次升级过程中遇到的问题特点,与用户技术人员进行交流,使用户清楚系统升级后的特点,以及相关注意事项,方便在后续维护中加以注意,保障运维过程的顺利进行。2.10数据库、中间件迁移管理-数据迁移阶段当用户系统由于业务需求需要进行更换主机系统、更换存储系统等系统变更时,要对生产环境进行迁移。相比于软件升级过程,用户同样要关注类似的问题,计划内系统中断服务的时间规划迁移过程保证数据的完整性保障迁移动作的顺利完成万一不顺利,如何回退迁移后保证系统的服务水平迁移之前的服务水平是怎样的如何保证迁移后的服务水平针对这个阶段的特点,结合多年的实践经验,的解决方案包括下面内容。根据软件升级的特点,在为用户进行软件升级时主要关注下面几点:迁移时间窗口(系统停止服务时间窗口)迁移前后系统关键业务流程响应时间指标(性能基线)的一致,或改善数据库、中间件迁移管理是根据客户系统的服务水平,通过详细的计划和周密的测试,实现客户平台迁移的目标。内容包括:迁移目标分析、制定包括了性能基线的确认、新版本软件特性的需求分析迁移计划制定根据用户业务特点和迁移时间窗口,制定详细的迁移步骤系统压力测试在测试环境中,部署应用程序环境,进行应用系统压力测试迁移演练在测试环境中,进行迁移技术步骤演练,确认迁移能在计划的时间内顺利完成,并在过程中不断修正、完善迁移计划迁移实施按照最终迁移计划,在生产环境中正式实施迁移在正式上线前,对生产环境进行最后一轮的应用测试新系统上线包括上线后的意外问题快速处理项目验收统计新环境中关键业务流程的响应时间,即建立新性能基线与旧有环境性能基线比对,确认升级成功然后进入正常运维流程技术培训针对本次迁移过程中遇到的问题特点,与用户技术人员进行交流,使用户清楚系统迁移后新环境的特点,以及相关注意事项,方便在后续维护中加以注意,2.11数据归档管理-数据归档阶段数据归档不同于备份,备份数据是离线的,目的在于尽快恢复生产急需的数据。而归档数据是在线(或近线)的,目的在于满足行业规则要求和临时的查询需求。数据归档动作是数据产生阶段对数据的使用规划的自然执行步骤。对于历史数据的归档,用户主要关注点在于:使用存储介质的经济性归档方案实施的便利性对生产系统的影响降到最低对于数据产生阶段制定好规划的系统,技术人员的作用在于保障归档动作的顺利实施。对于早期没有详细规划的系统,则需要制定归档方案、在保证系统服务水平的前提下修改现有数据库存储结构、实施归档方案。数据归档计划制定归档项目管理及实施项目验收技术培训2.12数据回收管理-数据回收阶段数据回收阶段主要涉及的是在满足用户行业规则要求前提下,用户指定相应的数据销毁动作。在这个阶段主要是协助用户安全、有效地清除完全不需要的数据。2.12.1服务内容数据回收/清除管理内容主要包括:数据回收策略制定支持数据回收方案实施辅助服务实施风险控制2.13整体风险控制数据库系统是整个业务系统稳定运行的基础,要求从前期的系统设计、安装调试、系统运维有明确的规范。尤其是在系统问题处理、性能调优,故障恢复的环节,这些都是要在生产系统上进行操作,只有规范化的服务流程和操作步骤,才能保证工作的有效,有效的控制项目实施过程的风险,降低对业务系统的影响。2.14项目经理负责制由指定一个项目经理,项目经理直接向客户负责,全权处理相关服务事宜,但前提是客户必须以会议,书面正式函等方式正式授权给项目经理。客户与厂商之间的沟通桥梁,上下的沟通交流由项目经理完成制定一年度的服务计划。组织人力资源,保障服务的顺利实施。紧急故障发生时,组织协调各厂商共同处理故障。定期组织各厂商对系统运行情况进行总结。2.15具体控制方法在规范化的服务流程基础上,每次操作步骤按照如下方法进行:在与客户充分讨论的基础上确认具体实施方案及步骤。每个操作步骤都记录日志。客户确认操作结果。服务质量管理整个服务过程均符合ISO9001质量标准,整个服务过程均有文档记录,便于跟踪、分析问题;在服务一季度后一个月15日前提交提供季度服务报告,包括实施的服务、服务建议和存在的问题等。2.17定期服务总结报告指派获得厂家认证工程师定期到最终用户现场对设备进行常规检测,包括硬盘空间、CPU、内存使用情况。经过全面的检测后会出具一份详细的服务报告给2.18故障处理报告在最终用户处理完系统故障后,将故障现象、故障判断过程、故障处理过程、故障造成的系统和应用的损失以及由于故障而改变的系统参数或对系统做的任何操作都会记录在报告中给最终用户作为留档保存。2.19系统设置调整报告在每次对主机、网络、存储或软件系统参数调整后出具设置调整报告给最终用户。同时所有的变更将按照系统更改管理流程记录在案,同时及时更新所有相2.20年度工作总结对于年度服务,在年度结束时,向最终用户提供年度工作总结。总结一年内服务的主要成绩以及与最终用户要求之间存在的差距。并提交最终用户对的服务2.21项目管理员跟踪过程问题由项目经理制定本项目的服务计划,配置专门的项目管理员,跟踪计划的执行情况,跟踪每次服务的执行情况,跟踪相关服务文档的提交情况,跟踪客户反2.22文档统一配置管理在项目执行过程中,会形成一系列的文档,例如服务派遣单、服务报告,技术总结报告等,为保证这些过程文档的有效保存,通过建立配置库的方式,将文档入库,项目管理员负责跟踪文档的入库情况,发现问题及时上报项目经理及公司高层,直到问题彻底关闭解决。报告报告类型报告内容非现场服务报告

定时给客户提交的电话技术支持报告和远程服务总结报告。现场服务报告

工程师现场服务确认报告(由客户签字);

每次系统现场巡检的健康检查报告;

系统调优报告;

系统灾难恢复报告;

软件安装和数据库创建配置报告;

系统备份恢复策略配置报告;

数据库备份策略检查报告;

软件及数据库升级报告;

数据库数据迁移报告;每份报告主要包含如下内容:服务时间负责实施的工程师和客户方的技术维护人员服务内容说明服务效果说明遗留问题说明故障报告内容故障参考编号起源日志记录的故障日期和时间故障简要描述(如果存在的话)供应商提供解决办法的日期和时间永久性修复的日期和时间提供的修复的简要描述问题状态(开放

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论