版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
#(四)项目过程管理检查主要包括以下内容L进度:检查项目进度基本符合实施计划书,如果发生进度变更,变更记录完整。.沟通:检查项目相关各方沟通及时性,是否有文字记录;按期进行项目例会是否有会议纪要;定期项目汇报是否有汇报PPT及会议纪要等。.控制:检查项目过程管理中各个要素控制到位,如果有变更,变更记录完整。.成本:检查项目实施成本是否合理控制在预算之内,费用花费是否合理。(五)工具及平台使用情况检查主要包括以下内容:L运维统一平台内容:是否按照公司及部门要求填写事件,内容翔实。.及时性:是否能够根据项目进展及时填写事件。.现场工具及平台资源使用:检查是否充分、合理地使用公司(项目组)提供的相关管理与技术工具提高工作效率,是否正确使用用户现场环境中的相关工具平台为用户提供服务。(具体检查的指标要求和细则在我公司制定的《项目质量检查指南》中均有详细描述)二、人员素质能力我公司承诺:维护人员具备一定的表达和沟通能力,能够对用户进行所需的操作培训,解决常用软件操作的问题;维护人员经过业务系统培训(用户方组织),能够迅速掌握用户方服务器系统的安装、调试和故障排除能力,并协助用户方的技术人员或指定的技术人员进行这些设备及系统的安装、调试和故障排除。维护人员具有企业信息系统维护经验,能够较快熟悉业务流程,技术细节,制定详细的维护流程和方法,维护方案中给出业务应用信息系统维护的实施方案。我公司运维中人员都具备以下七种7项主要能力:沟通能力、协调能力、写作能力经济分析能力、组织能力、管理能力、学习专业知识能力。(一)沟通能力L运维人员不仅是一个设施接管运营人员,也是公司对集团以及外部单位的一个形象窗口,是客户与公司的桥梁和纽带,是集团运维战线的先锋营之一。沟通能力特别是口语表达能力是作为一名合格的运维业务及管理人员无可或缺的基本能力。2.运维人员对外:必须掌握一定的沟通能力、交流技巧,才能与客户进行有效的沟通、交流,了解所运维设施点的人员、设施、运行状况,做到有的放矢地做好接管、运行、维护、人员稳定工作,了解客户、设施点人员的意愿,掌握并能够及时、准确的传递接管、运行、维护过程中的实时状态及变化。为公司掌握全面信息,更好地分析、决策提供保障。3•运维人员对内:良好的沟通能力能够及时掌握公司的发展方向、工作重点工作程序,及时调整自己的工作思路、工作方法,以更好地开展工作。(二)协调能力运维人员必须具备一定的协调能力,才能使大局工作不偏离航向。在协调工作中,运维人员要站在接管运维项目全局的高度上,正确处理好接管运维项目整体与局部、局部与局部、内部与外部之间的利益关系,上级主管部门、公司和客户的工作协调,最后在全局利益上达到协调统一。(三)写作能力运维的工作与文字材料分不开,合同、报告(调查报告、评估报告、分析报告)、方案、汇报材料、请示文件、会议纪要、工作总结、制度、报表、图纸、计划、PPT等等,都是规范接管运营必需的过程、管理、运行资料。所以,运维中心人员必须具备一定文字功底和写作水平,要能做到:语句通顺,文辞准确、精炼,思路清晰,条理清楚,逻辑严谨,表述客观,评估深入、全面,分析专业、合理,建议中肯、可实施。(四)经济分析能力运维中心人员要有一定的经济数据敏感性,特别是要具备全面收集、精细整理成本核算依据并予以定量分析、归纳的能力,能够将数字经济化,从中找出盈利点(失利因素),并最终落实为收益、利润。(五)组织能力运维中心人员应当具备并提高自身的组织能力,掌握达到预期工作目标、达到领导意图所运用的一系列的工作方法和技巧。运维中心人员要根据不同的工作内容和工作目标将本单位/部门、客户甚至是上级主管单位及接管的人员组织起来,使大家朝着一个共同方向、共同的目标去努力展开工作。特别是在接管人员的安排方面,很关键要把握好一个“度",要做到人人有事做,事事有人管,合理调度人力资源,做到人尽其才,才尽其力,力尽其用。使每个工作人员都在不同的岗位充分发挥自己的特长,找到自己的奋斗目标,体现其自身价值,挖潜、发挥人力资源的经济效益。(六)管理能力管理能力是运维中心人员综合能力、综合素质的具体表现。运维人员要在不越权的情况下大胆安排工作,具备团队协调管理能力,特别是培养团队人员具备岗位素养的能力和甘当成长中的奠基石能力。管理能力来自本人的内在素质和外在魅力。运维中心人员应具备驾驭全局和处理复杂问题的能力,掌握一定的管理方法和技巧,才能充分调动被接管人员的工作积极性、主动性,才能将被设施发挥出最大效益。(七)学习专业知识能力运维人员需要具备较强的学习专业知识能力。学习能力除了包含态度上是否积极主动学习,以及是否懂得正确的学习方法之外,还要有自我评估、找差距的能力和面对“枯燥"理论、记忆力减弱、时间零碎等困难仍能持之以恒的意志力。三、人员考核制度我公司人员实施月度考核制度,考核关键指标及权重:客户满意度30%、工作量20%、问题及时处理率20%、故障及时恢复率30%。每项关键指标评估结果:(-)6分表示杰出的,完全超出预期。(二)5分表示全部完成,明显超越。(三)4分表示全部完成,有所超越。(四)3分表示基本完成,已努力,有所不足。(五)2分表示未完成、己努力、存在明显差距。(六)1分表示未完成、未努力、不可接受。通过人员考核制度不断提高本公司人员素质和能力,更好地服务于XX单位和满足整个项目的要求。四、人员离岗审批L维护人员请假离开工作岗位的规定:维护人员未经申请并获审批同意,不能擅离职守,否则,每发现一次,要求整改一次。维护人员确有原因离开工作岗位的,首先向公司主管提出申请,然后公司主管审批并提出工作交接方案,报用户方审批,用户方收到申请后在两个工作日内作出书面答复。用户方同意后,方能办理公司内部的请假手续,并在规定的时间内返回工作岗位。2•我公司承诺参与项目服务的工作人员尤其是驻场服务人员的稳定性,不随意更换和调动驻场服务人员,对驻场服务人员的调动和更换将经过XX单位的许可,并承诺新人员的素质符合项目的需要且不低于原有人员素质。五、保险福利待遇.我公司承诺参与维护的人员工资待遇处于行业中上水平,通过加强员工管理和正向激励,让维护人员始终保持最佳的工作状态。2•我公司为维护人员购买了意外保险,对于维护人员因为工作在用户方引起的各种工伤、安全事件和事故,用户方免于一切责任。第四章服务管理体系建设方案
第一节IT服务管理概述现今,随着计算机技术,特别是网络技术的飞速发展,对于许多行政单位,许多企业而言,IT技术越来越深入到核心业务,影响策略制定和企业的发展。从而对IT环境的可靠性,可用性和快速适应性提出了越来越高的要求,与此同时,IT环境(包括软/硬件及相关技术)却变得越来越复杂。因此,对于一个单位而言:如何把有限的IT资源最有效地作用于核心业务的发展;如何最快地获取专业的支持能力;如何实现对系统的完善管理,提高系统的可靠性和可用性;如何提高用户的工作效率,增加最终用户满意度;如何跟上IT技术的发展,及时更新相关技术;如何提高对IT系统利用的灵活性;如何更好地管理IT运营成本;以提高服务能力,将会是单位可能面临的问题。IT服务管理(ITSM)是一套帮助企业对IT系统的规划、研发、实施和运营进行有效管理的方法,是一套指导IT服务的方法论。ITIL是英国国家电脑局(CCTA)于80年代开
发的一套IT业界的服务管理标准库,它把业界在IT管理方面最好的方法归纳起来,形成规范,旨在为企业的IT部门提供一套从计划、研发、实施到运维的标准方法。它一经提出,便被欧洲各大公司纷纷采纳,随后在澳洲,美洲和亚洲流行开来,目前已成为IT服务管理事实上的标准。通过参考这些标准,我们可以充分借鉴国际化标准的IT服务管理最佳经验,使我们“站在巨人的肩膀上”来设计、规划及运维IT服务,尽可能少走弯路,有效提高IT服务的质量。IT服务管理的规划与实施业务业务管理服务管理安全管理IT基础架构管理技犬业务业务管理服务管理安全管理IT基础架构管理技犬应用管理ITIL框架图ITIL是基于流程的方法论。IT部门可用其检查是否用一种可控的和可训练有素的方法为最终用户交付所需的IT服务。ITIL合并了一套最佳的实践惯例,可适用于几乎所有IT组织,无论其规模大小,或采取何种技术。ITIL对IT服务管理实践中涉及的许多重要问题进行了系统的分析,包括全面的检查清单、任务、程序、责任等与任何IT服务组织密切相关的问题。这些概念的定义也涵盖了大多数IT服务组织的主要行为。IT服务组织可以借助ITIL的指导建立和拓展自己的IT服务流程。第二节运维服务管理流程体系运维服务管理最核心的是"服务支持”(ServiceSupport)和“服务提供”(ServiceDelivery)两个模块。各流程相互贯穿和作用,形成有机整体,共同建立一个健全的服务管理体系。如下图所示:一、服务支持服务支持的内容描述了一个客户如何访问适当的服务,以支持其业务。服务支持包含以下内容:(-)服务台1•我们为企业建设服务台,提供统一报障电话,统一报障、统一维修接口,XX单位可以通过统一的报障电话申请服务、查询服务处理进程,监控服务质量。.服务台(ServiceDesk)是IT服务组织和用户相互联系的接入点。服务台曾经被称为帮助台(HeIPDesk)oHelpDesk的主要任务是记录,分解和监控提出的问题。一个服务台可以具备更宽泛的角色,如接收变更请求(RFC),并且可以支撑多种流程中的操作。.服务台是服务提供者和用户之间的日常工作的单一联系点。它也是报告突发事件和提交服务请求的焦点。正因为如此,服务台的职责是保持将服务相关信息,行为和契机通知用户,并追踪了解用户每日的行为。例如,服务台可能扮演用户提交变更请求的联系点,基于变更管理流程传达变更实施计划,并保持将变更实施进程通知用户。变更管理应该确保服务台随时保持对变更行为情况的掌握。.在任何对SLA产生影响的事件面前,服务台处于第一线,并维护高速的信息流通道。.围绕突发事件,服务台有可能在其权限范围被授权实施变更。此类变更的范围可能被预先定义。当所有相关变更发生时,变更管理流程将被告知。基本上,当对任何CI的规范做出修改之前,变更流程都需要对其进行预先审批。(二)突发事件管理.突发事件管理流程致力于解决突发事件,并快速恢复服务供应。突发事件被记录下来,并且事件记录的质量决定了相关的其他流程的效力。2•服务台接近于突发事件管理流程和问题管理流程,并处于它们之间。如果没有适当的控制,变更有可能引入新的突发事件。因此需要建立有效途径对变更进行跟踪。这是为什么建议持续不断地将突发事件记录在同一个CMDB中,并分类为"问题","已知错误","变更记录"等信息,以促进服务台界面的信息沟通能力,简化事件调查和报告。.突发事件的优先权及其升级需要作为服务级别管理流程中的一部分进行协商,并在SLA中备案。.突发事件管理的目标:突发事件管理的目标是尽可能迅速地根据SLA中定义的普通服务级别做出反应,使产生问题后对业务行为及组织和用户的影响最小。突发事件管理也应该保留对事件的有效记录,以便于衡量和改进流程,并向其他流程汇报。突发事件流程如下图所示:(三)问题管理L对于突发事件有两种处理方法,一种是对其做出服务快速响应,尽快恢复其正常运行,另一种是鉴别和解决问题根源。这两种方法之间存在微妙的区别,而且经常被互相混淆。对其做好区分具有重要意义。2•如果问题被怀疑存在于IT架构内部,问题管理流程将会瞄准其潜在的根源。一个问题可能是被突发事件暴露出来的,但是显然,问题管理的目标是解决问题根源,预防其可能产生的干扰,而不是迅速恢复系统运行。3•当问题被识别后(被识别的问题通常称之为己知错误),通常需要进行一个业务决策,决定是否采取永久性措施改进系统架构,以预防再次发生新的突发事件。如果需要,提交一个变更请求来实现改进。.为了有效和高效地识别突发事件背后的问题根源及其发展趋势,问题管理流程需要准确全面的突发事件的记录。问题管理流程同样需要和可用性管理流程密切联络,以确定这些趋势并明确补救措施的重要性。流程如下图:(四)配置管理L配置管理致力于控制一个变化中的IT架构(标准化和状态监控),鉴别配置项目(清册,相互关联,审核与注册),收集和管理有关IT架构的文档,为所有其他流程提供IT架构的相关信息。.配置管理是所有其他服务管理流程不可分割的一部分。拥有当前架构中所有部件的最新的,准确的,全面的和详细的信息,并管理其变更,使这些信息有效而高效地支持其他流程运行。变更管理可以与配置管理集成。至少,建议在配置管理系统中控制变更的登录和实施,并自在配置管理系统的帮助下对变更影响做出评估。因此所有变更请求应该被输入配置管理数据库(CMDB),并随着变更请求的进展随时更新记录,直至其实施。.配置管理系统识别一个变更项目和架构中其他部件的关系,将这些部件的所有人召集到影响评估流程中来。不管一个变更是否在架构中实施,相互关联的配置管理记录应该在CMDB中得到更新。最好在变更发生时,使用集成工具自动的更新记录。.CMDB应该开放给整个服务支持组,使所有人理解部件失效可能的原因,从而使突发事件和问题可以被更容易地解决。CMDB还应当被用来把突发事件及问题记录和其他记录联系起来,比如失效的配置项目(ConfigurationItem-CI)和用户之间的联系。如果缺少了配置管理流程的集成,发布管理将难以实现,并可能错误连连。5•服务交付流程同样依赖于CMDB中的数据。例如:(1)服务级别管理需要识别相互结合在一起的部件,并在此基础上设置支持协议,交付服务。IT财务管理需要知道每个业务部门使用的IT架构部件,尤其是对于收费的项目。IT服务持续性和可用性管理需要识别部件,用于问题风险分析和部件失效影响分析。下图显示了配置管理和其他服务管理流程之间的关系:能力管理、变更管理、配置管理和发布管理之间的关系图(五)变更管理L变更管理专注于对IT架构实施可控的变更。此流程的目标是确定所需的变更,并决定这些变更如何在对IT服务产生最小的不利影响的范围内得以实施。同时确保其变更是可追溯的,而且是经过整个组织内部有效的磋商和协调的。在客户组织提交变更请求后,由配置管理流程监控其状态,与问题管理和若干其他流程进行协调。变更实施履行一特定的路径,包括定义,计划,建立,测试,接受,实施,和评估。2•变更管理流程依赖于配置数据的准确性,以确保获知所有实行。3•变更造成的影响。因此变更管理与配置管理之间有密切的联系。4•变更流程的详细内容应在SLA中存档,确保用户知道提交变更申请的程序,项目目标及时间,以及实施变更造成的影响。5•变更的详细内容需要通知服务台。即使变更经过了全面测试,仍然很有可能存在实施变更的过程中发生各种困难,这些困难可能源于变更没有按需求或预期运行,或者对变更对功能造成的影响产生质疑。6.变更咨询会议(ChangeAdvisoryBoard-CAB)由可向变更管理小组提供专家意见的人员组成。这个会议很可能由来自所有领域的IT及业务单位的人参与。
*建立RI加试*实施*评"W*建立RI加试*实施*评"W枚类划记接分计(六)发布管理1•发布是指一组配置项目(ConfigurationItems-CI)经过测试被引入处于活动状态的环境中。发布管理的主要目标是确保发布信息被成功地公布,包括归纳综合,测试与存档。2.发布管理确保只有经过测试和正确授权的软硬件版本才能提供给IT运行环境。发布管理与配置管理和变更管理的行为密切相关。真实的变更实施经常通过发布管理行为得以贯彻。3•变更的结果可能经常来自新硬件,新版本软件,以及新的文档(自行建立,或购买而来)等。对它们进行控制,并打包和颁发。有关存档安全和公布程序应该和变更管理和配置管理流程紧密集成。发布的程序也可能作为突发事件管理和问题管理流程中不可分割的一部分,同时还和CMDB密切相连,以维护及时更新的记录。
UH务:sN的■",HKfIWTflittWU丁《洞试RXKTz发布H•旦发布策电和计划发心饺".UH务:sN的■",HKfIWTflittWU丁《洞试RXKTz发布H•旦发布策电和计划发心饺".建J.RI&日加.K和发小承•4公命港「ilH沦通.冷品川培训发行和汇*K
4Kfiiiwrtj'f二、服务提供服务提供主要包括:服务级别管理、IT服务财务管理、能力管理、持续管理、可用性管理等。(-)服务级别管理服务级别管理的目标是缕清与客户之间有关IT服务的协议,并付诸实施。因此,服务级别管理需要收集客户需求,IT服务组织可提供的设施,以及可用的财务资源。服务级别管理针对提供给客户的服务(聚焦客户的)。因此是基于客户需求建立服务(需求拉动),而非单纯基于现有技术所及(供应驱动),从而使IT服务组织提高客户满意度。服务级别管理阐述的内容有:L如何在服务级别协议(ServiceLevelAgreement-SLA)中清楚的定义条款,使其可优化IT服务成本,并为用户所接受。2.如何监控和讨论所提供的服务。3.如何管理IT服务组织的供应商及其下包合同。服务级别管理(ServiceLevelManagement—SLM)流程是用来确保服务级别协议,并支持运行级别协议及其他合同,保证所有对服务质量的影响减少到最小。此流程在服务质量和SLA基础上评估各种变更造成的影响,包含预期变更前的影响,也包含评估实施变更后的影响。SLA中某些最重要的目标和服务可用性,以及在容许周期内对突发事件形成决策有关。SLM是服务支持和服务交付的关键。由于它依赖于其他流程的存在性,有效性及运行效率,它不可孤立存在。一个缺乏基础支持流程的SLA是没有意义的,缺乏支持的SLA就失去了承认其内容的基础。(二)IT服务的财务管理财务管理针对IT服务的谨慎从事。例如,当所提供的IT服务在进行中时,财务管理将提供其导致的成本信息。这样使考虑IT架构或IT服务的改变时,能够合理地考虑成本和利益(价格和性能)之间的关系。财务管理中对成本的鉴别、分配、预测和监控使成本成为可知因素,减少成本和预算的差距。重点结合IT服务组织的盈利,IT服务的财务管理描述了多种支付方法,包括设立支付和定价的目标,以及预算计划。财务管理负责对成本及IT服务投资回报的会计核算,并管理任何来自客户的成本。财务管理需要与能力管理(CapacityManagement)配置管理(ConfigurationManagement,包含资产数据),以及SLM的良好接口,来确定服务的真实成本。在IT组织预算谈判阶段和客户的IT耗费核算阶段,财务管理很可能与业务关系管理(BUSineSSRelationshipManagement)及IT组织密切相关。(三)能力管理能力管理是优化成本、获得时间,以及开发IT资源的流程,来支持与客户签订的服务条款。能力管理针对资源管理,性能管理,需求管理、建模,能力计划,负载管理,以及应用软件能力推测。能力管理强调用计划来确保所签订的服务级别可以被履行和成长。能力管理负责确保在所有时间具备足够的可用能力,以满足业务需求。能力管理不是简单地与系统部件的性能相关,而是直接与业务需求相关。在那些与能力问题相关的困难面前,能力管理在突发事件决策和问题鉴别过程中被引入。能力管理提交变更请求以确保得到适当的可用能力。这些RFC被提交给变更管理流程,其实施可能影响若干CL包括硬件,软件和文档,并需要提供有效的版本管理。能力管理应该在评估所有变更时被引入,用来确定变更导致的在能力和性能上的影响。这种影响在变更实施前后都有可能出现。能力管理应该特别关注变更在一定周期后引起的累积性变化。容易被忽略的单个的变更往往在经过累积后,引起响应时间衰减,文件存储问题和对处理能力的过度需求。(四)IT服务持续性管理L此流程在业务中断时对IT服务进行灾难恢复措施的准备和计划。业务持续性管理为客户组织遇到灾难时准备好紧急预案,根据此预案采取与IT服务相关的预防灾难发生的措施。IT服务持续性管理流程对技术,财务和管理资源需求做好计划和协调,确保灾难发生后可持续提供服务,并就其内容达成客户同意。.IT服务持续性管理与一个组织在业务中断后在某个可允许范围内继续运作的能力密切相关。至少要保证最基本的业务运行所需要的IT服务,预先对其服务级别作出规定,并和客户达成一致。有效的IT服务持续性需要一个平衡的风险缩减措施,例如有弹性的系统和备份恢复设施。配置管理流程中的数据被用来辅助其计划和预防措施。需要对架构和业务变更对持续性计划造成的潜在影响进行评估。有关IT和业务的计划应该提交变更管理程序。在持续性管理流程中,服务台承担着重要角色。(五)可用性管理L可用性管理是确保资源、方法和技术得以适当拓展的流程,以支持与客户签订的IT服务条款。可用性管理针对所遇到的问题,如优化维护等,并且设计测量指标,最大程度减少意外突发事件的数量。.可用性管理与IT服务的设计,实施、测量和管理相关,确保规定的业务需求中有关可用性的内容被贯彻。可用性管理需要理解IT服务失效发生的原因和恢复服务所需的事件。突发事件管理和问题管理提供了关键输入SLA中描述的可用性的目标在可用性管理流程中被监控,并包含在其报表中。此外,在支持服务核查制度所提供的测量和报表中,可用性管理对服务级别管理(SLM)流程提供了支持。第三节服务流程设计在IT服务运作出现故障或因XX单位提出新的服务请求而需进行有关变更时,服务台通常需要负责与供应商进行联络以维修或替换有关的软硬件组件。一、服务流程之间的关系信息系统从总体上来说是一个不可分割的有机体,各流程是不能独立运行的,服务管理体系各流程之间的接口关系图如下:服务管理体系各流程之间的接口关系XX数据中心与其下属各部门的接口主要表现在:(1)用户提交事件或咨询请求给服务台,服务台在整个事件处理过程中保持与用户的沟通,直至解决方案的确认和事件请求的关闭。(2)如果在管理流程中允许变更请求可以由用户提交,则用户可以把变更请求提交给变更管理人员。2•事件管理流程的接口:(1)监控系统发现的故障或报警输入到事件管理流程。(2)用户的事件或服务请求输入到事件管理流程。(3)问题管理流程分析事件记录,确定问题。(4)提出变更请求到变更管理流程实施事件解决方案,以解决事件。(5)事件管理流程查询配置项配置信息,进行事件的分析,诊断和解决。•问题管理流程的接口:(1)事件记录输入到问题管理流程进行问题分析。(2)提出变更请求到变更管理流程实施问题解决方案,解决问题。(3)问题管理流程查询配置项配置信息,进行问题的分析、诊断和解决。.IT资产和配置管理流程的接口:为事件管理、问题管理和变更管理等运维流程提供信息。.变更管理流程的接口:(1)事件管理和问题管理提出变更请求到变更管理流程实施解决方案,解决事件或问题。(2)变更管理流程查询配置项配置信息,如相互关系等,进行变更的风险,影响分析等。(3)变更请求处理完毕后,与配置管理协调以更新相关信息。二、服务台管理通过对本项目的需求了解,建立符合项目指导框架的流程规范和设计各流程的相互关系及流程接口,从而,达到为XX数据中心建立与优化相应的服务台的服务支持工作流程的目的。在本项目建立服务台,并安排相关人员负责事件的记录与人员协调。(-)实施主要内容服务台建设分为以下几个方面:L服务台团队分工:服务台团队的建设根据项目要求,将各专业技术人员进行组合,从而更好地完成服务台职责。.服务工具优化:(1)服务工具部署概要:技术工具的优化分为两个部分:1)监控、配置系统等工具的部署,如WebCare内网监控平台等;IT服务管理平台工具的优化,如统一运维服务管理平台等。2)技术工具的优化,需要参考实施方案中的技术方案部分。对外服务类的技术监控工具统一部署在公司服务台,进行统一监控和故障处理。项目管理工具:使用统一运维服务管理平台对整个项目进行管理、跟踪和控制。(2)服务工具部署基准要求:为能使工具部署得当,充分与人员、项目有机结合,真正形成有特色的IT服务,体系明确如下基准要求,以指导现场工作有效进行:1)资产管理必须符合服务合同范围界定要求。2)资产管理必须与"供应商"、“服务支持方”、“技术联系人"、官方信息(网站及资料)等相互关联。3)资产管理中的对象,必须包含服务人员。.服务流程定制:根据XX单位现状以及实施计划中设计的流程进行定制。4•培训辅导:培训辅导工作对于服务台建设至关重要,培训工作包含以下内容:(1)工作职责。(2)工作制度和技术操作规范。(3)工作流程。(4)技术架构情况,如网络情况、如何管理、机柜图等。(二)实施交付物L服务台人员工作流程列表(包括供应商联系流程、部分事件处理流程等)。2•服务台人员职责、工作注意事项、服务台人员管理制度。.服务台人员工作日志。.服务台人员绩效考核指标。(三)日常管理服务服务台的主要工作是对XX数据中心的问题与处理,另外对各相关部门和各条线接入提供技术支持,通过电话或现场解决用户问题。.发起管理过程:服务台通过对系统的监控和用户请求,初步判断系统中是否已经有紧急事件发生,或者有问题需要解决,由此发起相应管理过程,例如:系统紧急恢复或者进入问题跟踪处理流程、进行配置的更改等等。.执行应对紧急情况的处理操作:根据事件管理过程和问题管理过程预先定义的紧急情况假设和相应的应对办法,当有紧急情况发生时,如果符合预先定制的紧急情况特征,则在最短的时间内启动应急处理操作,并确认应急操作是否达到预期的效果。日常情况下,需要定期在测试环境中演练紧急操作步骤,并根据系统配置变更调整应急操作的过程。•执行对系统问题的一线解决:负责服务台的工程师有责任进行现场的问题处理,在应急措施到位的前提下,服务台的工程师还要进行诸如联系相应的供应商,申请相关服务的工作。对于要解决的问题除进行记录以外,要对问题进行首次解决,并判断发生问题的单元。如果在规定的时间内不能解决,则根据流程申请片区支持(二线),如还不能解决,通过公司调度调用三线、四线的技术支持。4•统计服务情况,与用户定期进行沟通:(1)项目组月度与用户进行交流,汇报本月系统运行状况,和对问题的跟踪解决情况。并接受用户方对项目组的要求和下一阶段需要配合的重要工作。提出有关的建议形成相关报告。(2)通过问题管理实现消除引起区信息系统事件的深层次根源,以防止事件再次发生;找出导致以前的事件发生的根本原因;提出解决措施或纠正建议;找出基础设施中的薄弱环节来阻止事件的再次发生;提出消除这些薄弱环节的建议。三、事件管理流程为XX数据中心运维服务制定与优化相应的服务台事件管理流程。(-)实施主要内容L事件管理的定义、相关概念、目标、内容、作用。2•确定事件管理流程、确定相应服务人员的事件管理工作角色、工作职责、工作范围及相应事件管理制度。3.确定事件管理文档与说明,以及事件的分类、调查、分析、跟踪流程。4确定事件管理与其他流程相互接接口与关系。5•确定事件升级与上报制度。6•确定日常事件处理流程(按照事件等级划分)与二维支持处理流程。.确定事件分析制度与流程。.确定事件管理实施过程关键绩效指标与服务人员考核指标。(二)实施交付物.事件管理文档模板与文档说明。.事件管理流程(事件定义、事件范围、事件处理、分析流程等)文档。.事件升级与上报制度文档。.日常事件处理流程文档。.事件管理关键绩效指标与服务人员考核要求文档。四、问题管理流程为XX数据中心运维制定与优化相应的问题管理流程。(-)实施主要内容L问题管理的定义、相关概念、目标、内容、作用。•确定问题管理流程、确定相应服务人员问题管理工作角色、工作职责、工作范围及相应问题管理制度。.确定问题管理文档与说明,以及问题的分类、调查、分析。.确定问题管理与其他流程相互接接口与关系。.确定问题控制与错误控制流程。6•确定主动问题管理流程、方法与制度。.确定问题管理实施过程关键绩效指标与服务人员考核指标。(二)实施交付物L问题管理文档模板与文档说明。2•问题控制、错误控制流程。3.主动问题管理流程与报告。4•问题管理关键绩效指标与服务人员考核要求文档。五、IT资产和配置管理在项目的初期,对XX单位和数据中心的IT资产进行梳理、清查,同时和我公司的服务流程结合起来,形成适合XX单位信息系统的维护界面资产管理流程。一旦流程和数据确定下来,定期对资产数据进行分析和评估,形成硬件的、软件的全生命周期的资产报表,为下一年的信息化预算提供数据依据。(-)服务资产配置管理的目标L对业务和XX单位的控制目标及需求提供支持。2•提供正确地配置信息,让使用者能够在正确的时间做出决策,从而维持高效的服务管理流程。例如,对变更和发布进行授权后,能够更快地解决事件和问题。3.降低由不合适的服务或资产配置导致的质量和适应性问题。4.实现服务资产、IT配置、IT能力和IT资源的最优化。(二)服务资产和配置管理的范围服务资产和配置管理的范围囊括了整个服务生命周期中的各种服务资产。它提供了一份完整的资产目录,方便对各种资产进行管理,具体而言,它包含对IT资产和服务资产进行全面声明周期的管理,从购买初期延续到最终报废;以及整个周期资产目录的维护。(三)实施交付物.配置管理文档模板与文档说明。.形成信息系统配置管理库。.配置管理基准线。.配置管理流程(配置管理定义、范围、配置属性项等)文档。.配置管理关键绩效指标与服务人员考核要求文档。.IT资源运行环境评估。.IT资源应用环境评估。.IT资源优化配置建议。六、变更发布管理通过变更、发布管理来确保XX数据中心信息系统运维中对软、硬件的信息变更采用标准方法和过程,达到变更、发布过程尽量迅速、对服务质量影响最小化、制定与优化XX数据中心信息系统相应的变更、发布管理流程。(-)实施主要内容L变更、发布管理的定义、相关概念(变更请求)、目标、内容、作用。•确定变更、发布管理流程(紧急变更与一般变更)、确定相应人员变更管理工作角色、工作职责、工作范围及相应变更管理制度。3.变更实时控制(紧急与一般变更过程)。4•确定变更、发布管理与其他流程相互接接口与关系。5•确定变更、发布管理实施过程关键绩效指标与服务人员考核指标。(二)实施交付物L变更文档模板、流程与文档说明。.发布管理流程。.变更、发布管理关键绩效指标与服务人员考核要求文档。第五章运维服务内容设计方案
第一节运维服务准备做好运维服务项目的准备工作是项目顺利完成的前提条件。在运维服务项目开始前,我公司将积极做好前期准备工作,在这个阶段,有三个主要步骤:一、签订必要的协议和约定我们将配合XX单位,考虑服务外包可能产生的信息安全风险,并签署信息保密协议;同时对项目中涉及的各类软硬件资产、工具的知识产权作出明确规定与声明。二、人员准备我公司将依据服务方案,培训相应数量、具备相应技术资质的专业服务人员,并向服务单位提供这些服务人员的:•身份证明。•健康证明。.劳动关系证明。4•保险证明。.学历和技术专业资质证明。三、工具准备•依据服务方案,针对项目的IT资产类别、数量等为服务外包项目准备相应的备机、备件以及工具。.服务工具包括软性工具和硬性工具,软性工具包括服务商开发的各类服务管理软件系统、知识库系统、针对客户方IT资产的文档和驱动程序库等;硬件工具指维修、保养、检测工具及调测仪器等。第二节核心设备维保方案一、原厂维保设备对要求原厂维保设备,我公司将及时协调设备原厂商予以维修,并监督维修时效和质量。我公司将安排专业人员负责需原厂维保的设备,定期与原厂商取得联系,积极关注和跟进原厂设备的情况;对于需维修的原厂设备,我公司人员将对原厂商的维修时效和质量进行严格把控,确保相关设备的正常运转。二、第三方维保设备L对第三方维保设备,我公司承诺将设置备件库,如需更换配件,我公司承诺将及时联系提供维保服务的第三方维保服务商,严格按照响应时间要求提供相关配件。所需配件购置费用由我公司承担。如设备需要整机维修,我公司将在响应时间内提供同等性能的备机,并及时恢复运行。.当运维过程中需要由第三方对第三方维保设备提供服务时,由运维工程师填写《维修商服务工作单》,描述需维护的产品名称、问题描述、问题类型、优先级、服务级别以及服务要求等内容。《维修商服务工作单》经服务主管审批通过后提交给维修商,维修商在收到《维修商服务工作单》后应签收确认,并向投标人返回一份副本。.当《维修商服务工作单》经服务主管审批不通过时,由运维工程师修改《维修商服务工作单》并重新提交;如果审批意见为不采用维修商服务方式,则转问题管理流程处理。.维修商按照《维修商服务工作单》的要求提供服务,在工作单中记录维护处理、处理建议及维护处理结果,并得到客户的签字确认。维修商在维护服务工作完成后将填写好的《维修商服务工作单》提交给运维工程师。.运维工程师根据维修商提交的《维修商服务工作单》对维修商服务过程和结果进行验证。验证通过的,运维工程师签字确认,与本次维护对应的《运维工作单》一起提交给服务主管。验证不通过的,则在《维修商不合格情况记录表》中记录该维修商不合格服务时间、原因和对应工单编号后,由运维工程师重新提交《维修商服务工作单》,再次发给维修商。第三节数据中心运维整体概述一、基础环境运维管理(-)保持数据中心恒温恒湿1•机房空调是一种容易出现故障的机械设备,因此需要定期维护,对于内部工作人员来说,应该例行更换过滤器,维护冷水机组、冷却塔、节能器或干式冷却器。.数据中心的空气调节器CRAC和空气处理器CRAH被归类为精密空调,数据中心设施人员可以检查皮带运行和制冷剂的液位,而空调制造商的认证服务人员将这些部件作为其数据中心维护例行程序的一部分。3•现代设备都具有传感器,可提供读数,供技术人员分析以检测即将发生的故障。数据中心的冷却系统如今越来越复杂,有的还包括直接驱动风扇和带有可自动调节容量的变频驱动器的压缩机。另外,计算机房空气调节器CRAC和计算机房空气处理器CRAH部署在数据中心,或者冷却器顶置,或者并排放置。(二)电源和电气系统的处理1•为了检测设备是否过热,我公司将安排专业人员每年对电力系统进行红外扫描。数据中心的电源系统普遍采用UPS电源,而当电源发生故障时,一些电池很可能会失效。.UPS电池有几种主要的电池类型:阀控式铅酸电池是最常见的类型,但通常只能使用三到五年。锂离子电池是最新的类型,并且使用寿命可能会更长,但是在材料性能和安全方面还存在一些问题,有些数据中心其禁止在建筑物内使用锂离子电池。传统铅酸蓄电池可以使用25年,但需要进行特殊的房间设置并需要定期检查酸液液位。3•数据中心工作人员需要对电池采用监控措施,某些UPS电源具有内置仪表,并提供附加硬件选件。专业人员会采用模拟负载来模拟数据中心设备,因此可以查看UPS电源是否可以支持实时负载或必须更换。4•作为备用电源的柴油发电机中的自动转换开关需要定期维护,但由于可能没有安装旁路开关,因此很少对其进行处理。如果没有旁路开关,就无法在不转移有载负载的情况下测试自动转换开关,因此它可能是电源供应链中最脆弱的一部分。数据中心采用红外扫描进行检测时需要检测这一组件。(三)维持消防设施L无论是基于水还是基于气体的消防设备,在数据中心维护期间必须禁用,以防止触发警报或导致整个数据中心关闭。.维护人员必须检查基于气体消防系统的液位和压力,必须验证气体系统的控制系统操作,必须对所有类型的检测器进行测试,以确保它们仍然可以正常运行。另外,必须清除早期烟雾探测系统吸气管中的小孔,以清除灰尘和障碍物,这些颗粒有可能激活高度敏感的消防系统。(四)保持设施清洁L如果没有获得适当的冷却,数据中心硬件将会关闭以进行自我保护。通常,其原因只是灰尘和颗粒积聚在小型过滤器和内部散热器上。无论工作人员对清洁设备、及时关门和设施多么谨慎,细小颗粒物仍然可以通过工作人员融入设施。.专业的数据中心清洁服务人员知道如何在高架地板上进行清洁而不中断冷却,如何清洁服务器过滤器而不会造成停机,并且采用专用设备来清除数据中心设施所有组件上的颗粒。作为数据中心维护的一部分,每年至少对数据中心进行一次清理。二、网络环境运维管理(-)影响网络性能的原因.网络性能现状:网络技术发展日新月异,各类新型应用不断涌入,如流媒体通信、Web会议、IP语音等。这类应用为网络增光添彩的同时,也消耗掉大量带宽,使网络不堪重负,最终导致整个网络性能降级。应用性能就是最值得关注的一个问题。据有关调查表明,有近32%的用户反映她们的网络应用性能明显降级,43%的用户认为在过去一年中网络速度在不断降低。导致网络应用性能降级的因素就是多方面的。从IT主管角度瞧,公司员工过于分散以及公司内部部门划分过多就是最重要原因;同时多数IT主管认同一点,即网络性能降级最终会妨碍企业生产效率的提高,并影响到客户服务。而且这项调查还发现,有三分之一的公司已经推迟配置ERP、CRM、门户站点或其他网络应用,原因就是它们或多或少地影响到网络性能。超过三分之一的被调查者承认,由于担心网络在负荷激增的情况下难以高效运转,她们己经推迟采纳对一些关键商务的应用。2•问题的症结:由此可见,找出引发网络性能问题的症结所在就是关键。可将网络应用大体为分为约束性与非约束性访问,后者如Web冲浪、对等(peer-to-peer)文件共享操作与实时通信。另一个问题就是很多公司往往不知道网络都运行有哪些应用系统。只有四分之一的被调查者回答她们准确知道哪类应用在运行,它们占用带宽几何;有39%的用户估计,非约束性应用占据了21%到40%的网络带宽。调查中发现,在整个IT基础架构中,最影响网络性能的部分集中在如下五个方面:服务器、应用软件、体系结构配置、LAN性能、WAN性能。3.解决之道:尽管网络性能问题已变得相当普遍,但很多公司仍只就是被动反应,往往就是在终端用户或客户提出来时才想到问题的严重性。尽管配置有网络监控工具,仍有72、6%的客户反映终端用户提出性能问题,另有82、3%的被调查者说公司雇员提到网络性能降级问题。很多系统都不具备告警功能,只就是在出现故障时才想到采取措施,但己经晚了。对网络应用性能管理应当"主动出击",其中采用网络监控工具就是重要一环。我公司提供的XX能提高网络中关键应用的可靠性,在网络与服务器出现故障时及时排查问题,并告知网络主管可能带来的其他影响。(二)目前可能存在的困惑网络对于业务越来越重要,如何更好地对网络进行监控、维护,如何减少网络故障的发生,保证业务的正常开展,就是现实的问题。网络性能管理不仅仅就是测量服务水准的目标,它还应该包括对网速降低或者通信中断的及时发现、基于事实的容量规划、对网络资源有效的使用,以及全面的故障排除。当前XX单位网络可能存在的问题:L对于庞大的网络系统,出现故障不易查找、诊断与修复:没有准确的数据可以进行科学化的故障分析,只能就是低效率盲目地猜测。.没有预防性管理:没有预防性能力,在网络问题出现前没有任何预警。.无效的应用监控:没有对网络中的应用进行有效的监控,当应用系统性能下降时,不能及时判断出就是网络问题,还就是应用系统本身问题,无法保证业务的连续运行。.网络基础设施的性能利用率低:不能充分利用现有的带宽与设备,无法发现带宽瓶颈。•不能实现有效的网络规划:不能为网络增长提供基于事实的依据。.网络的可视性差。7•手动地对众多的网络设备(如交换机,路由器,防火墙)与服务器(SMTP,SQL)进行监控,浪费管理员的精力与时间,而且不能及时发现问题所在。8•当发生故障的时候,不能及时得到有效的警报信息。9•没有一个简观明了的图表功能,说明网络或节点的相关资源使用情况。完善的网络性能管理解决方案,应该满足对网络性能日益提高的需求,提供最佳性能管理与报告工具,帮助网络管理人员从被动管理模式转换至主动识别流量变化模式,并针对不断提高的网络需求进行规划。网络带宽与网络服务级别的监测,网络仿真则可在所建议的网络变化实施之前对其加以测试。同时,方案应具有可扩展性,要具备随网络发展而灵活扩充的能力。这些都可以通过我们建议的使用XX网络性能监控解决方案得到满足。(三)解决方案一般来说,网络管理者所需要了解的就是各个网段的使用情形,频宽的使用率,网络问题的瓶颈发生于何处。当网络问题发生时,必须能够很快地区隔出问题的发生原因,可能就是线路问题、网络设备问题,或者就是路由器的设定问题。一个有经验的管理者要回答这些问题并不难,但就是如果所管理的网络范围过于庞大,那么就可能需要一个有效率的网管系统了。透过网管系统可以协助网络架构管理,并显示网络上目前发生的各种流量与运作情形。若发生问题时,也能够减少许多处理时间。以牵涉的节点数量以及能够在节点上执行的协议组合而言,网络都就是一个复杂的系统。即使将范围局限在单一行政范围内,还就是可能包含数十个路由器及数百,甚至数千台主机。如果考虑在任一节点上保存及处理的所有状态,例如地址转译表、路由表、TCP连接状态等,那么很容易就陷入充满各种数据的茫茫大海中。从网络的连通性、网络的性能、网络的监控管理三个方面实现对网络系统的运维管理,网络、安全系统基本服务内容具体如下:序号服务模块内容描述提供方1现场备件安装配合用户进行,按备件到达现场时间工程师到达现场2现场软件升级首先分析软件升级的必要性
和风险,配合用户进行软件升级3现场故障诊断按服务级别:7X24小时5X8小时4电话远程技术支持7X24小时5问题管理系统对遇到的问题进行汇总和发布网络核心交换机巡视典型作业计划书系统管理单位:维保单位:设备名:设备型号:管理IP:检查内容参考标准检查结果检查结论巡视方法描述巡检周期硬件运行状态电源运行状态□正常□异常风扇运行状态□正常□异常模块运行状态□正常□异常系统运行状态检查VLAN状态□正常□异常配置状态□正常□异常OSP状态□正常□异常日志检查日志状态□正常□异常其他检查内容□正常□异常□正常□异常□正常□异常1•用户现场技术人员值守:根据用户的需求提供长期的用户现场技术人员值守服务,保证网络的实时连通和可用,保障接入交换机、汇聚交换机和核心交换机的正常运转。现场值守的技术人员每天记录网络交换机的端口是否可以正常使用,网络的转发和路由是否正常进行,交换机的性能检测,进行整体网络性能评估,针对网络的利用率进行优化并提出网络扩容和优化的建议。现场值守人员还进行安全设备的日常运行状态的监控,对各种安全设备的日志检查,对重点事件进行记录,对安全事件的产生原因进行判断和解决,及时发现问题,防患于未然。同时能够对设备的运行数据进行记录,形成报表进行统计分析,便于进行网络系统的分析和故障的提前预知。具体记录的数据包括:(1)配置数据。(2)性能数据。(3)故障数据。2.现场巡检服务:(1)现场巡检服务是对XX单位的设备及网络进行全面检查的服务项目,通过该服务可使XX单位获得设备运行的第一手资料,最大可能地发现存在的隐患,保障设备稳定运行。(2)同时,将有针对性地提出预警及解决建议,使XX单位能够提早预防,最大限度降低运营风险。(3)巡检包括的内容如下:编号巡检内容1硬件运行状态检查项目单板状态检查电源模块状态检查风扇状态检查整机指示灯状态检查机框防尘网检查机房温度、湿度检查设备地线检查2软件运行情况检查项目设备运行情况检查网络报文分析设备对接运行状况检查路由运行情况检查
3网络整体运行情况调查网络运行问题调查 网络变更情况调查 网络历史故障调查服务内容服务优点向XX单位提供网络专家电话号码。保证重大问题第一连线至网络专家。网络专家组每周与XX单位进行不少于2小时的电话技术交流以最小成本保证及时解答XX单位关心的技术问题,并就某一领域技术问题展开深层次沟通。每月向XX单位提交CASE汇总分析报告,并可扩展到每年17次(月度、季度、年度)使XX单位了解网络历史故障情况以及故障预防建议,最大程度减少网络故障隐患,更高效地进行网络管理。4.重要时刻专人值守服务:(1)保证重要时刻设备稳定运行对运维工作的成功尤为关键,因此,可对XX单位提供重要时刻的专人现场值守支持,包括XX单位的重大会议期间、金融客户的年终结算日、运营商客户的生产网重大割接或其他任何XX单位认为可能对其业务运营产生重大影响的时刻。(2)对XX单位,授权服务商均需按事先合同约定提供专人值守服务。XX单位如需超出合同约定范围的更多值守支持,需额外支付相应人力和差旅费用。三、服务器和存储运维主机、存储系统的运维服务包括:主机、存储设备的日常监控,设备的运行状态监控,故障处理,操作系统维护,补丁升级等内容。(-)硬件系统管理L服务器运行稳定性:(1)服务器在运往托管商处上架前,应对服务器的稳定性进行全面的测试,包括网站主程序的测试,网站数据库的测试,网站压力测试等多项内容,对服务器的运行稳定性进行检验,在硬件上特别是容易松动的地方进行检查加固。(2)服务器上架后,每天对服务器状态进行不间断的监控,每月对服务器出具一次安全检测报告,分析是否存在异常。.服务器性能:服务器的性能进行全面检测,特别是对服务器处理大批量数据的情况下的CPU的占用率,内存的占用率等进行查看,以确保服务器的性能。.服务器软硬兼容性:服务器需用windowssever自带的兼容性检查软件进行兼容性检查,列出兼容性及不兼容的硬件以备查看,特别是自行开发的程序是否有对硬件要求特别严格地方,需跟研发共同商议解决。.磁盘阵列等存储设备管理:如服务器有磁盘阵列,需对每块硬盘进行编号,并记录在案,对软件设置中的参数也要进行详细的记录,以备远程维护时指导机房人员进行远程操作。.机柜、电源网线布局管理:(1)服务器上架后,应对服务器进行拍照,确认各线路位置。(2)需对服务器的电源部分进行编号整理。.服务器安全:服务器上架前应对服务器各主要部件进行登记编号,如箱体可锁,应上锁,并加盖封条,对于可抽出部分,应详细记录编号。.服务器硬件巡检制度:每季度安排专人进入机房对服务器进行一次常规确认,包含服务器线路检查、服务器故障排除等。巡检完成后填写巡检登记表并留档备查。•托管机房的联系:我公司将制作托管机房联系人表,对365天24*7内的机房人员、电话、手机登记在案。(二)网站运行管理.网站不间断运行稳定性监测:(1)为了保证网站的稳定性及不间断性应对服务器异动情况进行检测,如服务器有异常可通过邮件或短信通知管理员。(2)每日对网站进行7*24小时流量及安全监控,分析出是否存在恶意攻击以及攻击来源,并对此进行安全处理,每月提交一次分析报告。2•域名服务指向管理:为保持网站的稳定性,域名管理权限应该有专人统一持有,避免因域名服务指向原因引起的网站访问失效或访问错误的问题。3•所属网站一级、二级、邮件服务器域名指向管理:网站域名的制订规则,域名制订后应由专人向域名持有人提供书面修改方案,域名持有人根据书面修改方案进行修改,修改并对书面文件进行备案,以防责任不清的情况发生。4.域名DNS转向稳定性监控,DNS性能监控:注册域名因代理商不同,所以DNS转向服务器也不相同,在DNS转向服务器出现问题后应及时寻找解决途径,应对每个域名的DNS转向服务器提供者的联系方式进行备案,方便出现问题后的查找。(三)服务器软件环境管理L操作系统:(1)基于WindOWSSerVer操作系统升级与配置:采用WindOWS2003操作系统+SQL2008(系统版权),并装好杀毒软件,FTP软件(盗版问题)等。(2)操作系统稳定性监控:定时查看操作系统日志及HS日志,查看CPU、内存占用率,保持服务器在正常态。(3)权限与文件管理:服务器应明确责任人及管理账号持有人,不应出现多人单账户,单人多账户的情况,不利于在服务器出现问题后,对服务器进行操作维护、查找问题。.数据库:(1)SQLSerVer数据库:数据库应由开发部门配合服务器管理人员共同完成,对所需要的服务,不需要的服务,SA的密码应强调持有人及管理方式,避免人为漏洞的出现。(2)数据库备份:数据备份不同于服务器硬盘的备份,该备份需对数据库直接进行操作,应由专人定时完成,因备份占用内存较大,也不宜在访问量大的情况下进行。(3)访问性能优化及数据库同步:性能优化及参数调整由开发部门完成,服务器管理人员需记录详细的设置;数据库如需要同步,应明确同步时间或实时同步等方式。•用户管理:(1)ftp用户管理:应由专人出具书面文档给服务器管理人员,由服务器管理人员进行操作,并留档。(2)远程登录用户管理:该账户应由专人控制管理,严格控制在一台或几台客户机上登陆,严格禁止管理人员从非办公地点登陆。SQLSerVer数据库用户管理:该账户由数据库管理员控制,数据库管员应指定。(4)操作系统用户管理:该账户由服务器管理人员控制,服务器管理人员应明确。Web服务系统:HS服务系统。Net模块配置与更新:配合开发人员配置.net到可用的版本及更新。操作系统模块配置与更新:配合开发人员配置操作系统到可用的版本及更新。操作系统及HS权限设置。配合开发人员解决服务错误日志中的问题。(四)服务器安全措施.各种服务的访问与运行日志分析:(1)系统日志分析:对登陆以及访问明细都需要进行审计,并定时分析,清除。(2)网站WEB服务器错误、访问日志分析、HS日志分析,主要分析有无漏洞、有无ASP木马、跨站攻击等迹象出现。(3)数据库查询日志分析。.文件上传管理。•端口资源与监控。.防火墙行为监控。.第三方软件防木马病毒测试与监控。.网站程序脚本漏洞监控。.系统及数据库用户权限分配与安全管理。.防非法攻击措施。.备份和容灾。该备份应由专人按定时完成,应选择服务器访问量不大的时候进行。亦可采用计划任务的方式,由服务器自动完成,由管理员按时检查,删除非增量。(五)主机运维管理服务内容主机作为网络的节点,搭载各种操作系统、数据库、中间件、应用系统运行的平台,存储、并处理80%以上的数据和信息,因此也被称为信息系统的灵魂。为保证用户信息系统的安全性、可靠性和可用性,定期评估主机平台的性能,制定系统故障处理应急预案,及时消除故障隐患,才能保障用户业务安全、稳定、持续运行。我公司主机运维管理服务通过多重技术手段和运维管理体系确保主机系统的健康稳定运行,从设备层、系统层、操作层等多个纬度提供性能优化和有效支持,为客户信息系统保驾护航。.故障应急服务:当系统出现问题时,我公司工程师及时对问题进行诊断、分析,并解决问题。当设备或系统出现故障时,我公司将及时进行检查、维修或更换故障部件。2•性能检测及调优:对服务器系统提供不定期的性能测试和调优服务,提供性能测试报告及系统性能扩充和使用建议,以便保证系统性能不断改进并运行在最佳状态。.资源监控:监控CPU、内存、文件系统、卷、数据库日志等资源使用情况及其他异常情况。.系统补丁通知及推荐:及时通知更新服务器操作系统的补丁,并提出具体建议及方案,保证系统性能得到不断地改善。•病毒的查杀和漏洞的修补:做好系统所涉及的所有服务器的病毒查杀和漏洞修复工作,保障系统正常运行。.系统规划:提供系统运行期间的系统扩充及功能更新服务。针对系统运行的实际情况,通过合理地分析,提出系统扩充和升级规划,保证系统能够满足不断增长的应用需要。.咨询服务:提供电话或现场技术咨询和技术支持服务。.主机存储系统基本服务内容:序号服务模块内容描述提供方1现场备件安装配合用户进行。按备件到达现场时间工程师到达现场2补丁服务消除软件漏洞给系统带来的安全隐患,并对安装补丁所引起的系统连锁反应进行合理的平衡。3升级服务对系统进行软件或硬件的升级,以改进、完善现有系统或消除现有系统的漏洞。4现场故障诊断按服务级别:7X24小时5X8小时5电话远程技术支持7X24小时6问题管理系统对遇到的问题进行汇总和发布7系统优化对客户系统的包括主机、存储设备、操作系统、提供优化服务。现场值守人员可进行监控管理的内容包括:(1)CPU性能管理。(2)内存使用情况管理。(3)硬盘利用情况管理。(4)系统进程管理。(5)主机性能管理。(6)实时监控主机电源、风扇的使用情况及主机机箱内部温度。(7)监控主机硬盘运行状态。(8)监控主机网卡、阵列卡等硬件状态。(9)监控主机HA运行状况。(10)文件系统管理。(11)监控存储交换机设备状态、端口状态、传输速度。(12)监控备份服务进程、备份情况(起止时间、是否成功、出错告警)。(13)监控记录磁盘阵列、磁带库等存储硬件故障提示和告警,并及时解决故障问题;(14)对存储的性能(如高速缓存、光纤通道等)进行监控。小型机系统巡检典型作业计划书系统管理单位:
设备名:设备型号设备序列号管理IP:检查内容参考标准检查结果状态是否正常巡检方法描述巡检周期硬件运行状态电源指示灯□正常□异常面板指示灯□正常□异常内置磁带机□正常□异常CPU状态□正常□异常内存状态□正常口异常磁盘状态□正常□异常网卡状态□正常□异常HBA卡运行状态□正常□异常系统检查系统日志□正常□异常
Mail□正常□异常文件系统,包括磁盘卷剩余空间□正常□异常硬件检测□正常□异常交换分区□正常□异常固件版本□正常□异常补丁包版本□正常口异常系统镜像□正常□异常存储磁盘□正常□异常存储驱动□正常□异常进程状态□正常□异常系统性能检查CPU利用率□正常□异常
内存利用率□正常□异常磁盘I/O性能□正常□异常数据库运行状态数据库安装目录□正常□异常数据库进程状态□正常□异常集群检查集群进程状态□正常□异常集群日志□正常□异常存储检查存储设备故障灯状态□正常□异常SAN交换机端口状态□正常口异常存储交换机环境状态□正常□异常系统故障报生□正常□异常四、基础软件运维管理数据库运行维护服务是包括主动数据库性能管理,数据库的主动性能管理对系统运维非常重要。通过主动式性能管理可了解数据库的日常运行状态,识别数据库的性能问题发生在什么地方,有针对性地进行性能优化。同时,密切注意数据库系统的变化,主动地预防可能发生的问题。数据库运行维护服务还包括快速发现、诊断和解决性能问题,在出现问题时,及时找出性能瓶颈,解决数据库性能问题,维护高效的应用系统。数据库运行维护服务,主要工作是使用技术手段来达到管理的目标,以系统最终的运行维护为目标,提高用户的工作效率。具体数据库运行维护监控的基本服务内容包括:(-)对操作系统的监控L文件系统的空间使用情况,必要时对数据库的警告日志及TRC文件进行清理。2•如果数据库提供网络服务,检查网络连接是否正常。3.检查操作系统的资源使用情况是否正常。4•检查数据库服务器有没有硬件故障,如磁盘、内存报错。(二)数据库相关维护序号服务模块内容描述提供方
序号服务模块内容描述提供方1数据库7*24电话支持服务每周7天,每天24小时支持中心电话,电子邮件答询,以满足业务发展的需要。数据库产品技术专家直接同客户对话,帮助解决客户提出的疑难问题。根据问题的严重程度,将优先解决客户认为是关键而紧急的任务。对客户提出的一般性问题进行技术咨询、指导。定期的客户管理报告,避免问题再度发生。2数据库产品现场服务响应数据库宕机数据坏块影响业务不能进行的产品问题软件产品的更新及维护。3数据库产品系统健康检查对系统的配置及运作框架提出建议,以帮助您得到一个更坚强可靠的运作环境降低系统潜在的风险,包括数据丢失、安全漏洞、系统崩溃、性能降低及资源紧张检查并分析系统日志及跟踪文件,发现并排除数据库系统错误隐患检查数据库系统是否需要应用最新的补丁集检查数据库空间的使用情况协助进行数据库空间的规划管理检查数据库备份的完整性监控数据库性能确认系统的资源需求明确您系统的能力及不足优化数据库的表现通过改善系统环境的稳定性来降低潜在的系统宕机时间序号服务模块内容描述提供方4数据库产品性能调优分析用户的应用类型和用户行为评价并修改数据库的参数设置评价并调整数据库的数据分布评价应用对硬件和系统的使用情况,并提出建议利用先进的性能调整工具实时数据库的性能调整培训用户有关性能调整的概念提供用户完整的性能调整报告和解决方法数据库运行维护服务是包括主动数据库性能管理,数据库的主动性能管理对数据库运维非常重要。通过主动式性能管理可了解数据库的日常运行状态,识别数据库的性能问题发生在什么地方,有针对性地进行性能优化。同时,密切注意数据库系统的变化,主动地预防可能发生的问题。数据库运行维护服务还包括快速发现、诊断和解决性能问题,在出现问题时,及时找出性能瓶颈,解决数据库性能问题,维护高效的应用系统。数据库运行维护服务,主要工作是使用技术手段来达到管理的目标,以系统最终的运行维护为目标,提高用户的工作效率。第四节机房基础设施运维管理一、概述基础设施管理主要是对各类基础设施设备的巡检、监控、维护、操作,本体系制定了上述内容的具体方法及相关要求。本体系指定的目标是保障机房基础设施、设备正常、安全、可持续运行,规范日常运行管理工作,对保障机房正常使用环境的设备运行进行有效监控。本体系适用于基础设施各相关岗位。二、维护职能划分1•日常巡检工作内容应由机房值班人员负责,巡检结束后填写《日常巡检记录表》。2•维护保养工作应由专业分包服务人员实施,维护保养结束后及时填写维护保养记录,并应由机房运维岗位负责人签字确认。.原则上UPS及精密空调的维护应由设备厂商专职工程师实施。三、供配电系统供配电系统是指通过电源由多种配电设备(或元件)和配电设施所组成直接向终端用户分配电能的一个电力网络系统,是对低压配电柜、UPS系统等的统称。(-)日常巡检内容供配电系统日常巡检内容包括:L配电室环境温度、洁净度,注意有无异味、异常声响等。.查看各个开关的仪表显示应正常。.查看各开关状态确认无误。4•检查各开关有无异常声响、变形。.用点温仪测量开关温度并记录。6•检查变压器温度、声音、电压、电流、风机启动有无异常。7•日常巡检工作由值班人员进行,巡检状况应记录在《日常巡检记录表中》。(二)巡视检查频次每日一次。(三)维护保养L月维护:(1)清洁设备表面和场所的卫生。(2)对日常维护记录中反映出来的主要数据的变化规律进行分析,发现异常要进行调整或检修。(3)检查转动和震动部件,紧固其不应松动的紧固件(不包括电气接点,电气接点的维护、紧固应有计划地停电进行)。(4)由分包服务责任人按规定填写《供配电系统维护记录表》。.季维护:供配电系统季维护属于部分检修性维护,应根据具体情况对相关设备停电后进行。(1)完成设备的月维护工作。(2)针对日巡视及月巡视相关记录对负荷量较大及负荷变化较大的线路及开关接线处进行检查,对松动部件进行紧固。紧固工作应停电进行,停电前注意确认,以防误操作。(3)对配电柜进行全面除尘,除尘应使用专用工具,并且工作人员不可踩踏配电箱柜。(4)分包服务负责人按规定填写《供配电系统维护记录表》。.年维护:年维护属于预防性维护,应停电进行。(1)完成设备的季度维护工作。(2)清扫变配电设备内外卫生。(3)检查电器元件的操作机构是否灵活,不应有卡涩或操作力过大现象。(4)检查主要电器的主辅触头的通断是否可靠。(5)检查各母线的连接、绝缘支撑件、安装件、其他附件安装是否牢固可靠。(6)由分包服务责任人按规定填写《供配电系统维护记录表》。4.巡视检查注意事项:(1)巡检时必须严格遵守各项安全运行工作制度。(2)巡检时应禁止戴手表、手链等金属物件。(3)巡检时应携带对讲设备以保持通讯畅通。(4)巡检应二人进行,巡检完成后应向机房运维岗位负责人汇报巡检情况。(5)巡检时必须严格执行门禁管理方面的规定,只在授权区域内进行巡检。(6)在巡检中发现设施或设备工作异常时,应立即向机房运维岗位负责人汇报并按照机房运维岗位负责人的安排进行处理,协助机房运维岗位负责人或相关人员填写相关报告。四、UPS系统UPS(UninterruptiblepowerSupply)意为“不间断供电电源”,是一种含有储能装置(常见的是蓄电池),以逆变器为主要组成部分的恒压恒频的交流供电设备。(-)UPS的日常巡检L检查卫生环境、温湿度状况。2•检查UPS运行状态,记录各种运行数据,包括电压、电流、频率、功率、带载率等。3•观察UPS风扇有无异响,运行是否正常。4•观察UPS主机内部有无异响、震动。5•观察UPS输入、输出柜各进出线开关状态(检查项同普通开关柜)。6•观察电池外观有无明显鼓胀、渗液或开裂。7•日常巡检工作由值班人员进行,巡检状况应记录在《日常巡检记录表中》。(二)巡检频次每日一次。(三)UPS设备维护保养L月维护:(1)除进行日常检查之外,还应检查UPS通风风扇是否完好,风扇电机无卡死、抱轴情况,风扇扇叶完好无损。(2)风扇滤网干净,无灰尘堆积,发现不合格及时更换。(3)记录UPS电压、电流、负载率相关参数。(4)检查UPS报警情况,将UPS报警记录统计分析,判断UPS本身是否存在问题。(5)测量并记录电池组内阻、静态电压。(6)分包服务负责人填写《UPS系统维护记录》。2•季度维护(主要进行放电测试):(1)除进行月维护的项目外,还应对UPS的电池进行放电。(2)电池组应放电至额定容量的6(T70%,并记录放电后再次充满时的后备时间。(3)不可同时对相同负荷的两路UPS进行放电,且放电测试间隔应大于48小时。(4)分包服务负责人填写《UPS系统维护记录》。3.半年维护:(1)除进行季度检查的项目外,还应对UPS设备进行整体除尘。(2)除尘应使用真空式吹风机,不能使用湿抹布。(3)分包服务负责人填写《UPS系统维护记录》。4•年检维护(主要进行电气部件紧固操作):(1)除进行UPS半年检的项目之外,还应对整体UPS设备进行紧固操作。(2)联系UPS厂家对UPS的内部参数进行校对,对内部器件进行检查测试。(3)年检操作必须关机进行,关机后应对UPS内部进行放电操作。(4)由于旁路仍有部分带电,应对带电部分作出明显标记,以警示维护人员。(5)分包服务负责人填写《UPS系统维护记录》。五、精密空调系统机房精密空调是针对现代电子设备机房设计的专用空调,它的工作精度和可靠性较高。(-)日常巡检内容L记录设备机房内的回风温、湿度。.查看空调机有无异响。3•制冷剂充注量是否合适(可以通过观察视液镜中的液体,无气泡或有少许气泡为充注量合适)。4•日常巡检工作由值班人员进行,巡检状况因记录在《日常巡检记录表》。(二)日常巡检频次每日一次。(三)维护保养L季度维护:季度维护必须在停机状态下进行。(1)进行日常维护的所有维护项目。(2)清洗加湿器。(3)擦拭机组外壳。(不要用强腐蚀物或强化学物质,可用干净的纱布沾上中性洗涤剂擦拭)(4)检查室外风机有无抱死,破损,运转情况是否正常,并清除积灰(夏季每月1次,每周检查)。(5)更换空气过滤网(空气过滤网不要等到报警后再更换,应根据机房中空气质量状况定期进行更换)。(6)对制冷管路上各接口进行检查,观察是否有油迹,螺纹接口如果有油迹可用扳手进行紧固。(7)检查压缩机高低压参数,根据检查情况补充或释放制冷剂。(8)当有备用电源时,在使用前要检查电源相序是否与市电一致。(9)由设备厂商专业工程师进行空调全面健康检查,并提交检查报告。(10)分包服务责任人按规定填写《精密空调维护记录表》。2•半年维护(春秋季换季维护)。(1)进行季度维护的所有维护项目。(2)对所有的电器接线端子进行检查,不应有松动。(3)检查高压控制器、高压压力开关的动作是否良好。(4)对空调机运行参数进行换季调整。(5)由分包服务责任人按规定填写《精密空调维护记录表》。六、新风系统所谓新风就是指新鲜空气,而新风系统就是在不开窗的前提下,通过物理原理,引入室外新鲜空气,排出室内的浑浊空气,使室外和室内的空气进行充分交换,确保室内有充足新鲜空气的一种循环系统。新风系统在计算机房的主要作用是保证机房内正压,即机房内的大气压力略高于机房外。(-)巡检内容机房新风机日常巡视内容包括:L记录新风机开关机时间。2•观察新风机运行情况是否正常,有无异响。.记录新风机送风温湿度。4•日常巡检工作由值班人员进行,巡检状况应记录在《日常巡检记录表》。(二)巡检频次每周一次。(三)维护保养新风机组的维护保养类同于精密空调保养。七、应急发电系统应急发电系统是指在市政供电系统出现故障,无法保证设备正常工作的情况下,有末端用电单位通过发电机发电而保证设备用电的系统。通常由柴油发电机、并机配电柜、供油设备和油库等部分组成。(-)巡检内容日常巡检内容包括:L检查整机外观有无异常。.检查冷却液位和预热装置工作状态。.检查燃油位,日用油箱油面高度应在满位;补油装置是否正常;输油管路有无渗漏;检查各环节闸阀状态,应无关闭现象。.检查空气滤清器阻塞情况,空气滤清器的进气阻力指示器如显出红色则需要更换空气滤清器。5•检查发电机机体有无冷却液、润滑油、燃油泄漏。6•检查电池极柱氧化腐蚀情况,电池连线接头有无松动;机组电瓶闸刀左右两边应保持在直通位置。7.日常巡检工作由(大楼配电室)值班人员进行,巡检状况记录在《日常巡检记录表》。(二)巡检频次L不工作状态下:每日一次。2•工作时:7*24小时值守。(三)应急发电设备维护保养L月保养(空载启动):(1)每次启动前的保养:1)清洁机组表面。2)检查水箱冷却液面;液面应尽可能接近填口盖焊接面下5Cin处,不要超出。3)检查水箱散热器芯和中间冷却器的外部,不允许有异物挡住。4)检查空气滤清器堵塞情况;如果堵塞指示器处于红区,机组停机后,应马上更换滤清器。更换下的空
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年突破功能型插座项目可行性研究报告
- 2024至2030年中国塑胶薄膜双面胶带数据监测研究报告
- 2024年刨刀刀片项目可行性研究报告
- 中国蛋糕行业竞争状况及投资效益预测研究报告(2024-2030版)
- 中国脱硝钛白粉产业运行状况及应用前景预测研究报告(2024-2030版)
- 中国聚四氟乙烯行业竞争格局及发展规模预测研究报告(2024-2030版)
- 中国管道CCTV检测行业市场现状分析及竞争格局与投资发展研究报告(2024-2030版)
- 中国硫化硅行业需求状况及应用趋势预测研究报告(2024-2030版)
- 飞机火爆防控课程设计
- 课程设计与开发的挑战
- 初中历史人教九年级上册(统编2023年更新) 资本主义制度的初步确立 教学设计(正式版)
- DB11-T1884-2021供热与燃气管道工程施工安全技术规程
- 企业风险分析表格
- 公安派出所建筑外观形象设计规范1
- 产品标识控制程序文件
- (施工方案)双梁桥式起重机安装施工方案
- 提高内镜中心内镜洗消合格率PDCA
- DBJ∕T13-354-2021 既有房屋结构安全隐患排查技术标准
- 建设工程质量管理手册
- 调机品管理规定
- 附件华纺星海家园二期项目情况汇报已开未竣版
评论
0/150
提交评论