版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
售后服务方案84503售后服务方案84503售后服务方案84503资料仅供参考文件编号:2022年4月售后服务方案84503版本号:A修改号:1页次:1.0审核:批准:发布日期:售后服务方案描述及相关承诺总述项目名称XXXXX网络设备项目。项目背景描述随着互联网应用的快速增长,以及下一代互联网的加速推进,短信、网游、语音以及视频宽带业务的日益火爆,电子商务的再度兴起,IDC市场迅速升温,IDC业务收入迅速增长,IDC业务的客户群也迅速增大。为了抢占潜在客户资源,大力推广IDC业务,这样就需要建设一个侧重中、高端客户,兼顾低端客户需求的IDC机房系统。服务期限及范围为XXX核心网络设备(含2台防火墙,2台交换机,2台路由器),其检修和维护。我公司将按质按量完成XXX核心网络设备维护修理维护服务。实施目标为XXX核心网络设备提供优质的维护修理服务,并对2台防火墙,2台交换机,2台路由器统提供卓越的技术支持与运行维护服务。保证2台防火墙,2台交换机,2台路由器运行稳定。我方通过严格的修理维护服务,保证相关本次所涉及的相关软硬件的高效稳定运行。我方具备应急处理能力并制定了完善的应急预案,减少计划内和计划外的停机时间,最终能够保障电力业务核心系统每周7天×24小时不间断稳定运行。我方定期对现有软硬件平台系统运转状况进行巡检、跟踪和分析,科学地预测和掌握软硬件平台系统的性能状态,提出科学合理的扩容和升级建议。我方在维护中熟悉各主机上承载应用系统,结合IT系统和业务应用的具体实际情况,查漏补缺,提出整改建议,配合应用厂商不断优化系统整体性能,提高系统运行整体效率。术语定义业主方:xxxxx团有限公司。故障级别定义如下:P1级故障:重大故障,系统瘫痪,无法运行,业务丢失。P2级故障:系统部分设备故障,影响和限制了部分业务运营。P3级故障:一般性技术故障,发现系统和设备的技术问题,但系统和业务仍可正常运行。P4级故障:在系统功能配置、运维管理方面需要信息或支援,对用户的业务几乎无影响。总体实施方案服务流程xxx有限公司将根据XXX核心网络设备(含2台防火墙,2台交换机,2台路由器)服务内容制定了相关的服务流程,以下流程适用于本项目的含防火墙,交换机,路由器流程。高级故障诊断及检修流程针对系统、设备发生的一级、二级故障进行响应,分别在规定时间内进行维修、恢复服务。其中紧急重大故障要求15分钟内到达现场处理。我方提供服务相当于原厂技术服务水平。并提供电话或现场技术咨询和技术支持服务。服务流程图服务流程说明序号步骤名称责任人说明1服务台响应服务台服务台人员接受来自用户上报的故障以及各类服务请求。在验证用户基本信息后,服务台人员在服务管理平台上登记一条故障信息并进行跟踪和处理,并创建故障事件单。服务台人员判断故障是否重大事件,如重大事件将立刻通知现场支持人员到现场。如不是重大故障,将根据故障级别及故障类型,安排工程师进行故障处理如果是一条重复事件,则新建该事件记录后,更新原有事件为“主事件”,并建立重复事件与原有事件的关联关系。如果是一条复发事件,则创建一个新的事件单,复制原始事件单的内容,并说明这是复发的事件。2故障现场相应现场支持人员根据服务台所描述的基本故障情况,现场支持人员将在15分钟内到达故障现场,为用户处理故障3远程调查与诊断服务台支持人员服务台人员根据事件分类表确认事件的分类,根据事件的影响度和紧急度,为事件分配优先级。分析故障原因,在知识库中查询是否有解决方案,制定初步的故障处理方案。如故障是由于设备硬件引起或远程无法处理时,将通知现场维护人员,到现场处理处理故障。进行调查诊断,尝试解决,必要时联系第三方供应商协助处理。4现场调查诊断现场支持人员现场支持人员在现场判断故障情况,根据故障的具体情况,制定解决方案。判断故障是否需要更换部件,如需更换备件,我方将联系仓管调出设备配件,并负责设备的安装和卸载。5更换设备或部件现场支持人员更换完设备后再对故障进行检测,如故障未被处理,将继续对故障进行分析,彻底解决故障问题。6解决与恢复服务台、现场支持人员按照制定好的解决方案对故障进行处理。判断实施解决方案是否可行,并制定变更方法。实施成功后,详细记录解决方案或变通方法。7事件关闭服务台支持人员将故障处理情况提交至知识管理。关闭事件。并对故障记录进行归档,再制定用户回访计划。8用户回访服务台支持人员向用户确认故障是否已得到解决。确认用户是否报告其他问题。用户反馈故障处理情况,并对本次服务进行评价。设备调优流程针对长期出现资源瓶颈的设备进行分析,提出解决方案或优化方案。对系统进行定期评估,给出评估优化方案。服务流程服务流程说明序号步骤名称责任人说明1设备性能检测服务器、存储支持工程师利用有效的工具对设备进行检测。对设备进行健康检查,标记存在资源瓶颈的设备。2统计资源瓶颈的设备数量服务器、存储支持工程师根据标记的资源设备进行设备统计对资源瓶颈的设备进行故障原因分析,判断资源瓶颈的问题是由何种原因所引起。分派问题到各个专业工程师设计解决方案。3硬件问题分析服务器、存储支持工程师分析设备硬件上的资源瓶颈问题,列出引起此故障的原因4系统问题分析操作系统支持工程师分析操作系统上的资源瓶颈问题,列出引起此故障的原因5平台问题分析应用平台支持工程师分析应用平台上的资源瓶颈问题,列出引起此故障的原因6数据库问题分析数据库支持工程师分析数据库上的资源瓶颈问题,列出引起此故障的原因7设计服务器、存储解决方案服务器、存储支持工程师对列出服务器、存储硬件问题逐条给出处理意见与优化方案。8设计系统解决方案操作系统支持工程师对列出操作系统问题逐条给出处理意见与优化方案。9设计平台解决方案应用平台支持工程师对列出应用平台问题逐条给出处理意见与优化方案。10设计数据库解决方案数据库支持工程师对列出数据库问题逐条给出处理意见与优化方案。11整合方案我方项目负责人整合各技术支持工程师给出的解决方案。对解决方案的内容进行审核,确保处理意见的安全和有效。制定实施计划,并将方案提交给业务部门。12业务部门审批设备负责人业务部门负责人对整合的方案进行审批。按实施计划通知每个人设备负责人。13优化实施各技术支持工程师工程师按照最终的实施计划和方案对设备进行调优工作。备件保修和更换流程当设备出现故障时,我方应及时进行检查、维修或更换故障部件。如果硬件设备故障,保证在2小时内提供不低于故障设备规格型号档次的备用设备替代使用,直至故障设备修复为止,以最大限度保证业务系统不间断地正常运行。若需要更换部件,其更换的部件必须是原厂的部件,与原有部件具备同等的质量和性能。服务流程图服务流程说明序号步骤名称责任人说明1故障设备检查现场支持人员现场检查,判断故障引起的原因和故障位置判断故障是否能现场处理,例如通过配置等方法解决故障,即现场处理。2现场维修现场支持人员对故障进行处理,通过技术手段等解决故障问题。3提供备件现场支持人员故障由于设备的硬件引起,难以现场立刻处理,我方提供同等设备型号和功能的配件给用户使用。4现场安装与卸载设备维修人员现场卸载故障的设备。安装我方提供的备件设备。5故障设备维修设备维修人员判断设备是否已经过保。并制定维修计划。设备未过保,通知设备的提供商对故障设备进行修复。设备已过保,我方提供或采购相应的备件和部件,对设备进行维修。6设备提供厂商维修设备提供厂商设备提供厂商对故障设备进行修复7提供所需的备件或部件进行维修设备维修人员我方安排专业对技术人员更换或维修故障设备。将拆卸的故障部件进行封存,交还给设备提供商。8故障设备复查现场支持人员设备维修成功后,我方现场支持人员到现场对修复好的设备进行复位。检查设备的运行情况,如设备还存在故障问题,我方将继续对故障进行处理与解决。特保服务流程按照公司要求,对于特殊时期必须保障设备运行的,我方根据要求驻场值守和服务,完成特殊时期保障任务。需预计每年安排约有2个月的特保时间。服务流程图服务流程说明序号步骤名称责任人说明1制定特殊时期值班计划现场支持人员现场值班人员制定值班服务计划值班计划包含人员的联系方式与相关设备系统的负责人的联系方式2业务部门审批设备负责人业务部审批值班服务计划如服务计划未能满足用户的需求,将退回现场值班的人员重新设定值班计划。3值班现场支持人员按计划是时间地点到现场进行值班工作。记录值班所需的相关表格遇上重大事件及时通知设备负责人员4提交设备巡检报告设备维修人员汇报设备出现的安全隐患。提交当天的值班记录和相关资料。系统补丁通知及推荐流程预防式补丁服务:我方在已知服务器、存储软、硬件缺陷可能导致潜在问题的情况下,将通过配置管理或巡检等方式对用户服务器进行增补软件分析并提出版本升级建议,并由用户进行相关业务、客户影响分析后确认进行。响应式补丁服务:当设备出现故障后,我方对故障进行分析并确认是软件缺陷所导致的故障,我方将提供针对该软件缺陷的软件补丁程序,并由用户进行相关业务、客户影响分析后确认进行。服务流程图服务流程说明序号步骤名称责任人说明1制定补丁通知及推荐计划现场支持人员制定补丁通知及推荐计划。判断是否有由于补丁问题造成的故障。如没有由于补丁造成的故障,将实行与预防式补丁服务,如由于补丁发生故障,将实施响应式补丁服务。2预防式补丁服务服务台支持人员预防方式的补丁服务以预防、排查隐患为主,对现有设备的安全、性能隐患制定补丁更新计划。3响应式补丁服务现场支持人员对用户所发现的故障进行处理,并且向用户提供可处理此故障的补丁程序4设备故障数据统计与分析服务台支持人员在预防式补丁服务中,对以往出现故障的设备进行统计,总结普遍的故障现象5配置管理与巡检常发故障设备现场支持人员在预防式补丁服务中,通过配置管理与巡检的方式,检查系统运行情况,定位常发故障设备的位置,查明故障发生的原因,制定相关补丁的更新计划。6增补软件分析各技术支持工程师结合故障数据统计结果与巡检所发现的故障情况,对增补软件进行评估与分析。得出适合增补的软件列表。7制定版本升级建议各技术支持工程师根据分析结果制定版本升级建议与实施计划8业务部门审批设备负责人业务部门对实施计划的内容进行审核,如发现补丁版本升级不符合要求,将返回重新制定补丁升级计划。9处理和分析故障现场支持人员在响应式补丁服务中,对故障进行的处理,在发现可以通过更新补丁来消除隐患时,我方将制定补丁更新计划,寻找相关的软件补丁。10提供软件补丁程序各技术支持工程师对寻找相关的软件补丁进行测试,通过测试后,我方将测试报告与软件补丁程序提交给用户。11补丁更新实施现场支持人员经过审批通过后,我方安装实施计划的方案与内容,对相关设备进行补丁更新工作。季度巡检流程每季度提供一次健康巡检,对设备硬件、系统运行状况进行检查,排除隐含错误或安全隐患,并提交健康巡检报告。巡检的具体时间由双方协商确定。服务流程服务流程说明序号步骤名称责任人说明1制定季度健康巡检计划现场支持人员根据要求制定监控巡检计划与方案,内容包括巡检方式、操作步骤等。2业务部门审批现场支持人员业务部审批巡检计划如服务巡检计划未能满足用户的需求,将退回重新设定巡检计划。3提供健康巡检报告现场支持人员实施设备的健康巡检。记录巡检中发现的设备问题提交健康巡检报告,汇报设备存在的安全隐患。4排除隐含错误与安全隐患设备维修人员对报告中存在安全隐患进行处理。问题处理后将对系统进行再次检测,检查问题处理情况。培训服务流程我方定期进行运行维护技术培训,并定期与业主方技术人员进行技术交流。服务流程服务流程说明序号步骤名称责任人说明1咨询业务部门需求咨询受理人员询问用户的培训需要。了解用户对培训的要求。判断用户是否对新或难度高的技术开展技术交流。收集业务部门提出的培训要求。按培训要求的内容、等级进行分类,组织相关人员开展培训准备工作。2制定培训计划与培训内容咨询受理人员根据培训内容、培训的深度制定培训计划,并提交业务部门进行审批工作。3业务部门审批设备负责人业务部门对培训内容进行审核工作,对培训内容存在异议或不满意的地方,将返回修改培训计划或培训方案。4安排培训议程与材料各技术支持工程师相关技术人员对培训方案的内容准备培训资料,并安排培训所需场地与准备相关的设备或软件。系统规划(非建设项目)流程根据硬件、应用软件环境完成数据库的初步规划、安装配置工作。服务流程服务流程说明序号步骤名称责任人说明1硬件、应用环境分析现场支持人员对运行环境进行硬件、软件的运行分析,检查运行环境是否符运行要求。记录硬件、应用环境的基础参数。2制定实施方案技术支持工程师根据运行环境评估与硬件、应用环境的基础参数,制定实施方案和初步规划。提交业务部门对方案进行审批3业务部门审批设备负责人业务部门审批实施方案。如实施方案和规划未能满足用户的需求,将退回修改实施方案。4实施安装配置技术支持工程师根据实施方案到现场进行安装、配置工作。备份恢复测试流程根据业务重要性及数据安全等级要求,定期对备份数据进行恢复测试,保障备份数据完整、有效、可用。服务流程服务流程说明序号步骤名称责任人说明1数据时效性检查技术支持工程师技术支持工程师检查备份数据,病句业务重要性及安全级别,判断数据的有效期,如数据已过保存期,我方将对系统业务数据进行备份2备份系统业务数据现场支持人员对系统的数据进行全备份,以保证数据的完整。3数据恢复测试技术支持工程师对备份的数据进行恢复测试,并对相关功能进行操作,检查数据的准确性。如备份数据存在异常,我方将到现场排除故障原因,分析系统故障还是备份失误导致,如不是备份失误,我方将通知相关业务部门进行故障处理。4备份版本控制技术支持工程师备份数据测试成功后,我方对备份数据尽可能保存最近5个版本的存档。对备份数据进行版本控制,按系统、安全级别、重要性、备份时间对备份数据进行存档。专家现场技术支持流程包括数据库紧急救援服务。如出现故障,导致数据库不能正常工作,服务方须尽快安排资深工程师到现场先回复应用,并保证持续跟进直到问题完全解决。如果不能解决问题,服务方需自行请专家或其他高级技术人员对系统情况进行分析,直至解决问题。服务方在接到现场系统维护请求后1小时内响应,对宕机或紧急恢复等严重问题,要求立即响应并在15分钟内到达现场。服务流程服务流程说明序号步骤名称责任人说明1现场情况调查技术支持工程师进行紧急救援服务,安排资深工程师到现场进行调查响应。尽快提出故障处理方案。2故障应急处理现场支持人员我方根据故障的级别、安全性对故障采取应急的处理情况。由于设备硬件造成的故障,我方立即启动热备件。及时恢复系统的正常运行。由于软件或设置造成的故障,我方对设置进行初始化操作,保证系统的正常运行3启动热备件技术支持工程师根据提前准备好的设备热备件,我方对设备进行更换和切换操作。恢复设备的运行。4故障设备修复设备维修人员在现场对故障设备进行一般的修复处理,如不能处理,我方将故障设备提取回维修中心进行维修。5更换备件现场支持人员故障设备修复成功后,我方把完成修复的设备安装回原位置。并把正式服务切换回正式环境。6恢复初始化设置技术支持工程师对数据库的运行环境进行初始化配置操作。恢复系统的运行环境。7日志文件检查技术支持工程师检查数据库的日志,找出数据库中存在的故障问题。8软件配置修复技术支持工程师根据存在的故障问题对数据库的配置进行修改和故障处理。9修复检查现场支持人员故障修复后对故障进行检查,排查存在的安全隐患。技术支持服务流程提供电话或现场技术咨询和技术支持服务。服务流程服务流程说明序号步骤名称责任人说明1服务台响应咨询技术支持工程师服务台响应用户的咨询请求,对用户做出快速的请求响应。了解用户的需要,提供有效的技术支持与咨询服务。2现场技术支持现场支持人员我方派出工程师到现场对用户的疑问进行解答。为用户现场处理用户的故障问题。3用户回访技术支持工程师现场技术支持完成后,我方电话回访用户对服务的满意度,并咨询是否需要更还现场支持服务或变更服务4电话技术支持设备维修人员如用户需要电话直接支持,我方将采用电话的方式立即响应用户的请求,并尽可能完成用户的需求和远程处理用户的故障。服务管理实施规范管理我方按照业主方的管理制度、修理维护规范、操作指导等相关规则制度开展修理维护服务。为保障修理维护服务规范化的顺利执行,同时修理维护服务各个环节清晰可追述,我方任何操作必须严格按照业主方相关流程进行操作,尽量减少对业主方正常业务的干扰,每步操作须有明确的成果反馈记录,禁止任何不按流程处理的任何操作,一经发现将严肃处理。人员工作规范我方对运维人员进行明确分工及职责定义,避免运维人员无序混乱工作,职责分工需符合运行单位运维工作要求。项目风险与责任我方谨慎和用心履行合同责任,并对其员工的过失承担责任。由于我方实施人员服务不及时(没有按照合同约定时间规定)或服务操作不当,造成大量在线数据遭受不可恢复性损失,我方应负责恢复数据,并承担所有费用。由于我方原因服务不到位,我方应向业主方作出书面解释,并提出整改措施。造成损失的,我方承担全部责任。人员稳定性鉴于信息系统及设备重要性以及安全保密性,我方保证服务期内修理维护团队人员稳定,避免人员流动对业主方业务系统及设备造成安全隐患,特殊情况下人员变动需经业主方同意后方可变动,禁止未经业主方同意人员直接变动。人员质量控制我方所派出的服务人员,应能熟练胜任相关维护工作。业主方拥有向所提供的实施人员进行面试的权力。如我方人员业务能力如不符要求,业主方有权要求我方更换人员。服务人员资质要求如下:大学专科或以上学历,有3年以上类似产品维护经验。具有相应产品认证证书。项目进度控制我方技术服务团队每周向业主方项目管理部门提交维护工作周报,并抄送我方项目管理部门。为了更好的让业主方了解项目的进度和目前的情况,我方将向业主方进行以下工作:每月提交工作月报,维护工作月报的内容必须包括以下内容:主要的已完成工作内容、未完成工作内容、故障处理报告、维护建议及工作计划安排。技术服务团队每月度对相关工作进行总结提炼,提交运行维护工作月报。技术服务团队每季度对相关工作进行总结提炼,提交运行维护工作季报。技术服务团队每年对全年工作进行总结,并对下一年度工作进行规划,提交运行维护工作年报,协助系统管理员完成系统年度维护总结。除上述文档整理工作外,我方承担业主方相关维护文档的修编配合工作。项目安全控制提供现场服务时,我方将确保其现场人员遵守业主方有关安全规定,前提是我方收到业主方提供的有关安全规定。我方有为业主方保密的义务,未经业主方许可,我方服务人员不得对业主方的业务经营数据进行增删、修改、复制、传送、记录;我方不得向任何第三方泄露业主方业务数据内容或在公开场合引用业主方数据。质量控制为保障服务质量及服务适应性,在服务期内,我方需根据服务内容发生的变化进行适应性的改进,并在修理维护过程中根据业主方的要求进行服务改进。项目质量保证服务质量要达到可衡量必须制定严格的服务SLA,我方在服务期开始时须与业主方协商制定切实可行的服务SLA,并严格遵守SLA进行修理维护服务。其服务标准如下:一、紧急情况当服务器宕机,数据库无法读写等一级紧急事件时,我方在1小时内响应,2小时内协助解决该情况。并在因外部原因无法立即解决时(例如服务器所在机房受到黑客攻击,服务器硬盘读写失败等事件),向客户报告情况并提供具体解决的时间。并提供一套完善的应急解决方案,帮助客户及时解决突发事件,最大程度的挽救因服务无法使用导致的损失。二、重要情况系统服务上线过程后,有时会出现在验收过程中没有察觉的bug,这个时候,我方积极协助客户解决该bug,具体的响应时间根据bug造成的影响程度而定。根据SLA服务标准,bug的等级亦可进行进一步的划分并制定相应的解决方案。这里不予以赘述。三、标准情况在系统部署阶段,因工作人员协作环节的不一致性,有可能出故障问题和兼容性问题。以及由于临时需求的变更和新增,都会对系统服务产生新的维护需求。我方按照需求的难易性和工作量制定相应的响应标准,保证客户满意度。四、次要情况包括服务的小调整,如数据库、中间件的配置更替等,通常在24小时内响应,双方商议的时间内进行解决即可。我方以SLA服务体系为出发点,为IT服务提供完善、标准、科学的解决方案,尽可能不影响客户满意度。制定全年的支持服务计划我方客户经理应主动地和业主方共同协商、制定全年的支持服务计划。服务计划包括以下主要内容:业务/IT系统概况,业务系统对服务的需求服务合同的工作内容,设备清单和响应服务级别我方的工作团队和职责支持服务的流程运维服务活动的计划,包括:增值服务实施、服务总结报告、回顾会议、巡检、技术交流等服务计划双方的确认项目总结会议我方客户经理至少每季度会安排与业主方一起召开系统运行和服务情况定期总结回顾会议,内容包括但不限于:总结前一段时间服务实施的情况回顾升级问题/重要问题的处理过程听取运行单位对服务的反馈意见和服务需求同业主方运维经理们讨论服务改进措施讨论、修订服务计划。维护内容我方将根据xxx有限公司服务器、存储设备、虚拟化服务器、A认证系统服务内容简要的介绍常见故障所采用的维护解决办法,在实际的应用中,我方会根据实际情况进行相应的修改与优化。服务器故障诊断计算机故障类型以及故障的诊断手段有很多,对于服务器(IBM服务器为例)故障采取以下2种诊断方式:硬件故障诊断诊断并排除由硬件引起的故障,先从外观上检查硬件情况,检查设备故障灯是否有亮。各种设备上都有故障指示灯,通常为橙色并有标记。对于高端服务器,应检查UEPO开关上的系统故障指示灯是否亮,检查部件故障灯,如I/Odrawer、PCI卡,硬盘等。所有安装的部件(如CPUbook)所对应的绿色LED应长亮。任何故障指示灯(橙色)都应不亮,设备发生故障时通常伴有出错代码,必须把所有故障代码记录下来。除此以外还应注意有否其他异常情况(如硬盘、风扇异常的声音、电缆破损、系统出风是否顺畅、气流是否因为异物遮挡而影响散热效果等)。检查服务器网卡状态、IP地址是否正常。网卡的设置应与交换机端口的设置匹配。检查网卡通信是否正常,如是否丢包,速度是否正常等。并且检查路由表是否正常、/etc/hosts文件或DNS设置是否正常等。软件故障诊断诊断并排除由软件(操作系统和应用软件等)引起的故障可以先查看系统日志相关软件报错的记录,同时登录软件检查当前应用使用状态、软件应用进程等进行多方面的诊断。检测服务器、存储设备运行情况对于一个系统而言资源总是有一定限度的,而任务总是要消耗系统资源的。关键是要找出哪些资源不能满足应用程序运行的需求。这里存在一个性能瓶颈的问题。不同的应用程序可能会有不同的资源要求,可能会产生不同的瓶颈。系统资源中的CPU、内存、磁盘或是网络都有可能成为瓶颈。系统性能调优需要找出这些资源成为瓶颈的原因,是资源的不足,是系统设置不合理,还是应用程序的问题。查找性能瓶颈的顺序非常重要,正确的顺序是:CPU>内存>I/O>网络,如下图所示:CPU瓶颈CPU瓶颈=否是采取对策内存瓶颈否是采取对策I/O瓶颈否采取对策是采取对策网络瓶颈是否继续测试采取对策查看CPU瓶颈通过查看当前服务器CPU使用情况判断CPU的使用情况,一般情况下CPU使用率不应该长期超过80%,如出现CPU使用率长期处于甚至超过80%的情况,则初步可判断CPU资源不足,出现瓶颈。检测内存问题部分厂商服务器在内存使用上模式默认最大化使用,因此内存的使用率不能作为是否存在内存瓶颈的依据。如果达到内存瓶颈,此时检查系统内存交换区的使用,会发现使用率较高。由于有大量的内存页面写入内存交换区,这会导致wa(I/O等待)值上升,但此时并非I/O瓶颈引起。当内存交换区使用率超过70%时需要增加交换区的大小。但增加内存交换区的大小并不会提高系统的性能。相反,内存交换区使用越多,系统性能下降越多。当内存不足时,正确的方法是增加物理内存的数量或优化应用程序。查看系统的I/O情况磁盘的数据流量很大程度上与应用程序的I/O方式相关。某些应用程序的I/OSIZE可能非常低,而且产生大量的随机读写操作,从而使硬盘的读写效率大大降低,导致CPU的I/O等待增加。有时I/O问题是I/O带宽不足引起的。当所有连接在一块I/O卡上的硬盘的流量总和达到I/O卡带宽的70%以上时,应考虑增加更多的I/O卡。
数据的分布也是很重要的因素。通常把数据分布到更多的硬盘上更有利于提高I/O性能。查看网络的情况:对于网络问题可以通过检查服务器端口情况、网线速率、端口模式,甚至通过服务器与服务器、服务器与测试设备之间进行链路测试、传输速率测试检测服务器网络上的问题,必要时需要网络工程师检查交换机层面的健康情况加以分析判断。如果都没有发现系统有资源上的瓶颈,则很可能是应用程序的问题,需要应用程序开发商进行进一步的分析。服务器备件检修服务器备件保修主要以更换设备为主,并对造成备件故障的原因作出分析,最后通过分析的故障结果。对所有故障进行排查,不能单单只是更换备件这么简单,服务器备件一旦发生故障不一定是其本身问题,极大情况下是外部环境所造成。因此,服务器备件检修需要考虑其使用环境,从根本上解决故障问题,防止其它备件的损坏。服务器备件硬件故障维修对于一般的设备硬件的故障,我方采用以下方式采取维修处理:序号故障类型维修方式操作方式1内存条损坏直接更换现场更换2主板元器件损坏直接更换现场更换3阵列损坏先进行数据恢复,再更换硬盘数据恢复需离开现场。备件现场更换4电源损坏直接更换现场更换5指示灯损坏先检测健康状态,再更换指示灯现场更换6CPU风扇损坏直接更换现场更换7数据线损坏直接更换现场更换8CPU损坏直接更换现场更换9光驱损坏直接更换现场更换10电源线损坏直接更换现场更换11相关数据接口损坏直接更换主板现场更换服务器软件故障维修对于服务器的软件方面故障,我方采用以下方式采取维修处理:序号故障类型维修方式操作方式1系统崩溃重装操作系统现场操作2中木马病毒安装杀毒软件杀毒远程操作3驱动不匹配安装正确的驱动远程操作4软件不兼容安装兼容软件远程操作服务器备件修复与后续保养如以下因素导致备件的故障,我方在处理完备件的维修后,再对备件周边的环境进行保养处理工作。具体可参考以下几个方面:服务器备件受潮短路。备件受潮湿因素导致的故障,我方对服务器周边的环境进行除湿处理。主要以空调除湿或吸湿海绵为主。服务器备件受过热短路。备件受过热短路因素导致的故障,我方对服务器周边的环境进行降温处理。主要以空调降温或更换服务器散热风扇。服务器备件积尘导致短路。备件积尘短路因素导致的故障,我方对服务器周边的环境进行除尘处理。主要以吸尘机或毛刷工具为主。服务器备件是否电源电压不稳定造成短路。备件电源电压不稳短路因素导致的故障,我方对服务器周边的环境进行电压检测,看是否有漏电的情况,并更换电源。特保服务我方按照公司要求,对于特殊时期必须保障设备运行,并根据业主方要求驻场值守和服务,完成特殊时期保障任务。并且每年安排约有2个月的特保时间。特保服务常规服务内容我方值班人员要认真检查设备的运行情况,包括电源、服务器指示灯及一切隐患。确保服务器设备的一切安全。做好安全监控工作。预防各种事故和事件的发生。检查软件的日志文件是否完整。检查设备的电压及温度。值班人员做好值班记录,并记载重要事情。有重大问题及时向上级设备管理人员报告。特保服务工作责任我方值班人员值班期间,不能脱岗,认真值班。全天24小时确保有人在值班监控设备的运行。做好交接班等有关工作。值班人员要做好安全防范工作,遇设备周围环境的变化,应及时做出相应处理;保证值班人员人员及相关技术工程师的电话畅通。坚守值班岗位,不擅离职守。时刻提高警惕,做好值班期间的工作。值班严格按照操作手册执行,不违反值班制度和操作章程。值班人员在特殊假日放假值班期间为设备运行及安全工作的第一责任人。特保服务保证值班人员提高自觉性与主动性,确保设备安全、稳定运行。在值班期间坚守工作岗位,不得无故让他人替岗,严禁饮酒。值班期间保证电话畅通,遇到重大事情,必须报告上级领导并做好临时处理措施,积极处置。认真做好值班记录,对设备异常及安全防火情况等,必须认真检查。值班员工在值班时间内,坚守岗位,不迟到、早退和缺岗。系统补丁通知及推荐我方将对以下补丁采取相关的补丁更新通知与补丁更新操作的服务。并对需更新的补丁进行测试工作。以下系统补丁服务的相关内容。补丁收集与整理我方对以下补丁通过不同的途径进行补丁资源的收集,补丁的出处要求是官方的补丁,如补丁不是官方提供,将对非官方补丁进行测试。序号故障类型收集方式收集途径1服务器硬件BIOS补丁服务器厂商提供由官方通知2存储设备补丁服务器厂商提供由官方通知3Windows操作系统补丁微软官方网站微软最新公告4Linux操作系统官网或论坛论坛公告5Aix操作系统补丁IBM官方网站IBM官方网站公告6Unix操作系统补丁官网或论坛论坛公告7Oracle软件补丁官网或论坛论坛公告8Weblogic软件补丁官方网站官网公告9Tomcat软件补丁官网或论坛现场更换10其他软件补丁官网或论坛现场更换11………补丁更新测试补丁更新之前,有必要对其进行完整的测试,确保其适合于当前运转的设备或系统,否则有可能带来不必要的麻烦。但是对补丁进行测试是一项繁琐的工作,我方使用测试技巧和脚本,快速有效地测试补丁。为针对如此多的产品以及不同版本的补丁,我方使用一套自动化补丁测试过程,建立一套完整的系统环境,模拟设备或系统的运行状态,确保补丁更新测试的可行性。补丁更新操作在部署补丁之前,我方确保已进行补丁测试,以确保它们不会破坏系统现有的功能。在补丁测试前对系统或相关资源进行备份处理,确保补丁更新万无一失,并且我方有专业的专家支持,在补丁更新出现故障时,保证能快速有效进行系统恢复。月度巡检为了更好地落实现巡检工作,我方制定了月度巡检工作,并对月度检查做出书面报告。进一步保障了设备正常运行和预防了设备发生故障事故的风险。同时,通过月度巡检能尽早的发现安全隐患。具体措施如下:月度巡检检查月度巡检检查主要包括设备周边环境、周边设备、通讯及网络设备、服务器设备的检查,其检查内容如下:设备周边环境检查检查设备周边的温度是否正常、痕迹是否存在异常、有否异响、温度是否正常、清洁是否符合要求、是否存在异味等。设备周边设备检查检查UPS电源是否正常、空调是否正常、电池组是否存在异常、消防是否符合标准和要求等。通讯及网络设备检查防火墙及流量控制方面,网络通讯状态是否正常、网络流量是否过多等。而网络口检查主要包括数据指示灯有否异常、网络通讯状态是否正常、端口及网线状态是否正常等。服务器设备的检查服务器硬件故障灯是否正常、如发生故障将记录详细的故障现象与解决方法,补丁是否已经更新、防病毒软件的病毒库是否已经升级、文件系统是否出现错误,日志文件的设置及运行是否正常,磁盘卷组是否存在失效状态。巡检数据整理经过季度巡检后,我方将把巡检的记录进行同一的整理,把巡检中发现的故障或异常情况进行统计与分析,形成季度巡检记录。并将总体的巡检记录提交给设备管理员或业务部门。提供健康巡检报告通过对季度巡检发现的故障数据进行分析,结合目前业主方已用的资源与工具,提供完整的健康巡检报告与可行的故障解决方案。解决方案内容需要业主方进行审核。并对存在的问题我方能提供专业技术支持解答。培训服务为了保证设备能在运行中良好工作和人员的运维水平,提供有针对性专业技能培训。使其能够熟练掌握存储设备的维护工作,并能及时有效的解决常见的大部分故障。经培训后能熟练掌握硬件维护工作,并能及时排除大部分的故障。工程技术人员经培训后,除能熟练管理硬件,排除硬件故障外,还应具备能阅读硬件清单,分析硬件故障等工作。制定培训服务事项制定培训服务包括以下事项:培训的课程安排建议:包括人数、时间、课程、入学要求等;培训所需要的教材,课件;讲师资料;培训场地(由xxx有限公司和xxx有限公司共同商议再定)。选择培训方式,集中培训或现场培训。培训事项准备工作我方将提供教材、教师、场地,由xxx有限公司参加的培训,如教材较多将选择投影设备或电子资料为主,培训场地将会按照用户的实际情况准备,一般集中在xxx有限公司技术人员所在场地或授权培训中心中进行。开展培训课程我方将利用可使用资源为其维护技术人员提供专业的培训课程,其培训课程内容主要以下几个方面:IBM存储知识培训IBM存储知识培训培训周期为1天,培训对象面向存储产品操作维护/技术支持人员,培训人数控制在10人,学员具体要求:了解计算机硬件基础知识、熟练使用Linux操作系统、具备网络通信基础知识。如完成培训课程可达到了解IBM存储产品的基础知识、了解存储的几种架构以及相关协议的目的IBM一体机交换机知识培训交换机知识培训主要以交换机产品与工作原理介绍、交换机产品日常维护技术介绍为主,培训周期为1天,培训对象面向存储产品操作维护/技术支持人员,培训人数控制在10人,学员具体要求:了解计算机硬件基础知识、熟练使用Windows操作系统、具备网络通信基础知识。如完成培训课程可达到了解交换机产品的基础知识、了解交换机产品线概况及产品功能、掌握交换机产品日常维护技术的目的。数据库知识培训Oracle数据库知识培训培训周期为2-3天,培训对象面向Oracle数据库操作维护/技术支持人员,培训人数控制在10人,学员具体要求:了解计算机硬件基础知识、熟练使用Windows操作系统、Linux操作系统、具备网络通信基础知识。如完成培训课程可达到了解Oracle数据库产品的基础知识、掌握Oracle数据库产品日常维护的目的。虚拟化知识培训HC3虚拟化知识培训培训周期为2-3天,培训对象面向虚拟机操作维护/技术支持人员,培训人数控制在10人,学员具体要求:了解计算机硬件基础知识、熟练使用Windows操作系统、Linux操作系统、具备网络通信基础知识。如完成培训课程可达到了解虚拟化产品的基础知识、掌握H3C虚拟化产品日常维护的目的。数据库故障诊断及检修以Oracle数据库物理结构故障为例,首先要判断问题的起因,如果是硬件故障则首先要解决硬件问题。在无硬件问题的前提下按照下面的处理方发来进一步处理。数据库故障检查数据库出现故障,基本上是由于文件损坏所导致,可以通过安装以下分析方法检查文件损坏的情况:检查控制文件损坏情况检查损坏的单个控制文件检测所有的控制文件检测重做日志文件损坏情况确定损坏的重做日志的位置及其状态数据库文件损坏检修数据库文件损坏后,可通过基本的配置将其修复,可以通过以下方法检修以下位置的错误,具体方法如下:序号检查方法检测步骤1打开数据库并且用适当的方法进行数据库全备份进行数据库全备份2部分数据文件损坏若损坏的数据文件属于非system表空间,则数据库仍然可以处于打开状态可以进行操作,只是损坏的数据文件不能访问。这时在数据库打开状态下可以单独对损坏的数据文件进行恢复。若是system表空间的数据文件损坏则数据库系统会异常终止。这时数据库只能以Mount方式打开,然后再对数据文件进行恢复。可以通过查看数据库日志文件来判断当前损坏的数据文件到底是否属于system表空间。3非system表空间的数据文件损坏确定损坏的文件名字:将损坏的数据文件处于offline状态:从相应的备份结果集中恢复关于这个数据文件的最近的备份。对于没有采用带库备份的点可以直接从磁带上恢复;对于用带库备份的点用相应的rman脚本来恢复。恢复数据文件:使数据库文件online:用适当的方法进行数据库全备份。4system表空间的数据文件损坏以mount方式启动数据库从相应的备份结果集中恢复关于这个数据文件的最近的备份。对于没有采用带库备份的点可以直接从磁带上恢复;对于用带库备份的点用相应的rman脚本来恢复。恢复system表空间:打开数据库:用适当的方法进行数据库全备份。5表空间损坏若非system表空间已经损坏,则数据库仍然可以处于打开状态可以进行操作,只是损坏的表空间不能访问。这样在数据库打开状态下可以单独对损坏的表空间进行恢复。若是system表空间损坏则数据库系统会异常终止。这时数据库只能以Mount方式打开,然后再对表空间进行恢复。可以通过查看数据库日志文件来判断当前损坏的表空间是否是system表空间.6非system表空间损坏将损坏的表空间处于offline状态:从相应的备份结果集中恢复关于这个表空间最近的备份。对于没有采用带库备份的点可以直接从磁带上恢复;对于用带库备份的点用相应的rman脚本来恢复。恢复表空间:使表空间online:用适当的方法进行数据库全备份.7system表空间损坏以mount方式启动数据库从相应的备份结果集中恢复system表空间最近的备份。对于没有采用带库备份的点可以直接从磁带上恢复;对于用带库备份的点用相应的rman脚本来恢复。恢复system表空间:打开数据库:用适当的方法进行数据库全备份。8整个数据库的所有文件损坏整个数据库所有文件的损坏一般是在共享磁盘阵列发生无法恢复的灾难时才发生,这种情况下只能对数据库进行恢复。若数据库的归档目录也已经丢失,则数据库不可能做完全恢复,会有用户数据的丢失。系统部署规划我方根据硬件、应用软件环境完成数据库的初步规划、安装配置工作。具体的规划要求按实际情况制定,以下是系统规划的相关内容:制定数据库、中间件的部署规划根据硬件、应用软件环境,制定数据库、中间件的安装部署规划。数据库与中间件的资源消耗离不开硬件设备,硬件性能的高低与数据库、中间件性能高低是一致的,因此,首先要调查服务器的硬件、应用软件运行环境与性能。评价服务器的性能好坏,再根据系统运行的需求,制定数据库、中间件的安装部署规划。制定数据库、中间件的安装部署方案制定数据库、中间件的安装部署方案,安排项目开发计划。在调查分析硬件设备性能的基础上,提出数据库、中间件的总体结构方案,根据之前的部署规划,确定数据库、中间件安装部署次序及时间安排。合理分配硬件资源在数据库、中间件的安装部署完成后,需进行优化配置,根据系统的实际使用需求,对数据库配置及中间件的配置进行调优设置,力求用最少的资源实现最大的效果,做好系统的搭建工作。备份恢复测试备份与恢复是系统管理一项不可缺少的工作。备份工作的目的是为了尽可能快速和方便地恢复单个文件或整个文件系统及相关数据,备份对于文件和数据的安全恢复是非常重要的。我方将提供良好的备份服务,将对于以后的系统遇到意外紧急故障能否安全恢复运行起着非常关键的作用。数据备份数据备份的是系统安全的重要保证,我方将对数据分成两类,一类是应用系统中的数据,另一类是数据库存放的数据,我方将在每次的备份工作时,对这两种数据进行备份和整理。系统数据备份对系统数据备份,其实就是实现系统和应用程序的备份。此处指的是中间件、应用平台或业务系统的程序等。做好系统数据备份,能保证系统的运行环境等完整。数据库数据备份数据库数据会由于用户的数据变动更加频繁一些,几乎不可能精确到每分钟的备份。因此,数据库数据备份我方将采取定时的方式对数据库的数据进行备份。做好数据备份,合理的进行系统数据与数据库数据的备份,当出现任何问题如误删除某些文件或者存储设备发生故障时,就可以进行系统恢复操作。数据恢复及测试在遇到系统异常或数据丢失的情况,我方将利用备份的系统数据及数据库数据进行数据恢复工作。数据恢复的前,我方严格进行数据的恢复测试,尽可能地对系统进行完整地还原。系统数据恢复我方将最近的一个系统数据备份版本进行恢复,在系统恢复后,对系统的一般功能进行测试,验证其系统功能或应用服务功能是否正常,如系统数据恢复不正常,将采用第二个备份进行恢复,力求把系统恢复成正常状态。数据库数据恢复我方将最近的一个系统数据备份版本进行恢复,其数据恢复可完成以下修复,其中包括系统崩溃只剩下数据文件的情况下的恢复,甚至没有system表空间而只有数据表空间的情况下的恢复。Oracle碎片重组数据恢复,如文件被删除或者文件部分被覆盖。数据库数据被恢复后,我方将力求将丢失的数据进行比对分析,测试数据库数据的完整性,尽力恢复系统的业务数据。项目管理服务组织结构xxx有限公司的IT服务团队,在IT运维服务领域,由资深的技术工程师组成,通过咨询专家、值班人员和投诉处理人员等有效配置,实现对客户IT运维服务需求的全面支持。通过统一有效的服务台管理,现场派驻支持人员,后台核心技术支持小组等有效配置,实现对客户IT运维服务需求的全面支持。人员职责项目负责人:负责项目团队的整体管理及各项资源协调,定期与客户沟通了解并反馈运维工作情况,统筹运维团队工作;与客户保持沟通,了解并满足客户的合理需求;领导运维工作相关员工,领导整个运维工作的开展;定期向客户提交运维相关报告;重大故障及时跟进处理情况,定期通知客户最新的处理详情。服务台小组:负责对客户提出的重要咨询内容提供解答及解决方案;负责远程支持现场工程师、热线电话支持工程师工作的开展;必要时将客户咨询服务升级到核心技术工程师处理;、接受并记录客户投诉及意见,进行深入了解并将信息反馈公司管理层;现场服务小组:驻点客户现场,处理需求及故障;负责对客户设备进行性能评估、性能调整、设备巡检等工作;负责各系统的日常监控,基本故障处理,无法解决时将故障升级到核心技术工程师;设备需要更换备品备件时,跟踪处理并记录备品备件更换记录。必要时将问题升级到核心技术小组工程师处理;对客户技术问题进行解答,及对客户提供咨询服务;负责对客户的咨询服务进行基本整理并解答,必要时将客户需求升级到核心技术咨询顾问;核心技术小组:对服务台小组与现场服务小组未能解答客户的咨询问题进行解答;对服务台小组与现场服务小组进行全面的技术支持;必要时到达故障现场,对故障分析定位并解决问题;监督现场服务工程师的服务质量;整理与编写运维工作的相关报告。项目交付项xxx有限公司将在合同规定时间内,向xxx有限公司提供更多原厂技术文档与服务报告,包括:产品白皮书技术规范书技术操作手册xxx有限公司定期将相关报告通过客户服务经理提交给xxx有限公司服务报告包括:服务计划服务团队季度服务回顾报告季度服务回顾会议记录服务项目工作情况月报单次故障修复报告月度巡检报告交付时间表序号交付物交付时间1产品白皮书按时间要求提交2技术规范书按时间要求提交3技术操作手册按时间要求提交4服务计划按时间要求提交5服务团队年度工作总结报告项目结束6服务团队季度服务回顾报告按时间要求提交7季度服务回顾会议记录按时间要求提交8服务项目工作情况周报每周9服务项目工作情况月报每月10服务项目工作情况季报按时间要求提交11单次故障处理报告即时交付交付物样例故障处理单故障处理单编号:设备信息接障时间处理时间处理方式远程现场到达现场时间故障排除时间故障等级故障现象描述分析及处理方法遗留问题软硬件更新情况资料更新情况处理人客户签名设备巡检表检查项操作提示/正常值结论备注服务器名称IP整体检查硬件故障查看服务器设备故障灯□正常□异常如发生故障此处详细说明现象与解决方法补丁是否有新补丁需要测试安装□是□否如有如装补丁请详细登记补丁名称与对应服务器名称(登记与服务器对应文档上)防病毒病毒库是否升级为最新□是□否病毒库日期数据库服务器系统事件无错误事件与不明登陆事件□正常□异常日志文件设置以及运行正常,数据量正常□正常□异常磁盘卷组无处于失效状态的逻辑卷□正常□异常功能远程登陆正常工作□正常□异常数据库正常工作□正常□异常数据备份最近备份时间:年月日□正常□异常存储设备状态指示灯,硬盘指示灯检查□正常□异常应用服务器系统事件无错误事件与不明登陆事件□正常□异常日志文件设置以及运行正常,数据量正常□正常□异常磁盘卷组无处于失效状态的逻辑卷□正常□异常服务Weblogic、Tomcat□正常□异常服务项目工作情况周报服务项目工作情况周报本周已完成工作(至)(简要描述本周已完成的工作内容)本周未完成工作(简要描述本周未完成的工作内容)故障处理报告(详细描述清楚故障的处理经过与情况)维护建议(对本周的维护工作总结与提出建议)下周计划安排(至)(填写下周工作安排)其他说明(其他补充说明或需要配合的工作)考核与评价为实现对我方的有效管理,提高管理制度和管理流程的执行力,绩效考核是非常重要的管理手段。因此,制定了五个方面的绩效考核关键业绩指标KPI(KeyPerformanceIndicator),其中等包括以下几点:分成服务工作量服务水平信息安全支持系统可用性人员培训针对这以上五个方面,业主方通过相应的KPI对我方进行考核,并制定相关制度保障KPI考核的有效执行。以下考核子表因应实际情况可进行响应改动。表:IT修理维护服务商效考核指标指标类别考核指标评价频度合格指标服务工作量一定时期内各种技术支持响应次数。包括各种定期、例行和临时性的技术支持,非现场支持和现场支持要分开计算。每季度响应次数≥95%服务水平质量用户满意度每季度用户满意度≥98%信息突发事件支持力度重大信息突发事件次数支持次数每季度支持次数≥12次信息系统潜在风险预警,预防提醒及时率每季度及时率≥98%系统平台可用性(由服务商支持的)信息系统平台的月可用率,(即评价由IT修理维护服务商修理维护的系统部件的可用性,非修理维护商负责的系统的部件导致不可用的情况不计算为故障时间)每月信息系统平台的月可
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年沪科新版九年级地理下册阶段测试试卷含答案
- 近视防控系统课程设计
- 二零二五年度酒店前台客房预订售后服务合同3篇
- 2025年人教版四年级语文下册阶段测试试卷
- 2025年人教版高二数学上册月考试卷含答案
- 2025年外研版三年级起点九年级物理下册阶段测试试卷
- 造纸课程设计
- 个性化2024年度体检服务委托合同模板下载版B版
- 个人财产分割细则合同下载版版B版
- 个人贷款协议规范样本(2024年)版A版
- 菏泽2024年山东菏泽市中心血站招聘15人笔试历年典型考点(频考版试卷)附带答案详解版
- 供热通风与空调工程施工企业生产安全事故隐患排查治理体系实施指南
- 精-品解析:广东省深圳市罗湖区2023-2024学年高一上学期期末考试化学试题(解析版)
- 记账实操-基金管理公司的会计处理分录示例
- 中国慢性便秘诊治指南
- 沐足行业严禁黄赌毒承诺书
- 2025年蛇年红色喜庆中国风春节传统节日介绍
- 气排球竞赛规则
- 电梯维修保养报价书模板
- 危险化学品目录2023
- FZ/T 81024-2022机织披风
评论
0/150
提交评论