版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、售后服务方案描述及相关承诺1. 总述1.1 项目名称XXXXX网络设备项目。1.2 项目背景描述随着互联网应用的快速增长,以及下一代互联网的加速推进,短信、网游、语音以及视频宽带业务的日益火爆,电子商务的再度兴起,IDC市场迅速升温,IDC业务收入迅速增长,IDC业务的客户群也迅速增大。为了抢占潜在客户资源,大力推广IDC业务,这样就需要建设一个侧重中、高端客户,兼顾低端客户需求的IDC机房系统。1.3 服务期限及范围为XXX核心网络设备(含2台防火墙,2台交换机,2台路由器),其检修和维护。我公司将按质按量完成XXX核心网络设备维护修理维护服务。1.4 实施目标为XXX核心网络设备提供优质的
2、维护修理服务,并对2台防火墙,2台交换机,2台路由器统提供卓越的技术支持与运行维护服务。保证2台防火墙,2台交换机,2台路由器运行稳定。1) 我方通过严格的修理维护服务,保证相关本次所涉及的相关软硬件的高效稳定运行。2) 我方具备应急处理能力并制定了完善的应急预案,减少计划内和计划外的停机时间,最终能够保障电力业务核心系统每周7天24小时不间断稳定运行。3) 我方定期对现有软硬件平台系统运转状况进行巡检、跟踪和分析,科学地预测和掌握软硬件平台系统的性能状态,提出科学合理的扩容和升级建议。4) 我方在维护中熟悉各主机上承载应用系统,结合IT系统和业务应用的具体实际情况,查漏补缺,提出整改建议,配
3、合应用厂商不断优化系统整体性能,提高系统运行整体效率。1.5 术语定义1) 业主方:xxxxx团有限公司。2) 故障级别定义如下:l P1级故障:重大故障,系统瘫痪,无法运行,业务丢失。l P2级故障:系统部分设备故障,影响和限制了部分业务运营。l P3级故障:一般性技术故障,发现系统和设备的技术问题,但系统和业务仍可正常运行。l P4级故障:在系统功能配置、运维管理方面需要信息或支援,对用户的业务几乎无影响。2. 总体实施方案2.1 服务流程xxx有限公司将根据XXX核心网络设备(含2台防火墙,2台交换机,2台路由器)服务内容制定了相关的服务流程,以下流程适用于本项目的含防火墙,交换机,路由
4、器流程。 2.1.1 高级故障诊断及检修流程1) 针对系统、设备发生的一级、二级故障进行响应,分别在规定时间内进行维修、恢复服务。其中紧急重大故障要求15分钟内到达现场处理。2) 我方提供服务相当于原厂技术服务水平。并提供电话或现场技术咨询和技术支持服务。l 服务流程图l 服务流程说明序号步骤名称责任人说明1服务台响应服务台 服务台人员接受来自用户上报的故障以及各类服务请求。在验证用户基本信息后,服务台人员在服务管理平台上登记一条故障信息并进行跟踪和处理,并创建故障事件单。 服务台人员判断故障是否重大事件,如重大事件将立刻通知现场支持人员到现场。如不是重大故障,将根据故障级别及故障类型,安排工
5、程师进行故障处理 如果是一条重复事件,则新建该事件记录后,更新原有事件为“主事件”,并建立重复事件与原有事件的关联关系。 如果是一条复发事件,则创建一个新的事件单,复制原始事件单的内容,并说明这是复发的事件。2故障现场相应现场支持人员 根据服务台所描述的基本故障情况,现场支持人员将在15分钟内到达故障现场,为用户处理故障3远程调查与诊断服务台支持人员 服务台人员根据事件分类表确认事件的分类,根据事件的影响度和紧急度,为事件分配优先级。 分析故障原因,在知识库中查询是否有解决方案,制定初步的故障处理方案。 如故障是由于设备硬件引起或远程无法处理时,将通知现场维护人员,到现场处理处理故障。 进行调
6、查诊断,尝试解决,必要时联系第三方供应商协助处理。4现场调查诊断现场支持人员 现场支持人员在现场判断故障情况,根据故障的具体情况,制定解决方案。 判断故障是否需要更换部件,如需更换备件,我方将联系仓管调出设备配件,并负责设备的安装和卸载。5更换设备或部件现场支持人员 更换完设备后再对故障进行检测,如故障未被处理,将继续对故障进行分析,彻底解决故障问题。6解决与恢复服务台、现场支持人员 按照制定好的解决方案对故障进行处理。 判断实施解决方案是否可行,并制定变更方法。 实施成功后,详细记录解决方案或变通方法。7事件关闭服务台支持人员 将故障处理情况提交至知识管理。 关闭事件。并对故障记录进行归档,
7、再制定用户回访计划。8用户回访服务台支持人员 向用户确认故障是否已得到解决。 确认用户是否报告其他问题。 用户反馈故障处理情况,并对本次服务进行评价。2.1.2 设备调优流程1) 针对长期出现资源瓶颈的设备进行分析,提出解决方案或优化方案。2) 对系统进行定期评估,给出评估优化方案。l 服务流程l 服务流程说明序号步骤名称责任人说明1设备性能检测服务器、存储支持工程师 利用有效的工具对设备进行检测。 对设备进行健康检查,标记存在资源瓶颈的设备。2统计资源瓶颈的设备数量服务器、存储支持工程师 根据标记的资源设备进行设备统计 对资源瓶颈的设备进行故障原因分析,判断资源瓶颈的问题是由何种原因所引起。
8、 分派问题到各个专业工程师设计解决方案。3硬件问题分析服务器、存储支持工程师 分析设备硬件上的资源瓶颈问题,列出引起此故障的原因4系统问题分析操作系统支持工程师 分析操作系统上的资源瓶颈问题,列出引起此故障的原因5平台问题分析应用平台支持工程师 分析应用平台上的资源瓶颈问题,列出引起此故障的原因6数据库问题分析数据库支持工程师 分析数据库上的资源瓶颈问题,列出引起此故障的原因7设计服务器、存储解决方案服务器、存储支持工程师 对列出服务器、存储硬件问题逐条给出处理意见与优化方案。8设计系统解决方案操作系统支持工程师 对列出操作系统问题逐条给出处理意见与优化方案。9设计平台解决方案应用平台支持工程
9、师 对列出应用平台问题逐条给出处理意见与优化方案。10设计数据库解决方案数据库支持工程师 对列出数据库问题逐条给出处理意见与优化方案。11整合方案我方项目负责人 整合各技术支持工程师给出的解决方案。 对解决方案的内容进行审核,确保处理意见的安全和有效。 制定实施计划,并将方案提交给业务部门。12业务部门审批设备负责人 业务部门负责人对整合的方案进行审批。 按实施计划通知每个人设备负责人。13优化实施各技术支持工程师 工程师按照最终的实施计划和方案对设备进行调优工作。2.1.3 备件保修和更换流程1) 当设备出现故障时,我方应及时进行检查、维修或更换故障部件。2) 如果硬件设备故障,保证在2小时
10、内提供不低于故障设备规格型号档次的备用设备替代使用,直至故障设备修复为止,以最大限度保证业务系统不间断地正常运行。3) 若需要更换部件,其更换的部件必须是原厂的部件,与原有部件具备同等的质量和性能。l 服务流程图l 服务流程说明序号步骤名称责任人说明1故障设备检查现场支持人员 现场检查,判断故障引起的原因和故障位置 判断故障是否能现场处理,例如通过配置等方法解决故障,即现场处理。2现场维修现场支持人员 对故障进行处理,通过技术手段等解决故障问题。3提供备件现场支持人员 故障由于设备的硬件引起,难以现场立刻处理,我方提供同等设备型号和功能的配件给用户使用。4现场安装与卸载设备维修人员 现场卸载故
11、障的设备。 安装我方提供的备件设备。5故障设备维修设备维修人员 判断设备是否已经过保。并制定维修计划。 设备未过保,通知设备的提供商对故障设备进行修复。 设备已过保,我方提供或采购相应的备件和部件,对设备进行维修。6设备提供厂商维修设备提供厂商 设备提供厂商对故障设备进行修复7提供所需的备件或部件进行维修设备维修人员 我方安排专业对技术人员更换或维修故障设备。 将拆卸的故障部件进行封存,交还给设备提供商。8故障设备复查现场支持人员 设备维修成功后,我方现场支持人员到现场对修复好的设备进行复位。 检查设备的运行情况,如设备还存在故障问题,我方将继续对故障进行处理与解决。2.1.4 特保服务流程1
12、) 按照公司要求,对于特殊时期必须保障设备运行的,我方根据要求驻场值守和服务,完成特殊时期保障任务。2) 需预计每年安排约有2个月的特保时间。l 服务流程图l 服务流程说明序号步骤名称责任人说明1制定特殊时期值班计划现场支持人员 现场值班人员制定值班服务计划 值班计划包含人员的联系方式与相关设备系统的负责人的联系方式2业务部门审批设备负责人 业务部审批值班服务计划 如服务计划未能满足用户的需求,将退回现场值班的人员重新设定值班计划。3值班现场支持人员 按计划是时间地点到现场进行值班工作。 记录值班所需的相关表格 遇上重大事件及时通知设备负责人员4提交设备巡检报告设备维修人员 汇报设备出现的安全
13、隐患。 提交当天的值班记录和相关资料。2.1.5 系统补丁通知及推荐流程1) 预防式补丁服务:我方在已知服务器、存储软、硬件缺陷可能导致潜在问题的情况下,将通过配置管理或巡检等方式对用户服务器进行增补软件分析并提出版本升级建议,并由用户进行相关业务、客户影响分析后确认进行。2) 响应式补丁服务:当设备出现故障后,我方对故障进行分析并确认是软件缺陷所导致的故障,我方将提供针对该软件缺陷的软件补丁程序,并由用户进行相关业务、客户影响分析后确认进行。l 服务流程图l 服务流程说明序号步骤名称责任人说明1制定补丁通知及推荐计划现场支持人员 制定补丁通知及推荐计划。 判断是否有由于补丁问题造成的故障。如
14、没有由于补丁造成的故障,将实行与预防式补丁服务,如由于补丁发生故障,将实施响应式补丁服务。2预防式补丁服务服务台支持人员 预防方式的补丁服务以预防、排查隐患为主,对现有设备的安全、性能隐患制定补丁更新计划。3响应式补丁服务现场支持人员 对用户所发现的故障进行处理,并且向用户提供可处理此故障的补丁程序4设备故障数据统计与分析服务台支持人员 在预防式补丁服务中,对以往出现故障的设备进行统计,总结普遍的故障现象5配置管理与巡检常发故障设备现场支持人员 在预防式补丁服务中,通过配置管理与巡检的方式,检查系统运行情况,定位常发故障设备的位置,查明故障发生的原因,制定相关补丁的更新计划。6增补软件分析各技
15、术支持工程师 结合故障数据统计结果与巡检所发现的故障情况,对增补软件进行评估与分析。得出适合增补的软件列表。7制定版本升级建议各技术支持工程师 根据分析结果制定版本升级建议与实施计划8业务部门审批设备负责人 业务部门对实施计划的内容进行审核,如发现补丁版本升级不符合要求,将返回重新制定补丁升级计划。9处理和分析故障现场支持人员 在响应式补丁服务中,对故障进行的处理,在发现可以通过更新补丁来消除隐患时,我方将制定补丁更新计划,寻找相关的软件补丁。10提供软件补丁程序各技术支持工程师 对寻找相关的软件补丁进行测试,通过测试后,我方将测试报告与软件补丁程序提交给用户。11补丁更新实施现场支持人员 经
16、过审批通过后,我方安装实施计划的方案与内容,对相关设备进行补丁更新工作。2.1.6 季度巡检流程1) 每季度提供一次健康巡检,对设备硬件、系统运行状况进行检查,排除隐含错误或安全隐患,并提交健康巡检报告。2) 巡检的具体时间由双方协商确定。l 服务流程l 服务流程说明序号步骤名称责任人说明1制定季度健康巡检计划现场支持人员 根据要求制定监控巡检计划与方案,内容包括巡检方式、操作步骤等。2业务部门审批现场支持人员 业务部审批巡检计划 如服务巡检计划未能满足用户的需求,将退回重新设定巡检计划。3提供健康巡检报告现场支持人员 实施设备的健康巡检。 记录巡检中发现的设备问题 提交健康巡检报告,汇报设备
17、存在的安全隐患。4排除隐含错误与安全隐患设备维修人员 对报告中存在安全隐患进行处理。 问题处理后将对系统进行再次检测,检查问题处理情况。2.1.7 培训服务流程1) 我方定期进行运行维护技术培训,并定期与业主方技术人员进行技术交流。l 服务流程l 服务流程说明序号步骤名称责任人说明1咨询业务部门需求咨询受理人员 询问用户的培训需要。了解用户对培训的要求。 判断用户是否对新或难度高的技术开展技术交流。 收集业务部门提出的培训要求。按培训要求的内容、等级进行分类,组织相关人员开展培训准备工作。2制定培训计划与培训内容咨询受理人员 根据培训内容、培训的深度制定培训计划,并提交业务部门进行审批工作。3
18、业务部门审批设备负责人 业务部门对培训内容进行审核工作,对培训内容存在异议或不满意的地方,将返回修改培训计划或培训方案。4安排培训议程与材料各技术支持工程师 相关技术人员对培训方案的内容准备培训资料,并安排培训所需场地与准备相关的设备或软件。2.1.8 系统规划(非建设项目)流程1) 根据硬件、应用软件环境完成数据库的初步规划、安装配置工作。l 服务流程l 服务流程说明序号步骤名称责任人说明1硬件、应用环境分析现场支持人员 对运行环境进行硬件、软件的运行分析,检查运行环境是否符运行要求。 记录硬件、应用环境的基础参数。2制定实施方案技术支持工程师 根据运行环境评估与硬件、应用环境的基础参数,制
19、定实施方案和初步规划。 提交业务部门对方案进行审批3业务部门审批设备负责人 业务部门审批实施方案。 如实施方案和规划未能满足用户的需求,将退回修改实施方案。4实施安装配置技术支持工程师 根据实施方案到现场进行安装、配置工作。2.1.9 备份恢复测试流程1) 根据业务重要性及数据安全等级要求,定期对备份数据进行恢复测试,保障备份数据完整、有效、可用。l 服务流程l 服务流程说明序号步骤名称责任人说明1数据时效性检查技术支持工程师 技术支持工程师检查备份数据,病句业务重要性及安全级别,判断数据的有效期,如数据已过保存期,我方将对系统业务数据进行备份2备份系统业务数据现场支持人员 对系统的数据进行全
20、备份,以保证数据的完整。3数据恢复测试技术支持工程师 对备份的数据进行恢复测试,并对相关功能进行操作,检查数据的准确性。 如备份数据存在异常,我方将到现场排除故障原因,分析系统故障还是备份失误导致,如不是备份失误,我方将通知相关业务部门进行故障处理。4备份版本控制技术支持工程师 备份数据测试成功后,我方对备份数据尽可能保存最近5个版本的存档。 对备份数据进行版本控制,按系统、安全级别、重要性、备份时间对备份数据进行存档。2.1.10 专家现场技术支持流程1) 包括数据库紧急救援服务。2) 如出现故障,导致数据库不能正常工作,服务方须尽快安排资深工程师到现场先回复应用,并保证持续跟进直到问题完全
21、解决。3) 如果不能解决问题,服务方需自行请专家或其他高级技术人员对系统情况进行分析,直至解决问题。4) 服务方在接到现场系统维护请求后1小时内响应,对宕机或紧急恢复等严重问题,要求立即响应并在15分钟内到达现场。l 服务流程l 服务流程说明序号步骤名称责任人说明1现场情况调查技术支持工程师 进行紧急救援服务,安排资深工程师到现场进行调查响应。尽快提出故障处理方案。2故障应急处理现场支持人员 我方根据故障的级别、安全性对故障采取应急的处理情况。 由于设备硬件造成的故障,我方立即启动热备件。及时恢复系统的正常运行。 由于软件或设置造成的故障,我方对设置进行初始化操作,保证系统的正常运行3启动热备
22、件技术支持工程师 根据提前准备好的设备热备件,我方对设备进行更换和切换操作。恢复设备的运行。4故障设备修复设备维修人员 在现场对故障设备进行一般的修复处理,如不能处理,我方将故障设备提取回维修中心进行维修。5更换备件现场支持人员 故障设备修复成功后,我方把完成修复的设备安装回原位置。并把正式服务切换回正式环境。6恢复初始化设置技术支持工程师 对数据库的运行环境进行初始化配置操作。恢复系统的运行环境。7日志文件检查技术支持工程师 检查数据库的日志,找出数据库中存在的故障问题。8软件配置修复技术支持工程师 根据存在的故障问题对数据库的配置进行修改和故障处理。9修复检查现场支持人员 故障修复后对故障
23、进行检查,排查存在的安全隐患。2.1.11 技术支持服务流程1) 提供电话或现场技术咨询和技术支持服务。l 服务流程l 服务流程说明序号步骤名称责任人说明1服务台响应咨询技术支持工程师 服务台响应用户的咨询请求,对用户做出快速的请求响应。 了解用户的需要,提供有效的技术支持与咨询服务。2现场技术支持现场支持人员 我方派出工程师到现场对用户的疑问进行解答。 为用户现场处理用户的故障问题。3用户回访技术支持工程师 现场技术支持完成后,我方电话回访用户对服务的满意度,并咨询是否需要更还现场支持服务或变更服务4电话技术支持设备维修人员 如用户需要电话直接支持,我方将采用电话的方式立即响应用户的请求,并
24、尽可能完成用户的需求和远程处理用户的故障。2.2 服务管理2.2.1 实施规范管理我方按照业主方的管理制度、修理维护规范、操作指导等相关规则制度开展修理维护服务。为保障修理维护服务规范化的顺利执行,同时修理维护服务各个环节清晰可追述,我方任何操作必须严格按照业主方相关流程进行操作,尽量减少对业主方正常业务的干扰,每步操作须有明确的成果反馈记录,禁止任何不按流程处理的任何操作,一经发现将严肃处理。2.2.2 人员工作规范我方对运维人员进行明确分工及职责定义,避免运维人员无序混乱工作,职责分工需符合运行单位运维工作要求。2.2.3 项目风险与责任我方谨慎和用心履行合同责任,并对其员工的过失承担责任
25、。由于我方实施人员服务不及时(没有按照合同约定时间规定)或服务操作不当,造成大量在线数据遭受不可恢复性损失,我方应负责恢复数据,并承担所有费用。由于我方原因服务不到位,我方应向业主方作出书面解释,并提出整改措施。造成损失的,我方承担全部责任。2.2.4 人员稳定性鉴于信息系统及设备重要性以及安全保密性,我方保证服务期内修理维护团队人员稳定,避免人员流动对业主方业务系统及设备造成安全隐患,特殊情况下人员变动需经业主方同意后方可变动,禁止未经业主方同意人员直接变动。2.2.5 人员质量控制我方所派出的服务人员,应能熟练胜任相关维护工作。业主方拥有向所提供的实施人员进行面试的权力。如我方人员业务能力
26、如不符要求,业主方有权要求我方更换人员。服务人员资质要求如下:a) 大学专科或以上学历,有3年以上类似产品维护经验。b) 具有相应产品认证证书。2.2.6 项目进度控制我方技术服务团队每周向业主方项目管理部门提交维护工作周报,并抄送我方项目管理部门。为了更好的让业主方了解项目的进度和目前的情况,我方将向业主方进行以下工作:l 每月提交工作月报,维护工作月报的内容必须包括以下内容:主要的已完成工作内容、未完成工作内容、故障处理报告、维护建议及工作计划安排。l 技术服务团队每月度对相关工作进行总结提炼,提交运行维护工作月报。l 技术服务团队每季度对相关工作进行总结提炼,提交运行维护工作季报。l 技
27、术服务团队每年对全年工作进行总结,并对下一年度工作进行规划,提交运行维护工作年报,协助系统管理员完成系统年度维护总结。除上述文档整理工作外,我方承担业主方相关维护文档的修编配合工作。2.2.7 项目安全控制提供现场服务时,我方将确保其现场人员遵守业主方有关安全规定,前提是我方收到业主方提供的有关安全规定。我方有为业主方保密的义务,未经业主方许可,我方服务人员不得对业主方的业务经营数据进行增删、修改、复制、传送、记录;我方不得向任何第三方泄露业主方业务数据内容或在公开场合引用业主方数据。2.2.8 质量控制为保障服务质量及服务适应性,在服务期内,我方需根据服务内容发生的变化进行适应性的改进,并在
28、修理维护过程中根据业主方的要求进行服务改进。2.2.9 项目质量保证服务质量要达到可衡量必须制定严格的服务SLA,我方在服务期开始时须与业主方协商制定切实可行的服务SLA,并严格遵守SLA进行修理维护服务。其服务标准如下:一、紧急情况当服务器宕机,数据库无法读写等一级紧急事件时,我方在1小时内响应,2小时内协助解决该情况。并在因外部原因无法立即解决时(例如服务器所在机房受到黑客攻击,服务器硬盘读写失败等事件),向客户报告情况并提供具体解决的时间。并提供一套完善的应急解决方案,帮助客户及时解决突发事件,最大程度的挽救因服务无法使用导致的损失。二、重要情况系统服务上线过程后,有时会出现在验收过程中
29、没有察觉的bug,这个时候,我方积极协助客户解决该bug,具体的响应时间根据bug造成的影响程度而定。根据SLA服务标准,bug的等级亦可进行进一步的划分并制定相应的解决方案。这里不予以赘述。三、标准情况在系统部署阶段,因工作人员协作环节的不一致性,有可能出故障问题和兼容性问题。以及由于临时需求的变更和新增,都会对系统服务产生新的维护需求。我方按照需求的难易性和工作量制定相应的响应标准,保证客户满意度。四、次要情况包括服务的小调整,如数据库、中间件的配置更替等,通常在24小时内响应,双方商议的时间内进行解决即可。我方以SLA服务体系为出发点,为IT服务提供完善、标准、科学的解决方案,尽可能不影
30、响客户满意度。2.2.10 制定全年的支持服务计划我方客户经理应主动地和业主方共同协商、制定全年的支持服务计划。服务计划包括以下主要内容:a) 业务/IT系统概况,业务系统对服务的需求b) 服务合同的工作内容,设备清单和响应服务级别c) 我方的工作团队和职责d) 支持服务的流程e) 运维服务活动的计划,包括:增值服务实施、服务总结报告、回顾会议、巡检、技术交流等f) 服务计划双方的确认2.2.11 项目总结会议我方客户经理至少每季度会安排与业主方一起召开系统运行和服务情况定期总结回顾会议,内容包括但不限于:a) 总结前一段时间服务实施的情况b) 回顾升级问题/重要问题的处理过程c) 听取运行单
31、位对服务的反馈意见和服务需求d) 同业主方运维经理们讨论服务改进措施e) 讨论、修订服务计划。2.3 维护内容我方将根据xxx有限公司服务器、存储设备、虚拟化服务器、A认证系统服务内容简要的介绍常见故障所采用的维护解决办法,在实际的应用中,我方会根据实际情况进行相应的修改与优化。 2.3.1 服务器故障诊断计算机故障类型以及故障的诊断手段有很多,对于服务器(IBM服务器为例)故障采取以下2种诊断方式:2.3.1.1 硬件故障诊断诊断并排除由硬件引起的故障,先从外观上检查硬件情况,检查设备故障灯是否有亮。各种设备上都有故障指示灯,通常为橙色并有?标记。对于高端服务器,应检查UEPO开关上的系统故
32、障指示灯是否亮,检查部件故障灯,如I/O drawer、PCI卡,硬盘等。所有安装的部件(如CPU book)所对应的绿色LED应长亮。任何故障指示灯(橙色)都应不亮,设备发生故障时通常伴有出错代码,必须把所有故障代码记录下来。除此以外还应注意有否其他异常情况(如硬盘、风扇异常的声音、电缆破损、系统出风是否顺畅、气流是否因为异物遮挡而影响散热效果等)。检查服务器网卡状态、IP地址是否正常。网卡的设置应与交换机端口的设置匹配。检查网卡通信是否正常,如是否丢包,速度是否正常等。并且检查路由表是否正常、/etc/hosts文件或DNS设置是否正常等。2.3.1.2 软件故障诊断诊断并排除由软件(操作
33、系统和应用软件等)引起的故障可以先查看系统日志相关软件报错的记录,同时登录软件检查当前应用使用状态、软件应用进程等进行多方面的诊断。 2.3.2 检测服务器、存储设备运行情况对于一个系统而言资源总是有一定限度的,而任务总是要消耗系统资源的。关键是要找出哪些资源不能满足应用程序运行的需求。这里存在一个性能瓶颈的问题。不同的应用程序可能会有不同的资源要求,可能会产生不同的瓶颈。系统资源中的CPU、内存、磁盘或是网络都有可能成为瓶颈。系统性能调优需要找出这些资源成为瓶颈的原因,是资源的不足,是系统设置不合理,还是应用程序的问题。查找性能瓶颈的顺序非常重要,正确的顺序是:CPU 内存 I/O 网络,如
34、下图所示:2.3.2.1 查看CPU瓶颈通过查看当前服务器CPU使用情况判断CPU的使用情况,一般情况下CPU使用率不应该长期超过80%,如出现CPU使用率长期处于甚至超过80%的情况,则初步可判断CPU资源不足,出现瓶颈。2.3.2.2 检测内存问题部分厂商服务器在内存使用上模式默认最大化使用,因此内存的使用率不能作为是否存在内存瓶颈的依据。如果达到内存瓶颈,此时检查系统内存交换区的使用,会发现使用率较高。由于有大量的内存页面写入内存交换区,这会导致wa(I/O等待)值上升,但此时并非I/O瓶颈引起。当内存交换区使用率超过70%时需要增加交换区的大小。但增加内存交换区的大小并不会提高系统的性
35、能。相反,内存交换区使用越多,系统性能下降越多。当内存不足时,正确的方法是增加物理内存的数量或优化应用程序。2.3.2.3 查看系统的I/O情况磁盘的数据流量很大程度上与应用程序的I/O方式相关。某些应用程序的I/O SIZE可能非常低,而且产生大量的随机读写操作,从而使硬盘的读写效率大大降低,导致CPU的I/O等待增加。有时I/O问题是I/O带宽不足引起的。当所有连接在一块I/O卡上的硬盘的流量总和达到I/O卡带宽的70%以上时,应考虑增加更多的I/O卡。数据的分布也是很重要的因素。通常把数据分布到更多的硬盘上更有利于提高I/O性能。2.3.2.4 查看网络的情况:对于网络问题可以通过检查服
36、务器端口情况、网线速率、端口模式,甚至通过服务器与服务器、服务器与测试设备之间进行链路测试、传输速率测试检测服务器网络上的问题,必要时需要网络工程师检查交换机层面的健康情况加以分析判断。如果都没有发现系统有资源上的瓶颈,则很可能是应用程序的问题,需要应用程序开发商进行进一步的分析。2.3.3 服务器备件检修服务器备件保修主要以更换设备为主,并对造成备件故障的原因作出分析,最后通过分析的故障结果。对所有故障进行排查,不能单单只是更换备件这么简单,服务器备件一旦发生故障不一定是其本身问题,极大情况下是外部环境所造成。因此,服务器备件检修需要考虑其使用环境,从根本上解决故障问题,防止其它备件的损坏。
37、2.3.3.1 服务器备件硬件故障维修对于一般的设备硬件的故障,我方采用以下方式采取维修处理:序号故障类型维修方式操作方式1内存条损坏直接更换现场更换2主板元器件损坏直接更换现场更换3阵列损坏先进行数据恢复,再更换硬盘数据恢复需离开现场。备件现场更换4电源损坏直接更换现场更换5指示灯损坏先检测健康状态,再更换指示灯现场更换6CPU风扇损坏直接更换现场更换7数据线损坏直接更换现场更换8CPU损坏直接更换现场更换9光驱损坏直接更换现场更换10电源线损坏直接更换现场更换11相关数据接口损坏直接更换主板现场更换2.3.3.2 服务器软件故障维修对于服务器的软件方面故障,我方采用以下方式采取维修处理:序
38、号故障类型维修方式操作方式1系统崩溃重装操作系统现场操作2中木马病毒安装杀毒软件杀毒远程操作3驱动不匹配安装正确的驱动远程操作4软件不兼容安装兼容软件远程操作2.3.3.3 服务器备件修复与后续保养如以下因素导致备件的故障,我方在处理完备件的维修后,再对备件周边的环境进行保养处理工作。具体可参考以下几个方面:l 服务器备件受潮短路。备件受潮湿因素导致的故障,我方对服务器周边的环境进行除湿处理。主要以空调除湿或吸湿海绵为主。l 服务器备件受过热短路。备件受过热短路因素导致的故障,我方对服务器周边的环境进行降温处理。主要以空调降温或更换服务器散热风扇。l 服务器备件积尘导致短路。备件积尘短路因素导
39、致的故障,我方对服务器周边的环境进行除尘处理。主要以吸尘机或毛刷工具为主。l 服务器备件是否电源电压不稳定造成短路。备件电源电压不稳短路因素导致的故障,我方对服务器周边的环境进行电压检测,看是否有漏电的情况,并更换电源。2.3.4 特保服务我方按照公司要求,对于特殊时期必须保障设备运行,并根据业主方要求驻场值守和服务,完成特殊时期保障任务。并且每年安排约有2个月的特保时间。2.3.4.1 特保服务常规服务内容l 我方值班人员要认真检查设备的运行情况,包括电源、服务器指示灯及一切隐患。确保服务器设备的一切安全。l 做好安全监控工作。预防各种事故和事件的发生。l 检查软件的日志文件是否完整。l 检
40、查设备的电压及温度。l 值班人员做好值班记录,并记载重要事情。l 有重大问题及时向上级设备管理人员报告。2.3.4.2 特保服务工作责任l 我方值班人员值班期间,不能脱岗,认真值班。全天24小时确保有人在值班监控设备的运行。l 做好交接班等有关工作。l 值班人员要做好安全防范工作,遇设备周围环境的变化,应及时做出相应处理;l 保证值班人员人员及相关技术工程师的电话畅通。l 坚守值班岗位,不擅离职守。时刻提高警惕,做好值班期间的工作。l 值班严格按照操作手册执行,不违反值班制度和操作章程。l 值班人员在特殊假日放假值班期间为设备运行及安全工作的第一责任人。2.3.4.3 特保服务保证l 值班人员
41、提高自觉性与主动性,确保设备安全、稳定运行。l 在值班期间坚守工作岗位,不得无故让他人替岗,严禁饮酒。l 值班期间保证电话畅通,遇到重大事情,必须报告上级领导并做好临时处理措施,积极处置。l 认真做好值班记录,对设备异常及安全防火情况等,必须认真检查。l 值班员工在值班时间内,坚守岗位,不迟到、早退和缺岗。2.3.5 系统补丁通知及推荐我方将对以下补丁采取相关的补丁更新通知与补丁更新操作的服务。并对需更新的补丁进行测试工作。以下系统补丁服务的相关内容。2.3.5.1 补丁收集与整理我方对以下补丁通过不同的途径进行补丁资源的收集,补丁的出处要求是官方的补丁,如补丁不是官方提供,将对非官方补丁进行
42、测试。序号故障类型收集方式收集途径1服务器硬件BIOS补丁服务器厂商提供由官方通知2存储设备补丁服务器厂商提供由官方通知3Windows操作系统补丁微软官方网站微软最新公告4Linux操作系统官网或论坛论坛公告5Aix操作系统补丁IBM官方网站IBM官方网站公告6Unix操作系统补丁官网或论坛论坛公告7Oracle软件补丁官网或论坛论坛公告8Weblogic软件补丁官方网站官网公告9Tomcat软件补丁官网或论坛现场更换10其他软件补丁官网或论坛现场更换112.3.5.2 补丁更新测试补丁更新之前,有必要对其进行完整的测试,确保其适合于当前运转的设备或系统,否则有可能带来不必要的麻烦。但是对补
43、丁进行测试是一项繁琐的工作,我方使用测试技巧和脚本,快速有效地测试补丁。为针对如此多的产品以及不同版本的补丁,我方使用一套自动化补丁测试过程,建立一套完整的系统环境,模拟设备或系统的运行状态,确保补丁更新测试的可行性。2.3.5.3 补丁更新操作在部署补丁之前,我方确保已进行补丁测试,以确保它们不会破坏系统现有的功能。在补丁测试前对系统或相关资源进行备份处理,确保补丁更新万无一失,并且我方有专业的专家支持,在补丁更新出现故障时,保证能快速有效进行系统恢复。2.3.6 月度巡检为了更好地落实现巡检工作,我方制定了月度巡检工作,并对月度检查做出书面报告。进一步保障了设备正常运行和预防了设备发生故障
44、事故的风险。同时,通过月度巡检能尽早的发现安全隐患。具体措施如下:2.3.6.1 月度巡检检查月度巡检检查主要包括设备周边环境、周边设备、通讯及网络设备、服务器设备的检查,其检查内容如下:l 设备周边环境检查检查设备周边的温度是否正常、痕迹是否存在异常、有否异响、温度是否正常、清洁是否符合要求、是否存在异味等。l 设备周边设备检查检查UPS电源是否正常、空调是否正常、电池组是否存在异常、消防是否符合标准和要求等。l 通讯及网络设备检查防火墙及流量控制方面,网络通讯状态是否正常、网络流量是否过多等。而网络口检查主要包括数据指示灯有否异常、网络通讯状态是否正常、端口及网线状态是否正常等。l 服务器
45、设备的检查服务器硬件故障灯是否正常、如发生故障将记录详细的故障现象与解决方法,补丁是否已经更新、防病毒软件的病毒库是否已经升级、文件系统是否出现错误,日志文件的设置及运行是否正常,磁盘卷组是否存在失效状态。2.3.6.2 巡检数据整理经过季度巡检后,我方将把巡检的记录进行同一的整理,把巡检中发现的故障或异常情况进行统计与分析,形成季度巡检记录。并将总体的巡检记录提交给设备管理员或业务部门。2.3.6.3 提供健康巡检报告通过对季度巡检发现的故障数据进行分析,结合目前业主方已用的资源与工具,提供完整的健康巡检报告与可行的故障解决方案。解决方案内容需要业主方进行审核。并对存在的问题我方能提供专业技
46、术支持解答。2.3.7 培训服务为了保证设备能在运行中良好工作和人员的运维水平,提供有针对性专业技能培训。使其能够熟练掌握存储设备的维护工作,并能及时有效的解决常见的大部分故障。经培训后能熟练掌握硬件维护工作,并能及时排除大部分的故障。工程技术人员经培训后,除能熟练管理硬件,排除硬件故障外,还应具备能阅读硬件清单,分析硬件故障等工作。2.3.7.1 制定培训服务事项制定培训服务包括以下事项:l 培训的课程安排建议:包括人数、时间、课程、入学要求等;l 培训所需要的教材,课件;l 讲师资料;l 培训场地(由xxx有限公司和xxx有限公司共同商议再定)。l 选择培训方式,集中培训或现场培训。2.3
47、.7.2 培训事项准备工作我方将提供教材、教师、场地,由xxx有限公司参加的培训,如教材较多将选择投影设备或电子资料为主,培训场地将会按照用户的实际情况准备,一般集中在xxx有限公司技术人员所在场地或授权培训中心中进行。2.3.7.3 开展培训课程我方将利用可使用资源为其维护技术人员提供专业的培训课程,其培训课程内容主要以下几个方面:IBM存储知识培训l IBM存储知识培训培训周期为1天,培训对象面向存储产品操作维护/技术支持人员,培训人数控制在10人,学员具体要求:了解计算机硬件基础知识、熟练使用Linux操作系统、具备网络通信基础知识。如完成培训课程可达到了解IBM存储产品的基础知识、了解
48、存储的几种架构以及相关协议的目的l IBM一体机交换机知识培训交换机知识培训主要以交换机产品与工作原理介绍、交换机产品日常维护技术介绍为主,培训周期为1天,培训对象面向存储产品操作维护/技术支持人员,培训人数控制在10人,学员具体要求:了解计算机硬件基础知识、熟练使用Windows操作系统、具备网络通信基础知识。如完成培训课程可达到了解交换机产品的基础知识、了解交换机产品线概况及产品功能、掌握交换机产品日常维护技术的目的。数据库知识培训l Oracle数据库知识培训培训周期为2-3天,培训对象面向Oracle数据库操作维护/技术支持人员,培训人数控制在10人,学员具体要求:了解计算机硬件基础知
49、识、熟练使用Windows操作系统、Linux操作系统、具备网络通信基础知识。如完成培训课程可达到了解Oracle数据库产品的基础知识、掌握Oracle数据库产品日常维护的目的。虚拟化知识培训l HC3虚拟化知识培训培训周期为2-3天,培训对象面向虚拟机操作维护/技术支持人员,培训人数控制在10人,学员具体要求:了解计算机硬件基础知识、熟练使用Windows操作系统、Linux操作系统、具备网络通信基础知识。如完成培训课程可达到了解虚拟化产品的基础知识、掌握H3C虚拟化产品日常维护的目的。2.3.8 数据库故障诊断及检修以Oracle数据库物理结构故障为例,首先要判断问题的起因,如果是硬件故障
50、则首先要解决硬件问题。在无硬件问题的前提下按照下面的处理方发来进一步处理。 2.3.8.1 数据库故障检查数据库出现故障,基本上是由于文件损坏所导致,可以通过安装以下分析方法检查文件损坏的情况:l 检查控制文件损坏情况l 检查损坏的单个控制文件l 检测所有的控制文件l 检测重做日志文件损坏情况l 确定损坏的重做日志的位置及其状态2.3.8.2 数据库文件损坏检修数据库文件损坏后,可通过基本的配置将其修复,可以通过以下方法检修以下位置的错误,具体方法如下:序号检查方法检测步骤1打开数据库并且用适当的方法进行数据库全备份进行数据库全备份2部分数据文件损坏若损坏的数据文件属于非system表空间,则
51、数据库仍然可以处于打开状态可以进行操作,只是损坏的数据文件不能访问。这时在数据库打开状态下可以单独对损坏的数据文件进行恢复。若是system表空间的数据文件损坏则数据库系统会异常终止。这时数据库只能以Mount方式打开,然后再对数据文件进行恢复。可以通过查看数据库日志文件来判断当前损坏的数据文件到底是否属于system表空间。3非system表空间的数据文件损坏(1) 确定损坏的文件名字: (2) 将损坏的数据文件处于offline状态: (3) 从相应的备份结果集中恢复关于这个数据文件的最近的备份。对于没有采用带库备份的点可以直接从磁带上恢复;对于用带库备份的点用相应的rman脚本来恢复。
52、(4) 恢复数据文件: (5) 使数据库文件online: 用适当的方法进行数据库全备份。 4system表空间的数据文件损坏(1) 以mount方式启动数据库 (2) 从相应的备份结果集中恢复关于这个数据文件的最近的备份。对于没有采用带库备份的点可以直接从磁带上恢复;对于用带库备份的点用相应的rman脚本来恢复。 (3) 恢复system表空间: (4) 打开数据库: (5) 用适当的方法进行数据库全备份。 5表空间损坏若非system表空间已经损坏,则数据库仍然可以处于打开状态可以进行操作,只是损坏的表空间不能访问。这样在数据库打开状态下可以单独对损坏的表空间进行恢复。若是system表空
53、间损坏则数据库系统会异常终止。这时数据库只能以Mount方式打开,然后再对表空间进行恢复。可以通过查看数据库日志文件来判断当前损坏的表空间是否是system表空间.6非system表空间损坏(1) 将损坏的表空间处于offline状态: (2) 从相应的备份结果集中恢复关于这个表空间最近的备份。对于没有采用带库备份的点可以直接从磁带上恢复;对于用带库备份的点用相应的rman脚本来恢复。 (3) 恢复表空间: (4) 使表空间online: (5) 用适当的方法进行数据库全备份. 7system表空间损坏(1) 以mount方式启动数据库 (2) 从相应的备份结果集中恢复system表空间最近的
54、备份。对于没有采用带库备份的点可以直接从磁带上恢复;对于用带库备份的点用相应的rman脚本来恢复。 (3) 恢复system表空间: (4) 打开数据库: (5) 用适当的方法进行数据库全备份。8整个数据库的所有文件损坏整个数据库所有文件的损坏一般是在共享磁盘阵列发生无法恢复的灾难时才发生,这种情况下只能对数据库进行恢复。若数据库的归档目录也已经丢失,则数据库不可能做完全恢复,会有用户数据的丢失。2.3.9 系统部署规划我方根据硬件、应用软件环境完成数据库的初步规划、安装配置工作。具体的规划要求按实际情况制定,以下是系统规划的相关内容:2.3.9.1 制定数据库、中间件的部署规划根据硬件、应用软件环境,制定数据库、中间件的安装部署规划。数据库与中间件的资源消耗离不开硬件设备,硬件性能的高低与数据库、中间件性能高低是一致的,因此,首先要调查服务器的硬件、应用软件运行环境与性能。评价服务器的性能好坏,再根据系统运行的需求,制定数据库、中间件的安装部署规划。2
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024中国电信山东济南分公司校园招聘易考易错模拟试题(共500题)试卷后附参考答案
- 2024中国林业集团限公司招聘5人易考易错模拟试题(共500题)试卷后附参考答案
- 2024中国大唐集团江西分公司所属企业招聘12人易考易错模拟试题(共500题)试卷后附参考答案
- 2024中国人民财产保险股份限公司甘肃分公司春季招聘52人易考易错模拟试题(共500题)试卷后附参考答案
- 2024中储粮油脂限公司招聘易考易错模拟试题(共500题)试卷后附参考答案
- 2024上海移动春季校园招聘205人易考易错模拟试题(共500题)试卷后附参考答案
- 2024年度融资借款合同标的和借款条件
- 2024年度店铺客户服务与售后服务合同
- 《产业结构升级》课件
- 2024年度技术开发与转让合同书
- (2024年)AED(自动体外除颤器)使用指南
- 农村法律知识宣传课件
- 体育教育生涯发展报告
- 如何有效落实护理查对制度
- 放射人员辐射安全培训课件
- 社会稳定风险评估 投标方案(技术标)
- 第21届WMO初赛3年级A卷(含答案)
- 上消化道出血临床指南
- 智能马桶设计开题报告
- 防高处坠落安全监理细则范本
- 唐多令芦叶满汀洲
评论
0/150
提交评论