服务器故障处理预案_第1页
服务器故障处理预案_第2页
服务器故障处理预案_第3页
服务器故障处理预案_第4页
服务器故障处理预案_第5页
已阅读5页,还剩6页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、公司信息系统服务器故障应急处理预案(初稿)第一部分服务器故障的处理响应 第二部分服务器硬件故障的诊断和处理 第三部分服务器软件故障的诊断和处理245第一部分服务器故障的处理响应(一)、服务器故障的定义本预案所指的服务器故障是指公司管理信息系统范围内的网络服务器设备的故障。包 括因设备质量原因导致的系统故障、人为因素和网络系统外界因素而导致的系统故障、计 算机病毒感染及遭受黑客或恶意代码攻击而导致的应用系统故障等。涉及本预案的服务器设备包括小型机和pc服务器,设备清册参见附表lo(二)、服务器故障的分类以服务器设备的故障性质和故障可能涉及的范围,按照以下的标准进行分类:服务器硬件故障:服务器硬件

2、故障,包括服务器的底板故障、10板及10设备故障、cpu板及cpu故障、内存板及内存故障、磁盘阵列及磁盘故障以及磁带库故障等。这类 故障将直接影响服务器的正常运行,情况严重的,将使服务器陷于瘫痪状态,基于该服务 器的所有应用将无法正常使用。如杲该服务器承担的是网络的控制和管理职能,将对整个 管理信息系统造成极为严重的影响;如果该服务器承担的是单个或多个应用系统的运行和 管理,那么,这些应用系统将无法提供正常的服务。服务器系统软件故障:服务器的系统软件故障,包括操作系统故障、网络控制和管理 系统故障、集群管理系统故障等等。严重的服务器系统软件故障,同样会使服务器陷入瘫 痪状态。故障造成的影响,视

3、该服务器承担的应用系统的不同而不同,如杲该服务器承担 了网络的控制管理或关键应用职能,将有可能造成非常严重的后果。关键应用服务故障:关键应用服务故障,包括oracle数据库故障、sql server数据库 故障、p1数据库故障、0a故障、web服务故障、邮件服务故障等。这些应用服务软件的 故障,对于相关的应用系统将产生一定的影响,其影响范圉和损害程度随故障的性质和严 重程度而定,严重的,将引起系统瘫痪。(三)、服务器故障响应处理流程故障发现人员信息中心信息中心按预案第二部分内容即故障的分析和服务故障病毒和入侵扫描检查事件日志和服务检查备份的应用软件第二部分服务器硬件故障的诊断和处理一、硬件故障

4、诊断硬件故障的诊断一般是在服务器操作系统无法引导启动的情况下进行,可以通过对主 机bios配置、主板故障指示灯、面板状态屏幕、面板led指示灯提供的信息进行,如条 件允许(如光驱引导启动正常),还应使用设备制造厂家提供的专用诊断软件进行检查和分 析。二、识别硬件故障的方法1. 电源故障。电源故障的现象一般为:电源部件开关在“合”状态、指示灯不亮; 面板状态屏幕不亮;按电源开关机器无反应、主机电源lcd指示灯不亮;无任何报警声。2. 如果在开机后出现错误代码或“哗”声错误信息,则应对照该型服务器的用户手 册中有关的错误信息列表进行判别。3. 如果服务器的前面板有显示主机状态的液晶屏幕,应根据屏幕

5、显示的信息对照用 户手册中相应的内容进行判别。4. 如果服务器的底板、cpu板、内存板上有显示状态的led指示灯,一般都可以 在机箱内找到代表指示灯意义的说明贴纸,可依此进行判别。5. 服务器一般都自带用于对硬件系统进行检测的诊断程序光盘,在服务器可以用该 光盘进行引导启动的情况下,应使用该光盘进行系统测试。三、故障排除顺序1. 如果系统无法上电,可按以下步骤进行操作:(1) 检查以确保电缆和电源线都牢固插进相应的插座。(2) 检查以确保系统所有部分均已打开并已正确调整。(3) 如果服务器电源线插入带开关的多插座接线盒,应确保接线盒上的开关已打 开。(4) 将另一个电气设备电缆或电源线插入电源

6、插座,并打开该设备。(5) 断开电源线,等待20秒,然后再次插入电源线并重新启动系统。2. 如果系统可以上电,但无法完成开机自检测试,可按以下步骤进行操作:(1) 如果系统发出一系列哗声,则表示系统有错误,应参阅该型服务器的用户手 册中的“错误信息”章节进行判别。或与产品供应商联系维修。(2) 如果系统无法运行开机自检测试,且屏幕显示错误信息,应参阅该型服务器 的用户手册屮的“错误信息”章节进行判别。如果手册推荐的方法无法解决 问题,应与产品供应商联系维修。3. 如果系统通过开机自检测试,但不运行,可按以下步骤进行操作:(1) 检查以确保服务器在安装实用程序中配置正确。(2) 如果服务器仍无法

7、工作,应关机并卸下除显示器和键盘以外的所有外围设备。 测试服务器,并注意现在是否正常工作。(3) 如果服务器仍不工作,应关闭显示器、服务器和所有外围设备,然后按(4)条 执行。4. 检查内置硬件:(1) 断开的电源线,卸下服务器主机盖。(2) 检查所有附件板是否牢固地固定在各自的插槽屮。(3) 确保所有磁盘驱动器电源电缆和数据电缆已牢固并正确地联接。使用机内配 置的布线和开关配置图,查对海量存储器配置。(4) 检查并确保内存条和内存扩展板牢固地固定在各自的插槽屮,且添加的内存 条符合要求。(5) 重新装上服务器盖板,并锁定系统。(6) 重新装上所有电源线和电源电缆。(7) 打开服务器电源,查找

8、错误信息。(8) 经以上步骤检查,仍无法得到有意义的错误信息,应与产品供应商联系维修。第三部分服务器软件故障的诊断和处理一、服务器软件故障分析和诊断软件故障分析和诊断主要通过对主机运行状况、服务与进程、网络连接状况、系统端 口、事件日志记录进行检查,这种检查的必要条件是服务器操作系统可以引导启动,并可 以提供相应的检查界面。1. 主机运行状况的检测服务器主机的cpu、内存、磁盘的使用情况对服务器的性能影响很大,如果出现问题, 将直接影响到服务器的正常运行,进而对服务器上正在运行的重要的应用系统带来不可预 料的后杲。因此,处理服务器软件故障前,对主机的cpu、内存、磁盘资源使用情况进行 检测是一

9、个非常重要的步骤,往往可以在第一时间发现主机基本性能的状态异常。在windows平台上,一般使用任务管理器中的“性能”选项卡检测主机cpu和内存 的运行状况,使用资源管理器检查磁盘的使用情况,检查要点为: cpu使用值,一般不会持续超过50%; 内存“认可用量总数”持续超过“物理内存总数”会引起系统性能下降; 内存“认可用量峰值”持续接近“认可用量限制”,系统将有崩溃的危险; 任何装有运行系统的磁盘的可用空间趋近于零,系统将停滞或有崩溃的危险。 装有操作系统的磁盘(一般为c:)的可用空间不应低于磁盘分区总容量的15%, 根据实际的运行观察,当服务器c盘可用空间小于50m时,系统的运行将进入 不

10、稳定状态。2. 服务、进程管理的检测服务器主机上的服务和进程主要来自二个部分,一是操作系统本身提供的系统服务和 进程,这些服务的功能和状态在windows的服务列表中有比较详细的描述,这些服务的异 常,系统一般会给出比佼明确的错误提示。另一部分是应用系统的服务,服务器上往往运行着非常重要的应用系统,例如大型的 数据库系统、mail系统、web server或特殊业务的应用系统等。应用系统的进程和服务是 否正常运行是判断应用系统是否正常的关键,如果这些关键的进程和服务己经停止,则应 用系统肯定无法正常工作。监测服务器上的进程和服务是服务器管理的一个重点,对于进程的监测尤其重要,检 查的要点为:

11、有无可疑的进程活动; 有无不显示进程标识符(pid)的进程活动; 有无不显示映象名称的进程活动; 有无不显示用户名或显示非法用户名的进程活动; 有无大量占用cpu的进程; 有无大量占用内存的进稈; 有无gdi对象异常的进程。3. 网络状况检测服务器网络组件的运行状况是服务器能否维持正常的网络访问和提供正常的网络服务 的一个关键。在服务器运行异常时必须检测服务器网卡的配置情况是否正常,最简单的测 试是在dos提示符下运行ipconfig /all命令,察看各个网络连接当前的配置状态。使用网络监视器可以获得更多的信息,在网络监视器的实时部分,主要监视网络利用 率、每秒帧数、每秒字节数、每秒广播、每

12、秒多播等指标,在捕获统计中,主要监视缓冲 区里的帧、当缓冲区超出限制吋帧的丢失数、缓冲区利用率、丢失的帧数等指标。当发现以上指标有异常,应进一步对捕获的数据帧进行分析,此时应特别注意查寻有 无源地址或目标地址异常的帧,有无协议异常的帧。4. 系统端口检测网络屮的服务器系统通常会提供一系列的服务给网络屮的其他机器进行访问和使用, 这些服务都是通过一些指定的端口进行通讯的,所以系统业务端口的正常与否对于系统业 务有直接的影响。对服务器的系统业务端口的检测可以在dos提示符下使用netstat命令,该命令随带 的参数所表示的意义如下:-a显示所有连接和监听端口。-b显示包含于创建每个连接或监听端口的

13、可执行组件。在某些情况下已知可执行组件拥有多个独立组件,并且在这些情况下包含于创建连接或监听端 口的组件序列被显示。这种情况下,可执行组件名在底部的中,顶部 是其调用的组件,等等,直到tcp/ip部分。注意此选项可能需要很长时 间,如果没有足够权限可能失败。-e显示以太网统计信息。此选项可以与-s选项组合使用。-n以数字形式显示地址和端口号。-o显示与每个连接相关的所属进程id。-p proto 显示proto指定的协议的连接;proto可以是下列协议之一:tcp、udp、 tcpv6或udpv6o如果与-s选项一起使用以显示按协议统计信息,proto 可以是下列协议之一:ip、ipv6、ic

14、mp、icmpv6、tcp、tcpv6、udp 或 udpv6。-r显示路由表。-s显示按协议统计信息。默认地,显示ip、ipv6、icmp、icmpv6、tcp、tcpv6、udp和udpv6的统计信息;-p选项用于指定默认情况的子集。-v 与-b选项一起使用吋将显示包含于为所有可执行组件创建连接或监听端 口的组件。interval 重新显示选定统计信息,每次显示之间暂停时间间隔(以秒计)。按 ctrl+c停止重新显示统计信息。如果省略,netstat显示当前配置信息(只 显示一次)对于unix服务器,可通过connect系统业务端口,发送请求,以监测端口是否能够 响应。5. 日志检查服务器

15、上的应用系统或重要进程运行时会产生大量的日志文件,这些日志文件对于检 查程序运行状态、查找程序出错原因很有帮助。对于windows平台上,可使用的日志系统是管理工具中提供的“事件查看器”,其中包括了系统日志、应用程序和安全性日志,需要重点关注的是“错误”和“警告”。另外,服务器上运行的应用程序也会提供相应的日志系统,其提取日志的方法因应用 系统的不同而不同,可参照相关的用户手册进行。在unix平台上,日志是以文件的形式存放,不同版本的unix 0志文件的目录是不同 的,在solaris下一般是在unix/var/log,在aix下,需要关注的日志文件有:文件描述建议core 和 snapcor

16、e由应用产生的dump文件,可用于诊 断错误可删除no hup.outnohup命令的输岀结果可删除.xeitorsxii的输出结果可截短mbox用户邮箱屮的邮件可截短smit.log 和 smit.script用户使用smit命令后的日志可适当保留最后1000行, 或删除/var/adm/wtmp记录用户的登录信息,是二进制文 件,用who命令来阅读其内容根据需要保留60天屮有 用的内容,其余删除/etc/security/failedlogin记录用八失败的登录信息,是二进制 文件,用who命令来阅读其内容可根据需要保留60天小 有用的内容,其余删除/var/adm/sulog用户使用su

17、命令的日志可根据需要保留60天中 有用的内容,其余删除/var/adm/cron/logcron 的日志可截短/var/tmp/snmpd.logsnmp监控进程日志可截短/var/tmp/dpid.log /var/tmp/dpid2. log /var/tmp/hostmidb.log /var/tmp/muxatmdsnmp子系统日志可截短dead.letter未成功的邮件可删除trcfile trace实用程序的输出可删除/var/adin/messages用于记录syslog进程的日志可适当保留最后1000行, 或删除/etc/shutdown.log系统关机过程日志,用shutdo

18、wn -1 命令产生可适当保留最后1000行, 或删除二、服务器软件故障的处理服务器的故障中,大部分是软件故障。软件故障对于服务器稳定运行的影响很大,严 重时将引起整个系统崩溃。一般常见的软件故障主要有操作系统文件损坏或丢失、设备驱 动程序错误或损坏、服务进程不能启动、网络地址配置错误或丢失,以及应用系统软件方 面的程序出错等等。1. 操作系统故障的处理对于windows系统,如果操作系统故障前对操作系统有过不适当的修改而无法复原, 或发现系统提示缺少必须的文件、提示某些文件错误等情况,在排除服务器感染病毒的可 能以后,应即使用升级安装对操作系统进行恢复。升级安装之前,应对重要的配置文件和数据

19、文件进行备份或加适当的保护。一般情况下,重要的数据文件不宜置于安装操作系统的磁盘(如c:盘)。在备份时, 应尽量将这些重要文件置于具有安全保护的机器上。当升级安装无法恢复系统时,可以考虑全新安装操作系统,安装完成应注意打好补丁。 然后进行应用系统的恢复。对于unix操作系统的故障,当无法在短时间内找到故障原因和处理方法时,应立即 与系统服务商的技术支持人员联系。对由于病毒感染引起的操作系统故障,可参照反病毒处理预案处理。2. 系统服务进程的故障处理系统服务进程故障吋,应检查“服务”中相应的服务项,检查要点有:状态、启动类 型、登录身份、服务失败时计算机的反应,以及该服务所依赖的系统组件是否己经正常启 动。如有异常,应根据情况作相应处理。无异常后,可启动该进程,并作进一步检查。如该进程的状态在“已启动”,检查上述项目无异常的,可重新启动该服务,并作进一 步检查。经上述处理仍无法消除故障吋,可进入“控制面板/添加或删除程序/添加或删除 windows组件”,检查与故障的服务相对应的组件是否被钩选,如已被钩选,可先将其収 消后,再次钩选重装。对于应用系统的服务故障,应检查分析该软件的错误日志,根据分析的结果采取相应 的措施。必要时,应重装应用系统。3. 设备驱动程序故障处理设备驱动程序故障时,将引起相关设备的异常运行,其故障现象类似于硬件故障,情 况比较复

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论