集中备份系统应急方案_第1页
集中备份系统应急方案_第2页
集中备份系统应急方案_第3页
集中备份系统应急方案_第4页
集中备份系统应急方案_第5页
已阅读5页,还剩11页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、集中备份系统应急方案6/6/2017目录 TOC o 1-5 h z HYPERLINK l bookmark24 o Current Document 前言1 HYPERLINK l bookmark28 o Current Document 数据库日志备份应急措施1 HYPERLINK l bookmark32 o Current Document Oracle数据库的应急处理方法 1 HYPERLINK l bookmark38 o Current Document Informix数据库的应急处理方法2 HYPERLINK l bookmark54 o Current Document

2、 集中备份系统故障应急措施3 HYPERLINK l bookmark58 o Current Document 障分类3 HYPERLINK l bookmark67 o Current Document 带库硬件故障应急步骤及恢复策略4带库单点故障4驱动器故障6驱动器卡带故障8 HYPERLINK l bookmark103 o Current Document 备份软件故障应急步骤及恢复策略8备份客户端软件故障8备份服务器备份服务启不来9 HYPERLINK l bookmark127 o Current Document 备份服务器硬件故障10备份服务器硬件故障应急步骤及恢复策略10

3、HYPERLINK l bookmark138 o Current Document 光纤交换机故障应急步骤及恢复策略10光纤交换机个别端口故障10光纤线有问题11 HYPERLINK l bookmark150 o Current Document 网络故障应急步骤及恢复策略11 HYPERLINK l bookmark162 o Current Document 主机HBA故障11前言集中备份系统由IBM 3584带库/STK L1400、SYMANTECInetbackup备份软 件、SYMANTEC|netbackup备份客户端、光纤交换机,IBM备份服务器等组成。 其中由于3584带

4、库及L1400带库属机械设备,存在出现机械故障的风险点,还 有其他组件也存在出现故障的可能性;现针对集中备份系统可能出现的故障点, 为后期备份系统的进一步完善,特制定本应急方案。说明:以下操作步骤如果没有特殊说明都是由备份管理员操作.数据库日志备份应急措施针对Oracle ,Informix数据库在线备份,都需要打开归档功能做日志备份.如 果备份系统出现问题,不能进行日志备份的话,需采取如下应急措施:Oracle数据库的应急处理方法目前集中备份系统使用ORACLE数据库的业务为ODSB,且归档日志与 ODSB项目组确认后是可以删除的,清理日志的机制已下发分行。如分行有特色 系统使用ORACLE

5、数据库且已经加入集中备份系统:1、保留归档日志方法一.可更改归档日志生成路径,但确保更改后的文件系统足够大。命令举例:Archive Mode Enabled /uOl/logdir 14 16 16SQL archive log list; Database log mode Automatic archival Archive destination Oldest online log sequence Next log sequence to archive Current log sequence SQLSQL alter system set Iog_archive_dest=/u0

6、1/logdir2/ scope=both;System altered*方法二.当归档日志文件系统使用率达60%,可将归档日志拷贝、转移到其他 文件系统(本机或异机)。2、不保留归档日志数据库管理员可使用rman命令删除归档日志(不要直接使用rm命令删除), 命令举例:L or a cl eo r a 1 门丰 rni an target / nocatal og ;Recovery Managst: ReleasA 10+210 + 1 + U - Pruduction on Fri Sep 11 09:59:36 2009Copyright (c) 1982, 2005, Oracle+

7、 All rights reserved+connected to target database: TEST (DBID=1370G01434)using target database control file instead of recovery catalogRMANRMANRMAN CROSSCHECK ARCHIVELOG ALL;allocated channel: URA_LHSK_1channel URA_ElISK_ 1: sid=15y de1.,.1 type=EU SKvalidstion succeeded for archived logarchive log

8、fi 1 ename= ZuO 1 /oracie/f 1 ash_recovery_area/TEST /archiyelog/2009_09_ll/ol_r DELETE NOPROMPT ARCHIVELOG ALL;released channel: ORA_DISK_1allocated channel: ORA_DISK_1channel LiRA_DISK_ 1: sid=153 de1-,.1 type=EU SKList of Archived Log CopiesKeyTh rd Seq S Lui.i T ime Nanis112A 1 l-SEP-09 /u01/ora

9、cie/flash_recovery_area/TEST /archivelog/2009_09_ 11 / l_rnf_l_ 12_5bmcq2v4_ + arc113A ll-SEF-Oy /u01 /oracie/flash_reco1.,1 ery_.=irea/TEST /archi*巳 1 口,日。心9_09_ 11/ul_rnF_l_13_5lzirncqdn:i_ + arcdeleted -archi|.,.1 e logarchive log fi1ename=/u01/oracie/f1ash_recovery_area/TEST/archivelog/2009_09_l

10、l/ol_mf_l_12_5bmcq2y4_4arc recid=58 stamp=697283938deleted archin1 e lugarchive log Fi1ename=/u01/oracie/Flash_recovery_area/TEST/archivelog/2009_09_11/ol_mf_l_13_5bmcqdn9_4arc recid=59 stamp=697283948Deleted 2 oljjectsRMAN exitRecovery Manager coniplete +E oracieora1 门车如果希望归档日志自动清理,请参照ODSB归档日志自动清理机

11、制。Informix数据库的应急处理方法参数配置前提针对重要系统informix数据库的逻辑日志采用 onbar进行备份时,目前的LTAPEDEV通常设置为一个文件,不能是null。故障现象当日志无法备份时,从数据库的角度,出现大量未备份的日志,(U-),最终导致日志被用满,数据库的日志出现错误故障处理步骤1、停止带库备份软件进程(如果临时应急时间很短,可以考虑不停止)2、检查系统中是否有挂起的onbar进程,如果存在,kill杀掉该进程(如果该进程僵死,存在杀不掉的可能)3、查看目前onconfig中的LTAPE配置参数LTAPEDEV /home/db/informix/log.bak #

12、 Log tape device pathLTAPEBLK 32# Log tape block size (Kbytes)LTAPESIZE 102400# Max amount of data to put on log tape (Kbytes)察看当前的LTAPEDEV所配置的文件是否存在咨询具体负责人,是否要保留日志不保留日志:1、将/dev/null链接到具体的文件上,以上图为例,ln -s /dev/null /home/db/informix/log.bak2、修改onconfig参数ALARMPROGRAM所指向的文件,即逻辑日志备 份脚本,将 BACKUP_CMD=onba

13、r -b -l改为 BACKUP_CMD=ontape -a3、再次确认所有onbar进程已经被kill掉4、通过onstat -l监控目前日志的变化情况注:此过程无需重启informix数据库。保留逻辑日志:1、可将逻辑日志备份至本地磁带机或文件系统,如果备份至文件系统需 保证文件系统空间(逻辑日志落地空间)充足;2、在有空间的文件系统创建一个文件(权限:660; informix:informix), 并将文件链接到LTAPEDEV所指向的文件,或将LATPEDEV指向磁 带机设备;3、修改onconfig参数ALARMPROGRAM所指向的文件,即逻辑日志备 份脚本,将 BACKUP_C

14、MD=onbar -b -l改为 BACKUP_CMD=,再 直接运行ontape -c,这个命令的作用是是连续不断地备份数据库逻辑 日志,只需要运行一次,一直挂界面上运行,或则放在后台运行;4、再次确认所有onbar进程已经被kill掉,并使用onstat -l查看日志状 态;5、对已经备份出来的日志进行妥善保管,以应对紧急情况下的日志回 滚,并加强对文件系统空间使用率监控。注:此过程无需重启informix数据库。集中备份系统故障应急措施3.1.故障分类(1)带库硬件故障(A.机械臂,B.控制面板,C.IO Station,D.MCP卡(负责磁带机 通讯),E.ACC卡(控制机械臂的电路板

15、)等单点故障、驱动器故障)(2)NBU备份软件故障(备份客户端软件故障、备份服务器备份进程异常)(3)备份服务器故障(备份服务器硬件故障)(4)光纤交换机故障(光纤交换机个别端口故障、光纤线有问题)(5)网络故障(网络不通)(6)主机HBA故障根据故障的业务影响面不同,我们把故障定义为以下三类:一般故障:只影响个别备份客户端,影响不大;严重故障:涉及部分备份客户端,影响一般;备份停业:最严重的一种故障,导致备份系统瘫痪。故障分类细分类备份停业严重故障一般故障带库硬件故障带库单点故障.驱动器故障.备份软件故障备份客户端软件故障.备份服务器备份进程异常.备份服务器故障备份服务器硬件故障.光纤交换机

16、故障光纤交换机个别端口故障.光纤线有问题.网络故障网络故障.主机HBA故障主机HBA故障.带库硬件故障应急步骤及恢复策略带库单点故障由于磁带库只有一个A.机械臂,B.控制面板,C.IO Station,D.MCP卡(负 责磁带机通讯),E.ACC卡(控制机械臂的电路板)等部件,如果以上任一部 件有故障,整个备份系统就会瘫痪,影响非常严重。(1)带库单点故障应急步骤第一步:在备份服务器管理界面上,将所有的文件、数据库0级备份 的policy “dactive” ;具体操作步骤如下:以管理员身份登陆 Netbackup Administration Console 界面将 “Active.Go i

17、nto effect at:”前的 “v”带库故障并不影响逻辑日志备份至磁盘存储单元,避免因排查故障而频繁 重启备份服务器NBU进程及操作系统,导致逻辑日志堆积;第二步:如果修复时间不超过8个小时,先通知各系统管理员密切关 注数据库逻辑日志使用情况、逻辑日志落地文件系统的使用率,达到50% 发出通知,提前采取应急措施.各系统管理员需要实时监控各数据库日志、日志文件系统使用情况:Informix数据库逻辑日志使用情况使用$onstat -l查看Informix数据库落地日志文件系统使用#df-g查看Oracle数据库日志文件系统使用#df-g查看如果日志达到50%,请数据管理员先将日志文件移到空

18、闲的文件系 统上.第三步:如果维修的时间过长,逻辑日志或存放日志的文件系统就会 出现满的情况,这时数据库就会宕机或归档日志就不能正常备份,就要采 取日志抛空或转移,详见第二章数据库日志备份应急措施.(2 )恢复策略第一步:带库单点故障部件修复好了,在带库面板上做取带、退带操 作测试;选择某一磁带load到驱动器中;Mount成功后,选择驱动器做umount操作Load,unload都操作成功的话,说明带库已经正常.第二步:备份管理员在备份服务器上启动备份服务;第三步:备份管理员在备份服务器管理界面上将置为“inactive”的备 份策略,置成“active” ;驱动器故障如果出现个别驱动器不能

19、读写的故障,首先检查是否是链路的问题(光 纤线、交换机端口故障)如果确实是驱动器故障的话,需要更换驱动器。其具体的检查方法为:如果驱动器有问题的话,在备份服务器的日志中会有报某个驱动器使用 有问题的信息同时在操作系统的系统日志中也会有相关报错信息.(1)应急步骤第一步:如果驱动器有故障,NBU备份软件会自动将其状态设置为 “down”,也可以手工操作:在管理界面 “media and device management w “device monitor”中选中有故 障的驱动器,右键“down drive”第二步:通知IBM工程师更换有故障的驱动器;如果是3584带库的第 一个驱动器坏掉,需要

20、将机械手的光纤通路切到其余驱动器上,并在备份软件上 配置相应的ovpass,详见IBM 3584带库机械手多路冗余配置方法第二步:在管理界面 “media and device management” “device monitor” 中选中已更换的驱动器,右键up drive”第三步:备份管理员在备份管理界面上发起备份或新建测试用备份策 略验证驱动器是否工作正常。驱动器卡带故障如果出现所使用驱动器卡带的情况,采取以下应急及恢复策略:(1)应急步骤第一步:备份管理员在备份管理界面上先停止相关项目的备份作业;具体操作步骤如下:第二步:备份管理员在带库管理界面或液晶面板上弹出卡带的磁带;第三步:和

21、系统管理员协商补备时间,由备份管理员再次发起备份任 务;恢复策略通过以上应急步骤问题解决后,备份作业就能正常进行了.通过检查 统计备份服务器日志,分析是磁带的问题还是驱动器问题,确认后进行 更换.备份软件故障应急步骤及恢复策略备份客户端软件故障(包括client及media server)备份客户端软件发生问题,导致本机不能进行数据库及日志的备份。应急步骤第一步:联系备份软件厂商,如果一时无法定位问题,可考虑在主机 上删除备份软件及驱动程序,重装备份客户端。安装删除步骤详见第二步:如果不能通过LANFree备份,先考虑通过网络备份。恢复策略当故障排除后,恢复原有配置;如原来为LAN_FREE备

22、份方式,当前为 LAN,需重新安装配置media server端。备份服务器备份服务启不来备份服务器备份服务无法启动,不能进行正常工作。此问题非常严重。(1)应急步骤第一步:如果可以的话在备份服务器管理界面上,将所有的备份策略为 “inactive” ;第二步:如果修复时间不超过8个小时,先通知各系统管理员密切关注 数据库逻辑日志使用情况、逻辑日志落地文件系统的使用率,达到50% 发出通知,提前采取应急措施.各系统管理员需要实时监控各数据库日志文件系统使用情况:Informix数据库逻辑日志使用情况使用$onstat -l查看Informix数据库落地日志文件系统(一般为/home/ap/ns

23、rdboxx )使用#df-g查看Oracle数据库日志文件系统(一般为/home/db/orarchxx )使用#df-g查看如果日志达到50%,请数据管理员先将日志文件移到空闲的文件系 统上.第三步:如果维修的时间过长,逻辑日志或存放日志的文件系统就会 出现满的情况,这时数据库就会宕机或归档日志就不能正常备份,就要采 取日志抛空或转移,详见第二章数据库日志备份应急措施.(2)恢复策略当备份软件问题解决后,第一步:备份管理员在备份服务器上启动备份服务;第二步:备份管理员在备份管理界面上“active”所有的policy;备份服务器硬件故障备份服务器硬件故障应急步骤及恢复策略如果由于备份服务硬

24、件故障,如HBA卡、网卡、本地硬盘等出现问题,导 致不能提供正常的备份服务。(1)应急步骤第一步:备份管理员将备份服务进程停下来;第二步:备份管理员在备份服务器上做HA切换,接管正常的备份服 务;如果是服务器硬件或网络问题,HA会自动切换.没有发 生切换的话,在备机上启动资源组.(2 )恢复策略当备份服务器硬件正常后,备份管理员在备份服务器上做HA切换, 接管正常的备份服务。光纤交换机故障应急步骤及恢复策略光纤交换机个别端口故障如果光纤交换机个别端口出现故障,影响正常备份,照以下应急步骤处理:(1)应急步骤第一步:如果是备份服务器连接存储(disk storage unit)的光纤通路中断, 首先进行HA切换,如

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论