数据库切换故障案例分析_第1页
数据库切换故障案例分析_第2页
数据库切换故障案例分析_第3页
数据库切换故障案例分析_第4页
数据库切换故障案例分析_第5页
已阅读5页,还剩17页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据库切换故障案例分析-ISD白彦涛\o"Xianzhi.He(17032053)"Xianzhi.He-06-1811:47:08回复转载到\o"gonewithwind"gonewithwind\o"人品天堂家族"人品天堂家族\o"电子技术"电子技术\o"esports海涛菜鸟群4群"esports海涛菜鸟群4群\o"志同道合"志同道合\o"广东省直真网管"广东省直真网管\o"广东项目组(公司)"广东项目组(公司)数据库切换故障案例分析-06-10北京直真节点技术开发有限公司BeijingZZNodeTechnologiesDevelopmentCo.,Ltd.称目录1.案例背景

22.案例概述

23.操作过程

23.1:数据准备

23.2:查看切换状态

23.3:及时恢复

23.4:查看数据库运行状况

24.拟定故障案例因素

24.1INFOR切换到备机上出现启动异常

24.2/OPT/DBNM下自动生成.SH_HISTORY文献造成数据库MC切换失败

24.3及时恢复数据库到主数据库服务器启动失败

25.解决故障案例恢复数据服务

25.1准备以前备份数据库数据(全库备份文献)

25.2数据库初始化

25.3创立数据库

25.4数据导入

25.5启动应用

26.案例分析

26.1服务器操作系统备份

26.2数据库备份

26.3主业务应用采集备份

26.4测试(备)系统搭建

26.5总结

21.案例背景传输综合网管二期二阶段整建期间,升级MC软件后,进行数据库双机切换失败,现在数据库单机运行。为满足数据库安全运行规定,提供服务器故障无影响提供传输综合网管服务,进行MC双机数据库切换测试。测试中出现数据库chunks文献PD无法拉起,无法正常访问,造成数据库不能提供数据服务。因此,局方贾工、HP工程师高鹏、集成商厂家马立伟、白彦涛全力进行本次MC双机切换测试。2.案例概述申请于-11-19日晚12:00至-11-20日早5:00间进行数据网MC双机切换测试。实施前我们已经做好数据库全库备份工作,方便出现腹胀并配备好热备服务器的informix数据库环境,MC手动切换数据库到热备服务器上,监测启动与否正常。但在MC切换过程中,造成chunks文献无法读取,数据库启动失败。3.操作过程-11-20日00:20分开始进行MC切换3.1:数据准备准备工作:提前和informix厂家、HP厂家拟定MC双机切换时间,方便为出现异常问题时,能得到第一时间支持解决。提前和HP拟定切换MC方案,并拟定一旦发现MC切换失败,则及时恢复到现在数据库葬主服务器运行状态,确保能在最短时间内恢复应用使用。MC切换前5个小时,做好数据库全库备份工作,方便意外状况发生减少数据丢失。审核infor双机配备环境,确保主备服务器参数配备一致(以前已经和infor夏工确认过),并修改数据库内核参数和主数据库服务器一致。3.2:查看切换状态手动切换双机从主数据库服务器到热备服务器。cmrunpkg到热备服务器切换成功,但数据库启动3秒后停止运行查看状态出现:informix@tnmsbak1:/opt/dbnm#onstat-sharedmemorynotinitializedforINFORMIXSERVER'tms_db'3.3:及时恢复发现切换不成功,及时从备份服务器切换到主数据库服务器,启动数据库正常,检查没有问题。(前提是无人访问主数据库服务器,使之不能在/opt/dbnm下出现.sh_history的文献否则将造成该目录忙而引发无法挂载盘阵并正常启动数据库)3.4:查看数据库运行状况三次检查热备服务器参数等后拟定符合infor规定,再次mc切换,仍然出现2的状况,而后及时切换到主数据库服务器,数据库启动正常,启动主业务应用无法启动,检查数据库发现其中一chunks文献出现PD状态,c00000013ef047e814

9

0

9999500

0

PD-B-/opt/dbnm/lnkdev/datadbs214.拟定故障案例因素-11-20日:03:00将出现问题上报并协调infor厂家协助解决。4.1infor切换到备机上出现启动异常故障现象:手动切换数据库到热备服务器后,onstat–显示数据库启动正常:informix@tnmsdb:/opt/dbnm#onstat-IBMInformixDynamicServerVersion11.50.FC5

--On-Line--Up15:38:41--8134840Kbytesonstat–m显示最后20行日志信息:00:52:55

On-LineMode00:52:56

SCHAPI:StarteddbSchedulerthread.00:52:57

BootingLanguage<spl>frommodule<>00:52:57

LoadingModule<SPLNULL>00:52:57

SCHAPI:Started2dbWorkerthreads.00:53:08

kaio.c,line2231,thread51,procid11647,kaiothread()ERROR.00:53:08

FatalerrorinADMVPatmt.c:1385500:53:08

Unexpectedvirtualprocessortermination,pid=11647,exit=0x10000:53:08

PANIC:Attemptingtobringsystemdown00:53:08

semctl:errno=2200:53:08

semctl:errno=22显示出错约过3秒全部时间,查看数据库状态:onstat–显示:informix@tnmsbak1:/opt/dbnm#onstat-sharedmemorynotinitializedforINFORMIXSERVER'tms_db'此时数据库已经宕掉。故障分析:已经将当时出错的online.log文献提交infor工程师,并远程协助解决。现在无法拟定切换到热备服务器上重启后数据库自动停止运行确实切因素。后重新拟定热备服务器和主用服务器有关参数问题:要安装HPKAIOdriver"asyncdsk"并链接到核心。确认为该操作系统本身参数未配备所致。而此项内容在MC切换测试前,邮件和informix厂家确认需要修改参数内容时,始终未提及。解决故障:安装HP:KAIOdriver"asyncdsk",并链接到核心。然后做双机切换。初步拟定:待下次双机切换测试时,确保局方、informix厂家、HP厂家、集成商等全部在场,确保出线异常,第一之间排除解决。4.2/opt/dbnm下自动生成.sh_history文献造成数据库MC切换失败故障现象:当从热备服务器手动切换回主数据库服务器时,由于数据库安装目录存在.sh_history文献,致使该目录忙,无法挂载盘阵,造成数据库无法挂载并启动。informix@tnmsdb:/opt/dbnm#pwd/opt/dbnminformix@tnmsdb:/opt/dbnm#ls-al-rw

1informix

informix

345411月20日20:55.sh_history故障分析:由于该文献统计了曾经登陆到该服务器所做的命令操作信息,致使该文献处在始终在用状态,造成数据库途径忙碌,无法挂载数据库盘阵。如果不登陆服务器本身,便不会产生该文献,进而不会影响MC双机磁盘空间挂载。解决故障:已经提交HP厂家,现在没有明确解决方案。但建议尽量不要登陆数据库服务器本身,这样便不会产生.sh_history,也不会影响MC双机切换正常切换4.3及时恢复数据库到主数据库服务器启动失败故障现象:发现切换到热备数据库失败后及时恢复,切换到主数据库,数据库启动正常,启动应用程序失败,检查因素排除应用程序因素,检查数据库,发现库tnsmdb2无法访问,访问是出现:dbaccess回车后进入,选择我们的库回车显示:311:Cannotopensystemcatalog(systables).

155:ISAMerror:PrimaryandMirrorchunksarebad

Onstat–d检查chunks文献,出现PD状态:Chunksaddress

chunk/dbs

offset

size

free

bpages

flagspathnamec00000013ef047e814

9

0

9999500

0

PD-B-/opt/dbnm/lnkdev/datadbs21HP判断该磁盘处在读写状态,在用,且很正常。故障分析:提交informix厂家工程师,和IBM工程师远程协助解决,现在诊疗拟定因素在:当MC切换数据库**,由于不能正常切换数据库,出现IO错误,底层chunks文献数据受影响,造成逻辑序列数据发生变化,以致在数据库启动时请求对该chunks文献读取是无法对的读取其信息,所做请求失败。可能的因素是磁盘设备出现问题、chunks文献所使用裸设备不存在、该链接设备不存在等问题,造成该chunks文献为PD状态。经IBM工程师测试拟定:ddif=/opt/dbnm/lnkdev/datadbs21of=/dev/null

bs=k写入该chunks文献数据显示能正常写入,阐明该chunks文献存在,且磁盘设备经HP厂家确认为正常。现在IBM拟定该问题引发因素:出现IO错误,底层chunks文献数据受影响,造成逻辑序列数据发生变化,以致在数据库启动时请求对该chunks文献读取是无法对的读取其信息,所做请求失败故障解决:IBM和informix厂家合力解决该chunks文献仍拉起无果,建议:1):重新初始化数据库:oninit–iv将数据库库文献重新初始化(会造成数据全部丢失)2):重新建库:

dbaccesssysmastercreatedatabasetnmsdb2indatadbs;

3):将以前备份的数据库数据导入新建数据库中loadzz.shtnmsdb2tnmsdb2fulldb风险:由于数据备份方式单一,备份数据寄存位置存在安全隐患,不能确保备份数据的完整性和导入数据的完整性。备注:根据以上状况分析,KAIO参数问题:--此参数服务器本身没有打开造成1:HP服务器操作系统本身有一种KAIO参数,HPKAIOdriver"asyncdsk"并链接到核心2:我们数据库的环境变量有一种有关此调优的参数:此参数在数据库的环境变量中是打开的。KAIOON=1exportKAIOON3:在和informix的邮件中,拟定需要修改参数时,并为涉及到服务器本身KAIO参数。4:操作过程中,当拟定该参数时,HP工程师问到该参数,并已得到我们的回复是:环境变量中该参数也已打开,但并未提及服务器操作系统本身的KAIO参数。本次数据库切换至主数据库服务器后无法提供正常的数据库服务,因素在于:MC双机切换,出现IO错误,底层chunks文献数据受影响,造成逻辑序列数据发生变化,以致在数据库启动时请求对该chunks文献读取是无法对的读取其信息,所做请求失败,造成该数据库chunks文献处在宕机PD状态,无法拉起。5.解决故障案例恢复数据服务由于数据库无法正常提供服务,chunks文献时钟无法拉起,进入应急方案5.1准备以前备份数据库数据(全库备份文献)传输综合网管每次测试升级前都会做数据库全库备份,寄存途径:informix@tnmsdb:/opt/dbnm/数据库备份脚本/tnmsdb2/record该途径下存在MC双机测试前全库备份数据,存在形式是一张表存在:rw-r--r--

1informix

informix

514811月19日10:00ems-rw-r--r--

1informix

informix

11月19日16:24ems_clear_event-rw-r--r--

1informix

informix

1518358011月19日16:19ems_event此为表名称,可单独一张表导入数据库,也可启动导入脚本,进行全库数据表导入。5.2数据库初始化Oninit–iv进行数据库初始化,并删除数据库库文献和数据:informix@tnmsdb:/opt/dbnm#oninit-sivThisactionwillinitializeIBMInformixDynamicServer;anyexistingIBMInformixDynamicServerdatabaseswillNOTbeaccessible-Doyouwishtocontinue(y/n)?yCheckinggroupmembershiptodetermineserverrunmode...succeededReadingconfigurationfile'/opt/dbnm/etc/onconfig.tms_db'...succeededCreating/INFORMIXTMP/.infxdirs...succeededCheckingconfigparameters...succeededAllocatingandattachingtosharedmemory...succeededCreatingresidentpool1074200kbytes...succeededAllocating4000016kbytesforbufferpoolof2Kpagesize...succeededCreatinginfosfile"/opt/dbnm/etc/.infos.tms_db"...succeededLinkingconffile"/opt/dbnm/etc/.conf.tms_db"...succeededInitializingrheadstructure...succeededWritingtoinfosfile...succeededInitializationofEncryption...succeededInitializingASF...succeededInitializingDictionaryCacheandSPLRoutineCache...succeededBringingupADMVP...succeededCreatingVPclasses...succeededOnlining14additionalcpuvps...succeededOnlining2IOvps...succeededForkingmain_loopthread...succeededInitializingdataskipstructure...succeededCheckingfortemporarytablestodrop...succeededForkingonmode_monthread...succeededCreatingperiodicthread...succeededVerboseoutputcomplete:mode=1初始化数据库完毕,现在数据库为无数据库新建库5.3创立数据库创立数据库日志文献:onparams-a-dlogdbs-s400000增加chunks文献:onspaces-adatadbs1-p/infordata/informix/chunks/datachk4-o0-s0000检查数据库状态:informix@tnmsdb:/opt/dbnm#onstat-dIBMInformixDynamicServerVersion11.50.FC5

--On-Line--Up00:04:16--8134840Kbytesc00000013ef035f814

9

0

10000000

9999997

PO-B-/opt/dbnm/lnkdev/datadbs21重新读取和加载该chunks文献后恢复正常,为PO状态。创立数据库:dbaccesssysmastercreatedatabasetnmsdb2indatadbs5.4数据导入

在该目录下:informix@tnmsdb:/opt/dbnm/数据库备份脚本执行数据库导入脚本:loadzz.shtnmsdb2tnmsdb2fulldb则将以前备份到:/opt/dbnm/数据库备份脚本/tnmsdb2/record目录下的全库数据文献导入到新建tnmsdb2库中

数据导入完毕后进行整个数据库的全库更新:updatestatistics;目的为提高新建库的读写速度。并检查数据库运行状态,确保数据库能提供正常服务。

注:由于数据备份采用load方式,导入和导出会因表的大小占用整个数据库恢复的80%时间。恢复的及时有效性严重受到影响。5.5启动应用此时则重启应用服务,恢复应用。6.案例分析鉴于传输综合网管一旦上线应用运行,各地市推广并主动应用,一旦出现数据库故障和主业务应用故障等出现不可恢复*,则影响广泛,严重影响告警派单等正常运行。为规避风险,避免下次发生其它故障修复时间过长,且弥补现在安全隐患,现计划并做以下实施:6.1服务器操作系统备份每月检查服务器运行状况,并申请磁带,进行服务器操作系统磁带备份。方便在服务器操作系统出现故障时及时恢复操作系统运行。6.2数据库备份采用:ontape进行数据库0级备份。Ontape:备份和恢复ONLINE数据、备份和恢复逻辑日志、变化数据库日志状态等优点:ontape备份能够在ONLINE联机或静止方式下进行,高效方便。ontape在数据库发生故障无法访问时,可在最短时间内,最有效率的及时恢复数据库,及时性强备份频率:每七天进行一次数据库的0级备份每七天进行数据库的全库备份每次数据库表更改前,进行数据库表更改前后的备份备份数据寄存位置:单独申请一块磁盘,专门寄存数据库备份数据

(寄存在盘阵上,读写速度要快于本地服务器硬盘,能在数据库故障时缩短数据恢复时间)申请磁带,进行数据库数据库磁带备份双份数据库数据备份,增加多重数据保护。避免单一数据库备份出现丢失的不可恢复操作。避免因load数据造成当数据库出现不可恢复是导入数据过慢,影响系统恢复及时*6.3主业务应用采集备份每次升级运行测试后,进行主业务应用和采集程序备份主业务应用程序文献和采集程序文献,可和数据库备份文献一起放在单独申请的备份磁盘上每次升级,磁带备份主业务应用程序和采集程序一旦采集应用等出现不可修复问题,可在第一时间安装布署主业务应用程序和采集程序6.4测试(备)系统搭建构建传输综合网管系统的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论