20170731-北京-中加基金-EMC告警问题处理_第1页
20170731-北京-中加基金-EMC告警问题处理_第2页
20170731-北京-中加基金-EMC告警问题处理_第3页
20170731-北京-中加基金-EMC告警问题处理_第4页
20170731-北京-中加基金-EMC告警问题处理_第5页
已阅读5页,还剩6页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中加基金-EMC存储报警问题处理【处理时间】2017年07月31日现场处理【客户名称】中加基金【主机信息】EMCVNX5300FCNXX 46/248和47/248【处理人员】毕光明【问题说明】现象:存储告警灯常亮,EMC存储Unisphere图形管理界面发现有如下报错:Severity:ErrorSystem:FCNXXDomain:LocalCreated:Jul30,20176:21:04PMMessage:DPE(Bus0Enclosure0)isfaulted.FullDescription:DiskProcessorEnclosure(Bus0Enclosure0)isfaulted.Serversmayhavelostaccesstodiskdrivesinthisstoragesystem.RecommendedAction:Contactyourserviceprovider.EventCode:0x7409事件分析A aiMfJwV32MI74FJ#*aa蚪,■阳首先现场检查EMC存储状态,发登录EMC管理控制台,查看各部CVHHWMt 4日中总■ FinuWrl♦cmHMiA ftptw■\rawinAra Pwri/Hrtri flW/i^in"! Fmbhs电FT EiriM单W MW3I*JplE5 Uutq$*"ii■鼻@SiM»n曜■fwe*i*AH *WVH号6l^ailWb *hE3£Ti/3K,Fn X.WMHC帛一. J—l,JrPw5 1kwf -H f 号y e*口涧时 £Pr{M.OftfCy土wNdwi!'5#>KHifi > )5mffjPErs>Ee收集2个控制器的日志包,?法为M 5J-m UtfcPitedU^ Dilitulvdi81B33 事旧事惹irw「”期期型E3«糟3MH母H [ii诩 tf'EnYCUiwKiaiBHriHafau4Ahwwacijtm-t之现只有EMC存储告警灯常亮,但各部件的告警灯正常。•B件状态,发现各部件转台正常。:.11ste卜嗯tEndiau-Rf1 #OwQEiKflEvvQmp EfHW~~。由i1Eiittaam口Mt E.4d♦Mu&Encknira□M2 E,&d犷口山口Ek*kut«|MJ*Bm.4Em+”ir>QDM**Aus曾EnctaBBE4 Fm.* 0 a crm mkMHuaatM^wnrtDefcj tnalM#,&£11■>trdraiTH□Uqfcf ElADdd步3d3=natt«EaData1 b不. 步旧口日注" IfiM-d# □nu9?DUI.-C!Enctxuv□Dufc13 Enrtted步中TC!5ctFaM方Qg4li 柚却门■一«*-卡专—■♦(jfc.uniQiPwma NtMHi、电1al口鼻■力2v>efEl k・El"-酢sfti-*MA AewI-卓环0三:鼻wwr£u£(ASK,Bi、0EiWhM^呼1;印后4 F^l能看到如下的报错日志:MfwiHifcki Hi66k fiU1■:注正安h弹咄2MfttXaMtWb ^UWVU^nCIX * WATUWfrl油MSB 吸 H«雷邙i晰舟也皿偌 Er臼*皿球典

07/30/1710:17:38Spe0PowA07/30/1710:18:3307/30/1710:21:04Bus0Enc099325807409SPEnvironmentalInterfaceFailure.[DeviceError]]0 136StorageArrayFaultedBus0Enclosure0:FaultedDiskProcessorEnclosureisfaulted.Seealertsfordetailsa8000000.提示电源A有报错4、查看电源状态:c:\EMC\Navisphere\.41.1\msgbin\NavisecCli.exe-npgetcrus-allDPE7Bus0Enclosure0*FAULT*(Bus0Enclosure0:Faulted)EnclosureDriveType:CurrentSpeed:6GbpsMaximumSpeed:6GbpsSPAState:SPBState:SASPresentPresentBus0Enclosure0PowerAState:PresentBus0Enclosure0PowerBState:PresentBus0Enclosure0SPSAState:PresentBus0Enclosure0SPSBState:PresentBus0Enclosure0SPSACablingState:ValidBus0Enclosure0SPSBCablingState:ValidBus0Enclosure0CPUModuleAState:PresentBus0Enclosure0CPUModuleBState:PresentBus0Enclosure0SPAI/OModule0State:EmptyBus0Enclosure0SPAI/OModule1State:EmptyBus0Enclosure0SPBI/OModule0State:EmptyBus0Enclosure0SPBI/OModule1State:EmptyBus0Enclosure0DIMMModuleAState:PresentBus0Enclosure0DIMMModuleBState:Present显示电源口0亚。1)A/B以及电池(SPS)A/B都是正常状态。怀疑微码版本:因此怀疑是个误报。处理建议(不影响业务,为安全起见,建议在非业务时间段操作):1、重启managerserver服务,查看告警是否消失具体步骤如下:以下步骤需在两台SP上分别执行:a)打开浏览器b)输入地址:http://<IP_address_of_SP>/setupc)页面加载完成后,输入用户名密码以进入NavisphereUserInterface(UI)d)登录后,点击〃RestartManagementServer〃按钮e)页面加载完成后,点击〃Yes〃并〃Submit"2、升级微码由于第一步重启管理没能消除错误日志以及告警灯,既然硬件都正常,我们就怀疑可能是微码太低,版本老,产生的误报,我们就准备实施微码升级(由于是生产建议在线升级):升级firmware过程前,确保所有使用本存储的应用服务器多路径完全正常,可以正常访问阵列的SPA和SPB。会依次升级阵列的SPB和SPA的firmware,如果发现升级完SPB导致SPB路径不可访问,则中断升级。a)备份存储数据,通过HMC控制台观察小机连接存储的状态,诺顿NBU完成数据备份b)Unispher图形管理界进入工程师模式,然后将告警信息删除。(告警不能删除,执行c)浏览器登录阵列管理界面

至USystemMonitoringandalerts Alerts安装CTRL+SHIFT+F12,输入密码messner进入工程师模式点击需要消除的告警,看能否删除c)升级微码BlockOE:05.32.000.5.221orlater在升级前先检查业务服务器的存储多通道是否健康,升级大约需要3-4个小时)。d)升级微码的过程是:在线升级步骤:检查VNX上有无硬件故障检查VNX版本信息客户检查主机上多路径软件检查SP,I/O是否满足在线升级条件disable统计日志写入;disablecallhome或者connecthome(如果有)用USM进行升级flarecode;两个SP需要依次升级/重启升级完成后检查SP的read和writecache的状态检查有无LUNtrespassCommitflare检查flarecode版本Enablecallhome或者connecthome收集系统日志e)升级后检查,待两控制器都升级完成后检查故障是否消除,发现故障依旧存在。f)根据现有环境,做了一步关闭一重启SPSA电池,故障未消除g)更换电池SPSA和SPSB通讯信号线,出现了控制器都不能识别到电池的F状态。h)一晚上没能解决故障,由于现场没有备件所有能做的尝试都不能消除故障,下一步申请两块电池以及电池与控制器的通讯线,检查链路状态。升级过程中由于链路状态不稳定在服务器端会看到:检查链路:powermtdisplaydev=alllmoreThepowermtdisplaydev=**mandshowshardwarepathwithasb:iopfinsteadofalive:SymmetrixID=xxxxxxxxxxxstate=alive;policy=SymmOpt;queued-I0s=0 Host -Stor--I/OPath--Stats###HWPathI/OPathsInterf.ModeStateQ-IOsErrors3072pci@1e,600000/SUNW,qlc@3,1/fp@0,0c3tXXADD18d4s0FA7eAasb:iopfalive02

3074pci@1e,600000/SUNW,qlc@3/fp@0,0c2tXXADD1Cd4s0FA8eAactivealive00恢复链路:powermtsetmode=activedev=allforce强制3、更换备件1、更换sps电池方法第一步:找到坏掉的电池,关闭电池电源,等待大约2分钟电池灯完全关闭;第二步:依次拔掉管理线和电源线;第三步:卸载并安装对应电池(新电池开关要为关闭状态);第四步:依次连接管理线和电源线;第五步:打开电池开关,等待电池充电,绿灯会一直闪烁;充满后会放电,然后再次充满;(注:两次充电时间大约3个小时及以上,电池充满后最上面一个灯绿色为长亮)第六步:打开管理控制台,观察电池状态(从充电时就可以观察state,Unknown——>present),电池图标由F变为T,再消失,更换完毕,工作正常,结束;注意:如果两次充电后,电池状态由Unknown变为present,说明电池正常,但是电池图标依然F,这时建议重启控制器,一般都会消失;2、更换SPS时注意的事项:*如果是双控制器和电池,又有UPS,里面的writecache不需要disable.近单控制器,单电池,又没有UPS的时候要先把writecache变为disable(以免数据丢失,但是如果业务比较重,会影响业务,做之前要跟管理员商议好).*更换好之后要确认writecacheenabled1)、关闭故障SPS上的开关,不要拔线,此时即断掉了其中一路电源供应,SPS的状态灯会灭掉,另一个SPS电池的ON-BATTERYLED亮起,等待大概几十秒后,另一个SPS的ON-BATTERYLED灭掉,ACTIVELED开始慢闪。2)、此时才能开始拔线(顺序:AC-IN,AC-OUT,连接控制器的INTERFACE)。3)、从设备后面,卸下4个固定螺丝,从设备前面,拆开挡板,卸下6个固定螺丝,卸下故障SPS。4)、装上新的SPS。注意要保证新SPS上的开关是在0位置,即关闭的。5)、接好电源线后(顺序:连接控制器的INTERFACE,AC-OUT,AC-IN)。6)、打开更换的SPS的开关。A)检查存储日志,更换状态是日志中报错的其中一块电池及电池通讯线不会重启控制器,通过更改电池测试时间,使电池到指定时间自动测试。右击电池标识设定时间0sMo447Q7475fl49(J8o8oaM53^6s7s744292616142323121ca3E.r"x'cl?-.

h3土Aikr?1.,1.L上_LLI上上tT土土M0sMo447Q7475fl49(J8o8oaM53^6s7s744292616142323121ca3E.r"x'cl?-.

h3土Aikr?1.,1.L上_LLI上上tT土土M一七m-3'm64;4工.■」叮出出Hi0x72^infermetiorinnl/CRUready.Loggrigei^McharacterCRUserial加诉「网10/201713:03:04£n班sureSTCPowerA(723}Frmware即馆.PiJVWE1rISR已sto「&d 一Field-ValueField|vaii»Dote:2017-06^10Type:blformationlirne:2115:00CategoryMfALogStoregteArraySenseKey;0x0Host:&IMAGEExtCcdel:0X0EventCodeOnfiZaExtCodc2:0x2StorageSystfim:FCN0012<70aSP:SPBSource:NXAOeviiM:Bus0Encl□&ur,..EventDetailsXjatterydevtce-「Ree12,prefw=Qrsuffix,visionnfXPE_PSAi>JserialnumbefDescription:11;PeriodicSPStesttiime.2.Noactionneededunlessthismessageisseerrmorefreguentlj/tfianIheperiodi(|^PSTestissetuptorun.Mext»HelpDfX^PS

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论