2025H3C服务器故障处理手册_第1页
2025H3C服务器故障处理手册_第2页
2025H3C服务器故障处理手册_第3页
2025H3C服务器故障处理手册_第4页
2025H3C服务器故障处理手册_第5页
已阅读5页,还剩329页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

目录1安 1 1 1 1 1 收集HDMSDS日 收集FCHBA卡日 收集QlogicFCHBA卡日 收集EmulexFCHBA卡日 HGXGPUFieldDiag现场诊断工具使用方 1 1 上电后显示No 逻辑盘写缓存策略由WriteBack变为Write CPUConfigurationError(仅适用于IntelCPU的服务器 FCHBA卡问 存储设备无法识别FCHBA卡端口的 存储设备已经识别FCHBA卡的端口WWPN但服务器端无法识别到 1 H5KVM安装OS缓慢或失 1 1 启动到UEFI HDMRedfish HDM 1 服务器的空闲槽位必须安装假面板,比如硬盘、风扇、PCIe卡、OCP网卡、电源模块的UPS为服务器供电。这种电源可防止服表1-1H3CG7H3CUniServerR4970H3CUniServerR4930H3CUniServerR5330H3CUniServerR5500H3CG6H3CUniServerR3950H3CUniServerR4300H3CUniServerR4500H3CUniServerR4700H3CUniServerR4700LEH3CUniServerR4900H3CUniServerR4900G6H3CUniServerR4900LEG6H3CUniServerR4950H3CUniServerR5300H3CUniServerR5350H3CUniServerR5500H3CUniServerR6700H3CUniServerR6900H3CUniServerE3300H3CG5H3CUniServerR4300H3CUniServerR4330H3CUniServerR4330G5H3CUniServerR4700H3CUniServerR4700LCH3CUniServerR4900H3CUniServerR4900LCH3CUniServerR4930H3CUniServerR4930G5H3CUniServerR4930LCG5H3CUniServerR4950H3CUniServerR5300H3CUniServerR5500H3CUniServerR5500LCH3CUniServerR6900H3CG3H3CUniServerR2700H3CUniServerR2900H3CUniServerR4300H3CUniServerR4500H3CUniServerR4700H3CUniServerR4900H3CUniServerR5300H3CUniServerR6700H3CUniServerR6900H3CUniServerR8900H3C技术支持。图3-1表3-1细信息请参见4故障诊断前的准备工作。5收集故障相关信息。题的处理建议请参见7硬件类问题或8软件类问题。910软件和配置工具表4-1表4-2H3C服务器支持的所有存RAID)LSI存储控制卡*表4-3举例:H3CUniServerR4300序列号以“SN”开头,如4-1所示。图4-1产品序列号(示例产品的用户指南,4-2仅为示例。图4-2抽拉式资产标签的位置(示例品序列号,如4-3所示;也可在“产品信息”页面中查看产品序列号,如4-4所示。图4-3图4-4IPMIIPMI平台管理工具:IPMITOOLusername-Ppasswordfrulistfruid图4-5IPMI表4-4HDM是否能正常登录?是否能正常收集HDMSDS日服务器开机后,HDMWebKVM远程控制台是否有显POSTF7找不到系统启动项)?F7是否可以看到网卡启动引导项,是否可以正常PXE环境?GrubHDMMCA(Machine警?MCAMSMI/CATERRIERR/CATERRMCERR为标志性日志信息。POST所需的部件。服务器的最小化硬件配置如4-5所示。表4-5H3CUniServerR4970B0风扇:4H3CUniServerR4930内存:1CPU1风扇:42H3CUniServerR5330K0风扇:48GPU计算板:1Switch节H3CUniServerR5500K0风扇:15H3CUniServerR5300内存:2A0风扇模块:4GPU计算板:1Switch节H3CUniServerR5500H3CUniServerR5500LCH3CUniServerE3300内存:11A0槽2个,Fan3&Fan41H3CUniServerR4500CPU:1CPU112H3CUniServerR4300CPU:1CPU1风扇:4H3CUniServerR4700CPU:1CPU1风扇:8H3CUniServerR4700LE内存:2A0H3CUniServerR4900CPU:1CPU1风扇:4H3CUniServerR4900G6CPU:1CPU1风扇:4H3CUniServerR4900LEG6内存:2A0H3CUniServerR3950内存:1A0风扇:4H3CUniServerR4950内存:2A0风扇:4H3CUniServerR5350内存:2A0风扇模块:4GPU计算板:1Switch节H3CUniServerR6700CPU:1CPU1风扇:4H3CUniServerR6900CPU:1CPU1风扇:4H3CUniServerR4300CPU:1CPU1风扇:4H3CUniServerR4700CPU:1CPU1风扇:7H3CUniServerR4700LC内存:2A0风扇:7H3CUniServerR4900CPU:1CPU1风扇:6H3CUniServerR4900LC内存:2A0风扇:6H3CUniServerR4950CPU:1CPU1内存:1CPU1的D0风扇:6H3CUniServerR6900CPU:1CPU1H3CUniServerR2700CPU:1CPU1内存:1A1风扇:4Fan3、Fan5、Fan6、Fan7槽位H3CUniServerR2900CPU:1CPU1内存:1A1风扇:4Fan2、Fan4、Fan5、Fan6槽位H3CUniServerR4300CPU:1CPU1内存:1A1风扇:4Fan1、Fan2、Fan3、Fan4槽位H3CUniServerR4500CPU:1CPU1内存:1CPU1的A0槽风扇:5存储控制卡:1H3CUniServerR4700CPU:1CPU1内存:1A1风扇:4Fan4、Fan5、Fan6、Fan7槽位H3CUniServerR4900CPU:1CPU1内存:1A1风扇:4Fan3、Fan4、Fan5、Fan6槽位H3CUniServerR6700CPU:1CPU1内存:1A1风扇:6H3CUniServerR6900CPU1风扇模块:6H3CUniServerR8900计算模块:113位置(与管理模块和PDB板:1PDB板模块CPU1内存:1A11PDB12PDB2H3CUniServerR4930CPU:1CPU1内存:1风扇:6H3CUniServerR4930G5CPU:1CPU1内存:1风扇:6H3CUniServerR4930LCG5内存:2风扇:6H3CUniServerR4330CPU:1CPU1内存:1风扇:4H3CUniServerR4330G5CPU:1CPU1内存:1风扇:4H3CUniServerR5300GPU计算板:1Switch节H3CUniServerR5300GPU计算板:1Switch节H3CUniServerR5500表5-1接口线缆(如网线、光纤USBType-CUSBWIFI模块(小米品牌显示终端(如温度计/表5-2在操作系统下单击[计算机/管理]单击[工具/事件查看器]sosreport命令收集全部LinuxrootESXiESXiServerConsolerootESXiESXiServerConsoleAlt+F12Alt+PageUp或收集HDMSDSSDS(SmartDiagnoseSystem,智能诊断系统)日志包括服务器的日志信息(包括事件日志、操作日志和内部日志等SDS日志可以了解服务器运行状态。登录HDMWeb界面,具体操作请参见《HDM图5-130天的SDS日志。在“默认下载”栏中,自定义日志范围可点击SDS日志。不支持多用户同时下载SDSSDSUTC时间的日志,HDMNTPSDS日志时HDMUTC时间,两者之间可能存在时间差。服务器若配置双节点,则主从节点的SDS当服务器操作系统发生崩溃、重启或关机时,HDM会自动录制事件发生前的录像。用户可以通过登录HDMWeb界面,具体操作请参见《HDM图5-2收集存储控制卡阵列配置信息(OS内PMCPMC的存储控制卡;LSI存储控制卡,指厂商为LSI的存储控制卡。ArcconfPMCArcconf使用手册。不同操作系统下,操作完全一致,具体的命令行请参见PMCArcconf使用手册。WindowsWIN+Rcmd进入Windows操arcconf进入Arcconf命令行工具。除Windows操作系统外:无需输入任何命令,Arcconf本章节以P430Linux操作系统下为例,介绍如何收集存储控制卡的阵列配置信arcconf[root@localhost~]#./arcconflistControllersfound:1ControllerControllerID :Status,Slot,Mode,Name,SerialNumber,Controller1:Optimal,Slot10,RAID(ExposeRAW),PM8060-RAID,70532000,arcconfgetconfigcontroller_id表5-3存储控制卡的[root@localhost~]#./arcconfgetconfig1ADControllersfound:1ControllerController :Controller :RAID(ExposeChannel :Controller :PM8060-ControllerSerial :ControllerWorldWide :Controller : :71C/159FInstalled :2048 :7.16-0 :7.16-0 :1.2-1Boot :7.16-0arcconfgetconfigcontroller_idPD表5-4存储控制卡的物理盘的[root@localhost~]#./arcconfgetconfig1PDControllersfound:1PhysicalDevice

DeviceDeviceisaHard :Block :512 :ProgrammedMax :SAS12.0TransferSpeed :SAS12.0Gb/sReportedChannel,Device(T:L) :0,10(10:0)Reported :Enclosure0,Slot2(Connector0,Reported : : : :Serial :HardwareError :MediumError :ParityError :LinkFailure :AbortedCommand :SMARTWarning :arcconfgetconfigcontroller_idLD表5-5存储控制卡的逻辑盘的[root@localhost~]#./arcconfgetconfig1LDControllersfound:1LogicaldeviceLogicalDevicenumberLogicalDevice :LogicalDrvBlockSizeofmember :512RAID :Unique :StatusofLogical :Additional :Initializedwith :1014Parity :1024Stripe-unit :256Interface :Device :Read-cache :Read-cache :Write-cache :Write-cache : :ProtectedbyHot- : :Failed :Power :LogicalDevicesegmentGroup0,Segment0 :Present(572325MB,SAS,HDD,Enclosure:0, Group0,Segment1 :Present(1716957MB,SAS,HDD,Enclosure:0, Group1,Segment0 :Present(3815447MB,SATA,HDD,Enclosure:0, Group1,Segment1 :Present(3815447MB,SATA,HDD,Enclosure:0, arcconfgetstatus[root@localhost~]#./arcconfgetstatus1Controllersfound:1LogicalDeviceLogical :Task :Current : :In :Percentagecomplete :0Commandcompletedsuccessfully.LSILSI存储控制卡可通过LSIStorCLIStorCLILSIStorCLI使用手册。不同操作系统下,工LSIStorCLI使用手册。WindowsWIN+Rcmd进入Windows操storcliStorCLI命令行工具。除Windows操作系统外:无需输入任何命令,StorCLILSI9460Linuxstorcli64[root@localhost/]#/opt/MegaRAID/storcli/storcli64showCLIVersion=007.1017.0000.0000May10,2019Operatingsystem=Linux3.10.0-957.el7.x86_64StatusCode=0Status=SuccessDescription=NoneNumberofControllers=HostName=OperatingSystem=Linux3.10.0-SystemOverviewCtl PortsPDsDGsDNOptVDsVNOptBBUsPRDSEHSASOs0 N/AOn storcli64/controller_id表5-6存储控制卡的[root@localhost/]#/opt/MegaRAID/storcli/storcli64/c0showCLIVersion=007.1017.0000.0000May10,2019Operatingsystem=Linux3.10.0-957.el7.x86_64Controller=0Status=SuccessDescription=NoneProductName=SAS3108FWVersion=4.660.00-DriverName=megaraid_sasDriverVersion=07.705.02.00-rh1CurrentPersonality=RAID-ModeVendorId=0x1000DeviceId=0x5DSubVendorId=0x19E5SubDeviceId=0xD207HostInterface=PCI-EDeviceInterface=SAS-12GVirtualDrives=VDLISTDG/VDTYPEStateAccessConsistCacheCac Size RAID1Optl RWTD ON110.827PhysicalDrives=PDLIST:EID:SltDIDPISp 7110.827NU 9222.585NUstorcli64/controller_id/vallshow表5-7存储控制卡的[root@localhost/]#/opt/MegaRAID/storcli/storcli64/c0/vallshowallCLIVersion=007.1017.0000.0000May10,2019Operatingsystem=Linux3.10.0-957.el7.x86_64Controller=0Status=SuccessDescription=NoneVirtualDrivesDG/VDTYPEStateAccessConsistCacheCac Size RAID1Optl RWTD ON110.827PDsforVD0EID:SltDIDState SizeIntfMedSEDPISeSz Sp 7 0110.827GBSATASSD N512BINTELSSDSC2BB120G6U 9 0222.585GBSATASSD N512BINTELSSDSC2KB240G7UVD0PropertiesStripSize=256NumberofBlocks=232421376VDhasEmulatedPD=YesSpanDepth=1NumberofDrivesPerSpan=WriteCache(initialsetting)=WriteBackDiskCachePolicy=Disk'sDefaultEncryption=NoneDataProtection=DisabledActiveOperations=NoneExposedtoOS=YesOSDriveName=/dev/sdaCreationDate=21-10-2020CreationTime=08:00:42AMEmulationtype=defaultCachebypasssize=Cachebypass-64kCachebypassMode=CachebypassIntelligentIsLDReadyforOSRequests=YesSCSINAAId=表5-8存储控制卡的[root@localhost/]#/opt/MegaRAID/storcli/storcli64/c0/eall/sallshowCLIVersion=007.1017.0000.0000May10,2019Operatingsystem=Linux3.10.0-957.el7.x86_64Controller=0Status=Description=ShowDriveInformationSucceeded.DriveInformation:EID:SltDIDState SizeIntfMedSEDPISeSz Sp 7 0110.827GBSATASSD N512BINTELSSDSC2BB120G6U 9 0222.585GBSATASSD N512BINTELSSDSC2KB240G7U收集存储控制卡阵列配置信息(OS外PMCPMC的存储控制卡;LSI存储控制卡,指厂商为LSI的存储控制卡。登录HDMWebRAIDRAIDRAID级别、超级电容的状态等信息。图5-3本章节以H460进入如5-4BIOSSetup界面。图5-4BIOSSetup图5-5图5-6图5-7表5-9DevicePCISlotPCIAddressHardwareSerialFirmwareFirmwarereleaseUEFIDriverUEFIDriverreleaseControllerMemoryModuleController本章节以P430服务器上电后,在BIOS启动过程中,出现如5-8Ctrl+A图5-8BIOS图5-9进入5-10所示PMCRAID管理界面(操作选项说明请参见5-10ControllerSettingsEnter。图5-10PMCRAID表5-10LogicalDeviceControllerDisk图5-11ControllerSettings图5-12ControllerConfiguration进入如5-13BIOSSetup界面(FrontDevice图5-13BIOSSetup进入存储控制器管理界面。如5-14Advanced页签,并选择存储控制器(BROADCOMMegaRAIDMegaRAID9560-8i4GB)Enter图5-14Advanced图5-15Main图5-16图5-17VitrualDriveManagement进入5-18ViewAssociatedDrivesEnterRAID的详细信息(RAID名称、级别,所含磁盘信息等)。图5-18选择ViewAssociated图5-19BIOS图5-20图5-21RAID收集存储控制卡阵列日志(OS内PMCPMC的存储控制卡;LSI存储控制卡,指厂商为LSI的存储控制卡。仅支持在操作系统下,通过存储控制卡的管理工具,收集阵列日志。PMC官方推荐的存储控ArcconfPMCArcconf使用手册。不同操作系统下,操作完全一致,具体的命令行请参见PMCArcconf使用手册。WindowsWIN+Rcmd进入Windows操arcconf进入Arcconf命令行工具。除Windows操作系统外:无需输入任何命令,ArcconfLinux操作系统。arcconfsavesupportarchive命令收集PMC录,如5-22所示,所有日志信息均保存在该目录下。图5-22收集PMC图5-23查看多张PMCLSIStorCLILSIStorCLI使用手册。不同操作系统下,工LSIStorCLI使用手册。WindowsWIN+Rcmd进入Windows操storcliStorCLI命令行工具。除Windows操作系统外:无需输入任何命令,StorCLI进入StorCLILinux操作系统为例进行介绍。Linux操作系统下,无需输入任何命令,StorCLI命令行工具默认开启。如图524opegRDsocsoc64c0hwal>socshwalpegADsoli如图54opegRDsocsoc64c0hweens>sceens命opegADsoli如5-24所示输入/opt/MegaRAID/storcli/storcli64/c0showtermlogopt/MegaRAID/stor如5-24所示输入/opt/MegaRAID/storcli/storcli64/c0showalilogstorcli.alilog命令,耐心等待后,信息输出重定向到/opt/MegaRAID/storcli/storcli.alilog并保存。图5-24LSI收集FCHBAQlogicFCHBAQlogicFCHBA卡的日志收集方法。QlogicFCHBAQlogicFCHBA卡,目前包括如下型号:QlogicFCHBA表5-11QlogicFCHBAMarvell官网或联FCHBAdebugMarvell官网或联系技术支持。#chmod+x#FCHBAQLE10000FCAFCMarvell官网或联(.tgz)”VMware系统中的dump文件信息。EmulexFCHBA使用EmulexFCHBAOneCaptureFullCapture模式收集时,可能会停用该图5-25BroadcomOneCapture图5-26OneCapture日志收集工具CaptureEmulexHBACapture(OneCapture)是一个收集操作系统、EmulexEmulex适配器信息的设备驱动程序,可以使用这些收集到的信息来检查驱动的功能是否正常。Capture工具的/doc/12399041。EmulexHBACaptureBasic、Full、Safe、MinimalCustom五种获取BasicCapture工具默认选择BasicCapture方式。通常,除非Broadcom技术支持指示使用其他类BasicCapture不会重置正在活动的适配器,也不会重新启动未使用的适配器。也就是说,该模式下所有适配器状态保持不变。如果可能中断业务,BasicCapture将不会立即启动固件获取部分类型适配器上的闪存保留的dump文件(如果存在Full获取部分类型适配器上的闪存保留的dump文件(如果存在Safedump文件。MinimalLinuxVMwareSolaris不支持此模式。在Windows中,可以通dump文件。CustomCustomCapture允许用户从各种获取参数中选择所需的内容。可以在工具页面复选框列表中CLI中的/Component参数选择要获取的组件。GUI方式运行EmulexHBACapture以管理员身份运行EmulexHBACapture工具,不需要任何特殊步骤。可以不受限制地查看要以具有管理员特权的用户身份运行EmulexHBACapture工具,GUI会提示您输入管理员从下拉菜单中,选择要使用的CaptureBasic、Safe、FullCustom。对5.8.23.日志收集工具Capture介绍。图5-27FullCapture选择需要获取的特定项目。例如,在“AdapterDumpInformtion”下,您可以选择以下选AdapterBasicInformation执行BasicCaptureHBAResidentDumpdumpHBAFirmwareDowndump图5-28图5-29“CaptureCompletedSuccessfullyHBAFirmwareDown验证是否为每个请求的适配器都创建了.bin文件。HBAResidentDumpdump文件。“CloseEmulexHBACapture5.8.256)日志文件说明使用CLIEmulexHBACapture以管理员身份运行EmulexHBACapture工具,不需要任何特殊步骤。可以不受限制地查看要以具有管理员特权的用户身份运行EmulexHBACapturecmd,并输入管理员用户名和密码。可以不受限制地访问所有输出文件。对于非管理员,请使用“以管理员身份运行”启动cmd,然后输入管理员用户名和密码。查此文件夹位于\Users\Administrator\Documents\Emulex中。/?or/Hor/Lor列出发现的适配器。list参数显示每个适配器的适配器编号(0、1,...),dump命令中用于指定/Adapters参数。/Quietor指定CapturezipCLI/Filename=<OutputFilename>orzipOneCapture_Windows_<date-time>.zip/BasicCaptureor/SafeCaptureorFullCapture模式,需要配合/Adapters参数。请注意此参数可以临时中断正在活动的I/O,并且可以强制使正在活动适配器脱机,请确保不会影响业务时执行该操作。/Adapters=<AdapterNumber|<list>|/Components=<<component>|<list>>or/Components=<<component>|默认情况下,EmulexHBACapture工具收集多种类型的组件,例如驱动程序信息和磁盘信息。OneCapture.exe/FullCapture/Adapters=ALLCapture图5-30OneCapture-<Operating_System>.html是获取的组件的可导航目录。在浏览器中打开此文dumpdump/CoreDump的目录中。通常,用户无需单独检查这些文请确保CoreDump目录中的适配器dump的.txt文件也位于同一目录中,您可以通过此文件验证是否已包含对应的适配器信息。必须安装以下库文件才能运行EmulexHBACapture通过SSH或其他方法将OneCapture_Linux_<version>.tgz工具上传到系统上,然后解压缩得OneCapture_Linux.sh文件。chmod777shell脚本。有关参数,请参见“Linux,CitrixCLI参数”。图5-31EmulexHBACapture工具将创建一个包含所有获取到的组件信息的.tgz文件。该.tgz文件名OneCapture_<Operating_System>_<date-time>.tgzEmulexHBACapture工具的工作目录中。请确保CoreDump目录中的适配器dump的.txt文件也位于同一目录中,您可以通过此文件验证是否已包含对应的适配器信息。图5-32LPe12000系列适配器,适配器上的每个端口都显示为单独的适配器。因此,如果适配不收集varcrashdumpMinimalCaptureBasicCapture或FullCapture一起使用。可MinimalCapture模式来获取以下项目:-A=<AdapterNumber|<list>|all>or--Adapters=<AdapterNumber|<list>|./OneCapture_Linux.sh-A=All-M-VMwareESXiEmulexHBACapture实用程序之前,必须通过执行以下操作启ESXiShell:EnableESXishell启用ESXiShell-./OneCapture_ESX.sh[-T|--图5-33您可以通过键入[-V|Volume]volume_iddump的目标卷,为了获得最佳效图5-34使用指定的选项运行相应系统的Shell图5-35EmulexHBACapture工具将创建一个压缩的tarball文件。该文件放置在指定的卷中。打开文图5-36以下CLIESXi-h或T或---L或---Q或B或F或--FullCaptureI/O,并且可以-S或A=|all>or--Adapters=|此选项使Capturevm-support表5-12GPUHDMWeb通过定制化运维工具盘deltaFPGAipmitool工具收集ipmimessages和dmesg的文件及文件夹NVIDIAGPU操作系统下执行NVIDIAGPU操作系统下执行命令nvidia-smi>-aNVIDIAGPU的FM服务运行状态、systemctl>journaltcl-nvidia-fabricmanager>FMprorpm-qa|grep-ilspcilspci-tv>>lspci-nnvvv>>lspci-xxxx>>以不同维度收集链路信息logs请参见5.9.2PCIeGPUFieldDiagMODSversionnumberPCIeGPUFieldDiagFieldDiagnvidiaGPU报出硬件错误时,可用此工具进行诊PCIeGPU(HGXGPU使用工具版本不通用。GPU在FieldDiagLinuxkernel2.6.16orlater(2.6.29或更高版本的内核。该工具已2.6.162.6.35中进行了测试。)blacklistoptionsnouveaucat/etc/modprobe.d/blacklist-mv/boot/initramfs-$(uname-r).img/boot/initramfs-$(uname-dracut-v/boot/initramfs-$(uname-r).img$(uname-dracutforce命令,重启lsmod|grep-i多实例图形处理器(MIG)A100FieldDiag时应该关闭。nvidia-smiiGPUIDs>mig1(MIG模式nvidia-smiiGPUIDs>mig0(MIG模式)mkdircd./install_module.sh-出现modprobemods执行FieldDiag工具,在FieldDiag图5-37FiledDiag“RunningtestXonGPUn-Ytestsremaining|=======|ZnGPUYZ如Runningtest208onGPU0118testsremaining|===========|64PASSFAIL,且会在当前文件夹下生成诊断log,默认情况下,FieldDiag会生成一个二进制日志文件。PASSRETEST诊断的预检查部分硬件设置失败,出现一条描述问题的警告消息。根据预检查图5-38errorcodeGPUconfigurationMODSversionMODSkerneldriverLinuxkernelECCerrorsandretired日志文件中没有客户数据、系统配置信息、系统上运行的进程,也没有来自MODS文件夹以FieldDiag_<PASS/FAIL/CONFIG>_<serialnumber>.logHGXGPUFieldDiagHGXH800GPUFieldiagISO镜像方式进行测试,此方式最为简便不依赖于系统。其他HGX步骤与此一致,但是测试使用的工具包不一样,请注意区分在服务器KVMFieldiagISOFieldiagISO图5-39选择VirtualCD-进入FieldiagISO系统,进入/mnt/nv/tiny图5-40进入FieldiagISO629-24287-XXXX-FLD-39387.tgz拷贝至/root目录图5-41root目录下,输入“tarzxvf629-24287-XXXX-FLD-39387.tgz”解压文件,并进入解629ls”查看内容。图5-42----测试完成后在629-24287-XXXX-FLD-38379目录下可看到一个logsIntel0=1=2=3=4=如果怀疑异常情况可能属于5-13中包含的事件类别,可以设置在固件日志中输出相应模块更多表5-13LinkLinkLinkControlTxQueueAQAdminPFModuleTime下文中日志收集方法仅适用于Intel®Ethernet800WindowsPowerShellIntelEthernetcmdlets对固件日志进行配置访问intelEthernet_cmdlets.zipEthernet_Cmdlets.exe进C:\>Get-图5-43C:\>Set-IntelEthernetLogConfig-Name"Intel(R)EthernetNetworkAdapterE810-XXV--Module"LinkManagement"-LevelCStart-IntelEthernetLogName设备名"图5-44收集固件日志C:\>Stop-icedmesg日志中,可以通过fwlog_eventsfwlog_events取值情况如5-15所示:表5-14fwlog_events00000001(Bit00000002(BitLink00000004(BitLinkTopology00000008(BitLinkControl00000010(Bit00000020(Bit00000040(Bit00000080(BitAdmin00000100(BitHost00000200(Bit00000400(Bit00000800(Bit00001000(Bit00002000(Bit00004000(Bit00008000(BitVPD(VitalProduct00010000(BitIOSF(IntelOnChipSystemFabric)00020000(Bit00040000(Bit00080000(Bit00100000(BitTXQueue00200000(BitACL(AccessControl00400000(Bit00800000(Bit01000000(BitTask02000000(Bit04000000(Bit08000000(Bit10000000(BitTime20000000(BitPF40000000(BitModule80000000(Bit可以通过fwlog_level#rmmod#dmesg-w>#modprobeicedyndbg="+p"fwlog_events=<bitmask>fwlog_level=<0-执行必要步骤复现问题,固件日志将保存到firmware.logvmwareesxcfg-moduledmesg中,FWLOG。#esxcfg-moduleicen-s'FWLogEnable=1FWLogEvents=<bitmask>FWLogLevel=<0-PFPF0PF1dmesg日志中,可以通过如下命令dmesgfirmware.log中:#dmesg>#esxcfg-moduleicen-s'FWLogEnable=0FWLogEvents=06.智能网卡日志收集方法(SOC内部。图5-45Bluefield图5-46Mellanox网卡日志收集工具,如5-15所示。需要注意的是,该工具仅用于日志信息收集,不会表5-15Mellanoxcmdmft工具目录下,默认路径为:\ProgramFiles\Mellanox\WinMFTmststatusMSTdevices信息;Mellanox驱动安装目录,默认路径为:\ProgramMLNX_System_SnapshotSettargetfile设置日志保留路径及文件名,点GenerateSystem-Snapshot生成系统快照日志。日志收集完成之后桌面提示snapshotfile***createdsuccessfully图5-47MellanoxmstMSTdevicesmstsysinfoFW版本,驱动日志OFED包,则该工具已自动安装,存在于/usr/sbin/目录下,sysinfo-snapshot.py脚本即可。如果没有OFED驱动,则可按如下方式下载后执行脚tar-zxvfsysinfo-snapshot-,图5-48sysinfodumpmststart&mststatusmstdump<MSTdevice>>***1.dmpmstdump<MSTdevice>>***2.dmpmstdump<MSTdevice>>***3.dmptar–cvfdumps.tarmstdump*图5-49dump使用VMwarevm-supportos下日志,收集完成之后会生成已esx-***.tgz文图5-50vm-support收集os图5-51vmkernel.logdump/opt/mellanox/bin/mstdump<MSTdevice>>***/opt/mellanox/bin/mstdump<MSTdevice>>***/opt/mellanox/bin/mstdump<MSTdevice>>***3.dmptar-cvfdumps.tarmstdump*图5-52dumpsysinf-snapshotdump日志外,还需要登录智能网卡的armsysinfo-snapshot.py脚本和mstdumparmHostipaddradd/30devtmfifo_net0sshubuntu@ssharm系统,输入账号密码;注ubuntu是以mellanoxarmos的用户名为例。图5-53armlinux系统相同进入/usr/sbin/sysinfo-snapshot.py,然后使用mstdump3dump15s。Broadcom网卡的日志收集方法。BroadcomBroadcom的以太需要通过执行脚本来收集日志信息。脚本工具获取、日志收集的方法,均请参见Broadcom官网或图5-54Windowscmd并进入AutoUpgrade_windows_xxx_H3C_xxx_xxx\niccli-xxx-winniccli_x64.exelist查Broadcomindex。图5-55windows使用niccliniccli_x64.exeiindex>coredump在当前文件夹生成.core图5-56windows使用niccli图5-57windows使用bnxtnvm-图5-58windows使用bnxtnvm需要通过执行脚本来收集日志信息。脚本工具获取、日志收集的方法,均请参见Broadcom官网或dmesgdmesg>ethtool-iethtool-Sehtool-methtoolethtool-iens|grep'bus-lspcisbus号x86_64和aarch64x86_64工具为例),cdchomd777-R*--./niccli.x86_64-i<index>图5-59Linuxnicclibnxtnvm工具收集(218~228版本固件包获取工具:nvmUpgrade_xxx_H3C_Vxx_xxx/utils目录下运行命令:#chomd777-R./bnxtnvm.x86_64listdevDeviceInterface./bnxtnvm.x86_64-dev=<DeviceInterfaceName>ARMbnxtnvm.aarch64bnxtnvm.x86_64。(pkg)x86_64bnxtnvm。图5-60Linuxbnxtnvm需要通过执行脚本来收集日志信息。脚本工具获取、日志收集的方法,均请参见Broadcom官网或VMware下设置命令“esxcfg-modulessdebug=0x7FFFFFFF’dmesgdmesgESXi8将固件包上传到/vmfs/volumes/datastore1esxclisoftwarevibinstall-vniccli-xxx.vib--no-sig-check–图5-61VMwareniccli-<图5-62VMwareniccliESXi7/chomd777-R–收集日志,执行./niccliiindexbnxtnvm工具收集(218~228版本固件包获取工具,仅适用于ESXi7:chomd777-R./bnxtnvm-dev=vmnic0执行该脚本前确保系统已安装python执行完成后,会在本地打包一个wangxun_debug_info字样的文件夹,文件夹里面涵盖了系图5-63SP600、SP500系列网卡日志的收集方法(SP300系列网卡暂不支持:进入固件包的“/tools’’chomd777R*图5-64hinicadm3执行./hinicadm3logidevicename>a图5-65hinicadm3-图5-66hinicadmhinicadmlogidevicename>a图5-67hinicadm本章节介绍如下云芯智联网卡的日志收集方法。云芯智联网卡指生产厂家为云芯智联的以太网卡,sssnic_log_collect.sh脚本下载地址:/download.htmlsssnictool工具已包含在固件包中,请下载对应网卡固件包获取:sssnictoolOS组件:psmisc、net-tools(OS组件可通过sssnic_log_collect.sh脚本拷贝至系统下,然后执行chomd777R*-图5-68sssnic图5-69本章节介绍如下中科驭数网卡的日志收集方法。中科驭数网卡指生产厂家为中科驭数的以太网卡,收集日之前请确保已安装中科驭数网卡驱动包SWIFT-XXX.tar,支持在执行具体命令后出现异常的iperf工具测试场景收集日志的方法举例:使用instanta_preload执行iperfinstanta_preload图5-70使用instanta_preload图5-71本章节介绍如下云脉芯联网卡的日志收集方法。云脉芯联网卡指生产厂家为云脉芯联的以太网卡,yundump工具收集日志(MCRscripts中)yundump工具包已含在固件包中,请下载对应网卡固件包获取:进入固件包的mcr_xxx_kernel_xxx/scripts目录下执行命令给脚本工具赋权:chomd777图5-72yundump收集后日志信息自动存放在/tmp目录下,此收集好的日志文件会包含:env环境信息收集,包括BIOS版本,BMC版本,系统版本等;logdmesg,hwconfig,yuncli.log等;systemMACVPD等信息;counterrdmacounter信息图5-73Linuxsosreport工具收集日志,则需要按照收集网卡相关日志(Linux操作系统)章节操作。ipaddress>ip-slinkshow>ethtool网口名ethtoolm网口名ethtooli“网口名ethtoolk网口名ethtoolS网口名ethtoolc网口名ethtoolx网口名ethtoolshow-fec网口名ethtoola网口名lspci-vvvxxx>lscpi-vt>tar-zcvfethtool_log.tar.gzSwitchtftplogfile文件夹。管理命令行输入“displaylogfilebuffer”后,可在管理命令行查看当前BufferSwitch管理命令行输入“diagnostic-logfilesavetftp工具可直有诊断日志信息,通过tftp工具可直接传出诊断日志。HDMWeb界面,了解服务器的整体健CRC(CyclicRedundancyCheck,循环冗余检查)校验错误等问题,先整体梳理硬4.4明确服务器最小化硬件配置提供的最小化硬件配置进行测试,查看4.2准备软件工具登录HDMWeb界面,查看服务器整体概况,如图6-1图6-1图6-2图6-3HDM若故障依旧无法解决,请收集HDMSDS日志,并记录详细故障信息(故障的时间、频率、报错截屏等)HDMSDS5.3HDMSDS图6-4Health指示灯,确认服务器是否出现故障,Health指示灯的含义请参见服务器用户指南。对于大部分服务器,Health指示灯的含义如6-1所示。表6-1Health界面中健康状态显示为“正常绿灯闪烁HDM正在初始化。此状态下,HDMWeb界面中健康状态显示为“正常”橙灯闪烁系统出现严重错误告警。此状态下,HDMWeb界面中健康状态显示为“严重”红灯闪烁系统出现紧急错误告警。此状态下,HDMWeb界面中健康状态显示为“紧急”HDM事件日志确认故障位置,如6-5图6-5HDM结合指示灯现象,进一步定位故障,详细说明请参见表6-2表6-2HDMWeb界HDM事件CPU“7.12CPU问题”HDMWeb界HDM事件并参考“7.3电源问Present/Active参考“6.4.11物理硬Fault/UID指示Present/ActiveFault/UID指示Present/Active参考“6.4.11物理硬OCP网卡时,OCP网卡时,10秒内下ATTNBUTTON按电源故障影响的子系统,具体对应关系如6-3所示。H3CUniServerE3300G6表6-3前面板挂耳指示灯电源故障说明(G3产品表6-4前面板挂耳指示灯电源故障说明(G5/G6产品HDM系统中的图6-6LCD可触摸智能管理模块,用户可以查看服务器的常用信息、告警信息和实时监控信息,并LCD可触摸智能管理模块显示服务器产生告警信息,如6-7HDMWeb界面查看告警详情,并参考《HDM告警日志信息参考手册》排除故障,使服务器各组件和系统保持图6-7LCD参考《HDM告警日志信息参考手册》排除故障,使服务器各组件和系统保持良好的运行状况。图6-8表6-5iFISTGPU图6-96.4.5开机故障流程图POST6.4.6POST故障流程图6.4.12逻辑硬盘故障流程图6.4.13网卡故障流程图GPU6.4.14GPU故障诊断流程图.Health指示灯红灯或橙灯闪烁。HDMSDS5.3收集HDMSDS日志图6-106.4.5开机故障流程图4.2准备软件工具图6-11图6-12POST服务器未完成POST服务器完成了POST开始尝试访问启动设备时,表示POST图6-13POST图6-14iFIST查看BIOSHDMBIOSPOST界面查看。BIOSiFIST的版本配套关iFIST版本说明书里的“版本配套表”。图6-15iFIST图6-16图6-17表6-6LSIIT/IRMRPMCPMC的存储控制卡。LSI存储控制卡,指厂商为LSI的存储控制图6-18表6-7故障情况橙色闪烁常亮/闪烁故障情况常亮/闪烁故障情况图6-19HDMSDS5.3收集HDMSDS日志;操作系统日志的收集方法,请参5.2收集操作系统日志;硬盘日志的收集方法,请联系技术支持。图6-20图6-21网卡故障流程图(上图6-22网卡故障流程图(下图6-23GPU图6-24串口&DSDSwitchH3CUniServerE3300G6Switch交换板模块,Switch交换板故障诊断流程如图6-25检查系统能否识别该部件,并确保部件的固件和驱动,均更新为H3C4.4明确服务器最小化硬件配置。H3C购买,但和出现问题的服务器不兼容。服务器和部件的兼容性请通过服务器兼容的部件/服务器在BIOSPOST阶段报错,报错示例如7-1图7-1BIOSPOST图7-2图7-3LinuxNVMe图7-4LinuxNVMe的固件和驱动软件等。BIOSH3C官网进行获取。“PowerSupplyinputlostAC/DC)”,且无其他异常日志,请先检查服务器的外部供电是否图7-5HDM图7-6PowerButtonpressed表7-1PowerButtonpressedPowerButtonpressedPhysicalbuttonButtonPowerButtonpressedVirtualbuttonPowercyclePowerButtonpressedVirtualbuttonPoweroffPowerButtonpressedVirtualbuttonSoftoffResetButtonpressedVirtualbuttonResetHDM事件日志,查看日志中是否有记录部件温度过高的报警信息,部件温度过高可能会导致服务器自动关机。若是,处理方法请参见《H3CHDM告警日志信息参考手册》;分析Dmesg、Message制卡、网卡、GPU、FCHBA卡等的固件与驱动版本,是否和当前操作系统兼容。兼容性可通过OS兼容性查询工具进行查询。若是,请确保该部件的固件与驱动版本已升级至H3C官网最新版本;若否,请执行步骤(8)。R5500G5服务器,PCIeswitch板之间的线缆是否安装到位,确保线缆稳固无松动。图7-7HDMWeb(4Hz:HDM(1Hz(1Hz(1Hz图7-8HDMR5500G5若问题仍然存在,则说明主板上对应的风扇接口异常,对于R5500G5服务器,还需要检查主板和PCIeswitch表7-2(3)如7-9HDMWeb界面,查看电源温度传感器温度,参考阈值确认当前读数是否图7-9查看HDMWeb界面,查看电源模块“当前总功率”是否已超出“总功率告警阈值”,若已图7-10(1Hz图7-11查看HDMWeb界面,若存在如下任意一条异常信息,请更换报错信息对应的电源模块,确PowersupplyinputlostAC/DC)Powersupplyinputout-of-rangebutpresentPowersupplypredictiveFailure图7-12查看电源模块事件日志(示例图7-13如7-14HDMWeb界面,查看电源温度传感器温度,参考阈值确认当前读数是图7-14图7-15RedundancyLost图7-16HDM事件日志提示电源模块“Vendor如7-18所示,HDMWeb界面上,传感器信息页面,电源状态为轻微,当前读数显示errorConfigurationerrorPowersupplyratingmismatch图7-17图7-18图7-19HDM电源信息页面,确认问题是否解决。NoVGA显示器黑屏,KVM显示NoSignal,如7-20图7-20KVM显示No服务器硬件故障或BIOSHDMWeb页面,查看事件日志中是否有硬件故障提示,如果有硬件错误提示,请排查(注意,清除CMOS后BIOS将恢复缺省设置),CMOS清除后将纽扣电池装回原位置,重AC上电操作,查看故障是否解决;若未解决执行步骤(3)。升级BIOSHDM版本查看问题是否解决,若未解决执行步骤(4)4.4明确服务器最小化硬件配置章节,如果EarlyPOST阶段挂死(HygonCPU的服务器BIOSSetup。图7-21EarlyPOST对于BIOSUPIInitializing对于BIOSMemoryInitializing阶段发生重启或者挂死的现象,可能由于内存安装不稳对于BIOSPCIDeviceEnumeratingHDMWeb页面,查看事件日志中是否有相应的故障日志信息,如有事件日志或传感器根据EarlyPOST请移除电源,移除CMOS以上操作仍然无法正常启动,强制覆盖配置升级BIOSCPU1CPU故障。若系统挂死在“MemoryInitializingHDM的[健康诊断/事件日志]页面上PCIe设备故障。POST系统上电后在BIOSPOSTBIOSSetup升级BIOS和BMC版本查看问题是否解决,若未解决执行步骤(4)SATA/SAS硬盘,逐步移除硬盘设备后重启确认是否故障解除,通过4.4明确服务器最小化硬件配置章节,如果服务图7-22硬件设备接触故障,如NVMe硬盘接触故障导致POSTNVMeUEFI驱动执行调用异常导致POST阶段红屏打印。图7-23PXE图7-24DHCP进入BIOSSetup的DriverHealthDHCP服务器正常,执行步骤(3)。PXEPXE图7-25PXEPXEBootBIOSSetup中PXEPXE网卡BootProtocolPXEPXEAbove4GBDecoding设置为Disabled网络环境中的PXEPXEPXEBoot的网卡。进入BIOSSetupPXE进入Advanced7-26NetworkConfiguration图7-26NetworkConfigurationIPv4PXESupportIPv6PXESupport(如需使用IPv6)是否启用,如7-27所示。图7-27NetworkStackConfigurationPCIENICConfiguration界面中确认网口的PXE7-28Enabled。图7-28NetworkPXEControl如对BIOSF4PXE。图7-29OptionROM图7-30图7-31MBABootProtocol为PXE,如7-32图7-32配置Legacy模式下,在BIOSSetup下的AdvancedPCISubsystemSettings菜单页面,如7-33所示。图7-33Advanced图7-34PCISubsystemSettingsPXE进入PXE图7-35PXE硬盘Fault/UID指示灯含义如7-3、7-4、表7-5表7-3SAS/SATA橙色闪烁常亮/闪烁常亮/闪烁常亮/闪烁闪烁表7-4NVMe/蓝色(绿色橙色闪烁橙色闪烁常亮/闪烁常亮/闪烁闪烁仅在BIOS下enableVMD且有NVMeVROCKey的情况下,支持对NVMe表7-5E1.S指示灯(绿色橙色闪烁橙色闪烁常亮/闪烁(4橙色闪烁常亮/闪烁(4常亮/闪烁闪烁硬盘在位,有数据读写操作或正在进行阵列迁移/HDMDriveFaultOffline如7-37所示,HDMWebRAID视图页面,查看存储控制卡信息,发现故障硬图7-36图7-37OS或者BIOSHDMBIOSH3C官网最新版本,检查硬盘状态是否正常。若可以识别,则执行步骤(4);若不能识别,(Fail逻辑盘降级(Degraded):PMC存储控制卡可以重新插拔硬盘尝试恢复;LSI存储控(Offline图7-38件至H3C官网最新版本。errorError[3296734.898693]sd0:0:67:0:[sde]tag#46FAILEDResult:hostbyte=DID_ABORT[3296734.898695]sd0:0:67:0:[sde]tag#0FAILEDResult:hostbyte=DID_ABORT[3296734.898701]sd0:0:67:0:[sde]tag#0CDB:Write(16)8a00000000015d46ced800002800[3296734.898708]sd0:0:67:0:[sde]tag#46CDB:Write(16)8a00000000000000080000000800[3296734.898711]blk_update_request:I/Oerror,devsde,sectorMar815:49:31A07-R18-I9-5-5002500kernel:sd0:0:0:0:[sda]FAILEDResult:hostbyte=DID_OKMar815:49:31A07-R18-I9-5-5002500kernel:sd0:0:0:0:[sda]SenseKey:HardwareErrorMar815:49:31A07-R18-I9-5-5002500kernel:sd0:0:0:0:[sda]Add.Sense:InternaltargetMar815:49:31A07-R18-I9-5-5002500kernel:sd0:0:0:0:[sda]CDB:Write(10)2a000268e0000010Mar815:49:31A07-R18-I9-5-5002500kernel:blk_update_request:criticaltargeterror,devsda,sector35023072[206109.776549]blk_update_request:criticalmediumerror,devsdl,sector[206112.336004]sd0:0:74:0:[sdl]tag#2FAILEDResult:hostbyte=DID_OK[206112.336009]sd0:0:74:0:[sdl]tag#2SenseKey:MediumError[current][descriptor][206112.336011]sd0:0:74:0:[sdl]tag#2Add.Sense:Unrecoveredreaderror[206112.336013]sd0:0:74:0:[sdl]tag#2CDB:Read(16)88000000000262000d0000000800图7-39Smart图7-40HDMPresent/Active指示灯,指示灯常亮/闪烁,说明硬盘背板供电正常;否则,请通过HDMBIOS下的存储控制卡管理界面,确认当前硬盘是否可以被存储控制卡识别。EnableVMD时,RHEL7.6/RHEL8.0/SUSE15/SUSE15SP1/SUSE12SP4Echo使能VMDledmonSUSE15ledmon.service文件,导致无图7-41Ledmon.servic

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论