版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、机房巡查要求及注意事项一巡查范围:服务器主机房、接入网机房、UPS供电及电池设备间。二巡查检查机房各机架间及供电设备间的温度,湿度及卫生情况。三逐机柜查看服务器机柜及网络机柜的正反面是否有红色或黄色故障频闪报警信号。1、发现故障设备的处理事项:a、当看到设备前面板告警指示灯点亮,应全面查看该设备各个部件,初步确认是否设备某一部件告警;b、发现有设备告警,记录下该设备的SN号,如初步确认是部件告警,还需记录该部件的PN号(Dell设备SN号一般位于设备面部左上角和左上方拉出式设备身份条;IBM设备SN号一般位于前面板右下角处;HP设备SN号一般位于前面板左右边缘处;交换机、路由器设备需连机用命令
2、获取)2、参照附件1主要厂商故障信号灯查询表记录具体故障。四检查机房的空调及设备间空调是否工作正常,有无报警信息,是否漏水或滴水。五检查机房的门、窗是否正常,下雨时是否有渗水入机房。六检查机房的电源设备,开关等是否异常;是否有老鼠、蟑螂和其它安全生产隐患。七如有异常情况应立即处理并进行事故登记,处理不了的应立时上报,并如实地做好各项巡查记录。八尽可能不要随意移动或开关机房的网络设备和服务器、电脑等设备,更不可挪用及带离机房。九巡查完毕离开机房时要关灯,锁好门。注意:机房的空调设备在停电时会停止工作,而交换机和虚拟平台负载服务器等设备发热非常厉害,空调机停止工作一小时,机房内的温度将会上升到35
3、以上。继续下去将会影响设备的正常工作,甚至会着火,非常危险!所以在市电停电后要加强对机房的巡查,注意机房内温度的变化,恢复供电后要到机房检查空调是否制冷正常。如有异常,立即上报!UPS及蓄电池巡检要求:一、 UPS巡检:(1)检查UPS设备间是否有异味!(2)检查UPS主机是否有声音或面板报警信号。如有即刻记录故障状态并及时通报相关部门。(3)检查UPS主机前、后方进排风是否正常,排风温度是否过高(人体感觉明显偏热)。(4)检查UPS面板显示负载是否正常,是否存在旁路供电或欠压。二、蓄电池巡检:(1)在条件允许下,断开蓄电池负载和充电设备20分钟后测量整组电池电压,单节电池电压,单节电压最大限
4、度不得悬殊0.05V,测量主要目的为发现落后单体,及时更换落后单体。(2)禁锢各电池间连接条,如单个或多个连接条松动会影响整组电池的电压输出,缩短电池的放电时间,从而影响整组电池的寿命。可用手触摸连接条感觉其温度变化,若存在个别发热现象,说明连接条松动,应及时紧固,紧固时注意其操作工具的绝缘处理。防止正负极短路,造成故障。 (3)检查电池是否漏液,发现漏液现象及时擦净观察是否继续漏液,如出现继续漏液现象抓紧上报相关部门跟踪处理。 (4)巡检时应观察蓄电池外壳有无壳体变形情况,并用手感觉其单体有无温度异常情况,若某一单体过温应及时处理。附件1、各厂商设备指示灯含义1、HP设备(包括型号HP DL
5、380、HP DL580)1)服务器前面板如下图所示的指示灯可以指示服务器的工作状况: 指示灯描述状态及含义USB 电源按钮及指示灯菊黄色 = 系统关闭(电源连接)绿色 = 系统启动 Off = 服务器未接通电源网卡 指示灯指示网卡的工作情况外部监控状况指示灯(电源模块)(当一路电源未插上时此灯点亮,可观察设备背后确认)绿色 = 正常 (系统启动) 菊黄色 =冗余电源模块出现故障
6、160;红色 = 严重的电源故障Off = 系统关内部健康状况指示灯绿色 = 正常 (系统启动) 菊黄色 = 系统健康情况降级 (查看服务器内部冗余部件是否有故障)红色 = 严重系统故障(查看服务器内部是否有严重故障)Off = 系统关闭服务器UID 指示灯蓝色 = 激活 蓝色闪烁= 服务器被远程管理Off = 未激活(可以在维护时通过打开UID指示灯,在维护服务器后部时可以确定指明被维护的服务器。)2)快速诊断板指
7、示灯的含义 ,见下表: 编号描述状态Online Spare memory 指示灯绿保护模式开启 琥珀色闪烁内存配置错误 琥珀色内存失败 不亮没有保护Mirrored memory 指示灯绿保护模式开启 琥珀色闪烁内存配置错误 琥珀色内存失败 不亮没有保护 所有其他指示灯琥珀色失败 不亮正常 注 : HP ( Systems Insight Display)快速诊断板 的指示灯表现出了主板部件
8、的布局 。 当前面板的内部健康灯 亮红灯或是黄灯时 , 表示此时服务器可能发现了一个故障 , 可以结合前面板的内部健康灯和快速诊断板指示灯 ( Systems Insight Display ) , 指示出服务器的当前状态。快速诊断板指示灯颜色服务器状态 Processor failure , socket X 红一个或多个以下的情况可能存在 :socket X 槽位的 处理器失败了
9、 。X 槽位的 处理器未安装好 。 X 槽位的 处理器是不支持的 。 在自检时 ROM 发现了一个失败的处理器 。琥珀色X 槽位的 处理器处于即将失败的情况。 PPM failure , slot X 红一个或多个以下的情况可能存在 :X 槽位的 PPM 失败了 。X 槽位的 PPM 未安装 , 却安装
10、160;了相应的处理器 。Online spare memory红有缺陷的在线冗余内存配置 。琥珀色X 组的内存故障 , 且在线冗余内存启用 。Online spare memory绿在线冗余内存配置已启用且为正常状态。FBDIMM failure , slot X红X 槽位的 内存失败了 。FBDIMM failure , all slots in one bank红指定的内存组上没有有效的或是可用的内存 。 Mirrored memory红有
11、缺陷的镜象内存配置 。琥珀色X 组的内存故障 , 且镜象内存启用 。绿镜象内存配置已启用且状态 。 正常Overtemperature红温度报警琥珀色温度预报警Riser interlock红PCI 扩展笼未接或不牢固 。 Fan红两个或更多的风扇故障或未安装琥珀色有一个风扇故障或未安装 。 2、IBM设备(具体设备可能有些出入)1)服务器前面板如下图所示的指示灯可以指示服务器的工作状况: 信息指示灯:当该灯亮时,表明错误或者警告信息已经写入
12、系统事件日志中。定位器指示灯:该灯亮表明是由系统管理员远程点亮以便找到服务器。系统错误指示灯:该灯亮表明系统出现错误。通过光通路诊断板来定位故障。供电指示灯:a、该灯点亮且不闪烁,表明服务器已经开启。b、该灯闪烁时,表明服务器已经关闭且仍然连接到交流电源。c、该灯熄灭时,表明已经切断交流电源或者电源或者指示灯本身出了故障 1、 光通路诊断面板指示灯 指示灯描述操作OVERSPEC没有足够的电量为系统供电。NONRED和LOG指示灯可能也点亮1、如果只安装了一个电源,请添加一个可选电源。2、使用220V交流电输入功率。3、重新安装以下组件:电源
13、;电源底板。PS一个电源故障或者被电源未插专家处理LINK保留专家处理CPUCPU出现故障、丢失或者未正确安装专家处理VRM直流电-直流电稳压器丢失或者故障专家处理LOGBMC日志或者系统错误日志满(系统错误日志达到75%满)专家处理MEM内存故障专家处理NMI系统已收到一个硬件错误报告。(PCI和MEM指示灯也可能点亮)专家处理PCIPCI适配器出现故障专家处理SPRemote Supervisor Adapter II SlimLine中出现故障专家处理DASD硬盘出现故障或者被卸下专家处理RAIDRAID适配器出现故障专家处理NONRED服务器使用非冗余电源或者其交流电源出现故障,系统将
14、超出规范。专家处理TEMP系统温度或者组件超出规范。(风扇FAN可能也被点亮)专家处理FAN风扇出现故障或者被卸下专家处理PCI BRDPCI-X板出现故障专家处理CPU BRDCPU托盘出现故障专家处理I/O BRDI/O板出现故障专家处理 注:REMIND按钮:按下REMIND按钮时,表示确认错误,但不准备立即采取措施,将系统错误指示灯置于“提醒”方式。当服务器处于“提醒”方式时,系统错误指示灯将闪烁。3、Dell服务器出错代码和含义 解决 LCD 状态信息所述的问题 状态 LCD 上仅显示一则信息时,请在表中查找
15、该代码并执行建议的更正措施。在这种情况下,LCD 上的代码指出的一般是十分明确而又容易更正的故障情况。例如,如果显示代码 E0280 MISSING VRM 2,则表示微处理器安装在插槽 2 中,但是此微处理器的 VRM 未正确安装或者不存在。或者,您也可以通过多个相关错误来确定故障情况。例如,如果您收到一组信息表示多处电压故障,则可以确定问题是由于电源设备出现故障而导致的。清除 LCD 状态信息 对于与传感器(例如温度、电压和风扇等)有关的故障,当传感器恢复正常状态时,LCD 信息将被自动清除。例如,如果某个组件的温度超出范围,LCD 将显示此故障;当温度恢复到可接受的范围时,LCD 将不再
16、显示此信息。对于其它故障,则必须采取措施以清除显示屏上的信息:清除 SEL 可以远程执行此任务,但会丢失系统的事件历史记录。机箱侵入 如果卸下了主机盖,系统将假定您正在维修出现故障的组件;装回主机盖时,系统将清除此 LCD 信息。关闭再打开电源 关闭系统并断开系统与电源插座的连接;等待大约十秒钟,重新连接电源电缆,然后重新启动系统。以上任何操作都将清除故障信息,并使状态指示灯和 LCD 的颜色恢复正常状态。在以下情况下,系统将重新显示信息:传感器恢复正常状态后再次出现故障,导致生成新的 SEL 条目。系统重启动并检测到新的错误事件。记录的故障来自映射至相同显示屏条目的另一个源。 第
17、1 行信息第 2 行信息原因SYSTEM ID (系统 ID) SYSTEM NAME(系统名称)系统 ID 是唯一的名称,最多由五个字符组成。此 ID 可以设定为默认值,也可以由用户定义。系统名称是唯一的名称,最多由 16 个字符组成。此名称可以设定为默认值,也可以由用户定义。在以下情况下,将显示系统 ID 和系统名称:· 系统已接通电源。 · 电源已关闭并显示当前 POST 错误。 E0000 OVRFLW CHECK LOGLCD 过载信息。LCD 上最多可以连续显示三则错误信息。第四则信息显示为标准过载信息。E0119 TEMP AMBIENT 系统环境温度超出可接
18、受范围。E0119 TEMP BP 背板温度超出可接受范围。E0119 TEMP CPU n 指定微处理器温度超出可接受范围。E0119 TEMP SYSTEM 系统板温度超出可接受范围。E0212 VOLT 3.3 系统电源设备的电压超出可接受范围;系统电源设备出现故障或未正确安装。E0212 VOLT 5 E0212 VOLT 12 E0212 VOLT BATT 电池出现故障;系统板出现故障。E0212 VOLT BP 12 背板电压超出可接受范围。E0212 VOLT BP 3.3 E0212 VOLT BP 5 E0212 VOLT CPU VRM 微处理器 VRM 电压超出可接受范
19、围;微处理器 VRM 出现故障或未正确安装;系统板出现故障。E0212 VOLT NIC 1.8V 集成 NIC 电压超出可接受范围;电源设备出现故障或未正确安装;系统板出现故障。E0212 VOLT NIC 2.5V E0212 VOLT PLANAR REG系统板电压超出可接受范围;系统板出现故障或未正确安装。E0276 CPU VRM n 指定微处理器 VRM 出现故障、不受支持、未正确安装或不存在。E0276 MISMATCH VRM nE0280 MISSING VRM n E0319 PCI OVER CURRENT 扩充卡出现故障或未正确安装。E0412 RPM FAN n 指定
20、冷却风扇出现故障、未正确安装或不存在。E0780 MISSING CPU 1 插槽 1 中未安装微处理器。E07F0 CPU IERR 微处理器出现故障或未正确安装。E07F1 TEMP CPU n HOT 指定微处理器温度超出可接受范围,并已停止运行。E07F4 POST CACHE 微处理器出现故障或未正确安装。E07F4 POST CPU REG E07F4 POST CPU SMI SMI 处理程序无法初始化;系统板出现故障。E07FA TEMP CPU n THERM 指定微处理器温度超出可接受范围,并以降低的速率或频率运行。E0876 POWER PS n 指定电源设备无法供电;指
21、定电源设备未正确安装或出现故障。E0880 INSUFFICIENT PS 系统电量不足;电源设备未正确安装、出现故障或不存在。E0CB2 MEM SPARE ROW 达到内存体的可更正错误阈值:错误被重新映射至备用行。E0CF1 MBE DIMM Bank n 指定内存体中安装的内存模块的类型和大小不一致;内存模块出现故障。E0CF1 POST MEM 64K 主内存的第一个 64 KB 中出现奇偶校验错误。E0CF1 POST NO MEMORY主内存刷新验证失败。E0CF5 LOG DISABLE SBE 单个内存模块中出现多个单位错误。E0D76 DRIVE FAIL 硬盘驱动器或 R
22、AID 控制器出现故障或未正确安装。E0F04 POST CMOS CMOS 读/写失败;系统板出现故障。E0F04 POST CPU SPEED 微处理器速率控制顺序出错。E0F04 POST DMA INIT DMA 初始化失败;DMA 页面寄存器读/写失败。E0F04 POST DMA REG 系统板出现故障。E0F04 POST KYB CNTRL 键盘控制器出现故障;系统板出现故障。E0F04 POST MEM RFSH 主内存刷新验证失败。E0F04 POST PIC REG 主或从 PIC 寄存器检测失败。E0F04 POST SHADOW BIOS shadowing 效率增强
23、技术出现故障。E0F04 POST SHD TEST 关闭系统检测失败。E0F04 POST SIO 超级 I/O 芯片出现故障;系统板出现故障。E0F04 POST TIMER 可编程间隔计时器检测失败;系统板出现故障。E0F0B POST ROM CHKSUM 扩充卡出现故障或未正确安装。E0F0C VID MATCH CPU n 指定的微处理器出现故障、不受支持、未正确安装或不存在。E10F3 LOG DISABLE BIOS BIOS 已禁用错误记录。E13F2 IO CHANNEL CHECK 扩充卡出现故障或未正确安装;系统板出现故障。E13F4 PCI PARITY E13F5
24、PCI SYSTEM E13F8 CPU BUS INIT 微处理器或系统板出现故障或未正确安装。E13F8 CPU BUS PARITY 系统板出现故障。E13F8 CPU MCKERR 计算机检测出错;微处理器出现故障或未正确安装;系统板出现故障。E13F8 HOST BUS 系统板出现故障。E13F8 HOST TO PCI BUS E13F8 MEM CONTROLLER 内存模块出现故障或未正确安装;系统板出现故障。E1580 POWER CONTROL 系统板出现故障。E1614 PS 2 Status E1624 PS Redundancy检查电源部(连线)E20F1 OS HA
25、NG 操作系统监视计时器超时。EB107 CPU总线EB113 PCIE总线Proc Machine ChkI/O Fatal ErrChipSet Error6860报,重新插拔CPU重新插拔PCIE设备(包括扩展板、阵列卡)、清静电EFFF0 RAC ERROR 远程访问控制器固件出现故障;系统板出现故障。EFFF1 POST ERROR BIOS 错误。EFFF2 BP ERROR 背板出现故障或未正确安装。http:/www.shannon-E1114Temp Ambient系统周围环境温度超出允许范围。E1116Temp Memory内存已超过允许温度,系统已将其禁用以防止损坏组件。
26、E1210CMOS Batt缺少 CMOS 电池,或电压超出允许范围。E1211ROMB BattRAID 电池丢失、损坏或因温度问题而无法再充电。E12nnXX PwrGd指定的稳压器出现故障。E1229CPU # VCORE处理器 # VCORE 稳压器出现故障。E122B0.9V Over Voltage0.9 V 稳压器电压已超过电压允许范围E122CCPU Power Fault启动处理器稳压器之后,检测到稳压器故障E1310RPM Fan #指定的冷却风扇的 RPM 超出允许的运行范围。E1410CPU # IERR指定的微处理器正在报告系统错误。E1414CPU # Thermt
27、rip指定的微处理器超出了允许的温度范围并已停止运行。E1418CPU # Presence指定的处理器丢失或损坏,系统的配置不受支持。E141CCPU Mismatch处理器的配置不受 Dell 支持。E141FCPU Protocol系统 BIOS 已报告处理器协议错误。E1420CPU Bus PERR系统 BIOS 已报告处理器总线奇偶校验错误。E1421CPU Init系统 BIOS 已报告处理器初始化错误。E1422CPU Machine Chk系统 BIOS 已报告机器检查错误。E1618PS # Predictive电源设备电压超出允许范围;指定的电源设备安装错误或出现故障。E
28、161CPS # Input Lost指定的电源设备的电源不可用,或超出了允许范围。E1620PS # Input Range指定的电源设备的电源不可用,或超出了允许范围。E1710I/O Channel Chk系统 BIOS 已报告 I/O 通道检查错误。E1711PCI PERR B# D# F#PCI PERR Slot #系统 BIOS 已报告组件的 PCI 奇偶校验错误,该组件所在的 PCI 配置空间位于总线 #,设备 #,功能 #。系统 BIOS 已报告组件的 PCI 奇偶校验错误,该组件位于 PCI 插槽 #。E1712PCI SERR B# D# F#PCI SERR Slot
29、 #系统 BIOS 已报告组件的 PCI 系统错误,该组件所在的 PCI 配置空间位于总线 #,设备 #,功能 #。系统 BIOS 已报告组件的 PCI 系统错误,该组件位于插槽 #。E1714Unknown Err系统 BIOS 已确定系统中存在错误,但无法确定错误来源。E171FPCIE Fatal Err B# D# F#PCIE Fatal Err Slot #系统 BIOS 已报告组件的 PCIe 致命错误,该组件所在的 PCI 配置空间位于总线 #,设备 #,功能 #。系统 BIOS 已报告组件的 PCIe 致命错误,该组件位于插槽 #。卸下并重置 PCI 扩充卡。如果问题仍然存在,请参阅排除扩充卡故障。E1913CPU & Firmware MismatchBMC 固件不支持 CPU。E2010No Memory系统中没有安装内存。E2011Mem Config Err检测到内存,但是内存不可配置。配置内存期间检测到错误。E2012Unusable Memory已配置内存,但内存不可用。内存子系统出现故障。E2013Shadow BIOS Fail系统 BIOS 无法将其快擦写映像复制到内存中。E2014CMOS FailCMOS 出现故障。CMOS RAM 未正常工作。E2015DMA ControllerDMA 控制器出
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024美金结算支付合同范本6篇
- 2025年度拆除工程合同纠纷调解协议范本4篇
- 二零二五年度生物科技产业园厂址租赁及研发合作框架协议2篇
- 与消防队合作协议 2篇
- 2024跨境商业交易商议与协议制作详解版
- 2025年度老旧厂房拆迁安置房购置合同4篇
- 2025年度矿产资源测绘劳务分包合同(新版)4篇
- 2024年独家品牌代理协议
- 2025年度产业园租赁与运营一体化合同4篇
- 2024年03月浙江杭银理财岗位招考笔试历年参考题库附带答案详解
- 课题申报书:大中小学铸牢中华民族共同体意识教育一体化研究
- 岩土工程勘察课件0岩土工程勘察
- 《肾上腺肿瘤》课件
- 2024-2030年中国典当行业发展前景预测及融资策略分析报告
- 《乘用车越野性能主观评价方法》
- 幼师个人成长发展规划
- 2024-2025学年北师大版高二上学期期末英语试题及解答参考
- 批发面包采购合同范本
- 乘风化麟 蛇我其谁 2025XX集团年终总结暨颁奖盛典
- 2024年大数据分析公司与中国政府合作协议
- 一年级数学(上)计算题专项练习汇编
评论
0/150
提交评论