版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
关于服务器硬件的知识第1页,课件共73页,创作于2023年2月一、PCServer基础知识介绍PCServer的来源:PCServer从PC机发展而来,在继承了X86架构的同时,加入了服务器的技术;PCServer的服务器特性:Availablity:可用性--即稳定性,指服务器能够持续稳定运行较长时间; 实时的生产设备要求极高的稳定性,服务器必须能够长时间稳定和不间断的运行; 这种要求除了对服务器的硬件质量有很高的要求外,也催生了一些服务器的技术:
CPU的SMP技术、内存的冗余、热插拔及镜像技术; 硬盘的RAID技术;电源的热插拔技术、风扇的热插拔技术等等;Scalability:可扩展性可以进行扩容;
高要求、高质量、复杂的技术支持,导致了服务器的成本较高,从而要求设备具备可扩展性; 业务的关键性、实时性,架构的复杂,让迁移也成为难点; 设备的可扩展性,避免了性能瓶颈导致的业务迁移;
服务器要有多个CPU、内存、电源、风扇、PCI插槽;高端服务器和存储的联机技术;第2页,课件共73页,创作于2023年2月一、PCServer基础知识介绍3. Usability:易使用性相关的软件系统的设计; 为实际生产需求产生的服务器,具备了相关的硬件技术; 同时也要求相应的操作系统来使用和管理硬件;
比如Windows的Server版本;AIX;HP-UX;Solaris;Linux的企业版等; 专业的系统是经过封装的,在易于使用的同时又加强了专业性,所以我们需要进行学习;4. Manageability:易管理性硬件故障的在线修复和故障的预警机制;
要让服务器易于管理,那么其故障的告警机制、诊断机制、在线修复机制必须要强; 所以产生了冗余技术、备份技术、在线诊断技术、故障预警技术、内存纠错技术、热插拔技术和远程诊断技术等;第3页,课件共73页,创作于2023年2月一、PCServer基础知识介绍智能监控管理技术:我们必须对服务器的整体运行情况进行监控,所以监控管理技术会应运而生;首先,理解serviceprocessor—服务处理器;服务器基本都有serviceprocessor;只是各自运用的技术有些差别;设备上的关键部件总是有很多参数来表征他们的状态的,这些参数以电信号的方式通过I2C总线传给serviceprocessor,serviceprocessor处理之后传送给专门的监控软件,软件就在其界面上表现出来,呈现给管理员查看!设备上的每个重要部件都有传感器,传感器将收集到的部件状态通过I2C总线发送给serviceprocessor,这样子,监控软件,serviceprocessor,I2C总线和各部件的传感器连接起来形成了一个网络,这个网络区别于设备硬件系统和操作系统,就是所谓的监控管理网络;主要有以下几种技术:EMP应急管理端口;需要拨号;很少使用;ISC&ISMIntel服务控制或管理;Intel架构;局域网通信;客户端监控;IPMI智能平台管理接口;应用最多;内置BMC芯片,HP和DELL应用较多;SNMP简单网络管理协议;可以使用工作站终端管理网络设备;第4页,课件共73页,创作于2023年2月一、PCServer基础知识介绍总线技术:目前的服务器,多采用I2C总线技术;I2C总线技术的作用是集中管理服务器的部件,并监控它们的状态,以便于管理;CPU技术:
RISC:精简指令集;多用于小型机;
CISC:复杂指令集;多用于PC机及PCServer;
SMP技术:对称多处理器技术;保证了服务器的运算性能和冗余性能;这个技术的存在让我们不会因为坏了多个CPU中的一个而导致设备宕机;
DP技术:双处理器技术;SMP技术的低端版;
NUMA技术:IBM特有技术,扩展性能;多台设备联机聚成一台性能更高的设备;第5页,课件共73页,创作于2023年2月一、PCServer基础知识介绍内存技术:
ECC校验:只能修正1比特的错误;为了改善ECC性能:IBM:chipkill技术;HP:advancedECC技术;内存镜像技术:单纯提高ECC校验位数是不能解决所有的内存问题的;内存镜像技术就应运而生;--类似于磁盘镜像技术;内存镜像技术可以支持内存热交换和热添加,可以在线解决内存问题和进行内存扩容;HP和IBM各有自己的内存镜像技术;在线内存备份技术:可以使用备份的内存为使用内存做在线备份;类似于硬盘技术中的热备盘;内存RAID技术:类似于硬盘RAID技术,HPDL760灯型号设备上有使用;第6页,课件共73页,创作于2023年2月一、PCServer基础知识介绍硬件冗余技术:双份硬件;备用件处于待命状态;实时监控部件使用情况,一旦故障,备用件立即顶替,保证设备不宕机;比如:电源的冗余技术,保障供电;风扇的冗余技术,保障散热;热插拔和热添加技术:硬件冗余技术往往都伴随着热插拔和热添加技术;热插拔技术是指某些部件可以在系统运行的情况下进行插拔,不影响使用;热添加技术是指某些部件的空槽位可以在系统运行的情况下插入相应的部件,类似于USB设备的即插即用;热插拔和热添加技术由特殊的电路来实现,主要是热插拔控制器和针对槽位的电流控制器;
第7页,课件共73页,创作于2023年2月一、PCServer基础知识介绍硬盘RAID技术:硬盘的容量、IO速度、容错能力都成为服务器的性能瓶颈;使用RAID技术,可以解决单硬盘容量小、IO速度慢、出错容易导致数据丢失等问题;
要是有RAID技术,必须有RAID控制器和多块硬盘;主要有以下几种RAID级别:
RAID0:串接只是单纯扩大容量;并接在扩大容量的同时,提高磁盘的性能和吞吐量。没有冗余或错误修复能力,成本最小;
RAID1:RAID1又被称为磁盘镜像,每一个磁盘都具有一个对应的镜像盘。对任何一个磁盘的数据写入都会被复制镜像盘中;系统可以从一组镜像盘中的任何一个磁盘读取数据。能够在不影响性能的情况下最大限度的保证系统的可靠性和可修复性。成本最高;
RAID5:有3块以上硬盘组成,使用了校验的概念提供容错能力。总容量为=(N-1)*单盘容量;有较高的可靠性和可修复性;成本为一块盘的容量;第8页,课件共73页,创作于2023年2月一、PCServer基础知识介绍双网卡绑定技术网卡故障及链路故障容易造成业务中断;使用软件,将两块网卡虚拟成一个网卡,对外进行通信;如果其中一块网卡或其链路出现故障,不影响设备与外界的通信;主要的厂商有brodcom和intel;诊断技术:指示灯技术:通过指示灯或者液晶面板等手段对设备部件的状态进行监控;
IBM:光路诊断板;
HP:指示灯技术;新设备也开始使用光路诊断技术;
DELL:液晶面板告警技术;软件诊断:各厂商都使用各自的软件对设备节进行在线诊断;
IBM:director;DSAHP:Homepage;SMH;SIM;
DELL:openmanagerAdministrator;Dset;
第9页,课件共73页,创作于2023年2月二、IBMPCServer产品介绍及故障诊断产品介绍:Netfinity系列低端、早期产品集成度低;配置低;技术简单;
X系列曾经的主流产品集成度提高;性能提升;采用主流技术;SystemX系列最新的产品由X系列发展而来;各项性能均为顶端;目前各外地机场的IBM设备清单中,只有IBMSystemX3650这一款机型;属于最新的产品系列,而且3650本身也是IBM很经典的一款机型;
第10页,课件共73页,创作于2023年2月二、IBMPCServer产品介绍及故障诊断IBM产品命名规则:现在IBM服务器都是X3开始的,比如x3500M3,x3850X5
(1):x3说明是在x3架构下的服务器
(2):倒数第三个数字是代表功能,数字越大,代表功能越强大。也就是说IBMSystemx3850X5要比IBMSystemx3500M3性能更强
(3):倒数第二个数字是代表形状,,0代表塔式,其它数字(5,3,2等)代表机架式。
如:IBMSystemx3850X5则为机架式服务器,IBMSystemx3500M3则为塔
式服务器
(4):最后一个数字是代表CPU,0代表是用英特尔的CPU,5代表是用ADC的CPU。还有
后面的M3和X5就是内存上的区别,后者采用了MAX5技术,使内存扩展能力更强第11页,课件共73页,创作于2023年2月二、IBMPCServer产品介绍及故障诊断IBMSystemX3650主要性能特征:CPU:Intel®Xeon™FC-LGA771双核,4M二级缓存,2个插槽;内存:12个DIMM插槽,单条大小可以为512M、1G、2G、4G,必须成对;内存必须为全缓冲DIMM(FBD)PC2-5300DIMM,而且必须支持chipkill技术;光驱:IDE接口,可以是24倍速的CD,也可以是8倍速的DVD;硬盘:只支持SAS硬盘;可以为3.5英寸,也可以是2.5英寸;
3.5英寸最多可以插6个,2.5英寸最多可以插8个;
PCI:集成在主板上有两个PCIE插槽,使用可选件可以支持PCIX的卡;风扇:标准5个,最多可以10个(支持冗余散热);电源:835W,最少一个,最多两个(支持冗余);
RAID:主板上集成了RAID控制器,但是只有在安装了ServeRAID8k或8k-lSAS控制器时才处于活动状态;
ServeRAID
8k-l只支持RAID0、1和10;
ServeRAID8k,256MB带有备用电池,支持RAID0、1、1E、5、6和10;
第12页,课件共73页,创作于2023年2月二、IBMPCServer产品介绍及故障诊断主要故障诊断方法:LED指示灯法:前面板LED指示灯、光路诊断板指示灯、后面板LED指示灯、主板LED指示灯;
POST蜂鸣声代码、错误消息和错误日志:
POST为开机自检;poweronself-test;开机自检(POST)生成蜂鸣声代码和消息,以表明测试成功完成或检测到问题。诊断程序、消息和错误代码:
IBMPCServer在只读存储器上集成了一个诊断程序;需要重启,按下F2键,运行诊断程序;ServeRAIDmanager程序:安装在系统中,在线查看RAID和硬盘状态DSA程序:收集系统信息、底层硬件日志,借以判断硬件及系统状态;第13页,课件共73页,创作于2023年2月二、IBMPCServer产品介绍及故障诊断LED指示灯法:
前面板:
3.5英寸硬盘:2.5英寸硬盘:第14页,课件共73页,创作于2023年2月二、IBMPCServer产品介绍及故障诊断前面板指示灯分析:不管是安装了3.5英寸的还是2.5英寸的硬盘,设备前面板的指示灯基本都一样,主要需要关注两个: 操作员信息面板和硬盘驱动器状态指示灯;操作员信息面板:
需要注意:硬盘驱动器活动指示灯:当该指示灯闪烁时,表明硬盘驱动器正在使用中。信息指示灯:当该指示灯点亮时,表明发生了一般性事件。光通路诊断面板上的某个指示灯也会点亮,以帮助找出错误。系统错误指示灯:当该指示灯点亮时,表明发生了系统错误。光通路诊断面板上的某个指示灯也会点亮,以帮助找出错误。释放滑锁:将该滑锁滑向左侧可操作光通路诊断面板,该面板位于操作员信息面板的后面。第15页,课件共73页,创作于2023年2月二、IBMPCServer产品介绍及故障诊断光路诊断板分析:使用释放滑锁将光路诊断板拉出的时候,可以看到如下图所示:
OVERSPEC:电源功率超过最大额定值PSX:托架X中的电源发生故障;CPU:微处理器发生故障;VRM:微处理器稳压器模块(VRM)上发生错误。CNFG:发生硬件配置错误MEM:当该指示灯点亮时,表明发生了内存错误。NMI:发生机器检查错误SP:服务处理器发生故障DASD:发生硬盘驱动器错误RAID:发生RAID控制器错误FAN:风扇发生故障TEMP:系统温度已超出阈值级别BRD:系统板上发生错误PCI:PCI总线或系统板上发生错误第16页,课件共73页,创作于2023年2月二、IBMPCServer产品介绍及故障诊断指示灯
问题操作无,但无系统错误指示灯点亮。已发生错误但无法诊断,或IMM发生故障。光通路诊断指示灯不表示该错误。使用SetupUtility来查看系统事件日志,获取有关错误的信息。BRD主板上发生错误。1.检查主板上的指示灯,确定引起错误的组件。在下列情况下,BRD指示灯可能会点亮:●电池●缺少PCI转接卡组合件●稳压器发生故障2.查看系统事件日志,获取有关错误的信息。3.更换所有发生故障的可更换组件或安装缺少的可更换组件,如
电池或PCI转接卡组合件。4.如果稳压器发生故障,请更换主板。第17页,课件共73页,创作于2023年2月二、IBMPCServer产品介绍及故障诊断指示灯
问题操作CNFG发生硬件配置错误。CPU当只有CPU指示灯点亮时,才表示微处理器发生故障。当CPU指示灯和CNFG指示灯都点亮时,表示微处理器配置无效。1.确定CNFG指示灯是否也点亮。如果CNFG指示灯不亮,表示微处理器发生故障。2.如果CNFG指示灯点亮,表示微处理器配置无效。DASD发生硬盘驱动器错误。硬盘驱动器发生故障或缺失。1.检查硬盘驱动器上的指示灯以找出状态指示灯点亮的那个驱动器,然后重新安装该硬盘驱动器。2.重新安装硬盘驱动器底板。3.如果该错误仍然存在,请按所示顺序更换以下组件:a.更换硬盘驱动器。b.更换硬盘驱动器底板FAN风扇发生故障,或者是运行过慢,或者是已卸下风扇。TEMP指示灯可能也会点亮。1.重新安装由主板上风扇接口附近点亮的指示灯所指示的故障风扇。2.更换由主板上风扇接口附近点亮的指示灯所指示的故障风扇。LOG已将错误消息写入系统事件日志查看IMM系统事件日志和系统错误日志,获取有关错误的信息。更换错误日志中指出的所有组件。第18页,课件共73页,创作于2023年2月二、IBMPCServer产品介绍及故障诊断指示灯
问题操作MEM当只有MEM指示灯点亮时,才表示发生了内存错误。当MEM指示灯和CNFG指示灯都点亮时,表示内存配置无效。1.确定CNFG指示灯是否也点亮。如果是,请运行内存测试试验程序以确定问题。a.如果测试报告有内存错误发生,请更换由主板上点亮的指示灯所指示的故障DIMM。b.如果测试报告内存配置无效,请将DIMM重新插入具有受支持配置的插槽中。2.如果CNFG指示灯不亮,那么应该出现了以下某种情况:v服务器未引导且DIMM故障指示灯点亮。a.查看系统事件日志(SEL)中是否存在PFA日志事件。b.重新安装DIMM。c.如果问题仍然存在,请将DIMM移到其他插槽中。1)如果主板上与这个新DIMM插槽对应的DIMM指示灯点亮,请更换DIMM。2)如果主板上与原DIMM插槽对应的DIMM指示灯点亮,请更换主板(仅限经过培训的技术服务人员)。v服务器已引导,发生故障的DIMM被禁用且其对应的指示灯点亮。a.如果两个DIMM对应的指示灯都点亮,请查看系统事件日志以找出有关其中一个DIMM的PFA,然后更换该DIMM。否则,请同时更换这两个DIMM。b.如果只有一个DIMM对应的指示灯点亮,请更换该DIMM。c.在服务器固件设置中重新启用DIMM插槽。NMI发生不可屏蔽的中断,或按下了NMI按钮。查看系统事件日志,获取有关错误的信息。第19页,课件共73页,创作于2023年2月二、IBMPCServer产品介绍及故障诊断指示灯
问题操作OVERSPEC由于某个电源通道上出现电源超负荷情况,所以关闭了服务器。电源功率超过最大额定值。1.检查电源指示灯以了解是否有错误指示(交流电源指示灯和直流电源指示灯未同时点亮,或信息指示灯点亮)。更换发生故障的电源。2.从服务器卸下可选设备。PCIPCI总线或主板上发生错误。发生故障的PCI插槽旁的附加指示灯点亮。1.检查PCI插槽上的指示灯,确定导致错误的
组件。2.查看系统事件日志,获取有关错误的信息。3.如果无法通过指示灯和系统事件日志中的信息确定发生故障的适配器,请从发生故障的PCI总线上逐个卸下适配器,并且每卸下一个适配器都重新
启动一次服务器。PS电源发生故障。检查电源指示灯以了解是否有错误指示(交流电源指示灯和直流电源指示灯未同时点亮)。2.确保发生故障的电源已正确安装到位。3.更换发生故障的电源。RAIDRAID卡发生故障RAID卡有错误信息或RAID卡有硬件错误SP服务处理器(IMM)发生故障。1.切断服务器的电源;然后将服务器重新连接到电源并重新启动服务器。2.更新IMM上的固件。TEMP系统温度已超出阈值级别。发生故障的风扇会导致TEMP指示灯点亮。查看错误日志,以确定在哪里测得温度过高情况。如果风扇发生故障,请进行更换。2.确保室温不会太高。了解温度信息。3.确保通风孔未堵塞。第20页,课件共73页,创作于2023年2月二、IBMPCServer产品介绍及故障诊断LED指示灯法:
后面板:
交流电源指示灯、直流电源指示灯:每个热插拔电源都有一个直流电源指示灯和一个交流电源指示灯。
系统错误指示灯:当该指示灯点亮时,表明发生了系统错误。光通路诊断面板上的某个指示灯也会点亮,以帮助找出错误。和前面板上的系统错误指示灯对应;交流直流操作员信息面板供电指示灯描述灭灭灭服务器无电源,或交流电源发生问题。亮灭灭直流电源问题亮亮灭备用电源问题第21页,课件共73页,创作于2023年2月二、IBMPCServer产品介绍及故障诊断LED指示灯法:
主板LED指示灯:在一些情况下,比如光路诊断板上的CPUMEM灯亮起了,我们并不能断定是哪个槽位的部件故障了,这个时候就需要打开机器上盖板,查看主板上哪个具体的部件出现了故障,借以做具体的故障定位;
第22页,课件共73页,创作于2023年2月二、IBMPCServer产品介绍及故障诊断POST蜂鸣声代码、错误消息和错误日志:当您开启服务器时,它会执行一系列测试来检查服务器组件以及服务器上的某些可选设备的运行情况。这一系列的测试称为开机自检或POST。如果设置了开机密码,则必须在出现提示时输入该密码并按Enter键,才能使POST运行。如果POST完成且未检测到任何问题,则将发出单声蜂鸣声,且服务器启动完成。如果POST检测到问题,则可能会发出多声蜂鸣声或显示错误消息
第23页,课件共73页,创作于2023年2月二、IBMPCServer产品介绍及故障诊断POST蜂鸣声代码、错误消息和错误日志:
POST蜂鸣声代码:蜂鸣声代码是或长或短的一组蜂鸣声,或是中间略微停顿的一系列短蜂鸣声。例如,“1-2-3”蜂鸣声代码依次发出一声短蜂鸣声、一次停顿、两声短蜂鸣声、一次停顿和三声短蜂鸣声。除一声蜂鸣声以外的蜂鸣声代码表明POST已检测到问题。具体设备的蜂鸣声的含义,需要查看具体的手册;我们只需要能判断出嗡鸣声是什么长短组合,具体代表的故障含义可以交由后台判断;
第24页,课件共73页,创作于2023年2月二、IBMPCServer产品介绍及故障诊断POST蜂鸣声代码、错误消息和错误日志:错误消息和错误日志:
POST错误日志包含POST过程中生成的三个最新的错误代码和消息。BMC系统事件日志包含受监视的事件,例如达到阈值或设备发生故障。BMC系统事件日志的大小受限制。当日志到达上限后,新的条目不会覆盖现有条目;因此,必须通过Configuration/SetupUtility程序定期清除BMC系统事件日志可以从Configuration/SetupUtility程序查看POST错误日志、BMC系统事件日志和系统事件/错误日志的内容。您还可以从诊断程序查看BMC系统事件日志的内容。从Configuration/SetupUtility程序查看错误日志
开启服务器当提示PressF1forConfiguration/Setup出现时,请按F1键。要查看POST错误日志,请选择Event/ErrorLogs,然后选择POSTErrorLog。要查看BMC系统事件日志,请选择AdvancedSetup-->BaseboardManagementController(BMC)Setting-->SystemEventLog。要查看组合的系统事件/错误日志和POST错误日志,请选择Event/Errorlogs,然后选择SystemEvent/ErrorLog。第25页,课件共73页,创作于2023年2月二、IBMPCServer产品介绍及故障诊断POST蜂鸣声代码、错误消息和错误日志:从诊断程序查看BMC系统事件日志
不论是通过Configuration/SetupUtility程序查看还是诊断程序查看,BMC系统事件日志所包含的信息都是相同的。要查看BMC系统事件日志,请完成以下步骤:1.如果服务器正在运行,请关闭服务器和所有已连接的设备。2.开启所有已连接的设备;然后开启服务器。3.当提示F2forDiagnostics出现时,按F2键。如果您同时设置了开机密码和管理员密码,则必须输入管理员密码才能运行诊断程序。4.从屏幕顶部选择HardwareInfo。5.从列表中选择BMCLog。第26页,课件共73页,创作于2023年2月二、IBMPCServer产品介绍及故障诊断POST蜂鸣声代码、错误消息和错误日志:清除错误日志要清除错误日志,请完成以下步骤:1.开启服务器。2.当提示PressF1forConfiguration/Setup出现时,请按F1键。如果您同时设置了开机密码和管理员密码,则必须输入管理员密码才能查看错误日志。3.执行以下某个步骤:要清除BMC系统事件日志,请选择AdvancedSetup-->BaseboardManagementController(BMC)Setting-->BMCSystemEventLog。选择ClearBMCSEL。要清除系统事件/错误日志(如果存在)或POST错误日志,请选择Event/ErrorLogs,然后选择PostErrorLog或SystemEvent/ErrorLog。当显示任何日志条目时,按Enter键(每个条目页面上会突出显示Clearxxxxlog,其中xxxx是正在查看的日志名称)。注:每次系统重新启动时都会自动清除POST错误日志。
至于日志的具体含义,我们可交由后台分析,我们只需要清楚怎么抓取日志即可;第27页,课件共73页,创作于2023年2月二、IBMPCServer产品介绍及故障诊断诊断程序、消息和错误代码:诊断程序是测试服务器主要组件的主要方法。当您运行诊断程序时,文本消息和错误代码将显示在屏幕上,并保存到测试日志中。诊断文本消息或错误代码表明已检测到问题。运行诊断程序:要运行诊断程序,请完成以下步骤:1.如果服务器正在运行,请关闭服务器和所有已连接的设备。2.开启所有已连接的设备;然后开启服务器。3.当提示F2forDiagnostics出现时,按F2键。如果您同时设置了开机密码和管理员密码,则必须输入管理员密码才能运行诊断程序。4.从屏幕顶部选择Extended或Basic。5.从诊断程序屏幕中选择要运行的测试,然后按照屏幕上的指示信息进行操作。诊断硬盘驱动器时,请选择SCSIAttachedDiskTest进行最全面的测试。对以下情况选择FixedDiskTest:
想运行更快的测试;服务器包含RAID阵列;服务器包含SATA或IDE硬盘驱动器。诊断文本消息Passed:测试完成并且未出现任何错误。Failed:测试检测到一个错误。UserAborted:您在测试完成之前停止了它。NotApplicable:您试图测试服务器中不存在的设备。Aborted:由于服务器配置问题,测试无法继续。Warning:无法运行测试。正在测试的硬件没有故障,但其他地方可能存在硬件故障或是另一个问题导致测试无法运行;例如,可能存在配置问题、硬件可能丢失或无法第28页,课件共73页,创作于2023年2月二、IBMPCServer产品介绍及故障诊断ServeRIADManager程序:
IBM使用ServeRIADManager程序使用和管理RAID组和磁盘;
ServeRIADManager是安装在操作系统中的软件,打开之后可以看到如下图所示的界面,可以根据其内容看到RAID和硬盘的状态;
第29页,课件共73页,创作于2023年2月二、IBMPCServer产品介绍及故障诊断DSA程序: 版本介绍:DSA有两个版本,一个版本是Portable
Edition,
一个版本是Installable
Edition。
使用安装版本,就在系统中安装了此程序,以后运行此程序就可以进行那个抓包;
运行该下载文件将DSA安装到硬盘上,安装在c:\Program
files\IBM\DSA,在正常运行的程序文件列表中选择“IBM
Dynamic
System
Analysis”,再选择“IBM
DSA”运行即可收集信息。收集的信息文件保存在c:\IBM_Support目录下,生成一个文件和一个目录;文件格式:型号_序列号_年月日_时分秒.xml.gz,目录名格式:型号_序列号_年月日_时分秒。
使用非安装版本,每次抓包都需要运行一次Portable
Edition的程序;
收集的信息文件保存在c:\IBM_Support目录下,文件格式:型号_序列号_年月日_时分秒.xml.gz。
将收集的信息包发给后台进行分析处理即可;
第30页,课件共73页,创作于2023年2月三、HPPCServer产品介绍及故障诊断产品介绍:HP公司的PC服务器也就是ProLiant系列服务器;HP称之为Prliant工业标准服务器;惠普ProLiant工业标准服务器包括:
ProLiantDL系列::高密度机架式服务器系列;提供最高灵活性及管理能力
ProLiantML系列:高扩展性服务器系列;为实现最高内部存储及I/O灵活性所专门设计
ProLiantBL系列:超密度刀片式服务器系列;为实现迅速部署与管理
ProLiantSL系列:可扩展系列
DL和ML是应用最广泛的机型,其中又以DL系统最多;DL:机架式;ML:塔式;BL:刀片式命名规则:以DLxyzGm或MLxyzGm命名,x表示系列;y表示小系列,DL和BL的一般为偶数,ML为奇数;z表示CPU类型,0为Intel,5为AMD(最后一位是0的话是Intel处理器,5则是AMD处理器);m表示是第几代;我们这边的HP的机型为DL380G5;第31页,课件共73页,创作于2023年2月三、HPPCServer产品介绍及故障诊断HPDL380G5主要性能特征:CPU:Intel®Xeon™5160双核,4M二级缓存,2个插槽;内存:8个DIMM插槽,单条大小可以为512M、1G、2G、4G,必须成对;Abank的两条必须有;内存为FBDIMM,PC2-5300F,Fully-BufferedDIMMs;光驱:IDE接口,可支持CD和DVD;硬盘:可支持SAS和SATA硬盘;
PCI:主板上有2个PCIE插槽;还有单独的PCICage;风扇:最多可以8个(支持冗余散热);实际使用量需要根据CPU个数调整;电源:800W,最少一个,最多两个(支持冗余);
RAID:配有64MB高速缓存的智能阵列E200控制器(RAID0/1);第32页,课件共73页,创作于2023年2月三、HPPCServer产品介绍及故障诊断HPDL380G5主要故障诊断方法: LED指示灯法:前面板LED指示灯、SystemsInsightDisplay板指示灯、后面板LED指示灯;
SmartStartCD离线诊断法:
HPSmartStartCD可以对设备进行离线测试和诊断;SMH程序:安装在系统中,在线查看设备状态,也可以进行在线测试和诊断;使用ILO口进行诊断:
ILO接口是HP设备的专用接口,可以对其配IP地址进行远程管理;
ILO口可以执行远程开关机、监控设备状态等;第33页,课件共73页,创作于2023年2月三、HPPCServer产品介绍及故障诊断HPDL380G5主要故障诊断方法: LED指示灯法:
HPDL380G5的前视图如右所示:在右图中,可见设备前面板有6部分;其中,对我们诊断有帮助的主要有三部分:
1、内外部健康指示灯;
2、SystemsInsightDisplay板指示灯;
3、硬盘指示灯;
内外部健康指示灯如右图所示:
第34页,课件共73页,创作于2023年2月三、HPPCServer产品介绍及故障诊断HPDL380G5主要故障诊断方法:
内外部健康指示灯:如右图所示,内外部健康指示灯有如下几部分组成:
1、UIDLED按钮,按下它,会以蓝光点亮;这个灯主要是用来给设备定位的;设备后面会有性对对应的UIDLED按钮;
2、InternalhealthLED:绿灯:正常;黄灯:设备降级,机箱内部部件有故障;红灯:设备危机,内部部件有严重故障;
3、ExternalhealthLED:绿灯:正常;黄灯:电源失去冗余;红灯:电源故障;
4和5、NIC1或者2link/activityLED:绿灯:网络链路正常;绿灯闪烁:网络正在活动,有数据传输;灭:无网络链路连接;
6、PowerOn/Standbybutton/systempowerLED:绿灯:设备已开机;黄灯:设备已关机,但仍有电力供应;灭:没有电力供应;
第35页,课件共73页,创作于2023年2月三、HPPCServer产品介绍及故障诊断HPDL380G5主要故障诊断方法: SystemsInsightDisplay板指示灯:如右图所示,SystemsInsightDisplay板指示灯有如下几部分组成:
1、Onlinespare指示灯(对内存而言):灭:没有开启内存保护功能;绿灯:开启了内存保护功能;黄灯:发生内存故障;黄灯闪烁:内存配置错误; 2、Mirror指示灯(对内存而言):灭:没有开启内存镜像功能;绿灯:开启了内存镜像功能;黄灯:发生内存故障;黄灯闪烁:内存配置错误;
3、其他所有指示灯:绿灯:正常;黄灯:对应部件故障;
注意:HP的SystemsInsightDisplay板能够定位到具体槽位的
CPU或者内存故障;比IBM的光路诊断板先进;
第36页,课件共73页,创作于2023年2月三、HPPCServer产品介绍及故障诊断HPDL380G5主要故障诊断方法:
后面板指示灯:有以下几个灯需要注意:
1、PowersupplyLED:绿灯:正常;黄灯:故障;
2、UIDLED按钮:和前面板的UIDLED按钮对应;
3、网络接口活动指示灯:绿灯或者绿灯闪烁:网络链路是活的;灭:没有网络活动;
4、网络接口链路指示灯:绿灯:有网络链接;灭:没有网络链接;
第37页,课件共73页,创作于2023年2月三、HPPCServer产品介绍及故障诊断HPDL380G5主要故障诊断方法: SmartStartCD离线诊断法:
HP设备都会随机附带一张SmartStartCD,除了在安装操作系统时提供驱动和软件之外,SmartStartCD还可以原来对设备部件进行检测和诊断;
第38页,课件共73页,创作于2023年2月HP管理软件介绍SMH软件HP的SMH软件是一个单系统管理软件,我们常常在巡检中使用它来检查底层硬件配置和设备健康状态;HPSystemManagementHomepage为单个系统管理提供整合的界面。HPSystemManagementHomepage提供了一个使用方便的通用界面,该界面通过汇集HP基于Web的代理以及管理实用程序提供的数据,可显示单个服务器的硬件故障和状态监视、性能数据、系统阈值、诊断信息以及软件版本控制。它具有以下特点:1、是web界面的;2、不仅能管理windows,还能管理linux和HP-UX;3、是单系统管理软件,一般在本机安装,也只能管理本机;SMH主要有以下几个模块:hardwarefaultandstatusmonitoring监控硬件状态,发现硬件错误;
performancedata性能分析;
systemthresholds
diagnostics诊断系统
softwareversioncontrolforanindividualserver--软件版本管理;三、HPPCServer产品介绍及故障诊断第39页,课件共73页,创作于2023年2月HP管理软件介绍SMH软件(续)管理软件如下图所示:三、HPPCServer产品介绍及故障诊断第40页,课件共73页,创作于2023年2月HP管理软件介绍ACU:HPACU(ArrayConfigurationUtility)—用于创建,配置和管理逻辑驱动器。也可用于初始化和重新扫描硬盘。
使用ACU可以直接查看RAID卡、Array、LogicalDrivers及硬盘的信息和状态的。ACU的操作界面如下图所示:1、运行ACU:开始-->程序-->HPSystemTools-->HPArrayConfigurationUtility-->SetupHPArrayConfigurationUtility2、如果ACU没有配置执行模式,运行ACU的时候会出来一个提示窗口让你配置,如右图:三、HPPCServer产品介绍及故障诊断第41页,课件共73页,创作于2023年2月HP管理软件介绍logviewer:Logviewer是一个日志管理工具,和SMH中的log是一样的;使用它可以很简便的查看系统发生的事件,包括故障:路径:开始-->程序-->HPSystemTools-->logviewer;注:HP的PCServer的管理和维护思路是一致的,其他的机型并不存在不同;三、HPPCServer产品介绍及故障诊断第42页,课件共73页,创作于2023年2月HP管理工具介绍ILO:iLO是IntergratedLight-Out的缩写,是惠普特有的远程管理功能,目前最新的版本是iLO2。通过iLO2可以实现硬件级别的服务器远程管理,包括开关机、重启、服务器状态的监控、虚拟KVM等。目前在惠普3、5、7系列服务器以及刀片服务器上一般都集成了iLO2控制芯片,管理员可以通过Web方式远程进行管理,配置过程和管理过程都非常简便,管理员可以从环境恶劣的机房中解放出来,管理过程轻松简洁,也降低了企业TCO成本。ILO技术详解详见:惠普iLO2远程管理功能实战.doc三、HPPCServer产品介绍及故障诊断第43页,课件共73页,创作于2023年2月四、DELLPCServer产品介绍及故障诊断产品介绍:
PoweredgeservermarketsegmentEntry/workgroup(入门级):PE350,1750,1850,1855,1900,1950;Departmental(部门级):PE2650,2850,2900,2950;Enterprise(企业级):PE6300,6650,6800;6850,6950;8450;
第44页,课件共73页,创作于2023年2月四、DELLPCServer产品介绍及故障诊断DELL服务器命名规则:第一位字母代表服务器类型:M代表模块,指刀片式;R代表机架式;T代表塔式。
如R710就是机架式服务器,T110则是塔式服务器。
第二位的数字代表几路服务器:9及以上表示是4路服务器,4到8表示是双路服务器,3及以下表示是单路服务器。如R710是一款双路机架式服务器,T110则是单路塔式服务器
第三位的数字表示该产品在Dell公司内部的第几代产品。
最后一位数字表示CPU的类型:0代表的是英特尔(Intel)处理器,5代表是ADC处理器
如:PowerEdgeR710是Intel平台的双路机架式服务器PowerEdgeT110是Intel平台的单路塔式服务器
第45页,课件共73页,创作于2023年2月四、DELLPCServer产品介绍及故障诊断DELLPCServer主要故障诊断方法: LCD面板告警:前面板上的LCD液晶面板会告诉我们很多故障信息;
软件诊断法:
DELL有自己的管理软件和诊断软件,可以使用这些来帮助判断故障;第46页,课件共73页,创作于2023年2月四、DELLPCServer产品介绍及故障诊断LCD面板告警:在DELL的PCServer前面板上,一般会有一个LCD的液晶面板;蓝色,显示设备型号:设备正常;黄色,显示告警信息:设备出现了故障;告警信息一般由两行组成:第一行:报错码,一般由5位组成,第一位一般是字母;第二行:报错说明,很简洁,很多是缩写;抓取这些报错信息,交给后台,就可以判断出来故障;报错信息例子如下:
E0280MISSINGVRMnSpecifiedmicroprocessorVRMisfaulty,unsupported,improperlyinstalled,ormissing.E0119TEMPAMBIENTAmbientsystemtemperatureisoutofacceptablerange.E0D76DRIVEFAILFaultyorimproperlyinstalledharddriveorRAIDcontroller.E0876POWERPSnNopoweravailablefromthespecifiedpowersupply;specifiedpowersupplyisimproperlyinstalledorfaulty.第47页,课件共73页,创作于2023年2月四、DELLPCServer产品介绍及故障诊断管理软件:
OpenmanagerServerAdministrator:
ServerAdministrator是DELL的一款管理软件,使用它我们可以很方便的查看系统状态,发现设备部件故障:获取途径:(1)
戴尔给客户的随机光盘。
旧版7.x,或者8.x的随机盘,在一张叫Dell
OpenManage
System
Management的光盘里面。
4.x的随机盘,在一张叫Installation
and
Server
Management的光盘里面。最新的在Systems
Management
Tools
and
Documentation
DVD盘内
(2)
戴尔支持网站:
具体链接:
/sysman/OM_6.1.0_ManNode_A00.exe
(随着网站的更新,地址有可能会有所更新)
安装之后,在桌面或者程序里面,会有DELLServerAdministrator的快捷方式;
具体操作步骤:
1,
双击桌面的快捷方式图标。
2,
在跳出的安全警告窗口security
alert选择YES。
第48页,课件共73页,创作于2023年2月四、DELLPCServer产品介绍及故障诊断第49页,课件共73页,创作于2023年2月四、DELLPCServer产品介绍及故障诊断3,在Log
in窗口的Username和Password框内填入本机的管理员帐户和密码。第50页,课件共73页,创作于2023年2月四、DELLPCServer产品介绍及故障诊断4,在主目录树选择System第51页,课件共73页,创作于2023年2月四、DELLPCServer产品介绍及故障诊断5,选择Logs选项卡第52页,课件共73页,创作于2023年2月四、DELLPCServer产品介绍及故障诊断6,通过Server
Administrator抓出来的ESM日志可以保存成2种格式:
(1)
html网页格式,方便阅读。
(2)
txt格式,一般用于邮寄回给后台工程师,以做诊断。
要保存为html网页格式,请单击Save
As,要保存为txt格式请跳到步骤10。
第53页,课件共73页,创作于2023年2月四、DELLPCServer产品介绍及故障诊断7,在跳出的File
Download窗口单击Save第54页,课件共73页,创作于2023年2月四、DELLPCServer产品介绍及故障诊断8,在跳出的Save
As窗口单击Save按钮第55页,课件共73页,创作于2023年2月四、DELLPCServer产品介绍及故障诊断9,在桌面或刚才选择保存路径的地方就可以找到一个以zip为扩展名的文件夹,要阅读里面的日志,请解压缩到一个独立的文件夹内,否则会出现乱码,或者有些图片无法显示。10,如果要把ESM的日志保存为txt格式的文档,回寄给工程师,请在刚才的保存页面单击Export。第56页,课件共73页,创作于2023年2月四、DELLPCServer产品介绍及故障诊断11,在跳出的Save
As窗口单击Save,注意文件名是以.log为扩展名的。在桌面或者刚才所保存的路径就可以看到一个以.log为扩展名的日志文件第57页,课件共73页,创作于2023年2月四、DELLPCServer产品介绍及故障诊断管理软件:DSET这个工具可以用来收集windows驱动,服务,网络设置等等,同时又包括CPU,memory,ESMlog,BIOS/firmwareversionsandsystemhealth(fan/voltagelevels).,它也收集系统存储信息,比如:RAID卡,硬盘等。
使用这个软件,不需要重新启动机器,不必安装,对您的系统不会有任何影响。
软件说明:
1、可以获取系统日志,硬件日志等一系列机器信息。
2、可以清除ESM/BMC日志,消除系统指示灯琥珀色的情况。
3、软件是独立的,不依赖与其他软件。
4、安装非常简单
5、在Linux下使用也非常的简单,以root身份直接运行文件名
6、支持几乎戴尔所有的机型。
需要注意的几点:
1、尽量使用最新版本的DSET软件。
2、运行时候必须要有管理员权限,Administrator或者root.
3、不支持NT4。
第58页,课件共73页,创作于2023年2月四、DELLPCServer产品介绍及故障诊断第59页,课件共73页,创作于2023年2月四、DELLPCServer产品介绍及故障诊断第60页,课件共73页,创作于2023年2月四、DELLPCServer产品介绍及故障诊断第61页,课件共73页,创作于2023年2月四、DELLPCServer产品介绍及故障诊断第62页,课件共73页,创作于2023年2月五、存储方式的分类根据服务器类型分为:封闭系统的存储和开放系统的存储封闭系统主要指大型机,开放系统指基于Windos、
Unix、Linux等操作系统的服务器开放式系统的存储分为:内置存储和外挂存储外挂存储根据连接方式分为:
直连式存储(Direct-AttachedStorage,简称DAS)
网络化存储(Fabric-AttachedStorage,简称FAS)网络化存储根据传输协议又分为:
网络接入存储(Nerwork-AttachedStorage,简称NAS)
存储区域网络(StorageAreaNetwork,简称SAN)第63页,课件共73页,创作于2023年2月五、存储方式的分类DAS存储:DAS是"直接附属存储"的缩写。它表示一个或数个服务器物理连接到外部RAID的非共享端口上。这些端口可以使任何标准的,SCSI或光纤通道皆可。每个端口只能由一个服务器来访问。
优点:1.能实现大容量存储,将多个磁盘合并成一个逻辑磁盘,满足海量存储的需求
2.可实现应用数据和操作系统的分离:操作系统一般存放本机硬盘中,而应用数据放置于阵列中
3.能提高存取性能:操作单个文件资料,同时有多个物理磁盘在并行工作,运行速度比单个磁盘运行速度高4.实施简单:无需专业人缘操作和维护,节省用户投资
局限:1.服务器本身容易成为系统瓶颈2.服务器发生故障,数据不可访问
3.对于存在多个服务器的系统来说,设备分散,不便管理。同时多台服务器使用DAS时,存储空间不能在
服务器之间动态分配,可能造成相当的资源浪费;4.数据备份操作复杂。第64页,课件共73页,创作于2023年2月五、存储方式的分类SAN存储:SAN是"存储局域网"的缩写。它代表多个服务器在交换的网络中既能共享存储也能共享端口。它的特色还体现在这种交换网络中一个或多个服务器能够访问多个外部RAID及存储设备。优点:SAN提供了一种与现有LAN连接的简易方法,并且通过同一物理通道支持广泛使用的SCSI和IP协议。SAN不受现
今主流的、基于SCSI存储结构的布局限制。特别重要的是,随着存储容量的爆炸性增长,SAN允许企业独立地增加
它们的存储容量。
SAN的结构允许任何服务器连接到任何存储阵列,这样不管数据置放在那里,服务器都可直接存取所需的数据。因
为采用了光纤接口,SAN还具有更高的带宽。因为SAN解决方案是从基本功能剥离出存储功能,所以运行备份操作就无需考虑它们对网络总体性能的影响。SAN
方案也使得管理及集中控制实现简化,特别是对于全部存储设备都集群在一起的时候。最后一点,光纤接口提供了10公里的连接长度,这使得实现物理上分离的、不在机房的存储变得非常容易局限:成本和复杂性,由于iSCSI技术使用的是现在已经大量生产的吉比特以太网硬件,而光纤通道技术要求特定的价格
昂贵的设备。
第65页,课件共73页,创作于2023年2月五、存储方式的分类NAS存储:NAS原文NetworkAttachedStorage,简单说就是连接在网络上,具备资料存储功能的装置,因此也称为“网络存储器”。优点:NAS产品是真正即插即用的产品。NAS设备一般支持多计算机平台,用户通过网络支持协议可进入相同的文档,
因而NAS设备无需改造即可用于混合Unix/WindowsNT局域网内。NAS设备的物理位置同样是灵活的。他们可放置在工作组内,靠近数据中心的应用服务器,或者也可放在其它
地点,通过物理链路与网络链接起来。无需应用服务器的干预,NAS设备允许用户在网络上存取数据,这样既可
减小CPU的开销,也能显著改善网络的性能。局限:NAS没有解决与文件服务器相关的一个关键性问题,即备份过程中的带宽消耗。与将备份数据流从LAN中转移
出去的存储区域网(SAN)不同,NAS仍使用网络进行备份和恢复。NAS的一个缺点是它将存储事务由并行SCSI连接转移到了网络上。这就是说LAN除了必须处理正常的最终用户传输流外,还必须处理包括备份操作的
存储磁盘请求。由于存储数据通过普通数据网络传输,因此易受网络上其它流量的影响。当网络上有其它大数据流量时会严重
影响系统性能;由于存储数据通过普通数据网络传输,因此容易产生数据泄漏等安全问题;
存储只能以文件方式访问,而不能像普通文件系统一样直接访问物理数据块,因此会在某些情况下严重影响系
统效率,比如大型数据库就不能使用NAS。
第66页,课件共73页,创作于2023年2月六、交换机的介绍概念:交换机将数据从一个端口转发至到另一个端口的处理方式称为交换模式。交换机的工作特点:
拥有一条很高带宽的背板总线和内部交换矩阵所有的端口都挂接在这条背板总线上控制电路收到数据包以后,处理端口会查找内存中的地址对照表以确定目的MAC地址的网卡(NIC)挂接在哪个端口上,通过内部交换矩阵迅速将数据包传送到目的端口目的MAC若不存在才广播到所有的端口,接收端口回应后交换机会“学习”新的地址,并把它添加入内部MAC地址表中。交换模式类型:
存储转发(StoreandForward)
直通交换(Cut—Through)
碎片丢弃(Fragmentfree)第67页,课件共73页,创作于2023年2月六、交换机的介绍存储转发(StoreandForward)特点:交换机接收到数据包后,首先将数据包存储到缓冲器中,进行CRC循环冗余校验,如果这个数据包有CRC错误,则该包
将被丢弃;如果数据包完整,交换机查询地址映射表将其转发至相应的端口。优点:没有残缺数据包转发,可减少潜在的不必要的数据转发缺点:转发速率比直接转发方式慢。适用环境:存储转发技术适用于普通链路质量或质量较为恶劣的网络环境,这种方式要对数据包进行处理,所以,延迟和帧的大小有关。直通交换(Cut—Through)特点:交换机只读出数据帧的前6个字节,即通过地址映射表中查找目标地址,将数据帧传
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 牙源性肿瘤病因介绍
- 养老机构居养中心上门服务提供示意图1-1-1
- 流感病毒肺炎病因介绍
- (高考英语作文炼句)第17篇译文老师笔记
- 2024年中考英语复习冲刺过关专题07 阅读理解(原卷版)
- 开题报告:智能时代中小学共享教育的理论建构与实践策略研究
- 开题报告:支撑教育强国建设的战略性投入机制研究
- 巴新铁路赶工期施工组织设计
- 开题报告:新质生产力背景下人工智能技术在高职院校电子商务专业教学中的应用研究
- 开题报告:新时代高中学业水平考试命题质量评价指标体系研究
- 新闻记者职业资格《新闻采编实务》考试题库(含答案)
- 2024-2025学年 数学二年级上册冀教版期末测试卷 (含答案)
- 2024-2025学年人教版初中物理九年级全一册期末考试模拟测试卷1(第13~19章)(原卷版)
- 湖北省荆州市八县市2023-2024学年高一上学期期末联考数学试题 含解析
- 全新奶茶店加盟合同20242篇
- 小儿外科常见疾病护理
- 智慧物流1+X认证考试复习题库(含答案)
- AutoCAD绘图与三维建模知到智慧树期末考试答案题库2024年秋江苏大学
- 等级保护考试试题集
- 2024年中国厨房用品市场调查研究报告
- Unit5 The colourful world (说课稿)-2024-2025人教版(PEP)(2024)英语三年级上册
评论
0/150
提交评论