系统故障分析和排除_第1页
系统故障分析和排除_第2页
系统故障分析和排除_第3页
系统故障分析和排除_第4页
系统故障分析和排除_第5页
已阅读5页,还剩57页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Sun系统及硬件维护系统故障分析和排除共62页,您现在浏览的是第1页!培训内容OpenBoot的使用系统故障分析和排除系统故障分析和排除共62页,您现在浏览的是第2页!OpenBoot的使用系统故障分析和排除共62页,您现在浏览的是第3页!什么是OpenBoot?IEEE的BootFirmware标准1275-1994独立于处理器设计开机后立即执行可升级系统故障分析和排除共62页,您现在浏览的是第4页!设备树设备通过总线连接在计算机主机上OpenBoot把总线和通过总线互连的设备表示成设备树上的节点系统故障分析和排除共62页,您现在浏览的是第5页!设备树、地址和参数driver-name包含1-31位字母或数字,区分大小写。@符号放在地址信息之前lelanceethernetsdscsidisk,cdromstscsitape系统故障分析和排除共62页,您现在浏览的是第6页!设备路径、地址和参数Example:/sbus@1f,0/esp@0,4000/sd@3,0:aSbus&SUNW,fas&sd为driver-name1f,0代表主系统总线上的一个地址,因为在这个例子中sbus直接与主系统总线相连0,4000Sbus插槽号(0)和一个偏移量(4000),因为esp设备在Sbus0号插槽的卡上的地址偏移量为40003,0是SCSI设备号和逻辑单元号,因为磁盘连在SCSI总线上的设备号为3,逻辑单元号为0系统故障分析和排除共62页,您现在浏览的是第7页!设备别名Ashorthandrepresentationofadevicepath

Example:/sbus@1f,0/esp@0,4000/sd@3,0:adevaliasmand

devaliasdevaliasaliasdevaliasaliasdevice-pathnvaliasaliasdevice-pathnvunaliasalias系统故障分析和排除共62页,您现在浏览的是第8页!使用一些OpenBoot命令时要注意操作系统开始运行后,OpenBoot运行有可能不正确解决办法

1、用printenv查看auto-boot?的值。如果为true,用setenv把

它设置成false2、用reset复位系统3、当系统停在ok状态下时,执行用户命令4、用setenv把auto-boot?重新设置成true5、Resetthesystem系统故障分析和排除共62页,您现在浏览的是第9页!引导系统引导参数

auto-boot?boot-manddiag-switch?boot-deviceboot-filediag-devicediag-fileBootprocess

auto-boot?=true/falseBootCommand

okboot[device-specifier][arguments]系统故障分析和排除共62页,您现在浏览的是第10页!诊断测试命令Probe-scsi

IdentifydevicesattachedtoaSCSIbusTestdevice-specifier

Executethespecifieddevice’sselftestmethordEx:testnet–testthenetworkconnectionWatch-clock

TestaclockfunctionWatch-netMonitoranetworkconnectionNotallofthesetestsareavailableinallOpenBootimplementation.系统故障分析和排除共62页,您现在浏览的是第11页!显示和修改参数设置Set-defaultvariable

resetthevalueofvariableofthefactorydefaultSet-defaults

resetvariablevaluestothefactorydefaultPasswd

setsecurity-password操作系统命令

#eepromvariable=value#eeprom“variable=value”系统故障分析和排除共62页,您现在浏览的是第12页!UsingnvramrcItscontentsarecalledthescriptStoreuser-definedmandsexecutedduringstart-up

devicedrivertosavestart-upvariables;defineinstallation-specificdeviceconfigurationanddevicealiases

CommandsarestoredinASCII,justastheuserwouldtypethemattheconsole相关参数和命令:use-nvramrc?nveditnvstorenvquitnvrun等系统故障分析和排除共62页,您现在浏览的是第13页!EmergencyProceduresStop

跳过POST(只适用于设成诊断模式时)。Thismanddoesnotdependonthesecurity-mode.Stop-A

退回到监控状态的缺省提示符okStop-D

进入诊断模式(setdiag-switch?totrue)Stop-F

在监控probe设备之前进入OpenBootmonitor.(usefulifhardwareisbroken)Stop-N

把NVRAM的内容设为缺省值

系统故障分析和排除共62页,您现在浏览的是第14页!系统故障分析和排除系统故障分析和排除共62页,您现在浏览的是第15页!用mpstat监视CPUmpstat以表格形式报告每一个CPU的统计数据

example#mpstat30CPUminfmjfxcalintrithrcswicswmigrsmtxsrwsysclusrsyswtidl05004143149170002020209705004413411478000299020970100433333124800026403097系统故障分析和排除共62页,您现在浏览的是第16页!用vmstat查看CPU和内存状态vmstat报告虚拟内存、磁盘、陷阱和CPU活动的统计数example:#vmstat30procsmemorypagediskfaultscpurbwswapfreeremfpipofrdesrs0s6s7--insycsussyid0001344368296648151000000103142029102970001319752268632249000000102034945615533940001324032269336170000010303533031440397系统故障分析和排除共62页,您现在浏览的是第17页!用iostat查看I/O资源iostat反复报告终端、磁盘、磁带机的I/O活动和CPU的利用率。使用iostat查看各控制器和磁盘的负载。如果磁盘负载不均衡,考虑移走一部分消耗I/O多的行为(例如:虚拟内存)到另外的磁盘或控制器上,或增加一些磁盘、控制器等。系统故障分析和排除共62页,您现在浏览的是第18页!用iostat查看I/O资源主要参数说明:sd为硬盘,st为磁带机,后面的编号是SCSIIDserv:平均服务时间,单位ms。数值大表示数据存储分散,需要整理磁盘。%b:硬盘忙的时间比例Wait:硬盘等待的时间(等待SCSI等接口总线空闲)系统故障分析和排除共62页,您现在浏览的是第19页!网络资源example:#netstat30inputhme2outputinput(Total)outputpacketserrspacketserrscollspacketserrspacketserrscolls89512901069518150263890808225061031502646033004820413008007700529047600主要输出参数说明:packets:通过的包的数量errs:错误的包的数量colls:网络碰撞的数量系统故障分析和排除共62页,您现在浏览的是第20页!进程资源(cont.)%/usr/ucb/ps–aux|head-5USERPID%CPU%MEMSZRSSTTSSTARTTIMECOMMANDadrc3331.08.2837251290consoleS09:28:380:29/usr//bin/vmstatroot4830.41.41016872pts/1O09:56:360:00/usr/ucb/ps-auxadrc4330.315.8132959832?S09:31:470:26/usr/bin/findroot2400.35.336883260?S09:27:320:07/usr/sbin/nscdadrc3670.24.234722620??S09:28:560:00/usr/lib/lpsched主要输出参数说明:%CPU:进程近来的CPU利用率的平均值%MEM:进程占用内存的比例SZ:进程地址空间的大小,指示了该进程需要的swap空间的大小

系统故障分析和排除共62页,您现在浏览的是第21页!其他命令或工具prtdiag显示系统配置和诊断信息—用于检测硬件错误或故障swap–l

显示所有swap区的状态。如果怀疑虚拟内存缺乏时使用此命令pkginfo–lpkg_name或pkginfo–dpath–lpkg_name

以长格式显示软件包的信息,包括安装时间,占用空间大小,共享路径,版本号等。系统故障分析和排除共62页,您现在浏览的是第22页!从solaris日志和文件中查问题/etc/system

系统核心配置文件。修改如果怀疑性能问题是由于修改了该文件而导致,查看一下其中的参数。/var/adm/messages

syslog进程在该文件中做日志。在其中查看含有WARNING,error,reboots,panics等字样的行。因为这类报错可能表示出一些潜在的影响系统性能的软硬件问题。/etc/release包含操作系统版本信息系统故障分析和排除共62页,您现在浏览的是第23页!与故障检测有关的命令(cont.)grep分析文件内容,查找特定字符串last根据/var/adm/utmpx和/var/adm/wtmpx文件的记录,显示系统login和reboot事件的历史ndd显示和设置驱动器的参数eg:#ndd–get/dev/hme\?查看和网卡有关的参数#ndd–get/dev/hmeadv_100fdx_cap查看100M全双工的设置#ndd–set/dev/hmeadv_100fdx_cap0关掉100M全双工的设置#ndd–get/dev/ip\?查看和IP包处理有关的参数#ndd–set/dev/ipip_forwarding1关掉IP转发功能pridiag(在sun4u和sun4m系统上)显示系统配置和诊断信息(/usr/platform/`uname–m`/sbin)系统故障分析和排除共62页,您现在浏览的是第24页!与故障检测有关的命令(cont.)traceroute在子网的环境中,显示路由过程truss追踪系统的调用和信号,显示系统错误(系统错误号在/usr/include/sys/errno.h文件中定义sys-unconfig改变在系统安装过程的sysidtool阶段输入的信息rpcinfo–p显示系统中基于RPC的进程的启动情况系统故障分析和排除共62页,您现在浏览的是第25页!与故障检测有关的文件/etc/vfstab列出本地和远程资源的挂接情况/var/adm/messages列出最近在控制台上出现和启动过程中出现的信息。当文件达到一定长度时,有root的cron进程自动更名为messages.n。清除文件内容,可以用cat/dev/null>/var/adm/messages/var/sadm/install/contents列出系统中安装的所有软件包的信息eg:#grep/usr/bin/admintool/var/sadm/install/contents#grep/usr/share/man/var/sadm/install/contents系统故障分析和排除共62页,您现在浏览的是第26页!黑屏—没有输出硬件坏键盘没有连显示器没接或没有打开输出设成了TTYAorTTYB系统有多个帧缓存系统故障分析和排除共62页,您现在浏览的是第27页!系统从错误的引导设备引导问题:系统从磁盘引导,而不是从网络引导boot-device设成了磁盘而不是网络oksetenvboot-devicenetokboot系统故障分析和排除共62页,您现在浏览的是第28页!系统从错误的引导设备引导问题:系统从网络引导失败1、以太网线没插2、服务器没有响应,相关参数设置不当,或进程没启动3、tpe-link-test?设为disabled系统故障分析和排除共62页,您现在浏览的是第29页!系统无法从磁盘引导问题:从磁盘引导时失败,并显示:Can’topenbootdevice这表示系统没有检测到该硬盘。可能电源或SCSI缆有问题(特别是对于外置硬盘)所以:确认电源正常打开,SCSI缆连接无误,用probe-scsi-all能否查看到该硬盘。系统故障分析和排除共62页,您现在浏览的是第30页!网络问题问题:网络不通1、在ok状态下oktestnetokwatch-netprintenv查看tpe-link-test?的值是否为true查看hub的link-test功能是否为enabled2、在系统中ifconfig–a查看网口状态,注意IP、netmask和广播地址系统故障分析和排除共62页,您现在浏览的是第31页!死机/挂起故障可以rlogin或telnet到该系统吗?可以ping通该系统吗?鼠标可以移动吗?最近对系统做了哪些改动?死机有多频繁?什么情况下死机?可以通过执行命令重复死机过程吗?在必要的时候怎样退出死机状态(stop–A?)系统故障分析和排除共62页,您现在浏览的是第32页!内容OpenBoot概述启动并测试系统设置环境变量EmergencyProcedure建立TIP连接系统故障分析和排除共62页,您现在浏览的是第33页!OpenBoot的基本任务测试和初始化系统硬件确定硬件配置从网络或磁盘设备引导操作系统提供交互式的软硬件调试工具系统故障分析和排除共62页,您现在浏览的是第34页!设备路径、地址和参数每个设备有唯一的名字,代表设备种类和设备在系统地址结构中的位置全路径设备名(物理设备名)是用“/”分割的一系列节点名设备树的根及机器本身,表现为“/”每个节点名的形式:

driver-name@unit-address:device-arguments

eg:sd@6,0:a系统故障分析和排除共62页,您现在浏览的是第35页!设备路径、地址和参数unit-address

一个字符串,代表其在父节点设备的地址空间中的物理位置。字符串的格式与总线有关。device-arguments

一个字符串,其格式与具体的设备有关。它可以用来给设备的软件传递更进一步的信息。系统故障分析和排除共62页,您现在浏览的是第36页!浏览设备树的命令perties(查看设备特性)cd/cddevice-namepwdwords(查看本节点的访问方法)seewordname系统故障分析和排除共62页,您现在浏览的是第37页!GettingHelpHelpmand

help–listmainhelpcategorieshelpcategories–showhelpforallmandsinthecategory.Useonlythefirstwordofthecategorydescription.Helpisavailableonlyformandsthatareusedfrequency.系统故障分析和排除共62页,您现在浏览的是第38页!引导和测试系统经常用OpenBoot命令做的工作引导系统运行系统自检显示系统信息复位系统系统故障分析和排除共62页,您现在浏览的是第39页!Boot命令的可选参数device-specifier

cdromdisknetarguments

如果没给出arguments并且diag-switch?为false,boot过程使用boot-file作为arguments;如果没给出arguments并且diag-switch?为true,boot过程使用diag-file作为arguments;取值:-v–a–r–s.系统故障分析和排除共62页,您现在浏览的是第40页!显示和修改参数设置prinetenv

Displaycurrentvariablesandcurrentdefaultvaluesprinetenvvariable

showsthecurrentvalueofthenamedvaliablesetenvvariablevaluse

setvariabletothegivendecimalortextvalue(changesarepermanent,butoftentakeeffectonlyafterareset)系统故障分析和排除共62页,您现在浏览的是第41页!Settingsecurityvaliablessecurity-mode

full–allmandsexceptforgorequirethepasswdmand–allmandsexceptforbootandgorequirethepasswdnone–nopasswordrequire(default)security-passwordsecurity-#badlogins

保存错误输入口令的次数系统故障分析和排除共62页,您现在浏览的是第42页!UsingnvramrcExampleoknvedit0::hello(--)1:.“Hello,world.”cr2:;3:^Coknvstoreoksetenvuse-nvramrc?Trueokreset-allokhelloHello,world.ok系统故障分析和排除共62页,您现在浏览的是第43页!建立TIP连接ConnecttheSunworkstationTTYBserialporttoyourSPARCsystemTTYAserialportusingaserialconnectioncable.AttheSunworkstation,editthefollowinglinestothe/etc/remotefilehardwire:\:dv=/dev/term/b:br#9600:el=^C^S^Q^U^D:ie=%$:oe=^D:IntheShellToolwindowontheSunworkstation,type:hostname%tiphardwireconnected~#intheTIPwindowisenquivalenttopressingStop-A系统故障分析和排除共62页,您现在浏览的是第44页!监视系统资源CPU–vmstat,mpstatMemory–vmstatDisk–iostatNetwork–netstatOthermand–sar,nfsstat,swap,prtconf,prtdiag,pkginfo,showrev(patchadd)系统故障分析和排除共62页,您现在浏览的是第45页!用mpstat监视CPU主要输出参数说明:cpu:cpu编号smtx:锁没有在次请求时获得usr:用户进程占用CPU的比例sys:系统进程占用CPU的比例wt:等待I/O操作完成的空闲时间id:CPU空闲的比例系统故障分析和排除共62页,您现在浏览的是第46页!用vmstat查看cpu和内存状态主要输出参数说明:R:运行队列中进程的个数(已经准备好数据等待运行的进程)。数值大表示CPU忙。Swap:当前可用的交换区空间,单位KbytesSr:页扫描的次数。数值大表示物理内存不够Us:用户进程占用CPU的比例Sy:系统进程占用CPU的比例Id:CPU空闲的比例系统故障分析和排除共62页,您现在浏览的是第47页!用iostat查看I/O资源example:#iostat30extendeddevicesstatisticsttycpudevicer/sw/skr/skw/swaitactvsvc_t%w%btintoutussywtidsd00.40.310.48.00.00.036.90101000199sd10.00.00.035.000sd60.00.00.00.00.00.00.000nfs10.00.00.00.00.00.00.000nfs20.00.00.00.10.00.035.600

系统故障分析和排除共62页,您现在浏览的是第48页!网络资源netstat根据选项不同,以各种形式显示与网络有关的各种数据结构。用netstat–I显示网络接口的统计信息。如果输入输出错误比较多,可能是由于网络拥塞或网口问题引起的。系统故障分析和排除共62页,您现在浏览的是第49页!进程资源系统中最多允许30000个进程运行Zombie<defunct>进程不会造成性能问题ps1、显示活动进程的信息2、%/usr/bin/ps–eopid,pcpu,args|sort+1n按消耗CPU由多到少排列各进程3、%/usr/ucb/ps–aux|more由大到小排列,显示各进程消耗CPU和内存的情况系统故障分析和排除共62页,您现在浏览的是第50页!其他命令或工具sar

提供一些通用的系统统计数据。Sar通常运行在批处理模式而不是被solaris维护命令使用的交互式模式。它提供很多关于系统资源利用方面的相同的信息。nfsstat

显示NFS和RPC与核心接口的统计信息prtconf显示系统配置信息。包括物理内存的大小。

系统故障分析和排除共62页,您现在浏览的是第51页!其他命令工具Showrev–p或patchadd–p显示系统中安装的所有patch及版本/usr/proc/bin目录下的所有命令都可从/proc目录下提取关于进程的信息

eg:ptree按父子关系显示系统中的进程pfilesPID显示进程调用的文件信息系统故障分析和排除共62页,您现在浏览的是第52页!与故障检测有关的命令dmesg分析最近的日志信息devfsadm配置/device目录和设备树的信息,以及创建/dev/dsk和/dev/rdsk的符号链接df–k显示磁盘使用情况,包括剩余空间的检测eeprom分析和改变PROM设置file查看文件类型find在系统中查特定的文件fstyp-vfile-system显示详细的文件系统参数:文件系统状态、参数,每个柱面组的参数,已用I节点号,空闲节点号。系统故障分析和排除共62页,您现在浏览的是第53页!与故障检测有关的命令(cont.)protconf–v详细显示系统设备信息,参数protconf–vp详细显示PROM提供的系统设备信息(软硬件的物理节点地址、名称及设备参数)netstat–a显示网络端口的占用情况strings在二进制和目标文件中查找并显示ASCII字符sysdef(sysdef–i)分析设备和软件配置信息:hostid、核心结构、设备树、加载的核心模块、swap使用情况、可调核心参数和值rpcinfo–p显示系统中基于RPC的进程的启动情况swap增加、删除和监视swap区系统故障分析和排除共62页,您现在浏览的是第54页!与故障检测有关的文件/etc/default/login控制root能否从控制台以外的设备登录/etc/inetd.conf列出所有由inetd进程管理的服务/etc/minor_perm规定设备文件所分配的权限/etc/nsswitch.conf名字服务开

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论