版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、1. 通用标准处置快速索引主要包含AIX操作系统故障场景的通用标准处置General Operating System:编号通 用 标 准 处 置索 引GOA001AIX操作系统标准关闭单机GOA002AIX操作系统标准重启单机GOA003AIX操作系统标准关闭双机GOA004AIX操作系统标准重启双机GOA005AIX操作系统CPU负载GOA006查看占用CPU资源最多的进程GOA007AIX操作系统内存使用率GOA008查询占用内存资源最多的进程GOA009查询某个进程内存使用变化情况GOA010查看系统消息队列、共享内存、信号量GOA011AIX操作系统ipcrm命令去除IPC资源GOA
2、012判断是否有僵尸进程GOA013AIX操作系统磁盘I/O负载GOA014查询换页最多的进程GOA015文件系统信息GOA016物理卷、卷组和逻辑卷GOA017查看系统主要日志GOA018主机通讯是否有延迟GOA019主机通讯延迟或丢包GOA020主机路由设置是否正确GOA021到相连业务系统的通讯是否正常GOA022网卡配置信息检测GOA023查看HACMP双机是否正常GOA024启动hacmp双机效劳GOA025Hacmp双机效劳切换到备机GOA026关闭HACMP双机效劳GOA027HACMP效劳异常,手工恢复业务GOA028搜集AIX系统snap信息GOA029强制生成dump方法G
3、OA030AIX系统查看线程使用情况GOA031去除进程2. 通用处置AIX2.1. GOA001:AIX操作系统标准关闭单机处置名称:AIX操作系统标准关闭处置时间:5分钟该时间因系统而异,请各根据实际停止时间填写影响分析:1业务影响: 系统效劳暂停。2技术影响:无3其它影响: 无操作步骤: 1) 通过SOM平台以root用户登录;2) 根据需求首先关闭应用程序/数据库该步骤可选,需要的系统请明示步骤3) 执行shutdown -F验证步骤:1) 无。修订日期:2021年5月8日 修订人:常艳春 2.2. GOA002:AIX操作系统标准重启单机处置名称:AIX操作系统标准重启处置时间:10
4、-20分钟该时间因系统而异,请各根据实际停止时间填写影响分析:1业务影响: 系统效劳暂停。2技术影响:无3其它影响: 无操作步骤: 1通过SOM平台以root用户登录2根据需求首先关闭应用程序/数据库该步骤可选,需要的系统请明示步骤3执行shutdown -Fr 验证步骤:无。修订日期:2021年5月8日 修订人:常艳春2.3. GOA003:AIX操作系统标准关闭双机处置名称:AIX 系统标准关闭双机处置时间:10分钟影响分析:1业务影响:系统效劳暂停2技术影响:无3其它影响:无操作步骤: 1通过SOM平台以root用户登录2root用户下执行 Smit clstop 应用效劳随双机停止 验
5、证步骤:1) 双机软件停止后查看网络、卷组和文件系统卸载正常、业务是否正常停止。#netstat rn#ifconfig a#lsvg o#df g#/usr/es/sbin/cluster/clstat -o确认双机停止状态是否正常。修订日期:2021年5月4日 修订人: 常艳春2.4. GOA004:AIX操作系统标准重启双机处置名称:AIX系统标准重启双机处置时间:10分钟影响分析:1业务影响:系统效劳暂停2技术影响:无3其它影响:无操作步骤: 1通过SOM平台以root用户登录2root用户下执行 Smit clstop 应用效劳随双机停止 2) shutdown Fr重启操作系统3)
6、 系统启动后会自动启动双机软件应用效劳随双机启动。有些系统是手工启动双机软件,需执行Smit clstart 回车。验证步骤:1) 双机软件停止后查看网络、卷组和文件系统卸载正常、业务是否正常停止。#netstat rn#ifconfig a#lsvg o#df g#/usr/es/sbin/cluster/clstat -o确认双机停止状态是否正常。2) 系统重启系统后验证双机软件和应用是否正常。包括网络、卷组和文件系统挂载正常,业务运行正常 #netstat rn#ifconfig a#lsvg o#df g#/usr/es/sbin/cluster/clstat -o确认双机启动状态是否
7、正常。修订日期:2021年5月4日 修订人: 常艳春2.5. GOA005:AIX操作系统CPU负载处置名称:AIX操作系统CPU负载处置时间:5分钟该时间因系统而异,请各根据实际停止时间填写影响分析:1业务影响:无2技术影响:无3其它影响:无操作步骤: 1) 通过SOM平台以root或普通权限用户登录2) 执行topas命令;3) 执行sar 2 30命令;4) 执行vmstat 2 30命令;5) 执行mpstat 2 30命令。验证步骤:根据命令输出内容判断CPU使用情况修订日期:2021年5月8日 修订人: 常艳春2.6. GOA006:查看占用CPU资源最多的进程处置名称:定位占用C
8、PU资源最多的进程处置时间:3分钟该时间因系统而异,请各根据实际停止时间填写影响分析:1业务影响:无2技术影响:无3其它影响:无操作步骤: 1) 通过SOM平台以root或普通权限用户登录2) 执行ps aux命令;查看所有进程暂用CPU情况3) 执行ps aux |head -1 ;ps aux |sort -rn +2 |head -10查看暂用CPU最多的前10个进程。验证步骤:根据ps aux命令输出的排序情况,定位CPU使用率较高的进程。修订日期:2021年5月8日 修订人: 常艳春 2.7. GOA007:AIX操作系统内存使用率处置名称:AIX操作系统内存使用率处置时间:5分钟该
9、时间因系统而异,请各根据实际停止时间填写影响分析:1业务影响:无2技术影响:无3其它影响:无操作步骤: 1) 通过SOM平台以root或普通权限用户登录;2) 执行命令:top;3) 执行命令:svmon -G;4) 执行命令:vmstat 1 30验证步骤:1) top-在程序界面中,查看MEM、Swap、Noncomp 、omp 数值;2) svmon -G:inuser、virtual数值3) vmstat 1 30:查看avm、fre数值修订日期:2021年5月8日 修订人: 常艳春2.8. GOA008:查询占用内存资源最多的进程处置名称:查询占用内存资源最多的进程处置时间:3分钟该
10、时间因系统而异,请各根据实际停止时间填写影响分析:1业务影响:无2技术影响:无3其它影响:无操作步骤: 1) 通过SOM平台以root或普通权限用户登录;2) 执行svmon -P |grep -p Pid;3) ps vx |head -1 ;ps vx |grep -v PID |sort -rn +6 |head -1004) 输出界面中是以内存使用大小降序排列。验证步骤:根据命令输出排序结果,定位占用内存资源最多的进程。修订日期:2021年5月8日 修订人: 常艳春2.9. GOA009:查询某个进程内存使用变化情况处置名称:查询某个进程内存使用变化情况处置时间:3分钟该时间因系统而异
11、,请各根据实际停止时间填写影响分析:1业务影响:无2技术影响:无3其它影响:无操作步骤: 5) 通过SOM平台以root或普通权限用户登录;6) 执行svmon -P pid(要监控的进程PID) -i 1 (每秒刷新一次) |grep -P Pid;(例如: svmon -P 655402 -i 1 |grep Pid,查看进程号为655402进程的每秒使用内存情况)验证步骤:无。修订日期:2021年5月8日 修订人: 常艳春2.10. GOA010:查看系统消息队列、共享内存、信号量处置名称:查看系统消息队列、共享内存、信号量处置时间:3分钟该时间因系统而异,请各根据实际停止时间填写影响分
12、析:1业务影响:无2技术影响:无3其它影响:无操作步骤: 7) 通过SOM平台以root或普通权限用户登录;8) 执行#ipcs at#ipcs ab#ipcs ao#ipcs -ap;Ipcs命令输出内容解释:Tall设施的类型。共有三种设施类型: q 消息队列 m 共享内存段 s 信号量 IDall设施项的标识。KEYall用作 msgget 子例程、semget 子例程或者 shmget 子例程的参数的键构成了设施项。 注: 当删除内存段时,共享内存段的密钥改变为 IPC_PRIVATE,直到所有附加在段上的进程和它拆离。MODEall设施访问方式和标志。这种方式由 11 个字符组成,解
13、释如下: 前两个字符如下所示: R 如果进程在等待 msgrcv 系统调用。 S 如果进程在等待 msgsnd 系统调用。 D 如果有关的共享内存段被删除。当附加在段上的最后一个进程拆离后它就会消失。 C 当第一个附加进程运行时,如果有关的共享内存段被清空。 - 如果没有设置相应的特定标志。 接下来的九个字符作为每三个一组解释。第一组是指拥有者有许可权;第二组是指在设施项的用户组中其他用户的许可权;最后一组指所有的用户。在每组中,第一个字符表示允许读取,第二个字符表示可以写或者修改设施项,最后一个字符当前没有用过。 权限如下所示: r 如果授予了读许可权。 w 如果授予了写许可权。 a 如果授
14、予了修改许可权。 - 如果没有授予指定的许可权。 OWNERall设施项所有者的登录名。GROUPall拥有设施项的组名。CREATORa、c设施项创立者的登录名。CGROUPa、c设施项创立者的组名。 注: 对于 OWNER、GROUP、CREATOR 和 CGROUP,显示用户和组的标识而不显示登录名。CBYTESa、o当前停留在相关消息队列中的消息的字节数。QNUMa、o当前停留在相关消息队列中的消息的字节数。QBYTESa、b停留在相关消息队列中消息允许的最大字节数。LSPIDa、p发送消息到相关队列的最后进程的标识。如果发送的最后一条消息是来自节点上的进程而不是保存该节点的队列,LS
15、PID 是真正将消息放进队列的内核进程的 PID,而不是发送进程的 PID。LRPIDa、p接收来自相关队列的消息的进程标识。如果接收的最后一条消息来自一个节点上的进程而不是保存该队列的节点,LRPID 是真正接收队列上消息的内核进程的 PID,而不是接收进程的 PID。STIMEa、t最后一条消息发送到相关队列的时间。对于远程队列来说,这是效劳器时间。没有做任何措施来补偿本地时钟和效劳器时钟之间的时区差异。RTIMEa、t接受最后一条来自相关队列的消息的时间。对于远程队列来说,这是效劳器时间。没有做任何措施来补偿本地时钟和效劳器始终之间的时区差异。CTIMEa、t创立和改变相关项的时间。对于
16、远程队列来说,这是效劳器时间。没有做任何措施来补偿本地时钟和效劳器始终之间的时区差异。NATTCHa、o连接在关联的共享内存段的进程数。SEGSZa、b关联的共享内存段的大小。CPIDa、p共享内存项的创立程序的进程标识。LPIDa、p连接或者拆离共享内存段的最后一个进程的标识。ATIMEa、t最后一次与关联的共享内存段完成连接的时间。DTIMEa、t最后一次与关联的共享内存段完成拆离的时间。NSEMSa、b在与信号项相关联的信号集中的信号量数量。OTIMEa、t在关联的信号量中完成信号量操作的时间。SIDS共享内存段的标识。SID 可以用作 svmon -S 命令的输入。RTFLAGSr当实
17、时进程间通信对象尚未链接时,会填充为 UNLINK。否那么,将显示短划线-。NAMEr实时进程间通信对象的名称。对于未命名的信号,将显示短划线-。验证步骤:无。修订日期:2021年5月8日 修订人: 常艳春2.11. GOA011:AIX操作系统ipcrm命令去除IPC资源处置名称:AIX操作系统ipcrm命令去除IPC资源处置时间:3分钟该时间因系统而异,请各根据实际停止时间填写影响分析:1业务影响:无2技术影响:无3其它影响:无操作步骤: 9) 通过SOM平台以root或普通权限用户登录;10) 执行: #ipcrm -q MessageID 去除消息队列 #ipcrm -m Shared
18、MemoryID去除共享内容 #ipcrm -s SemaphoreID去除信号量验证步骤:无。修订日期:2021年5月8日 修订人: 常艳春2.12. GOA012:判断是否有僵尸进程处置名称:判断是否有僵尸进程处置时间:3分钟该时间因系统而异,请各根据实际停止时间填写影响分析:1业务影响:无2技术影响:无3其它影响:无操作步骤: 1) 通过SOM平台以root或普通权限用户登录;2) 执行top命令;3) 执行ps -ef|grep defunct命令;验证步骤:1) 执行top:查看top输出中是否提示有僵尸进程及其数量;2) 使用ps命令查找并定位僵尸进程。修订日期:2021年5月16
19、日 修订人: 常艳春 2.13. GOA013:AIX操作系统磁盘I/O负载处置名称:AIX操作系统磁盘I/O负载处置时间:5分钟该时间因系统而异,请各根据实际停止时间填写影响分析:1业务影响:无 2技术影响:无3其它影响:无操作步骤: 1) 通过SOM平台以root或普通权限用户登录2) 执行:vmstat、iostat、sar -d命令。验证步骤:1) vmstat反映了进程的虚拟内存,虚拟内存,磁盘,trap和cpu的活动情况,在多cpu系统中,vmstat在输出结果中平均了cpu数量 ;2) iostat:如果想看每个设备的io情况,可使用iostat命令。修订日期:2021年5月16
20、日 修订人: 常艳春2.14. GOA014:查询换页最多的进程处置名称:查询系统I/O资源使用处置时间:5分钟该时间因系统而异,请各根据实际停止时间填写影响分析:1业务影响:无2技术影响:无3其它影响:无操作步骤: 1) 通过SOM平台以root用户登录;2) 执行# ps vx |head -1 ;ps vx |grep -v PID |sort -rn +4 |head -10 验证步骤:根据ps输出结果验证 PGIN输出项即为换页的数量修订日期:2021年5月8日 修订人: 常艳春2.15. GOA015:文件系统信息处置名称:文件系统信息处置时间:2-5分钟该时间因系统而异,请各根据
21、实际停止时间填写影响分析:1业务影响:无2技术影响:无3其它影响:无操作步骤: 1) 通过SOM平台以root用户登录;2) 执行以下命令查看文件系统挂载情况:#df g-m 查看文件系统使用率#mount 查看文件系统mount属性验证步骤:1) 文件系统正常挂载,读/写属性正常,日志无报错;2) 可手工创立临时文件,以验证文件系统的可读/写性。修订日期:2021年5月20日 修订人: 常艳春 2.16. GOA016:物理卷、卷组和逻辑卷处置名称:物理卷、卷组和逻辑卷处置时间: 5分钟该时间因系统而异,请各根据实际停止时间填写影响分析:1业务影响:无2技术影响:无3其它影响:无操作步骤:
22、1) 通过SOM平台以root用户登录;2) 执行以下命令查看PV、VG、LV信息:#lspv 查看物理卷信息#lsvg vgname 查看卷组信息#lsvg l vgname 查看逻辑卷信息#lslv lvname 查看逻辑卷信息3) 查看日志中是否有关于文件系统的报错信息 #tail -2000 /var/log/messages验证步骤:1) 物理卷、卷组、逻辑卷状态正常,读/写属性正常,日志无报错;修订日期:2021年5月20日 修订人: 常艳春 2.17. GOA017:查看系统主要日志处置名称:查看系统主要日志处置时间:5分钟该时间因系统而异,请各根据实际停止时间填写影响分析:1业
23、务影响:无2技术影响:无3其它影响:无操作步骤: 1) 通过SOM平台以root用户登录;2) 查看以下日志:#errpt #errpt -a验证步骤:查看日志中是否有明显报错信息修订日期:2021年5月20日 修订人: 常艳春 2.18. GOA018:主机通讯是否延迟处置名称:主机通讯是否延迟处置时间:3分钟该时间因系统而异,请各根据实际停止时间填写影响分析:1业务影响:无2技术影响:无3其它影响:无操作步骤: 1通过SOM平台以root或普通权限用户登录;2执行命令: #ping 网关_IP #ping 关联主机_IP1) 验证步骤:通过ping测试,验证相同网段及不同网段的IP地址与本
24、机的通讯是否正常。修订日期:2021年5月8日 修订人: 常艳春 2.19. GOA019:主机通讯是否丢包处置名称:主机通讯是否丢包处置时间:3分钟该时间因系统而异,请各根据实际停止时间填写影响分析:1业务影响:无2技术影响:无3其它影响:无操作步骤: 1通过SOM平台以root或普通权限用户登录2执行: #netstat i # Ierrs/Ipkts 和 Oerrs/Opkts是否>1%#ping 目标IP地址 #是否有丢包#entstat d ent0lan adapter name查看Transmit Errors和Receive Errors是否有丢包数据验证步骤:根据以上命
25、令输出结果,判断是否有网络丢包或延迟现象。修订日期:2021年5月8日 修订人:常艳春 2.20. GOA020:主机路由设置是否正确处置名称:主机路由设置是否正确处置时间:3分钟该时间因系统而异,请各根据实际停止时间填写影响分析:1业务影响:无2技术影响:无3其它影响:无操作步骤: 1) 通过SOM平台以root或普通权限用户登录;2) 执行以下命令:#netstat -rn验证步骤:1) 查看路由是否正确添加;2) 当前路由所对应物理网卡是否正确;3) 最多只有一条缺省路由。修订日期:2021年5月8日 修订人: 常艳春 2.21. GOA021:到相连业务系统的通讯是否正常处置名称:到相
26、连业务系统的通讯是否正常处置时间:3分钟该时间因系统而异,请各根据实际停止时间填写影响分析:1业务影响:无2技术影响:无3其它影响:无操作步骤: 1) 通过SOM平台以root用户登录;2) 执行命令:#ping 目标_IP;#route#traceroute 关联系统_IP#ifconfig -a验证步骤:1) 检测与目标主机的连通性;2) 检测路由正确性;3) 检测网卡状况是否正常。修订日期:2021年5月8日 修订人: 常艳春 2.22. GOA022:网卡配置信息检测处置名称:网卡配置信息检测处置时间:5分钟该时间因系统而异,请各根据实际停止时间填写影响分析:1业务影响:系统通讯闪断,
27、效劳短时间暂停2技术影响:无3其它影响:无操作步骤: 1) 通过SOM平台以root用户登录;2) 执行以下命令:#ping 网管_IP#ping 关联主机_IP#ifconfig -a #查看IP信息#netstat in #查看IP信息#lsdev Cc adapter #查看网卡适配器信息#lsdev Cc if #查看网络接口信息#netstat rn #查看缺省路由验证步骤:1) 检测主机与网管及关联主机通讯是否正常;2) 主机网卡状态是否正常;3) 主机缺省路由是否配置正确;修订日期:2021年5月8日 修订人: 常艳春 2.23. GOA023:查看HACMP双机是否正常处置名称
28、:查看HACMP双机是否正常处置时间:3分钟该时间因系统而异,请各根据实际停止时间填写影响分析:1业务影响: 无2技术影响:无3其它影响:无操作步骤: 1) 通过SOM平台以root用户登录;2) #clstat a 查看双机状态3) #4) #more /var/hacmp/adm/否有报错5) Ifconfig -a效劳IP是否启动6) #lsvg o 共享卷组是否挂载7) #df g 文件系统是否挂载8) 查看应用log,检查应用效劳是否启动正常。验证步骤:修订日期:2021年5月8日 修订人: 常艳春 2.24. GOA024:启动hacmp双机效劳处置名称:启动hacmp双机效劳处置
29、时间:5-10分钟该时间因系统而异,请各根据实际停止时间填写影响分析:1业务影响:系统效劳短时间暂停。2技术影响:无3其它影响:无操作步骤: 1) 通过SOM平台以root用户登录;2) #smit clstart3) 监控日志:tail -f /4) 使用clstat -a查看双机节点及效劳状态。验证步骤: 1) Ifconfig -a效劳IP是否启动2) #lsvg o 共享卷组是否挂载3) #df g 文件系统是否挂载4) 查看应用log,检查应用效劳是否启动正常。5) clustat命令显示双机节点及效劳状态正常。修订日期:2021年5月18日 修订人: 常艳春 2.25. GOA02
30、5:Hacmp双机效劳切换到备机处置名称:Hacmp双机效劳切换到备机处置时间:5-10分钟该时间因系统而异,请各根据实际停止时间填写影响分析:1业务影响:系统效劳短时间暂停。2技术影响:无3其它影响:无操作步骤: 1) 通过SOM平台以root用户登录;2) 执行#smit hacmpsmit hacmp -> System Management(C-SPOC) -> HACMP Resouce group and application Management -> Move a Resource Group to Another Node / Site -> Mov
31、e Resource Groups to Another Node3) 查看日志:tail -f /4) clustat命令显示双机节点及效劳状态正常。验证步骤:1) 主机上查看网络、卷组和文件系统卸载正常、业务是否正常停止。#netstat rn#ifconfig a#lsvg o#df g#/usr/es/sbin/cluster/clstat -o确认双机停止状态是否正常。2) 备机上查看包括网络、卷组和文件系统挂载正常,业务运行正常 #netstat rn#ifconfig a#lsvg o#df g#/usr/es/sbin/cluster/clstat -o确认双机启动状态是否正常
32、。修订日期:2021年5月18日 修订人: 常艳春 2.26. GOA026:关闭HACMP双机效劳处置名称:关闭hacmp双机效劳处置时间:5-10分钟该时间因系统而异,请各根据实际停止时间填写影响分析:1业务影响:系统效劳暂停。2技术影响:无3其它影响:无操作步骤: 1) 通过SOM平台以root用户登录;2) #执行#smit cltop 选择需要关闭的节点进行关闭3) 执行clstat命令查看效劳关闭情况;4) 使用df、ping、lsvg命令,确认群集共享资源已释放;5) 查看日志:tail -f /;验证步骤:主机上查看网络、卷组和文件系统卸载正常、业务是否正常停止。#netsta
33、t rn#ifconfig a#lsvg o#df g#/usr/es/sbin/cluster/clstat -o确认双机停止状态是否正常。修订日期:2021年5月18日 修订人: 常艳春 2.27. GOA027:HACMP效劳异常,手工恢复业务处置名称:HACMP效劳异常,手工恢复业务处置时间:10-20分钟该时间因系统而异,请各根据实际停止时间填写影响分析:1业务影响:系统效劳暂停。2技术影响:无3其它影响:无操作步骤: 1) 通过SOM平台以root用户登录;2) 在停止HACMP效劳后,可按照以下步骤手工挂载资源, 网络IP地址:使用ifconfig命令,添加service IP;
34、挂载文件系统:Lsvg 扫描可用卷组;Lsvg vgname 查看卷组信息;Varyonvg vgname 激活卷组;Mount /filesystemname 挂载文件系统3) 启动应用程序:应用管理员手工启动应用效劳程序。验证步骤: 1) Service IP可以ping通网关;2) 卷组可以正常在单机激活;3) lv信息正常;4) 在单机手工挂载共享存储资源;5) 启动数据库及应用。修订日期:2021年5月18日 修订人: 常艳春 2.28. GOA028:搜集AIX系统snap信息处置名称:搜集AIX系统snap信息处置时间:5-10分钟该时间因系统而异,请各根据实际停止时间填写影响分
35、析:1业务影响:无2技术影响:无3其它影响:无操作步骤: 1) 通过SOM平台以root用户登录;2) 执行命令:#snap r#snap gc #收集系统常规信息#snap ac #收集系统全部信息#snap ec #收集HACMP信息3) 将/tmp/ibmsupt/snap.pax.Z文件拷贝出来进行分析。验证步骤:查看在/tmp目录下自动生成的信息文件。修订日期:2021年5月8日 修订人: 常艳春 2.29. GOA029:强制生成dump方法处置名称:强制生成dump方法处置时间:40分钟影响分析:1业务影响:双机环境无影响,单机环境业务会中断2技术影响:无操作步骤:1强制生成 d
36、ump。登录 HMC,选择相应的机器,然后选择当前 LPAR,点击右侧LPAR名字右方的小箭头,在弹出的菜单中选择 Operations->Restart在之后弹出的窗口中选择 Dump 即可,机器会自动重启收集数据,此过程可能会需要花费一些时间,请不要终止。2对重启后的系统收集snap信息包含dump文件#snap ac #用于非HA环境#snap ec #用于HA环境,既有主机所有信息又包括hacmp信息拷贝出/tmp/ibmsupt/snap.pax.Z文件供分析。验证步骤:无修订日期:2021年5月4日 修订人: 常艳春2.30. GOA030:AIX系统查看线程使用情况处置名称
37、:AIX系统查看线程使用情况处置时间:3分钟该时间因系统而异,请各根据实际停止时间填写影响分析:1业务影响:无2技术影响:无3其它影响:无操作步骤: 4) 通过SOM平台以root或普通权限用户登录;5) 执行ps -emo THREAD命令;验证步骤:修订日期:2021年5月16日 修订人: 常艳春 2.31. GOA031:去除进程处置名称:去除进程处置时间:x分钟该时间因系统而异,请各根据实际停止时间填写影响分析:1业务影响: 无2技术影响: 无3其它影响: 无操作步骤: 1) 如有该进程提供的关闭进程命令,那么使用该命令。2) 如无相应命令,或不能正常关闭进程那么使用kill命令去除p
38、s -ef | grep 进程关键字 确认pid kill -9 PID验证步骤:ps -ef | grep 进程关键字 查看该进程是否已去除。修订日期:2021年5月30日 修订人:常艳春 处置名称:AIX系统查看线程使用情况处置时间:3分钟该时间因系统而异,请各根据实际停止时间填写影响分析:1业务影响:无2技术影响:无3其它影响:无操作步骤: 6) 通过SOM平台以root或普通权限用户登录;7) 执行ps -emo THREAD命令;验证步骤:修订日期:2021年5月16日 修订人: 常艳春 3. AIX操作系统故障应急场景3.1. AIX系统宕机、自动重启件级别:六级授权级别:部室负责
39、人授权场景描述:AIX系统宕机、自动重启。业务影响:单机有影响,双机无影响启动条件:集中监控显示系统不可用现场保护:收集dump和snap信息信息。故 障 场 景 应 急 处 置序号调用处置编号 处 置 简 要 描 述时间树T1收到集中监控的报警后,通知二级运维支持人员,当日值班经理,部室负责人3分钟T2GOA028使用root用户登录主机,执行snap命令保存现场信息5-10分钟T3启动双机软件并启动应用程序3分钟T4GOA023查看双机和业务是否都正常3分钟T5GOA018查看errpt中是否有报错5分钟T6查看数据库/应用日志是否有报错信息T7应急处置结束。N/A修订日期:2021年5月
40、20日 修订人:常艳春处置名称:AIX系统宕机、自动重启处置时间:40分钟影响分析:1业务影响:双机环境无影响,单机环境业务会中断2技术影响:无操作步骤:单主机故障不会对应用造成影响,可紧急申请kvm登录,通过kvm登录查看主机状态,如果是宕机要强行通过远程控制台进行分区重启。重启后按照日常运维手册启动相关应用即可。系统启动后作如下检查:Ø 网络及路由检查:IP检查:netstat in #输出结果与重启前一致路由检查:netstat rn #输出结果与重启前一致Ø ntp检查ntpq -p #观察输出结果最前面带*的一行中offset的值低于128毫秒即可执行后续操作。否
41、那么需要根据时钟效劳器的要求检查时钟效劳器配置是否正确。Ø 文件系统检查df k #确认文件系统已全部挂载成功包含NASØ 验证该主机的应用恢复情况:Ø 平台类工具的启动Ø 收集日志信息供专家分析宕机或重启原因errpt errpt -asnap -ac如果是HA环境收集snap ec日志。拷贝出/tmp/ibmsupt/snap.pax.Z文件供分析。验证步骤:无修订日期:2021年5月4日 修订人: 常艳春3.2. AIX系统无法访问HANG件级别:六级授权级别:部室负责人授权场景描述:AIX系统无法访问HANG业务影响:单机有影响,双机无影响启动条
42、件:集中监控显示系统不可用现场保护:收集dump和snap信息信息。故 障 场 景 应 急 处 置序号调用处置编号 处 置 简 要 描 述时间树T1收到集中监控的报警后,通知二级运维支持人员,当日值班经理,部室负责人3分钟T2GOA029生成dump信息T3GOA028使用root用户登录主机,执行snap命令保存现场信息5-10分钟T4启动双机软件并启动应用程序3分钟T5GOA023查看双机和业务是否都正常3分钟T6GOA017查看errpt中是否有报错5分钟T7查看数据库/应用日志是否有报错信息T8应急处置结束。N/A修订日期:2021年5月20日 修订人:常艳春3.3. 交易缓慢AIX操
43、作系统处置方法件级别:六级授权级别:部室负责人授权场景描述:3.3.交易缓慢业务影响:有影响启动条件:集中监控显示系统交易缓慢现场保护:收集snap信息信息。故 障 场 景 应 急 处 置序号调用处置编号 处 置 简 要 描 述时间树T1收到集中监控的报警后,通知二级运维支持人员,当日值班经理,部室负责人3分钟T2GOA023查看双机是否都正常3分钟T3GOA017查看errpt中是否有报错5分钟T4查看数据库/应用日志是否有报错信息T5GOA006查看CPU使用情况N/AT6GOA007GOA008GOA009GOA010查看内存使用情况T7GOA012查看是否有僵尸进程T8GOA013GO
44、A014查看系统I/O情况T9GOA018GOA019GOA020GOA021GOA022查看网络情况T10GOA023查看双机运行情况T11GOA028使用root用户登录主机,执行snap命令保存现场信息5-10分钟应急处置结束修订日期:2021年5月20日 修订人:常艳春3.4. 系统CPU负载高并触发监控报警件级别:六级授权级别:部室负责人授权场景描述:主机CPU资源使用率较高并触发监控报警。业务影响:根据业务系统负载判定启动条件:集中监控显示CPU资源使用率持续维持在较高水平现场保护:使用snap命令收集系统信息。故 障 场 景 应 急 处 置序号调用处置编号 处 置 简 要 描 述
45、时间树T1收到集中监控的报警后,通知二级运维支持人员,当日值班经理,部室负责人3分钟T2GOA005查看系统CPU使用情况3分钟T3GOA006定位占用CPU资源最多的进程3分钟T4GOA017查看系统主要日志中是否有关于软、硬件的报错信息。5分钟T5查看数据库/应用日志是否有报错信息T6GOA028使用root用户登录主机,执行snap命令保存现场信息5-10分钟T7应急处置结束。N/A修订日期:2021年5月20日 修订人:常艳春3.5. 系统内存使用率高并触发监控报警件级别:六级授权级别:部室负责人授权场景描述:主机内存资源使用率较高并触发监控报警。业务影响:根据业务系统负载判定启动条件
46、:集中监控显示内存资源使用率持续维持在较高水平现场保护:使用snap命令收集系统信息。故 障 场 景 应 急 处 置序号调用处置编号 处 置 简 要 描 述时间树T1收到集中监控的报警后,通知二级运维支持人员,当日值班经理,部室负责人3分钟T2GOA007查看系统内存使用情况3分钟T3GOA008定位占用内存资源较多的进程5分钟T4GOA012判断是否有僵尸进程3分钟T5GOA017查看系统主要日志5分钟T6GOA028使用root用户登录主机,执行snap命令保存现场信息5-10分钟T7应急处置结束。N/A修订日期:2021年5月20日 修订人:常艳春3.6. 系统I/O资源使用率高并长时间
47、持续件级别:六级授权级别:部室负责人授权场景描述:主机I/O资源使用率较高并触发监控报警。业务影响:根据业务系统负载判定启动条件:集中监控显示I/O资源使用率持续维持在较高水平现场保护:使用snap命令收集系统信息。故 障 场 景 应 急 处 置序号调用处置编号 处 置 简 要 描 述时间树T1收到集中监控的报警后,通知二级运维支持人员,当日值班经理,部室负责人3分钟T2GOA013查看系统I/O使用情况3分钟T3GOA014定位占用I/O资源较多的进程5分钟T4GOA017查看系统主要日志5分钟T5GOA028使用root用户登录主机,执行snap命令保存现场信息5-10分钟T6应急处置结束
48、。N/A修订日期:2021年5月25日 修订人:常艳春3.7. 系统通讯延迟或丢包件级别:六级授权级别:部室负责人授权场景描述:主机通讯异常,使用ping命令测试时,出现较大延迟,甚至有少量丢包。业务影响:交易成功率低甚至中断启动条件:主机通讯延迟或丢包现场保护:ifconfig、netstat、errpt、entstat故 障 场 景 应 急 处 置序号调用处置编号 处 置 简 要 描 述时间树T1收到集中监控的报警后,通知二级运维支持人员,当日值班经理,部室负责人3分钟T2GOA028使用root用户登录主机,执行snap命令保存现场信息5-10分钟T3GOA018判断主机通讯状况3分钟T4GOA019主机网卡是否存在丢包现象3分钟T5GOA020主机路由设置是否正确5分钟T6GOA022网卡配置参数是否正确3分钟T7GOA017系统日志是否有明显报错5分钟T8应急处置结束。N/A修订日期:2021年5月20日 修订人:常艳春3.8. 主机路由表丧失件级别:六级授权级别:部室负责人授权场景描述:主机通讯异常,到特定主机或网段无法连通。业务影响: 业务短时间中断启动条件:主机到特定主机或网段无法连通现场保护:netstat命令输出结果故 障 场 景 应 急 处 置序号调用处置编号
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 长春信息技术职业学院《自动化实践初步》2023-2024学年第一学期期末试卷
- 玉林师范学院《结构模型设计制作》2023-2024学年第一学期期末试卷
- 市场波动下的投资决策风险分析
- 财务战略述职报告模板
- 保险业务月度报告模板
- 保险行业发展展望模板
- 实施环保生活讲座
- 社团招新简报
- 统编版六年级语文上册寒假作业(十一)(有答案)
- 2025年四川省眉山市区县高考数学一诊模拟试卷(含答案)
- 英语现在完成时专项练习题(附答案)
- 制造样品生产作业指导书
- 服务经营培训课件ppt 老客户经营综合版
- MT/T 199-1996煤矿用液压钻车通用技术条件
- GB/T 6144-1985合成切削液
- GB/T 10357.1-2013家具力学性能试验第1部分:桌类强度和耐久性
- 公寓de全人物攻略本为个人爱好而制成如需转载注明信息
- 第5章-群体-团队沟通-管理沟通
- 肾脏病饮食依从行为量表(RABQ)附有答案
- 深基坑-安全教育课件
- 园林施工管理大型园林集团南部区域养护标准图例
评论
0/150
提交评论