版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、修改记录编号日期描述版本作者审核发布日期12021-6-15建立文档王荔22021-7-20增加 2.2.14.WebLogic重启时报JMS Store错误庹艳林32021-8-9增加:1、nodemanager的标准处置GMW006、GMW007和故障应急方案;2、修订GMW003;3、增加BBL进程异常退出的故障应急方案庹艳林4 567891011如无中国建设银行的书面许可,任何人都无权复制或利用。®Copy Right 2005 by China Construction Bank1. 通用标准处置快速索引1.1. 通用标准处置 Tuxedo和WebLogic Server主
2、要包含中间件故障场景的通用标准处置General Middleware System:编号通 用 标 准 处 置索 引GMT001TUXEDO中间件标准关闭GMT002TUXEDO中间件非标准关闭GMT003使用Tuxedo命令强行停止Tuxedo应用GMT004使用操作系统命令强行停止Tuxedo应用GMT005TUXEDO中间件标准重启GMT006TUXEDO域相关进程停止GMT007TUXEDO域相关进程启动GMT008TUXEDO域间连接手动断开GMT009TUXEDO域间连接手动重连GMT010TUXEDO应用进程非标准停止GMT011TUXEDO应用进程标准重启GMW001WebL
3、ogic实例标准停止通过CCSD完成,主推采用CCSDGM012GMW002WebLogic实例标准停止通过启动脚本完成GM013GMW003WebLogic 实例强行停止GM014GMW004WebLogic 实例标准重启通过CCSD完成,主推采用CCSDGM015GMW005WebLogic 实例标准重启通过脚本完成GM016GMW006启动WebLogic NodemanagerGMW007停止WebLogic NodemanagerGMXXX1.2. 通用处置 Tuxedo和WebLogic Server1.2.1. GMT001:TUXEDO中间件标准关闭处置名称:TUXEDO中间件
4、标准关闭处置时间:x分钟该时间因系统而异,请各根据实际停止时间填写影响分析:1业务影响: 与行内系统交互受影响2技术影响:无3其它影响: 无操作步骤: 1) 通过SOM平台以xxx用户登录xxx2) 根据需求执行环境变量文件该步骤可选,需要的系统请明示步骤3) 执行tmshutdown y验证步骤:1) 执行操作系统命令ipcs|grep xxx用户2) 查看输出结果,正常情况下应该仅有标题输出,没有内容3) 如果有输出内容,参考操作系统去除IPC资源处置步骤有些IPC资源是应用程序创立的,能否去除请参考应用程序的相关处置标准4) 执行操作系统命令ps ef | grep xxx用户5) 查看
5、输出结果,正常情况下应该不存在Tuxedo的效劳进程如GWTDOMAIN、BBL等存在6) 如果有存活的TUXEDO进程,那么执行kill -9 pid来杀掉这些进程。修订日期:2021年7月20日 修订人:庹艳林 1.2.2. GMT002:TUXEDO中间件非标准关闭处置名称:TUXEDO中间件非标准关闭处置时间:x分钟该时间因系统而异,请各根据实际停止时间填写影响分析:1业务影响: 与行内系统交互受影响,影响正在处理中的交易2技术影响:无3其它影响: 无操作步骤: 1通过SOM平台以xxx用户登录xxx2根据需求执行环境变量文件该步骤可选,需要的系统请明示步骤3执行tmshutdown
6、yc w11为等待时间,单位秒,超过1秒等待,效劳进程将被强行停止验证步骤:1) 执行操作系统命令ipcs|grep xxx用户2) 查看输出结果,正常情况下应该仅有标题输出,没有内容3) 如果有输出内容,参考操作系统去除IPC资源处置步骤有些IPC资源是应用程序创立的,能否去除请参考应用程序的相关处置标准4) 执行操作系统命令ps ef | grep xxx用户5) 查看输出结果,正常情况下应该不存在Tuxedo的效劳进程如GWTDOMAIN、BBL等存在6) 如果有存活的TUXEDO进程,那么执行kill -9 pid来杀掉这些进程。修订日期:2021年7月20日 修订人:庹艳林 1.2.
7、3. GMT003:使用Tuxedo命令强行停止Tuxedo应用处置名称:使用Tuxedo命令强行停止Tuxedo应用处置时间:x分钟该时间因系统而异,请各根据实际停止时间填写影响分析:1业务影响: 与行内系统交互受影响,影响正在处理中的交易2技术影响:无3其它影响: 无操作步骤: 1通过SOM平台以xxx用户登录xxx2根据需求执行环境变量文件该步骤可选,需要的系统请明示步骤3使用tuxedo命令tmipcrm y强行停止效劳进程验证步骤:1) 执行操作系统命令ipcs|grep xxx用户2) 查看输出结果,正常情况下应该仅有标题输出,没有内容3) 如果有输出内容,参考操作系统去除IPC资
8、源处置步骤有些IPC资源是应用程序创立的,能否去除请参考应用程序的相关处置标准4) 执行操作系统命令ps ef | grep xxx用户5) 查看输出结果,正常情况下应该不存在Tuxedo的效劳进程如GWTDOMAIN、BBL等存在6) 如果有存活的TUXEDO进程,那么执行kill -9 pid来杀掉这些进程。修订日期:2021年7月20日 修订人:庹艳林 1.2.4. GMT004:使用操作系统命令强行停止Tuxedo应用处置名称:使用操作系统命令强行停止Tuxedo应用处置时间:x分钟该时间因系统而异,请各根据实际停止时间填写影响分析:1业务影响: 与行内系统交互受影响,影响正在处理中的
9、交易2技术影响:无3其它影响: 无操作步骤: 1通过SOM平台以xxx用户登录xxx2根据需求执行环境变量文件该步骤可选,需要的系统请明示步骤3使用操作系统kill -9命令强行杀掉效劳进程4使用操作系统ipcrm -q msqid -m shmid -s semid命令去除相关IPC资源验证步骤:1) 执行操作系统命令ipcs|grep xxx用户2) 查看输出结果,正常情况下应该仅有标题输出,没有内容3) 如果有输出内容,参考操作系统去除IPC资源处置步骤有些IPC资源是应用程序创立的,能否去除请参考应用程序的相关处置标准4) 执行操作系统命令ps ef | grep xxx用户5) 查看
10、输出结果,正常情况下应该不存在Tuxedo的效劳进程如GWTDOMAIN、BBL等存在6) 如果有存活的TUXEDO进程,那么执行kill -9 pid来杀掉这些进程。修订日期:2021年7月20日 修订人:庹艳林 1.2.5. GMT005:TUXEDO中间件标准重启处置名称:TUXEDO中间件标准重启处置时间:x分钟该时间因系统而异,请各根据实际停止时间填写影响分析:1业务影响:与行内系统交互受影响2技术影响:无3其它影响:无操作步骤: 1) 通过SOM平台以xxx用户登录xxx2) 根据需求执行环境变量文件该步骤可选,需要的系统请明示步骤3) 执行tmboot -y验证步骤:1) 执行t
11、madmin2) 在tmadmin窗口下执行psr3) 检查Current Service列输出,正常情况下,状态是IDLE或者是应用效劳的名字4) 如果出现DEAD状态,请参考Tuxedo效劳进程异常退出core dump故障场景处置步骤5) 检查Tuxedo ULOG文件或者是应用日志文件,验证应用效劳进程启动成功关键字该步骤可选,强烈推荐选用修订日期:2021年5月8日 修订人: 王荔 1.2.6. GMT006:TUXEDO域相关进程停止处置名称:TUXEDO域相关进程停止处置时间:x分钟该时间因系统而异,请各根据实际停止时间填写影响分析:1业务影响:与行内系统交互受影响2技术影响:无
12、3其它影响:无操作步骤: 1) 通过SOM平台以xxx用户登录xxx2) 根据需求执行环境变量文件该步骤可选,需要的系统请明示步骤4) 执行tmshutdown s GWTDOMAIN5) 执行tmshutdown s GWADM6) 执行tmshutdown s DMADM验证步骤:1) 执行tmadmin2) 在tmadmin窗口下执行psr3 检查Prog Name列输出,输出项中没有上述3个进程修订日期:2021年5月8日 修订人: 王荔 1.2.7. GMT007:TUXEDO域相关进程启动处置名称:TUXEDO域相关进程启动处置时间:x分钟该时间因系统而异,请各根据实际停止时间填写
13、影响分析:1业务影响:与行内系统交互受影响2技术影响:无3其它影响:无操作步骤: 1) 通过SOM平台以xxx用户登录xxx2根据需求执行环境变量文件该步骤可选,需要的系统请明示步骤3) 执行tmboot s DMADM4) 执行tmboot s GWADM5) 执行tmboot s GWTDOMAIN验证步骤:1) 执行tmadmin2) 在tmadmin窗口下执行psr3) 检查Prog Name列输出,输出项中有上述3个进程,Current Service一列输出为IDLE修订日期:2021年5月8日 修订人: 王荔 1.2.8. GMT008:TUXEDO域连接手动断开处置名称:TUX
14、EDO域连接手动断开处置时间:x分钟该时间因系统而异,请各根据实际停止时间填写影响分析:1业务影响:与行内系统交互受影响2技术影响:无3其它影响:无操作步骤: 1通过SOM平台以xxx用户登录xxx2根据需求执行环境变量文件该步骤可选,需要的系统请明示步骤3) 执行dmadmin4) 在dmadmin命令行窗口,执行dco d <local domain id>验证步骤:1)执行dmadmin2)在dmadmin命令行窗口下执行pd d <local domain id>;Connected domains输出显示没有可用连接修订日期:2021年5月8日 修订人: 王荔
15、 1.2.9. GMT009:TUXEDO域连接手动重连处置名称:TUXEDO域连接手动重连处置时间:x分钟该时间因系统而异,请各根据实际停止时间填写影响分析:1业务影响:与行内系统交互受影响2技术影响:无3其它影响:无操作步骤: 1通过SOM平台以xxx用户登录xxx2根据需求执行环境变量文件该步骤可选,需要的系统请明示步骤3执行dmadmin4在dmadmin命令行窗口,执行co d <local domain id>验证步骤:1)执行dmadmin2)在dmadmin命令行窗口下执行pd d <local domain id>;Connected domains输
16、出显示有可用连接,验证连接是否正常修订日期:2021年5月8日 修订人: 王荔 1.2.10. GMT010:TUXEDO应用进程非标准停止处置名称:TUXEDO应用进程非标准停止处置时间:x分钟该时间因系统而异,请各根据实际停止时间填写影响分析:1业务影响:当前交易与已排队请求受影响2技术影响:无3其它影响:无操作步骤: 1) 通过SOM平台以xxx用户登录xxx2) 根据需求执行环境变量文件该步骤可选,需要的系统请明示步骤3) 执行tmshutdown s <应用程序名> -y w1验证步骤:1) 执行tmadmin2) 在tmadmin窗口下执行psr3) 检查Prog Na
17、me列输出,输出项中没有响应的效劳进程修订日期:2021年5月16日 修订人: 王荔 1.2.11. GMT011:TUXEDO应用进程标准重启处置名称:TUXEDO应用进程标准重启处置时间:x分钟该时间因系统而异,请各根据实际停止时间填写影响分析:1业务影响:无 2技术影响:无3其它影响:无操作步骤: 1) 通过SOM平台以xxx用户登录xxx2) 根据需求执行环境变量文件该步骤可选,需要的系统请明示步骤3) 执行tmboot s <应用程序名>验证步骤:1) 执行tmadmin2) 在tmadmin窗口下执行psr3) 检查Current Service列输出,正常情况下,状态
18、是IDLE或者是应用效劳的名字4) 如果出现DEAD状态,请参考Tuxedo效劳进程异常退出core dump故障场景处置步骤5) 检查Tuxedo ULOG文件或者是应用日志文件,验证应用效劳进程启动成功关键字该步骤可选,强烈推荐选用修订日期:2021年5月16日 修订人: 王荔 1.2.12. GMW001:WebLogic实例标准停止通过CCSD完成,主推CCSD处置名称:WebLogic实例标准停止通过CCSD完成,主推采用CCSD处置时间:x分钟该时间因系统而异,请各根据实际停止时间填写影响分析:1业务影响:与行内系统交互受影响2技术影响:无3其它影响:无操作步骤: 1通过CCSD平
19、台以xxx用户登录xxx2执行停止WebLogic实例3如果停止整个Domain,需要先停止被管效劳器,然后停止管理效劳器验证步骤:通过CCSD平台验证修订日期:2021年5月8日 修订人: 王荔 1.2.13. GMW002:WebLogic实例标准停止通过脚本完成包括通过node manager停止处置名称:WebLogic实例标准停止通过脚本完成处置时间:x分钟该时间因系统而异,请各根据实际停止时间填写影响分析:1业务影响:与行内系统交互受影响2技术影响:无3其它影响:无操作步骤: 1通过SOM平台以xxx用户登录xxx2执行停止WebLogic实例的脚本各应用系统自己定义3如果停止整个
20、Domain,需要先停止被管效劳器,然后停止管理效劳器验证步骤:1) 执行操作系统ps命令,ps ef|grep java|grep xxx用户,检查java进程是否存在2) 执行操作系统netstat命令,netstat an|grep LISTEN,检查监听端口是否存在修订日期:2021年5月8日 修订人: 王荔 1.2.14. GMW003:WebLogic实例强行停止处置名称:WebLogic实例强行停止处置时间:x分钟该时间因系统而异,请各根据实际停止时间填写影响分析:1业务影响:与行内系统交互受影响2技术影响:无3其它影响:无操作步骤: 1通过SOM平台以xxx用户登录xxx2ps
21、 ef|grep java|grep xxx(用户),找到要停止的WebLogic Server实例的进程ID3如果实例不是由node manager启动的,那么执行操作系统kill命令,kill -9 <java pid>杀掉进程。4)如果实例是由node manager启动的,先按照GMW007停止node manager,然后执行操作系统kill命令,kill -9 <java pid>杀掉WebLogic进程,最后按照GMW006启动node manager。验证步骤:1) 执行操作系统ps命令,ps ef|grep java|grep xxx用户,检查java
22、进程是否存在2) 执行操作系统netstat命令,netstat an|grep LISTEN,检查监听端口是否存在修订日期:2021年5月8日 修订人: 王荔 1.2.15. GMW004:WebLogic实例标准重启通过CCSD完成,主推采用CCSD处置名称:WebLogic实例标准重启通过CCSD完成,主推采用CCSD处置时间:x分钟该时间因系统而异,请各根据实际停止时间填写影响分析:1业务影响:与行内系统交互受影响2技术影响:无3其它影响:无操作步骤: 1通过CCSD平台以xxx用户登录xxx2执行启动WebLogic实例3如果重启整个Domain,需要先重启管理效劳器,然后启动被管效
23、劳器验证步骤:通过CCSD验证修订日期:2021年5月8日 修订人: 王荔 1.2.16. GMW005:WebLogic实例标准重启通过脚本完成包括通过node manager停止处置名称:WebLogic实例标准重启处置时间:x分钟该时间因系统而异,请各根据实际停止时间填写影响分析:1业务影响:与行内系统交互受影响2技术影响:无3其它影响:无操作步骤: 1通过SOM平台以xxx用户登录xxx2执行启动WebLogic实例的脚本各应用系统自己定义3如果重启整个Domain,需要先重启管理效劳器,然后启动被管效劳器验证步骤:1) 执行操作系统ps命令,ps ef|grep java|grep
24、xxx用户,检查java进程是否存在2) 执行操作系统netstat命令,netstat an|grep LISTEN,检查监听端口是否存在3) 可选检查WebLogic实例状态,必须是RUNNING修订日期:2021年5月8日 修订人: 王荔 1.2.17. GMW006:WebLogic Nodemanager实例标准重启通过脚本完成处置名称:WebLogicNodemanager实例标准重启处置时间:x分钟该时间因系统而异,请各根据实际停止时间填写影响分析:1业务影响:无2技术影响:无3其它影响:无操作步骤: 1通过SOM平台以xxx用户登录xxx2执行启动WebLogic Nodema
25、nager实例的脚本各应用系统自己定义,建议放在操作系统的自启动效劳里,在操作系统启动时跟随着自动启动。验证步骤:1) 执行操作系统ps命令,ps ef|grep |grep xxx用户,检查nodemanager进程是否存在2) 执行操作系统netstat命令,netstat an|grep LISTEN,检查监听端口是否存在修订日期:2021年8月9日 修订人: 庹艳林 1.2.18. GMW007:WebLogic Nodemanager实例标准停止通过脚本完成处置名称:WebLogicNodemanager实例标准停止处置时间:x分钟该时间因系统而异,请各根据实际停止时间填写影响分析:
26、1业务影响:无2技术影响:无3其它影响:无操作步骤: 1) 通过SOM平台以xxx用户登录xxx2) 执行操作系统ps命令,ps ef|grep |grep xxx用户,获得nodemanager进程的进程号pid.3) 执行kill -9 pid杀掉node manager验证步骤:1) 执行操作系统ps命令,ps ef|grep |grep xxx用户,检查nodemanager进程是否存在修订日期:2021年8月9日 修订人: 庹艳林 2. 故障场景快速索引2.1. 故障场景-通用软件说明:主要包含操作系统、数据库软件、中间件等方面的故障场景:序号故 障 场 景索 引 1Tuxedo效劳
27、进程异常退出core dump2Tuxedo BBL进程异常退出core dump3Tuxedo效劳进程请求排队4Tuxedo ULOG日志文件中有关键字告警5WebLogic实例异常退出core dump6WebLogic实例内存溢出OOM7WebLogic实例占用CPU高8WebLogic实例没有响应hang9WebLogic实例翻开文件数太多Too many open files10WebLogic Server线程池异常11WebLogic JDBC连接池状态异常12WebLogic JMS Pending消息积压13已部署应用的状态异常14WebLogic Server日志中有关键字
28、告警15WebLogic重启时报JMS Store错误16WebLogic NodeManager挂起或者异常退出N2.2. 通用软件故障场景2.2.1. Tuxedo效劳进程异常退出core dump事件级别:六级授权级别:部室负责人授权场景描述:主要告警管理X部:XXXX系统:生产主机:xxxxxxx的Tuxedo可用效劳数量减少,当前值为:xxxx,告警阀值为:x-x,发生时间xxxxxxxxxxx主要告警管理X部:XXXX系统:生产主机:xxxxxxx的Tuxedo应用效劳进程异常宕机,当前值为:xxxx,告警阀值为:x-x,发生时间xxxxxxxxxxx业务影响:影响正在进行中的交易
29、启动条件:无现场保护:1) 通过SOM平台以xxx用户登录xxx系统2) 保存core 文件3) 保存Tuxedo ULOG文件故 障 场 景 应 急 处 置序号调用处置编号 处 置 简 要 描 述时间树T1收到集中监控的报警后,通知二线运维支持人员,当日值班经理,部室负责人1分钟T2使用xxx用户登录xxx主机,保护现场;使用操作系统file core命令,检查具体是哪个Tuxedo效劳进程出现异常退出5分钟T3同时二线运维支持人员联系工程组共同分析、解决问题10分钟T4Tuxedo类应用,应用效劳进程异常退出,都配置有自动重启功能,遇到可用效劳数量减少这个问题时,一般是自动重启次数到达最大
30、限制,不能再自动重启导致;调用GMT011重启Tuxedo应用效劳进程x分钟T5恢复正常后报告部室负责人,当日值班经理,应急处置结束修订日期:2021年5月16日 修订人:王荔2.2.2. Tuxedo BBL进程异常退出core dump事件级别:六级授权级别:部室负责人授权场景描述:主要告警管理X部:XXXX系统:生产主机:xxxxxxx:BBL的进程数量为:0,告警阀值为:x-x,发生时间xxxxxxxxxxx业务影响:影响交易超时的交易,并且无法自动拉起异常死掉的TUXEDO应用进程启动条件:无现场保护:4) 通过SOM平台以xxx用户登录xxx系统5) 保存core 文件6) 保存T
31、uxedo ULOG文件故 障 场 景 应 急 处 置序号调用处置编号 处 置 简 要 描 述时间树T1收到集中监控的报警后,通知二线运维支持人员,当日值班经理,部室负责人1分钟T2使用xxx用户登录xxx主机,保护现场;使用操作系统ps ef | grep BBL命令,确认BBL效劳进程已经不存在。并且确认当前没有执行停止TUXEDO应用程序的命令。5分钟T3同时二线运维支持人员联系工程组共同分析、解决问题10分钟T4设置TUXEDO运行时需要的TUXCONFIG、TUXDIR等环境变量后,进入tmadmin,然后执行bbc子命令。执行ps ef | grep BBL检查BBL启动是否成功。
32、并执行TUXEDO应用程序的健康检查。x分钟T5恢复正常后报告部室负责人,当日值班经理,应急处置结束。等待交易空闲时段重新启动整个TUXEDO应用程序。修订日期:2021年8月15日 修订人:庹艳林2.2.3. Tuxedo效劳进程请求排队事件级别:六级授权级别:部室负责人授权场景描述:主要告警管理X部:XXXX系统:生产主机:xxxxxxx的Tuxedo效劳进程xxxx请求排队,当前值为:xxxx,告警阀值为:x-x,发生时间xxxxxxxxxxx主要告警管理X部:XXXX系统:生产主机:xxxxxxx的Tuxedo应用交易超时,当前值为:xxxx,告警阀值为:x-x,发生时间xxxxxxx
33、xxxx业务影响:影响正在进行中和后续接入的交易启动条件:无现场保护:1) 通过SOM平台以xxx用户登录xxx系统2) 执行监控脚本采集cpu/psr/pq/ipcs/netstat等信息各应用系统根据操作系统的不同修订监控脚本3) 保存Tuxedo ULOG文件故 障 场 景 应 急 处 置序号调用处置编号 处 置 简 要 描 述时间树T1收到集中监控的报警后,通知二线运维支持人员,当日值班经理,部室负责人1分钟T2使用xxx用户登录xxx主机,保护现场;5分钟T3同时二线运维支持人员联系工程组共同分析、解决问题10分钟T4调用GMT002/010非标准停止Tuxedo或者是有问题的应用效
34、劳进;如果非标准停止失败,需要强行停止所有Tuxedo应用,调用GMT003/004 x分钟T5调用GMT005/011重启Tuxedo或者是应用效劳进程x分钟T6恢复正常后报告部室负责人,当日值班经理,应急处置结束修订日期:2021年6月15日 修订人:王荔2.2.4. Tuxedo ULOG日志文件中有关键字告警事件级别:六级授权级别:部室负责人授权场景描述:主要告警管理X部:XXXX系统:生产主机:xxxxxxx的Tuxedo ULOG日志文件匹配到x个关键字,告警阀值为:x-x,发生时间xxxxxxxxxxx,原始信息xxxxxx业务影响:影响正在进行中和后续接入的交易启动条件:无现场
35、保护:1) 通过SOM平台以xxx用户登录xxx系统2) 执行监控脚本采集cpu/psr/pq/ipcs/netstat等信息各应用系统根据操作系统的不同修订监控脚本3) 保存Tuxedo ULOG文件故 障 场 景 应 急 处 置序号调用处置编号 处 置 简 要 描 述时间树T1收到集中监控的报警后,通知二线运维支持人员,当日值班经理,部室负责人1分钟T2使用xxx用户登录xxx主机,保护现场;二线运维支持人员初步分析是否与数据库相关,如果相关,执行<>应急预案 5分钟T3同时二线运维支持人员联系工程组共同分析、解决问题10分钟T4调用GMT002/010非标准停止Tuxedo或
36、者是有问题的应用效劳进程;如果非标准停止失败,调用强行停止GMT003/004x分钟T5调用GMT005/011重启Tuxedo或者是应用效劳进程x分钟T6恢复正常后报告部室负责人,当日值班经理,应急处置结束修订日期:2021年6月15日 修订人:王荔2.2.5. WebLogic实例异常退出core dump事件级别:六级授权级别:部室负责人授权场景描述: 主要告警管理X部:XXXX系统:生产主机:xxxxxxx的实例效劳不可连接当前值为:Offline,告警阀值为:x-x,发生时间xxxxxxxxxxx业务影响:已经在故障实例上运行的业务有影响;如果WebLogic实例有多个,单一实例不可
37、连接,不影响后续业务,如果超过50%的实例都不可连接,那么影响业务。启动条件:无现场保护:1) 通过SOM平台以xxx用户登录xxx系统2) 使用操作系统ps ef|grep java|grep xxx,检查java进程数量3) 如果java进程数量没有问题,请参考< WebLogic实例没有响应hang>故障处置4) 保存core 文件和文本core文件a) core文件缺省情况下在<your-domain-name>目录下,根据操作系统的安装配置标准,标准存放coredump文件的目录是/home/coredump,在上述两个目录下找到core文件b) HP平台,L
38、inux平台上使用SUN JDK,保存<your-domain-name>目录下的hs_err_pid<WLSpid>.logc) Linux平台上使用JRockit,保存<your-domain-name>目录下的jrockit<WLSpid>.dumpd) AIX平台上,保存<your-domain-name>目录下javacore<WLSpid>.<ID#>.txt5) 保存WebLogic Server日志、标准输出日志如果有故 障 场 景 应 急 处 置序号调用处置编号 处 置 简 要 描 述时间树T
39、1收到集中监控的报警后,通知二线运维支持人员,当日值班经理,部室负责人1分钟T2使用xxx用户登录xxx主机,使用操作系统ps ef|grep java|grep xxx,检查java进程数量 2分钟T3如果java进程数量没有问题,调用< WebLogic实例没有响应hang>故障处置5分钟T4如果java进程数量有问题,保护现场,调用GMW004/005标准启动WebLogic实例x分钟T5恢复正常后报告部室负责人,当日值班经理,应急处置结束修订日期:2021年5月15日 修订人:王荔2.2.6. WebLogic实例内存溢出OOM事件级别:六级授权级别:部室负责人授权场景描述
40、: 主要告警管理X部:XXXX系统:生产主机:xxxxxxx的JVM使用的堆栈空间当前值为:xx.xx,告警阀值为:x-x,发生时间xxxxxxxxxxx 主要告警管理X部:XXXX系统:生产主机:xxxxxxx的实例OutOfMemory告警,不可连接当前值为:Offline,告警阀值为:x-x,发生时间xxxxxxxxxxx 日志告警业务影响:发送到或者已经在故障实例上运行的业务有影响。启动条件:无现场保护:1) 通过SOM平台以xxx用户登录xxx系统2) 保存Heapdump文件、GC日志文件、WebLogic Server日志、标准输出日志故 障 场 景 应 急 处 置序号调用处置编
41、号 处 置 简 要 描 述时间树T1收到集中监控的报警后,通知二线运维支持人员,当日值班经理,部室负责人1分钟T2使用xxx用户登录xxx主机,保护现场2分钟T3如果没有heapdump文件,二线运维支持人员判断是否可以动态生成heapdump文件,如果可以,动态生成heapdump文件3分钟T4调用GMW003强行停止故障WebLogic实例2分钟T5调用GMW004/005标准启动WebLogic实例x分钟T6恢复正常后报告部室负责人,当日值班经理,应急处置结束。修订日期:2021年5月15日 修订人:王荔2.2.7. WebLogic实例占用CPU高事件级别:六级授权级别:部室负责人授权
42、场景描述: 主要告警管理X部:XXXX系统:生产主机: xxxxxxx的JVM当前CPU利用率当前值为:100,告警阀值为:x-x,发生时间xxxxxxxxxxx业务影响:发送到或者已经在故障实例上运行的业务有影响。启动条件:无现场保护:1) 调用如下脚本采集线程CPU信息和进程的Thread dump:a) AIX平台b) HP平台c) Linux平台d) 上述脚本供参考,需根据应用需要调整sleep参数等注意像AIX上的dbx/tprof,HP上glance命令是否有权限执行2) 保存GC日志、Heapdump文件、WebLogic Server日志、标准输出日志故 障 场 景 应 急 处
43、 置序号调用处置编号 处 置 简 要 描 述时间树T1收到集中监控的报警后,通知二线运维支持人员,当日值班经理,部室负责人1分钟T2使用xxx用户登录xxx主机,保护现场5分钟T3如果没有heapdump文件和GC日志,二线运维支持人员判断是否可以动态生成,如果可以,动态获得GC信息和Heapdump文件5分钟T4调用GMW003强行停止故障WebLogic实例2分钟T5调用GMW004/005标准启动WebLogic实例x分钟T6恢复正常后报告部室负责人,当日值班经理,应急处置结束。修订日期:2021年5月16日 修订人:王荔2.2.8. WebLogic实例没有响应hang事件级别:六级授
44、权级别:部室负责人授权场景描述: 主要告警管理X部:XXXX系统:生产主机: xxxxx成功交易响应时间异常,当前值为xxx,告警阀值为:x-x,发生时间xxxxxxxxxxx主要告警管理X部:XXXX系统:生产主机: xxxxxx:xxxxxx交易成功率异常,告警阀值为:x-x,发生时间xxxxxxxxxxx主要告警管理X部:XXXX系统:生产主机:xxxxxxx的实例效劳不可连接当前值为:Offline,告警阀值为:x-x,发生时间xxxxxxxxxxx业务影响:发送到或者已经在故障实例上运行的业务有影响。启动条件:无现场保护:1) 通过SOM平台以xxx用户登录xxx系统2) 调用脚本获
45、得进程的thread dump 3) 保存Heapdump文件、GC日志文件、WebLogic Server日志、标准输出日志故 障 场 景 应 急 处 置序号调用处置编号 处 置 简 要 描 述时间树T1收到集中监控的报警后,通知二线运维支持人员,当日值班经理,部室负责人1分钟T2使用xxx用户登录xxx主机,保护现场3分钟T3如果没有heapdump文件和GC日志,二线运维支持人员判断是否可以动态生成,如果可以,动态获得GC信息和Heapdump文件5分钟T4调用GMW003强行停止故障WebLogic实例2分钟T5调用GMW004/005标准启动WebLogic实例x分钟T6恢复正常后报
46、告部室负责人,当日值班经理,应急处置结束。修订日期:2021年5月15日 修订人:王荔2.2.9. WebLogic实例翻开文件数太多Too many open files事件级别:六级授权级别:部室负责人授权场景描述: 主要告警管理X部:XXXX系统:生产主机:xxxxxxx的实例翻开文件数太多,告警阀值为:x-x,发生时间xxxxxxxxxxx 日志告警业务影响:发送到或者已经在故障实例上运行的业务有影响。启动条件:无现场保护:1) 通过SOM平台以xxx用户登录xxx系统2) 使用操作系统lsof命令,lsof |grep <java pid>,保存输出结果3) 保存WebL
47、ogic Server日志、标准输出日志故 障 场 景 应 急 处 置序号调用处置编号 处 置 简 要 描 述时间树T1收到集中监控的报警后,通知二线运维支持人员,当日值班经理,部室负责人1分钟T2使用xxx用户登录xxx主机,保护现场3分钟T3调用GMW003强行停止故障WebLogic实例2分钟T4调用GMW004/005标准启动WebLogic实例x分钟T5恢复正常后报告部室负责人,当日值班经理,应急处置结束。修订日期:2021年5月16日 修订人:王荔2.2.10. WebLogic实例线程池异常事件级别:六级授权级别:部室负责人授权场景描述: 主要告警管理X部:XXXX系统:生产主机
48、: xxxxx实例线程池异常状态异常、线程总数高、活动线程数量高等,当前值为xxx,告警阀值为:x-x,发生时间xxxxxxxxxxx业务影响:发送到或者已经在故障实例上运行的业务有影响。启动条件:无现场保护:4) 通过SOM平台以xxx用户登录xxx系统5) 调用脚本获得进程的thread dump 6) 保存Heapdump文件、GC日志文件、WebLogic Server日志、标准输出日志故 障 场 景 应 急 处 置序号调用处置编号 处 置 简 要 描 述时间树T1收到集中监控的报警后,通知二线运维支持人员,当日值班经理,部室负责人1分钟T2使用xxx用户登录xxx主机,保护现场3分钟
49、T3如果没有heapdump文件和GC日志,二线运维支持人员判断是否可以动态生成,如果可以,动态获得GC信息和Heapdump文件5分钟T4调用GMW003强行停止故障WebLogic实例2分钟T5调用GMW004/005标准启动WebLogic实例x分钟T6恢复正常后报告部室负责人,当日值班经理,应急处置结束。修订日期:2021年5月15日 修订人:王荔2.2.11. WebLogic JDBC连接池状态异常事件级别:六级授权级别:部室负责人授权场景描述: 主要告警管理X部:XXXX系统:生产主机:xxxxxxx的实例JDBC数据源告警,当前值为: ResourceDisabled:告警阀值
50、为:x-x,发生时间xxxxxxxxxxx 日志告警主要告警管理X部:XXXX系统:生产主机:xxxxxxx的实例JDBC状态告警,当前值为:unhealthy,告警阀值为:x-x,发生时间xxxxxxxxxxx 业务影响:发送到或者已经在故障实例上运行的业务有影响。启动条件:无现场保护: 1) 通过SOM平台以xxx用户登录xxx系统2) 保存GC日志、WebLogic Server日志、标准输出日志故 障 场 景 应 急 处 置序号调用处置编号 处 置 简 要 描 述时间树T1收到集中监控的报警后,通知二线运维支持人员,当日值班经理,部室负责人1分钟T2使用xxx用户登录xxx主机,根据现
51、场保存信息,二线运维支持人员判断是否与数据库相关;如果是,请执行<>预案;如果不是,直接到T310分钟T3调用GMW003强行停止故障WebLogic实例2分钟T4调用GMW004/005标准启动WebLogic实例x分钟T5恢复正常后报告部室负责人,当日值班经理,应急处置结束。修订日期:2021年5月16日 修订人:王荔2.2.12. WebLogic JMS Pending消息积压事件级别:六级授权级别:部室负责人授权场景描述: 主要告警管理X部:XXXX系统:生产主机:xxxxxxx的实例 JMS消息积压,当前值为:xxxx,告警阀值为:x-x,发生时间xxxxxxxxxxx业务影响:发送到或者已经在故障实例上运行的业务有影响。启动条件:无现场保护: 1) 通过SOM平台以xxx用户登录xxx系统2) 调用脚本获得进程的thread dump 3) 保存Heapdump文件、GC日志文件、WebLogic Server日志、标准输出日志故 障 场 景 应 急 处 置序号调用处置编号 处 置 简 要 描 述时间树T1收到集中监控的报警后,通知二线运维支持人员,当日
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 免租金租赁合同范例3篇
- 培训机构聘用合同范文3篇
- 地热项目合同指南3篇
- 劳务派遣合同书3篇
- 经营 项目分红 合同范例
- 电梯房出租合同范例
- 收养入户申请合同范例
- 机械钣金采购合同范例
- 医院陪护劳动合同范例
- 快递广告加盟合同范例
- 北师大版四年级上册除法竖式计算题300道及答案
- 2024-2030年中国橡胶伸缩缝行业市场发展趋势与前景展望战略分析报告
- 2021-2022学年内蒙古呼和浩特市高一上学期期末考试英语试题(解析版)
- 12SG121-1 施工图结构设计总说明
- DL∕T 2447-2021 水电站防水淹厂房安全检查技术规程
- AQ 1097-2014 井工煤矿安全设施设计编制导则(正式版)
- 2024装修补贴协议书
- 四川省对外文化交流中心2024年公开招聘工作人员历年【重点基础提升】模拟试题(共500题)附带答案详解
- 许昌市2022-2023学年七年级上学期期末语文试题
- 小学语文学习任务群的设计与实施研究
- 2024年中考物理微专题练习热学计算1含答案
评论
0/150
提交评论