江苏省电力公司信息中心培训_第1页
江苏省电力公司信息中心培训_第2页
江苏省电力公司信息中心培训_第3页
江苏省电力公司信息中心培训_第4页
江苏省电力公司信息中心培训_第5页
已阅读5页,还剩40页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、江苏省电力公司信息中心,AIX管理实践及案例,主要内容,一、日常维护常用操作 错误日志检查 数据备份 监控文件系统使用情况 监控系统资源使用 监控HA状态,主要内容(续),二、常见案例处理及分析 根目录或/tmp目录空间满 误删除根目录下文件 系统无法启动 HA问题,主要内容(续),三、数据收集 故障大致过程,主要时间点 控制面板信息 操作系统相关数据 dump 数据 HA相关数据,一、日常维护常用操作,1、错误日志检查 检查硬件报错 errpt -dH 检查软件报错 errpt -dS 显示详细报错 errpt -a 显示某类错误详细信息 errpt -aj XXXXXX,2、数据备份,操作

2、系统备份 smitty mksysb,其他数据备份 tar cvf /dev/rmt0 /directory backup/restore命令 裸设备备份 dd命令 dd if=/dev/lv00 of=/dev/rmt0 bs=1024,3、监控文件系统使用情况,一般说来,除少数空间占用稳定的文件系统(如/usr)以外,应保证文件系统的使用率在80%以下 使用命令 df 来检查文件系统的占用 如果发现某文件系统增长迅速,则需要检查是哪个文件的增长导致文件系统占用。,几个容易增长的文件或目录: /var/adm/ras:系统dump自动copy的目录,并且存放系统的很多日志 /etc/secu

3、rity/failedlogin:系统存放失败登录信息的文件 /tmp/hacmp.out.*:HA的日志文件 /smit.log, /smit.script:root用户的smit信息日志 /usr/sbin/skulker可以用来自动清理一些系统日志,4、监控系统资源使用,topas 命令,ps命令 ps -ef ps aux vmstat命令 svmon命令 svmon -G svmon -P,5、监控HA状态,启停HA smitty clstart smitty clstop (graceful,takeover,forced) 查看HA相关子系统状态 lssrc -g cluster

4、,查看HA服务地址情况 netstat -in ping 查看共享存储情况 lsvg -o,clstat命令 需要在启动HA的时候选中 Startup Cluster Information Daemon? True /usr/es/sbin/cluster/clstat 可以查看地址情况,HA是否稳定,资源分布等,主要文件 /tmp/hacmp.out 应用起停脚本 /usr/es/adm/cluster.log,二、常见案例处理及分析,1、根目录或/tmp空间满 根目录(/)和/tmp目录是AIX操作系统中两个非常重要的目录。如果这两个目录的空间100%被占用,往往会导致无法登录系统,应用

5、程序工作异常等现象。 一般说来,应保证根目录和/tmp目录的占用率在80%以下,如果/或/tmp目录已经占用100%并导致无法登录,可以进行如下尝试 寻找是否有已存在的登录会话,如果有,且为root用户,则使用下面命令扩充/或/tmp文件系统: chfs -a size=+32M / 或 chfs -a size=+32M /tmp,如果该会话不具有root权限,则尝试su到root用户,如果失败,尝试用以下命令: su root -c “chfs -a size=+32M /” 或 su root -c “chfs -a size=+32M /tmp” 注意:该命令需要输入root用户的口令

6、。,如果已不存在有效会话,可以尝试是否可以用root用户ftp登录主机 如果可以ftp登录,尝试在ftp会话中删除部分/(或/tmp)目录下的无用文件以释放部分空间 注意:如果要释放/目录的空间,需要删除直接保存在/下或者/etc,/sbin等系统目录下的文件,所以一定要确认文件的确无用才能进行删除。如无法确定,则不应采用此方法。,如前面尝试都无效,则必须强制关闭系统(关闭电源)。并使用操作系统光盘引导,加载rootvg后对/或/tmp文件系统进行清理或扩充。,2、误删根目录下文件,如因误操作在根目录下执行了rm *操作,将会删除根目录下的所有文件及链接。导致无法登录系统,但大部分情况下,业务

7、仍能正常运行。 这种情况下的恢复操作和文件系统满的恢复过程类似,因根目录下并无关键系统文件,所以rm *操作对AIX的影响仅限与删除了一些链接文件及smit.log,smit.script等log文件。对于恢复系统来说,只需要重建被删除的以下连接就可以了: /bin - /usr/bin /lib - /usr/lib /u - /home /unix - /usr/lib/boot/unix_mp,如还有可用的telnet会话,且具有root权限,可以使用如下命令重建链接: ln -s /usr/bin /bin ln -s /usr/lib /lib ln -s /home /u ln -

8、s /usr/lib/boot/unix_mp /unix,如该会话无root权限,仍然可以尝试使用su -c 命令: su root -c “ln -s /usr/bin /bin” su root -c “ln -s /usr/lib /lib” su root -c “ln -s /home /u” su root -c “ln -s /usr/lib/boot/unix_mp /unix”,如无可用telnet会话,则也必须强制关闭系统后使用操作系统光盘引导并挂接rootvg后按前面所述命令对链接进行重建。,3、系统无法启动,系统无法启动的问题可能性非常多,这里粗略的将其分为两大类:

9、启动过程停止在AIX启动前 启动过程停止在AIX启动后 下面针对这两种情况进行简要的讨论: (注意,小型机启动过程相对比较耗时,根据不同型号从15-40分钟不等,所以请等待足够长时间或通过面板显示来确认是否遇到启动故障),启动过程停止在AIX启动前,如果在启动过程中,显示器从未出现显示,或者是未出现”Software is starting”字样。控制面板上未出现“AIX is starting”字样。则故障发生在AIX启动之前。,此时应观察以下信息: 机器电源是否接触良好 控制面板上圆形电源指示灯状态: 慢闪(2秒一次):机器已上电,但未启动 快闪(1秒一次):机器正在启动 稳定:机器已启动

10、或正在运行 控制面板上是否有代码或信息显示,如有,请精确记录。,在AIX启动前的系统启动故障大多数情况下可能由以下原因导致: 电源问题 启动介质缺失或无法读取 其他硬件问题 进一步的分析请联系IBM工程师,启动过程停止在AIX启动后,如果在启动过程中,屏幕上或控制面板上有显示过”AIX is Starting”或”Software is Starting”字样,则该启动过程已经进入AIX引导过程,机器的硬件基本自检已通过。,此时应观察以下信息: 屏幕显示情况 控制面板上是否有代码或信息显示,如有,请精确记录。 可能的原因: 文件系统损坏 系统引导需要人工干预 操作系统损坏,可以进行的尝试: 重

11、新启动机器 如系统rootvg有镜像,尝试在SMS菜单中选择从第二个硬盘启动 尝试断开不必要的外设后重启 进一步的分析请联系IBM工程师,4、HA问题,目前江苏电力的大部分业务系统都采用双机热备(HA)环境。因此对HA中常出现的问题及如何配合IBM工程师进行解决进行简单介绍: 启动问题 切换问题 停止问题,启动问题 启动HA时,应先启动其中一个节点并用命令”tail -f /tmp/hacmp.out”监控无更多输出时,再启动另一节点的HA 启动前,应确认 共享VG当前不在任何一个节点上varyon 当前节点IP为boot IP,且可相互ping通 应用起停脚本在两台机器上都具有可执行权限,如

12、果对系统进行过一些更改后HA无法正常启动,应首先尝试对HA进行同步 smitty hacmp Extended Configuration Extended Verification and Synchronization 注意:对共享VG,FS,LV,服务IP等的更改,需要通过HACMP管理菜单进行,并且在修改后必须进行重新同步,切换问题 HA 切换中发生的问题非常复杂,这里不仔细讨论,如发生这类问题,如已经影响业务,应立刻和IBM工程师联系。如暂时不影响业务,也需要安排时间对错误进行分析,并建议对系统进行切换测试。,停止问题 HA有三个停止选项 graceful:正常停止HA服务,释放该节

13、点的资源,不发生切换动作 takeover:正常停止HA服务,释放该节点的资源,并触发切换动作。其他节点将根据定义接管相应资源 forced:强制停止HA服务,不引发任何释放资源的动作,也不接管。采用该选项后,必须进行人工干预,检查系统状态。,停止HA出现问题后,可进行如下尝试(应在IBM工程师指导下进行) 手工停止业务 使用 forced 方式停止 HA 手工 varyoff 共享VG,如有其他共享资源,手工关闭他们 重新启动机器,三、数据收集,在系统出现问题后,IBM工程师经常需要现场人员收集若干信息以便进行故障分析。 故障大致过程,主要时间点 控制面板信息 操作系统相关数据 dump 数

14、据 HA相关数据,故障大致过程,主要时间点 包括故障发生前的主要动作,故障发生时间,故障现象,故障发生后已采取的动作等。 控制面板信息 故障发生时,如小型机控制面板上有信息显示,应精确记录下来。 通常为2行,第一行为4位或8位代码,第二行为类似U0.1-P1-V1字样的一串字符,操作系统相关数据 如机器仍可访问,或是机器已经重启并进入操作系统,请使用以下命令收集操作系统相关数据: snap -r;snap -gbc 然后将/tmp/ibmsupt/snap.pax.Z文件ftp出来并发送给IBM工程师。(如果使用windows自带的ftp命令行,请在传输前输入bin以启用binary模式),dump 数据 如果系统发生 dump,并且机器已经重

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论