第五章 系统故障分析与排查.ppt_第1页
第五章 系统故障分析与排查.ppt_第2页
第五章 系统故障分析与排查.ppt_第3页
第五章 系统故障分析与排查.ppt_第4页
第五章 系统故障分析与排查.ppt_第5页
已阅读5页,还剩35页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、BENET3.0第二学期课程,第五章 系统故障分析与排查, 理论部分,2,课程回顾,如何判断一个文件是否存在? 如何进行整数变量的四则运算? if语句从结构上分为哪几类? for、while、until在循环流程上有何区别?,3,技能展示,熟悉常见的日志文件及分析方法 会解决常见的启动登录类故障 会解决常见的软件包安装类故障 会解决常见的文件系统、磁盘类故障 熟悉常见的系统性能监控方法,4,本章结构,日志分析及管理,主要日志文件,修复文件系统,日志文件分析,磁盘资源耗尽故障,日志管理策略,系统启动类故障排除,文件系统、磁盘类故障排除,MBR扇区故障,/etc/inittab文件丢失,rpm数据

2、库损坏,缺少*.so类文件,软件包类故障排除,检测硬盘坏道,无法卸载已挂载设备,查看CPU负载,查看系统性能状况,查看内存使用情况,GRUB引导故障,/etc/fstab文件丢失,遗忘root用户的密码,磁盘I/O性能监控,系统故障分析与排查,5,日志分析及管理,日志的功能 用于记录系统、程序运行中发生的各种事件 通过阅读日志,有助于诊断和解决系统故障 日志文件的分类 内核及系统日志 由系统服务syslog统一进行管理,日志格式基本相似 用户日志 记录系统用户登录及退出系统的相关信息 程序日志 由各种应用程序独立管理的日志文件,记录格式不统一,6,日志分析及管理,日志保存位置 默认位于:/va

3、r/log 目录下 主要日志文件介绍 内核及公共消息日志:/var/log/messages 计划任务日志:/var/log/cron 系统引导日志:/var/log/dmesg 邮件系统日志:/var/log/maillog 用户登录日志:/var/log/lastlog、/var/log/secure、/var/log/wtmp、/var/run/utmp ,7,内核及系统日志,由系统服务 syslogd 统一管理 软件包:sysklogd-1.4.1-39.2 主要程序:/sbin/klogd、/sbin/syslogd 配置文件:/etc/syslog.conf,rootlocalho

4、st # grep -v # /etc/syslog.conf | grep -v $ *.info;mail.none;authpriv.none;cron.none/var/log/messages authpriv.*/var/log/secure mail.*-/var/log/maillog cron.*/var/log/cron ,设备类别.日志级别,消息发送位置,8,内核及系统日志,日志消息的级别 0 EMERG(紧急):会导致主机系统不可用的情况 1 ALERT(警告):必须马上采取措施解决的问题 2 CRIT(严重):比较严重的情况 3 ERR(错误):运行出现错误 4 WA

5、RNING(提醒):可能会影响系统功能的事件 5 NOTICE(注意):不会影响系统但值得注意 6 INFO(信息):一般信息 7 DEBUG(调试):程序或系统调试信息等,数字越小,表示优先级越高、问题越严重,9,rootlocalhost # tail -5 /var/log/messages Sep 14 11:22:44 localhost kernel: sdb: cache data unavailable Sep 14 11:22:44 localhost kernel: sdb: assuming drive cache: write through Sep 14 11:22:

6、44 localhost kernel: sdb: sdb1 Sep 14 11:23:37 localhost kernel: VFS: Cant find ext3 filesystem on dev sdb1. Sep 14 16:54:48 localhost NetworkManager: starting.,内核及系统日志,日志记录的一般格式,10,用户日志分析,保存了用户登录、退出系统等相关信息 /var/log/lastlog:最近的用户登录事件 /var/log/wtmp:用户登录、注销及系统开、关机事件 /var/run/utmp:当前登录的每个用户的详细信息 /var/l

7、og/secure:与用户验证相关的安全性事件 分析工具 who、w、user、last、ac,11,程序日志分析,由相应的应用程序独立进行管理 Web服务:/var/log/httpd/ access_log、error_log 代理服务:/var/log/squid/ access.log、cache.log、squid.out、store.log FTP服务:/var/log/xferlog 分析工具 文本查看、grep过滤检索、Webmin管理套件中查看 awk、sed等文本过滤、格式化编辑工具 Webalizer、Awstats等专用日志分析工具,12,日志管理策略,及时作好备份和归

8、档 延长日志保存期限 控制日志访问权限 日志中可能会包含各类敏感信息,如账户、口令等 集中管理日志 便于日志信息的统一收集、整理和分析 杜绝日志信息的意外丢失、恶意篡改或删除,13,日志管理策略,应用示例: 调整syslogd服务设置,建立集中管理的日志服务器 将客户机B中crond服务产生的日志消息,自动发送到服务器A的/var/log/cron文件中,rootlocalhost # vi /etc/sysconfig/syslog SYSLOGD_OPTIONS=-r -x -m 0,rootlocalhost # vi /etc/syslog.conf cron.* 173.17.17.

9、3,14,修复MBR扇区故障,故障原因 病毒、木马等造成的破坏 不正确的分区操作、磁盘读写误操作 故障现象 找不到引导程序,启动中断 无法加载操作系统,开机后黑屏 解决思路 应提前作好备份文件 以RHEL5安装光盘引导进入急救模式 从备份文件中恢复,15,修复MBR扇区故障,应用示例: 1.备份MBR扇区数据 dd if=/dev/sda of=/backup/sda.mbr.bak bs=512 count=1 2.模拟MBR被破坏的故障 dd if=/dev/zero of=/dev/sda bs=512 count=1 3.RHEL5光盘引导,进入急救模式 boot: linux res

10、cue 4.从备份文件中恢复MBR扇区 dd if=/tempdir/sda.mbr.bak of=/dev/sda bs=512 count=1,16,修复GRUB引导故障,故障原因 MBR中的GRUB引导程序遭到破坏 grub.conf文件丢失、引导配置有误 故障现象 系统引导停滞,显示“grub”提示符 解决思路 尝试手动输入引导命令 进入急救模式,从备份中恢复 grub.conf 向MBR扇区中重建grub程序,17,修复GRUB引导故障,应用示例1: 在“grub”提示符后,手动输入引导命令 成功进入系统后,恢复或重建 grub.conf 配置文件,grub root (hd0,0)

11、 grub kernel /vmlinuz-2.6.18-8.el5 ro root=/dev/VolGroup00/LogVol00 rhgb quiet grub initrd /initrd-2.6.18-8.el5.img grub boot,rootlocalhost # cd /boot/grub/ rootlocalhost # cp grub.conf.bak grub.conf,从备份文件恢复,18,修复GRUB引导故障,应用示例2: 进入急救模式,从备份文件中恢复 grub.conf 文件 向MBR扇区中重建GRUB程序,sh-3.1# chroot /mnt/sysima

12、ge sh-3.1# cd /boot/grub/ sh-3.1# cp grub.conf.bak grub.conf sh-3.1# grub-install /dev/sda,19,/etc/inittab文件丢失,故障原因 inittab文件被误删除,或者存在配置错误 故障现象 启动中提示 “. INIT: No inittab file found” 系统停滞,无法完成初始化 解决思路 进入急救模式,从备份文件中恢复 或者,在急救模式中重新安装 initscripts 软件包 rpm -ivh -replacepkgs initscripts-8.45.14.EL.i386.rpm,

13、20,/etc/fstab文件丢失,故障原因 fstab文件被误删除,或者存在配置错误 故障现象 启动中提示 “. /etc/fstab: No such file or directory” 系统停滞,无法完成初始化 解决思路 进入急救模式,手动查找并挂载根分区 查找逻辑卷:lvm vgscan 激活指定的逻辑卷:lvm vgchange -ay /dev/VolGroup00 恢复或重建fstab配置文件,21,遗忘root用户的密码,故障原因 遗忘root用户的密码 故障现象 无法进行需要root权限的管理操作 若没有其他可用帐号,将无法登录系统 解决思路 引导进入单用户模式,然后重设密

14、码 grub kernel . single 或 s 或 1 或进入急救模式,然后重设密码,22,小结,请思考: Linux系统中最常用的公共日志文件是什么? 负责管理内核日志的系统服务是什么? 如何进入单用户模式? 使用RHEL5光盘引导时,如何进入修复模式? 如何向MBR中重建GRUB程序?,23,软件包类故障 rpm数据库损坏,故障原因 非正常关机、误删除运行中的程序文件 RPM数据文件被误写或删除 故障现象 不能正常查询rpm包信息 无法安装、升级或卸载软件包等 解决思路 重建RPM数据库 rpm -rebuilddb 或 rpm -initdb,24,软件包类故障 缺少*.so类文件

15、,故障原因 软件正常运行所需要的依赖包没有安装 系统找不到依赖包的 *.so 共享链接库 故障现象 无法正常编译、安装或运行软件 报错提示“缺少. .so文件” 解决思路 确认已安装能提供相应 *.so 共享库的软件包 添加库文件搜索路径,并更新缓存,rootlocalhost# vi /etc/ld.so.conf /usr/local/mysql/lib/mysql rootlocalhost# ldconfig,25,修复损坏的文件系统,故障原因 非正常关机、突然断电、设备读写失误等 文件系统的超级块(super-block)信息被破坏 故障现象 无法向分区中读取或写入数据 启动后提示“

16、Give root password for maintenance” 解决思路 根据提示输入root口令,进入修复状态 使用fsck命令进行修复,26,修复损坏的文件系统,应用示例: 模拟对/dev/sdb1分区的破坏操作 dd if=/dev/zero of=/dev/sdb1 bs=512 count=4 检查是否能挂载该分区 报错:mount: you must specify the filesystem type 对/dev/sdb1分区进行修复 fsck -yt ext3 /dev/sdb1 再次挂载该分区,27,磁盘资源耗尽故障,故障原因 磁盘空间已被大量的数据占满,空间耗尽

17、虽然还有可用空间,但文件数i节点耗尽 故障现象 无法写入新的文件,提示“ : 设备上没有空间” 部分程序无法运行,甚至系统无法启动 解决思路 清理磁盘空间,删除无用、冗余的文件 转移或删除占用大量i节点的琐碎文件 进入单用户模式、急救模式进行修复 为用户设置磁盘配额,28,无法卸载已挂载的设备,故障原因 需要卸载的设备正在被使用 故障现象 无法卸载设备,提示“. device is busy” 解决思路 将工作目录切换到挂载点以外 退出正在使用该设备的程序 或使用fuser命令找出相关进程,并终止该进程,rootlocalhost mnt# fuser -mv /media/cdrom USE

18、R PID ACCESS COMMAND /media/cdrom: root 3297 .c. bash rootlocalhost mnt# fuser -k /media/cdrom,29,检测硬盘中的坏道,故障原因 磁盘设备中存在坏道(逻辑的或物理的) 故障现象 部分文件无法正常访问,提示文件损坏 新建立的分区无法完成格式化 访问磁盘设备时死机,磁盘发出异常声响 解决思路 检测硬盘中是否存在坏道 mkfs -t ext3 -c /dev/sdb1 或 badblocks -sv /dev/sdb1 修复硬盘,或更换新的硬盘,30,系统性能监控 查看CPU负载,执行uptime命令 运行

19、时间,登录用户数,CPU平均负载 查看/proc/loadavg文件 CPU平均负载,活动进程数/总数,最近进程的PID,rootlocalhost # uptime 05:33:11 up 7:22, 2 users, load average: 0.04, 0.09, 0.08 rootlocalhost # cat /proc/loadavg 0.15 0.03 0.01 4/84 25697,31,系统性能监控 查看内存使用情况,vmstat命令 报告系统虚拟存储使用情况,包括内存使用信息 free命令 显示系统的物理内存和交换空间的使用情况,rootlocalhost # vmsta

20、t procs -memory- -swap- -io- -system- -cpu- r b swpd free buff cache si so bi bo in cs us sy id wa st 0 0 0 304280 27084 145844 0 0 29 8 1007 20 0 2 98 0 0 rootlocalhost # free total used free shared buffers cached Mem: 515600 211320 304280 0 27264 145852 -/+ buffers/cache: 38204 477396 Swap: 104856

21、8 0 1048568,32,系统性能监控 磁盘I/O性能监控,iostat命令 用于查看系统磁盘I/O统计信息 由软件包sysstat-7.0.0-3.el5.i386.rpm提供 sysstat还提供了 mpstat 命令,用于显示进程负载信息,rootlocalhost # iostat -dkt 5 Linux 2.6.18-8.el5 (localhost.localdomain) 2009年05月24日 Time: 16时17分49秒 Device: tps kB_read/s kB_wrtn/s kB_read kB_wrtn sda 1.28 15.12 6.54 167183

22、 72314 sdb 0.83 11.95 1.95 132182 21526 dm-0 2.40 14.95 6.54 165325 72312 dm-1 0.01 0.04 0.00 456 0 hdc 0.02 0.07 0.00 746 0,rootlocalhost # mpstat Linux 2.6.18-8.el5 (localhost.localdomain) 2009年05月25日 05时18分11秒 CPU %user %nice %sys %iowait %irq %soft %steal %idle intr/s 05时18分11秒 all 0.45 0.02 1.93 3.08 0.02 0.07 0.00 94.43 1010.03,33,本章结构,日志分析及管理,主要日志文件,修复文件系统,日志文件分析,磁盘资源耗尽故障,日志管理策略,系统启动类故障排除,文件系统、磁盘类故障排除,MBR扇区故障,/etc/inittab文件丢失,rpm数据库损坏,缺少*.so类文件,软件包类故障排除,检测硬盘坏道,无法卸载已挂载设备,查看CPU负载,查看系统性能状况,查看内存使用情况,GRUB引导故障,/etc/fstab文件丢失,遗忘root用户的密码,磁盘I/O性能监控,系统故障分析与排查,BENET3.0第二学期课程,第五章 系统故障分析与排查, 上机部分,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论