系统健康检查服务方案_第1页
系统健康检查服务方案_第2页
系统健康检查服务方案_第3页
系统健康检查服务方案_第4页
系统健康检查服务方案_第5页
免费预览已结束,剩余14页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、设备健康检查计划XX集团股份有限公司2009 年、,-、. 前言1. 服务概况.客户名称服务时间服务设备服务内容2.服务前期准备工作2.1XXX巡检服务的前期准备工作: 2.2客户方的前期准备工作:. 2.3双方待讨论和协商的问题:3. 服务具体计划4. 应急计划5. 备件计划6. 文档信息附录SUN系统巡检报告及相关命令说明.ORACLE数据库巡检报告及相关命令说明 系统配置信息12ORACLE数据库系统维护检查报告刖言感谢尊敬的广东XXX用户选择了 XXX的服务,XXX公司秉承用户至上宗旨,坚持以 技术为先导,严格按照项目流程和规范管理服务项目,竭诚为用户提供一流优质的服

2、务。本文档的主要内容是对客户信息系统进行系统健康检查(简称:巡检)的计划安排。 包括服务概况、服务前期准备工作、服务具体计划、应急计划等等。1. 服务概况 1.1客户名称广东XXX1.2服务时间待定1.3服务设备见设备清单1.4服务内容系统健康检测维护服务的目的在于了解被巡检系统截至到目前系统的性能状态和存在的隐患和运行风险;检查系统的运行状况、系统配置和连接方式、系统设置的情况、系统使用环境的及 系统的日志文件,进行系统的自检和检测,分析已经发现的和潜在的问题,建议必要的 措施,提高系统的可用性和可靠性。内容包括如下:? 检查设备使用环境是否符合要求和发生显著变更,包括湿度、电压、湿度、摆设

3、位 置等? 检查电源,信号线的连接是否牢固;检查、清洁、调节系统硬件,并为需要的设备 更换元件;检查系统的硬件和系统环境配置及网络环境配置;针对客户系统现状, 提出建议和意见。? 查阅有关系统信息,检查有无出错信息,如发现出错信息,设法了解问题原因,并 后续给出问题的可能原因和解决建议。? 进行系统分析和检测,及时掌握系统的运行和安全状况,发现系统潜在问题,排除故障隐患和安全 漏洞。? 在完成系统健康检测后,XXX服务工程师将会同XXX技术专家团队一起分析系统状况,并内向客户提交巡检分析报告和有关改进措施建议。2. 服务前期准备工作 2.1XXX巡检服务的前期准备工作:1. 负责提交巡检方案,

4、获得客户认可2. 负责准备巡检报告模板2份,巡检报告模板请见附录。(注:一机一份,巡检完毕后, 现场提交用户)3. 提供服务的工程师在约定时间准时到达现场2.2客户方的前期准备工作:1. 负责环境、场地、电源、网线、终端设备等准备工作。2 .负责提供系统主机Root登陆口令(清单)。3. 负责提供系统设备IP地址(清单)。4. 负责下电设备的加电准备工作5. 负责确定下电设备加电后的连网情况2.3双方待讨论和协商的问题:1. Root 口令以何种方式提供?一般可采取两种方式,一是每台设备由客户来输入Root 口令,另外一种方式是由客户事先临时修改Root 口令,提供给服务工程师,巡检完毕后再由

5、客户改回。2. 下电设备加电后,是否仍然具备连网条件?如果下电设备加电后不连接网络,则需要采取串口直接连接主机的方式来进行巡 检,可能会影响巡检整体速度。3. 确定巡检主机顺序?系统健康检测不会影响在线设备的运行。建议巡检顺序为,首先用一台终端依次检测所有连网设备,包括加电后能连网的设 备,其次检测所有加电后无法连网的设备。3.服务具体计划任务名称XXX责任人 1客户方计划持续配合人 员时间步骤1.现场环 境勘察 以及用 户交流1服务工程师了解现场机房 环境状况服务工程师约40分钟2服务工程师在开始实施巡 检时,向客户了解自前一次 维护服务以来所发现的异 常和问题,并采取必要的措 施服务工程师

6、3在对系统米取任何行动之 前,确保已经采取必要的数 据信息保护措施,如系统的 备份或数据转存等;服务工程师步骤2 .巡检服 务4服务工程师收集与所服务 的系统有关的系统变更、微 码发布、软件升级、软件 P ATCH发布和系统问题的信 息和资料服务工程师约一到二 个工作日5依次按照巡检内容对系统 设备进行逐项巡检,并填写 巡检报告服务工程师6巡检过程中如果发现任何 系统问题,双方将协调处理服务销售7巡检过程中如果发现任何 突发事件,请参考本文档5。服务销售步骤3. 服务收 尾工作8提交现场巡检报告,客户签 字服务工程师大约1个 小时9请客户填写服务满意度评 价表10双方交流服务工程师11五个工作

7、日内提交巡检分 析报告服务工程师-4. 应急计划本次巡检服务中的设备为在线系统, 理论上讲,巡检只是对系统状态进行查看,本 身不会对系统产生影响,只是在极少数情况下,系统本身已经有故障隐患,因为巡检触 发,可能会影响系统的运行,必须通过事先充分准备,识别可能的风险,并进行规避和控 制。通过以下方法来尽可能减少风险:? 服务工程师在开始实施巡检时,应首先向客户了解自前一次维护服务以来所发现的 异常和问题,并采取必要的措施? 在对系统采取任何行动之前,应确保已经采取必要的数据信息保护措施,如系统的 备份或数据转存等;? 服务工程师在巡检过程中记录操作步骤,一旦发生突发问题,也有据可查,方便问 题的

8、定位。? 服务工程师在巡检过程中如果发现设备有重大问题,必须尽快进行处理的事件,由 现场巡检工程师向本次用户通报,由用户同 XXX服务销售进行协商进行处理。5. 备件计划针对本次健康检查服务,我方主要提供对SUN系统以及ORACL数据库的检查服务为主, 如果在检查过程中,发现有备件坏,我们会第一时间跟用户通报,并从XXX广州备件库 调相应备件进行更换;如果备件更换处于合同覆盖范围, 我们将不收取备件费用,如果合同未覆盖,我们将收 取备件物料成本费;为此次检查服务准备的备件清单包含但不限于:型号描述数量Sun V480 整机带cpu,内存,硬盘1X6805A73.4GB,10000 RPM 硬盘

9、4ST3310带控制器,无硬盘1XTA-SC1NC-73G10K73GB,3310阵列硬盘4XTA-SC1NC-146G10K73GB,3310阵列硬盘46. 文档信息本文档由XXX负责起草附录SUN系统巡检报告及相关命令说明ORACLE数据库巡检报告及相关命令说明系统配置信息日期:SUN系统巡检报告报告编号:客户名称检查地点主机型号IP地址主机SNHost ID配置部件型号/数量部件型号/数量CPU主板内存CP U/内存板硬盘I/O板显卡存储阵列电源磁带驱动器SCSI型号11外扩网卡型号11其它卡型号1系统盘Raid情况检查项目结果不正常请注明原因检查项目结果不正常请注明原因显示器正常 C不

10、正常光驱正常 不正常键盘正常 不正常软驱正常 不正常鼠标正常 不正常线缆正常 不正常磁带机正常 不正常板卡正常 不正常检查项目内容结果不正常请注明原因系统指示灯状态Front Panel LEDS正常 不正常Po wer Supp ly LEDS正常 不正常Disk LEDS正常 不正常System Controller Board LEDS(CPU/Memory 、I/O etc.)正常 不正常系统 messages信息cd /var/admgre p WARN messages*gre p error messages*gre p p anic messages*/var/adm/mess

11、ages正常 不正常/var/adm/messages.O正常 不正常/var/adm/messages.1正常 不正常/var/adm/messages.2正常 不正常/var/adm/messages.3正常 不正常硬件运行状态/usr/ pl atform/sun4u/sbin/prtdiag -v正常 不正常文件系统利用率df七 df p i/利用率%正常 不正常/usr利用率%正常 不正常/var 利用率%正常 不正常其它分区正常 不正常Ionde利用率(是否有空闲)正常 不正常Swap分区swap -susedk availablek正常 不正常CPU负载sar1 10% idle

12、正常 不正常内存剩余量vmstat 1KBytes正常 不正常I/O资源iostat -En正常 不正常管理软件名称版本RAID类型硬件系统网络接口流量netstat -1正常 不正常网口以及IP状态ifconfig -a正常 不正常网络传输率ping网关(1分钟)averagems正常 不正常NTP状态ntpq -p正常 不正常远程登录设置/etc/inetd.confftp开启 关闭telnet开启 关闭进程总数ps -ef|wc -l个进程核心Patch版本uname -a冗 余 软 件Disk Suite 状态(没有的不填)metastat输出结果是否正常正常 不正常metadbMet

13、adb建立在有个备份Volume Manager状态(没有的不填)vxdisk list输出结果是否正常正常 不正常vxdg list有磁盘组Vxp rint -ht输出结果是否正常正常 不正常高 可 用 性 软 件SunCluster 状态版本scstat输出结果是否正常正常 不正常备注存储ST3310阵列外观及指示灯是否正常1正常 不正常show-config输出结果是否正常正常 不正常固件版本SUN主机巡检相关命令及说明检查项目使用的命令及相关目录内容及其说明外观检查无检查机器的指示灯情况、看有无故障 指示主机的总体情 况/usr/ pl atform/su n4u/sb in/p rt

14、diag -v通过该命令,可以查看到 CPU的数 量、主频、CACHED小,内存、板卡、 风扇转速、环境温度等情况查看文件系统 挂接情况df -k可以查看到文件系统的挂接、使用量等情况,如果某个文件系统使用大于 85%则要提请注意,大于 90%则要 对其进行清理,删除废文件,如果根 文件系统使用量达到 100%会造成 系统崩溃检查系统日志文件gre p panic /var/adm/messages*gre p error /var/adm/messages*gre p WARN /var/adm/messages*检查系统的日志文件,看有无panic、 error、WARr等和错误有关的关键

15、字, 其中,panic关键字一般岀现在操作 系统因软件或硬件故障崩溃的时候, error则是系统因软件或硬件产生了错误,WARf则相对关注级别较低, 属于警告,这2种情况,都要根据系 统的日志提示,进一步检查系统情况检查CPU使用情况sar 1 10检查CPU的IDEL值,越大越好,这 里给岀的命令是指间隔 1秒,检查 10次交换分区使用情况swa p -s查看交换区(即虚拟内存) 的使用情 况内存使用情况vmstat 1检查内存的使用情况, 尤其检查其中 的剩余内存量,如内存剩余过少, 则 要检查进程及应用的情况,如无异 常,则意味着系统需要更多的物理内 存硬盘数量及容量format通过该命

16、令,可以查看到硬盘的容量 大小、数量等情况,硬盘及其他存储设备的情况iostat -E这个命令可以看到硬盘的运行情况, 包括:厂商、序列号,有无运行错误 等网络情况n etstat -i 1查看网络的包吞吐情况以及冲突、包错误率等情况网络的IP设置ifconfig -a查看系统中的IP地址设置查看操作系统的核心版本un ame -a该命令除了能查看到操作系统的核 心版本外,还可以查看到主机的硬件 型号主机的厂商ID 号hostid可以查看到厂商为主机设置的唯一ID统计系统当前进程数量ps -ef |wc -l可以查看到系统当前进程数量远程登录设置gre p ftp /etc/ in etd.c

17、 onf gre p telnet /etc/i netd.c onf可以查看系统的远程登录是否打开网络流通情况pingping网络中的另一设备,通常是缺 省网关,以检查网络的流通延时情况检查SUN CLUSTER管理 的双机系统状 态scstat该命令可以显示 SUNCLUSTER双机系统的和配置、状态有关的信息通过Web方式管理SUNCLUSTER双 机系统通过浏览其,输入主机的IP地址,端口号为3000,可以通过Web的方 式管理SUN CLUSTER双机系统存储及冗余软件相关检查及其命令检查项目使用的命令及相关目录内容及其说明外观检查无检查机器的指示灯情况、看有无故障指示ST3X10阵

18、列检查无通过串行口连接到阵列的串口,利用其设置 界菜单检查,具体的参数为:波特率38400,数据位8,停止位1,奇偶校验无,流控无ST3X10阵列检查(通过sccii工具检查)show-c onfig连接了 ST3X10阵列的主机,如果安装了 sccli 工具,通过输入 sccli命令,选择了控制器 后,在其界面下输入的命令用 Varitas Volume Manager管理的硬盘检 查其管理下硬盘的状态vxdisk list检查Varitas Volume Manager管理下硬盘的状态用 Varitas Volume Manager管理的硬盘检 查其管理下磁盘组的状 态vxp ri nt

19、-ht检查Varitas Volume Manager管理下磁盘组的状态,包括其划分的子磁盘的、所做的卷 等的状态用SDS管理软件管理的 磁盘及其虚拟设备状态metastat对于用Solstice DiskSuite ( SDS新的版本 改为 Solaris Volume Manager,简称 SVM管理的磁盘,在操作系统下,输入该命令, 检查其管理的磁盘以及虚拟磁盘(md的状态用SDS管理软件管理的 磁盘,检查起状态数据 库的状态metadb对于用Solstice DiskSuite ( SDS新的版本 改为 Solaris Volume Manager ,简称 SVM 管理的磁盘,在操作系

20、统下,输入该命令,检查其管理数据库(用户保存SDS的设置等)的状态ORACLE 数据库系统维护检查报告报告编号:用户基本信息用户名称:联系人:电话/传真:地址:应用系统名称:巡检时间:主机厂商/型号:操作系统/版本:CPU数/硬件内存:数据库服务器运行方式:Oracle产品/版本:系统运行状况检测序号检测内容检测指令检测结果建议1检查alert日志,是否有ora错误提示Alert 文件2数据库名SQL>showP arameterdb n ame3实例名SQL>showp arameterin sta nce n ame4数据库版本SQL>select*fromv$versi

21、on;5是否归档模式SQL>archive log list6安装组件SQL>select*fromv$op tio n;7初始化参数SQL>show p arameters8SGA区SQL>show sga9用户检查SQL>select user name,acco un t_status, default_tables pace,te mpo rary_tables pace,created from dba users10用户权限检查SQL>select*fromdba_role_ privs;11是否存在失效对象SQL>selectowner,

22、object_ name,object_t ype fromdba_objectswherestatus =INVALID '12检查控制文件SQL>select*fromv$con trolfile13检查联机日志SQL>select*fromv$logfile;14检查数据文件SQL>select*fromv$datafile;15查看现有回滚段及其状态SQL>SELECTSEGMENT_NAME,OWNER,TABLE SP ACE_NAME,SEGMENT_ID,FI LE_ID,STATUSFROMDBA_ROLLBACK_SEGS;16是否有异常等待

23、事例SQL>selecteven t,sum(decode(wait_Ti me,0,0,1)"P rev",sum(decode(wait_T ime,0,1,0)"Curr",count(*)Tot ”fromv$sessi on _Waitgroup by event order by 4;17检测连接数情况SQL>SELECTstatus,co un t(*)"co un t"FROM v$sessionGROUP BYstatus;selectsid,serial#,user name ,pro gram,mac

24、hi ne,statusfromv$sessi on;18检查表空间使用 情况19备份策略的讨论 与实施20listener可用性检查IsnrctI statusliste ner.log21CRS进程检查ps-df |gre p d.bin结论:1、alert 文件:有无错误?2、表空间使用情况:set lin esize 300SELECT upp er(f.tables pace_ name) "tables pace_ name".d.Tot_grootte_Mb "tables pace(M)", d.Tot_grootte_Mb - f.to

25、tal_bytes "used(M)", rou nd(d.Tot_grootte_Mb - f.total_bytes) / d.Tot_grootte_Mb * 100,2) "use%", f.total_bytes "free_s pace(M)", roun d(f.total_bytes / d.Tot_grootte_Mb * 100,2) "free%"FROM(SELECT tables pace_ name.roun d(SUM(bytes)/(1024*1024),2) total_bytes

26、, roun d(MAX(bytes)/(1024*1024),2) max_bytesFROM sys.dba_free_s paceGROUP BY tables pace_ name) f, (SELECT dd.tables pace_ name, rou nd(SUM(dd.bytes)/(1024*1024),2) Tot_grootte_MbFROM sys.dba_data_files ddGROUP BY dd.tables pace_ name) dWHERE d.tables pace_ name = f.tables pace_ nameORDER BY 4 DESC3

27、、Shared Pool Size 命中率:select rou nd(sum(gets)-sum(reloads)/sum(gets)*100,1) "libiary cache hit ratio %"from v$librarycache where n ames pacein ('SQL AREA','TABLE/PROCEDURE','BODY','TRIGGER');4、数据字典命中率:select rou nd(1-sum(getmisses)/sum(gets)*100,1) "dat

28、a dicti onary hit ratio %"from v$rowcache;5、锁竞争:select substr(l n.n ame,1,25) Name,l.gets, l.misses, 100*(l.misses/l.gets) "% Ratio (STAY UNDER 1%)"from v$latch l, v$latch name Inwhere ln.n ame in ('cache buffers lru cha in')and ln.l atch# = l.latch#;6、排序命中率:select a.value &qu

29、ot;Sort(Disk)", b.value "Sort(Memory)",rou nd(100*(a.value/decode(a.value+b.value), 0,1,(a.value+b.value),2) "% Ratio (STAY UNDER 5%)" from v$sysstat a, v$sysstat bwhere a. name = 'sorts (disk)'and b. name = 'sorts (memory)'7、数据缓冲区命中率:select rou nd(1-( phy.va

30、lue/(cur.value+co n. value)*100,1)|'%' ratiofrom v$sysstat p hy,v$sysstat cur,v$sysstat conwhere phy.n ame='p hysical reads' and cur. name='db block gets' and con.n ame='c on siste nt gets'8、 v$session wait :select sid,seq#,eve nt,WAIT_TIME,SECONDS_IN_WAITfrom v$sessi

31、on_wait where eve nt not like 'SQL%'and eve nt not like 'rdbms%'回滚段的争用情况:select n ame, waits, gets, waits/gets "Ratio" from v$rollstat a, v$roll name bwhere a.us n = b.us n;10、无效对象情况:col OBJECT NAME for a36SELECT object_ name, object_ty pe,status FROM dba_objects WHERE stat

32、us like 'INV ALID'客户签名:工程师签名:日期:检查项 目使用的命令及相关目录内容及其说明alert文件alert XXX在sqlplus命令行状态下,检查日志文 件,其中XXX是只alert文件名数据库 名SQL>show p arameter db n ame显示数据库名实例名SQL>show p arameter in sta nce n ame显示数据库实例名版本SQL>select * from v$versi on;显示数据库版本归档设置SQL>archive log list显示归档设置,状况安装组 件SQL>sele

33、ct * from v$o ptio n;显示已安装的组件初始化参数SQL>show p arameters显示初始化参数SGASQL>show sga显示SGA勺设置,状态用户SQL>select username,acc oun t_status,default_ta bles pace,te mpo rary_tables pace,cre ated from dba users1用户检查权限SQL>select * from dba role privs;检查用户的权限设置失效对象SQL>select owner, object_ name,object_

34、t ype from dba_objects where status = 'INVALID'检查是否有失效对象控制文 件SQL>select * from v$co ntrolfile检查控制文件连机日志SQL>select * from v$logfile;检查数据库的连接日志数据文 件SQL>select * from v$datafile;检查数据文件回滚段SQL> SELECTSEGMENT_NAME,OWNER,TA BLES PACE_NAME,SEGMENT_I D,FILE_ID,STATUS FROM DBA ROLLBACK SEG

35、S;查看现有回滚段及其状态Sessi onselect SESSIONSCURRENT , SESSIONS_HIGHWATER from v$lice nse;系统Session使用状态字符集select usere nv('la nguage') from dual;字符集共享池 命中率selectroun d(sum(gets)-sum(reloads)/su m(gets)*100,1) "libiary cache hit ratio %" from v$librarycache where n ames pace in ('SQL AREA','TABLE/PROCEDURE

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论