系统监控方案详解_第1页
系统监控方案详解_第2页
系统监控方案详解_第3页
系统监控方案详解_第4页
系统监控方案详解_第5页
已阅读5页,还剩31页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、IBM Tivoli系统监控解决方案目 录第一章需求分析11.1管理需求1第二章IBM Tivoli管理解决方案22.1IBM系统管理解决方案总体架构2管理系统总体架构2软件管理体系架构42.2IBM Tivoli软件对系统资源占用情况分析62.3IBM Tivoli管理解决方案6网络监控子系统8使用IBM Tivoli Monitoring来监控主机系统9使用IBM Tivoli Monitoring for Databases来监控数据库14使用IBM Tivoli Monitoring for Domino来监控IBM Domino16使用IBM Tivoli Enterprise Co

2、nsole来集中管理事件16应用监控18集中报表19建立故障处理系统24第三章相关产品介绍283.1IBM Tivoli 系统管理平台概述283.2IBM Tivoli Monitoring 简介313.3Tivoli Manager for Database简介353.4IBM Tivoli NetView 简介373.5IBM Tivoli Enterprise Console 简介383.6Tivoli Data Warehouse简介41第一章 需求分析1.1 管理需求 采用的技术成熟、先进,并具有较强的集成性和可扩充性的管理平台; 基于统一、集中的管理体系; 网络的管理,实现网络设备

3、、链路等的配置管理、故障管理、性能管理等; 服务器(AIX、Windows等)监控管理,包括主机硬件、操作系统、文件系统、进程和应用等; 数据库监控,包括数据库的重要配置参数以及进程的监控; 定期自动产生管理数据日报、周报、月报; 实现IT资源管理和业务流程的第二章 IBM Tivoli管理解决方案2.1 IBM系统管理解决方案总体架构2.1.1 管理系统总体架构建立一套成熟、高效的系统管理体系是一个系统工程,需要逐步提高。这不仅仅是对技术的不断完善,也是对管理流程和人员技能的不断完善。下图展示一个完整的企业系统管理框架。从图中看出,实现企业系统管理的第一步是构建系统管理基础设施,即建立完整的

4、监控体系、集中的事件总线。这正是XX此次招标的内容。除了监控系统以外,系统管理基础设施还应该考虑另两个重要的管理范畴:安全管理和配置管理(软件分发和资产管理)。安全管理是XX总行正在研究的管理项目。第一阶段完成后,XX可以继续完善监控体系,实现基于业务策略和服务水平的高级管理阶段。这需要XX在积累第一阶段基础设施管理的经验基础上提高管理水平,主要体现在管理流程上的提高和员工技能上的提高。实现以ITIL管理流程服务支持的主要流程。第三个管理阶段是完善ITIL流程中服务交付流程,实现内部的IT财务管理和计费流程,以及完善的服务连续性管理,即灾备管理。通过统一的管理门户和管理流程,实现企业管理的全面

5、自动化,确保以合理的运行成本实现高效的管理。可以看到,建立一个基础设施的集中监控系统是构建完整系统管理体系的基础。IBM无论在第一个阶段还是在未来的多个建设阶段,都可以帮助XX实现分阶段的管理目标。XX的第一阶段监控管理系统的总体架构如下图所示:系统监控由IBM Tivoli Monitoring系列软件完成,负责操作系统、数据库、中间件和应用。系统监控收集的数据保存在Tivoli数据仓库中,由报表分析系统生成各类统计报表。网络管理由IBM Tivoli NetView集成CISCOWORKS完成。各类报警事件和各类日志集中到事件管理中心进行统一分析,IBM提供IBM Tivoli Enter

6、prise Console完成集中的事件总线。经过分析的事件会发送到业务系统示图进行展示,业务系统视图由IBM Tivoli Business System Manager提供。可自动修复的故障由事件管理模块和业务系统管理模块调用任务库中实现定义的任务进行修复。事件管理模块将重要的报警转发至服务台系统自动生成问题工单,由管理员进行修复并将修复过程录入知识库。2.1.2 Tivoli软件管理体系架构IBM Tivoli 软件监控模块基于统一的管理架构IBM Tivoli Framework。Tivoli Framework是一个三层的体系架构,如下图所示:Tivoli管理服务器是管理体系的核心,

7、运行在单独的Unix服务器上,面向对象的管理数据库保存着所有管理对象的信息。Tivoli管理网关是一个中间层,负责分担管理服务器的管理负荷,同时可以管理数据包的转发,避免相同的数据多次在广域网上传输,减少带宽占用。网关的数据库只保存它管理的节点的信息。管理服务器本身也可以定义为一个管理网关。管理代理安装在被管理的服务器上,每个被管理服务器安装一个代理。图中列出的远程管理、资产管理、软件分发、日志管理、应用管理、系统/数据库/中间件管理、任务下载和执行的管理任务均由管理代理控制。管理代理不包含数据库,只有本地缓存,管理资源的信息保存在其连接网关的数据库中。由于Tivoli 管理代理是职能代理,当

8、管理模块升级时会自动更新缓存,因而Framework构建完成后无需对管理代理进行任何手工操作。上述三个层次之间可以通过防火墙进行加密通信,只需要打开一个自定义端口。所有的管理内容均在管理服务器上进行预先定义,如:监控哪些内容和参数、多长时间采集一次性能数据,监控哪些数据库等。监控的模板称为Profile(图中黄色的小块),Profile可以共享,即不需要单独为每一台被管理服务器定义管理内容,而是定义一个Profile面向一组服务器,如:Unix CPU监控Profile适用于所有Unix服务器。将Profile发送到一组服务器后,管理代理会自动下载对应平台的执行代码并实现监控,这样可以大大减少

9、管理的工作量,提高管理效率。IBM建议XX信息中心设立独立的IBM Tivoli管理服务器,建立IBM Tivoli管理域(TMR)。在被管理的业务系统上安装Tivoli管理代理(TMA-Tivoli Management Agent),实现服务器,其上数据库以及应用的管理。2.2 IBM Tivoli软件对系统资源占用情况分析在生产机上只安装一个Tivoli Agent。Tivoli Agent是轻型代理,在初始安装后在AIX操作系统上大约占用1M内存,0.1%CPU(单CPU)。IBM Tivoli Monitoring监控软件会自动在被管理机上生成一个基于Java的子代理用于操作系统、数

10、据库等的监控。对于单CPU(1GHz)的AIX操作系统,只进行操作系统的监控CPU占用率不高于0.5%。如果运行所有数据库的监控资源模型(超过30个),CPU占用率不高于5%。由此可见,IBM Tivoli对于系统资源的占用是很低的。IBM Tivoli Agent的安装是通过远程安装的方式,即通过rexec服务远程安装,Windows平台通过一台Windows服务器作为网关远程安装。支持XX所有的操作系统,包括Windows、AIX、HP-UX、Solaris、SCO、Dynix。2.3 IBM Tivoli管理解决方案从网络系统以及应用管理整体来看,根据XX的各种IT资源,IBM建议采用如

11、下的逻辑结构来搭建XX网络系统以及应用管理系统。XX网络系统以及应用管理按照功能和管理侧重分成如下的几个主要模块。基于以上的管理需求,我们建议实施如下的管理产品分阶段来实现对XX前置机系统的全面监控管理:IBM Tivoli Monitoring:对主机系统的监控IBM Tivoli Monitoring for Databases(Oracle/DB2/SQL Server):对数据库的监控IBM Tivoli Monitoring for Domino:Domino系统监控IBM Tivoli Enterprise Console:集中的事件管理和网络管理IBM Tivoli Busine

12、ss System Manager:集中的系统管理视图IBM Tivoli Data Warehouse:集中报表系统IBM各个模块的关系如下图所示:2.3.1 网络监控子系统针对XX的网络基础设施,IBM Tivoli NetView可以实时对XX网络状况实施监控,包括XX信息中心内部局域网以及广域网络线路等。可以发现XXIP网络、显示网络拓朴、关联和管理事件以及简单网络管理协议(SNMP)的中断、监视网络的健康状况以及采集网络性能数据。基于IBM Tivoli Netview的网络管理平台,XX信息中心可以实现集中化、远程的网络设备、线路的管理和维护,提高XX信息中心的网络管理范围和管理效

13、率。将Ciscoworks 2000集成到IBM Tivoli Netview网管平台上,可完善Cisco网络设备配置管理。网络管理子系统针对的管理对象主要包括XX环境中的网络设备、网络连接和整体的网络环境,XX网络管理主要包括几个方面:n 网络配置管理实现网络设备的远程配置更新管理,并对整个网络的拓扑结构进行自动发现和变化更新,以实时了解网络状态的变化。与Ciscoworks 2000集成可完成对CISCO设备的配置管理。n 网络性能管理对网络性能进行实时分析或者连续采集,以了解网络性能现状并分析发展趋势,及时了解网络瓶颈,保持网络数据传输通畅。n 网络故障管理对网络故障进行收集,并进行过滤

14、。同时对事件处理进行规则定义,如哪种故障要向上级转发,哪种故障可以自动恢复等,以提高管理效率。通过IBM Tivoli Netview网络管理平台,XX网络管理可以事项的以下的主要功能:- 网络拓扑图的自动发现- 可以管理网络上所有支持IP和SNMP协议的网络设备- 监控网络设备产生的各种事件信息(网络设备状态的变化、网络设备端口状态的变化、广域网和局域网的网络连接的状态变化等)- 采集网络设备的性能数据(例如:端口流量、广域网带宽使用率等),并且存储在标准的数据库或者数据仓库中,以便其它工具对其进行数据分析2.3.2 使用IBM Tivoli Monitoring来监控主机系统IBM Tiv

15、oli Monitoring能够实现对UNIX、Windows、Linux、OS400等各种操作系统关键资源的自动监控,帮助管理员及时发现故障和故障隐患。IBM Tivoli Monitoring对于各类操作系统提供了大量的资源模型,针对XX的监控需求,我们建议实施以下一些Monitor来实现对XXUNIX操作系统的监控,监控内容包括:CPU:监控各个系统进程对CPU的占用情况内存:监控系统内存的状态文件系统:实时监控文件系统的利用率,如根文件系统、var文件系统、tmp文件系统、应用文件系统等。文件:监控重要文件的改动,如/etc/、/etc/passwd等。进程:监控所有重要的进程。安全:

16、监控系统的安全状态。网络:监控服务器网络端口IBM Tivoli Monitoring通过连续监视重要系统资源,自动检测瓶颈问题和潜在的问题,同时对事件主动做出反应,来帮助管理大型的异构环境。它扩展了现有关键业务服务器的监视能力,能够帮助您实施智能化管理,在终端用户受到影响之前发现问题。先进的资源模型技术允许IBM Tivoli Monitoring识别应用问题的特征,这有助于防止故障的发生。问题特征是重要的指标和门限,当两者结合起来时,可触发一个能够预防系统故障的自动化操作过程。IBM Tivoli Monitoring建立在Tivoli软件的升级能力很强的分布式体系结构和服务基础之上,可为

17、基于主机和Web的分布式系统提供有效、集中化的管理。它使您能在问题影响应用和系统有效性之前预先主动地自动检测、纠正错误,避开问题。IBM Tivoli Monitoring使用许多预先定义的规则和连续检测技术来确定是否触发指示器,这有助于减少对无意义事件流的所造成的时间浪费。IBM Tivoli Monitoring通过集中化管理界面提供了一种简单、稳定的方法来监视和管理主要分布式资源。IBM Tivoli Monitoring可以即刻使用,把系统配置和设置的时间消耗降到最低。用户能轻松地改变设置以表现他们的个性化系统,通过一次操作就可以设定监视参数、更新一组数据并应用到分布式资源。与远程系统

18、有关的数百次变动能够在几分钟之内发生,大大帮助了保持跨目标系统的稳定性。IBM Tivoli Monitoring能够帮助您即刻评估关键状况,它开发了一套标准来定义不良性能或死机事件与业务目标之间的关系。Tivoli软件使用应用数种规则的决策树逻辑来验证系统的健全性,并决定是否触发一个事件。IBM Tivoli Monitoring的内置智能功能,使您能从执行普通的任务中解放出来,并且为您提供宝贵的故障诊断关键信息。IBM Tivoli Monitoring采集的性能数据首先会保存在本机一个文件数据库中,管理服务器会根据参数定义定期(如:每小时)将各台被管理服务器上的数据上传到管理服务器上,通

19、过数据库接口保存到后台的关系型数据库中。对于XX的SCO、Dynix、OS/2和Win 98操作系统,安装操作系统自带的SNMP代理后,可以通过NetView监控SNMP所能提供的监控参数,包括:服务器名、IP地址、CPU利用率等。同时,由于Tivoli Framework的Agent支持上述平台,因此可以开发针对各个平台的有针对性地任务,通过脚本实现监控和管理功能。2.3.2.1 针对UNIX平台监控内容监控CPUl CPU高度过载l 系统CPU使用率监控文件l 文件已更改l 文件属性已更改l 文件不存在监控文件系统l 可用空间量l 可用空间百分率l 文件系统被分段l i-node可用百分率

20、监控内存l 存储空间量l 交换空间量l 系统不稳定监控网络接口l 输入信息包出错率l 输出信息包出错率l 信息包冲突百分率l 接口未启用l 接口无作用l 接口状态未知监控网络RPC-NFSl NFS缓冲区大小l NFS服务器Get-attribute操作率l NFS服务器读操作率l NFS服务器Readlink操作率l NFS服务器写操作率l 重复RPC服务器调用率l 重新传输的调用率l 超时和Badxid率l 网络流量l 网络速率监控进程l zombie进程数l 进程消耗CPUl 进程已被杀死或不存在l 进程已停止监控安全l 重复帐户l 文件不存在l 用户登录次数l 非法组l 非法所有者l

21、root的账户无效l 空密码l 可疑的超级组l 可疑的超级用户l 错误的文件方式监控时能同时对多个资源进行监控,多方位判断问题监控时具有持续监控能力,防止误报警具有基于Web的健康状况监控控制台具有跨平台监控能力2.3.2.2 针对Windows平台监控内容监控处理器l 硬件忙l CPU跟不上硬件l 硬件使CPU忙l 使用率差值百分率l 进程数l 处理器忙监控逻辑磁盘l 每秒读取字节数l 每秒写入字节数l 传送速率l 磁盘时间百分比l 逻辑磁盘碎片情况l 磁盘空间量l 逻辑驱动器速率监控内存l 大量调页l 可用内存量l 可用内存量很低导致硬调页l 可用内存量很低导致软调页和调整页面文件大小l

22、可用内存量很低导致过度软调页l 可用内存量很低导致许多问题l 高速缓存占用量高导致可用内存量l 工作集占用量高导致可用内存量l 可用内存量很低且页面文件很小l 副本读取命中率l 数据映射命中率l DL读取命中率l Pin读取命中率l 页面文件正在调整l 专用字节中存在内存泄漏l 系统代码中存在内存泄漏l 系统驱动程序中存在内存泄漏监控网络接口卡l 调整工作项l 广播帧l 当前命令数l 出错率l 网络接口卡过载l 网络接口卡速率l 重定向器影响服务器l 重定向器过载l 重定向器过载影响段l 段影响重定向器l 段影响服务器l 服务器影响重定向器l 服务器过载l 服务器过载影响段监控物理硬盘l 磁盘

23、时间百分比率l 每秒读取字节数l 传送速率l 每秒写入字节数l 物理磁盘可能碎片l 物理驱动器速率监控打印机l 当前时间百分率l 作业错误数l 每日作业错误数l 未就绪错误数l 每日未就绪错误数l 缺纸错误数l 每日缺纸错误数监控进程l 进程句柄泄漏l 进程CPU使用率监控服务l 服务失败l 服务停止监控TCP/IPl 分段率l ping数值l 段ReXmit2.3.3 使用IBM Tivoli Monitoring for Databases来监控数据库IBM Tivoli Monitoring for Databases能够实现对Informi、MS SQL Server、DB2、Orac

24、le等各种数据库系统关键资源的自动监控,帮助管理员及时发现故障和故障隐患。IBM Tivoli Monitoring for Databases对于各类数据库提供了大量的资源模型,针对XX的监控需求,我们建议实施以下一些主要的资源模型来实现对XXInformix、DB2数据库的监控:Informix数据库监控: Server State:监控Informix Server的状态。 Deadlocks:监控数据库死锁的数量。 DML Lock Ratio:DML锁利用率 Logical Log Usage:监控Logical Log的剩余空间百分比。 Chunks:监控数据库Chunk的数量。

25、Dbspace:监控数据库的空间使用状况。 Cache Hit Ratio:监控数据库的缓存命中率。 Active Transaction:监控数据库活动交易的数量 Archive:监控Informix Onbar备份进程的更新状态 LRU Queues:监控LRU队列 Overflow:监控用户线程溢出 Rollback Rate:监控回滚率 Virtual Processors:监控虚拟处理器的CPU利用率 Writes:监控Chunk writes、LRU Writes和Forground Writes Waits:监控Buffer Waits、Lock Waits、Checkpoint

26、 Waits和Latch waitDB2数据库监控: Instance Status:监控数据库Instance状态 Database Activity:监控数据库的活动 Locks and Deadlock:监控数据库锁和死锁 Direct I/O:监控数据库I/O情况 Buffer Pool:监控数据库的缓存 Lock Wait:监控等待锁资源的应用数量 Sort:监控Sort Logging:监控DB2数据库的日志功能 Package Cache:监控Package缓存 Replication Capture:监控DB2 Replication的Capture组件 Sorting:监控数

27、据库管理器、数据库和应用的Sorting活动 SQL Cursor Activity:监控SQL Cursor的数量 SQL Statement Activity:监控数据库的Statement活动 Table Activity:监控数据库表的活动以上各个Monitor均设置相应的阈值,当监控返回值达到阈值时进行报警。2.3.4 使用IBM Tivoli Monitoring for Domino来监控IBM DominoIBM Tivoli Monitoring for Massaging and Collaboration: Domino能够实现对IBM Domino进行自动监控,帮助管理

28、员及时发现Domino故障和故障隐患。IBM建议XX监控以下Domino资源 Domino Database Management:监控Domino数据库的状态 Domino Mail Statistics Monitor:监控Mail系统状态 Domino Replicator Status:监控复制状态 Domino Server Avaliability:监控服务器可用性 Domino Server Health:监控Domino服务器的健康状况。 Domino SMTP Mail Statistics Monitor:监控SMTPMTA中的邮件 监控Domino性能,包含以下参数:u

29、DPSCalendarEntryu DPSDatabaseAccessu DPSNABSearchu DPSNetEchoDPSu DPSReplicateLocalu DPSRoundTripMailu DPSWebAccess2.3.5 使用IBM Tivoli Enterprise Console来集中管理事件事件相关处理是专门针对建立企业控制中心面临的难题:问题根源分析。当企业控制中心建立后,超过每天数十万条报警事件的分析是管理员面对的难题,报警事件包括网络、操作系统、数据库、应用的告警和通知事件,通过简单的过滤处理很难找到问题的根源,必须使用复杂的相关分析引擎进行处理,才能将每天几十

30、万条报警事件转化为几十条名明确的根源故障报警,才能进行有效管理。例如:当一个网络资源出现故障时,监控系统会在每一个轮询周期发送一个报警。这样,一个报警会重复出现多次,处理规则可以自动处理重复事件,只报出第一条收到的事件和重复的次数。IBM Tivoli Enterprise Console可以提供上述功能。IBM Tivoli Enterprise Console(TEC)是各类监控报警信息和系统日志信息的管理中心。提供集中的事件展示、事件报警和处理。我们建议实施的事件管理内容包括:TEC主要的功能是提供不同来源事件相关处理能力,这样可以确定问题的根源。例如:一个核心交换机的模块故障导致多种报

31、警,有网管系统的报警,有操作系统、数据库、中间件、应用的多个报警,事件数量可能高达数百个,而交换机故障报警可能淹没在这数百个报警事件之中,导致处理问题时间很长。通过TEC的相关性处理规则,会确定出是交换机的模块故障导致这数百个报警,确定问题根源,从而大大减少故障处理的时间。下面列举一些网络事件相关性分析的实例:网络事件的过滤、上报与相关性处理网络中一旦发生错误,就会有大量的相关事件产生,因此,对收集到的事件进行过滤、相关性处理是很重要的。另外,由于我们要设计两级网管结构,网络事件的上报规则也会对网管系统有很大的影响。过滤规则对持续的、内容重复的告警(如网络持续报告某端口Down)进行过滤;对C

32、isco Syslog中Debug级别的信息进行过滤;对其它级别低、用户不关心的信息进行过滤。相关性处理规则某一Interface Down,如在一分钟内又Up,且之后五分钟没有再Down,则两条进行相关性处理为一条Up/Down。如某一Interface在五分钟之内超过2次Up/Down,则把这多条Up/Dwon信息相关性处理为一条“链路不稳定”信息。对于重要服务器和PC,Interface Up/Down信息与Node Up/Down信息进行相关性处理为一条。上游路由器Down事件和下游结点Down事件进行相关性处理为一条。如果对某一个性能监控设置了两个阀值,比如CPU利用率超过50%是3

33、级告警,超过80%是4级,则超过高级别阀值时,两条告警进行相关性处理为一条。事件集中: Tivoli监控事件的集中:将IBM Tivoli Monitoring和Tivoli Manager for Databases产生的报警事件统一发送到TEC。 系统日志和出错信息的集中:通过Tivoli Logfile Adapter将UNIX系统的日志信息和错误报告(AIX Error Report)发送到TEC。 应用信息的集中:通过Tivoli Logfile Adapter将重要应用的Log信息发送到TEC。事件报警和处理:针对不同类型、严重性级别的事件,通过声音报警、弹出窗口等多种方式报警,或

34、者根据策略将告警信息送到故障处理系统。2.3.6 应用监控应用监控主要通过监视应用日志达到监控的目的,日志的监控通过IBM Tivoli Enterprise Console的Logfile Adapter。定义应用日志文件的格式后,Logfile Adapter可以自动将日志文件中出现的报警经过过滤后实时发送到事件管理中心,便于第一时间进行响应。下图展示了日志管理的原理:Tivoli管理服务器定义应用日志格式模板黄色小块,下发到被管理服务器后自动开始侦测日志变化,将事件格式化并过滤后发送到事件管理中心Tivoli Enterprise Console,事件管理中心处理事件后触发任务库中事先定

35、义的任务修复故障。2.3.7 集中报表IBM Tivoli软件将所有在系统及网络管理过程中所涉及的管理信息,通过Tivoli Data Warehouse进行存储,并以数据集市(datamart)方式存放。Tivoli Data Warehouse具有通用的开放性,不仅可以存放Tivoli软件的管理信息,XX也可以将第三方或自己开发的应用的数据存放于其中。利用DB数据仓库的强大能力,Tivoli数据仓库,通过ETL语言,将Tivoli软件模块的管理数据,以及第三方厂商的管理数据,甚至XX自己的应用数据,抽取到中心数据仓库,并通过进一步的数据抽取工作,将数据以星型模式存储为多维方式,完成从管理数

36、据到管理知识的目的。 Tivoli数据仓库的体系机构示意图如下:由于Tivoli Data Warehouse只提供数据源,而报表的生成就具有很大的灵活性。如用Brio或Crystal等报表工具创建报表,或由第三方供应商开发的报表工具,创建基于Web Brower编辑界面的报表,满足XX灵活定制报表的需求。管理报表可以根据XX的要求定制,目前已经包括前几节中描述的监控内容的报表,包括CPU、内存、文件系统利用率、网络流量、数据库性能、中间件性能、Domino性能等各类性能报表和故障报表。报表可以提供日报、周报、月报、季报和年报。以下是报表范例:1. CPU 运行2. Oracle 实例事务任意

37、二个或多个参数1. SAP 服务器可利性和系统内存2. UNIX系统运行, SAP 内存使用率及文件指纹3. CPU 使用率, 内存使用率, I/O速度, 逻辑磁盘空间4. Oracle 事务处理,实例事务5. Oracle事务处理, Windows 进程内存使用,Windows 内存交换2.3.8 建立故障处理系统TEC中的事件会根据策略送到故障处理系统,故障处理系统会根据管理信息字典,或者通过手工派发的方式将故障处理单派发到相应的技术人员,技术人员在处理完后通过填写处理报告来关闭告警事件。同时,故障处理系统还通过定时机制来通知管理员需要定期完成的工作,通知机制可以与XXOA系统集成。IBM

38、会根据XX的需求开发基于Notes的故障处理流程和资源管理流程,IBM已经具备成熟的基于Notes的流程管理系统,根据XX的需求进行适当地修改,可以满足XX的管理需求。流程管理系统的一个重要任务是建立知识库,知识库是基于Notes的数据库,具备方便的查询功能。2.3.8.1 各流程初步设计2.3.8.1.1 事件管理该流程始于运作事件的探测和报告,可由任何最终用户或IT人员启动,流程结束于关闭事件记录,包括以下子流程:事件探测和记录该子流程是事件管理流程的起始点。所有用户报告的IT事件必须由此子流程开始。该子流程的目的是在故障发生时快速精确地进行识别,协助对事件的判断和解决,并通知合适的人员。

39、该子流程采集创建事件记录所需的信息。该子流程的关键是信息的准确性和完整性。分类和在线支持事件类型可以是变更请求、服务请求、信息请求、服务故障。对于服务故障,则确认事件的优先级、影响、紧急度和分类。若不存在可用的解决方案对服务进行恢复,事件记录被分配给合适的事件分析人员进行调查分析。调查和诊断该子流程进行更深入的诊断以寻求恢复服务的解决方案,必要时需要投入多个分析员。若找不到解决方案,需要启动问题管理流程。解决和恢复如果解决方案需要进行变更,需要启动变更管理流程。必要时与用户交流解决方案。若解决方案不足以解决事件,需要进行更深入的调查。当需要进行根源分析时,该子流程创建问题记录,启动问题管理流程

40、。结束事件当解决方案足以解决事件或相关的问题得到解决,与用户验证解决方案。若用户接受解决方案,可关闭事件记录,必要时更新知识库。若用户不满意解决方案,则对事件记录进行升级处理。监控事件该子流程监控所有事件的整个生命周期,于事件记录创建开始,于事件记录关闭后结束。2.3.8.1.2 问题管理该流程起始于问题的探测,可直接由事件管理流程启动(被动模式)或对事件记录的趋势分析启动(主动模式)。该流程结束于问题记录的关闭,包括以下子流程:问题探测和记录该子流程是问题管理流程的起点。一个新的问题记录可以通过两种方式创建:不进行根源分析无法解决事件且无法与现存的问题记录关联,因此在事件管理流程中创建新的问

41、题记录。问题管理人员通过事件趋势分析创建新的问题记录。为了有效地协助问题的解决,该子流程提供新建问题的优先级、影响、紧急度和分类信息。分类和分配为了优化问题的解决,问题记录分配给合适的问题分析员。该分析员收集所有可用的问题数据,验证是否足以进行问题诊断,必要时对问题进行重新分类。调查和诊断若无法找到匹配的已知错误,对问题进行根源分析。若找到问题根源,将问题标记为已知错误。解决问题若无法找到问题的解决方案,尽可能创建临时解决措施。若找到可用的解决方案,创建可用的变更请求并传递给变更管理流程,并监控该变更请求。若变更成功实施后,可以对该问题记录进行关闭。结束问题验证问题的解决方案,确认变更是否成功

42、实施。若成功解决,更新知识库,结束问题记录。否则必须重新进行调查诊断。监控问题该子流程监控所有问题记录的整个生命周期。该子流程始于问题记录的创建,结束于问题记录的关闭。同时IBM的技术专家将主动为客户提供本项目相关产品的最新补丁和更新版本第三章 相关产品介绍3.1 IBM Tivoli 系统管理平台概述IBM Tivoli企业级系统管理软件是一种适用于企业异构型、分布式计算环境的系统管理套件。IBM Tivoli企业级系统管理软件的基础是Tivoli管理平台,该管理平台是一种可伸缩、CORBA兼容的框架,在OS/390以及众多UNIX、Windows/NT和其他PC操作系统上得到支持。配合Ti

43、voli管理应用程序,Tivoli管理平台体系结构成为一个解决分布式计算环境管理问题(例如软件分发、系统监控和事件管理)的强大解决方案。IBM Tivoli系统管理功能和特点是基于一个开放灵活的体系结构TivoliFramework。Tivoli产品结构客户机/服务器环境包含上百万个互相关联的部件,网络、异质系统、多种数据库等大量的部件,使管理工作异常复杂。 Tivoli Framework为网络计算环境所设计 的真正管理平台。它是应付当今复杂的、快速扩展的网络计算环境的首选。Tivoli Framework统一、简化、自动化了所有网络计算环境中的关键性资源的管理。Tivoli Framewo

44、rk采用面向对象技术,基于CORBA的标准,所有管理资源作为 管理对象(Object),为管理应用提供动态更新的、实际的系统模型。提供了每一个应用和IT资源都可使用的统一的、类似的管理模式。这样网络计算环境中的管理应用程序可以平滑地协同工作,屏蔽管理资源的复杂性。Tivoli管理结构具有非常好的可扩展性,即可以保护用户现有的信息技术投资,可以跟随用户网络系统的成长而成长。在Tivoli管理环境内,Tivoli代理程序(TMA)安装在由Tivoli管理的每一个被管理的服务器和客户机系统之上,使其接收Tivoli服务器下发的管理功能。这些系统作为应用系统重要的服务器和客户机被Tivoli管理服务器

45、进行管理,例如监控本机操作或接收Tivoli管理员下发的管理操作。运行TMA的系统不维护客户机数据库,因此它们所需的存储器数量是以KB而不是MB进行计算的,除提供全面的功能之外, TMA减少了对管理系统的资源要求。Tivoli系统管理结构中包含下列部件:l 端点(EndPoint)是一台安装了TMA的机器。端点一般是一台正常运作的机 器。l 端点网关(Gateway)运行于Tivoli管理的整个节点,并提供端点群组和Tivoli其 他部分之间的通信。该网关还拥有内置的Mdist转发器功能性,能使它作为面向特大数量端点的扇出分发点。l 端点管理器运行于Tivoli服务器,并维护一个端点信息目录,

46、保持对TMA中每一个端点的跟踪。该目录含有识别和管理端点必不可少的所有信息。l 通过利用这三个部件,Tivoli实现一个3层结构。下图为Tivoli三级管理结构。Tivoli三级管理结构TME物理结构图但是,Tivoli管理体系结构并非每一层都需要一台专用机器,有些层可能在同一机器上。例如,对于一个工作组规模的安装来说,一部单服务器可以作为端点管理器和网关,然后端点与该服务器连接。下图介绍了这种工作组配置。 TMR与Endpoint的连接Tivoli管理环境中的大多数机器不进行管理操作,主要参与监控和返回信息等正常操作,并接收分发的管理信息,它们既不需要能够与其他数以百计的管理化节点进行管理信

47、息的通信,也不需要运行一个Tivoli桌面或命令。这些端点机器非常适合运行TMA提供的低维护、低成本客户机框架,而不是服务器级框架。通过这种方式,TMA不仅能使您根据其使用精心匹配端点计算功 能,还能确保端点拥有它们所需的全部功能性。端点可以是S/390、AS/400、PC或UNIX工作站。由于端点不维护数据库,因此其所需的资源远少于整个管理化节点。Tivoli代理程序具有几个非常出色的优点:l 客户端只需要单一的Tivoli代理程序,即可实现Tivoli管理功能。因此在实施系统管理时只需在客户端安装一次就能实现管理。这种方式使系统管理的实施速度大大加快,并且为以后增加管理功能提供了基础。l

48、新安装了Tivoli代理程序的节点在启动时会自动登陆到Tivoli管理系统中,接受管理,使Tivoli的扩展非常方便。l Tivoli代理程序是智能代理,可以自动学习Tivoli服务器下发的管理命令,获取需要的执行代码。l 在Tivoli软件升级后,Tivoli代理程序会自动升级相应代码,而无须进行额外的软件升级,减少维护工作。Tivoli在客户端是单一代理,避免了由于系统管理功能多而需要同时运行多个代理程序。单一代理对系统资源的占用小,可以在实现管理的同时减少对系统资源的占用。3.2 IBM Tivoli Monitoring 简介您需要确保您的关键任务应用程序系统和数据库正常运行。这些关键

49、网络计算资源的任何中断都将影响您的企业。IBM Tivoli Monitoring提供了有效、可靠和高度自动化的途径,以保证用户能够不间断地访问这些分布式关键应用程序和计算资源无论您的网络环境有多大的规模和多高的复杂性。Tivoli可用性管理解决方案的旗舰产品IBM Tivoli Monitoring将帮助您智能化地确保所有网络计算资源的可用性。在动态、高度分布式环境中,Tivoli产品能够保证用户连续、可预测、可靠地访问计算资源。传统上,在这样的环境中为关键应用程序和计算资源提供不间断访问功能是非常困难的,需要付出大量的人力和物力。这是因为用户缺乏集中化管理高度分布式环境所需要的工具。以Ti

50、voli的分布式体系结构和服务为基础,分布式可用性的实现包含以下两个步骤:1)对远程系统的高效、稳定和集中的控制;2)主动管理,在故障发生前就加以处理。IBM Tivoli Monitoring提供了稳定、简单、集中的方法,来监视关键的网络计算资源。集中的IT工作人员可以将资源分为逻辑组,然后通过单一操作步骤为组内的所有系统分配或更新监视参数。对相关的数百套远程系统的修改可在几分钟内完成,而不需几小时甚至几天时间。而且这些改动在所有目标系统上都是相同的。中心控制点的IT工作人员可以通过他们自己的监视器或多种其它现成的、易于使用的监视器(由Tivoli或Tivoli第三方贸易伙伴提供),可以设置

51、远程站点的监视参数,这些监视器可接入IBM Tivoli Monitoring,无需复杂的集成工作。所以当您的网络扩展或变动时,添加新的监视器是非常容易的。IBM Tivoli Monitoring还可以在整个网络环境中自动执行预定义的故障预防和修正操作。该软件允许您的IT工作人员设置响应触发器,触发器使用多个阈值,根据不同的工作情况作出响应。例如,您可以设置一个触发器,进行:1)将应用程序调用发送至其它服务器,当空余磁盘空间降低到某一水平之下时向管理员的屏幕发出警报,并且,2)当磁盘空间低于某一最小值时呼叫管理员。使用IBM Tivoli Monitoring,IT工作人员可以主动管理多种分

52、布式资源,只需极少的人工干预。监视器l 所有Windows NT性能监视器(PerfMon)l 应用程序状态l 数据库状态:Informix、Microsoft SQL Server、Oracle、Sybase(通过第三方软件包)l 磁盘监视器:空余/已用磁盘空间,空余/已用磁盘空间百分比,等等l 文件监视器:生成文件数、文件大小、文件校验和、比较文件、可用文件句柄数、已用文件句柄百分比,等等l 网络监视器:网络冲突、网络输入/输出分组、NFS无效呼叫、RPC无效呼叫、客户机RPC超时、每输入/输出分组错误数,等等l 打印机监视器:打印序列状态、打印序列作业、打印序列中作业大小、打印机服务状态

53、l 安全性监视器:指定用户登记情况、根目录登记情况、文件许可l 系统资源监视器:系统可用性、系统负载平均值、呼叫溢出、可用交换空间、邮件队列长度、异常中断过程、登记用户数,等等l Tivoli/Plus模块监视器,用于商业产品控制应用程序,如Remedy的ARSystem和Unison的Maestro。l TME监视器:Tivoli数据库空余空间,Tivoli服务器可用性l SNMP监视器:Compaq Insight Manager MIB,SNMP MIBIIl 自行开发的工具:您内部开发的监视工具或第三方监视工具。l 故障通告和本地纠错任务l 故障登记和趋势分析l 呼叫管理人员l 弹出用

54、户指定的指示l 运行用户指定的程序或命令l 将警报发送至IBM Tivoli Enterprise Console或其它时间控制台l 发出SNMP陷井l 执行SNMP一组指令l 发送e-mail产品特点l 利用最优的自动化实施,提供即刻使用的资源模型,帮您管理关键业务系统l 通过简化安装、自动发现、智能最优实施的集成,实现产品的简单易用和最快的投资回报l 直观的图形用户界面降低了管理员熟悉应用程序管理和中间件管理的培训要求,有利于降低成本l 使用功能强大、灵活的向导工具,在流行开发平台和行业标准上,简化了对各种应用的集成监视解决方案的客户化和构建过程l 使用Windows管理接口(WMI)和J

55、ava管理扩展(JMX)标准,集成现有的Microsoft Windows和基于Java的应用l 充分利用可靠的连续监测技术用于数据评估的门限设定和连续数据评估,减少错误告警的数量l 与IBM Tivoli企业控制台和IBM Tivoli业务系统管理器可以安全集成,提供综合的性能和有效性解决方案l 主动式管理-通过连续监视重要系统资源,自动监测瓶颈问题和潜在的问题,同时对事件主动做出反应,来帮助管理大型的异构环境。它扩展了现有关键业务服务器的监视能力,能够帮助您实施智能化管理,在终端用户受到影响之前发现问题l 先进的资源模型技术允许IBM Tivoli监视器识别应用问题的特征,有助于防止故障的

56、发生。问题特征是重要的指标和门限值,当两者结合起来式,可触发一个能够预防系统故障的自动化操作过程l 连续可用性IBM Tivoli监视器建立在Tivoli软件的升级能力很强的分布式体系结构和服务基础之上,可为基于主机和Web的分布式系统提供有效、集中化的管理l 集中化管理,IBM Tivoli监视器通过集中化管理界面提供了一种简单、稳定的方法来监视和管理主要分布式资源l 嵌入式故障根源分析,IBM Tivoli监视器能够帮助您即刻评估关键情况,它开发了一套标准来定义不良性能或死机事件与业务目标之间的关系l 心跳引擎IBM Tivoli监视器具有的一个新组件,它能监测资源模型的错误状态l 基于Web的IBM Tivoli监视器状态控制台允许您查看您正在监视系统的实时和历史数据l 您可以用IBM Tivoli监视器工作台(Workbench)创建您自己的资源模型或自定义预先包装在产品中的资源模型l 作为大型的Tivoli Enterprise产品的有机组成部分,IBM Tivoli监视器能够让您集成许多其它的Tivoli产品。表1 功能说明产品功能优势基于规则的中心配置在企业内部标准化类似资源的远程监视和纠错操作。有助于确保用户稳定、可靠地访问远程应用程序、系统和数据库。自动化全球分发加速初始监视功能的设置和环境的修改。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论