




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、 第 1 页 共 40 页 系统运维管理整体解决方案系统运维管理整体解决方案 第 2 页 共 40 页 目目 录录 第一章第一章项目概述项目概述 .4 第二章第二章监控技术方案监控技术方案 .5 1系统总体框架设计.5 1.1设计原则.5 1.1.1管理系统自动化.5 1.1.2管理系统化.5 1.1.3管理系统实时性.6 1.1.4管理系统简单直观性.6 1.1.5管理系统对资源的占用.6 1.1.6管理体系的开放性.6 1.1.7管理系统的安全性.6 1.1.8管理系统的扩展性.7 1.2方案概述.7 1.2.1总体结构.7 1.2.1.1ITM 架构.8 1.2.1.2TPC 架构.10
2、 1.2.1.3ITCAM 架构.10 1.2.1.4Netcool 网络及事件管理平台 .11 1.2.1.5报表系统架构.11 1.2.2架构分析.12 2项目实施技术方案.12 2.1监控功能.12 2.1.1与事件管理平台整合.12 2.1.2用 ITM 实现对操作系统的监控 .13 2.1.2.1磁盘监控:.13 2.1.2.2文件监控:.14 2.1.2.3网卡.14 2.1.2.4NFS 统计.14 2.1.2.5RPC 统计 .14 2.1.2.6进程.15 2.1.2.7CPU.15 2.1.2.8系统属性.15 2.1.2.9用户属性.16 2.1.3用 ITM 实现 Wi
3、ndows 平台的监控.16 2.1.4用 ITCAM For database 实现对 Oracle、SQL 等数据库监控.18 2.1.4.1ITCAM 实现 Oracle 数据库监控 .18 2.1.4.2ITM 实现 SQL Server 数据库监控.21 2.1.5用 ITCAM 实现对 WebSphere、Tuxedo 的监控.22 第 3 页 共 40 页 2.1.6用 TPC 实现对存储的监控.24 2.1.7事件管理实施.25 2.1.8报表管理实施.25 2.1.8.1报表展现.26 2.1.9数据采集频率.27 2.1.10报警处理.28 2.1.10.1报警分级.28
4、2.1.10.2报警方式.28 2.2分布式支持.28 2.3系统安全性.29 2.4扩展接口.29 2.4.1与 Tivoli 其他产品的接口.29 2.4.2二次开发的接口.29 2.4.3通用代理(Universal Agent) .29 2.5性能分析.30 2.6方案总结.31 2.7本方案的优势.31 第三章第三章IT 运维流程管理方案运维流程管理方案.32 4.1需求分析.32 4.2流程设计.33 4.3 Tivoli Service Request Manager的流程实现.33 4.3.1Tivoli Service Request Manager 支持的管理流程 .33
5、4.3.2 管理对象分类和管理条目定义 .33 4.3.3 服务申请 .34 4.3.4 突发事件管理 .35 4.3.5 问题管理 .36 4.3.6 变更管理 .37 4.3.7 配置管理 .38 4.3.8 服务水平管理 .38 4.4 Tivoli Service Request Manager的技术实现.39 4.4.1 Tivoli Service Request Manager 体系架构 .39 第 4 页 共 40 页 第一章第一章项目概述项目概述 客户 IT 环境复杂,IT 资源类型众多,维护难度高,亟需建立一个集中的运维监控体系。以 达到 IT 资源的集中管理、综合分析,提
6、高工作效率和运维质量的目标。 项目建设的整体目标为:项目建设的整体目标为: 整体规划、分布实施、重点突破,务求实效,作为整个系统与网络监控平台建设的 知道思想; 采用成熟的技术,配置要平衡; 具有良好的稳定性、高效性、安全性、灵活性; 具有良好的开放性,有较好的兼容能力; 具有较强的扩充能力; 需要能保护现有投资。 总体需求分析总体需求分析包括:包括: 监控:主机、存储、网络、应用(数据库、中间件),故障告警、性能分析、自动发 现 2.服务流程:服务台、事件管理、故障管理、变更管理、发布管理、配置管理、知 识库 3.多维度展现: 4.报表: 第 5 页 共 40 页 第二章第二章监控技术方案监
7、控技术方案 1 1系统总体框架设计系统总体框架设计 1.11.1设计原则设计原则 客户信息系统的管理必须采用有效的方法,在客户信息系统整个范围内实施管理策略和流程。客户 信息系统的管理体系侧重在如何提供一个适合客户信息系统的低风险的 IT 管理模式,设计、建构、实 施一个统一、集成并可扩展的管理结构,实现对复杂的计算机系统有效的管理。 客户信息系统面对的是复杂的管理对象和多种管理需求。如果没有一套统一、集成的管理系统,在 网络、系统和服务发生变化时,或者管理任务发生变化时,将可能导致管理体系大的调整,管理员可能 需要花费很长时间和精力重新学习新的管理技能,从而导致管理效率的下降。最终将导致管理
8、工作实施 的周期加长,管理错误增多。统一和集成的管理将帮助最好的利用管理员的技能和精力,对客户系统进 行高效、准确的管理。 根据客户信息系统平台建设需求和我们的经验,在设计信息监控平台时应满足以下原则: 1.1.11.1.1管理管理系统自动化系统自动化 对于客户信息系统而言,建构在管理平台上的,统一、集成的管理模式可以降低管理系统维护的费 用和风险,主要体现在: 能够识别出管理复杂系统存在的困难和长远发展的问题,从而得到避免,防止用户重复投资 减少对将各种单点管理工具勉强组合在一起工作,以满足管理工作的需要 避免重复的管理工作,减少管理功能上的重复 管理平台可以实现各管理应用间的通信,以更好的
9、解决问题 自动化管理减少管理员维护工作量,可以在统一平台上完成自动管理和监控,从而提高管理效 率。 1.1.21.1.2管理系统化管理系统化 该平台要对客户信息系统进行综合管理。系统的构成层次从下至上为:物理网络层、系统层、数据 库层及应用层,只有做到对所有资源的统一管理,才能全面的管理好系统资源。任何管理上的遗漏,都 将成为系统故障出现的隐患。同时在单一管理环境下,实现对所有 IT 资产的集中化管理,并且对所有的 平台都有统一的操作界面及管理, 简化操作。 全面的管理,提高客户信息系统的整体可用性。 减少系统管理人员对问题的定位时间。 第 6 页 共 40 页 1.1.31.1.3管理系统实
10、时性管理系统实时性 IT 系统管理平台的监控对象是重要的 IT 资源,这些 IT 资源承载着多个关键的业务系统,对于监控 系统来说,要在系统发生问题时实时的捕捉,确保信息的实时、完整。 1.1.41.1.4管理系统简单直观性管理系统简单直观性 系统应采用直观监控界面,并采用直观、清晰的展现形式;同时系统还应具有操作简便、使用方便 的功能。 1.1.51.1.5管理系统对资源的占用管理系统对资源的占用 在实现管理的同时,必然会占用一定的网络系统资源,如何尽量减少资源的占用,是实现有效的管 理系统的重要因素。因此在 IT 系统平台的选择上,需要管理平台对资源的占用最少,尽量采用单一代 理,轻客户端
11、程序,以减少对系统资源的占用。同时管理平台需要具有分布式结构,以减少管理对网络 资源的占用。 1.1.61.1.6管理体系的开放性管理体系的开放性 管理系统的开放性,是设计客户监控系统的一个原则。管理系统需要符合业界标准,以实现对各种 资源的统一管理和与其它管理软件的集成。同时管理系统需要开放开发接口,以方便客户扩展管理功能。 该系统管理需要基于开放的管理平台,遵循业界标准,并提供管理接口: 网络管理基于 SNMP 标准网管协议 系统管理平台基于面向对象标准:Object Management Group(OMG):Object Request Broker ArchTECture (CORB
12、A) 支持第三方厂商的应用集成,为系统管理的选型提供更高的灵活性 开放的 API 支持用户应用软件的集成,为系统管理的内容扩充提供发展余地 1.1.71.1.7管理系统的安全性管理系统的安全性 管理系统自身的安全性是保证管理工作正常进行的关键因素,因此在设计监控系统时,充分考虑了 管理系统的安全性,包括: 提供管理工作的安全审计控制和日志记录 提供方便维护的安全通信结构,如信息的加密 提供完整的策略和框架,并能适应组织的变化,灵活地设定管理人员的角色及权限 客户系统监控需要管理平台具有优秀的体系安全管理,以保证管理的安全。 第 7 页 共 40 页 1.1.81.1.8管理系统的扩展性管理系统
13、的扩展性 该监控系统平台规模会随着网络、系统、应用的扩展而扩展,因此选择的信息运维平台的扩展性对 保护投资有重要意义。扩展性主要体现在: 管理功能的扩展 管理范围的扩展 客户监控系统平台体系建立在企业级管理平台基础之上,具有优秀的扩展性,用户可以在需要时增 加管理模块,扩展管理节点,保护现有网络系统以及应用管理投资。 1.21.2方案概述方案概述 1.2.11.2.1总体结构总体结构 IBM Tivoli 管理总体架构如下: 最底层为管理对象层,包括数据中心内部的各种被管理对象。 中间为采集层,负责管理数据的采集,一般采用专用的协议和技术。 在上层为数据处理层,主要为集中的告警信息、集中的性能
14、数据和集中的配置信息管理 最上层为集中展现层,展现数据中心的实时和历史运行状况,通过个性化的界面提供给不同层面的 管理人员。 服务流程层则负责管理运行流程的建立、运行和落地实现。 第 8 页 共 40 页 在数据采集层,分别采用不同的技术来管理不同的 IT 资源: 管理对象采用技术IBM 产品 服务器和操作系统CORBA 和运行日志文件Tivoli Monitoring 存储SNIA 协议和 syslogTivoli Productivity Center 数据库、中间件产品自身接口或者标准协议ITCAM 产品家族 网络Syslog、SNMPOmnibus 下面就每个产品的具体实现进行说明:
15、1.2.1.11.2.1.1ITM 架构架构 Tivoli Monitoring v6 基于 CORBA 版本 v2.5 实现。 Tivoli Monitoring v6 主要逻辑部件: 管理服务器 Tivoli Enterprise Monitoring Server 管理网关 Hub Tivoli Enterprise Monitoring Server 管理代理 Tivoli Enterprise Monitoring Agent 展示门户 Tivoli Enterprise Portal Server 数据历史保存 Tivoli Data Warehouse 第 9 页 共 40 页
16、对于分布式环境,可以通过 Remote TEMS 来实现高度的扩展性 ITM6.1 与其他各 tivoli 产品的关系图如下: 由上图可以看出,ITCAM 产品可以作为一个 agent 直接和 TEMS 联系。 第 10 页 共 40 页 1.2.1.21.2.1.2TPC 架构架构 TPC 为客户提供完整的存储基础架构-包括磁盘,数据和光纤网络-提供了一套管理,配置及分析工 具。下图举例描述了一些可管理的组件。 通用代理程序为应用程序特定代理提供了一个平台。 根据子代理所使用的任务,通用代理将被选择安装至应用服务器,桌面 PC 机,或笔记本上。 1.2.1.31.2.1.3ITCAM 架构架
17、构 Tivoli Composit Application Manager 基于 Tivoli Monitoring 的底层实现技术,实现对数据库、J2EE 服务器、应用服务器等的中间件和应用的监控。 第 11 页 共 40 页 1.2.1.41.2.1.4Netcool 网络及事件管理平台网络及事件管理平台 Netcool/OMNIbus 提供了业务最为强大的事件处理能力使 IT 管理人员更高效地进行原始数据的访问、 处理和显示。通过增加智能化来提高事件分析功能,该功能具备先进的程序语言和数据触发器,从而允 许进行批处理和更复杂的数据处理操作,这为先进的商业服务管理和服务质量管理提供了一个坚
18、实的基 础。 Netcool/OMNIbus 应用软件包括一个成品软件模块库,从安全、声音和 IP、DSL/宽带、无线、转换 器和路由器、企业管理系统和应用软件等超过一千个环境中收集并整理错误信息。Netcool/OMNIbus 居 于各类 Netcool 解决方案的核心,包括那些商业服务管理、服务质量管理、安全管理,以及先进的关联 和诊断 Netcool 解决方案。Netcool/OMNIbus 还为 IT 管理团队提供有关其基础架构和业务的重要信息, 以及 Netcool 套件中那些备受赞誉的功能,包括可扩展性、覆盖面、适应性,还有已成为实时错误管理 解决方案的公认标准的快速部署能力。 M
19、icromuse 公司首席技术官 Craig Farrell 表示:“Netcool/OMNIbus 产品以经被全球范围内超过一千 八百家用户选中,作为其 Netcool 解决方案的一部分,为大型企业和服务提供商提供安全、可升级的管 理骨干。Netcool/OMNIbus 增强了我们行业领先的可扩展性、高效率和性能,并针对多区域服务管理提 供更多的功能性,内建更多操作智能标准,从而保持了我们的行业领先地位。这些提升能使 IBM 的客户 实现更高的操作效率,并更为高效地访商业服务管理数据。 ” 1.2.1.51.2.1.5报表系统架构报表系统架构 数据展示平台从各管理模块收集性能数据,其中,主机
20、系统运行监控、中间件运行监控、数据库运 行监控数据从 IBM Tivoli 系统数据库中获取,并汇总到本系统的报表统计模块。报表统计模块包含实时 报表、历史报表、运行月报、趋势报告、比较报告、主机健康报告子系统,可对监测数据实时统计和分 析,并出具分析报告。并根据实际情况可以以曲线、饼图、柱图、表格等形式进行展示,并可以根据用 户需求把巡检性能报告定时发送到管理员的邮箱中。 该系统可以根据管理员的需求设定不同用户以及不同的访问权限。 第 12 页 共 40 页 Report Web Admin End user WEB 报表展示 帐号权限管理 应用管理 XML数据文件 Admin WEB WE
21、B BIRT Server 1.2.21.2.2架构分析架构分析 由于客户系统监控规划的监控对象估计在 100 台以上,考虑到 Tivoli 监控服务器 HUB TEMS(Tivoli Enterprise Monitoring Server)负载会比较大,我们会采用 Remote TEMS 来分担负载。可以考虑按照机房 来规划 remote tems。ITM OS agent、ITM for Message and Collaboration、ITM for Database agent、ITCAM For Web Resource agent 先连到 remote tems,然后由 rem
22、ote tems 去和 hub tems 通信,再由 tivoli enterprise portal server 进行展现。这样的设计,一方面方便了各机房系统管理员的维护工作;另一方面, HUB TEMS 的负载减小很多,故可以不用对 HUB TEMS 做 failover,减少了一台 PC 服务期的采购,为 客户节省了成本。 每个 Agent 配置 primary remote tems 和 secondly remote tems。正常情况下,agent 和 primary remote tems 通信,当 primary remote tems 出现问题的时候,agent 会自动连接
23、到 secondly remote tems。这样的设 计,可以保障 agent 和 hub tems 的通信,相当于是做了 remote tems 的 failover。 由于历史数据可以存放在 agent 端,采集经常也是由 agent 自己驱动,所以当 TEMS 出现问题的时 候,数据采集还是正常进行,不会出现历史数据丢失。 2 2项目实施技术项目实施技术方案方案 2.12.1监控功能监控功能 2.1.12.1.1与事件管理与事件管理平台整合平台整合 对于应用系统来说,网络、设备、各种分布式的系统、数据库系统、中间件、各种应用程序都会产 生各自的事件,在系统出现故障时,故障信息通过事件的
24、方式显示在管理员的控制台上。对于大型网络 第 13 页 共 40 页 系统,一个系统管理员往往要面对成百上千个不同的事件,负担很重,而且,由于事件量大,关系不清 楚,管理员很难在众多事件中分出事件的重要程度,难以把重点放在对关键事件上,同时,也难以对问 题进行准确的分析。由于各种事件,如网络、系统、数据库、应用的事件之间有相关性,因此对事件进 行统一处理可以大大提高管理效率,加快故障分析定位和故障处理,降低由于系统故障带来的损失。 IBM Tivoli 软件提供专业的事件故障管理工具 IBM NetCool Omnibus 为管理员提供企业统一的事件 管理控制台,对来自各种管理应用的事件和故障
25、进行统一处理,并且提供全周期的自动化和事件控制。 包括: 事件集成-一个灵活且可扩展地从分布式环境中各个信息源收集和集成消息及事件的事件集成机制, 专门收集网的 IT 环境产生的事件。使管理员只需要面对一个事件控制台,就可以查看网络中发生的所 有事件。同时,事件可以按照来源、类型进行分组,管理员可以方便的进行查看。 事件处理-对于各种信息事件进行处理。包括对事件进行过滤,滤除某些不重要的设备的不重要的 事件,避免事件风暴的产生,减轻管理员的工作量。同时 Omnibus 提供强大的事件相关处理机制(Event Correlation),管理员可以定义事件处理的规则、流程,在收到事件后,会自动经过
26、流程处理,将多个不 同事件之间的相关性进行分析,将根源事件显示到控制台上。管理员可以通过定义不同的事件处理流程, 完成故障的定位,相关事件的分析,大大提高事件处理的效率。 事件响应-一个通过从中央服务器发送和控制分布式应答作为系统事件应答的分布式自动响应引擎, 负责根据对各种事件分析的结果实现对远程分布式系统进行控制。管理员可以定义在收到相应事件时的 反应方式,如声电报警、执行预定义的程序、重新启动出现故障的程序等自动化处理方式,或者将本地 无法处理的故障传送给上级管理中心需求帮助。事件的自动化处理可以减轻管理员的工作量,同时提高 对故障的响应速度。 利用 Omnibus 提供的大量的事件收集
27、 Adapter 可以将第三方的告警信息方便地传送到 Omnibus 中, 进行集中管理,充分发挥 Tivoli 对系统的管理能力,同时也使整个系统的管理更统一。事件存放在内存 数据库中,通过 SQL 语句命令,可以查询并产生 ASCII、Binary 等格式,供第三方工具分析。 2.1.22.1.2用用 ITM 实现对操作系统的监控实现对操作系统的监控 实现的指标列举如下(不限于此): 2.1.2.12.1.2.1磁盘监控:磁盘监控: 监控系统上配置的物理磁盘的相关属性,主要监控内容包括 Inode、,Mount 点,以及磁盘空间使用率、 数据传输率、平均等待时间及繁忙程度等: 基本信息监控
28、:包括磁盘名监控: 监控当前文件系统 Mount 的物理盘名称;系统名监控: 监控当前系统的主机名等; Inode 监控:监控磁盘当前的 Inode 总数、正在使用的 Inode 的数量、剩余的 Inode 数量、某 个文件系统上分配的 Inode 数量,以及 Inode 使用率等内容,统计值包括平均、最大、最小 及总计使用率等; 第 14 页 共 40 页 Mount 点监控:监控当前文件系统 Mount 点的路径名等;. 文件系统监控:包括文件系统尺寸监控,统计值包括平均、最大、最小及总计使用率等; 空间监控:包括当前可用的磁盘空间、可用的磁盘空间百分比、磁盘空间使用率等,统计值 包括平均
29、、最大、最小及总计使用率等; 磁盘性能监控:包括平均磁盘请求队列监控,平均磁盘访问等待时间监控,磁盘数据传输时 间百分比,当物理磁盘使用时间百分率过高时,监控系统会产生“磁盘时间百分率很高”的报 警事件; 当磁盘每秒读取过多的数据时,监控系统会产生“每秒读取字节数很高”的报警事件。 这些报警事件会即时发送到故障管理控制台与业务管理控制台。 2.1.2.22.1.2.2文件监控:文件监控: 监控系统中文件和目录的相关属性,主要监控内容包括名称、尺寸、拥有者、访问权限以及链接等 基本监控信息:包括被监控文件的名称、文件大小、文件的类型、文件所在的路径名、文件和 目录的访问权限、链接名、拥有者、所属组信息,以及文件最近被访问时间,上次修改
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 二零二五年度办公室保洁与绿色节能改造咨询合同
- 足疗馆装修质量保证协议
- 自闭症儿童情绪管理
- 二零二五年度保健食品专业物流配送司机劳务合同
- 建设40万吨绿色基材(工业硅)项目可行性研究报告-立项备案
- 2024深圳市博伦职业技术学校工作人员招聘考试及答案
- 2024泸州市天宇中等职业技术学校工作人员招聘考试及答案
- 人教版小学四年级上册数学口算练习试题 全套
- 2024渤海大学附属中等职业技术专业学校工作人员招聘考试及答案
- 脑炎伴精神障碍的护理
- 2025年保安证学习资源题及答案
- 如何通过合理膳食安排促进婴幼儿成长发育
- 智能健康养老服务人才培养创新与实践探索
- 人教版(2024)七年级下册生物期中复习必背知识点提纲
- 浙江省绍兴市2025届高三语文一模试卷(含答案)
- 2025届高三化学一轮复习 化学工艺流程题说题 课件
- 网线采购合同
- 2024年初级中式烹调师技能鉴定理论考前通关必练题库(含答案)
- 第五课 正确运用判断 课件高考政治一轮复习治统编版选择性必修三逻辑与思维
- 旅游景区安全管理制度范本
- 仓库应急演练
评论
0/150
提交评论