版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、某某公司某某公司 技术建议书技术建议书 中国惠普有限公司 中国惠普有限公司 起草日期:2007 年 12 月 04 日 版版 权权 说说 明明 本文件中出现的任何文字叙述、文档格式、插图、照片、方法、过程等内容,除另有特别注 明,版权均属中国惠普有限公司所有,受到有关产权及版权法保护。任何个人、机构未经中国惠 普有限公司的书面授权许可,不得复制或引用本文件的任何片断,无论通过电子形式或非电子形 式。 本建议方案由中国惠普有限公司根据某某公司(以下简称“某某公司”)的需求编制,其使 用范围仅限于客户为满足自身项目的需要而进行的方案选型。任何超出本范围的使用需事先得到 中国惠普有限公司的书面授权许
2、可。 目目 录录 第一章第一章总述总述.4 第二章第二章方案总体架构方案总体架构.5 2.1.总体设计思路.5 2.2.建设原则.6 2.3.方案总体架构.8 第三章第三章监控管理平台监控管理平台.10 3.1.监控管理平台架构.10 3.2.监控管理平台产品推荐.12 3.3.网络性能和故障监控.13 3.3.系统监控有代理方式.17 3.3.1.系统管理.17 3.3.2.数据库监控.22 3.3.3.中间件监控.24 3.3.4.相关产品的特点.25 3.4.系统监控无代理方式.29 3.4.1.主要功能特点.29 3.4.2.小结.35 3.5.统一事件处理平台.35 3.6.第三方集
3、成和功能扩展.38 3.7.统计报表.39 第四章第四章与服务与服务管管理平台集成理平台集成.42 第一第一章章总述总述 hp 公司一直活跃在国内外的 it 运行管理市场,并以其许多重要的成功案例享有美誉和相当 高的市场占有率。在技术迅猛发展的今天,交通行业的 it 化也在飞速发展,整个 it 系统的综合利 用正逐步走向一体化,hp 的硬件、软件和实施经验,必然有助于商务电子化进程的发展壮大。 本建议书将针对某某公司(以下简称“某某公司”)应用系统管理建设的需求进行相应分析, 并在此基础上,介绍基于 hp 管理平台的解决方案,旨在通过 hp 及合作伙伴在国内外相关领域内 的成功经验,为某某公司
4、应用系统管理建设一个功能完整、灵活可靠、安全和可扩展的 it 系统管 理监控平台。 第二章第二章方案总体架构方案总体架构 2.1.总体设计思路总体设计思路 随着计算机技术的不断发展,某某公司的 it 基础架构也随之不断发展。目前,某某公司已经 建立在全国乃至全球的网络基础上建设了各种电子业务系统。随着乘坐飞机的乘客人数的不断增 多,it 基础架构和系统规模也不断膨胀。目前,对于某某公司,it 对业务的支撑力度已经是越来 越强大;而另一方面,业务也愈来愈依赖于 it。it 系统的稳定性有效性可靠性将对业务造成直接 的影响。因此,如何对 it 进行有效监控管理,如何对故障进行及时有效地排除故障,如
5、何及时发 现 it 的各种潜在隐患,也已提上日程。单纯依赖人工方式已经很难有效及时地掌握如此庞大的 it 系统的全面状况;对故障的及时处理和发现潜在隐患就更加困难了。而且,业务部门对于 it 部门 的定位正在转为服务的使用与服务的提供之间的关系。业务部门对 it 提供的服务要求越来越高, 对于系统的可用性实时性都提出了更高的需求,目前的管理模式和人工方式已经无法满足。这些 都已经对某某公司的 it 建设提出了新的要求。 本次项目的主要目标之就是通过实施电子化的监控工具以对系统及各应用软件进行有效监控, 实现对故障的及时发现和对性能状况的准确把握;当然,监控的最终目的仍然是为了解决问题和 避免问
6、题;所以,我们同时也通过 it 服务管理流程来实现对故障的及时有效处理,对潜在隐患的 及时排除,通过量化指标来确保所提供的 it 服务的持续性和质量标准。事件管理流程的建立和服 务台的实施将使 it 运维人员从无序、被动的、疲于奔命的救火队员的角色转换为有序、主动的和 积极的 it 服务提供者。由于,某某公司已经实施了惠普公司的 openview service desk 作为 it 服 务台,那么就存在和现有的 it 服务管理平台的功能集成。 因此,对于某某公司的系统管理需求,惠普公司认为它不但是系统硬件、网络环境、应用软 件平台等方面建设,还应同时兼顾与之相配套系统运作管理,服务台热线,
7、it 组织及管理流程等 的建设,从而确保系统的稳定性, 可靠性以及满意的客户服务,使 it 能够对政务的连续性提供 保障。惠普提供的 it 监控服务解决方案不仅是一个软件安装、实施的过程,而且是针对 it 运维 体系的全面解决方案。 我们提供的设计方案包含监控部署设计,系统管理软件、应用管理软件等运营工具系统的设计 实施,惠普公司希望通过这个项目的成功实施,帮助某某公司作到: 建立统一的系统管理平台,监控、管理某某公司现有的各种服务器、数据库、中间;建立 统一的应用管理平台,监控、管理某某公司现有的关键业务应用系统; 及时掌握各种资源现状和运行信息,为信息分析、系统优化、决策提供支持,实现管理
8、信 息和经验的共享; 与现有的it服务管理平台集成,实现通过有效的管理组织和流程,保障业务的稳定、高效、 持续的运行。 2.2.建设原则建设原则 开放性和标准化原则开放性和标准化原则 以 hp openview 为平台建立起的 it 监控服务管理平台具有很好的开放性。hp 公司很早就公 布了 openview 丰富的应用开发接口 api。被众多的合作伙伴看好,并将 hp openview 作为其网络 设备管理的平台软件,如 cisco 公司的 cisco works,3com 公司的 transcend,bay networks 公司的 optivity 等。 这些厂商的网络设备管理软件均可透
9、过 hp openview 界面进行调用,监控、配置和管理,网 络事件的报警及事件的记录均可反映到 hp openview 环境中,充分体现了良好的集成性。 hp openview 解决方案的 api 接口是基于 c 语言的,提供了功能强大的可调用的管理函数和 公共服务。通过这种方式支持用户及第三方合作伙伴开发多平台的、可扩展的分布式网络管理应 用软件。 hp 公司是网管论坛的成员之一,同时 hp sevice desk 网管流程管理模块又是全球少数几个通 过国际 itil 组织标准认证的产品之一。 先进性和可扩展性原则先进性和可扩展性原则 hp openview 整体解决方案在满足国际网管组
10、织的标准同时,采用了先进的专利技术,例如 在系统管理中,使用了独特的智能代理技术,从而达到智能的高效管理,又实现了管理信息的低 开销;特别是结合先进的 it 管理理念和管理流程的设计(符合国际 itil 标准),使得 it 监控服 务管理平台达到了整体的先进性,同时 openview 模块化的产品结构和分级管理的优势,使得随着 未来的业务提升,管理系统具有良好的可扩展性。 经济和实用性相结合的原则经济和实用性相结合的原则 此次 it 监控服务管理平台的设计面向某某公司的需求,在核心功能保证的同时,可以附加针 对性的二次定制开发,所以具有很强的实用性,可以满足监控不同系统的实际需要,也使性价比
11、得到大幅提升。 可靠性和稳定性原则可靠性和稳定性原则 openview 管理模块已在中国市场上销售十余年,核心模块已到了 8.0 版本,所以功能使用已 非常可靠、稳定。 高可用性和高可管理性原则高可用性和高可管理性原则 openview 的功能模块都为 hp 公司开发,故 hp openview 各模块间可以保持统一的应用界面, 方便使用和管理,也节约了对管理人员的培训时间。 系统管理员可通过简单易用的图形界面,用鼠标拖拉对象就可完成各种系统资源的复杂管理 工作,不必去记不同平台、不同系统上的复杂操作命令,同时支持 web 形式的远程操作,降低管 理难度和管理工作量。同时简单易用的图形界面使用
12、户易于掌握,能快速实施系统管理任务。 这样使 it 监控服务管理平台具有较高的可用性、可管理性和可维护性,使管理人员易于维护, 并且能通过相应的功能模块对服务器、数据库、中间件、应用等进行实时监控和管理。 2.3.方案总体架构方案总体架构 我们为某某公司设计的方案功能逻辑分为两大层:it 监控管理平台层和 it 服务管理平台层。 如下图所示: 一、一、itit 监控监控管理平台管理平台 我们针对某某公司系统管理需求,从用户的实际需要出发,提供一套全面的综合的运行维护 管理系统,包括: 系统管理:系统管理:收集主机、网络,数据库的故障,并可通过定制的过滤策略实现对故障的管理, 同时,可形成历史记
13、录供今后管理员参考故障再次发生时的解决方法。实时监控主机、数据库和 中间件的各性能状态,并形成历史记录,供分析和上报使用。 数据库、中间件管理数据库、中间件管理: : 监控数据库、中间件的故障和相关的性能参数,从而管理企业内部的 关键的业务应用运行状况。 与第三方集成与第三方集成: : 与存储管理软件等第三方软件集成,实现统一的事件管理。 二、二、itit 服务管理平台服务管理平台 在本次方案中,由于 it 服务管理平台在某某公司已经实施,那么主要工作是与 it 服务管理 平台的集成,包括包括如下几方面。 可以将故障事件传给it服务管理平台,形成票单。 如果有需要,监控管理平台还可以接受it服
14、务管理平台输出的事件,在监控管理平台主 控台执行脚本和命令行等。 还可以进行部分配置项信息的传递。 第三章第三章监控管理平台监控管理平台 3.1.监控管理平台架构监控管理平台架构 为了满足某某公司对于应用系统综合管理的要求,我们推荐 hp 公司的业界最先进的 it 系统综合管理解决方案:企业级的统一的事件管理平台,先进的系统、数据库、中间件监控解决 方案,业务流程监控解决方案,如下图所示。 在本建议书中,根据 hp 对 it 管理系统的深刻认识和成功经验,为了实现对硬件设备和软件 系统的监控进行管理,我们推荐采用 hp openview operations/performance 作为核心的
15、故障/性能监 控管理平台。配合网络管理软件 hp openview network node manager 和针对各种应用的智能插件 (smart plug-ins)实现对网络、系统、数据库、中间件的集中监控和事件处理中心。 同时,由于某某公司的服务器数量大,种类多,我们在这里也推荐部分服务器使用无代理方 式进行监控。何谓无代理监控?即通过远程进行监控,而不需要在被监控系统上安装任何程序或 agent,通常监控通过标准协议和登录完成,例如对于 tuxedo 的监控将通过 tuxedo 客户端来进行 通讯。 为什么推荐部分采用无代理的监控方式呢?因为它有如下的优点: 更为便捷的部署:由于不需要
16、在被管系统中安装代理,部署通常就更为便捷; 变更管理的复杂性低:由于只需要升级中央服务器,升级流程通常就更为简单; 数据权限的一致性:通常一个机构的多个部门都需要使用数据,而标准的技术 (如 snmp 或 wbem) 可以让多个部门和工具方便地使用同一数据; 被管系统所使用的资源更少:一般来说,在一个系统中,无代理监控是基于代理 监控的一个子集,因此需要的资源就较少; 由于没有代理成本,被认为是更经济的解决方案。 但也由于技术的限制,一般适合在非关键的服务器。对于具备以下条件的服务器,我们还是 建议采用传统的 agent 监控: 需要获取大量深度监控数据用于分析,例如想通过监控数据库获取大量信
17、息来分 析数据库性能。 对于有些关键监控数据无法从远程获取。 用户网络条件特别不理想。 需要非常复杂的性能监控,获取大量历史数据并分析。 总而言之,使用惠普公司的产品 sitescope 用于无代理远程监控,ovo 作为监控管理平台, 完成事件关联、处理及报警功能。 3.2.监控管理平台产品推荐监控管理平台产品推荐 因此,产品推荐如下: 1)hp openview operations 和 hp openview network node manager 搭建网络、系统综合管 理平台,实现对重要主机服务器的管理,包括主机的故障管理和性能管理,同时完成对 网络拓扑、网络故障、网络性能;网络和系统
18、事件的统一监控,将主机管理与网络管理 纳入到 openview 的统一管理平台中。 2)hp openview performance manager 实现对重要主机系统的性能管理,包括性能监控、告 警、报告等。 3)hp openview ovop agent 安装在重要被管主机上,实现对被管主机的服务器系统的故 障和性能管理,每台被管主机上安装一套。 4)hp openview smart plug-in for database 数据库管理插件,实现对重要 oracle 和 sql server 数据库运行状态的实时监控及故障与性能管理。 5)hp sitescope 实现无代理管理,实
19、现对一般服务器的故障管理、性能管理和之上的应用 管理。 6)hp openview reporter 报表工具,实现对故障数据和性能数据的统计分析功能。 openview operations 将为某某公司提供一个公共的企业级管理控制台,从一个地点就可以管 理某某公司的所有软、硬件。采用 openview operations 作为统一事件处理平台,统一对 it 的事件 进行处理。以统一界面集中管理事件。用户可以在事件主控台上看到所收到得事件的发送源系统 名,事件类型,事件产生的时间等。事件主控台的设置有很强的灵活性,可根据用户的不同要求 而改变,以适应用户业务的需要。通过 openview
20、operations 的控制台上对事件的自动触发,可以 和服务管理平台集成,生成各种票单,传入流程处理环节。 3.3.网络性能和故障监控网络性能和故障监控 对于网络通信系统的监控,我们推荐采用以 hp openview network node manager 为核心的网 络管理解决方案来实现对于配置,故障,性能及安全的管理。 hp openview network node manager(nnm)是领先的网络管理解决方案,它以直观的图形 方式提供了深入的网络视图。network node manager 能够发现网络设备,并提供显示网络实际状 况的视图。多层次映射图显示了哪些设备和网络分段
21、工作正常,而哪些部分需要引起注意。当报 警浏览器上显示出主要设备的故障事件时,network node manager 功能强大的关联引擎(correlation engine)就能够分析事件流并找到故障的根本原因。趋势分析、阈值和数据仓库等功能实现了防患 于未然的网络管理。network node manager 是基于 snmp 管理协议的平台,它提供了业界最为广 泛的 snmp 协议的支持,从 snmp v1 到 snmp v2 以及基于 partition 认证的 snmp v3 都提供了广 泛的支持。 随着当代 ip 网络技术的飞速发展,围绕 network node manager
22、 之上,openview 提供了更多 的技术手段来拓展 ip 网络管理的手段来超越传统基于 snmp 管理的局限性。同时 openview network node manager 作为管理平台,提供了大量的第三方管理软件的集成,如应用广泛的 ciscoworks2000 设备管理软件。 网络配置管理网络配置管理 在网络配置管理的方面,主要通过 openview network node manager 采用 snmp 采集的方式 来实现。nnm 的自动发现和监控机制能够发现网络节点(包括路由器,交换机和第二层的交换设 备如网桥等),检测网络连接,生成和保持 tcp/ip 网络图,通过色彩确定
23、网络设备的运行状态, 使用 openview windows 的 pan 和 zoom 的功能在保持总图象的同时将视点着重于大型子图的关键 区域。通过 mib 浏览器了解外围设备的工作状况,对不能监视的外设,可通过在被管节点上扩展 snmp 子代理,在管理站上装载其 mib 的方式对其进行监视。使用预定义的 mib 应用或创建 mib 查询应用监视网络连接的通信速率,信息流量等。nnm 的这种特点使得具有多厂家系统平台、网 络、计算机等复杂环境的管理变得更加真实、直观和简便。 network node manager 可以发现网络上的 tcp/ip、ipx(在 windows nt 操作系统上
24、被 network node manager 支持)和 level2 设备,支持 dhcp(动态主机配置协议),并将这些信息以 直观的图形格式表示出来(level2 发现功能包括支持 bridge、repeater/802.3、或者 mau mibs 的设 备)。network node manager 持续地监控网络上新的设备和网络设备状态。发现和监控功能还可以 探测到位于广域网上的设备。 network node manager自动发现的网络拓扑图自动发现的网络拓扑图 除了可以自动得发现网络配置结构之外,nnm 还可以动态地自动更新网络拓扑图和事件信息。 网络拓扑是以图形或者表格的格式表现
25、的,提供了最大程度的灵活性。另外,snmp data presenter 令用户可以查询网络的 snmp 数据,例如接口流量、cpu 负荷或者通讯路由(traffic routing)等,以 帮助进行网络诊断和计划。 nnm 对于所搜集到的信息具有简化功能,提供发现过滤,拓扑过滤,图象过滤功能,使企业 可以根据自己的需要,选择要发现监控的对象,定制 map 的显示内容,通过这些功能可以减少网 络流量的负担,更能让管理人员集中注意力于重要和密切关心的网络部分。 nnm 支持 cisco discovery protocol(cdp view),可以形成针对 cisco 设备的拓扑结构图。并可 方
26、便的查询 cisco 设备的配置信息,包括 cisco 设备中的 vlan 设置,以及和此设备连接的设备信 息。 网络故障管理网络故障管理 对于网络故障的管理,这里分别从故障数据的采集,故障信息的处理,以及故障信息的展现三 个不同的阶段来阐述。 故障数据的采集:故障数据的采集: 对于 ip 网络故障数据的采集,传统上主要采用的是周期性通过 icmp echo 来了解某一 ip 节 点的状态以及 snmp 协议的状态轮询、mib 采集和网络设备主动发送的 snmp trap(inform)来实现, openview network node manager 正是采取以上方法的 ip 管理平台,通
27、过合理的设置轮询的周期 来有效的监控网络故障,同时通过图形化的手段直观地展现故障及对于运行的影响。除了以上提 到的 snmp 方式之外,某些网络设备,例如 cisco 设备,可以将运行日志 syslog 写在某台主机上, 所以可以通过分析 syslog 的方法来了解网络设备的运行状况。openview smart-plug-in for data network devices 通过对于常见的数据网络设备的运行日志文件定制管理模板,从中提取故障事件。 故障事件数据处理:故障事件数据处理: 由于网络管理涉及的管理对象分布广泛,如何在大量的故障信息中获取有价值的信息将会是网 关系统的重要工作,所以
28、作为一个网管系统,事件信息的过滤和关联是相当重要的一个功能。本 方案中所有的重大网络故障信息将统一的集成到 openview operation manager 的综合处理平台上, openview operation manager 提供了完善的事件过滤功能,例如对于通过显示该事件的始发时间, 最终发生时间以及重复次数将大量的重复事件压缩到一条;与此同时,openview network node manager 和 operation manager 提供的事件关联引擎有效的关联处理一些常见的网络故障,例如: 连接设备失效,定期的维护,重复的网络报警、成对的报警事件等关联逻辑。 故障信息的
29、展现:故障信息的展现: 这里包括了多级别报警,故障在图形化界面上的显示以及由故障触发一些通知的手段组成。 openview 提供了基于 java 的故障管理客户端,使得操作员可以通过远程登录了解到目前的运 行状况,同时 openview 也提供了事件触发的手段,例如可通过配置在重大事件发生时拨打呼机、 email 或短消息(需短信网关支持)通知网络管理员。 对于性能管理的方面,建议以 openview network node manager 为采集平台,通过 nnm 的 data collection & threshold alarming 进行 snmp 数据采集和在此基础上的阈值报警,
30、其 snmp 数据采集 可定时倒入其数据仓库(通用关系型数据库,可以是 nnm 内置数据库,oracle 或 sql server),这 些数据将被汇总和调整。事实上,包括端口流量,误码率,路由表,帧和字节数的统计等等都可 通过 snmp 的采集取得,而且 network node manager 事先已经配置好了一系列的 data collection, 包括端口利用率、节点响应时间等等。 openview network node manager 数据仓库包括了一个开放的结构,允许报告和数据精简工具 的存取,历史数据的分析功能使得网络经理们可以防患于未然地维护网络的正常运行。同时数据 仓库
31、中的数据可以在 nnm 中以图表的方式显示,以供管理者分析网络的状态和趋势。 3.3.系统监控系统监控有代理方式有代理方式 3.3.1. 系统管理系统管理 系统故系统故障管理障管理 建议采用 openview operations 实现系统故障管理。 利用 openview operations 可以对某某公司的系统中主机的运行状况进行监控,使系统管理人 员及时了解服务器的重要资源和参数运行状况,出现故障时迅速报警,并可自动采取措施排除故 障,保证关键服务器的可用性和可靠性。 openview operations 是 manager/agent 管理结构:管理中心安装 openview op
32、erations manager,被管理系统上安装 openview operations agent,其中 agent(代理)是智能型的和主动的, 能够实施策略并协调与 manager 的关系:它们监控事件和状态,提供配置、管理服务的接口。 ovo 的 agent 是智能的即在网络不通或者是管理站 down 机的情况下,可以不经上报管理站,直接 在本地自动采取相应的行动解决故障。 在管理中心安装好 operations manager 后,agent 可通过网络自动分发到被管理系统。 openview operations 对系统资源及日志的管理功能包括: 1.监控操作系统运行参数监控操作系
33、统运行参数 可实时监控所有安装该模块的被管理系统的以下运行参数: cpu 利用率,显示系统、用户、空闲时间的百分比; 交换空间利用率; 文件系统使用情况,如:磁盘空间利用率、文件大小等; i/o 的使用情况 并可根据需要定义参数的报警门限,当某参数超过门限值时,agent 向管理中心产生报警信息, 并自动执行用户预定义的动作。 2.监控监控用户自定义的性能参数用户自定义的性能参数 用户可以利用 openview operations 定义自己感兴趣的一些性能参数,如:服务器上某-网卡端 口速率在 7m 以上的时间,并可根据自己的需要定义参数的报警门限,当某参数超过门限值时, agent 向管理
34、中心产生报警信息,并自动执行用户预定义的动作。 3.监控操作系统关键日志文件监控操作系统关键日志文件 通过 openview operations agent,可实时跟踪所有安装该模块的被管理系统的任意日志文件的 变化情况,利用该功能,可跟踪操作系统、数据库及用户应用系统的日志文件,当日志文件中出 现的用户所需的特定信息,判断目前系统的运行状况,自动执行用户预定义的动作,从而实现对 操作系统、数据库及应用系统运行的动态监控。同时向管理中心产生报警信息。 4.监控用户自定义日志文件监控用户自定义日志文件 openview operations agent 不但可监控操作系统的特定日志文件,用户还
35、可以在被管理系统上 自己定义并生成一些自己感兴趣的日志文件,如:某些特定操作记录、某些应用程序输出结果等。 通过 openview operations agent 跟踪所有被管理系统上的这些日志文件的变化情况,当日志文件 中出现的用户所需的信息时,自动执行用户预定义的动作,同时向管理中心产生报警信息。这样 一来用户可灵活定制用户自己的管理策略。 5.监控主要的配置文件监控主要的配置文件 可对客户指定的配置文件进行监控,当配置文件被修改后,产生告警,并且可将修改的部分 记录下来,如增加了哪些还是删除了那些。 6.监控用户指定的进程监控用户指定的进程 通过 openview operations
36、 agent,可实时跟踪所有安装该模块的被管理系统的任意关键进程和 服务的运行状态,利用该功能,可跟踪操作系统、数据库及用户应用系统的进程和服务,当这些 进程和服务出现故障或停止时,则立即向管理中心产生报警信息并自动执行预定义的动作,如自 动恢复进程和服务的运行。例如:当某台 web 服务器上的 http 进程突然停止了,agent 监控到 这一信息后,自动向管理中心报警,并执行系统命令重起 http 进程。 系统性能管理系统性能管理 对于某某公司中的关键服务器系统资源,如 cpu,disk,memory,network 的使用情 况、性能参数如何,是否满足业务发展需要等,也是管理所实现的重要
37、内容。openview performance 软件模块,提供给某某公司一个端到端性能管理的强有力解决方案。其中 openview performance manager 安装在管理中心,是一个集中的性能管理控制台。它提供一个统一的图形界 面和一个公用的方法,用于集中监视、分析、比较、预测系统资源利用情况测量数据(即性能数 据)。openview performance agent 安装在被管理系统上,系统资源利用情况的测量数据(性能数 据)就是由 agent 收集的。同时通过 ovpm 可以对将来的数据进行预测:即根据原来的历史数据可 以粗步预测将来的性能走势。 openview perfo
38、rmance 在以下两个主要领域提供功能强大的性能管理能力: it 资源规划和服务管理资源规划和服务管理 openview performance 解决方案,提供了 it 资源运行情况的历史性能数据,这些性能数据是 it 计划活动之关键。performance agent 带有专利智能收集技术,安装在分布式 it 环境的具体系统 上。它从应用软件、数据库、网络和操作系统,收集广泛的资源和性能测量数据。performance agent 对这些数据进行汇总,为这些数据打上时间标记,并将这些数据记录到 performance agent 所在的本地系统上。performance agent 还提供
39、一条途径,来跟踪端到端应用软件响应时间:它可 利用 application response measurement(arm*,应用程序响应时间测量)规范,来进行应用程序响应 时间测量,监控关键客户机/服务器应用程序的性能。 使用 performance agent 历史性能数据,performance manager 管理控制台使得对资源使用率和 性能趋势的检测和了解成为可能。通过这种检测和了解,你可以发现导致性能不足的瓶颈问题, 并且你可以对你的 it 资源进行规划,以确保业务的性能要求得到满足。通过比较系统活动级别, 可以平衡工作负载,以使现有设备得到最优使用。performance a
40、gent 数据还可以被输出,以用于 容量计划(capacity planning)、统计分析和电子表格应用。 it 可用性管理和问题解决可用性管理和问题解决 performance agent 不断地监视其数据,以探测意外性能情况。意外性能情况可能基于某个推 测,或基于若干准则的结合,可以使用阈值和持续时间来定义。例如可以定义,当一个客户/服务 器应用程序的响应时间超过了一个预先定义的域值(或者当 cpu 使用率保持在 75以上,而等待 队列长度大于 3,且持续 5 分钟以上),就发生一个意外性能情况。每当 performance agent 探查 到一个意外情况,就产生一个报警消息。 per
41、formance manager 管理控台接收并维护 performance agent 报警信息列表,这些消息可发生 于网络的任何地方。要获知关于某个报警的更多信息,选中该报警信息,performance manager 就 会自动给出描述该意外性能情况的一张图和数值数据。这为你提供了对有关 it 性能计量的一个与 时间相关的管理信息视图,从而提供对慢速响应时间的原因诊断。同时当收到警报信息时, performance manager 可自动启动预定义的本地动作,如发电传或电子邮件信息等。 openview performance 所监控的性能参数包括: cpu 性能相关管理参数性能相关管理
42、参数 cpu 使用率以及用户活动 cpu 中运行的队列长度、系统呼叫次数 cpu 运行在用户态的百分比 cpu 处于空闲状态的百分比 磁盘性能相关管理参数磁盘性能相关管理参数 硬盘的忙碌程度 硬盘忙碌期间的平均队列长度 可以进行页面交换的空闲磁盘块 文件系统容量及文件系统空间利用率 磁盘使用率与用户、虚拟内存 每逻辑卷的读写、次数与 i/o 速率 内存性能相关管理参数内存性能相关管理参数 每秒钟页面调入和调出数量 系统与用户进程对可用物理内存的使用率 物理、可用内存 调入和调出错误、交换 i/o、虚拟内存读写与高速缓存容量 进程性能相关管理参数进程性能相关管理参数 进程与主进程识别号码、 进程
43、运行优先选项、用户名、 进程的 cpu 使用率、磁盘 i/o 速率、内存使用情况 进程驻留集大小与进程等待的资源 等待运行进程队列长度、可运行态进程运行队列长度 用户程序运行状况管理参数用户程序运行状况管理参数 应用的 cpu、i/o 与虚拟内存使用率 应用的进程数量、进程等待状态以及总体进程运行周期 应用活动进程数量与主要错误 应用的交易名称、次数、平均响应时间、响应时间参数分布与失败交易数 网络流量网络流量 主机网络的 i/0 主机网络的收包率 主机网络的发包率 主机网络的冲突率 主机网络的错误率 nfs 调用率 3.3.2. 数据库监控数据库监控 对数据库的采集,openview 有专门
44、针对数据库的智能插件 dbspi 来完成对数据库的管理。 它也是预先就做好了对各种数据库采集和监控的模板,简化管理员的工作。 dbspi 插件安装后即可投入使用,只需要极少的配置,通过分散在各处的 it 人员的协同努 力就可提供服务。管理应用或数据库的数据收集需求将会预定义,而更正操作(操作员激活或自 动激活)可以预先设置。此外,ovo 提供的诊断报告和图表用于提供故障发生时的状态信息,同 时为未来的分析提供趋势和历史数据。这些缺省设置可由 it 工作人员进行设置,以提供满足该机 构特定需求的特定信息。 对于缺省 dbspi 没有提供的 kpi,可以通过简单的二次开发实现,dbspi 可以通过
45、标准的 sql 语句进行扩展,不需要用户掌握另外的私有开发语言。 我们推荐采用 hp openview smart plug in for oracle/db2/informix 实现对数据库的管理功 能。它是网络系统管理平台 hp openview operations 上的插接件,提供对分布在企业范围的、多 厂商环境的 oracle/db2/informix 数据库集中的监视、控制与管理。其主要功能有:监视数据库的 状态、cpu 利用率、数据库空间使用率、数据进程数目、数据库连接数目、缓冲区命中率、锁状 态、数据库日志等。 如果状态出现问题,可以给数据库操作员报警并关联预定义的校正或预防动
46、作。这些动作包 括:启动和停止数据库服务器;输入/输出数据;归档/存储数据;执行 sql 的启动,停止,状态, 和日志文件工具;配置参数文件等。 采集,分析,过滤,监视数据库的表空间,碎片情况。连续监控数据库表剩余空间并与预定 义的阈值比较。以图和报表的方式显示任何数据库实例和相关的可用资源的历史和实时信息,包 括:显示数据库用户,交易,共享内存,和其它的实例的摘要信息;显示分配的表空间,自由空 间和碎片;计和缓冲区效率统计;会话和 sql 活动;等待状况;优化器效率。 可对数据库的资源状况进行分析: 为数据库提供不间断的监测。其中包括自动发现环境,在监测到潜在的问题或错误 时发生警告和警报,
47、在适当的情况下执行自动纠正例程,当需要立即管理时,与先 进的通知系统接口以获取远程消息。 在被授权的情况下,通过分配最大的可用空间来调整增长的数据库对象的大小,从 而避免空间不足的问题影响用户生产率。 为有关恢复或用户定义操作的报告提供解释数据点。管理员可以通过一个本地数据 点快速地检索关于参数值、历史和警报的更详细的上下文数据。自动测量档案目的 设备上的可用自由空间量,并确定适合于剩余空间的档案日志数量。为维护充足的 档案容量提供有价值的管理效率。 跟踪在为服务器实例指定的时间段内发生的存取连锁行的次数。 跟踪在每个轮询期间等待阻塞恢复的比率,它为数据库性能提供了一个关键的基准 数据。高的等
48、待率表明存在潜在的表冲突问题。 监测缓冲区命中率,显示了读取数据缓存的操作与全部读操作的比率。 3.3.3. 中间件监控中间件监控 对中间件的采集,openview 有专门针对中间件的智能插件来完成对中间件的管理。它也是 预先就做好了对各种中间件采集和监控的模板,简化管理员的工作。 hp openview smart-plug-in for websphere 管理套件实现对于 websphere 中间件系统的数据采 集和管理。 具体监控的参数主要有以下几方面: 可用性 包括:应用服务器状态、管理服务器状态 应用服务器的性能 包括: jvm 内存使用情况、缓冲区线程请况等 ejb 包括: ej
49、b pool 使用请况包括命中率、ejb 的平均响应时间、ejb 的调用情况包括从数 据库导入导出的频率等 servlets 包括: session 的平均存活时间、session 接入和有效的情况 web application 包括: 每秒 servlet 的请求、servlet 的平均响应时间、每秒 servlet 的错误、web application 每分钟导入或重新导入 servlet 的数量 jdbc 包括: jdbc 连接池的连接数、等待连接的线程数、客户等待连接的平均时间、连接池 使用情况、客户等待连接超时数、连接池的处理量 事务(transaction) 包括: 全局和本地
50、事务的期限、本地事务提交的平均期限、全局和本地事务的回滚、 超时和提交数等。 3.3.4. 相关产品的特点相关产品的特点 数据采集方面数据采集方面 ovo 主要通过 agent 实现 it 系统网管系统的数据采集功能,其中包括对主机、数据库、中间 件、业务应用对象,实现告警数据、和性能数据的采集。通过 ovo agent 及其扩展功能,ovo 的 数据采集具有一下特点: 高效性高效性 所有的数据采集都通过 ovo 的 agent 进行,其中对主机和网络的采集是系统缺省的功能,根 据 hp 公司长期研发操作系统的经验,所有的采集都是发生在系统内核级的,因此能够保证其高效 性。对主机系统的采集 5
51、00 多个参数,占用 cpu 资源可以保持在 1以下。 同时对于采集对象,ovo 会合理安排采集时间,例如有 100 个指标是要求 5 分钟采集一次的, ovo 会计算将这 100 个采集任务分布在 5 分钟的时间间隔中,而不会到一个时间点统一采集,这 样可以避免对系统造成不必要的压力。 完备性完备性 通过 ovo 的 agent 可以采集所有被管设备的信息,包括系统缺省的和二次开发的,并且支持 对业务性能数据的补采和重采机制。同时 agent 和网管服务器之间的通信机制采用安全加密的 https 协议,杜绝了 snmp 协议可能造成的数据丢失(snmp 采用 udp 协议,是一种不建立连接的
52、 协议,不能发现数据丢失),当数据传输错误时,系统会主动要求重新发送。 实时性实时性 对于告警数据,要求很高的实时性,以保证能够尽快的发现故障,对于网络设备,我们要求 所有的网元将 trap 地址指向网管服务器以达到实时处理的目的。在 ovo 内部,对告警信息和性 能信息采用不同的处理流程,告警的所有信息都是先处理、后入库的,对告警的过滤、关联、匹 配等都是在内存中进行的。 开放性和标准化开放性和标准化 ovo 的采集可以使用被管平台支持的任意语言进行能力的扩展,具有开放的 sdk,用户可以 使用任何语言扩展其功能,而不局限于网管厂家所提供的私有语言,openview 具有专门的开发人 员论坛
53、,所有系统都是完全开放的,最典型的是 hp 开放所有的数据库模式,用户可以任意进行二 次开发,目前 openview 在世界上有 3000 多家合作伙伴在其上开发应用。 openview 内部使用完全标准化的协议(https)、使用标准的开放数据库,遵从国际电联告警 格式的标准化。 告警展示与操作方面告警展示与操作方面 在 ovo 中,可以将告警分配给属于不同角色(messagegroup)的人员,当维护人员查看告 警列表时,只是显示分配给他的告警消息。对管理人员显示对业务影响较为严重的告警和告警处 理记录。 故障监控提供图形化的管理界面,实现对业务支撑系统和网管系统自身的统一监测和集中展 现
54、,保障业务支撑系统和网管系统的正常运行。图形界面主要包括: 告警列表(alarm browser):以滚动列表的方式动态的显示当前活动告警消息。 告警面板(dashboard):以饼图、直方图等方式统计显示当前所有的活动告警。 业务拓扑图和综合树图:通过将告警消息映射到业务拓扑图上的节点,可以直观、综合的、 全局的了解告警影响的范围和告警的根原因。 显示的告警字段可以用户自定义,系统默认的为严重级别、重复次数、接收到的时间、告警 源、接收消息组、消息产生对象,消息正文。用户可以增减字段,操作完成后可以立即生效。 告警监视界面应能显示所有的活动告警事件,每条告警事件以不同的颜色标识相应的告警级
55、别。告警事件的颜色标识与业务拓扑图显示保持一致。并以适当的颜色表示。 拓扑应用方面拓扑应用方面 ovo 针对运维人员对浏览、监控的不同的侧重层次以及被管理对象本身所具有的不同自然属 性,使用应用拓扑视图,被管理的对象在视图中用一个对应该对象类型的图标显示出来,随着该 被管对象的状态改变,图标的颜色也随之改变,用户可以一目了然的发现出故障的节点。 hp 服务模型系统中使用 hp openview service navigator 进行应用拓扑的展示。 hp openview service navigator 是 hp openview operations 基于 java 操作员 gui 的
56、一个外 接组件。当 operations 检测、解决和阻止您 it 工作环境中的网络、系统和应用程序中出现的问题 时, service navigator 会带您采取进一步的行动。 service navigator 会让您把 ovo 发现的问题 映射给您要监视的 it 服务。您无须专注于复杂的 it 工作环境中的单个元素,只要通过专注于您 负责的 it 服务就可管理 it 工作环境。 service navigator 基于 ovo 并依赖于 ovo 提供的监视、消息和动作能力。如果 ovo 管理的 一个对象上出现了问题,就会生成关于这个问题的消息并发送给负责相关区域的用户。安装和配 置了
57、service navigator 之后,该信息就映射给受到问题影响的服务,然后发送给负责那项服务的 用户。 问题的严重级别状态也会改变服务的严重级别状态,因此用户能容易地识别出有问题的服务。 为解决与服务相关的问题, ovo 的问题解决能力已进一步扩展到包括特定服务分析操作和动作。 可以根据服务节点间的依赖关系,有助于您在服务性能损坏之前快速识别并解决影响服务程序的 最关键问题。 使用使用 service navigator 处理问题有两种方法:处理问题有两种方法: 传统的方法是观察进入消息浏览器的信息,然后突出显示受到影响的服务并做受影响服 务分析以找出是哪个服务程序受到了影响。 遵循服务
58、导向的自上而下的方法:打开 service graph 并监视显示的服务程序的状态; 当服务程序的状态改变了,做根原因分析以找出产生问题的根源所在。 受影响服务分析功能受影响服务分析功能: 通过自下而上的分析,给出底层服务节点发生故障情况下,所有受影响的服务情况。该功能 可以帮助操作人员决定解决问题的优先次序。 根原因定位功能根原因定位功能: 该功能帮助操作人员在一个复杂的含有多个级别的服务层次中快速定位出影响服务正常运行 的根源,是因为该服务自身的故障还是一个重要的子服务或是几个子服务出现故障。 “根原因分析”执行自上而下的检查,它停在问题产生的服务层次级。 业务视图角色权限控制功能业务视图
59、角色权限控制功能: service navigator 中展现的业务视图是根据用户的角色或权限范围的不同而只展示用户关注 部分的业务视图。这让用户既无须专注于被管理系统中的单一对象,也无须为被管系统中众多的 业务而分心,而只要专注于其所负责的部分就可以有效的进行管理。 动态服务标签功能动态服务标签功能: 业务视图中的每个服务都通过一个标签来识别。通常这个标签就是服务的名称。service navigator 中为了方便用户监视服务的重要信息(关键性能指标等),可以附加文本或图像标签在 服务图标下方实时动态的显示。 例如: 服务动作功能服务动作功能: service naviagtor 不仅提供
60、了强大的监控功能,还提供了方便的扩展管理接口服务动作扩 展接口。可以把服务的管理工具直接集成到业务视图中。这样可以从业务视图中直接启动服务的 管理工具(比如相应业务厂商提供的管理工具软件),查看/修改服务的配置信息,浏览性能指标, 管理活动/历史故障记录等。 可以被集成的服务管理工具,不仅可以在服务运行节点上运行,也可以在管理服务器节点上 运行,甚至在任意一个指定的节点上运行。例如,直接在业务视图中执行“服务重启”动作后的结果 输出窗口。该动作在服务运行节点上运行。 服务可用性报表服务可用性报表: 该功能被启用,系统可以生成服务的可用性报表。 3.4.系统监控系统监控无代理方式无代理方式 si
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 线上医疗服务平台
- 课件修水教学课件
- 《阿塔吾拉》课件
- 个人经营性贷款合同 2篇
- 三下语文26课教学课件教学课件教学
- 2024版分包给排水工程安全责任合同2篇
- 《和子女沟通技巧》课件
- 全新餐饮合作协议合同范本下载
- 2024年度建筑工程设计与施工合作协议2篇
- 《销售心理学培训》课件
- 水平定向钻施工技术培训的讲义课件
- 骆驼的抗沙标配(2020新疆中考说明文阅读试题含答案)
- 铁路客运员(初级)理论考试复习题库汇总(含答案)
- 银行信贷业务中的法律风险防范与控制
- 高中化学-探究亚铁盐和铁盐的性质及转化教学设计学情分析教材分析课后反思
- 空气压缩机技术规范标准
- 铜及铜合金物理冶金基础-相图、紫铜
- 国家有关安全生产的方针政策法律法规
- 《临床输血技术规范》之输血指南
- 色彩的三属性与色立体
- 大国工匠彭祥华PPT
评论
0/150
提交评论