运维管理解决方案_第1页
运维管理解决方案_第2页
运维管理解决方案_第3页
运维管理解决方案_第4页
运维管理解决方案_第5页
已阅读5页,还剩228页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

运维管理解决方案运维管理解决方案运维管理解决方案运维管理解决方案目录TOC\o"1-1"\h\z\u\h1概述 6\h2需求分析 7 2.1 总体需求分析7 2.2 监控管理72.2.1监控对象分析72.2.2集中故障管理72.2.3资源配置管理82.3 服务管理93解决方案概述11 3.1 建设路线11 3.2 产品选型113.2.1监控管理113.2.2服务管理17 3.3 部署方案233.3.1软硬件部署233.3.2组网方案24监控管理解决方案26技术架构26系统逻辑结构26数据展现层26数据处理层27数据采集层28系统自管理29采集源30外部接口30系统软件模块30数据处理流程说明32功能架构37监控管理平台37监控管理专题83业务监控110服务管理解决方案127事件管理128工作台128事件管理流程129事件处理流程图134变更管理134变更请求135变更评估135变更审批136变更实施137回顾和关闭139知识库管理139知识的来源140知识库维护140知识检索和使用141值班管理141排班管理142值班日志管理144交接班管理145机房进出记录145运维管理系统接口实现方案146告警接口146配置资源接口149解决方案特点与优势151网络管理方案的特点和优势151全面、深入的监控和管理手段1517.1.2稳定、灵活扩展的网管平台151统一的平台监控和业务监控152有效的告警处理机制152运维管理方案的特点和优势153统一的运维管理系统153对ITIL理念的深刻理解和人才储备153市场占有率第一的电子运维软件平台154与本土实践经验的完美结合154图表目录155

1概述某建设投资营运有限公司(以下简称为“xx”),是面向某交通领域,集投资、建设、运营为一体的高科技公司。xx专注于xx化平台技术开发,xx网络系统的建设、营运,计算机信息系统集成,软件开发以及智能卡相关产品的开发、应用,建设了包括调度平台、综合管理平台、出租车管理系统等在内的面向交通领域的应用系统,为某市城市交通的发展做出了积极的贡献。伴随着xx化平台给交通管理工作带来的巨大支撑,相关的信息化平台已经成为交通管理不可缺少的有力工具。因此,通过建设一套运维管理系统,保障包括调度平台、综合管理平台、出租车管理系统、内部行政网络等在内的信息化平台的IT基础架构以及业务应用系统稳定、可靠的运行,为交通管理工作提供持续、有效的支撑,成为xx迫切的需求。

2需求分析2.1现状分析2.1.1资源配置管理资源作为运维管理的核心内容,在运维建设当中需要对资源进行管理,具体包括:针对服务器、网络设备、数据库、中间件及业务系统等的资源数据采集。创建资源管理数据库。资源数据的统计分析功能。资源管理与故障管理的关联分析。我方认为有必要在本项目中建设一套完备的配置管理数据库(遵循ITIL规范中相关描述,即资源管理数据库)。在其中定义和记录各种被管理资源对象实例和相关属性信息,并定义和记录各被管理资源对象间的关联关系。我方认为本项目中至少应提供以下资源配置管理功能:提供自动发现工具,能够自动采集各种被管理对象的资源配置数据,形成资源配置数据库的基础数据。提供面向对象的资源配置数据结构,能够将各种被管理对象的实例信息和属性信息进行对象化存储,并能够定义各种被管理对象间的关联关系(诸如连接关系、父子关系等)。提供图形化界面对资源配置数据进行后台数据结构和资源配置数据的维护与管理。能够灵活的扩展资源类和资源属性,能够添加、删除、修改各种资源属性数据。提供资源数据批量导入接口。能够根据资源对象自身属性、资源对象与资源对象间的关联关系等自动对故障级别进行基于预设策略的调整。如对于重要的核心服务器设备自动提高告警级别、对于双机系统中的非关键故障自动降低告警级别等。提供资源数据条件查询功能和资源统计分析报表功能,帮助运维人员充分了解当前IT系统中各类被管理资源对象的状况。我方认为资源配置数据库必须作为整个解决方案的基础来进行重点建设。无论故障管理模块根据资源属性和资源关联关系进行自动的故障级别调整,还是性能管理模块基于资源对象模型进行指标体系建模,都需要依赖于资源配置管理数据库中的数据结构和基础数据。2.2服务管理某建设投资运营有限公司以服务某为宗旨,利用现代信息技术手段改造传统的交通产业,为某市城市交通的发展做出了贡献。在企业内部信息化建设的同时,企业信息化的管理同样需要规范化的指导和电子化的工作方式。ITSM是基于ITIL理论指导的IT服务管理最佳实践。在IT服务管理建设中利用ITIL的服务流程处理日常工作任务,可以大大减少企业IT运营的成本,提企业IT运营的效率。在本项目建设中,我方将实施ITSM中的事件管理流程以满足IT系统及终端的故障处理,实现故障的申报、处理、完成和关闭。利用ITIL理论中故障事件处理的升级机制和闭环原则,实现故障处理过程中人员的合理配置,同时保证故障处理的完整性,从而提升IT运维部门及企业的价值。在本期项目中我方还建议用户建立变更管理流程,以实现如日常软件升级及版本更新的流程电子化。同时建立知识库和值班管理已满足用户日常维护工作的需要,提升工作效率。3解决方案概述3.1建设路线对于XX运维管理工程建设,包含了系统监控管理平台和服务管理平台,其中:监控管理体系负责监控各种网络设备、主机、数据库、中间件、业务应用的资源配置采集和调度、配置变更报告、运行状态监控、性能参数收集、事件分析和关联、告警处理和前转等。本管理体系包括拓扑展现、故障管理、性能管理、资源管理、用户模拟体验等监控管理功能。服务管理实施ITSM中的事件管理流程以满足IT系统及终端的故障处理,实现故障的申报、处理、完成和关闭。利用ITIL理论中故障事件处理的升级机制和闭环原则,实现故障处理过程中人员的合理配置,同时保证故障处理的完整性,从而提升IT运维部门及企业的价值。监控管理平台和服务管理平台通过告警接口实现对故障的申报、处理、完成和关闭。3.2产品选型3.2.1监控管理软件选型Ultra-NMS采用Java语言开发,其产品模块均可以跨平台部署,能够支持Windows、Linux、AIX、HP-UX、Solaris等各种操作系统,可以广泛的支持大中小各种规模的企业。在网管的软件选型方面,我们推荐采用BMCPerformanceManager和神州泰岳Ultra-NMS的组合。Ultra-NMS采用Java语言开发和J2EE架构,中间件采用JBOSS,数据库采用Oracle,而Web服务器采用Apache;BMCPerformanceManager采用C语言开发,执行效率高、系统影响小,在部署时不需要其他的第三方软件支持。其中BMCPerformanceManager作为分布式监控代理程序,被广泛的部署在各个被管理服务器上,负责监控操作系统、数据库、中间件和应用;Ultra-NMS作为集中网管平台,通过Probe进行采集BPM提供的系统平台的监控数据、网络设备监控数据和桌面监控数据,Ultra-NMSServer进行各种数据处理,Ultra-NMSClient和Report进行数据展现。采用这样的产品选型,具有如下优势:灵活的部署Ultra-NMS可以支持灵活的部署模式,包括两级部署、三级部署、混合部署,甚至可以支持部署模式的变化,能够适应不同的用户在不同阶段的管理需求。无论采用什么部署模式对于BMCPerformanceManager是没有影响的。Ultra-NMS支持各种Unix、Linux和Windows,对于硬件和操作系统没有依赖性,这样使得xx在对服务器选型时可以不受限制,这不仅有利于新增设备的采购,而且有利于原有服务器设备的利旧。广泛的认可Ultra-NMS是成熟的产品化的网管平台,其一个产品相当于国外产品的多个产品组合,是目前最优的网管平台产品。目前已经在电力、石油、电信、金融、政府、媒体等各种行业中广泛使用。优秀的监控代理BMCPerformanceManager在安装监控代理时,对操作系统没有特殊要求,不需要额外安装系统补丁,对业务系统几乎没有影响。BMCPerformanceManager产品线齐全,支持各类主流平台系统与数据库系统,如AIX、Solaris、HP-UX、Tru64、Windows和Linux;Oracle、DB2、Informix、Sybase、SQLServer等;BMCPerformanceManager产品提供对各种主流中间件,如Tuxedo、Weblogic、WebSphere、MQ的监控管理。可扩展性强:BMCPerformanceManager管理功能的实现是取决于各个KM,而每个KM是采用PSL(PatrolScriptLanguage)脚本语言编写而成的,PSL脚本语言编写采用明码方式,类似UNIX系统中的脚本语言或C语言。PerformanceManager自身提供KM的开发机制,这样无论是学习KM的实现方式、扩展KM的管理功能、或新编写KM都是比较容易完成的工作。而所有扩展的KM与PerformanceManager自带的KM工作方式完全一致。采集方式统一:PerformanceManager的每项管理指标的实现均由不同的KM完成,通过在不同的主机上加载相关的KM,实现管理目标。处理方式统一:PerformanceManager采用了单一Agent技术,所有KM以插件方式load到指定的Agent上,由PerformanceManager根据定义好的轮询策略,定时采集相关KPI指标的值或状态,并统一存放在被管服务器指定位置,在打开PerformanceManagerConsole连接相应Agent时,将存放在被管服务器得到数据进行展现,同时,BMCPerformanceManager提供统一的历史数据处理功能,在每个Agent端内置有DataRetriever模块,该模块定时将Agent采集到的数据发送到安装了PerformanceManagerReportingDataAggregator模块的服务器,并通过该组件将数据存入PerformanceManagerReporting产品所在的Oracle数据库中。展现方式统一:PerformanceManagerConsole采用了统一的左树右图的方式展现所有KPI指标,同时可以针对不同指标的特点选用折线、柱图、表盘等方式展现数据,可以在图表上显示不同级别的告警门限,也可以通过定义管理夹的方式对KPI指标根据实际运维使用习惯进行重新整理,将不同机器的相同KPI指标同时放在右侧的Panel中统一展示,以进行快速的比较,也可以将同一机器中的相关KPI指标在同一Panel中展示,以迅速定位性能瓶颈。调度方式统一:由于规范中对不同KPI指标要求的数据采集最大时间间隔不同,同时在实际项目中,也会经常调整采集频率,PerformanceManagerConsole提供图形化界面,方便的定义和修改采集间隔。通讯加密:PerformanceManagerConsole与Agent之间的通讯可以采用加密算法,并且随用户需求不同可以选择高、中、低三种不同的加密算法。数据保存:PerformanceManagerAgent在本机采集数据后,会将数据保存在本地,以实现对历史性能数据的重采、补采机制。Agent间连通性测量:维护人员经常需要了解设备间的连通性,如采集机和服务器之间连通性,PerformanceManager产品默认能够提供监测本机与其它设备连通性测试功能。资源占用:由于PerformanceManager采用了单一Agent、单一进程的技术,CPU和内存占用都很低,正常状态下CPU占用不超过2%,内存占用不超过25M。自动分发:PerformanceManager中提供DistributionServer组件,通过该组件能够自动向指定的被管服务器批量分发PerformanceManagerforServers、PerformanceManagerforDatabase等软件,无需进行人工干预即可完成产品的安装工作统一的配置服务Ultra-NMS基于先进的资源建模的技术上实现CMDB,不仅能够记录IT基础架构中的各个实体对象,而且能够创建虚类,管理各种虚对象,完整的记录所有的配置项ConfigurationItem(CI)和它们之间的关系,让用户对现有的IT基础架构有最完整和全面的了解。Ultra-NMS中的资源管理不是仅仅为了记录配置数据而建立CMDB,而是建立了CMDB后能够为网管内部其它模块和外部其它系统提供有效的配置服务,包括:配置数据一致性检查:虽然建立CMDB非常复杂,但是对于CMDB中海量的配置数据与现实环境中的配置数据的一致性检查更加复杂。Ultra-NMS能够定义自动化的配置采集和调度任务,时刻监控现实环境中配置变化,及时更新CMDB中的配置数据。当现实环境中配置发生变更时,记录配置项的变化历史,同时提供配置变更告警,提示管理员关注。面向故障管理提供配置服务:配置管理数据库CMDB中记录着很多有价值的信息,例如负责人、负责部门、地理位置、重要程度等信息,而这些信息是在故障管理的告警中必须体现,但是单纯依赖故障管理又很难实现的。Ultra-NMS开发出故障管理配置服务技术,能够在原始的故障事件中,自动增加相应的配置信息,实现人性化的故障告警,并且智能的定义故障告警的级别,为故障管理提供有效的支持。面向性能管理提供配置服务:性能管理中,Ultra-NMS没有象其它的产品那样简单的基于每个性能指标开发功能,而是建立了KBP/KPI的指标体系,其中KBP就是资源管理CMDB中的配置项CI,这大大增加了性能管理的可扩展性和实用性。面向服务台提供配置服务:在所有的运维管理系统中,都需要部署服务台和网络系统管理,这二者都需要建立CMDB,现在大部分的系统都是分别建立CMDB,这样不仅仅是造成重复建设,而且会造成数据的不一致和冲突。Ultra-NMS的配置服务技术不需要服务台自己建设CMDB,可以由Ultra-NMS直接向服务台提供配置数据和信息,实时提供最准确的配置项的属性信息,形成完美的运维管理方案,降低运维管理的成本,提高运维管理的水平。配置数据报表:配置服务还可以向运维管理门户提供报表数据,为运维分析提供配运维管理解决方案运维管理解决方案置管理方面的基础数据。有效提炼信息信息提炼就是对采集的数据进行处理后形成有用信息的过程。在故障管理中,Ultra-NMS采集到的事件需要通过标准化、分类、合并压制、过滤、相关性分析、前转、升级等多级处理后,能够提供有效的故障信息。扩展性附图1.具有扩展性的体系架构神州泰岳总结多年的运维经验,创新的设计出可扩展的体系架构:扩展的数据采集:Ultra-NMS在数据采集方面提供多种接口,包括CORBA、SNMP、JDBC、WebServices、JMS、FTP、MML等,无论业务应用是什么、被管理对象如何变化,只要它有接口,Ultra-NMS就能够采集到数据;扩展的数据处理:Ultra-NMS在采集到数据后,能够灵活的定义、存储和处理各类不同的对象数据,无论业务和指标如何变化,Ultra-NMS均可以完善的整合配置、故障和性能数据;扩展的数据展现:Ultra-NMS的数据展现能够按照客户和业务的需求定义,不仅仅报表能够定制,而且监控的界面、数据展现的形式都能够方便的灵活定义。Ultra-NMS与其它的产品比较,具有更加扩展的管理能力,使得它不仅仅能够像其它的产品一样监控标准的网络设备、操作系统、数据库、中间件和商业化的应用软件,而且能够扩展的监控业务应用。在为客户的项目实施中,收到了非常好的效果,使得这些客户在运维管理方面达到了国内领先、国际一流的水平。运维管理解决方案在主流厂商代理中,BMCBPM具有最强的扩展性,能够方便的扩展监控对象;CAUnicenter虽然能够通过SDK提供一定的可扩展能力,但是需要自定义私有MIB、通过标准C开发新的Agent,开发周期长、稳定度不好保证、对开发者要求高;HPOpenView通过SPI提供一定的可扩展能力,但是SPI实际上只提供一个打包的功能,国内使用SPI开发的案例极少;IBMTivoli基本没有任何的可扩展能力,而新收购的ITM6整合后运行不够稳定,不能满足国内用户的个性化需求。集成性内部集成能力——Ultra-NMS具有很好的内部集成能力,能够提供数据和信息的集成,包括配置与告警的集成、故障与性能的集成、系统信息与业务信息的关联等等。例如:计费业务中,包括预处理、一次批价、二次批价,这其中与系统平台告警和业务应用告警都紧密相关,因此需要关联分析才能得到有用的监控信息。跨厂商集成能力——Ultra-NMS具有跨厂商集成能力,有集成BMC、CA、HP、IBM网管系统的能力和项目经验,也可以提供接口与其它网管系统集成,能够在最大程度上保护现有和未来的投资,为网管系统提供最广泛的选择,确保上下贯通的接口。外部集成能力——Ultra-NMS可与服务管理平台实现双向事件告警集成,包括服务管理平台受理事件后反向确认告警接口、服务管理平台工单执行完毕后清除网管告警接口等;Ultra-NMS可以提供服务管理平台统一CMDB的配置接口;Ultra-NMS可以支持与运维门户之间的统一身份认证的接口。客户化Ultra-NMS具有很强的客户化能力,当用户新提出需求时,具有定制和开发的能力,可以按时按质满足用户的要求。Ultra-NMS产品本身具有足够的扩展性神州泰岳具有本地的定制和开发人员神州泰岳在满足客户化需求方面具有非常丰富的经验业务监控Ultra-NMS能够直接采集业务应用指标,也可以通过主流厂商的代理采集业务应用指标。在主流厂商代理中,BMCBPM提供统一的、完全基于面向对象思想的被管对象模型,提供知识模块KM体系和PSL语言,提供了非常强大的可扩展能力。其它厂商的代理或者运维管理解决方案不具备监控业务能力,或者进行业务监控非常复杂,不推荐采用。如果需要监控业务应用,可以采用BMCBPM或者Ultra-NMS进行采集,然后由Ultra-NMS负责处理和展现。例如,我方在新华社运维系统中,提供对稿件全程流转的监控管理与关联性分析,实现资料采编、加工、共享、审改、签发、广播过程监控,可用管理稿件名称、传输来源、目的、成功/失败、签发人、签发时间等各个关键指标,为其核心业务的畅通提供有力支持。硬件选型根据xx监控对象规模结合我方项目经验,建议监控管理系统:服务器采用1台DellPowerEdge2950,配置2颗双核CPU,4G内存,4*146G硬盘;服务器安装MSWindows2003Server操作系统软件;GSM短信发送模块。3.2.2服务管理Remedy软件.1Remedy概述Remedy是市场占有率最高、最先通过ITIL认证、功能最强大的服务台产品,是最优服务管理流程的电子化支持平台,在ITIL最佳实践经验的指导下,密切结合本地、本行业特定的个性化需求进行定制和二次开发,为将来的深入和扩展留下余地。运维管理解决方案运维管理解决方案附图2.GartnerGroup分析报告从该报告可以看出,从易用性和完整行两个方面综合考虑,Remedy和CA产品排在前面。这也与其市场占有率情况是一致的。.2RemedyARSystem从ITIL和服务管理业务角度看,事件管理和问题管理流程具备不同的特点和要求,区别很大;但是从实现技术角度看,其核心均是记录某类不同信息的表单在不同部门、人员或角色之间流转。“服务管理就是简单的工单管理”、“利用OA工作流软件可以很容易地实现运维流程”等错误认识的根源就在于忽略了业务层面的特点和复杂性、仅从技术层面考虑问题。RemedyARSystem的技术架构为同时支持CSS/BSS的三层架构,如下图所示:客户层RemedyARSystem的客户层不但支持windows用户界面,也支持浏览器Web界面,同时还支持PDA和WAP设备;中间层Mid-Tier中间层主要提供JSP引擎和转换器,允许用户通过Internet访问服务器;服务器层服务器层是整个系统架构中的核心层,主要负责控制工作流以及与数据运维管理解决方案运维管理解决方案库交换数据的工作;数据层数据层主要为服务器层提供数据源和数据存储。附图3.RemedyARSystem结构RemedyARSystem不是通用的工作流引擎,而是专门针对运维支持和客户服务业务开发的。它面向这种业务的特有需求,沉淀吸收了多种易于高效处理业务逻辑的数据结构与算法。其设计思想与实现方式是面向表单的,以表单的流转为核心,而不是以完成事件自动触发为核心的。RemedyARSystem本身是功能强大、灵活、简便易用的服务管理应用开发平台,它采用多层应用程序编写和提交平台,允许管理员在无需了解任何数据库系统知识的情况下建立新的业务流程系统。利用RemedyARSystem进行应用开发,不需要编写任何代码,通过拖拽方式在图形化的管理员界面就能实现。系统管理员在听取和理解业务需求后,可以在Remedy界面上一次完成设计和设置,把业务逻辑和要求直接映射到系统中。这是Remedy与其他服务台系统的本质区别。RemedyARSystem提供类似于VB中的Form的开发界面,允许用户通过拖放对象到工作区的方式来实现界面布局和输入项的设计和开发。随着界面域的拖放操作,随时完成数据表和字段的创建和修正,既不需要“预留字段”、又不需要重启系统。RemedyARSystem提过ActiveLink、Filter、Escalation等对象实现界面逻辑和约束条件的控制、后台业务逻辑驱动等,非常直观、简便。如下功能特点使RemedyARSystem不但大大超越Notes、WebSphere等中间件,而且在服务台产品中也显得鹤立鸡群。运维管理解决方案无需编码的开发方式使用户自行定制和修正流程成为可能Remedy是以工单为核心的工作流引擎,工单和流程的定义无需编写程序代码,是通过GUI界面托拽方式实现的,这使得用户管理员自行定义和修正工单、流程成为可能。实际业务中工单数量众多、界面和流转要求复杂,随着时间和业务的变化,工单的种类会不断增加、要求会不断变化。只有Remedy提供的无需编码的流程定义方式,才能不断调整自己,跟上和适应这种业务的需要。一次定制开发、同时应用于Client和WebRemedy的GUI应用和Web应用都是在统一平台上开发定制出来的,由Remedy自动生成Web执行代码。任何一个Form都可以定制若干个显示风格,然后根据登录人角色的不同显示不同的界面。这样其他服务台产品形成了较为鲜明地对比。强大集成能力AR系统丰富的集成功能使用户能够利用数据库、传统应用程序及其他数据源中宝贵的企业信息。AR系统不仅支持大量与领先的ERP、HR和CRM解决方案通用的现成集成,还提供各类集成接口,如公开的API、ODBC、Web服务等。此外,广泛的Remedy联盟伙伴网可以提供补充的解决方案,从而进一步扩展用户的解决方案。与AR系统集成的方法包括:WebService接口:自行定义的任何过程均可以发布为WebService,与其它系统集成。API服务器端AR系统的API是该方法中最重要的技术。它需要C编程知识。然而,这很强大,并提供对所有AR系统服务器功能使用的能力。它提供与Remedy的高性能紧密集成。命令行接口命令行接口在大多数AR系统客户端工具中都是可用的。这就允许启动一个工具并传递一系列参数,而该工具或者是一个特定的状态并显示一些特别信息或执行一个完整进程后退出而无须有用户界面显示。命令行接口方式用在许多集成项目中。OLE自动控制AR系统用户工具支持MSWindows的OLE自动控制。它可以是自动控制服务器或客户端。这就允许AR系统发送或接收命令或数据到其他的应用。运维管理解决方案动态数据交换AR系统用户工具支持MSWindows的DDE。它可以是DDE服务器或客户端。这就允许AR系统发送或接收命令或数据到其他的应用。运行外部进程在AR系统工作流中提供的动作之一是运行进程。AR系统利用其他应用的命令行接口运行这些应用并传递初始数据。在这些例程中,启动第三方应用的同时在其他应用中AR系统等待一个响应。相关数据库访问AR系统数据库是全开方式的。拥有许可的第三方工具能够访问任何信息。此外,AR系统工作流能够查询数据库以获取数据。ODBC访问,ODBC是微软提供的用于访问SQL数据库。使用RemedyODBC驱动,任何能够通过ODBC进行访问的客户端对于AR系统的窗体内的域都具有只读权限。EmailMessaging在AR系统数据库中,电子邮件能够生成新的记录,也可以根据现有记录状态进行查询。作为一种方式,它也可以用于发送信息。Ultra-ITSM系统软件Ultra-ITSM系统软件是我司吸收ITIL服务管理运维的思想结合多年IT服务管理实施经验,采用国际最先进的流程平台Remedy,在保留Remedy原有特性基础之上预研的IT服务管理流程平台。Ultra-ITSM系统软件不仅符合ITIL标准要求,含ITIL标准的服务台、事件管理、问题管理、变更管理、配置管理等,还在此基础上开发出日常运维管理模块,包括知识库管理、值班管理、作业计划管理,对运维人员的日常工作带来高效便捷。运维管理解决方案运维管理解决方案附图4.Ultra-ITSM系统架构图Ultra-ITSM系统软件具有良好的扩展性,可以根据用户的需求进一步进行个性化定制,满足不同要求不同行业用户的需求。在此期项目中我方建议采用的Ultra-ITSM系统软件模块包括:事件管理、变更管理、知识库管理。硬件设备根据我方项目经验,建议服务管理流程系统采用硬件服务器DELL2950,配置2C,4G,148*4G。3.3部署方案3.3.1软硬件部署硬件部分运维管理解决方案在xx网络机房部署两台DellPowerEdge2950(2颗双核CPU,4G内存,4*146G硬盘,双网卡)分别作为监控管理服务器和服务管理服务器;两台服务器安装MSWindows2003Server操作系统;在监控管理服务器安装GSM短信发送模块;软件部分监控管理系统监控系统监控服务器作为应用/数据库服务器,在其上部署如下软件:1套Ultra-NMSServer1套Ultra-NMSProbe1套Ultra-NMSReportOracle10g标准版数据库软件;部署BMCPerformanceManagerforServers实现对自身的监控;在被管的主机上,部署如下产品:UNIX主机:PATROLforiSeries;Windows、Linux主机:BMCPerformanceManagerforServers;服务管理系统服务管理服务器作为应用/数据库服务器,在其上部署如下软件:BMCRemedyARS服务器软件;UltraITSM事件管理、变更管理、知识库管理模块;Oracle10g标准版数据库软件;MSWindows2003Server操作系统软件3.3.2组网方案我方建议配置的两台DellPowerEdge2950服务器作为集中监控服务器和服务管理服务器,通过双链路分别连接到xx网管交换机上,接入xx的业务网络。运维管理解决方案运维管理解决方案附图5.运维管理系统组网方案图与两台交换机连接可以实现集中监控系统的网络冗余,从而达到提高系统可靠性的目的;调整防火墙策略、路由协议、ACL策略等,使集中监控服务器能够通过网络连接访问本项目所涉及的各类被管理对象为了将监控管理系统的告警及时发送到维护人员的通讯设备终端上,配置了GSM短信模块,与监控管理服务器连接。当有需要发送的告警是,会自动通过GSM短信模块发送到维护人员的通讯设备终端上。从网络安全方案考虑,利用xx现有网络安全设备提供对监控管理系统和服务管理系统的安全防护,并通过VLAN划分、服务器加固等方式提升系统安全性。运维管理解决方案运维管理解决方案4监控管理解决方案4.1技术架构4.1.1系统逻辑结构我方推荐的集中监控系统可以清晰的划分为以下3个层次、6个部分,分别为数据展现层、数据处理层、数据采集层、采集源、系统自身管理和外部接口。附图6.系统逻辑结构示意图4.1.2数据展现层数据展现层主要用于网管平台向最终用户提供人机信息交互,包含了管理控制台和数据报表两个部分。我方推荐的解决方案中,管理控制台采用了基于JavaWebStart技术的C/S运维管理解决方案运维管理解决方案界面,提供了拓扑展现、故障管理、资源管理、性能管理等管理数据查阅和管理策略配置功能;数据报表采用基于JSR168的门户技术进行报表展现组织和发布,并提供了报表订阅、报表模板定义、自动报表生成、报表查询、报表管理等功能。附图7.数据展现层软件模块组成图4.1.3数据处理层数据处理层提供了故障管理、资源管理、性能管理、采集通信适配等功能模块,并提供了资源对象和数据存储两个核心管理逻辑数据库(物理上是一个数据库)。故障管理提供了告警重定义、告警前转、告警传递、告警关联分析、告警处理知识库、告警统计查询等功能模块。结合数据采集层的告警数据预处理模块,完全能够满足本项目对告警数据处理的要求。资源管理提供了资源建模、资源属性维护、资源数据校验、资源对象关联、资源统计查询、资源数据自动采集接口、资源数据手工录入接口、资源数据批量导入接口、资源变更、资源告警等功能模块。性能管理提供了性能指标定义、性能门限设定、性能数据计算、性能数据汇总、性能数据统计查询、性能门限告警等功能模块。通信适配用于同数据采集层间的通信,包括采集策略的下发和采集数据的获取。采用的通信方式包括JMS、RMI等。运维管理解决方案运维管理解决方案附图8.数据处理层软件模块组成图4.1.4数据采集层数据采集层在获取数据处理层下发的数据采集策略后,对各种采集源的数据进行获取和预处理,并提供给数据处理层进行处理。具体包含采集适配层、数据预处理层、采集任务管理层和通信适配共4个部分。采集适配层提供数据采集模块与采集数据源间的数据采集接口适配,主要包括:SNMP采集适配、JDBC/ODBC采集适配、TELNET/SSH采集适配、FTP/TFTP采集适配、SOAP采集适配、SYSLOG采集适配、WMI采集适配、CORBA采集适配、Netflow/Cflowd采集适配、其他采集适配等。数据预处理层对采集适配层获取的数据进行初步的处理,对原始数据进行过滤,并通知采集任务管理层进行必要的数据补采。主要包括:告警预处理、资源预处理、性能预处理和阈值预处理模块。采集任务管理层对来自于数据处理层的采集任务进行解析、拆分,并直接控制和监控采集适配层对数据源进行采集。主要包括:采集任务解析、采集任务拆分、采集任务调度、采集任务监控。通信适配层用于同数据处理层进行网络数据通信,包括采集策略的获取和采集数据的上运维管理解决方案运维管理解决方案传。采用的通信方式包括JMS、RMI等。附图9.数据采集层软件模块组成图4.1.5系统自管理我方推荐的解决方案中提供了7个辅助功能模块,用于保障整个系统的运行,包括数据维护、数据备份、日志服务、安全服务、通讯服务、策略服务和自监控。数据维护模块包括指标建模和指标维护等功能;数据备份模块用于对运维数据进行备份管理;日志服务模块用于记录网管平台中的所有配置操作和系统运行数据,并提供图形化的界面供运维人员审计查询;安全服务模块提供用户认证、用户授权、帐号管理;通讯服务提供各个模块之间通信的基础服务;策略服务提供策略的制定、下发和运行;自监控模块用于对网管平台自身的可用性、性能等进行监控,并在发现问题时通知相关运行维护人员或进行一定的自动处理。附图10.系统自管理软件模块组成图运维管理解决方案运维管理解决方案4.1.6采集源采集源主要包括两类:第一类指由被管理软硬件设备提供的标准管理接口,如SNMP、Syslog、WMI、JDBC、JMX、CORBA、Telnet、FTP、JMS、RMI等。第二类指被管理软硬件设备无法提供标准管理接口或标准管理接口不足以提供足够管理数据时,Ultra-NMS通过第三方监控管理产品获取相关管理数据,监控管理产品包括BMCBPM。4.1.7外部接口集中监控系统不是一个孤立的系统,与其系统的接口支持DB、WebService、SNMP、Trap、Ftp、XML、JDBC等协议。例如WebService、SnmpTrap协议适合与实时性要求高的数据传送,Ftp+XML方式适合与数据量大的方式数据传送,同时我方也支持开放数据库的DB接口。附图11.外部接口示意图如上图所示,集中监控系统默认提供对主流遵循ITIL标准的运维流程管理平台产品的接口,通过六类双向接口构建闭环的故障管理流程。4.1.8系统软件模块集中监控系统包括Ultra-NMSProbe、Ultra-NMSServer、Ultra-NMSClient和Ultra-NMSReport4个软件模块。Ultra-NMSProbeUltra-NMSProbe是集中监控系统的分布式数据采集模块,它能够直接采集网络设备、运维管理解决方案运维管理解决方案监控代理、桌面、业务等被管理对象的数据,支持SNMP、Syslog、WMI、JDBC、JMX、CORBA、Telnet、FTP、JMS、RMI、Netflow等多种协议,通过SNMP采集网络设备的各种配置和性能数据,通过主动的状态轮询和被动接收SNMPTrap和Syslog采集告警信息,支持主流系统管理软件数据接入。Ultra-NMSServerUltra-NMSServer是集中监控系统的数据处理服务器,内置JMS服务器和RMI服务器,通过Ultra-NMSServer实现各种业务逻辑处理、操作和配置。Ultra-NMSClientUltra-NMSClient是集中监控系统的数据展现模块之一,它不需要通过专门介质安装,可以通过WEB浏览器访问Ultra-NMSServer即可下载安装。它是一个用Java开发的C/S结构的客户端,主要用于实现网络拓扑、应用拓扑、故障监控与处理、性能数据的展现、配置数据的维护与查询、各种管理规则的配置、用户与权限管理、KPI指标的维护、系统自管理等监控和操作功能。Ultra-NMSReportUltra-NMSReport是集中监控系统的数据展现模块之一,用于对各种历史数据进行各种维度的计算和各种时间粒度的聚合,同时通过相应的调度程序,定时生成报表展现所需的各种数据。同时,Report还包含综合网管门户Portal,通过B/S结构,实现各种信息的查询、统计和分析,并提供各类固定报表的展示、转化和打印等功能。运维管理解决方案运维管理解决方案4.1.9数据处理流程说明告警管理附图12.告警数据流向图Ultra-NMSProbe采集探针接收下发的采集策略,将采集结果进行预处理上传给数据处理层。在此过程中Ultra-NMSProbe对数据采集任务进行调度,定期执行采集动作和结果上传。下面以采集、处理到呈现为例示意说明告警处理和故障分析流程。采集模块在定期采集中被动接收到原始事件(SNMPtrap,Syslog…)或者主动获取到一条告警事件(SNMPpolling,ping…)。采集模块将原始事件进行预处理分析,协议解析,同时分析时间戳,如果不能获取到时间戳,则用采集服务器当前时间作为时间戳。采集模块在本地进行原始事件记录,将数据记录在内部缓存中,并通过JMS将事件信息发送到数据处理层。数据处理层对将原始事件进行标准化,并且通过配置服务加入各种资源配置信息。此时成为一条标准事件,并已经具有告警级别,但这个标准事件还不是告警。性能管理和配置管理中的告警会直接以标准事件的形式进入告警管理。事件标准化后,进行告警事件分类。数据处理层对标准事件进行处理,为了防止事件风暴,数据处理根据所配置的规则进行过滤,之后进行压制和合并,然后进行配对分析,如果是一条新的告警,则进入相关性分析模块(见下一步骤),如果是一条已有告警的清除信息,则调用数据管理层的API进行告警清除。相关性分析模块根据已有告警和本告警,再根据存储的资源对象和资源对象之间的关联关系,进行根源分析和影响度分析,得到一条对用户直观有意义的真实告警,然后调用数据管理层的API进行告警生成。数据处理层在告警生成和清除的API触发的同时将告警以JMS消息通知数据呈现模块,由数据呈现模块来实时展示当前告警和变化拓扑颜色(即告警颜色传递)。告警生成和清除的同时,数据处理层还可根据规则配置将告警以mail、短信等方式的通知管理员,如果规则中配置了需要实时进入服务管理平台,则该告警将被实时派发到工单中。对于已经产生的告警,数据处理层还进行定期告警升级的检查,当某一告警超过时限未解决时,将进行告警级别的提升,并触发和告警生成同样的处理流程。数据处理层将根据当前告警和历史进行统计分析,作为系统的更好运行和预测的基础数据,同时将告警中的同类事件进行处理结果的知识库管理。数据处理层根据当前告警自动形成网络和业务的健康报告,定期/实时提交给用户。运维管理解决方案运维管理解决方案配置资源管理附图13.配置资源管理数据流向图Ultra-NMSServer配置资源模块是本解决方案的核心,下面以采集、处理到呈现为例示意说明资源的数据流程。采集模块在定期任务调度中采集到原始配置信息,可能是监控程序、SNMP等方式获取到。采集模块将原始配置信息进行预处理分析,协议解析,同时分析时间戳,如果不能获取到时间戳,则用采集服务器当前时间作为时间戳。采集模块本地进行原始信息记录,将数据记录在内部缓存中。采集模块通过JMS消息将配置资源信息发送到数据处理层,对于内容较大的数据,采用RMI方式上传。数据处理层对JMS消息拆解,拆解成功然后进行数据完整性校验和归一化处理。数据处理层将当前接收到的数据和资源模型中的数据进行比对分析,如果不一致,则进入配置审计和变更流程,如果不存在,则进行资源对象和关系的创建。配置审计模块在发现配置数据和资源模块中存储的数据不一致时,将发送类别为配置信息变更的告警,该告警进入标准的告警处理流程。在资源对象增删改或者资源关联关系增删改的过程中,数据处理层以JMS消息通知数据呈现模块,供数据呈现模块实时更新拓扑图和资源的信息展示。

运维管理解决方案运维管理解决方案性能管理附图14.性能管理数据流向图Ultra-NMSServer性能管理模块是本解决方案的重要部分,下面以采集、处理到呈现为例示意说明资源的数据流程。采集模块在定期采集中采集到原始性能信息。采集模块将原始配置信息进行预处理分析,协议解析,同时分析时间戳,如果不能获取到时间戳,则用采集服务器当前时间作为时间戳。采集模块本地进行原始信息记录,将数据记录在内部缓存中。采集模块通过JMS消息将性能管理信息发送到数据处理层,对于内容较大的情况,采用RMI方式上传。数据处理层对JMS消息拆解,拆解成功然后进行数据完整性校验和标准化处理。数据处理层将当前接收到的数据和资源模型中的KPI体系数据进行集中分析,按照KBP/KPI体系进行性能数据组织,并对历史性能数据进行入库。并同性能门限进行比对分析,如性能指标超越门限则调用告警生成API,生成性能门限告警。数据处理层提供了性能统计分析、性能门限设置、影响度分析、指标体系设定等功能模块,对性能管理策略进行维护。当用户访问数据展现层中的性能管理模块时,数据处理层以JMS方式向数据展现层提供历史性能展现数据。4.2功能架构4.2.1监控管理平台自动发现网络管理工作的第一步就是建立全面的、体现关联的、面向用户的、可维护的资源清单,后续开展的所有管理工作都应基于资源清单之上进行。在现实环境中,用户要管理的网络规模往往都过于复杂,因此在Ultra-NMS中,为用户提供了自动发现机制,管理员只需在客户端进行简单的设置即可由系统自动完成资源清单的初始化工作。Ultra-NMS的自动发现功能主要是利用ICMP,SNMP,FTP、HTTP、WMI、OSPF、HSRP、Telnet、CLI、CDP等协议标准,对被管设备节点进行IP、网段甚至全网的批量自动发现。其中对于主机、数据库、中间件、备份和业务对象等,若已安装了主流厂商的监控代理软件,如BMC、HP、IBM、CA等,则Ultra-NMS默认可通过上述监控代理软件的私有协议(Socket、MIB等)采集平台的配置信息和关键业务点的配置信息。Ultra-NMS的自动发现组件特性如下:可通过设备的sysoid信息自动识别设备厂家和型号:MIB2中的sysoid可以用来标运维管理解决方案运维管理解决方案识一种类型的设备,如...217,其中的..4.1用来代表企业的前缀,9代表Cisco,而1.217代表Cisco2924xl交换机。Ultra-NMS中内置了常用设备的sysoid字典库,如Cisco、Juniper、Extreme、IBM、HP等厂家,且用户可以根据自己的需要进行增删改。附图15.SysOID映射表可通过ICMP判断设备的通断性,通过SNMP协议获取设备、接口等信息、IP地址等,对于具有板卡、插槽的设备,可同时建立起板卡、插槽和接口的父子关系。附图16.自动发现各种网络设备的资源配置信息运维管理解决方案运维管理解决方案附图17.自动发现多IP设备可支持网络设备的三层发现和二层发现,支持MPLSVPN自动发现,支持OSPF、CDP、HSRP拓扑,可以针对冗余连接、备份连接和负载均衡连接进行自动发现。附图18.二层拓扑发现运维管理解决方案运维管理解决方案附图19.MPLSVPN拓扑发现附图20.CDP拓扑发现运维管理解决方案运维管理解决方案附图21.OSPF拓扑发现通过FTP、HTTP、DNS等七层应用协议可发现网络中承载的各种服务。附图22.自动发现网络环境中的各种服务可自动发现主流系统监控代理中的平台配置信息和业务配置信息,包括IBMTivoli、HPOpenView、BMCPerformanceManager和CAUnicenter的监控代理,并且将它们采集到的各种配置信息,包括系统、数据库、中间件等,全部通过Ultra-NMS存储到统一的资源配置库中。运维管理解决方案运维管理解决方案附图23.BMCPerformanceManager采集配置信息对于自动发现后的资源信息,将统一保存在Ultra-NMS的资源配置库(CMDB)中,而对于无法通过自动发现获取的维度信息,如地理位置、所属部门和责任人等则可通过Ultra-NMS中提供的资源管理模块进行手工维护。采集调度在资源配置信息库初始化之后,需要通过采集调度功能定制不同的数据采集任务,才能实现定时或实时的采集各设备的故障、性能和配置数据。在日常的维护工作中,对于故障数据的采集及时性要求较高,需要进行实时采集;配置数据由于相对稳定,采集时间间隔的设置相对较长;而对于性能数据,则需要根据不同的KPI指标定义不同的数据采集间隔。同时,考虑到不同类型被管对象的采集方式和采集参数不尽不同,同一批系统在不同的时间的关注力度也不尽相同,因此要求监控管理平台能够提供功能完善且可灵活定制的采集任务调度功能,以适应不同时间、不同设备的数据采集。Ultra-NMS具备可靠的分布式数据采集能力,可以指定哪些被管对象由哪个采集探针进行管理,并负责对这些被管对象的数据进行采集。采集调度首先将被管对象按照设备类型和管理策略的不同,划分成多个网元组,然后设定需要采集的数据类型(性能、告警、配置),最后确定采集任务的有效期限、采集间隔等时间参数,最终形成完整的采集任务。运维管理解决方案运维管理解决方案附图24.采集任务设置所有的采集任务都将由数据处理层(Ultra-NMSServer)发送到相关的采集机(Ultra-NMSProbe)中,并由采集机负责轮询检查每一个采集任务的触发时间,若到达采集时间,采集机将立即同被管理网元建立连接,并获取数据。数据采集之后将根据数据类型分别传送至配置、性能和告警的数据采集层进行预处理。拓扑管理拓扑展示是Ultra-NMS展现企业IT系统情况的最佳方式。拓扑视图能够以直观、统一、真实的方式展现整个IT系统的运行状况。Ultra-NMS的自动发现模块可以自动搜索IT系统中的每台联网设备,并通过拓扑自动生成模块将拓扑图中的每个管理对象映射到IT系统实际环境中的路由器、交换机、链路、接口、服务器、服务等。Ultra-NMS提供多种类型的拓扑图,包括网络拓扑、业务拓扑、CDP拓扑、OSPF拓扑、MPLS-VPN拓扑、SAN拓扑、影响度视图、缘由视图和性能拓扑。拓扑管理中为用户提供了直观、快捷的导航功能,包括树型导航、返回上一级、回退等。通过拓扑视图上的导航菜单,可以非常方便地深入到每个节点对象。拓扑图能够放大缩小,还可以通过鸟瞰图能够方便的在拓扑图中导航浏览。运维管理解决方案运维管理解决方案附图25.鸟瞰图拓扑图可以直观以红、黄、绿等颜色现实各种告警信息,包括故障告警、配置告警和性能告警,如果定义了告警策略,还可以发出告警声音。在拓扑图中,能够直接查看其当前活动告警、历史告警、实时性能指标、历史性能、配置属性等信息,也能够进行相关配置操作。拓扑图中,能够以连线的粗细表示不同的网络带宽,如果监控了某条链路的流量,那么在拓扑图中还会以箭头显示该链路的流量和流向,鼠标移动到该链路上时,能够显示该链路的详细流量指标。运维管理解决方案运维管理解决方案附图26.流量拓扑图Ultra-NMS提供对拓扑图的编辑功能,支持视图中各种对象(如图标、连线、图标容器)的创建、拷贝、粘贴操作,辅助以强大的编辑功能,能够极大地支持创建各种管理视图。附图27.故障影响度视图运维管理解决方案运维管理解决方案故障管理故障管理是Ultra-NMS网管平台的管理核心功能之一,是企业内部各种IT管理数据的汇合中心。它将IT系统中各种设备或管理系统产生的事件作为原始事件,按照预定义的事件规则,经过过滤、分类、分级、转换等处理环节,形成有效的预警或故障告警信息,按预定的方式通知管理人员或自动响应,对生成的告警提供升级、自动或手工消除等管理手段。Ultra-NMS能够将告警传递到告警视图、拓扑图、业务影响度视图和缘由视图中,并且在Ultra-NMS的Web报表中,也能够查看实时告警和历史告警。附图28.告警数据处理流程Ultra-NMS在告警处理流程中包含4类对象,针对不同对象采用不同的处理方法:原始事件:即数据采集层收到的事件信息,对应的处理动作为事件分类和事件标准化;标准化事件:对于经过标准化处理的事件,需要进行事件合并、事件压制、事件过运维管理解决方案滤和事件相关性分析处理;告警:对于告警信息,需要进行告警传递、告警通知、告警升级、业务影响度分析等处理;故障:故障是告警的子集,是需要人工干预解决的告警,需要将故障信息通过接口在服务管理平台中生成工单。分布式的事件采集预处理Ultra-NMS能够通过Probe分布式的采集告警信息和进行预处理,事件数据来源有很多,包括监控平台通过主动状态轮询获取状态信息、被动接收SNMPTrap和Syslog获得故障信息、收集监控代理上传的事件信息、以及从各种监控工具模块中转发过来事件信息(如应用性能指标超门限、配置信息变化等)。事件标准化与分类Ultra-NMS告警数据采集具备平台类、应用类系统以及设备告警信息统一解释功能,对告警事件信息进行标准化处理,形成统一格式的标准化事件;同时,通过性能管理和配置处理模块,告警管理模块能够获得已经是标准事件的性能指标超门限和配置信息变更等事件信息。故障管理在进行事件标准化时能够集成资源配置模块,利用配置服务完善告警信息,自动在告警中加入资源配置信息,包括关键级别、地理信息、维护状态等信息,并且利用这些配置信息处理告警。资源维护状态:Ultra-NMS在处理告警时,能够判断当前资源对象所处的维护状态,只有处于“生产中”的对象才进行告警处理,如果处于“维护中”等其它状态则不进行告警处理,避免没有意义的告警。联系部门和联系人:Ultra-NMS在进行告警通知时,能够从配置服务中获取负责维护告警对象的联系部门和联系人,自动通知相关的人员。资源维度信息:Ultra-NMS在标准化原始告警事件时,能够利用配置服务增加多种资源维度信息,包括关键级别、地理位置等。例如在处理同一类告警事件时,能够根据资源对象的关键级别的不同,在自动定义产生不同的级别的告警,使得管理员能够优先处理重要的故障。运维管理解决方案运维管理解决方案附图29.告警数据明细事件压制与合并在事件生成以后、被处理完之前,有可能生成重复事件。例如当某设备通过状态轮询发现其状态异常后,每次状态轮询将生成一个重复事件。同时同一事件可能由于事件来源不同而生成多个事件/告警。Ultra-NMS事件压制与合并就是对相同的事件或派生型事件进行压制和归并,在告警管理模块中保持告警信息的准确性和唯一性。告警故障定位应与系统配置数据和应用逻辑相结合,根据设备厂商或应用软件开发商提供的最小粒度定位,如CPU、路由模块、网络接口卡、应用关键点等。Ultra-NMS告警故障定位能够要做到被管资源级或应用关键点。事件过滤Ultra-NMS故障管理提供事件过滤功能,它可针对单位时间内发生大量事件的情况,按维护要求、管理部门要求及实际管理情况,从底层提取的事件信息中滤掉不重要的信息,减运维管理解决方案少轻微告警的干扰,以提高监控与处理的效率。Ultra-NMS提供灵活的过滤规则:可按事件发生网元、告警级别、事件/告警类别或标题等设置过滤规则;可根据某一具体事件设置过滤规则,也可根据事件信息的内容,屏蔽掉一些次要的字段。对已设定的过滤规则需要提供保存和修改功能,便于维护人员灵活选择。相关性分析由于在实际环境中,很多事件之间存在关联关系,如父子关系、触发关系、影响关系等,同时由于很多被管对象之间存在父子关系,很多应用处理环节之间有先后次序,因此,可以通过建立合理的事件相关性模型和被管对象的父子关系,以及面向应用过程的分析流图,判断已发生事件间的相关性,识别故障根源和准确的定位故障。事件相关性分析模型是建立在对象间关联关系之上的,主要是引入发生在对象上的事件类别,同时加入相关的规则属性和规则成熟时间,定义事件相关性分析模型,主要有以下步骤:首先预定义某个对象与某类事件组合,形成一个变量,并且定义一系列的变量列表,如“数据库服务器+CPU利用率超门限”就是这样的一个组合。然后基于已定义的变量列表,按照关联关系、影响关系、触发关系定义组合对象之间的关系模型。最后要定义规则成熟时间,规则成熟时间是指在符合本规则团体的第一个事件进入分析队列开始,到规则成熟时间为止,不再等待后续是否还有符合本规则团体规则的事件进入分析队列基于事件相关性分析模型,Ultra-NMS对于故障能够做如下处理:当符合条件的对象上发生了符合条件的事件后,该事件会进入事件相关性的处理,在规则成熟时间未到时,系统会持续收集相关的事件;当到了规则成熟时间,这系统按照预定义的关联关系、影响关系、触发关系进行全面的分析,产生根源的告警;告警展现时,隐藏非根源的事件,以特殊方式显示根源告警,并且对根源告警可以深入挖掘,显示出根源告警后面隐藏的所有事件。运维管理解决方案运维管理解决方案附图30.故障相关性分析故障影响度分析Ultra-NMS提供故障算法模型和关联模型,算法模型提供标准算法模型、Cluster算法模型和平均算法模型,关联模型提供最大化、增加、标准、减小、最小化模型。管理员能够灵活的配置故障影响度策略。附图31.算法模型和关联模型运维管理解决方案运维管理解决方案Ultra-NMS采用了内存数据库和HashCode技术,按照多叉树模型,提供复杂的事件关联处理方法,可以准确地判断事件的性质。相关性分析的实现基础在于被管对象模型的相关依附关系,结合事件之间本身存在的相关依附关系,确定实际的相关关系。在此基础上,便可依据事件间的实际相关关系追寻问题的根源。Ultra-NMS提供缘由视图和影响视图,能够通过图形化的手段定义业务组成的模型,并且从缘由和影响两个方向实时分析故障。影响视图分析被管理对象上发生的故障对业务的影响种类、程度和范围,而缘由视图分析被管理业务当前由于哪些故障而产生告警。附图32.图形化故障影响度视图告警呈现与操作Ultra-NMS能够实现实时的集中告警展示,将各个被管实体的主要告警信息集中呈现于网管系统。包括如下功能:Ultra-NMS能够对原始事件、标准事件、告警信息实现分别展现。能够实现基于内容不同而提供不同的告警信息展示视图,即不同值班人员和维护人员只能够看到自己职责范围内的告警信息,并且能够提供按照各种组合条件进行告警查询。Ultra-NMS在拓扑图中能够通过颜色改变帮助维护人员迅速定位发生告警的网元或应用组件,并能够在拓扑图上查看相应的告警明细信息,能够直接进行确认、派发、清除等操作。Ultra-NMS提供自动刷新的、直观的当前告警列表,以提示值班人员进行处理。运维管理解决方案Ultra-NMS不仅能够在客户端提供告警查询视图,而能够在Web报表中提供关于当前告警和历史告警的查询、统计和分析功能,提供按照日周月等不同时间粒度的告警明细和统计报表。告警通知Ultra-NMS提供告警通知功能,将告警信息以各种手段(声、光、短信、邮件等)转至指定的维护人员(包括厂家人员、值班人员、维护人员、主管人员)。Ultra-NMS能够提供各种通知接口,并维护使用人员各类信息(如手机号码等)。告警通知的规则应能够灵活定义,如分时段、分地域的告警通知。由于不同维护人员的职责不同,应能够通过告警通知规则的定义将告警内容清晰、准确的前转给相关的负责人员。告警确认与告警清除Ultra-NMS能够提供对当前告警的确认操作并标记为已确认,对于系统中已经处理完毕的告警信息,能够进行清除操作并标记为清除,告警会从当前告警视图中退出并进入历史告警记录中。告警清除分为手工清除和自动清除两种,其中对于自动清除,要求告警管理模块在进行标准化和相关性分析时能够定义自动清除以及自动关联清除规则;由于不是所有的告警都能够自动清除,因此,系统应提供手工告警清除功能供维护人员使用。对于处于清除状态的未确认的告警,可以标记为锁定告警。告警升级对于持续时间较长,如未确认(开始处理)或未清除(未解决)的告警,或者告警重复发生次数较多的告警,Ultra-NMS能够提供告警升级规则定义功能,规则定义应包含满足何种条件触发告警升级处理流程,如持续时长或重复次数等内容。告警传递Ultra-NMS告警传递是指当底层拓扑中的对象发生告警,该告警是否向上层拓扑传递,以及如何传递的规则定义功能,在每个拓扑对象以及每个拓扑图中均提供右键菜单,用于定义告警传递规则。告警报表对于告警信息的统计分析,Ultra-NMS提供按照告警类型、告警级别、发生设备、告警运维管理解决方案频次统计、告警时长统计和告警处理时长等多个维度的统计分析报表。用户可以通过告警查询得到各种告警信息,可以查询上述告警报告中未包括的其它告警信息;用户可以根据需要设置各种告警查询条件,包括告警时间,告警时长,告警类型,告警级别,网元类型;查询结果可以生成报表,并可以打印输出或存成文件。资源建模和指标建模Ultra-NMS在扩展性方面具有极强的扩展能力,这不仅仅由于Ultra-NMS具有扩展的采集能力和扩展的展现能力,更重要的是由于Ultra-NMS对基础数据的处理能力,即资源建模和指标建模的能力。资源建模如果需要管理一类对象,一个基础条件就是存储这类对象的基础信息,Ultra-NMS提供资源建模的功能解决这个难题。Ultra-NMS采用面向对象的技术对各种不同被管理的对象定义不同的‘类’,每个子‘类’会继承父‘类’的属性,并且可以具有自己特殊的属性,内置Ultra-NMS内置已经定义了常见的软件、硬件和文档等类,可以直接存储和处理常见的被管理对象。当需要进行扩展时,Ultra-NMS提供类向导,允许管理员新增或者修改类的定义,包括父类、名称、对应库表、是否为虚类、属性、标识、显示图标等信息。其中属性信息可以包括各种能够描述这个类的定义属性,例如IP地址、关键级别、算法模型、状态等等。定义属性时,可以定义属性组、默认值、对应对象、是否只读、属性类型等,其中属性类型就是数据库表中的字段类型,例如布尔、整型、长整型、浮点型、字符型、日期型等。定义类时,可以定义实类或者虚类。虚类下属的对象需要手工创建,而实类下属的对象可以通过自动发现自动创建。当定义好一个类后,Ultra-NMS就会自动在后台创建好数据库结构,就可以存储和管理新的对象了。如果需要向某个类增加属性也非常简单,只要通过类向导直接增加即可动态扩展数据库表的结构,例如增加某类对象的开发商属性。Ultra-NMS采用资源建模的方法管理系统中所有的被管理对象,即每个对象均归属于某个资源类,从底层架构方面保障了扩展性,包括被管理对象的种类可以扩展、被管理对象的运维管理解决方案运维管理解决方案属性可以扩展、以及被管理的指标可以扩展。附图33.资源建模-类向导资源维度在资源对象的属性中,一部分是用于描述对象的信息,另外一部分是为了进行分类、查询和报表,而这些属性中会有一些是字符型的,如果让管理员手工输入往往会造成基础数据的不一致性,那么在查询统计时就不能提供有效的信息。Ultra-NMS总结综合网管的需求,推出资源维度的维护和管理,即对于某些资源属性能够预定义可以选择的列表,这不仅方便了管理员维护资源属性,而且能够方便在不同的维度对资源对象进行统计和分析,同时在资源管理对其它管理提供配置服务时提供准确的信息。资源维度包括关键级别、状态代码、地理位置、生产商、软件类别等等。例如地理位置是描述资源对象的必要信息,Ultra-NMS提供的资源维度中就包括地理位置,它能够在图形界面中预定义以树型结构的地理位置信息,例如管理员可以定义某台设备的位于某分公司、某大厦、第几层、第几号机柜、第几U中,这样在定义对象的地理位置属性时,就可以通过下拉列表的方式选择即可,操作简便,不会发生数据不一致的问题。运维管理解决方案运维管理解决方案附图34.资源维度定义指标建模在综合网管中,不同的对象会有不同的指标KPI,Ultra-NMS支持采用面向对象的技术进行性能指标建模,即采用KBP、KBPID、KPI的指标体系。关键业务点KeyBusinessPoint(KBP)对应于资源建模中定义的资源类,它可以描述被管理指标的归属;关键业务点标识KeyBusinessPointIdentification(KBPID)对应于基于资源类所创建的对象,它必然归属于某个资源类;关键性能指标KeyPerformanceIndicator(KPI)对应于在管理某个资源类时所需要管理的指标,包括配置指标、性能指标和告警指标。运维管理解决方案运维管理解决方案附图35.指标建模Ultra-NMS管理的指标都采用指标建模的方法进行定义、采集、存储和处理。在指标建模中,Ultra-NMS提供KPI字典表功能,管理员能够增、删、改KPI指标,包括KPI的编号、外部数据源名称、所属类型、数据类型、单位、采样周期、最大合理数值、最小合理数值等。由于采用指标建模的管理方法,Ultra-NMS提供完备的指标体系,利用指标模型根据不同的设备类型,以及不同设备厂商的特有性能指标提供不同的性能指标清单。此性能指标清单具有扩充功能,可以通过图形化配置界面对系统可识别的设备厂商、设备型号建立私有的配置信息属性清单,即只对此种设备生效。Ultra-NMS提供公式编辑器,用户可以利用该功能组合标准化性能指标,生成自定义性能指标。用户自定义性能指标与其它性能指标所具有的功能是相同的,包括实时性能呈现、历史性能入库、性能告警等。运维管理解决方案运维管理解决方案附图36.指标建模-KPI字典表性能管理Ultra-NMS能够提供性能管理综合性能管理,包括网络性能、系统性能、应用性能和业务性能。性能数据的来源主要有网络设备、主机监控代理(Agent)、与应用系统间接口、用户模拟体验主动发起的模拟请求等;采集到相关性能数据之后,系统将根据KBP/KPI的定义进行统一的格式转化和归一化处理,同时进行数据的完整性和合理化检查。对于Agent采集的数据以及应用系统接口上传的数据,并返回回执,当发现数据异常,则发起数据重采流程。对于用户模拟体验类的异常数据,则发起数据补采流程;对于归一化处理后的性能数据将首先判断是否超性能门限。如果满足告警生成条件,则生成性能超门限类的告警信息,转入告警处理流程。同时所有定时采集的性能指标将入库,形成性能管理的基础数据;对于入库的性能指标数据,将根据运维统计报表的需求,分专题、分系统、分设备进行各种时间粒度的聚合统计计算,并分别存储在相应的数据库表中;对于实时性能数据的处理流程基本为:由客户端发起实时性能数据查看请求->在后台调度执行一个实时性能采集任务->采集数据->检查本任务中的指标是否需要通过公式计算,并进行处理->结果返回前端界面。运维管理解决方案运维管理解决方案在客户端进行性能数据的指标管理和门限配置工作。附图37.性能数据处理流程性能门限管理Ultra-NMS提供的性能门限管理:能够针对每个KPI指标定义全局门限;能够针对每个对象的某个相关性能指标,定义个性化门限;能够针对不同告警级别,定义不同门限;

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论