数据中心运维管理-技术方案_第1页
数据中心运维管理-技术方案_第2页
数据中心运维管理-技术方案_第3页
数据中心运维管理-技术方案_第4页
数据中心运维管理-技术方案_第5页
已阅读5页,还剩140页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据中心运维管理软件技术方案文档修改记录版本号修改内容描述修改人修改日期V0.1建立V1.0修订目录TOC\o"1-3"\h\u77911.需求分析 需求分析作为工程信息化基础工程建设的一部分,数据中心运维管理系统是数据中心IT基础设施运维管理和性能监控平台,它从硬件设施和性能的不同层次,采集和监测数据中心的服务器设备性能信息、存储设备性能信息、链路质量信息等指标型数据,并通过可视化方式向运维管理用户提供管理、维护与监控接口,提供与设备无关的数据中心基础设施通用监测管理平台,在此基础上为IT基础设施的管理、评估,统计分析和决策支持,帮助定位故障,预测故障以及上层应用提供服务支持。数据中心运维管理系统由数据采集、数据处理、综合管理、实时运行监测、安全事件管理、脆弱性管理、风险管理、宏观安全态势分析管理、业务运维、告警中心、技术保障、统计分析、系统管理组、用户管理等组成。本方案通过数据中心运维管理项目建设,将做到信息系统故障早发现、早解决,确保计算机系统、网络和应用的连续、可靠、安全运行,降低发生故障的可能性,提高数据中心的系统运行管理水平和服务保障能力,为相关业务工作提供高效、贴身服务。具体而言,数据中心运维管理系统应满足如下的管理需求:以业务的角度将传统的技术设备的管理整合到基于业务的管理平台上来,不仅能完成对设备监控的需求同时能满足根据业务的组成定位问题根源,定位性能瓶颈,预测业务发展趋势和稳定性。采用的技术成熟、先进,并具有较强的集成性和可扩充性的管理平台;解放人力,依靠智能化技术化的管理手段,降低故障发生率,降低维护成本,并同时提高维护效率。基于统一、集中的管理体系,统一的数据处理和展现,统一的告警平台。统一的数据处理和展现,消除各个监控工具之间各自为政、系统管理员在各个界面间频繁切换的情况,将旧的监控工具的数据和事件统一融入到新的监控平台中来,并通过统一的展现界面进行展现。统一的告警平台,将所有告警纳入监控管理监控平台,并通过通知、短信、邮件和IM统一告警。易于使用和维护。管理软件本身的作用就是为了降低运维成本、提高运维效率。这就要求管理软件本身必须是易于使用和维护的。对主机系统资源的占用比较少的情况下,实现对各种服务器监控管理。包括主机硬件、操作系统、文件系统、进程和应用等。各种数据库监控管理,包括数据库的重要配置参数以及运行状况的监控。主要关注数据库的关键指标,如SGA使用率、表空间占用情况、锁竞争和使用情况、缓冲区命中率等;其它应用的监控管理,支持Tomcat、DNS、FTP等实现IT资源管理和业务系统的关联,可以从业务的视角进行IT管理。当某台主机或者应用发生问题、产生告警时,系统管理员可以在第一时间发现该设备影响了哪个应用的正常运行。统一的报告和报表,多台设备性能比较,其它格式导出,柱图、XY坐标、饼图、折线图,定期的运维报告等等系统的自管理,系统的自我管理功能,包括角色管理,权限视图管理,资源管理等。项目建设目标加强数据中心信息资源的维护平台建设,提高信息资源的运行管理水平,通过运维体系的建设,结合构建集中式的服务热线、运维流程、系统监控和综合展示系统,通过系统联动,及时、准确、全面反映与掌握数据中心各信息系统的运行状态,保障各业务系统的正常运行,应达成如下目标:强化主动监控,实现集中管理。以IT资源可用性监控为主线,构建统一集成的IT资源及应用服务监控平台,能够主动、及时地发现问题,并调度资源解决问题,形成IT运维管理主动服务的新格局。帮助定位故障,快速恢复系统运行。建立集中的告警分析及展现平台,提供灵活、自动化的事件处理能力。当故障产生时,可以进行故障的快速定位,发现故障原因,调度资源快速恢复系统服务,从而缩短故障解决时间,降低维护成本,提高系统整体可用性。掌握运行质量与效率,合理利用资源。实时了解全部IT资源的负载与使用情况,根据需要从整体角度考虑资源的使用,同时可以根据业务高峰期的不同来调剂业务系统对资源的使用。规范运行管理,有序开展维护。参照ITIL规范,对运维管理工作进行优化,对服务管理进行改善,将管理数据电子化,管理过程规范化。根据相关制度进行运行维护管理,对内完善流程,对外提高服务,加强管理,使流程更规范更合理,使技术人员具备更高的工作效率,提高业务技术能力和解决实际问题的能力。共享运维经验,完善知识库。把运维过程中产生的丰富经验进行积累和总结,形成有效的知识库,建立知识的共享机制,提供信息共享和交流的平台,提高运维人员的工作效率。项目方案设计设计原则数据中心运维管理平台作为数据中心未来运维工作的核心支撑系统,需要系统本身具有高可靠、易扩展、易维护等特点,并且在系统功能应用上要具备一定的技术先进性和实用性。所以,本次项目的方案设计遵循以下设计原则:先进实用平台注重先进性和实用性的统一,以实用为目的,合理选用各类成熟、先进技术。在体系结构、功能算法等诸多方面都采用先进计算机技术和理论,应用功能体现实用性。可靠性在系统结构、设计方案、设备选择、技术服务等方面综合考虑,保证系统能够7*24安全无故障运行,系统有很好的容错功能;对IT资源的监测应保证不影响相关设备和系统的正常良好运行,并实现最好的响应效率及最小的资源占用。安全性注重安全方面的设计,确保IT运维监控管理平台的稳定、安全运行。系统要保证数据的安全,不会增加现有应用系统的复杂性,更不会降低现有应用系统的稳定性。开放性采用符合国际国内标准的通用协议,为实现与其他系统监控软硬件互联或接入本系统进行监控提供接口,支持各种主流计算机平台、操作系统以及数据库厂商的各类软硬件产品。可扩展、易集成系统需具备很好的扩展性,能适应不断发展的业务需求。随着IT资源种类和数量的扩大,系统也应能适应新的系统的对IT运维管理的需求。系统具备高度集成性,可以和第三方产品进行集成,进行功能扩展。系统提供开发工具和接口,方便其他监控系统集成和统一管理。系统架构逻辑架构建设数据中心运维管理体系包括四个层次的工作:一是实现数据中心数据中心系统的故障信息采集和统一处理。即对网络、服务器、数据库、中间件、磁盘阵列、应用系统及机房环境进行有效的管理和监控,将网络管理、数据中心运维管理、安全管理、数据中心基础环境管理等功能整合在一起,实现统一的监控数据采集、一体化的报警数据处理、统一的故障流程处理。二是管理流程整合和统一管理。统一网络管理、数据中心运维管理、安全管理、IT基础环境管理相关的各个业务流,如值班管理、工单管理、资产管理、知识库管数据中心数据中心运维系统解决方案理等,形成数据中心运行维护的规范化流程。三是统一的信息展示和运行考核。根据资源监控系统采集的各类数据,提供网络、业务应用的信息展示功能,并与运行管理的绩效考核相结合。四是实现数据中心运维管理平台向综合运维管理平台系统的数据上报,可以全盘掌握各子系统软件/硬件设备的运行情况,并生成各种统计分析报表。数据中心运维管理平台将是一个完整的网络与系统管理、安全管理、数据中心基础环境管理、运维流程管理解决方案,可以最大限度的保护网络中的投资,并充分考虑到将来管理需求扩展。其中每一个层次之间的如下图所示:(一)对象层对象层能够管理数据中心信息平台,涵盖了机房动力环境设备、网络设备、服务器系统、系统应用软件、网络安全设备等。同时系统可以管理由网络设备和线路构成的多种链路。(二)系统监测层监测层包括网络管理、应用管理、设备管理、桌面管理,是监测底层的被管对象层,实现对网络、主机、存储设备、安全设备、数据库、中间件及应用软件等IT资源的全面监控管理;同时自动收集、过滤、关联和分析各种管理功能产生的故障事件,实现对故障的快速定位和处理;对网络和业务应用等IT资源的性能进行监控,定期提供性能报表和趋势报表,为网络性能优化提供科学依据。系统监测层通过各类探针获得各类被管对象的数据。采集方式支持多种网络协议和采集方式,对于不符合标准网络协议的设备,系统提供二次开发的数据采集接口。采集协议与方式主要包括:SNMP、SNMPTRAP、Agent、WMI、Socket等。(三)用户层用户层是整个系统呈现,是运维管理平台的人机交互接口,系统集中运行展现提供集中的直观的监控呈现、快速发现和分析各类运行隐患,提供了运行一览、网络拓扑、业务拓扑、负载分析、告警台、统计分析等多种监测视图,通过集中化的有机的组合各种视图,为不同角色的人员提供完整的运维管理工作界面。运维服务管理层将人、技术与流程进行有效地融合,实现日常运维工作的自动化、信息化和标准化。(四)事件层事件层的设计目标是通过历史大数据分析,建立起运维知识库。知识库能自动实现运维知识的积累、沉淀和共享,从而降低IT运维管理对个人的依赖。至上而下的IT运维管理平台能为IT服务管理提供足够的管理元素,帮助管理者从不同的角度、不同层面去了解系统运维状况,为领导决策提供科学依据,同时生成多种工作记录,领导可对IT运维管理人员的绩效进行客观的评估,从而帮助用户实现对IT服务基础支撑系统的透彻管控。监测层和用户层通过统一的资源库和子系统接口来进行有机的融合,同时系统提供了单点登录和统一认证的支持,确保从上到下的操作是必须经过统一登录认证和操作审计的。其他集成接口系统包括系统数据交换接口和分布式数据采集接口,通过系统数据交换接口,可以建立多层系统部署的数据交换,同时也可以和异构系统集成,通过分布式数据采集接口可以实现数据的远程采集。产品架构本系统面对用户日益复杂的数据中心环境,整合对网络、服务器与业务应用、安全设备、和机房基础环境等的分割管理,实现了对数据中心系统的集中、统一、全面的监控与管理;系统通过融入ITIL等运维管理理念,达到了技术、功能、服务三方面的完全整合,实现了数据中心服务支持过程的标准化、流程化、规范化,极大地提高了故障应急处理能力,提升了数据中心的管理效率和服务水平。本系统由网络管理NCC、业务应用管理BCC、安全管理SCC、桌面管理DCC及集中运行管理COSS五大部分组成。1.网络监控(NCC)自动、准确、及时地发现各类异构复杂网络的拓扑结构可持续地监视、报告网络的运行情况提供网络运行状态和性能的多角度分析与统计拦截非法接入,保障网络系统安全监控异常流量及ARP欺骗等病毒2.应用监控BCC)(1)资源监测子系统监控数据中心的服务器、中间件、数据库、业务应用、安全设备及基础支撑系统(如机房、空调、UPS等)的运行状况;建立性能基线;发现系统异常并及时告警。(2)运行展现子系统围绕数据中心业务和数据中心资源,采用人性化多层导航呈现模式,由全局到局部、由粗线条到细颗粒度地逐层展现业务应用的运行状况。3.安全监控(SCC)(1)对各类安全设备告警事件进行采集和跨类型、跨厂商的分析(2)可将处理后的告警信息自动精确关联到安全知识库(3)实时的、翔实的、准确的呈现告警事件及信息4.桌面监控(DCC)(1)桌面资产统一管理(2)桌面安全策略的强制执行(3)终端用户行为审计(4)补丁发布(5)实现用户桌面系统的标准化5.集中运行管理(COSS)(1)数据中心资源监测结果综合展现(2)提供各种报表和视图,呈现数据中心资源的运行状况和运行趋势(3)基于ITIL的运维流程化管理(4)知识库管理技术路线本系统服务端与监测程序由C++开发,管理端由php开发,支持Oracle、MySQL等多种数据库,可以运行在Linux、Windows等多个操作系统之上。本系统将提供丰富的API与WebService,以支持本项目的二次开发需求。功能设计数据采集 本系统不仅能够实时监控路由器、交换机、服务器等设备的运行和管理状态,包括设备故障以及主机网络性能参数等等,同时也从设备图标、设备快照、设备管理提示信息、设备面板、设备类型拓展、设备性能参数监视拓展等方面做了更为用户化的设计与增强,以满足用户对于管理操作直观、简便、全面、灵活和具有可拓展性等方面的要求。设备自动发现设置形象直观的设备图标系统对于不同厂商不同型号不同操作系统等的设备都以不同的个性化图标来显示,用户可以直观地从设备图标上就获悉该设备是哪个厂商哪种类型的什么设备,同时还能从反映设备工作状态的图标中获知目前设备是否正常,是否有告警,以及设备的SNMP代理服务是否已经启动等等,如下图所示:设备图标示例设备快照及设备管理提示信息系统的设备快照功能可以帮助用户以直观形象的图形化界面实时获取设备当前的基本管理信息,包括:设备名称、IP地址、网络掩码、类型、分类、系统描述、所运行的服务名称,服务的状态、服务占有的端口、服务响应的时间、接口的基本信息以及主机资源参数的基本信息等,如下图所示:设备快照用户同时也可以通过移动鼠标到相应的设备上,实时直观地获取设备的管理提示信息,包括:设备地址、设备类型、主机资源参数以及使用人员、所属部门等手工资产维护信息等。如下图所示:设备信息示例设备活动进程及安装软件的查看系统提供的对于设备活动进程以及已安装软件的查看功能,既可以作为管理员管理服务器、关键主机等设备的一个管理对象,同时也可以作为网络或设备发生异常时,辅助管理员进行故障分析的一种手段,比如:某台关键服务器的流量异常增大,产生告警,管理员可以通过对其活动进程的查看初步了解该服务器目前正在运行的进程,以初步确定造成流量异常增大的可能原因等等。如下图所示:设备活动进程信息列表示例设备机架面板由于国内外网络设备厂商众多,各自厂商的不同型号的产品也庞杂,所以系统为用户提供了两种类型的设备机架面板,并提供用户基于面板的管理操作功能,包括对于交换机运行状态、端口流量、端口丢包率等性能参数的监视与管理外,同时也提供对于交换机端口的操作,比如交换机端口的管理与取消管理以及对于端口的开启和关闭等。设备的通用机架面板:该设备机架面板作为没有为设备配置真实面板的补充,同样可以为用户带来直观的面板级的操作与管理。如下图所示:设备通用机架面板示例设备的仿真机架面板:系统已经为目前主流的网络设备厂商的相关设备提供了真实的设备面板,基于该面板,用户可以更为方便和直观地进行面板级的操作与管理。如下图所示:设备仿真机架面板示例如果在用户实际的实施网络环境中,发现系统没有为某些设备配置真实的机架面板,我司将提供快捷的真实机架面板定制服务,以满足用户实际管理的需要。网络设备端口分布管理查询对于网络设备(路由器、交换机等),用户可以通过双击该设备图标,获悉该网络设备端口分布管理的详细情况,如下图所示:网络设备端口分布管理情况交换机端口详细信息查询系统的交换机端口详细信息查询是针对用户在日常管理维护工作中,需要实时查看某一台交换机的所有端口或者某几台交换机的所有端口的进出流量等信息而提供的一个参考分析的功能,比如用户感觉网络堵塞,想快捷明了地获悉究竟是哪台交换机哪个端口所连的设备流量较大,就可以通过此功能把所有交换机的所有端口进出流量进行排序,从而及时准确地得到一个结果。数据处理 根据设计要求,本系统将支持对主机、操作系统、数据库系统、中间件系统、应用系统等采集项事先进行处理,包括分类、定级及建立关联关系,并将数据保存在系统内,供用户灵活选择、配置需要监控的内容。针对采集到的数据进行分类、定级、关联分析后产生告警,告警信息与知识库的自动关联功能,找出以往类似事件的解决案例,用以提高解决事件的效率。本系统通过数据处理子系统完成上述功能。数据处理子系统由统一事件平台(Arbiter)、数据指标抽取模块(Bridge)、监控指标库(RDB)、可视化展现视图(Live)等模块组成。监控指标库(RDB)存放了所有监控对象的当前运行状况、重要告警、重要KPI性能指标等数据,实现性能基线管理,并为监控对象的可视化展现提供数据支持。CMDB与RDB数据库的记录通过资源唯一标识ID(UUID)实现一一对应,并能够自动维护其相互关联关系。数据指标抽取(Bridge)负责从底层监控工具和第三方系统抽取各类管理数据,如资产配置数据、性能数据、监控对象运行状态数据、故障告警数据等。其中故障告警数据送到统一事件平台进行处理,性能和状态数据进过处理后存放到RDB数据库中,资产配置数据经过数据清洗、调和处理后送到CMDB数据库中。统一事件平台负责对来源不同的告警信息进行过滤、压缩和关联,以及对不同来源的性能数据进行规范、汇聚、分析等,并通过根源问题发现等功能,实现快速的故障定位,保证业务系统的监控运行。历史事件查询灵动展现平台是一个个性化监控视图开发工具,可以根据管理需求,对各类资源进行灵活组合,生成各类资源展现监控视图。展现平台支持按照安全事件、故障事件、性能事件、脆弱性事件、基线检查事件、配置事件进行管理与分析;在分析事件时,支持自定义列;支持根据IP地址、事件名称、事件类型等进行事件查询。支持具有生成安全事件的报警日志溯源功能,将生成事件的原始报警日志进行深入挖掘和追溯,展示原始报警日志的数据分布情况和安全事件的攻击路径。报警日志查询本系统支持对PB级数据进行分析查询,支持对实时数据进行低延迟分析,可以针对安全事件、性能事件、故障事件、基线事件配置详细的策略。综合管理 综合态势本系统可实现综合态势分析展示和灵活的综合告警统计分析两方面的功能,从多个纬度展示数据中心各方面的信息。面向基础设施、面向维护管理者、面向领导决策者提供了不同的视图。(一)面向基础设施的管理(1)全面管理系统资源提供对网络、主机、操作系统、存储设备、数据库、中间件及应用软件等IT资源的全面管理;包括纵向资源的配置与拓扑管理。(2)性能管理与优化面对网络、服务器、数据库、中间件系统等性能进行监控,建立性能处理的基线。定期提供性能报表和趋势表,可以根据趋势分析,提出性能优化的建议,如修改系统参数、系统扩容等。(3)故障管理系统提供一个集中管理故障和事件的中心,能够收集各种管理功能产生的故障事件(例如:网络事件、主机事件、存储备份事件、安全事件等)。完成故障事件收集、过滤、关联和处理等工作,以实现对故障的快速处理。(二)面向维护管理者(1)运维服务管理运维服务管理基于人与流程的结合,提供方便,灵活工作流程的管理功能,使工作人员维护管理工作的自动化和信息化,其中包括帮助台、事件、问题、变更、配置管理以及值班管理等根据客户量身定制的业务管理功能;(2)资源监控通过实时动态视图显示管理系统的实际数据,一目了然地看到当前IT系统的运行状态及趋势。可以综合监控IT系统中各种资源的实时状态和性能信息等所有运行情况,帮助管理人员快速发现问题,分析和确定问题所在;(3)知识库使工程师在处理系统故障的时候,能够参考相关故障处理的方法,让有较低技术水平的工程师也能够进行系统维护,从而降低IT运维管理对个人的依赖。(三)面向领导决策者(1)综合报表对IT系统运行状况信息进行汇总,并以图表的方式为管理人员提供直观的分析结果,帮助领导更全面的了解网络、主机、数据库、应用系统的运行状况和运行趋势,为领导决策提供支持信息。综合报表(2)绩效评估通过运维平台的工单处理数据,领导可以对系统维护人员的工作绩效有一个直观的了解。从而通过预定的关键绩效指标对工作人员进行绩效评估。综合告警展示综合告警展示主要用于故障处理。故障管理实现对IT资源故障的监视功能,包括对告警信息进行采集、配置、处理、呈现及相关的统计分析等功能。通过故障管理功能,用户可对网络中的告警进行实时的监控,对告警信息进行处理和查询统计等相关操作。告警界面示例故障处置本系统提供了故障智能诊断功能,通过此功能,用户可以对网络中的故障进行实时的监控,提高故障发现、故障处理的效率,减小故障对网络造成的影响,更加有效的保障网络安全运行;在故障诊断的基础上,系统提供网络预警的功能,通过对现有网络进行性能分析,根据预先设定的门限值,以预警的形式进行提示,使网络的维护工作由被动转为主动,从而实现网络运行维护的高级管理功能。故障管理应包含以下功能。故障处理示例另外,故障管理支持对Unix、liunx、Windows服务器、各种网络设备syslog关键字告警功能,能够自定义日志消息告警的关键字,一旦在日志消息中发现有自定义的关键字,如InterfaceDown、UP等关键字,可通过告警快速通知运维人员进行处理。监控管理 本系统支持思科、华三、华为、锐捷、迈普等业界主流厂商网络设备的自动发现和性能采集,系统通过SNMP、ICMP、ARP等协议自动发现设备基本信息、设备接口配置信息、设备之间物理连接关系等,对于不同厂商不同型号的设备,系统可自动标识不同的图标。对于无法自动识别生产厂家及产品类型的网络,提供手工方式加以定义。对于网络设备提供设备面板视图的管理。系统支持SNMPV1、V2、V3的拓扑自动发现功能,对于不支持SNMP的设备,提供通过telnet的方式,进行拓扑发现。对于路由时延、抖动等异常情况的监控和告警,提供路由监测功能,可由监控管理系统自动计算出任意两点间的最短路径。采集指标包括支持网络设备的CPU利用率、内存利用率、网络端口的吞吐量和丢包率、接收和发送的ICMP包率,端口ARP包率、单播包率、出入带宽利用率、出入丢包率、出入错包率、出入速率、广播包率、组播包率等指标。可对不同的网络节点根据影响程度不同设置不同的轮训时间。系统能够对某一网段、IP地址等限定条件进行拓扑发现,并且可以设定更新周期,自动排列生成网元设备图及网元设备之间的连线。系统从各个方面对网络设备进行监测和管理,包括网络设备的可用性、设备性能、流量管理和业务分析等。网络设备包括各种类型的交换机、路由器、防火墙、VoIP网关设备和其他启用了SNMP协议的网络设备。(1)设备基本信息设备的基本信息包括设备名称、设备类型、设备厂商、设备节点合法性(是否登记为合法设备)、IP状态(是否在线)、是否支持SNMP及设备OID等信息不可修改;允许用户修改的基本信息有:设备别名、主标识IP、设备等级(是否重要设备)、只读Community、可写Community、设备描述等。设备基本信息图示(2)设备流量监测监测设备端口的数据流量情况,及时发现异常的网络流量。监视对象包括端口入速率、端口出速率、端口入单播帧速、端口出单播帧速、端口入广播帧速、端口出广播帧速等。监测设备端口的数据流量情况设备端口的实时流量图示(3)端口丢包率监测 可通过检测端口通讯链路的稳定性、抖动率,及时发现系统隐患,保证业务正常。丢包率监测为确保数据中心关键主机、服务器设备的高速、稳定运转,系统可从多个方面对主机服务器的硬件设备及操作系统进行监控管理和性能管理。系统通过高度集成的服务器管理模块对服务器的CPU、内存、硬盘、网卡等硬件的关键运行参数,以及软件和应用程序的进程、服务、端口等的运行状况,对系统日志进行分类扫描查询。通过数据采集和分析,系统能够及时对影响服务器运行性能的故障事件发送报警,并采取相应的故障处理措施,保证服务器的正常安全运行。(1)基础性能监测CPU性能监测通过线性指标能够了解到服务器系统CPU资源占用情况。服务器CPU资源占用情况内存使用情况监测通过线性指标能够了解到服务器系统内存资源占用情况。服务器内存使用情况磁盘使用情况监测通过柱状图能够了解到服务器系统磁盘空间占用情况。服务器磁盘使用情况(2)服务进程监测服务监测监控服务的运行及变化情况,用来判断服务是否正常服务运行状态监测图示进程监控监控进程中线程的性质,CPU、内存的使用情况,分析进程的安全状态。进程列表拓扑管理 系统能够采用多种算法、迅速搜索整个网络内的所有节点、自动勾画出整个网络的准确物理拓扑图,包括设备间的冗余连接、备份连接、均衡负载连接,网络用户可以为每条设备间连接加以注释,为每台设备设置中文设备名称,监测网络中每台设备的名称、IP地址、类型、厂商等,并能够自动辨别线路连接类型。提供拓扑图的编辑功能,可以在已发现的拓扑图上进行编辑修改连接关系。同时,根据拓扑所反应的对象,系统呈现给用户的拓扑分为网络拓扑、物理拓扑和子网拓扑。网络拓扑是根据网络层的角度来分析和展现的,表达了被管网络各个子网之间的连接关系:网络拓扑示意 物理拓扑是反映被管网络的实际连接的二层网络拓扑图。物理拓扑示意 子网拓扑是从网络链路层角度进行分析并给出的逻辑拓扑结构。子网拓扑示意系统在网络拓扑发现结束后,会自动地画出设备间的连接关系,即链路,同时对链路的连接状态进行监视和管理,可对指定链路设定告警阈值,如链路带宽占用率阈值、链路速率阈值等,在链路连接发生故障或达到告警阈值时时,链路以颜色的改变提醒网络管理人员,并产生相关告警。用户可直观的从链路提示信息中获取到该链路的基本信息,包括:该链路的源设备IP地址、源端口、目的设备的IP地址、目的端口以及该链路实时的进出流量、错误率、丢包率等。如下图所示:链路信息提示机房仿真 动环监控配电柜监测监控对象各楼层市电输入柜、其他配电柜。监控实现每一个串口总线回路的配电柜电量采集设备采用手拉手的接法将监控信号接起来连至区域汇总采集箱,最终接至监控主机。监控主机通过实时不间断的轮询采集将信息传送给监控平台进行显示、报警。监控性能实时监测配电柜输出相电压、电流、频率、最大千伏安、输出功率(有功、无功、视在)、谐波率、功率因素等;监测输出电压、电流、频率超限,过载,负载不平衡,交流电源失效等告警信息,监测到报警时主系统发出报警。配电开关及电流监控监控实现将每一个串口总线回路的配电柜开关及电流采集设备采用手拉手的接法将监控信号接起来连至区域汇总采集箱,最终接至监控主机。监控主机通过实时不间断的轮询采集将信息传送给监控平台进行显示、报警。监控性能通过配电柜厂家提供的协议,实时监测配电开关状态及各路开关的电流值。实时判断开关是否跳闸及各路电源的负载情况,当开关跳闸或者负载越限时,系统诊断为有故障(报警)事件发生,监控主系统发出报警。发电机监控监控实现设备已经带有串行接口。将发电机组分为两组,每组智能接口采用手拉手的接法将监控信号接起来连至区域汇总采集箱,最终接至监控主机。监控主机通过实时不间断的轮询采集将信息传送给监控平台进行显示、报警。监控性能实时显示并保存各发电机通讯协议所提供的能远程监测的运行参数和各部件状态。实时判断发电机的部件是否发生报警,当发电机的某部件发生故障或越限时,监控主系统发出报警。实时监测内容包括:输出相电压、输出相电流、功率、油压、水压等;电池是否充电、电池工作模式、系统报警等。UPS监控子系统监控实现设备已经带有串行接口。将每一个串口总线回路的UPS智能接口采用手拉手的接法将监控信号接起来连至区域汇总采集箱,最终接至监控主机。监控主机通过实时不间断的轮询采集将信息传送给监控平台进行显示、报警。监控性能实时监测各UPS通讯协议所提供的能远程监测的运行参数和各部件状态。实时判断UPS的部件是否发生报警,当UPS的某部件发生故障或越限时,监控主系统发出报警通知。实时监测内容包括:输入相电压,输出相电压,旁路相电压,输入相电流,输出相电流,旁路相电流,电池电压,电池电流,输出频率,系统负载,电池充电程度,电池后备时间等,过载,电池工作模式,旁路工作模式,电池电压高/低,系统报警,整流器报警,逆变器报警,系统关机,旁路电压超限等。空调监测机房使用的空调必须具备智能通信板且带RS232接口。系统将通过空调的通讯接口板及通讯协议(需用户提供正确的通讯接口和通讯协议),可实现实时监测回风温度、回风湿度、温度设定值、湿度设定值、空调运行状态、风机运转状态、压缩机运行状态、加热器加热状态、加湿器加湿状态、压缩机高压报警、风机过载报警、除湿器溢水、加热器故障、气流动故障、过滤器堵塞报警、温湿度过高/过低报警、制冷失效、加湿电源/缺水故障、压缩机低/高压报警等运行参数进行监测,以及对空调的远程开机、关机,空调时间切换设定。(监测内容由厂家的协议决定,不同品牌、型号的空调可能所监控到的内容不同)空调参数监测系统一旦监测到有报警或参数越限,将自动切换到相关的运行画面,并进行短消息发送。对于空调的重要运行参数,可进行曲线记录,用户可通过曲线记录直观地看到空调机组的运行品质。实现方式:精密空调:通过精密空调的智能通讯接口RS232/RS485与主机实现通信,获取数据。监控内容:空调状态:可实时监控空调的工作(开关)状态,检测空调是否有在工作,并做出及时处理。空调控制:可远程控制空调的开机和停机、远程设置空调的温度与湿度等,实现空调与温湿度系统的联动控制。空调监测报警系统监测监测由红外报警主机提供的接点报警信号,监测红外报警系统的工作状态;并可以通过软件进行与门禁、视频等系统的联动。红外报警示意视频监控系统监测视频监控设备运行状态监控系统采用全新的故障检测方式,能快速地检测到故障信息并可以通过网络及时地掌握前端设备及录像设备的工作状态,确保所有设备都在线工作,解决了以往监控系统维护困难,出现问题难以排查的难题。对网络监控管理服务器/NVR的检测:设备运行状态监控系统可监控NVR、平台等的运行状态,包括主机是否在线、状态是否正常、CUP使用率、内存使用率、网络使用率等状态信息,还可监控NVR或平台所管理的报警录像设备的状态,包括设备是否在线、状态是否正常、设备录像状态、报警状态、设备码率、设备视频状态等信息。对存储管理服务器的检测:可以对存储管理服务器实现全面的监控,监控存储管理服务器网络连接情况、与监控系统的通信情况;监控存储管理服务器CPU、内存、网络使用率、录像剩余空间的使用情况;监控存储管理服务器定时录像、定时布防的开启情况;监测存储管理服务器硬盘数据写入情况、循环删除条件及磁盘空间设置情况。任一情况出现异常,都会产生告警提示。存储管理服务器的录像空间预警监控,当录像空间小于设置的临界值,系统就会产生预警提示。监控存储管理服务器的录像文件数据、用户访问记录。视频存储服务器监测对前端设备的检测:设备运行状态监控系统服务器可监控前端的设备是否存在断网或异常情况、信号是否正常、设备的码率、设备的视频状态信息等,以及监控设备码流的变化状态。实现效果本系统支持以三维仿真的形式展示机房视图,并可在三维场景中对机房视图进行编辑,可对机柜状态进行监控,并监控机柜设备部署和运行,支持对视图中的机房详情进行查看,提供机房名称、机房编号、机房位置、机房负责人、联系电话和Email等信息;支持视图中对机柜详情进行查看,提供机柜名称、机柜编号、生产厂商、容积等属性信息。如下图所示:机房监控三维视图机房监控三维视图资产管理 本系统提供用户内部IP资产的管理,按照网络设备、桌面设备、布线系统对用户所拥有的网络设备、服务器、PC、打印机、各种配件(显示器、显卡、网卡、硬盘)、软件、备品备件等相关的IT资产进行分类管理,提供设备基本信息、设备管理信息、设备配置信息等网络辅助信息的统计、检索、分配、调剂操作,以统计IT资产的实际使用情况。资产列表系统能自动搜索网内的设备,对支持SNMP协议的设备能识别设备的类型、型号、生产厂家以及设备的硬件配置信息,如CPU、内存、DMA、I/O、硬盘、端口等,对网络设备可以管理到端口级,如端口的类型,速度,端口工作模式等。对不支持标准协议的设备,系统支持手动的建立资产档案。手动添加资产信息安全事件分析 安全事件管理是运维人员对IT基础架构故障进行响应、处理的服务管理流程。事件管理提供故障记录、分类、调查、诊断、解决,并监控、跟踪故障处理情况,以期尽快将IT基础架构所提供的服务恢复到正常范围,快速响应、快速恢复,使故障对业务的影响最小化。事件管理功能包括事件接收和记录、事件分类和在线支持、事件调查诊断、事件解决和恢复、事件满意度调查及事件关闭等操作;事件管理支持多种事件录入方式,支持与其它系统集成的派单方式。如监控平台中手工或自动派单生成事件,如支持WEB和其它管理软件自动派单等方式;提供事件处理模板,预先定义出事件处理的手段、步骤、期限等,保障处理的及时准确,实现可预期的服务承诺;支持对事件处理水平进行量化考核功能;支持事件单模板自定义功能。本系统支持实时地对采集到的不同类型的信息进行归一化和实时关联分析,具有智能事件关联分析引擎,能够实时不间断地对所有范式化后的信息流进行安全事件关联分析,分析所有机器数据快速了解任何告警或事件的相关性,并提供了丰富的可视化安全事件分析视图,协助运维人员迅速准确地识别安全事故。主要包括的功能是实时分析、关联分析、历史查询、统计分析、趋势分析等。系统可用性分析应用业务监控 性能监测管理能够帮助网络管理员监测网络及设备的性能,分析和确定网络及设备的性能瓶颈,为网络及设备的性能优化提供可行的参考。例如可以对指定的端口进行流量监视,从而判断出网络流量瓶颈等问题。系统能够监视的性能参数包含:网络设备性能参数:包括路由器、交换机、防火墙等网络设备的CPU、内存使用率,各端口进出流量、丢包率、错包率、带宽使用率、设备响应时间等信息;服务器性能参数:包括各类应用服务器设备的CPU、内存、硬盘空间使用率等运行信息,以及其上运行的应用程序和相关服务性能信息,如应用和服务的响应时间、系统资源使用情况、自身性能指标、服务可用性等;数据库性能参数:包括对各种主流数据库(如ORACLE、DB2、Sybase、SQLserver、Mysql等)的基本参数、文件系统、表空间、碎片、死锁、消耗大cpu的SQL、占用长时间的SQL等状态信息。系统可以针对主机资源参数,如CPU使用率,内存使用率等设定合理的门限值,在性能越界的时候给出性能预警。主机资源预警示意图链路质量监控系统通过通用网络探测工具和手段,对到达特定设备或网络节点的网络链路质量进行采集和监控,包括网络时延、时延抖动、丢包率等重要网络链路质量指标。基于自动生成的网络拓扑图,根据网络带宽利用率(单位时间流量/带宽*100%)不断地修改连接符号的填充百分比,使连接符号以不同粗细代表和数字标注方式显示当前时刻的流量情况,使用户对网络链路流量的了解变得更为方便和直观。当用户点击选中某连接符号后,可以显示该条链路的详细流量情况。包括:在拓扑图的线上(链路)可以标注对应的入带宽利用率、出带宽利用率、出流量、出流速、入流量、入流速、总流量、总流速等内容;在拓扑图的线上,以线条粗细直观显示链路的流量大小,以线条的颜色直观显示链路的告警状态等;流量阈值或者带宽利用率阈值设置,进行不断闪烁,生成阈值告警消息。链路质量监控系统能够周期性地自动采集性能数据,采集周期和采集时间可按照一天内的采集时间,和每周内的采集天数进行配置,最小的数据采集时间周期为1分钟,默认时间是5分钟。数据采集可安装不同的厂商,不同的地理位置,不同的职能部门进行批量的停止和启动。对用户所关心的主干链路流量,可生成流量、流速、包数、会话数变化曲线表,并通过设定阈值产生告警消息。按照应用流量、端到端流量、主机流量、目标流量进行统计,生成日、周、月统计报告等。网络流量监控对于网络及设备的性能监视是网络管理的一个重要的功能,同时如何做好故障发生前的性能预警,在故障发生前通知网管人员及时予以处理,也是网管性能管理的一个关键环节。系统的性能管理功能和故障管理功能的结合,可以为网络及设备的性能做相应的预警,在监视某性能参数超过预置的门限时,产生告警,及时地通知网络管理人员。系统可以针对网络性能参数,如进出流量,错误率、丢包率等设定合理的门限值,在性能越界的时候给出性能预警。对于网络性能参数的性能预警,不仅仅只是针对整个设备,同时对于设备上的端口也可以做更为细化的门限和性能预警设置,比如交换机,既可以对交换机总流量进行性能预警,同时也可以对其相应的端口做门限设置后性能预警。网络性能预警设置示意图系统可以针对所监视的应用程序和相关服务,如响应时间等设定合理的门限值,在性能越界的时候给出性能预警。性能预警系统除了提供对于设备常用相关性能参数的监视外,同时也为用户提供了灵活简便地性能监视参数拓展的功能,用户可以根据实际管理维护工作的需要进行相关性能监视参数的拓展与添加。服务器性能监控实时采集获取服务器的性能指标和资源使用情况,包括CPU、内存、磁盘、网络吞吐量等服务器重要运行指标。系统在一个界面中,综合展现某台具体服务器的配置、性能、历史数据和故障信息。服务器性能重点显示包括实时和最近24小时CPU平均利用率、MEM利用率、文件系统利用率。服务器状态监控主机监控主机操作系统监控支持通过SNMPPolling、SNMPTrap、Syslog、CLI(Telnet、SSH)等协议实施监视服务器系统的资源使用情况,管理和监视服务器操作系统的运行状态和性能数据,包括服务器的配置数据、CPU负载、内存利用率、应用进程、资源配置、资源占用、磁盘I/O、文件系统、文件体积、目录与活动目录、磁盘、网卡等信息的分析与监视。服务器性能管理实现对主机性能、故障、进程、磁盘、文件系统、日志的监控,并生成报表和告警信息,主要的性能管理内容包括:服务器CPU性能(5分钟、小时、日、周)服务器内存性能(5分钟、小时、日、周)服务器磁盘性能(日、周)服务器流量性能(5分钟、小时、日、周)服务器CPU峰值分析CPU峰值分析(小时/日)磁盘I/O繁忙分析服务器I/O性能统计(小时/日)服务器磁盘状态服务器接口流量管理提供服务器小时、日、周、月流量趋势分析,并提供流量阈值告警,当服务器接口流量达到阈值时,产生相应阈值级别的告警事件。服务器网络接口状态服务器进程管理包括对服务器各进程性能的TOPN排名和进程性能趋势分析。包括进程占用cpu利用率、占用cpu的时间、驻留内存和虚拟内存的大小。服务器监控管理主要指标基本信息:主机名称、操作系统名称、操作系统版本、操作系统位数、机器开机运行时间等基本信息;性能:CPU利用率,内存利用率,文件系统利用率,磁盘IO,硬盘读写速率、虚拟内存使用率、网卡使用率、内存页交互速率等;进程:可对指定进程资源占用情况进行采集。可按应用监控多个进程的汇总的CPU、内存利用率。默认可对每个主机top10进程进行记录。可监控进程、服务是否正常运行,进程数量是否发生变化;异常将产生告警信息;日志:实现日志关键字、日志文件大小、日志文件是否丢失等指标的监控,异常将产生告警信息;配置变更:当主机的硬盘、CPU、内存等信息发生变化时,系统会产生告警,发给指定的管理员;特定文件:监控系统中文件和目录的相关属性,包括名称、文件大小、拥有者、访问权限以及链接等。如发现文件被修改或其他异常时(包括非法访问、大小异常等)产生报警;用户:监测与用户有特定关联的信息,主要包括用户名、用户ID、登录时间、登录终端IP信息等;服务器网络接口监控:监控服务器网络端口的输入、输出、错包及各种可用统计参数,端口是否被停用或者删除等;交换空间:交换空间的大小、交换空间使用率等;热备系统:获得服务地址,获得接管地址、Cluster节点状态、Network端口状态;IPC:共享内存、信号灯、消息队列;目录:指定目录的大小、修改时间及包含文件个数;活动目录:对活动目录帐号(windows)进行模拟登陆、验证帐户和密码是否有效;UNIXSCRIPT:监控指定的脚本的运行情况,支持结果匹配。风险管理 网络运维管理应注重运行维护管理,偏向于事前管理而非事后管理,为此强化了故障管理与故障预警管理。设备失效固然是严重故障,但本系统的设计并非为了让用户被动地等待“出事”,绝大多数告警项的设计是为了建立风险预警机制,举例来说,对一条千兆网络可以连接300M的流量,但如果考虑到日常的流量一般不会超过100M,这就是“事件”,通过设置流量告警上限,结合延时设置(放过偶尔的峰值流量)可以及时发现隐患。数据中心运维普遍存在数据量急速膨胀,运营成本高昂、安全性差,业务连续能力低等一系列挑战,例如:各种服务器上各种各样的帐号和密码种类繁多,管理复杂;管理员、设备供应商人员、第三方代维人员较多,究竟谁动了配置和数据不可定位、追溯;各种误操作、违规操作、恶意操作可能导致系统问题或信息被篡改、破坏、泄漏;用户通过远程接入进行操作存在严重隐患;对操作行为无法监控和审计。数据中心需要解决的问题主要有:如何降低运维操作导致的安全风险;如何降低运维操作成本,从复杂繁重的维护升级和大量的后续资金投入中解脱出来;如何保障数据中心运维管理合规性。运维风险管理的核心则是通过风险管理系统,使风险管理设备与IT基础设施的完美结合,运维人员可以进行更高效的操作,做出更明智的决策,降低运维操作风险,提高信息系统运行的安全性和事件的追溯能力,提高工作效率。风险管理系统四要素(一)更透彻的感知更透彻的感知是指风险管理系统可以时刻测量、捕获、监控和传递运维操作信息,基于专用硬件设备和裁剪定制的操作系统,通过使用先进创新的感知手段,快速获取运维操作信息并进行分析,便于立即采取应对措施和进行事后追溯。支持对所有主流运维协议的监控,包括文本类、文件类、图形类、Web类、数据库类和应用类等多种协议(如SSH、TELNET、RDP、VNC、X11、(S)FTP、HTTP(S)、ORACLE、InforMix、DB2、MSSQL、Sybase、MYSQL)的监控。支持多类设备和系统,包括主机服务器、网络设备、安全设备及数据库系统等,支持IBMAix、HPUnix、Linux、Windows等各种操作系统主机和各种网络、安全设备;支持WinXP、Win7、Win8、Win10等主流运维终端系统;支持Windows下所有主流浏览器,IE(内核)、Firefox、Chrome、Opera等。自动获取管理的数据中心的设备账户和设备信息,方便管理员了解数据中心IT设备状况并及时进行更新和操作。(二)更全面的可见性更全面的可见性是指通过本系统,使得管理者能更方便的了解当前的运维情况,更好地对运维操作状况进行实时监控,从全局的角度分析风险并实时审计,从而帮助管理者完成安全可控的IT运维。风险管理系统提供基于数据包的协议分析、还原虚拟化技术可以实现操作界面模拟,将所有的操作转换为图形化界面予以展现,实现审计信息不丢失。风险管理系统提供多种类型操作信息回放展现,除针对运维操作图形化审计功能的展现外,同时还能对字符进行分析,包括命令行操作的命令以及回显信息和非字符型操作时键盘、鼠标的敲击信息。使用更贴切、操作更易用,支持常规终端应用自适应关联,支持常规终端应用显示真实目标IP地址,注重细节上的用户体验。报表全视角模型展现,提供图形、表格等各类可视化展现方式,支持定期发送自定义报表,为用户提供全面的运维审计和合规性管理视图。(三)更深入的智能更深入的智能是指深入分析收集到的数据,以获取细粒度、精确的运维审计信息,更加系统、全面的提供IT操作风险控制、内控安全和合规性等方面的完善、有效的审计手段。目前通用的审计工具大多从网络层面或服务器日志层面获取较为庞杂的信息,往往会导致关键的管理信息或敏感操作湮没于日常业务数据中,或无法追溯操作行为轨迹、了解操作行为意图,影响审计的有效性或效率。提供全面的操作追踪服务,再现关键行为轨迹,探索操作意图,支持全局实时监控与敏感过程回放。通过设备组内资源的扫描机制,便于智能化管理后端众多资源。这样在设备组设定好设备范围后,资源自动扫描将极大地减少设备的前期部署与后期管理成本,能够充分满足现有或未来设备数量较多的场景。简洁易用的人机交互,重视细节体验,采用符合用户线性化操作习惯的界面交互设计、符合用户层次化思维的设备管理界面设计以及支持用户关键字全列表视图模糊查询设计等人性化的交互设计,降低产品上线后的使用和操作成本。(四)更可靠的安全更可靠的安全是指通过对当前的安全实践进行评估并将其与业务需求和经营目标统一起来,实现运维操作管理和产品本身的安全。风险管理系统提供高效的身份和访问控制管理,随着IT基础架构的互联化和向云计算迁移,控制和监控用户的访问特权与活动变得越来越关键,也越来越复杂。尚思卓越运维风险管理解决方案可帮助企业减轻来自未授权访问的风险,支持有效的身份和访问控制管理。风险管理系统将通过全新的方式连接运维人员与数据中心IT基础设施,帮助运维人员实现更透彻的感知、更全面的可见、更深入的智能和更可靠的安全,可以有效提高数据中心重要信息基础架构的安全级别,辅助对信息安全故障和安全事件的全面记录和事后追溯定位,能够有效帮助数据中心管理者降低运维使用成本,提高信息系统运行的安全性和事件的追溯能力,为管理者提供智慧的数据中心运维风险管理能力。运维业务 根据需求,系统的业务运维主要包括值班管理、故障处理、业务处理等功能。值班管理对IT人员的日常值班工作进行统一的管理,主要功能包括:值班计划的配置功能:在前台界面提供值班计划的配置功能排班功能:支持自动排班和手动排班及调整值班表的派发:定制完成后派发值班表给相关人员交接班功能值班记事功能值班历史记录查询功能值班记录值班管理考核指标(KPI)则包括:不准时到达值班岗位的次数及比例;未完成值班计划任务的次数及比例;可根据客户实际现状制定考核指标。故障处理为运维人员提供故障单的填写和维护、故障单的处理状态查询功能和故障单的处理功能,并且能够将已处理的故障信息导入故障经验库、能够对故障单的处理情况进行统计,并以图表形式进行展示、能够对用户终端到目标服务器的网络连通情况和http协议连通情况进行诊断。故障管理是运维人员对IT资源故障根本原因进行分析、解决的服务管理流程。故障管理负责对IT资源中最常发生或具有重大影响的故障进行分析,帮助运维服务部门查找引起故障的根本原因,并生成变更请求(RFC)、变通方法或建议的预防性措施来防止故障的再次发生,变被动维护为主动预防。故障管理功能包含故障识别与记录、故障审核与分派、故障调查与诊断、提出变更请求或解决方案、故障回顾、故障关闭等操作;支持故障类别自定义功能;支持故障单模板自定义功能。业务处理为运维人员提供业务单的填写和维护、处理状态查询以及业务单的处理功能。告警中心 告警中心本质上是故障管理系统,辅助管理骨干网和子网络的设备、网络和业务所出现的故障;帮助网管人员采集、统计和分析来自网络各方面的报警信息和故障信息,准确预警、定位和解决网络中的故障。告警自动通知故障发生时系统将视告警严重等级的不同,分别以红、橙、黄、粉红、绿五种颜色及不同的图标代表。图24故障等级示意图除了常见的声光告警以外,系统还提供发送邮件、手机短信等告警通知方式。图25邮件告警设置示意图告警分析与统计告警上报的同时,系统能实现故障根源性分析,从众多的告警噪声中剥离出真正的告警源。提供当前和历史告警统计,可以针对不同的过滤条件进行统计(比如:发生的时间段,严重等级,告警消息,IP地址等),并提供相应的统计报表。图26故障统计示意图告警处理系统提供对于各种告警的处理功能,包括:查看告警的详细信息、添加告警注释、告警的确认、告警的清除、告警的删除、告警的查找以及对于历史告警信息的统计查询功能。图27告警详细信息显示窗口系统提供的告警逐步升级的功能,可以帮助管理员依据预先设定的条件规则对所发生的关键性告警进行进一步的追踪和提醒,比如当某设备上指定类型的告警在规定的时间内未解决时,可以自动升级为更高严重等级的告警,并扩大通知网络管理人员的范围等等。系统提供告警依赖性(或关联性)的设置,可以防止与发生故障的设备相关联的设备在此设备已经发生故障时,系统还对其关联设备进行无谓的轮询,造成系统性能的下降。系统同时对设备上已知原因的告警提供抑制的功能,可以帮助管理员根据告警的严重程度及时间上的计划做出合理的故障解决安排。为了防止不同甲方端同时进行告警确认等操作,系统采用了对象加锁的方式完成并发控制。图28故障告警处理设置图示故障告警源系统能够通过多种方式实时采集和监测以下几大类型的告警或事件信息:设备的告警:直接来自设备本身的告警;如:CPU过负荷,内存不足、交换机某端口断掉等等。应用服务的告警:监视的关键应用服务发生故障时所产生的告警,如:服务运行状态、响应时间等等不正常。性能的告警:当设备某个性能指标超出预先设定的门限时,系统触发性能告警。如:设备主机资源参数、端口流量、端口丢包率等等超过预先设置的门限值等。通信连接告警:当某一设备持续一定时间不响应网管系统时,网管系统生成的该设备的通信连接告警等。安全管理类告警:违反系统对于安全管理的设置规则后的告警,如:IP和MAC绑定,MAC和端口绑定后,非法盗用IP等等的告警;同时也包括网管系统本身在与用户网络中网络安全设备或系统做过信息管理集成配置后,网络安全设备或系统产生的事件和告警。拓扑图上所显示的各被管对象的颜色可以直接反映出其内部被监控对象的状态。如绿色表示用户所关心的对象正常运行,黄色表示警告信息,红色表示严重错误。工作流管理 工作流管理系统的主要功能是通过计算机技术的支持去定义、执行和管理数据中心运维工作中的各项流程,协调工作流执行过程工作之间以及群体成员之间的信息交互。工作流管理系统将业务流程中工作如何组织协调在一起的规则抽象出来,从而分离了具体工作的逻辑和流程组织的逻辑。实现对业务过程的抽象建模、业务过程仿真分析、业务过程优化、业务过程管理与集成。从而最终实现业务过程的流程自动化管理。工作流系统工作流通常与业务单据相结合,组成完成的业务流程。本系统中可以定义常用的工作表单。而流程本身也可以由管理员通过图形拖拽的方式自行设计。工单设计流程设计报表管理 本系统提供灵活和强大的数据查询、统计、分析、发布及报表展现等功能,用户可以通过该模块获得网络、系统及业务应用的配置、状态、性能、安全等各方面的报表和图表数据。可以统计网络中的各种数据,按照日,周,月等定期生成报告。系统支持图表可视化编辑,支持鼠标直接在图标上选定区间并展示。支持统计报告,TOPN报告,趋势报告设备对比报告,时间对比报告并支持曲线图,饼图,柱状图等方式展示报告。具体功能包括:提供身份认证功能,可根据不同的用户(组)定义不同的报表,使网络、系统管理员、系统运行主管、领导等根据各自关注的重点通过浏览器查看报表系统。本系统报表可至少保存两年的主要运行数据,能够提供多种灵活、形象的分析图表。能够按照用户的要求对网络系统的端口流量、链路状况、设备运行状况、系统性能数据、故障维护数据、系统安全状况基础数据等自动生成相应的日报、周报、月报、年报等。本系统生成的报告全部是中文,在报告中包含对报告内容的说明,使管理人员可以清楚了解报告内容、报告数据的含义、数据量定义等;在给出文字报表的同时,可生成多种形式的图表。技术管理人员能够根据这些报表准确评估整个网络环境运行状况,及早发现故障隐患及性能瓶颈,并对数据中心的计划、扩容和升级提供战略帮助,为数据中心管理的长期规划提供数字依据。系统支持各类报表生成,自动生成各种组合的相关监测对象实时的或基于天、星期、月的不同报告和报表,包括:网络运行统计路由器/交换机工作端口的通断状况统计流量统计服务器/主机运行统计关键服务器运行通断状况统计应用中间件运行统计数据库运行统计业务系统运行统计故障统计和分析报表。网络运行状态报表示意图异常状态列表主机信息统计网络流量Top5统计关键服务器流量统计脆弱性管理 计算机网络本身存在一些固有的弱点(脆弱性),非授权用户利用这些脆弱性可对网络系统进行非法访问,这种非法访问会使系统内数据的完整性受到威胁,也可能使信息遭到破坏而不能继续使用,更为严重的是有价值的信息被窃取而不留任何痕迹。网络系统的脆弱性主要表现为以下几方面:操作系统的脆弱性计算机系统本身的脆弱性电磁泄漏数据的可访问性通信系统和通信协议的弱点数据库系统的脆弱性网络存储介质的脆弱此外,网络系统的脆弱性还表现为保密的困难性、介质的剩磁效应和信息的聚生性等。本系统支持主动脆弱性检测;支持安全配置核查功能。能够查询每次脆弱性扫描任务的开始时间、完成度和运行状态。支持对检测结果进行实时统计分析,计算出来的脆弱性事件等级。基于主动扫描的技术模拟攻击脚本对系统进行攻击,并记录系统对攻击行为的反应,从而检测出当前系统存在哪些漏洞。常用的脆弱性检测系统包括基于网络的脆弱性扫描系统和基于主机的脆弱性扫描系统。基于网络的脆弱性扫描系统主要通过网络,从外部发现计算机网络系统存在安全漏洞及其他相关信息,以获得与攻击者可得到信息相类似的信息,其典型的脆弱性扫描系统主要有Nessus、xscan、satan等。基于主机的脆弱性扫描系统,在网络内部主机上对计算机网络系统的安全漏洞进行扫描探测,可以得到更加详尽的信息,其典型的计算机网络脆弱性扫描系统包括ISS、Retina、Nssl等。在主动扫描的检测方法中,模拟攻击脚本采用人工构建的方法实现。最新漏洞的发布与构建相对应的攻击脚本存在着时间上的延迟。因而导致这种检测方法对未知攻击无能为力。脆弱性检测示意知识库管理 知识库是支持系统实现监控管理和安全服务管理的各类支持库的集合,它包括故障事件库、安全漏洞库、管理经验库、规章制度库、等级保护库等。系统提供了对知识库中各类数据的建立、维护、版本管理等的功能支持,并支持以标题、问题、关键字的多种查询方式进行检索。知识库维护界面系统把维护记录与知识库分成了两个模块,更加贴切用户的实际使用要求。维护记录可作为日常网络维护的备忘录,用户在维护一个故障时,可通过查询维护记录得知以前或者其他管理员对同一个故障的修复过程,提高工作效率。同时支持在添加维护记录的同时,把维护记录生成至知识库中,作为用户专属的知识库使用,缩短用户新进员工的培训时间。维护记录录入宏观安全态势分析管理 安全态势分析是以各种安全设备和软件中获取相关的数据,整合异构的网络安全设备,通过预定义的安全规则进行实时的安全事件关联分析,并集合当前网络的检测数据,加上之前定义的资产价值,进行相应的安全事件评估,从海量的安全事件中找出真正的威胁,消除误报。使不同层次的用户均能够准确感知网络安全态势,并能从不同角度给出建议措施。处理步骤包括:(1)数据采集本系统建立了一套数据采集的流程规范,不但能够采集当前已有的设备,而且对于将来加入的新的安全设备,可以很容易实现扩展。(2)安全事件预处理通过在预处理等操作流程中采用聚合、聚类等高效算法来实时压缩重复告警、去除冗余,从而为后续高效处理提供准确数据。(3)多层次关联评估系统建立了一套行之有效的关联评估框架,通过交叉关联、动态关联等方式从大量看似独立的安全事件中准确识别真实的安全威胁事件。(4)结果展现结合仪表盘、曲线图、列表等多种形式对安全态势评估结果进行呈现,从而使得不同分工、不同知识背景的用户均可从较为准确地感知网络安全态势。安全态势展示系统自身的审计 本系统对实时监控系统自身的CPU、内存和磁盘使用率也进行了监控处理,并以图形化方式动态显示,实时监控所有数据采集引擎和中心平台的工作状态,一旦发现故障,及时告警。实时统计系统数据处理能力,包括:全部数据采集指标,近24小时数据采集指标、数据聚合指标等。本系统对于所监视设备性能参数,均提供两种性能图表(历史性能图表和实时性能图表)供用户查看及分析。历史CPU利用率统计示意图实时CPU利用率示意图历史端口接收流量示意图实时端口接收流量示意图系统同时为管理员提供了多种性能参数的统计报表,便于网络管理员获悉网络及设备的各种性能情况,以便更有效地评估和优化网络及设备的性能。统计分析本系统提供多种数据统计报表,可供管理人员评估决策使用。设备资源统计展示设备分类、设备类型和设备型号的台数统计信息,并生成报表。设备资源统计报表软件统计能够对软件的各类信息、日志进行关联分析、机器学习,根据告警中心的配置进行告警。展示各类软件告警级别统计信息,能展示详细信息,并生成报表。软件告警统计性能统计支持对数据中心各个业务、设备的性能进行综合统计和分析,并生成评估报告。网络设备性能统计健康状况统计展示设备当前健康状态的统计。可以根据大数据建模分析、态势感知预测出设备可能出现的问题。设备健康情况统计知识库统计历史故障经验的统计和展示。展示故障类型、设备类型和设备型号的故障统计信息,并生成报表。故障信息报表服务器应用软件监控配置 数据库监测数据库是业务应用系统的重要组成部分,数据库的响应、处理、负荷都将直接影响业务系统的可用性和最终用户感受。数据库运行管理对Oracle、SQLServer、Sybase、Informix、DB2进行实时状态监听、性能瓶颈分析、空间动态分配、性能优化管理。全面采集和存储数据库负荷和性能数据,例如数据库的Cache命中率、表空间、字滚段、无效对象、无效扩展等,快速找出问题焦点,精确诊断问题产生的根源。同时通过故障诊断和运行性能分析,为数据库优化提供决策依据与支持。数据库出现故障、异常运行、越性能阈值时能够触发告警信息,并发送到IT运行监控事件管理中心中进行统一关联处理。数据库监控支持采用ODBC、JDBC等方式,实现对Oracle、SQLServer、Sybase、Informix、DB2等各种数据库进行实时监控。为用户提供更深层次的数据库运行性能分析和挖掘,帮助用户更进一步分析数据库性能,帮助用户得到系统当前的性能评估,同时根据这些信息为用户管理数据库提供专家建议。数据库监测项包括以下内容:数据库性能监测、数据库空间监测、内存利用率监测、数据库用户连接监测等,掌握数据库的基本信息和当前的运行情况。包括数据库实例基本信息、连接信息、Sga/Pga区配置、锁、缓冲区命中率、联机日志、表空间&数据库文件、回滚段、SchemaObjects等。本系统可以全面智能地监测各种与数据库应用相关的服务,从应用可用性、系统资源占用和数据库性能指标三个方面提供全面的监测管理策略,确保数据库的运行正常。系统可监测数据库的关键参数,如数据库系统设计的文件存储空间、系统资源的使用率、配置情况、数据库当前的各种资源情况、监控数据库进程的状态、进程所占内存空间、可用性等。(1)数据库基本信息包括文件系统、碎片、死锁、消耗大cpu的SQL、占用长时间的SQL等。图17数据库基本信息监测图示(2)数据库表空间数据库表空间的使用信息。图18数据库表空间监测图示(3)数据库文件I/O数据库的文件读写信息。中间件监测中间件监控范围包括各重要应用系统中使用的各类中间件,能够监视中间件系统的基本信息和运行状况,能够支持的中间件系统,包括Weblogic、Apache、WebSphere、Tomcat、Tuxedo等常用版本。系统提供一个统一的图形界面,用于集中监视、分析、预测中间件资源利用情况,当有可能发生问题时,及时通知管理员解决问题。中间件监控指标包括:监控中间件运行状态;监控中间件连接池的情况:连接池的状态、连接池名称、当前使用的连接数量、等待池中连接的最大客户数、丢失的连接数、连接池最大连接数;监控J2EE各部件(如JSP、Servlet、JavaBean、EJB)的性能和资源消耗情况;包括:Servlet、JavaBean、EJB中每个部件的平均执行时间、提交的交易请求情况等;EJB、Servlet的多种统计数据,包括被分配的Beans、在使用的Beans、空闲的Beans、超时的Beans数、等待的Beans、Servlet响应时间;TOPNServlet和JSP的详细信息;TOPNEJB的详细信息;TOPNEJB方法的详细信息;监控中间件JMS情况:JMS的连接总数、JMS当前的连接总数、JMS的最高连接数、JMSServer总数、当前JMSServer总数、JMSServer历史中最高总数、JMSSession的总数、当前的JMSSession数、最高的JMSSession数、已接收的Jms消息数、未处理的Jms消息数、Jms发送的消息数;监控JMX的运行情况;监控中间件执行队列的情况:执行线程的总数、当前空闲的执行线程数、队列中未处理的请求数、队列已经处理的请求数;监控中间件web应用:当前打开的Session数、打开的Session最高数、打开的Session的总数、状态、名称;监控中间件Heap情况:当前堆的总空间、当前堆已使用的空间、HEAP名称;监控中间件服务情况:当前打开的Socket数量、打开的Socket的总数、当前连接数、监听端口、管理端口、管理服务监听端口、ServerIP地址、Server名称、Server版本。web与应用监控管理对于IT系统中Internet服务质量的监控是通过远程模拟客户端访问服务应用的操作流程实现的。以定期轮询的方式获取其服务质量信息,以生成相应的性能报表,并可通过配置性能警戒值的方式生成相应的性能告警。目前支持的协议有:HTTP协议、HTTPS协议、SMTP协议、DNS协议、POP3协议、NTP协议、TCP协议。可查看监控协议的丢包率、最大时延、最小时延、平均时延等指标。通过应用服务管理可以达到以下效果:通过定期访问应用服务,可以及时知道应用服务的运行状态。如果应服务出现运行故障,维护人员可以及时知道,并快速采取措施;根据用户配置的策略,模拟客户端周期性的访问应用服务,定期检测丢包率、最大时延、最小时延、平均时延等对应指标,生成服务可用性报表报表——维护人员可以预防应用服务发生的故障,实现主动式的监控管理服务;模拟用户行为访问应用服务,根据用户设置的阈值产生告警,维护人员可以及时排除故障,保障应用服务的稳定运行。技术保障 系统技术保障模块提供技术资料管理、技术支持和软件维护等功能。技术资料模块可实现培训资料的维护、网上发布、多种检索、原始文件的下载、统计分析、日志管理功能,支持txt、doc、pdf、xml等格式的文件上传功能,可以按关键字查询相关在线帮助或常见问题处置的功能。技术资料管理系统提供一个协同交互的平台,支持当前主题的专家查找功能;支持支柱组的创建,能够灵活创建故障分析组、技术交流组等专题小组。依托统一通信平台,完成视讯交互和远程技术支持。即时通讯讨论组故障经验维护模块则完成故障经验的录入、删除、修改和查看的功能。输入要检索的词进入全文搜索引擎,完成对历史数据的抓取,并将所有包含该词的信息返回并展示。全文检索数据中心系统压力测试 招标文件中对数据中心压力测试有如下要求:“针对数据中心系统的业务、设备定制压力测试方案,通过分布式的压力测试手段,模拟大规模持续访问,并记录服务器请求响应时间、并发数量、错误率等性能指标,最终形成完整的服务能力测试报告。”本系统不支持此特性。用户管理 用户与权限管理用户管理实现不同的用户拥有不同的应用权限(包含菜单、操作权限)和数据权限。权限只与角色直接关联,角色和用户关联,实现不同用户拥有不同应用权限和数据权限。具体关系如下:一个用户可属于一个部门,但可属于多个岗位(工作组),每个部门可有0-N个部门管理员;用户和角色之间是多对多的关系,一个用户可拥有多个角色,一个角色赋予多个用户;用户和权限表是一对一的关系(引入权限表,主要是用于报表的关联查询);应用权限包含菜单权限、界面操作等资源权限,而且可以扩展;数据权限主要是指流程数据操作的权限。用户定义本系统可以对访问系统的管理人员设置的权限管理,不同权限的网络管理人员看到不同的内容,操作不同的网络管理内容,确保整个网络管理系统自身的安全。登录和退出系统都要求输入相应的密码,密码不能为空。本系统支持2级管理权限:系统管理级别和操作员级别,可以对不同的用户设置各自的密码和操作权限,权限设置可以细分到对某台设备的不同操作(如设置读/写权限等)。角色权限定义本系统支持对重要设备监控,可以根据设备的重要程度将被管设备分为不同的组,通过设置权限,每个管理员只需看见他所关心的设备。每当设备出现故障,就能清楚的发现是哪台设备发生的,并能查看详细故障信息。角色-设备映射用户视图本系统提供一个统一的综合运维平台入口,将使运维人员能够基于统一的整合管理界面,进行运维管理的信息查看和相关操作:门户展现:提供基于WEB灵活多样的信息发布形式,将各功能(如监控、流程、知识库)产生的管理信息进行统一的发布。改善运维人员的使用体验,提升日常运维管理效率。门户管理:提供动态灵活的展现模型编辑工具,用户可按照自身需要随意拖动并保存最终布局。主管领导视图运行维护统计报表,资源监控统计报表。重大故障信息、升级来的故障信息的展示。重要业务系统的拓扑展现。主管领导的其他展示需求。运维人员视图门户针对不同的小组(如:网络、业务、安全等),展示不同的管理内容和操作配置界面,如网络维护人员查看网络的web拓扑;业务系统维护人员查看业务系统的拓扑;安全管理员查看安全系统拓扑;机房管理人员查看机房方位图进行监控。监控图除了能够反映设备的状态外,还实时反映监控到的事件,在拓扑图上监控到的事件按照设备进行归类。各组维护人员可以查看自己类别的知识库记录,可以通过事件查看关联到的知识库记录,也可以直接通过搜索关键字来查找知识库记录。在维护人员的登录界面,醒目的位置提供公告信息。维护人员处理事件时,展现维护界面,维护界面包括维护人、维护时间、维护设备、事件内容、维护过程、维护结果、是否解决、转发给第三人处理等等,对事件处理完毕后能够对事件置状态,表示事件已经处理完毕

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论