共济IT一体化集中监控系统方案建议书(共74页)_第1页
共济IT一体化集中监控系统方案建议书(共74页)_第2页
共济IT一体化集中监控系统方案建议书(共74页)_第3页
共济IT一体化集中监控系统方案建议书(共74页)_第4页
共济IT一体化集中监控系统方案建议书(共74页)_第5页
已阅读5页,还剩69页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、精选优质文档-倾情为你奉上IT一体化集中监控系统方案建议书深圳市共济科技有限公司IT监控2012年04月专心-专注-专业修订历史记录日期版本描述作者2012-04-27V1.0共济IT一体化集中监控系统方案建议书张颖目录第1章 背景和需求1.1. 项目背景保障数据中心核心业务系统安全高效可靠地运行,是信息系统管理部门的重要职责和伟大目标,也是IT人的使命所在。IT人拥有不可推卸的权责。数据中心核心业务系统,从逻辑上看包含多个不同的应用组件,从物理上看运行在多个不同的物理服务器上,数据在不同的设备或系统间流动。要实现上述目标需要对数据中心进行全方位、多层次的综合监控,需要对问题处置和应急指挥进行

2、科学管理。1.2. 项目建设目标本项目主要针对解决数据中心管理和运行工作中的实际问题,主要作用表现在以下三个方面:监控对象一体化实现机房动力、环境、安保、小型机、服务器、网络、安全、存储设备、数据库、中间件、应用软件等跨平台一体化的实时状态、性能、事件、配置等数据的采集、正则化汇聚和保存。监控展示一体化所有监控对象的状态、性能、事件都集中的以三维效果图的方式展示出来,更方便、直观、高效的让数据中心工作人员准确的定位故障发生位置并处理所发生的紧急情况。监控管理一体化一体化集中监控系统实现7X24小时实时监控和报警、知识库支持的实时事件故障处理,自动化管理报表生成,资产管理、知识管理、机房管理等日

3、常管理功能,让工作人员在日常数据中心管理维护上更加轻松,以避免在不必要的环节浪费大量人力、物力,让工作人员将主要精力放在数据中心内核心业务上来,提高数据中心的整体业务效率。一体化集中监控系统的实施,将保障数据中心核心业务系统的安全、高效、可靠地运行,极大的提高数据中心管理工作的自动化、信息化工作效率,为更好的服务于社会提供强有力的保障。1.3. 需求概述通过需求调研,本建设项目的需求包括三个方面,一是监控管理系统的功能需求;二是监控范围的需求,包括具体的监控对象,监控指标;三是监控系统扩展性的需求。从功能上讲,本项目需要实现监测、控制和管理的一体化。具体包括:实时数据及状态展示、事件告警统一管

4、理、知识库管理、资产管理、机房值班管理、统计报表等。从监控范围上讲,本项目需要实现的监控类别包括: 动力、环境、安保、小型机、服务器、网络、安全、存储设备、数据库、中间件、应用软件等,从而实现一体化集中监控的目标。从系统扩展上讲,系统支持各网管系统和其他系统的集成,提供数据、事件的提取和发送接口,实现各集成系统状态、数据及事件的一体化集中监控展示。第2章 系统设计2.1. 功能模块从应用软件的层面看,IT一体化集中监控系统共由六大子系统构成,包括Web客户端、管理客户端、Web服务、监控服务器、后台服务进程和监控代理。各子系统具体功能及相互关系如下图:系统上线运行之后,使用最多的就是Web 客

5、户端。它提供了监控管所需要的一切。管理客户端是增减监控对象、调整监控策略、优化监控代理部署和监控策略的强大工具。Web服务包括工程文件、数据中转、自身监控、备份恢复、升级许可等诸多服务。除了数据中转服务外,Web服务不依赖后台的其它任何服务。它能够对系统的其它组件进行起、停操作和状态检测,从而实现IT一体化集中监控系统的持续运行。监控服务器是IT一体化集中监控系统中最核心的子系统。除Web客户端外,其它四个子系统都与监控服务器子系统直接交互。它内嵌强大的实时数据库,拥有侦听器、数据匹配、事件生成、数据保存、数据访问、连通检查和SNMP轮询在内的高性能的内核服务。例如,它的数据匹配引擎,可以同时

6、快速匹配出几乎任何代理发送过来的任何格式的数据;它的事件生成引擎按事件生成规则快速生成事件;它的数据保存服务按照保存策略快速地将监控指标的实时数据保存到关系数据库。后台服务是由一组可以独立安装在不同机器上的程序组成,包括告警服务、策略执行、协议执行、级联服务、业务监控接口、动环监控接口等。监控服务器加后台服务的设计,即保持了监控服务器的微内核又拥有了各种后台服务安装部署的灵活性。共济IT一体化集中监控系统监控协议即支持由标准协议支持的监控对象,也包括非标准的监控对象。标准协议包括:SNMP、IPMI、WMI、SYSLOG等。非标准监控对象通过由各类脚本(例如perl)写成的监理代理来完成。这些

7、脚本化的监控代理(我们简称“脚本代理”)即安全又高效,即可以本地部署,也可以远程部署,一切按需求灵活设置。2.2. 系统部署架构根据不同的监控需求,现提出两种系统架构:² 单个中心机房IT监控:IT一体化集中监控系统部署之后,分为客户层、服务层、业务层和采集层,通过四个层的实施,来实现综合监控和科学管理。系统部署的一个例子如下图所示:经过部署后,四个层需要实施的内容有:1.客户层。客户层包含报警服务器(报警网关)、管理客户端和Web客户端。报警服务器部署报警网关,负责对外的电话、短信和邮件报警,需要单独部署一台服务器;管理客户端安装C/S客户端软件,主要负责监控应用服务器的配置和使用

8、,需要单独为管理员配置一台服务器。Web客户端可以通过Web查看,只要网络连通,任何工作机都可以根据权限进行查看。2.服务层;服务层包含综合监控应用服务器和综合监控数据库服务器。综合监控服务器需要高性能服务器主机和Liunx操作系统,可保证更高的稳定性和性能,负责部署综合监控平台、工单管理子系统、报表子系统、系统管理服务、联动服务、Web服务、数据配置、存储和事件日志查询服务。综合监控数据库服务器需要高性能服务器主机和数据库服务,用于存储监控的历史数据和事件、配置信息等数据。3.业务层;业务层包含监控的各种业务系统,包括税收征管业务系统、网上报税业务系统和货运发票业务系统等。这些业务系统的运行

9、状态是监控的核心,其它方面的监控都是辅助于业务系统监控。业务层监控的功能是综合监控系统与各个业务系统通讯,获取业务系统状态。4.采集层;采集层包含各种硬件、系统和动力与环境。通过对本层的监控,可以更加准备的分析出业务出现故障的原因和实现预警功能。本层采用分布式设计,能够灵活增减监控设备,而无需在软件上修改代码,只需要配置即可。² 多机房联网型的IT监控:对于联网型的监控,可利用IT一体化集中监控系统的级联功能,实现各前端机房内设备的集中监控管理。部署同样分为四层:客户层、中心服务层、本地服务层和现场采集层。部署图如下: 1.客户层:客户层包含报警服务器(报警网关)、管理客户端和Web

10、客户端。报警服务器部署报警网关,负责对外的电话、短信和邮件报警,需要单独部署一台服务器;管理客户端安装C/S客户端软件,主要负责监控应用服务器的配置和使用,需要单独为管理员配置一台服务器。Web客户端可以通过Web查看,只要网络连通,任何工作机都可以根据权限进行查看。2.中心服务层:中心服务层包含中心应用服务器和数据库服务器。中心应用服务器需要高性能服务器主机和Liunx操作系统,可保证更高的稳定性和性能,负责部署针对所有前端站点机房的综合监控平台、工单管理子系统、报表子系统、系统管理服务、联动服务、Web服务、数据配置、存储和事件日志查询服务。综合监控数据库服务器需要高性能服务器主机和数据库

11、服务,用于存储所有前端站点机房监控的历史数据和事件、配置信息等数据。3.本地服务层:本地服务层包含一台前端应用服务器。前端应用服务器负责部署本机房内设备、操作系统、业务系统以及动环系统的综合监控,并把监控信息即时传递给中心服务层。本层采用分布式结构,增减所监控前端机房数量时,只需增加或减少相应数量的前端应用服务器。4.现场采集层:现场采集层包含各种硬件、系统和动力与环境。通过对本层的监控,可以更加准备的分析出业务出现故障的原因和实现预警功能。本层采用分布式设计,能够灵活增减监控设备,而无需在软件上修改代码,只需要配置即可。2.3. 软件架构一体化集中监控系统分为四个层次结构,系统四层结构如下图

12、所示:软件架构中每个层次的作用是:1. 显示层;本层主要是提供给用户图形交互界面,将大量的复杂的监控数据通过图形化的方式分层次和优先级地展现给管理员,使一体化集中监控系统的监控更加简单和易用。显示层主要实现了客户端功能,具有C/S和B/S双重架构,包括管理客户端和Web客户端。管理客户端具有系统管理功能;Web客户端通过友好的页面展示监控内容,显示故障报警,用户可以通过Web浏览获知整个系统的运行状态。2. 应用层;本层是核心服务程序,负责维护采集层的数据、提供显示层浏览服务和报警功能。应用层包含业务管理模块和报警网关模块。业务管理模块负责从采集层获取监控数据,经过处理,将报警数据进行显示和发

13、送给报警网关模块,并对数据进行记录,以便报表分析处理。报警网关模块接收到报警后,通过电话、短信或Email发送给管理员。应用层各个服务都是监察的核心模块,系统设计了软件看门狗服务,自动监测各个服务的运行状态,当运行状态下一体化集中监控相关服务出现异常,将由软件看门狗服务自动重启异常服务,恢复监察业务。3. 采集层;本层负责采集监控数据。采集层根据前端不同的监控对象采用不同的采集方式。针对动力与环境监控,采集方式多采用串口方式;针对业务监控、服务器、网络、存储和通讯的监控,多采用网络方式。4. 设备层;包括被监控的设备和系统,也包括各类专门的监控工具。2.4. 系统流程2.4.1. 主要流程一体

14、化集中监控系统提供完整的、一体化的监控流程。主要的流程包括事件、告警、工单、一体化集中监控展示、实时分析、统计报表和系统配置。配套的流程包括:值班管理、知识管理和资产管理。如下图所示:我们以工单流程为例来加以说明。工单的主线流程包括:监控代理、集中监控、事件、工单、知识库;工单的内部流程包括创建、派发、处理、延时、记录、关闭等环节;工单处理的关联活动包括值班管理、知识管理和资产管理。2.4.2. 数据流程 一体化集中监控系统是针对各种对象管理监控数据,从数据的采集到监控的展示,通过各种服务完成数据处理,实现数据中心整体的集中监控管理。下图为一体化集中监控系统的数据流程图:l 外部实体在一体化集

15、中监控系统的数据流程中,涉及的外部实体对象包括监察对象和用户,本系统主要将不同监察对象的监察数据处理分析后发送展现给用户。l 处理在一体化集中监控系统的数据流程中,涉及的处理主要有以下内容:1. 数据采集:针对不同的监察对象,采用相应的监控接口和方法,获取到监控数据;2. 数据匹配:接收监控数据,通过数据匹配引擎将关键数据进行提取,形成监控指标,发送给监控服务;3. 监控服务:是数据的交互中心,接收和管理所有监控指标,向告警服务、Web服务和数据存储服务发送需要的监控指标;4. 指标报警服务:负责接收监控指标的实时数值,通过报警引擎判断监控指标是否正常,当判断报警时,将报警事件送到Web服务和

16、告警管理服务;5. 数据存储:负责将需要保存的监控指标数据按照保存策略保存到数据库中,供数据报表服务查询;6. 数据报表服务:负责提取历史数据,并通过定义的不同样式的模板进行展示,供分析趋势、历史汇总和辅助决策使用;7. 告警管理服务:负责接收的报警事件,通过告警管理引擎(具有告警分组、告警过滤、排班告警和告警升级)以短信、电话或邮件的方式发送给用户。8. Web服务:负责将监控数据、报警事件和数据报表进行集中处理,并且以图形化方式展示给用户;通过以上数据处理流程,完成了一体化集中监控系统主流程。第3章 主要功能及监控范围3.1. 主要功能IT一体化集中监控系统由以下功能模块构成:1. 实时监

17、控实时监控包括监控页面、设备监控、监控仪表板和IP冲突监控等实时监控类别,将监控对象用不同的展示方式进行实时监控。监控页面是将业务监控、数据中心设施监控和动环监控的指标和内容通过图形化方式展示,便于用户查看管理。监控页面可实现总分结构展示,可查看系统的整体状态,也可查看模块和设备的详细监控信息。所有的监控页面都可根据用户的风格和特点灵活定制。设备监控显示所有被监控的设备,包括设备的状态、具体监控指标、产生的事件、生成的工单以及相关的资产信息。监控仪表板以一个9宫格的形式即时展示需要显示的测点,支持多种控件的显示方式,包括表格、饼图、柱状图(横)、柱状图(竖)、曲线、点图。IP冲突监控包括实时I

18、P冲突监控、实时网络设备扫描、设备IP验证、设备资产关联以及IP变更记录查询等内容。2. 事件告警监控系统发现的故障报警将通过事件告警子系统进行展示。通过本子系统可以获取最新的故障报警,也可查询历史的故障报警,并且可将故障实时地以短信、电话或邮件发送给值班人员。3. 工单管理当获知故障发生后,系统会自动生成工单。值班人员可根据工单内容分派给专业人员进行解决。在处理过程中,有知识库支撑解决问题。4. 知识库知识库的作用是将处理故障的经验进行整理总结,归纳录入知识库,支持以后遇到相关问题的处理。5. 值班管理 值班管理子系统协助值班人员管理机房,包括来访登记、交接班登记、班次管理和计划作业。6.

19、统计报表报表展示可统计分析历史数据,供决策分析使用。包括性能报表、事件报表、工单报表、服务器统计报表和日志报表。7. 系统管理系统管理包括WEB客户和管理客户端的系统管理。WEB客户端系统管理是进行一体化集中监控系统软件的配置工作,包括权限分配、备份还原、服务管理等;管理客户端的系统管理是管理员管理监控对象、设置指标各种规则,查看数据、事件、代理消息的强大工具。3.2. 监控范围本系统可监控的IT设备类别如下表所示:设备型号数量单位服务器Windows服务器个Linux服务器逻辑分区Unix服务器逻辑分区HPUX服务器逻辑分区Solaries服务器逻辑分区AIX服务器逻辑分区网络、安全、存储设

20、备监控交换机个路由器个防火墙个安全网闸个IPS个IDS个存储设备个负载均衡设备个数据库监控Oracle个SQL Server个Informix个MySQL个Sybase个DB2个Domino个中间件监控WebSphere个CICS个MQ个Tuxedo个SNA个TONGLINK个WebLogic个MS-EXCHANGE个Lotus Domino个Apache-WEB个IIS-WEB个应用软件监控应用软件1套套应用软件n套第4章 实时监控4.1. 服务器4.1.1. 监控指标服务器监控主要监控服务器的操作系统,硬件监控与设备型号和厂家提供的应用接口有关。各种业务系统都依赖于操作系统的稳定运行,监控

21、系统对不同的操作系统实现性能监测和故障报警。一体化集中监控系统监控的操作系统有Windows操作系统、Linux操作系统、Solaries服务器、Unix服务器、AIX操作系统等所有类别的操作系统。服务器监控指标示例如下所示:设备名称: UNIX服务器类别名称系统系统时间运行时间操作系统名称核心版本操作系统版本机器名称主机类型主机处理器类型IP地址文件系统(/dev/sda1)文件系统设备挂载点已用空间百分比(%)剩余空间(MB)总容量(MB)已用空间(MB)文件系统(/dev/sdb)文件系统设备装配点已用空间百分比(%)剩余空间(MB)总容量(MB)已用空间(MB)交换空间总交换空间(MB

22、)已用交换空间(MB)空闲交换空间(MB)已用百分比(%)空闲百分比(%)CPU负荷系统负荷用户CPU占用率(%)系统CPU占用率(%)I/O等待CPU占用率(%)CPU空闲率(%)CPU使用率(%)内存负荷总物理内存(MB)已用物理内存(MB)空闲物理内存(MB)内存使用率(%)换入(MB)换出(MB)I/O负荷磁盘使用率(%)磁盘等待队列平均服务时间(ms)平均等待时间(ms)接收错误数网络负荷(eth1)冲突数冲突率(%)接收错误数发送错误数接收数据包数发送数据包数关键进程状态关键进程1状态关键进程1内存关键进程1CPU关键进程n状态关键进程n内存关键进程nCPU4.1.2. 界面展示4

23、.2. 网络安全设备4.2.1. 监控指标一体化集中监控系统支持各种网络安全设备的监控,包括交换机、路由器、防火墙、IPS、IDS、安全网闸等。网络设备监控指标示例如下所示:设备名称:交换机类别名称设备名称运行时间温度CPU5秒cpu平均负载1分钟cpu平均负载5分钟cpu平均负载内存总内存大小(MB)已用内存(MB)空闲内存(MB)端口1端口名称端口状态传入流量(MB)传出流量(MB)传入丢包率(%)传出丢包率(%)传入错误率(%)传出错误率(%)MAC地址IP地址端口n端口名称端口状态传入流量(MB)传出流量(MB)传入丢包率(%)传出丢包率(%)传入错误率(%)传出错误率(%)MAC地址

24、IP地址设备名称:防火墙类别名称设备设备名称当前时间运行时间CPU用户占用率系统占用率空闲率平均负载1分钟平均负载5分钟平均负载15分钟平均负载内存空闲内存(KB)memBuffer(KB)memCached(KB)总内存(KB)端口状态dummy0eth0eth1eth2eth3eth4eth5eth6eth7ipsec0br1端口流进量dummy0eth0eth1eth2eth3eth4eth5eth6eth7ipsec0br1端口流出量dummy0eth0eth1eth2eth3eth4eth5eth6eth7ipsec0br14.2.2. 界面展示4.3. 存储设备4.3.1. 监控指

25、标一体化集中监控系统支持各种存储和负载均衡设备的监控包括EMC存储、磁盘阵列、光纤交换机、磁带机、磁带库、负载均衡设备等。硬件监控与设备型号和厂家提供的应用接口有关。具体监控指标如下所示:设备名称: IBM磁盘阵列存储设备类别名称ECC控制台状态通道卡状态控制器状态盘包状态Cache状态电源状态电池状态风扇状态设备名称: 光纤交换机类别名称电源模块状态通道板状态端口状态链路状态温度温度值设备名称: IBM磁带库类别名称电源模块状态风扇状态机械臂状态磁带机状态磁带状态4.3.2. 界面展示4.4. 数据库4.4.1. 监控指标一体化集中监控系统支持Oracle、Sql-server、 MySql

26、 、Informix 、domino 、Sybase 、DB2等多种数据库的监控。数据库的运行状态,数据库服务主要进程的状态、CPU使用率和内存大小,数据库表空间利用率,日志空间利用率及指定SQL语句的执行情况等性能指标是反映一个数据库整体运行是否健康的重要指标。具体监控指标如下所示:数据监控指标示例如下所示:设备名称:Oracle 数据库类别名称系统信息状态开始运行时间可用性百分比(%)实例名实例状态版本监听程序名称监听程序状态主机表空间(SYSAUX)表空间名已用表空间百分比(%)表空间总量(MB)已用表空间(MB)空闲表空间(MB)表空间(SYSTEM)表空间名已用表空间百分比(%)表空

27、间总量(MB)已用表空间(MB)空闲表空间(MB)表空间(TEMP)表空间名已用表空间百分比(%)表空间总量(MB)已用表空间(MB)空闲表空间(MB)表空间(USERS)表空间名已用表空间百分比(%)表空间总量(MB)已用表空间(MB)空闲表空间(MB)归档区归档区目标已用归档区百分比(%)归档区总量(KB)已用归档区(KB)空闲归档区(KB)警示日志错误状态归档程序暂停数据块损坏介质故障会话中止数据库限制当前登录计数当前打开的游标计数进程限制使用率(%)会话限制使用率(%)用户限制使用率(%)系统全局区SGA缓冲区高速缓存空闲百分比(%)重做日志缓冲区空闲百分比(%)Java 池空闲百分比

28、(%)大型池空闲百分比(%)流池空闲百分比(%)共享池空闲百分比(%)游标高速缓存命中率(%)数据字典命中率(%)库高速缓存命中率(%)重做日志分配命中率(%)缓冲区高速缓存命中率(%)缓冲区高速缓存已用大小(MB)缓冲区高速缓存总大小(MB)共享池总大小(MB)共享池已用大小(MB)重做日志缓存区总大小(MB)重做日志缓存区已用大小(MB)PGA高速缓存命中率 (%)吞吐量事物处理数(s)累积登录数(s)用户登录时间(ms)设备名称:Sybase类别名称系统信息状态版本主机服务名开始运行时间CPU使用率(%)数据库数据库名数据库大小数据库使用率(%)事务日志大小事务日志使用率(%)临时数据大

29、小临时数据使用率(%)高速缓存命中率(%)读硬盘页数每秒读硬盘页数写页数每秒写页数读页数每秒读页数硬盘Master读次数每秒读次数写次数每秒写次数等待数每秒等待数GrantsGrants/sec引擎CPU使用时间逻辑读页数每秒逻辑读页数物理读页数每秒物理读页数存储页面数每秒存储页面数服务器忙(%)当前使用CPU个数配置CPU个数锁请求锁(%)等待后授予锁锁量每秒等待后授予锁锁量即可授予锁锁量每秒即可授予锁锁量锁数量每秒锁数量未被授予锁数量每秒没授予未被授予锁数量平均等待时间死锁数内存管理高速缓存大小数据缓存大小数据缓存命中率(%)存储过程缓存大小存储过程缓存命中率(%)网络平均读包大小平均发送

30、包大小网络读字节数每秒网络读字节数网络发送字节数每秒网络发送字节数网络读包数每秒网络读包数网络发送包数每秒网络发送包数进程高速缓存命中率(%)进程占用CPU时间(%)每秒锁数量写页数ASE服务ASE CPU占用时间(%)死锁数每秒锁数量交易数存储过程平均执行时间(取样周期)平均执行时间(会话)执行存储过程数(取样周期)执行存储过程数(会话)交易插入数每秒插入数删除行数每秒删除行数交易数每秒交易数更新数每秒更新数空间更新数每秒空间更新数元数据当前使用数据库当前使用对象当前使用索引I/OI/O繁忙设备数备份服务服务名状态错误日志ASE错误日志级别19级别20级别21级别22级别23级别24级别25

31、级别264.4.2. 界面展示4.5. 中间件4.5.1. 监控指标中间件是支持业务软件运行的一个基础因素,提供多种应用功能。一体化集中监控系统需要对不同的中间件实现性能监测和故障报警。一体化集中监控系统支持WebSphere 、CICS、MQ、Tuxedo、SNA、 TONGLINK、WEBLOGIC、MS-EXCHANGE、Lotus Domino、Apache-WEB、IIS-WEB等多种中间件的监控。中间件监控指标示例如下所示:设备名称: WEBLOGIC类别名称系统信息状态开始运行时间健康状态CPU使用率(%)堆使用(MB)Java厂商Java版本主机任务管理器每分钟请求数挂起请求数

32、Servlet 和 JSPs活动会话数请求处理时间(ms)每分钟请求数JMSJMS服务器个数挂起消息数当前消息数EJBs正在使用Bean数每分钟Bean访问数Bean访问成功率(%) 每分钟Bean事务提交数每分钟Bean事务回滚数 每分钟Bean事务超时数 Bean事务提交率(%) JDBC 和 JTA 使用打开的JDBC连接数JDBC每分钟创建连接数活动事物数每分钟事务提交数每分钟事务回滚数4.5.2. 界面展示4.6. 应用软件4.6.1. 监控指标应用软件是用户工作的核心,其运行的稳定性需要时时保障。应用软件运行监控子系统需要对各个应用软件的应用软件及其支撑设施进行监控。应用软件一体化

33、集中监控:针对应用软件结构和特点,实现对关键模块、关键接口和关键事件的一体化集中监控。根据用户需求和应用软件结构,结合监控软件的页面设计,应用软件一体化集中监控子系统界面可定制实现。第5章 实时监控设备监控5.1. 设备监控列表设备监控列表显示所有被监控的设备,包括IT系统、网络设备或者动环设备等。设备监控列表界面:【状态】:是指这个设备运行的健康状态,是否出现报警等。绿色表示正常,红色表示报警,橙色表示预警,灰色表示通讯中断。【指标】:是指这个设备所有的具体的测点,监控指标列表。【事件】:是指这台设备产生的所有报警或者其他事件。【工单】:是指这台设备产生的所有工单。【资产】:是指这台设备的一

34、些资产信息,比如生产厂商、供应商、保修期、采购人等。【说明】:对设备的一些说明性信息。设备事件列表界面:设备工单列表界面:设备资产信息表界面:5.2. 监控指标列表点击或者双击设备名称进入监控指标列表页面,具体的可以看到每个测点的:类别、名称、状态、当前值、图表事件、保存规则、告警规则、说明等信息。设备指标列表界面:5.3. 列表导出点击设备监控列表的导出图标,将所有监控设备的信息列表或者具体设备的监控指标列表导出为excel表格。第6章 实时监控监控仪表板监控仪表板以一个9宫格的形式展示需要显示的测点。只需在资源树里找到需要的测点,直接拖进九宫格中的一格即可。通过它,可以看到所关心的测点的数

35、据实时变化规律。监控仪表板界面:它支持多种控件的显示方式,包括表格、饼图、柱状图(横)、柱状图(竖)、曲线、点图,以你想要的方式来展现数据。可以跨设备的将各个设备的相同测点放到一个格子里来进行对比。比如将Linux服务器、 AIX服务器以及Solaris服务器的已用交换空间这三个测点进行实时数据变化的对比,这样就可以一眼看出它们性能差别在哪了。第7章 实时监控IP冲突监控7.1. 实时IP冲突管理实时IP冲突管理可以对设置的子网段内的IP设备进行实时扫描、发现设备,主要功能包括:实时IP扫描、设备IP验证、设备资产关联以及IP变更记录查询。【设备名称】:IP设备的名称,通过系统自动扫面出来也可

36、手动在“资产信息”栏编辑。【Mac地址】: 设备所对应的Mac地址。【实时IP地址】: 设备的实时IP,指系统当前扫描到的IP。【已验证的IP地址】:已经过验证的设备的IP。【验证】: 对设备的IP进行验证,验证完就成为已验证IP的设备。【资产关联】: 对设备进行资产关联操作。【资产信息】:查看设备的资产信息。【IP变更历史】: 查看设备的IP变更历史。7.2. IP历史变更记录对网络中所有IP设备的创建时间进行查询,所谓创建时间是指该设备第一次被系统扫描到的时间,也就是该设备被纳入管理的那一时间点。查询页面如图所示。可以通过Mac地址、IP地址或者查询时间段进行查询。7.3. IP验证管理对

37、网络中所有已验证的设备进行查询。页面如图所示。第8章 事件告警事件和告警管理子系统包括:n 实时事件查看;n 实时告警查看;n 事件管理;n 告警管理。8.1. 实时事件和告警查看值班人员和管理人员需要了解整体系统的事件和告警信息时,可以登录系统,通过实时事件和告警查看实现下列功能:1. 实时事件查看;2. 实时告警查看;实时事件查看界面:8.2. 告警管理值班人员和管理人员需要第一时间获知系统的故障告警。一体化集中监控系统提供了告警管理功能,实现故障告警的主动发送。主要功能有:1. 告警发送策略2. 告警分组策略3. 告警过滤策略4. 排班告警策略5. 定时报平安界面如下图所示:8.3. 事

38、件管理值班人员和管理人员需要了解整体系统的历史事件信息时,可以登录系统,通过事件管理实现下列功能:1. 通过条件筛选查询事件,筛选条件包括时间、级别、类型、确认方式、确认人等;2. 生成历史事件列表并导出;界面如下图所示:第9章 工单管理 值班人员和管理人员获知系统的故障告警后,需要对事件处理的全过程进行指导、跟踪的记录。系统提供了工单管理功能,实现事件全过程处理。工单管理流程如下图所示:9.1. 产生工单工单是由事件驱动产生,可通过自动方式和手动方式两种生成:1. 自动方式当监控系统监测到报警事件时,如符合产生工单的条件,那么系统会自动产生故障工单;2. 手动方式当机房值班人员需要手动添加工

39、单时,可通过系统的手动添加工单功能项,进行添加自定义工单。工单内容包括工单名称、产生时间、地点、设备名称、工单内容、工单状态、紧急程度、处理时限等。手工录入工单界面:9.2. 派发工单分派工单是针对新产生的工单,选择处理人,进行分派工作。由相应的值班人员针对新产生的工单进行查看分析,分派给对应的处理人员。分派工单可由值班人员负责管理,将工单派发给相关故障处理人员。9.3. 处理工单处理人员接收到工单后,进行处理故障。在处理过程中,可以查询系统的知识库或选择对应预案,获取帮忙信息,协助完成任务处理。处理的进度状态需要反馈到工单中,方便领导查询跟踪统计。当工单处理完毕后,即可提交闭工单申请。处理工

40、单的报告需要由故障处理人或维护人员填写,进行上报。处理工单界面:工单基本信息界面:工单流水信息界面:工单辅助信息界面,可以通过知识库和预案库支撑解决问题。工单延时申请界面:工单处理记录录入界面:关闭工单界面:9.4. 工单汇总根据单号、问题简述、报告时间、故障类别以及故障级别进行工单的查询和查看。工单汇总查看界面:9.5. 工单地址管理工单地址管理主要是对工单的一些地址进行新增、删除、修改以及查询。工单地址列表界面:新增地址界面: 9.6. 工单故障类型管理根据实际情况新增、删除或修改故障类型。工单故障类型界面:第10章 知识库10.1. 工单归档知识库的作用是将处理故障的经验进行整理总结,归

41、纳录入知识库,支持以后遇到相关问题的处理。工单归档界面:10.2. 历史故障经验库根据预案文案和实际执行的情况进行对比,完善调优预案库,将故障处理经验保存下来,更好的支持以后的工作。审核归档界面:归档经验库界面:10.3. 预案库管理系统针对可能发生的紧急性故障建立预案库,便于面对突发事件做到快速响应、最大程度上减小紧急情况所带来的危害。在工单处理过程中可以选择预案或按照应急预案的匹配技术系统自动调用预案,以让处理人员参考处理流程。在关闭工单时,还需要根据执行结果,对现有的预案库调优完善,使方案更适合于紧急故障的处理。工单管理分系统中预案的内容是可后期完善。预案库管理界面:预案库维护界面:第1

42、1章 值班管理11.1. 机房进出登记值班人员需要对所管理机房进出情况进行电子化管理,使机房管理的工作更加规范。一体化集中监控系统提供了机房进出登记功能,记录和查询机房进出情况。主要功能有:1. 进入机房登记 对进入机房的人员进行登记,包括来访单位、来访人员、联系电话、进入时间、预计离开时间、责任人、来访事由。2. 离开机房登记对来访人员的离开进行,便于以后查询。3. 机房进出查询对历史的进出机房记录进行查询。进入机房登记界面:离开机房登记界面:机房进出查询界面:11.2. 交接班登记值班人员需要对交接班情况进行电子化管理,使机房管理的工作更加规范。一体化集中监控系统提供了值班的交接班登记功能

43、,记录和查询交接班情况。主要功能有:1. 交班登记对交班情况进行登记,便于接班人员了解上一班次的情况。2. 接班登记对接班工作进行登记,整理本班次的工作内容。3. 交接班查询对历史的交接班记录进行查询。交班登记界面:接班登记界面:交接班查询界面:11.3. 班次管理值班人员需要进行值班班次管理,定时提醒值班人员按时值班,保证运行的稳定。一体化集中监控系统提供了班次管理功能,记录和提醒排班。主要功能有:1. 排班管理排班管理是按每周进行排班,将值班人员进行选择设定。排班管理功能有排班查询、排班信息列表、新增排班信息等功能。2. 当日班次信息将当日的班次信息进行显示,包括时间、值班人员和维护人员。

44、3. 班次提醒设置可设置短信提醒的时间和内容。排班管理界面:新增排班信息界面:当日班次信息界面:班次提醒设置界面:11.4. 计划作业值班人员需要预先定义作业,定时提醒,使机房管理的工作更加规范。一体化集中监控系统提供了计划作业功能,记录和提醒作业内容。主要功能有:1. 新增计划可新定义计划作业,包括计划名称、负责人、计划内容、计划周期、启动时间、通知方式和计划状态。2. 计划作业查询可按计划名称、责任人、计划周期和启动时间查询所有的计划作业。3. 计划作业列表可查看所有的计划作业,并进行修改。新增计划界面:计划查询及作业列表界面:第12章 统计报表值班人员、管理人员和领导需要对系统的运行信息

45、进行统计分析,提供决策支持,制定计划。系统提供了报表管理功能,实现统计分析。主要功能有:1. 性能统计报表2. 事件统计报表3. 工单统计报表4. 服务器资源统计报表12.1. 性能统计报表性能统计报表主要是统计不同监察指标的运行趋势,以便进行决策。性能统计报表的操作流程:1. 设置查询条件通过查询界面,选择需要统计的监察指标、统计时间、报表模板。2. 生成统计报表点击查询按钮,生成性能统计报表。性能统计报表界面:12.2. 事件统计报表事件统计报表主要是统计一段时间内的事件信息,可做事后分析。事件统计报表的操作流程:1. 设置查询条件通过查询界面,选择需要统计的监察指标、统计时间、报警级别限

46、制、事件类型、是否确认、确认人员、确认时间和确认内容。2. 生成统计报表点击查询按钮,生成事件统计报表。事件统计报表界面:12.3. 工单统计报表工单统计报表主要是统计一段时间内的工单数据,可做事后分析。工单统计报表的操作流程:1. 设置查询条件通过查询界面,选择查询方式和需要统计的时间。2. 生成统计报表点击查询按钮,生成工单统计报表。工单统计报表界面:12.4. 服务器资源统计报表资源统计报表主要是统计一段时间内的服务器资源的使用情况,可做事后分析决策。资源统计报表的操作流程:1. 设置查询条件通过查询界面,选择需要统计的服务器和时间。2. 生成统计报表点击查询按钮,生成服务器资源统计报表

47、。资源统计报表界面:第13章 系统管理13.1. WEB 端的系统管理管理人员需要对一体化集中监控系统进行参数配置,使系统更加适合实际情况。系统提供了参数配置功能,实现系统配置。主要功能有:1. 资源管理资源管理包括:视图管理、模板管理、数据管理以及页面管理。对资源进行管理,定义各个用户的监察范围,可查看哪些监察页面,管理哪些监察设备等。2. 用户管理用户管理包括:用户管理、角色管理和用户角色功能模块,实现对每个用户权限的精确控制。3. 日志日志功能主要满足管理员对操作日志和系统日志的查询、导出。4. 系统维护系统维护包括:服务管理和网络参数,主要用来对服务子系统进行配置和启停控制。5. 设置

48、设置功能主要包括:个性化设置、页面轮询、告警设置以及工单生成策略。6. 备份/恢复具有工程和数据库备份、恢复功能。7. 其他具有资产管理和基础类型管理功能。系统管理界面:13.2. 监控应用服务器的系统管理监控应用服务器的系统管理通过监控管理客户端来实现。该管理客户端具备丰富、灵活和强大的功能,其功能如下表所示,其典型界面如下图所示。主功能子功能二级子功能三级子功能四级子功能管理客户端系统管理设备管理设备巡查IT监控小型机Windows XPWindows Server2003SCO UNIXSolarisSuse LinuxUNIXWARE本机监控Suse本机监控Redhat设备子系统UPS空调电量仪电池监控仪温湿度监控模块漏水检测设备级联添加设备添加系统提供设备添加自定义设备CM-Desk集成删除设备复制黏贴设备属性管理监控设备属性配置通讯超时时间和报警级别测点类型属性测点属性测点原始实时数据显示配置报警策略测点报警报警缓冲配置匹配策略配置值保存策略驱动管理驱动组态添加驱动驱动编辑部署代理管理脚本部署部署配置脚本

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论