人社智慧运维综合管理系统解决方案(简版)_第1页
人社智慧运维综合管理系统解决方案(简版)_第2页
人社智慧运维综合管理系统解决方案(简版)_第3页
人社智慧运维综合管理系统解决方案(简版)_第4页
人社智慧运维综合管理系统解决方案(简版)_第5页
已阅读5页,还剩66页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

XX省人社厅

智慧运维综合管理系统

解决方案

XX公司

目录

目录2

1项目综述5

1.1省人社信息化现状5

1.2省人社IT运维现状5

2省人社运维整体需求分析7

3省人社智慧运维系统解决方案8

3.1系统包含模块8

3.2系统数据中心可视化8

4数据中心可视化方案9

4.1管理思路9

4.2方案特点10

4.3详细方案10

4.3.1地理位置可视化10

4.3.2数据中心可视化11

4.3.3监控数据可视化16

4.3.411■架构可视化19

5北塔BTSO智慧运维解决方案21

5.1管理思路21

5.2方案特点22

5.2.1落实等级化管理22

5.2.2落实管理经验积累23

5.2.3从数据挖掘实现隐患分析24

5.2.4支持持续管理建设25

5.2.5满足私有云平台运维需求26

5.3产品架构27

5.4方案详细介绍28

5.4.1智能拓扑28

5.4.2智能基线29

5.4.3智能运维引擎30

5.4.4系统智能运维31

5.4.5故障管理33

5.4.6报表与分析38

5.4.7系统类管理40

5.4.8网络管理51

5.4.9专项运维54

6北塔BTSM运维流程管理57

6.1管理思路57

6.1.1高效的自动流程管理57

6.1.2统一平台进行管控57

6.1.3提高知识积累能力57

6.2运维流程管理BTSM系统特点57

6.2.1将订制化流程产品平滑升级到产品化流程产品57

6.2.2解决现有工具的不灵活、易用性、及时性问题58

6.3功能模块介绍59

6.4提供标准化的基于ITILV3的实施方案62

7应用性能监控与管理63

7.1管理思路63

7.2方案特点64

7.2.1开放性64

7.2.2可扩展性64

7.2.3可靠性64

7.2.4高效性64

7.2.5安全性65

7.2.6技术的成熟性65

7.2.7先进性65

7.2.8可管理性65

7.3产品架构65

7.4方案详细介绍66

7.4.1面向真实用户体验的应用性能管理66

7.4.2端到端的应用性能管理67

7.4.3防范于未然的预警、告警机制68

7.4.4增强的关键事务管理68

7.4.5统一的业务流程视图69

7.4.6BusinessTransaction实现自定义业务参数的监控70

7.4.7有据可依的IT运营决策分析71

1项目综述

1.1省人社信息化现状

当前,省人社厅信息化工作已经取得了很大的成绩,但同时也存在一些问

题。

IT基础设施方面,具有涉及广,品牌复杂等特点,这给全面、统一管理带

来了重大挑战。

IT基础设施设备存在利旧情况,有些符合下线条件设备超期服役,设备故

障、不稳定因素日渐增多,直接影响上层业务系统稳定运行。

信息化的管理、规划部门和实际执行运维部门工作职能分离,但管理规划

需要真实原始的日常运维数据才能进行科学决策。

1.2省人社IT运维现状

2012年至今,省人社选用了北塔IT综合运维管理平台BTIM对IT基础设施

进行了管理,逐步建立了针对网络设备、主机、数据库、应用等基础设施的综合

监控体系,实现了设备性能统一监控、告警事件统一处理、运维报表统一呈现等

管理目标,初步摆脱了信息化管理部门完全被动的“救火队”局面。运维监控

手段有了实质性提高。

但随着业务规模不断扩大,现有运维工作已经不能满足日常管理需求,主要

问题总结如下:

•运维工作缺乏针对性,没能完全按照省人社专有的IT环境进行定制运

维,导致整体运维工作未能达到预期目标。

•运维系统如何适应未来基于私有云平台的运维需求。

•应用程序在运行过程中经常会遇到响应缓慢、僵死、崩溃的问题,无法

快速、准确定位系统故障原因,问题排查较为繁琐。

•信息化管理部门缺少运维大数据积累,规划决策工作缺乏科学依据。

•对于日常的数据中心上下架的信息确认与查询,相关的容量统计缺乏直

观、快速的图示

•已部署的数据中心环境监控系统、网络监控系统,主机监控系统产生的

监控信息没有有效进行整合,要在分散的操作界面上进行分析查看,不

利日常的故障处理与分析。

•资产配置信息(对象)与监控信息(性能)各自孤立,无法形成一个数

据中心的全面信息整体,经常由于IT运维的信息需要,穿行于不同的

IT管理工具之间。

2省人社运维整体需求分析

•运维系统应进一步增强自动化、智能化运维能力,能够自动分析省人社IT运

行健康度,并基于真实情况,及时提供全面的运维异常数据预警和分析。

•运维系统要兼容未来私有云模式的运维体系,满足云运维的特色运维需求,

从原来的传统物理设备管理,转变为全面的云平台资源分析、运行展现、性

能分析、趋势预判等层面的一体化综合管理体系。

•基于ITIL的标准形成一套结合服务台,知识库,CMDB,事件管理,问题管理

一整套的流程平台,可以和监控系统做无缝联接,对日常事件直接触发工单

运维,提高工作效率,明确管理职责,规范管理流程。

•通过对业务系统的监控,结合现有监控系统构建集中式运行监控和故障快速

定位系统,通过系统联动,可以及时、准确、全面反映与掌握业务系统的运

行状态,保障各业务系统的正常运行及良好的用户体验。

•运维系统要为省人社信息化管理部门提供运维大数据,数据要求颗粒度细致,

未被加工。可以为管理部门提供用于规划决策方面工作的数据依据,同时也

可以对运维工作质量进行客观评价。

•实现基于三维环境对数据中心、机柜和各类设备的管理功能,构建数据中心

环境、设备和管理信息的可视化平台,集成现有的数据中心环境监控系统、

网络监控系统和主机监控系统,实现所有资产对象的管理及相关监控信息整

合展示,让相关管理人员清晰直观的掌握IT运营中的有效信息,实现透明

化与可视化的管理。可视化管理能让IT的资产配置信息和运行状况更加直

观,使复杂的IT信息变得易于表达、理解和传播,从而消除IT运营过程中

不同角色之间的认知偏差和监管盲区,实现管理的透明化,更进而有效提升

资产管理与监控管理的效率,真正实现一个立体式、可视化的新一代数据中

心运行管理系统。

3省人社智慧运维系统解决方案

3.1系统包含模块

智慧运维系统以北塔BTSO智慧运维系统为核心,整合北塔BTSM流程管理系

统、应用性能管理系统,并利用3D图形技术将系统整体展现出来。

3.2系统数据中心可视化

以3D形式展现数据中心的建筑机房布局、基础设施设备及IT设备设备,可

与IT监控管理系统集成,实现3D场景中IT设备状态、性能及告警信息,可与

机房动环系统(包括:环境监控、电力监控)、楼宇自控、安防监控(包括门禁监

控、视频监控)、消防监控集成,展示冷冻机、空调、UPS、PDU、视频摄像头、

温湿度探头、烟感等设备的监控告警信息。

4数据中心可视化方案

4.1管理思路

针对数据中心的日常运维管理,本项目能够充分利用最新的计算机图形技术,

基于3D虚拟现实的最佳表现形式建立IT管理的可视化平台。可视化平台是统一

IT管理系统的数据展现平台,也是重要的信息交互和获取界面,更是IT运维管

理走向可视化管理的重要基础。

4.2方案特点

■系统的实现参考国际标杆并结合现状,采用先进可靠的设备和技术,确

保系统的先进性和成熟性,保证投资的有效性和延续性。

■系统达到企业级的安全标准,提供良好的安全可靠性策略,支持多种安

全可靠性技术手段,制定严格的安全可靠性管理措施。

■系统基于国内外业界开放式标准,统一规划,为未来的业务发展奠定基

础。

■系统具备灵活的可扩展性,具备方便地适应业务需求的变化、迅速地支

持新业务的能力。

■系统易于使用与维护,具备良好的用户操作界面、人性化的管理工具和

完备的帮助信息。

4.3详细方案

4.3.1地理位置可视化

本项目主要实现GoogleEarth式的地球立体全景展示,依据真实的经纬度

信息展示多个数据中心节点的地理位置分布,并结合直观互动的3D可视化交互

技术,通过点击“数据中心机房场景效果图”进入该机房的3D虚拟仿真管理场

景。

4.3.2数据中心可视化

以3D形式展现数据中心机房所在建筑、机房布局、设备及网络链路,实现

3D场景中设备及网络链路的可视化管理。实现以机柜为单位的数据中心机房容

量管理,对于机柜的空间、电力和承重等容量信息进行统计和展现,并与主机监

控、网管监控和日志监控系统集成,实现对设备性能、告警的实时监控。

3uinnovaK◎小国@户

■机柜内设备3D可视化:机柜内的各类IT设备,如机架式服务器,

存储,网络设备,安全设备等;

QNS?®A@9Q

■设备和线缆的3D可视化:主要设备的前后面板并独立表现其端口;

机房内部的网络线缆(基础、端口跳线)和供电线路。

4.3.2.1资产可视化

可采用Excel导入方式,将各个机柜及机柜内设备的基本配置信息纳入可

视化平台,通过任何物理可见的设备就可查找到相关的配置信息,通过任何

一条配置信息也可以查找到相关设备,完成资产配置可视化。

QZr.K@A©©P

Nil£106

pinw-o*

对期

K19入TIMV?

KMASKmT

MH

4.3.2.2配线可视化

可采用自管理或集成其它CMDB或资源管理系统的方式,将各个机柜内

设备的连接信息信息纳入可视化平台,通过任何物理可见的设备就可以查找

到相关的链路信息,通过任何一条链路信息也可以查找到相关设备端口信息,

完成链路配置可视化。

•按设备连接查看:查看一个设备的所有对外的网络连接,包括经过的每

一个中间设备的每一个端口信息。

4.3.2.3容量可视化

将数据中心机房机房的机柜剩余空间、机房的各个区域的承重情况、电力负

荷等以图景形式展现,以便数据中心机房应用运维人员快速掌握机房情况。支持

对机房容量的可视化管理.,包括机位、U位、承重与功耗等,对相关的容量数据

需要按图形进行可视化展现,并能进行容量统计,包括总容量与己用容量。

•空间统计及查询:在3D可视化环境中支持对机房中所有机柜的连续可用

空间分布查询,统计结果能够在3D环境中以柱状图方式直观表现。

uiuinnovaQN0②△@eQ

4.3.2.4演示可视化

在物理环境仿真再现的基础上,提供灵活强大的可视化展示功能,可以

实现数据中心机房基础设施多样化的展示需求,如逻辑关系表达、模拟故障、

PPT整合及自动巡检及演示路线定制等。

•自定义动画:系统要提供非常易用的动画制作功能,用户可以自定义生

成流畅生动的演示动画,可用于数据中心机房介绍、巡检路线示意和应

急预案展示等日常运维工作。

•交互式演示汇报:系统要支持用户将多段动画嵌入PPT演示文档中,实

现PPT与三维仿真场景的双向互动,以丰富生动的手段实现最佳演示汇

报效果。

4.3.3监控数据可视化

数据中心现有多个监控子系统,包括综合网管监控、电力监控、动环监控、

楼宇自控、安防监控、消防监控等。所有监控系统协同运行,相互补充,共同监

控着数据中心的各项指标,为数据中心全天候的安全运行保驾护航。但是各个监

控子系统之间相互独立,在发生故障时无法有效综合各方面的告警情况,帮助故

障的分析处理,大大降低故障排除效率,所以需要一个统一的监控平台对多个监

控子系统进行良好整合集成。各类监控数据可以用图层的方式进行叠加显示。

4.3.3.1网管监控可视化

•网管监控系统集成展示:与网管监控系统进行集成,能在设备上实时展

示设备的告警信息,能查看设备CPU、内存等使用信息。

■设备性能监控展示:设备性能监控信息展示是指通过3D视图的展示

设备监控到的性能数据信息。

■设备告警监控展示:机房设备告警信息展示要求机房的所有告警信

息在机房3D展示界面上实时展示。

SuinnovaQN-.1e少

4.3.3.2动环监控可视化

•动环监控系统集成展示:与动环监控系统进行集成,能展示温湿度监测

点位置、漏水监测点位置,能实时查看温湿度、漏水监测等动环数据,

并支持以云图形式表达机房温度分布状况,能实时查看空调设备运行数

据,能实时显示动环监控系统告警信息。包括供电设备的电压、电流、

耗电量等情况,能实时显示电力系统设备告警信息。

■温湿度监控:集成动环监控工具里的温湿度感应器的监控数据,在可

视化环境中采用小面板的形式展示每个温湿度感应器的湿度、湿度、

运行状态等监控数据和告警信息。

■在可视化环境中以云图的方式来呈现整个机房内温湿度环境信息。

■漏水系统监控:集成动环监控工具里的漏水监控的告警监控数据,在

可视化环境中配置好空调漏水线的线路位置,当某个位置发生漏水

告警时,告警提示。

4.3.4IT架构可视化

在应用全景图(IT逻辑宇宙)的基础上,通过层次模型,提供自应用系统至

IT基础设施的交互式端到端IT管理视图,直观展示组件配置信息以及关联关系、

IT组件与基础设施的映射关系,生成基础设施定位视图,并通过和监控数据基

础,形成整个动态监控的IT逻辑宇宙。

4.3.4.1业务交易可视化

以业务交易流为主线,梳理应用系统对外的IT服务提供渠道,以及支撑应用系统业务

运转的后台接口系统,形成应用系统业务的交易全景图(IT逻辑宇宙),识别在全景图(IT

逻辑宇宙)中各条线的关键业务系统,形成系统间的影响分析框架,绘制成最上层的IT逻

辑宇宙。

ATM耐(含=励

(不含出如个人网色不含■询)和■行(7含晒)

渠道视图

4.3.4.2应用关系可视化

业务关系视图能够直观反映应用系统模块间,以及跨应用系统的交易调用路

径,清晰区分交易上游应用和下游应用。当交易出现问题时,能够自上游至下游,

跨系统、跨模块的定位故障应用和影响范围。当应用系统或模块运行出现问题时,

能够自下游至上游清晰的圈定潜在的影响范围和业务交易类型。

业务关系视图既可以通过在线编辑平台定义,也可以由数据驱动自动生成,

根据运维管理需求,既可以显示大而全的应用系统全景,又可根据管理范围和各

类实际需求,选择关注的部分应用系统,实现重点突出的个性化应用系统交互视

图,无需任何开发工作,简单拖拽即可实现视图对象、布局和样式的更新。

4.3.4.3监控数据可视化

可视化IT监控面向业务和IT,从众多个应用系统中划分出应用系统运维分析的系统边

界,分析应用系统所支持的外围接入渠道、上下游支撑应用,以及应用系统系统组件。最终

延伸到系统、设备及网络等IT基础架构,形成以应用组件为分析对象的FTA(FaultTree

Analysis)分析树。当捕捉到系统事件后,形成自下向上,自右向左的影响传导路径,以及

反向的故障定位路径。

主要针对告警事件、监控指标进行可视化定制,保存监控历史数据供性能曲

线图等统计类形式展现以及历史告警事件的查询。监控数据可视化将帮助数据中

心机房整合分散的监控工具,实现监控工具、监控数据的价值最大化,真正改变

监控数据孤岛现象,建立统一监控信息界面。

5北塔BTSO智慧运维解决方案

5.1管理思路

•自动管理:北塔BTSO具有自动管理能力,更像一个高水平的“管家”帮助

用户全方位的监控各类系统的运行状况,及时给出异常提醒和操作建议。

•趋势管理:北塔BTSO遵循设备本身的实际运行状态情况,“贴身”描绘出各

个设备各个时间段的性能变化情况,并根据变化情况建立跟踪曲线,通过跟

踪曲线可以真正建立趋势管理视角,依据设备运行数据变化情况来做趋势分

析和预测,准确把握设备处于健康状态、亚健康状态和“异常”状态。具备

趋势管理能力。

•运维专属平台:北塔BTSO在提供全面、深入的管理能力同时还具备开放

性,能够根据用户自身运维经验提供“私人专属”的定制运维策略能力,将

用户历史的运维经验,目前的管理重点都通过智能运维策略自动实现,真正

实现即兼顾全面的综合运维管理要求又能充分兼顾用户个性化运维诉求。

5.2方案特点

北塔BTSO具备自动学习功能,可以完整学习各类设备日常运行状况,根据

基线数据自动运维,主动汇报设备异常,可以根据用户真实管理要求进行定制策

略。

5.2.1落实等级化管理

管理上划分优先级是被普遍认可的方式,优先级划分能实现管理投入的合理

分配,对于运维管理同样适用,通过对资源按照所在业务重要度区分其对应的管

理等级,比如关乎生产系统的资源划分成一级,内部办公系统相关资源划分成二

级设备;对于一级设备意味着更为密集的数据采集和更低的阈值,对于异常更为

敏感,故障处理上要求更为严格,后期的管理数据统计需要单独列项统计。

常规运维软件中仅仅是对于将管理对象简单的划分了不同等级,仅是为了界

面上进行统计,没有落实到具体运维过程中;真正落地的等级化管理必须要做到

如下几点:

♦按照业务划分管理资源

♦实现对于不同等级资源不同的监控周期和预警阈值

♦对于不同等级资源定义不同预警等级和处置方案

♦对于不同等级资源进行不同角度的统计和报表分析

♦能便捷的调整等级,并应用相应等级的管理规则

北塔BTSO以等级为核心进行管理区分,内置不同等级的管理解决方案,从

下到上贯彻等级化,差异化管理模式。

1、预置不同的指标采集方案和策略,落实差异化采集方式,按需采集提供

技术基础,同时为大节点管理提供理论可能;

2、预置不同等级的不同风险阈值的设定,落实差异化管理和考核要求;

3、为高级别设备自动生成统计报表,使用户能方便的关注报表数据;

4、支持方便的界面等级显示方式,在不同界面均能方便的区分不同的等

级,便于管理视野的日常落地。

5.2.2落实管理经验积累

长期的运维工作促成企业用户总结处理其具有自身业务特色的管理方法,这

些方法包括大到流程的本地化,小到具体管理指标的定义;如何实现此类管理经

验的落实呢?

北塔BTSO提供处置知识管理,通过对用户日常故障处置方法的收集,经验

积累,自动反馈到相同故障的处置过程中。

72

73

形成运维笫略:

74L风险或他识别

2.自动时比历史趋势变化

3、自动识别处■方案,给出提示

差异化管理:75

按照不同管理要求和处置方式不同,

划分成不同管理等级,并批量化设置.

告警处习:

76当出现告警时,宜春历史记录,

偶发的91除不必要的迸程;

持续增加的,扩震内存

内・监测方案:

一级windows以5分钟检测,并以<5

为风险阈值,超出该信息,给出提示

mjwindows以10^钟检测77

内置专业指标定义

每秒页面错误数:

当处理器在内存中读取某一页出现

错误时,就会产生缺页错误,也就是

78pageFault,PageFaults/sec计数…

通过系统提供的智能策略机制,将用户对于某些异常分析的人工方式自动化,

比如对于主机高负载原因的排查,一般的操作逻辑是确定主机负载超过风险阈值

情况是偶发事件还是一直存在,然后分析每一次出现高负载的进程是否一致,通

过人工智能找到具体的异常进程,关闭该进程或者卸载相关软件,同时对于该进

程的设定预警,达到事前预警;北塔BTSO通过策略实现这一系列动作,包括对

历史记录多点对比,对于进程的记录,异常进程的智能判断,乃至告警的建议;

通过策略体制调用系统的各项零散功能,将用户问题分析方式,快速自动化。

5.2.3从数据挖掘实现隐患分析

传统运维领域,更多的关注点在于即时状态的监控,能对于异常的即时、准

确通知;而随着厂商技术的不断提高,设备的告警越来越少,特别是一些新建机

房,可能一个月也不能没有几个告警事件,难道运维就不再重要了吗?恰恰相反,

当设备故障减少后,正好为IT运维创造价值提供了客观条件,IT运维需要将更

多的时间和精力放在挖掘实例数据,发现业务隐患,提高业务运行效率。

北塔BTSO提供了强大的历史记录能力,可以实现45万KPI的指标数据不压

缩存储1年;同时提供详尽灵活的数据分析工具,可以实现单设备1年、1季度、

1月、1周整体趋势分析,从历史层面分析出业务运行规律,方便的发现业务运

行异常;多指标相对分析,实现管理对象的纵向比较,找到影响具体的异常指标

集。

欧I!睐到Fngtao】尸管理(体梅通用能)

w回械日窜溺亢外已废¥或名缰快的9所X比

规律,整合人力资源,实现关键时段重点关注的优先级理念;为用户年度管理数

据的统计提供可能,配合北塔快速报表开发能力,使符合用户管理实践的事后考

核报为可能。

北塔BTSO贯彻时段管理的理念,提供了拓扑上整体的CPU趋势分析,对

近几周的整体性能均值做比较,便于发现业务的偏离情况;使用历史记录作为检

测阈值,实现更为合理的业务使用情况监控;提供整体高低负载分析,实现整体

回顾,合理评价。

5.2.4支持持续管理建设

北塔BTSO以平台化架构设计,可以灵活定制用户管理需求,实现用户管理

的可持续化建设;为用户多种开发集成方式包含如下几种技术实现:

♦增加具有用户独有设备的管理,通过合作开发,北塔BTSO可以集成用

户自行开发的采集方式,融入平台中进行统一的管理;

♦整合具有本单位特色的管理指标集,实现下级单位的快速部署,和统一

化管理;

♦用户管理经验的策略化,实现用户先进管理分析方式的自动化处理;

报表定制,快速导入报表模板,实现客户报表的快速实现和更新,使用户报表的

变更不再成为运维软件的痛苦;使用户的管理意志在软件中得到持续体现。

5.2.5满足私有云平台运维需求

针对私有云运维特殊需求,北塔BTSO主要帮助用户解决以下六方面问题:

♦了解云平台对象是否健康

♦如何预防容量枯竭

♦云资源是否得到有效使用

♦资源“去哪了”

♦如何发现和解决云平台性能瓶颈

♦虚拟资源是否可回收

5.3产品架构

r门主机APP■酬化APP

中间件管理飒

I帏展示展oracle-racfi^l

性能雷理

GTHm

数据处理层

讯辖接口展

.

■基SB网络臼操作系统♦主机硬件S数据库CS中间件・标准应用•酬化

SNMP设假WindowsHPOracleWeblogicFTP宿主机

交LinuxIBMGradeRacWebsphereHttp(s)虚拟机

路由附MQ集器

窗脩AixDELLDB2POP3

n,9交换路由收

北塔BTSO采用平台化设计,以DGOCDataGatherOcean)为数据采集平台,

基础采集平台构建功能平台;以告警、报表、智能运维、license构成强大的功

能平台;具体资源的管理作为基于平台的管理功能,具备以接口为中心的设计模

式。

系统提供强大的扩展能力,支持管理能力的自由扩展:

♦采集平台支持用户个性化采集程序的快速兼容,实现管理指标的快速扩

展;

♦采集服务器支持无缝扩展,支持多个采集器同时部署;

♦支持管理策略的快速扩展,实现用户管理方式落地;

♦支持用户个性化报表的快速扩展,实现各种具备企业特征报表数据和展

现方式。

5.4方案详细介绍

5.4.1智能拓扑

系统采用北塔先进的、旦得到近5000个现场验证的发现算法,智能发现网

络设备和设备间的真实线路,准确而快速的完成拓扑的构建。

网络拓扑能清晰展现网络的关系,自动布局;并能提供“圆形”“树形”多

种拓扑展现方式,便于用户根据业务关系快速调整到用户需要的展现方式,同时

将管理对象的实时性能和告警信息通过图标的不同状态展现给用户。

5.4.2智能基线

传统运维关于被管对象“警戒值”,而一旦超过警戒值意味着一定程度的

“损失”已经发生,有没有办法在提前一点发现风险呢?答案有多种,通过业务

基线的偏离判断异常就是其中一种。

BTSO能根据历史记录自动生成基线,并可按照业务变化规律,形成以日基

线、周基线的数据对比,一旦实时数据大于基线比对点一定范围,即生成智维事

件,便于分析;当出现多次越界后,系统主动通知用户,提示运维风险。

基线方式的引入,降低了用户对于“警戒值”的识别难度,使设置符合用户

业务实际的阈值成为简单、可执行的事情;同时基线的方式,符合用户周期性业

务稳定的实际情况,真正落实用户对于业务风险检测。

5.4.3智能运维引擎

5.4.3,1运用等级概念实现差异化管理

运用等级概念实现差异化管理BTSO精选各类管理对象的关键状态、性能

指标,以不同管理等级为数据集,实现一个等级的资源一个管理方案,包含预置

智维检测指标、预置报表、预置策略检测等;实现资源加入即可监控的简单运维

方式。

BTSO也支持用户根据业务系统的重要性,将管理上相同重要性的不同管理

对象设置为同一等级,针对性新设、修订管理指标监控集合,修订监控密度、阈

值,指定针对性处置策略,在不同等级间实施差异化管理;

BTSO将围绕运维数据产生且具有固定分析和处理逻辑的运维方法,归类为

智能策略需要处理的方法;通过策略的应用,可以进一步提高运维效率和运行成

效。BTSO内置了众多的智维策略,提供标准的管理实例落地,通过客户化开发

实现用户处理经验的快速落地;

内存

iitr.20081叫■近却a:,内存占用租晔皿的.

或擢行•近72"玄蚪到的0下:

图:异常情况分析与处理建议

5.4.4系统智能运维

5.4.4.1智维事件监控

对于预置监控方案,BTSO不仅提供后台自动检测过程,也提供了前端巡查

功能,使用户能实时了解到后台智维的实时动态;对于智维巡查结果,以事件方

式存在,此类事件并不完整描述了故障或异常,所以BTSO推荐以统计角度进行

评价,以越界比例作为观测的切入点。

同时系统提供详尽智维分析工具,包含智维信息的统计、智维异常分布、历

史值检查等,结合此类工具实现异常的关联分析和确认。

素线发现【三机91]:CPU最近3E母日楼

31,3次,共检测2OC次.其中起出fl!值49次。

5.4.4.2智维越界提醒策略

BTS0预置多种预置策略,基础策略是对于内置监控方案的提醒策略,对于

智维越界事件,当系统发现内置检测指标,越界事件超出安全频率后,主动推送

到页面前端,通知管理员,系统发现了异常。

提示内容中包含最近3日,发生异常的次数并且给出该指标的历史曲线;同

时给出该指标的详细定义,清晰的列明,该指标是什么,异常后影响什么,一般

的解决方案是什么。

同时可对该指标进行快速设置告警,便于后期管理中,出现了相同问题后能

通过短信、邮件通知离线用户。

5.4.4.3客户化分析策略定制

BTSO的智能策略基于平台化接口体系,作为软件的核心,其可以调用BTSO

软件的各个方面,包含基础数据的采集,合成指标的计算,各类对象的综合分析,

并可以实现通知、报表、下发等处置策略的调用。

北塔软件基于BTSO,通过合作开发的模式,可以实现用户管理策略的自动

化,使每个用户能使用上“贴心”的运维软件。

5.4.5故障管理

对管理对象按照预置的风险阈值进行检测,并实时通知到管理员处,是运维

系统必备功能,也是传统上运维软件的核心价值所在;而在传统上故障管理在应

用上经常会遇到如下问题:

♦设置告警的范围选择,用户总是期望监控无死角,但是所有KPI的高频

监控必然导致管理设备的异常负载增加,这要求运维厂商能提供合理的

告警范围推荐;

♦告警规则的自动设置,往往用户对于告警的规则和检测标准时一致的,

如何实现相同标准的推广,这要求运维软件对于规则设置的易用性;

♦告警的经验如何总结和继承,告警处理经验能得到及时记录,并能在下

次出现同问题时,即时推送,便于有效提高故障处置效率。

BTSO系统提供了灵活的告警设置、精确的告警检测,多样告警推送方式、简

单的告警经验积累方式,实现用户有效及时得到故障信息。

5.4.5.1告警管理

5.4.5.1.1便捷的规则设置

告警永远是运维中最基础的功能,对于运维人员而言,总是期望告警不产生,

那样意味着系统正稳定运行;为了给用户提供这个可靠的信息,BTSO提供便捷

的告警设置实现大面积的监管设置;在设置界面为重点指标实现详尽的指标说明,

使用户面对具体技术指标能更为合理的进行配置。

♦系统提供多种预置告警规则

♦支持以IP为方式,为未纳入管理设备规则化的告警规则

♦支持为某一个存在的对象为样本,批量设置进程、硬盘的子对象的告警

♦支持以IP网段方式和等级方式显示告警的设置

♦支持以多种通知方式,灵活的通知给不同的人员

♦支持对告警通知内容恢复内容的自定义,满足用户对于业务化通知内容

的实现

5.4.5.1.2高效的告警提醒机制

BTSO为了让用户能快速识别告警信息,以不同颜色区分不同的告警等级,

并在运行摘要和页面框架中重点突出显示。

用户每日登陆系统均可了解昨日告警的处理情况,目前发生且需要处理的告

警数量,同时可以看到具体告警实时条目。以及本日的停机计划,为一天的工作

提供基础信息。

当长期打开页面时,系统通过框架上的颜色区别显示不同的等级告警,使值

班人员能快速了解到具体的告警展现。

同时系统提供短信、邮件的通知方式,为线下管理员提供最及时的告警信息。

:越目

5.4.5.1.3清晰的告警查询

为了使告警信息更为有效,系统提供灵活、清晰的告警历史查询界面,界面

中列出了不仅列举了历史告警的各个字段,同时给出告警统计分析信息,为用户

以告警角度对现有对象的信息进行评价。

♦系统提供告警时长、和累计次数为索引条件统计,为用户提供这个维度

出现告警最多的管理对象和具体异常点;

♦提供重复告警统计,以及统计时段内最长、平均、累积的告警时长,为

用户提供告警规则有效性评估

♦提供处置经验的编辑功能,为用户快速积累处置经验提供管理入口,下

一次相同问题出现时,提供处置参考;

5.4.5.2知识库管理

用户在长期的运维过程中,一般均会有一些管理预案,但是如何实现管理经

验的长期积累呢?BTSO提供处置知识库,通过对处置预案的积累,出现问题后

能快速实现信息传导,将处置预案真正落实到实际操作过程中。

无忧智库-新基建智慧城市圈子

星主:无忧智库

g60+同310+

本星球专注于数字化转型、5G、智慧城市、

智慧园区、数字城管、数字政府、智慧政务、

智慧教育、数字校园、乡村振兴、数字乡村、

数字经济大数据、人工智能、区块链、新材..

。知识星球

微信扫码加入星球

无忧智库向你推荐这个有用的星球

5.4.6报表与分析

监控数据是一般宝贵的财富,不仅仅能实现前期运维成绩的考核统计,也可

数据分析实现管理方法的改进,BTSO提供强大的报表数据处理能力,可根据用

户要求定制不同的个性化报表;同时提供灵活的数据分析工具,实现对于历史数

据的灵活分析能力;运维管理员可以在分析重大异常问题和阶段性分析时进行数

据分析。

5.4.6.1性能趋势分析

性能趋势分析是基于BTSO强大的数据采集和存储能力的基础上,实现的数

据分析工具,提供对于最多5个指标的同时对比分析,支持长达1年无压缩数据

的数据分析;实现从天到年的无缝数据扩展查看;对于每一个数据可以压缩比例,

实现数据幅度比较。

5.4.6.2基础管理报表

系统提供多张预置报表,包括管理上离不开的运行率和告警统计报表、性能

统计报表;系统提供日、周、月、季报表统计周期;可对统计周期可以进行设置,

可实现对于工作时段和值班时段的报表,并可按照用户考核时段进行统计。

同时用户可实现不同管理域生成不同的报表,并可将报表授权给不同的人员

进行查看。

X-MiqtQ

n'wama

»*uim)6

R3HUS

WMURiB

FM*fr*n«8«

20:MM3

X>,UM4汨

***$,*■*WMMR'a

xy坦

»M«Ka«xs*甲8

$tw*仪a/***XiWUl'B

WMUR'B

H***RK-fS*X1Ut7a)lfl

»cw«m

5.4.6.3快速报表定制

用户的管理考核要求每年的都会变化,固定的报表机制无法满足用户考核报

表的要求,BTSO通过先进的报表引擎,可实现快速定制化报表开发;此项内容作

为产品服务提供给客户。报表引擎可以实现各类图标和展现要求的定制,在界面

风格和数据上满足用户要求。

5.4.7系统类管理

5.4.7.1系统拓扑图

系统拓扑以主机为核心展现了所有承载的数据库和中间件标准应用之间的

实时状态监控,为主机监控提供全景视图;系统自动生成并智能布局,无需人工

调整。

系统拓扑提供清晰的展现方式:提供网段不同颜色表示方式,不同主机按照

其操作类型图标显示,从主机出发关联数据库与主机的关系。

系统通过不同的颜色区分管理对象的实时性能层级,BTSO提供了主机经典性

能指标,并以红、黄、蓝代表其主机实时性能;提供根据业务需要性能负载调

整设置功能;提供主机关键性能指标的实时显示;

系统以闪烁的图标反映,重点提醒用户该资源发生了告警;同时以弹出框

显示告警的具体对象信息;

系统提供自定义拓扑方式,可通过对不同业务拓扑主机的自定义归类,实

现单独业务的聚焦关注。

拓扑图不仅反映单个设备的状态,同时提供关联数据排行,为问题定位增加

信息参考:

•提供以故障作为评价方式的综合评分,整体了解系统的整体运行健康情

况;

•提供主机CPU实时TOPN排行,分析主机性能最高的设备,便于用户重

点监控;

•提供主机连续运行时间TOPN,分析主机异常开关系统的变化;

•提供数据库会话数topn,分数据库实时运行状态。拓扑图不仅作为展现工

具,同时可作为主机管理的分析工具:

•系统提供各种全局性变化趋势分析,包括CPU涨幅分析、内存涨幅分

析、流量涨幅分析、存储周涨幅分析;通过对管理范围内的所有的主机

进行全局分析,以不同的颜色区别显示主机对于CPU的增长区间;

•提供CPU、内存、流量、存储的趋势分析,通过环比分析,区分出运行趋

势的异常;如CPU趋势分析,给出前4天日均值,以及动态变化曲

线。

5.4.7.2主机管理

J04A3230J0J0MJ00.0.131WB.4131

200Al2»3OB.4JM

300053XOD.T2

30ad”

20力S.2W

2O.OAA23000.”30。2,.”3

XI0D.1B9

300030

20X)4120

3000253043.21.174

KO6B0

I—c*uIftBSKati■

-■

1©'•'I1

09:2613:2«17:2621:2«01:2605:26

M.0X.53

J0.04,S31I—AMII*HOW舱瞥■

[一[

X0>£lt人CM,

B«K*f/p>

0926B-2617:2621:2601:26OS26,

,.*5.chen»«Xb«tamc<nrt

主机管理以波浪图方式显示所有主机的全局信息,以图形化方式显示主机的

常用管理参数。包含如下信息:

♦详细的主机基本管理参数

♦单个系统的CPU、内存增长趋势

♦单个系统的业务流量变化趋势

♦单个系统存储空间实时和变化情况

同时可对统计范围内的主机进行详细的实时分析数据,便于用户关联分析出

需要重点关注的主机:

♦以实时CPU利用率的主机排行

♦实时内存利用率的主机排行

♦实时连续运行时间的主机排行

♦各个操作系统的存储空间已使用情况分析,给出使用率最高的20个设

♦最近30天以CPU为评价指标的高负载和低负载设备列表

提供主机一体化显示,按照不同的操作系统进行数据分类,系统提供基础信

息、运行信息、进程管理、事件与告警、硬件信息等各类管理信息:

♦以关联方式显示主机上的承载数据库、中间件、标准应用的实时状态

♦图形化列出重点监控的硬件、日志、CPU性能、磁盘信息的实时信息

♦对于CPU性能、网卡等重要参数的最近3天数据分析

♦支持主机进程的实时展示分析

主机系统支持对于HP、Dell、IBM三个厂商的硬件状态监控,支持对于温度、

风扇、磁盘、CPU、内存、电源等重要主机硬件的状态监控;BTS0智能翻译硬件

各个状态,将复杂的各个硬件运行状态,转化成运维监控的异常正常状态;便于

用户快捷的设置硬件异常监控告警。

HP-HOST-3F7D9FG6硬件信息

温度113洋情磁盘(X3QZI详情CPU详情

於null作null,55X◎waHERom^MTB♦歌黯inwos

Jll-JibJllr07»«>«oa71rnu/rvucoru

z'mi-ntamtj.r*.t*-nzs,WD-HERO-270iu69871IB

CPUASW电源温度探针支板温度探针WD-HERO-27diu89871TB

住480c仔480c仔480c摩^WDHERO27diu89871rB内存E22BHISI详情

®®(®)WD-HS?O-27diue987ITB

CPUja度掬针CPUia度探讨CPU阻度媒针WD-HERO27diu89871TB

WDHERO-27diue987nB

nu

<i»Q2KQ3K电源r.i.rwm

WD-HERO27dlu8987ITB

CPU风扇CPU风扇CPU风HC)WD-HERO27diu89871TB

WD-HERO-27

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论