




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、运维体系和一体化监控平台项目建设方案目 录 TOC o 1-3 h z u HYPERLINK l _Toc501054377 第1章 项目背景和目标 PAGEREF _Toc501054377 h 4 HYPERLINK l _Toc501054378 1.1 项目背景 PAGEREF _Toc501054378 h 4 HYPERLINK l _Toc501054379 1.2 建设目标 PAGEREF _Toc501054379 h 4 HYPERLINK l _Toc501054380 第2章 项目整体建设方案 PAGEREF _Toc501054380 h 5 HYPERLINK l
2、 _Toc501054381 2.1 项目建设目标分析 PAGEREF _Toc501054381 h 5 HYPERLINK l _Toc501054382 2.2 系统总体架构 PAGEREF _Toc501054382 h 5 HYPERLINK l _Toc501054383 2.2.1 逻辑架构 PAGEREF _Toc501054383 h 5 HYPERLINK l _Toc501054384 2.2.2 物理架构 PAGEREF _Toc501054384 h 6 HYPERLINK l _Toc501054385 2.2.3 所需服务器配置 PAGEREF _Toc50105
3、4385 h 7 HYPERLINK l _Toc501054386 2.3 建设原则 PAGEREF _Toc501054386 h 8 HYPERLINK l _Toc501054387 第3章 项目详细建设方案 PAGEREF _Toc501054387 h 9 HYPERLINK l _Toc501054388 3.1 项目技术方案 PAGEREF _Toc501054388 h 9 HYPERLINK l _Toc501054389 3.1.1 集中性能管理平台 PAGEREF _Toc501054389 h 9 HYPERLINK l _Toc501054390 3.1.2 集中事
4、件管理平台 PAGEREF _Toc501054390 h 20 HYPERLINK l _Toc501054391 3.1.3 自动发现配置管理平台 PAGEREF _Toc501054391 h 22 HYPERLINK l _Toc501054392 3.1.4 集中报表平台 PAGEREF _Toc501054392 h 33 HYPERLINK l _Toc501054393 3.1.5 大屏展现系统 PAGEREF _Toc501054393 h 40 HYPERLINK l _Toc501054394 3.1.6 集中远程管理平台 PAGEREF _Toc501054394 h
5、67 HYPERLINK l _Toc501054395 3.1.7 移动设备运维管理 PAGEREF _Toc501054395 h 90 HYPERLINK l _Toc501054396 3.2 项目服务方案 PAGEREF _Toc501054396 h 91 HYPERLINK l _Toc501054397 3.2.1 故障处理服务 PAGEREF _Toc501054397 h 92 HYPERLINK l _Toc501054398 3.2.2 技术培训服务 PAGEREF _Toc501054398 h 92 HYPERLINK l _Toc501054399 3.2.3 定
6、期巡检服务 PAGEREF _Toc501054399 h 92 HYPERLINK l _Toc501054400 3.2.4 专项团队服务 PAGEREF _Toc501054400 h 93 HYPERLINK l _Toc501054401 3.2.5 远程服务 PAGEREF _Toc501054401 h 93 HYPERLINK l _Toc501054402 3.2.6 服务交付承诺 PAGEREF _Toc501054402 h 93 HYPERLINK l _Toc501054403 3.2.7 保密承诺 PAGEREF _Toc501054403 h 94 HYPERLI
7、NK l _Toc501054404 3.2.8 其他服务要求承诺 PAGEREF _Toc501054404 h 94 HYPERLINK l _Toc501054405 第4章 咨询解决方案 PAGEREF _Toc501054405 h 96 HYPERLINK l _Toc501054406 4.1 管理范围梳理 PAGEREF _Toc501054406 h 96 HYPERLINK l _Toc501054407 4.2 管理制度、流程分析 PAGEREF _Toc501054407 h 96 HYPERLINK l _Toc501054408 4.3 组织架构分析 PAGEREF
8、 _Toc501054408 h 96 HYPERLINK l _Toc501054409 4.4 智慧岛运维总体规划 PAGEREF _Toc501054409 h 96 HYPERLINK l _Toc501054410 4.5 运维能力评估体系、评估指标 PAGEREF _Toc501054410 h 96 HYPERLINK l _Toc501054411 4.6 运维能力资格认证分析与规划 PAGEREF _Toc501054411 h 97 HYPERLINK l _Toc501054412 4.7 外聘运维专家 PAGEREF _Toc501054412 h 97 HYPERLI
9、NK l _Toc501054413 4.8 运维的三年规划 PAGEREF _Toc501054413 h 97 HYPERLINK l _Toc501054414 4.9 运维的安全风险管控 PAGEREF _Toc501054414 h 97 HYPERLINK l _Toc501054415 4.10 运维管理宣导 PAGEREF _Toc501054415 h 97 HYPERLINK l _Toc501054416 4.11 人力配对与招聘规划 PAGEREF _Toc501054416 h 97 HYPERLINK l _Toc501054417 4.12 现有工作优化 PAGE
10、REF _Toc501054417 h 98 HYPERLINK l _Toc501054418 第5章 计划进度 PAGEREF _Toc501054418 h 99 HYPERLINK l _Toc501054419 第6章 实施团队情况 PAGEREF _Toc501054419 h 101 HYPERLINK l _Toc501054420 6.1 项目组织架构 PAGEREF _Toc501054420 h 101 HYPERLINK l _Toc501054421 6.2 实施团队信息 PAGEREF _Toc501054421 h 101 HYPERLINK l _Toc5010
11、54422 第7章 质量保证 PAGEREF _Toc501054422 h 102 HYPERLINK l _Toc501054423 7.1 项目质量管理 PAGEREF _Toc501054423 h 102 HYPERLINK l _Toc501054424 7.1.1 项目启动制度 PAGEREF _Toc501054424 h 102 HYPERLINK l _Toc501054425 7.1.2 每日报告制度 PAGEREF _Toc501054425 h 103 HYPERLINK l _Toc501054426 7.1.3 周例会制度 PAGEREF _Toc50105442
12、6 h 103 HYPERLINK l _Toc501054427 7.1.4 里程碑会议制度 PAGEREF _Toc501054427 h 104 HYPERLINK l _Toc501054428 7.1.5 每月例会制度 PAGEREF _Toc501054428 h 104 HYPERLINK l _Toc501054429 7.1.6 问题管理制度 PAGEREF _Toc501054429 h 104 HYPERLINK l _Toc501054430 7.1.7 变更管理制度 PAGEREF _Toc501054430 h 106 HYPERLINK l _Toc5010544
13、31 7.1.8 文档管理制度 PAGEREF _Toc501054431 h 107 HYPERLINK l _Toc501054432 7.1.9 项目结束制度 PAGEREF _Toc501054432 h 107 HYPERLINK l _Toc501054433 7.2 项目实施进度管理 PAGEREF _Toc501054433 h 108 HYPERLINK l _Toc501054434 7.3 项目范围管理 PAGEREF _Toc501054434 h 108 HYPERLINK l _Toc501054435 7.4 管理手段 PAGEREF _Toc501054435
14、h 108 HYPERLINK l _Toc501054436 7.5 项目实施风险管理 PAGEREF _Toc501054436 h 109 HYPERLINK l _Toc501054437 第8章 项目验收及上线计划 PAGEREF _Toc501054437 h 110 HYPERLINK l _Toc501054438 第9章 知识转移 PAGEREF _Toc501054438 h 111 HYPERLINK l _Toc501054439 9.1 知识转移方案和策略 PAGEREF _Toc501054439 h 111 HYPERLINK l _Toc501054440 9.
15、1.1 通过现场培训传授技术 PAGEREF _Toc501054440 h 111 HYPERLINK l _Toc501054441 9.1.2 提交规范完整的技术文档 PAGEREF _Toc501054441 h 112项目背景和目标项目背景新区目前信息化建设已比较完善。新区全岛类信息化资源非常多,包括:全岛wifi、电子围网、地下综合管廊、电子联网、传输网络等;同时新区大数据平台上目前运行着政务办公桌面云、OA 协同办公、工程建设电子监察系统、GIS 地理信息系统、智慧门户、网上办事大厅、跨境电商、数字城管等数十套应用系统;最后还包括承载系统运行的服务器、数据库、存储等软硬件设备。为
16、确保新区信息化系统高效运行及数据中心运维正常和符合国际化发展趋势的要求,根据新区数据中心对运维管理体系的规范性要求,结合 ISO20000/ITIL 的建设理论做指导,公司计划建立先进适用的一体化运维平台。在原有的大数据中心建设的基础上,在运维体系规划和建设方面,启动咨询项目;启动监控平台建设、运维平台建设等方面,统一规划,相互支撑,最终实现针对管理范围的统一运维管理的实现。对所有机房、全岛资源、应用系统等实现实现统一管理、集中管控、规范化运维。建设目标本项目针对“统一运维”的实际要求,通过运维综合监控管理的建设,构建一体化运维平台的统一系统架构;规范运维管理体系与平台架构,统一管理各子系统运
17、维管理工具,为运维管理平台立体化扩展构建基础框架;构建一体化运维平台的统一访问门户;将运维管理信息与工具集中管理,统一访问入口,运维管理信息共享与联动;构建一体化运维平台的统一展现视图;规范运维管理信息展现平台框架;规范大屏(运维墙)展现内容与视图。本期项目建设,为一体化的运维管理打下良好基础,改变当前运维管理工作点多面广、维护力量不足、维护工作难于开展等一系列问题现状,实现以业务为中心,变“报障处理”的传统被动管理为“预测优化”的新锐主动管理,充分适应当前新区发展及信息化建设的需求。项目整体建设方案项目建设目标分析结合新区的运维管理现状,从“可视化,可控化,自动化”三个角度,理解本项目目标为
18、:本项目具体建设目标为实现对数据中心内的所有基础架构组件(包括机房环境、存储设备、服务器设备、网络设备、操作系统、虚拟化、中间件、数据库等)的集中监控和事件处理,包括各类事件的报警和性能趋势分析,可以根据用户的需求灵活定制各类监控策略。更具体分解如下功能模块:建设集中性能管理平台,具体包括网络管理、服务器管理、存储管理、中间件和数据库管理,以及集中告警管理平台建设。并对应用实现初步的性能监控功能,包括应用的进程、端口、URL、日志的监控。建设集中事件管理平台,事件是运维管理的核心驱动,集中事件管理平台将所有IT运维管理对象的告警事件进行集中管理,统一处理、分析、关联。建设自动化配置发现管理平台
19、;以自动化工具为平台,配以基于网络、服务器、桌面、应用等方面的自动化技术和工具,实现IT系统的自动化管理及云平台资源、作业等的自动化管理。建设基于 WEB 的集中报表平台,针对历史运维数据进行指标建模、统计分析。建设基于 WEB 的大屏展现系统,对实时的运维数据进行统一的动态展现。建设通信资源管理平台,实现对通信资源的可视化管理;建设集中远程管理平台,实现对多机房设备的远程管理;系统总体架构逻辑架构结合新区的运维需求和运维现状,建议规划逻辑架构如下:物理架构结合新区的运维需求和运维现状,规划物理架构如下:所需服务器配置功能说明硬件配置台数操作系统软件配置备注服务器1:集中监控/应用管理监控服务
20、器2CPU, 4核,内存16G,硬盘600G1RedHat Enterprise Linux 64位IT资源监控软件/应用监控软件服务器2:报表服务器/存储监控管理服务器2CPU, 4核,内存16G,硬盘600G1RedHat Enterprise Linux 64位报表软件/存储监控软件服务器3:事件集中管理服务器2CPU, 4核,内存32G,硬盘600G2RedHat Enterprise Linux 64位事件集中管理软件要求HA服务器4:网络监控服务器2CPU, 4核,内存16G,硬盘600G1RedHat Enterprise Linux 64位网络监控软件服务器5:3D展示管理服务
21、器2CPU, 4核,内存16G,硬盘600G1Windows2003 64位3D展示管理软件服务器 6:集中远程管理服务器2CPU, 4核,内存16G,硬盘600G2Windows2003 64位集中远程管理软件要求HA建设原则 运维平台建设必须遵从以下原则:满足新区大数据中心IT服务管理及IT基础监控的业务发展需求。所提供的用于建设IT管控基础平台的相关软件产品及模块必须是同一厂家的软件产品或是利用同一厂家所提供的平台通过开发定制而提供的模块,且能集成已有的第三方品牌的监控产品。提供的软件应是确保系统正常运行所需的管理、运营、实施、客户化、维护等有关的全部软件,并是成熟的最新版本的软件系统。
22、开放性要求:系统应支持多种操作系统平台,如Unix、Windows,linux等;支持主流数据库,例如:Oracle,SQL Server等;至少支持B/S访问方式,支持快速客户化定制和开发;系统应提供多种接口方式,实现与邮件系统、短信平台等集成。稳定性要求:系统应能够连续724小时不间断工作,出现故障应能及时告警。可靠性要求: 系统不能影响已有的IT系统的稳定性和性能。安全性要求:提供完善安全的用户授权和访问控制;权限控制应精确到每个设计元素或对象。维护性要求: 系统具有详细的帮助信息,并具备对系统自身的集中维护、配置和监控功能。网络要求:支持TCP/IP协议,支持穿越防火墙;支持地址映射。
23、可扩展性需求:系统设计同时应支持在不改变系统架构和支持模式的情况下,通过增配软硬件和用户许可证的数量或二次开发,实现系统在功能、性能及规模上的平滑升级和扩展。项目详细建设方案根据新区对运维营一体化管理平台的需求,我们可以分解成为:建设集中性能管理平台,建设集中事件管理平台,建设自动化配置发现管理平台;建设统一身份认证管理系统及安全管控平台;建设基于 WEB 的集中报表平台。建设基于 WEB 的大屏展现系统,对实时的运维数据进行统一的动态展现。建设基于ITIL的流程管理平台,实现对IT服务管理的标准化流程管理;建设通信资源管理平台,实现对通信资源的可视化管理;建设集中远程管理平台,实现对多机房设
24、备的远程管理。项目技术方案 集中性能管理平台集成机房监控新区机房主要有:新区大数据中心机房(入岛综合楼 3 楼)、政务网络机房(旧办事大厅 1 楼)、新综合服务大厅机房(新综合服务大厅 1 楼)、镇政府 4 楼机房、下属管委会、区自贸办机房(区管委会 2 楼),总面积约为 300 平方米。在本方案中将通过Omnibus实现集成和事件集中告警,采集和集成机房内现有的温湿度检测、消防检测、漏水检测、音视频监控、防雷故障监控、门禁监控。通过集成处理,可以将不同的数据源告警规范化,为后续的关联分析和统一运维规范化奠定基础。告警事件集中整合服务器/数据库/中间件/存储/虚拟化监控IT综合监控软件能够实现
25、对UNIX、Windows、Linux等各种操作系统关键资源的自动监控(监控OS,数据库),帮助管理员及时发现故障和故障隐患。对于各类操作系统提供了大量的资源模型。能够实现对MS SQL Server、Oracle、MySQL数据库及各种应用中间件的自动监控,帮助管理员及时发现故障和故障隐患。对于各类数据库及中间件监控提供了大量的资源模型和最佳实践。通过连续监视重要系统资源,自动检测瓶颈问题和潜在的问题,同时对事件主动做出反应,来帮助管理大型的异构环境。它扩展了现有关键业务服务器的监视能力,能够帮助新区实施智能化管理,在终端用户受到影响之前发现问题。支持Ping、TCP端口探测等可用性监测手段
26、,同时支持对系统特定功能或者页面显示内容进行探测的方式对应用可用性进行监测。先进的资源模型技术允许IT综合监控软件识别应用问题的特征,这有助于防止故障的发生。问题特征是重要的指标和阀限,当两者结合起来时,可触发一个能够预防系统故障的自动化操作过程。同时IT综合监控软件控制台支持客户端模式和浏览器模式,使管理员能在权限确认并允许的条件下,在任何地方访问和管理系统,极大的方便了系统管理人员,提高了系统管理能力。服务器资源池状况:服务器物理机状况:物理机器CPU使用情况:Datastore使用情况以及分析:物理机器内存使用情况:物理机关联的虚拟机,虚拟机的CPU、内存、IP地址等使用情况:数据库监控
27、状况:硬件监控在本方案中将监控小型机/刀片服务器的硬件状况。监控的指标如下:硬件:电源、电压、温度等hmc所有硬件告警系统:CPU、内存、磁盘、网络资源:小型机服务器资源分配及使用情况监控内容 物理硬件的电压、风扇、各种传感器、各种板卡的性能指标 物理硬件相关故障信息捕获 物理硬件的资产信息 监控协议充分利用厂商提供接口和SSH协议开源可控 主要指标包括:ASM Component VPD informationBIOS信息BIOS information硬件组件健康状态Component Health磁盘驱动器信息Disk Drive information序列号信息Serial Numbe
28、r Information电压信息Voltage Sensor information风扇转速信息Tachometer information温度信息Temperature Sensor information 硬件性能系统性能内存性能CPU性能网卡性能磁盘性能全面监控服务器的硬件和系统性能,多角度分析故障和压力指标存储监控和SAN网络监控在本项目中采用IT综合监控软件,提供独特的对存储和网络性能瓶颈分析报告,可以帮助新区系统管理人员迅速的发现现有存储架构中的性能瓶颈和故障信息,这些报告的源数据来自与对现有存储设备的深入管理的基础上,存储管理员可以通过光纤网络和磁盘系统性能的端到端视图并看到对
29、于业务的影响,察觉到存在的或者可能发生的问题。这些信息包括:监控交换机和连接端口的吞吐率,并且允许进行对指定性能KPI设置阈值报警。 监控磁盘子系统的端口、子系统磁盘组、磁盘卷的吞吐、I/O和cache的速率以及响应时间。 这些参数都可以设定报警的阈值,当故障发生时生成报警信息,预警可能的系统瓶颈。可以显示出所有性能的超出阈值,并使用performance health monitor 图标形象的显示报警事件。存储SAN网络全局监控界面如下:存储设备磁盘阵列监控界面如下:存储设备SAN交换机监控界面如下:通过存储监控管理模块,我们将帮助新区实现以下功能:1.提供一个完整统一视图对存储区域网络的
30、所有存储设备进行性能、故障、拓扑和配置管理。 2. 自动生成存储拓扑,在拓扑上可以显示出所有性能的告警,并可钻取显示报警事件详细信息。3. 提供报表分析和输出,全面了解现有存储设备的性能现状和趋势,为设备的升级和扩容提供技术参考。4. 存储监控管理平台应提供接口不限于:CSV、HTML、PDF、TXT等,通过这些接口可以直接将存储管理平台的性能数据接入统一集中告警管控平台。网络设备监控我们将采用IT综合监控软件满足客户实现网络集中管理的需求,主要包含以下模块:事件采集Probe:提供对网络设备基于Syslog方式或者SNMP Trap方式的事件采集。在大多数的企业用户环境中,通过Syslog和
31、Trap两种方式,可以直接采集来自于不同的网络设备的事件信息。网络故障处理平台:对于极大型网络集中管理,事件集中管理软件可以灵活组成分层Cluster架构,从而实现管理数千台网络设备、每天数千万规模的事件;事件集中管理软件事件处理模块提供了业界最为著名的事件处理能力,这种处理能力不仅表现其在大事件量即使是事件风暴时的处理效率,还表现在其可以灵活的定制事件处理策略,如执行重复事件压缩,事件关联分析和不关注事件抑制等功能。和拓扑管理模块结合,可以实现基于拓扑关系的事件根源分析,如节点宕导致下游节点故障等。拓扑自动发现:拓扑及性能管理模块提供了对IP网络二层和三层拓扑发现并进行展示的功能,对于小型网
32、络还提供基于ICMP/RPING/SNMP等协议的性能数据采集功能。拓扑图提供用户自定义呈现如某个关注的网段,以及不关注节点的过滤等功能。拓扑图节点会实时反映对应节点的运行状态,如出现故障,会显示对应节点故障颜色等,并可以调用故障详细信息进行查看。用户可以自定义对关注节点的关键KPI进行采集,并可以通过多个采集参数进行计算后得到所关心的性能指标。网络拓扑发现网络拓扑管理需要与故障管理紧密结合,纳入到整个网络运维流程的过程中,因此拓扑管理需要提供几个重要功能:自动发现网络的准确物理连接,一方面可以将拓扑资源信息丰富到原始的事件中,帮助管理人员了解故障设备更丰富的资源信息和连接信息,另一方面可以帮
33、助在故障发生时确定具体位置 提供对发现信息的扩展定制,允许根据用户的实际管理需要扩展发现的资源信息,并将这些信息存储在数据库中形成资源报表或者丰富到事件中。实时性能监测实时监测骨干网络设备的CPU、内存、端口利用率等主要性能指标。通过SNMP监控器,可实现对网络设备性能指标(包括如上所列)进行实时监控,对支持SNMP协议的网络设备的任意OID进行采样统计和衡量,如性能、端口的流量,以了解网络设备运行的效率。性能故障告警能够对超出阈值限值和历史平均趋势的异常情况进行告警,具有时间窗告警机制。性能故障会给企业带来难以估量的损失,客户信心的丧失和关键业务的中断。因此,网管人员不仅面临故障修复的压力,
34、更多的压力来自于对潜在故障的预防和消除。有效的容量规划固然是不可缺少的重要手段,然而,业务模式的变化或业务量的突增等一些不可预知的原因会造成设备或链路压力的增大和性能的下降,最后演变为宕机或崩溃等性能故障。对性能故障的预见性或预警是性能管理非常重要一个方面。故障根源分析(Root-Cause Analysis:RCA)故障根源分析RCA是确定一个或多个设备告警的根源的过程。网络中的一个失败场景通常产生多个告警。这是因为一个设备上的失败条件其他设备不可访问,于是告警被生产以标识所有这些设备不可访问。通过关联事件信息与拓扑信息执行RCA分析,进而判断哪些设备由于其他网络失败而临时不可用。暂时不可用
35、设备上的告警被抑制,被显示为原始、根源告警的表象告警。根源告警在告警列表和拓扑图中以最高点严重等级被显示,因而操作员可以容易地识别它们。集中事件管理平台事件集中管理软件提供超过针对一千多种不同IT环境的采集探针,可以支持目前业界几乎所有的IT设备与专业管理系统。且对资源消耗非常少,探针CPU消耗在2%左右,内存消耗在100M左右。在本方案可以集成管理主机监控、存储监控、网络监控的各类海量事件。能够实时的集中监视复杂的各种IT 系统情况。通过日处理超过数千万事件的可扩展性, 事件集中管理组件提供不中断的管理和自动化功能,保证服务和应用的持续运行、优化运行成本和效率。每5分钟可处理性能数据25万条
36、以上,每5分钟可处理的事件记录7.5万条以上。可以使用事件集中管理软件来实时管理复杂的IT系统事件信息,从而帮助优化各种IT系统的服务。事件集中管理软件可帮助加速新服务的上线并最大限度地提高系统可靠性,以增强客户满意度并提高操作人员的工作效率。事件集中管理软件可将网络管理和多个管理系统及工具合并到一个综合视图中,从而降低成本并提高总体生产率。事件集中管理软件支持的环境包括大量网络设备、互联网协议、系统、商业应用和安全产品。事件集中管理软件 提供了丰富的接口,企业用户可自己设定事件关联性、事件重复性、以及可自动处理告警事件。事件集中管理软件可以实时展示集中告警,并通过页面点击方式实现所有告警信息
37、以及重要告警信息展示的过滤功能,每条告警信息可人工干预生成事件工单以实现与ITSM系统的对接。(通过点击告警信息的方式实现告警详情查看)对事件可以进行灵活的分类,可以按照运维需要自行定义大类、子类等分类方式,并多维度展示,提供系统配置的导出和导入工具,以进行系统配置备份,在系统展示界面提供短信、邮件通知列表,允许根据监控指标或者用户查询告警规则,并支持批量进行维护,基线告警,针对一段时间点取平均值,基础告警,服务水平告警,业务告警,展现方式:通过语音,邮件,微信,短信故障通知,同时还提供告警动作的接口,用户可自行配制其他方式的告警展示方式。基于配置项的报警,状态式报警,告警恢复后,告警信息自动
38、解除。集中展示所有监控对象的告警信息。在告警台上能够进行告警的简单处理:包括对告警信息进行标注和暂时隐藏告警,针对告警指标能够记录和查询历史告警标注,对处理人提供历史处理信息参考。告警信息可自动与业务拓扑和网络拓扑进行关联,生成告警拓扑,通过该告警拓扑图可迅速定位告警产生的位置。同时,在本项目中将利用HA软件实现事件管理平台高可用。在任一台事件集中管理服务器出异常时候,能自动切换接管事件管理。通过以上组件,我们帮助新区建立集中化的一体化监控管理平台,实现对主机、存储及数据库/网络/中间件的集中监控,以满足新区现在及未来业务规模监控的需求。实现故障信息的全生命周期统一管理,提供相应的影响性分析报
39、告,清楚地了解IT环境状况及业务影响情况,并能快速相应处理告警,大大提高了告警处理的效率,提高了告警的实时性、准确性,使故障对IT环境的影响降低,提高业务持续可用性。自动发现配置管理平台本方案将以自动化工具TADDM为平台,配以基于网络、服务器、桌面、应用等方面的自动化技术和工具,实现 IT 系统的自动化管理及配置的自动发现,帮助构建辅助变更管理、变更影响分析的支撑数据。逻辑架构TADDM在进行配置信息收集时,主要是通过无代理的扫描机制来实现的,扫描获得的信息会依据通用数据模型(CDM)存入到TADDM的实际物理存储中(基于关系型的数据库),最后在TADDM的Web界面进行展现。下图描述了TA
40、DDM的工作原理:应用系统的收集能力依赖于发现探针,在TADDM中支持诸如网络设备、主机系统、存储设备、应用中间件与数据库等多种资源配置属性的发现。TADDM利用超过250种发现传感器“开箱即用”地发现通常在数据中心内可以遇到的多数组件,该过程跨越应用软件、主机、存储设备和网络层。详细的传感器列表请参考附件。核心组件TADDM的核心组件包括:TADDM发现服务器:用来自动发现配置项的核心引擎管理控制台视图:用来查看TADDM核心服务的运行状态产品控制台:用来配置发现的对象,发现时需要的系统信息,如系统SSH的账号、密码,数据库的用户名、密码等TADDM域管理:用来了解企业级范围内配置项的状态,
41、包括完成TADDM相关的安全设置以及报表查询功能Anchor服务器:为了实现对于防火墙的友好,设置的一个轻量级的TADDM服务器Windows Gateway:针对Windows系统,如果不使用SSH来发现所有的配置项,可以采用WMI的发式来发现所有的配置项,同时实现对于防火墙的友好TADDM数据库服务器:用于存放TADDM的配置和状态信息的数据库,可以使用DB2和OracleTADDM企业级服务器:可以支持管理多台TADDM服务器,实现对于TADDM服务器的集中管理通用数据模型TADDM提供了通用数据模型(CDM)以实现各种资源组件属性的收集和展现,并且根据端口连接和应用配置来自动生成应用服
42、务各组件之间的依赖关系。对于TADDM而言,如何将复杂的、庞大的配置项信息进行有效的组织,并且提供相互关系的定义对于配置管理而言是非常重要的。TADDM为此提供了一个通用数据模型来定义和描述其管理的配置项。通用数据模型随着TADDM产品的版本而有更新,其实这也是随着被管理资源对象的变化,如应用升级、新版本出现,而随之发生变化的。Tivoli的通用数据模型描述的是TADDM收集的配置项及其相互关系,以下图为例:上图描述的是WebSphere Cell、WebSphere Node以及和所安装服务器之间的配置属性及相互关系。所以,对于一个IT对象而言,TADDM能够收集哪些信息是由通用数据模型(C
43、DM)来决定的。当然,对于某些属性可以由用户进行扩展。对于TADDM而言,一共提供了三种拓扑数据结构,分别为:物理基础结构物理基础结构是IT环境中为应用程序运行提供平台的网络和硬件组件的集合,如IP子网、VLAN、路由器、服务器等。典型的物理基础结构拓扑图如下:从上图可以看到通过扫描发现的AIX服务器,以及HuaWei-3Com交换机、IP节点。在物理基础结构拓扑上可以支持查看相应对象的详细配置属性:应用程序基础结构拓扑应用程序基础结构拓扑是TADDM通过扫描发现的支持业务应用程序的服务器软件和服务组件的集合,如Web服务器、J2EE应用程序服器、DB2数据库、DNS服务等,基本上而言都是需要
44、通过TADDM的应用发现探针来发现的配置项。典型的应用程序基础结构拓扑图的一个样本如下:下面的应用展现是一个应用HHT,这是一个包含WAS/MQ/LDAP/DB2/Oracle的复杂应用:可以直接在应用程序基础架构图上显示配置项的详细信息:业务应用程序拓扑业务应用程序是通常作为一个单元进行部署和版本控制的组件集合,通常是为某一个业务单位或者某一业务处理来服务的。典型的业务应用程序如下:如上图,HHT应用是由特定的物理、应用程序来构建,所以将相关的对象纳入到HHT应用中来进行管理。通过选择“显示软件拓扑”和“显示硬件拓扑”来获得该业务应用程序的软件和硬件拓扑。当在复杂环境中,一个对象在需要发生配
45、置变化时,可以通过点击该对象的“显示依赖关系”来显示该对象与其它组件的依赖关系:所以,以上三种数据拓扑结构分别从硬件层、软件层和业务层进行了配置项和配置信息的展现。详细描述 TADDM 包含一个创新的发现库,通过采用无代理的方式,它可以将几乎任何来源的数据转换为通用的数据模型信息。通过以下多项关键能力,来帮助企业保持所获取信息的准确性和有用性:数据完整性和联邦能力:来自不同数据源的配置项目的单一主视图,用于帮助维护与源数据的连接以及源数据的相关性。调和能力:避免同一配置项目出现重复条目,最大限度降低因重复而导致的不一致和错误风险。同步能力:将经过批准的主视图(反映已知的变更)与其它版本进行对比
46、,有助于发现偏差。本地发现和应用映射能力:有助于全面而详细地了解支持的基础架构,并提供关于业务应用及其相互关系的详细视图。通过利用这些能力,TADDM将整个企业的数据整合在一起,帮您获得深入洞察力以协调在整个组织内所管理的资产和业务系统。发现TADDM提供了业务应用与支撑业务的基础设施之间完整而详细的应用程序映射,包括跨级别依赖性、运行时配置参数和完整变更历史(图一)。利用应用程序映射的自动维护,以及轻松地将数据和其他的企业信息进行集成的能力,IT组织可以:确保有效的成本控制和业务服务管理目标的成功执行显著降低服务失效和不一致带来的商业风险保证对技术和法规标准的遵从减少解决问题时间90%甚至更
47、多图一 TADDM界面TADDM最少安装需求:发现范围:典型为一个有效的IP范围、子网或特定的组件。发现范围确定了发现流程的工作范围。访问列表:访问列表指定只读访问证书,用来发现和查询组件的正确配置属性和依赖性。根据发现的组件类型不同,访问机制会有一些不同:SNMP共用string用来发现网元SSH用来发现主机/操作系统的配置和依赖性JMX,SQL,WMI等协议以及其他标准访问机制,用来发现应用软件进度表:TADDM的发现流程能够作为进度表的一部分,或者由外部触发事件驱动来按需执行。TADDM在市场上的诸多解决方案中,为应用基础设施的可视化提供了最全面的广度和深度。广度:利用超过250个开箱即
48、用的传感器,TADDM提供了对基于.NET、J2EE或自定义应用平台的业务应用的完全可视化,支持所有主流的应用平台软件,包括WebSphere、Weblogic、JBoss、Oracle、DB2、MS SQL、Apache、 IIS、SunOne以及成套应用,如PeopleSoft、 SAP、 Siebel和Domino/Notes,可运行于所有主流的Windows、Unix、Linux平台(或混合环境),支持相当广泛的网络和存储设备。深度:只有TADDM可以提供优化服务交付所需的相关信息的可视化。例如,TADDM可以识别:已部署应用模块如EJBs和.NET assemblies的变更单个软件
49、流程之间的依赖性,不管它们是运行于Windows系统还是Linux、Unix或者是混合环境主要网络服务,像LDAP、NFS、DNS之间的依赖关系软件与物理网络和存储层的逻辑依赖关系可扩展性:TADDM提供解决方案的快速扩展能力以满足客户的具体需求。例如,用户可以即刻创建自定义软件服务器,作为优先对象来发现并跟踪其变更。最后,TADDM自动处理最后的应用映射和业务应用的自动发现。它通过两种方式来实现,一种是通过部署后创建的应用模板,另一种是通过开发或部署时创建的IBM Application Descriptor。TADDM取消了在建立、维护、可靠性扩展以及最终应用映射中的最后一步手工步骤,因而
50、无须通过手工分组定义业务应用。这样极大地提高了成功执行业务服务管理和IT自动化绩效的能力,当然,该产品也支持通过拖拽来建立应用程序映射。TADDM的发现解决方案提供快速的自动应用发现、详细的配置细节、企业级安全性以及与其他数据源的轻松集成,包括数据的输入和输出能力。审计和控制CI比较很多情形下比较两个或多个CI配置是很重要的,例如,某公司政策规定,一个特定DMZ中的所有Web服务器都必须拥有相同的配置以确保完整性和及时的更新。另外一个例子比如可以将一个生产系统的配置和测试环境系统作比较,从而保证应用测试是有效的。通过TADDM,此过程相当简单,只须选择相关CIs,确定Master,然后运行比较
51、报告,得到的结果也是标记出与Master不同属性值的简单表格。CI变更历史TADDM一个最强大的功能是,能够快速而轻松的浏览CIs在一段时间内的变更。由于绝大多数IT问题都是由不当变更导致的,因此这对于在问题管理中缩短解决问题的时间意义尤为重大。变更历史报告不仅能确定在一个应用中哪些CIs作过变更,还能确定哪些属性作过变更,旧值和新值同时会显示出来。集中报表平台在本项目中,我们将开发专为运维管理的报表系统,它能够承载异构、跨平台、复杂的运维环境,也考虑到运维数据具有的大量的、非统一结构的特性。预留有丰富的接口,能为个性化的系统开放集成。采用B/S架构,方便操作。实现统一运维操作界面,简化运维工
52、作。提供一系列的数据展现、数据整合、和数据分析的功能,实现运维管理所需的报表。可以定期(每日、每周、每月、每年等)自动生成多种样式(电子表格、网页)的报表,同时还提供用户灵活的即时报表定制功能。维护人员还可以方便快捷地选择特定的运维对象、特定的监控指标,自定义需要的报表。报表模块实现功能如下:模块功能模块功能菜单功能概要要求报表报表模板报表模板创建报表模块中需要自带相应的报表模板,并且新报表模板的样式和字段可根据需求进行简单的自定义设置。模板支持多种样式。报表模板修改报表模板删除报表生成根据选择的字段生成报表。数据库中的字段均可作为报表的数据来源。报表导出报表支持导出为常见的文件格式。报表平台
53、架构该报表系统由数据处理引擎、报表规则引擎、任务调度引擎和报表定制中心、报表展现中心几个大模块组成。系统采用HTML5和J2EE应用技术,在界面的特效、移动端支持等方面有很好的表现。有报表数据处理、报表数据模型、即时展现、权限控制、定时调度、统计分析管理、查询服务和系统管理等功能。报表展现提供交互式报表浏览、多维图表、透视表、仪表板、电子表格,和用户安全管理等等。安全:提供了层次化的安全角色与多级用户访问权限。在服务器上基于用户与角色建立起自己的安全模型,或与现有的外部目录服务和单一登录系统集成起来,实现安全。数据导出:提供多种格式的数据导出,例如:Word/Excel,JSP/HTML,PD
54、F等通过调用API可以让报表在运行时动态添加可视化部件或改变现有的部件。可扩展的图表引擎支持动态图表与多维图表,并可以让用户添加定制图表和图像格式。封装部件中的复杂数据访问、商业逻辑或布局函数,使得其他开发人员可以在此基础之上创建更高级的设计,而不暴露底层的复杂性。自动生成报表是由IT运维报表的任务调度引擎实现的,通过任务调度引擎可以在指定的时间内自动完成对大量的原始数据进行处理、加工,以保证用户快速查看生成的报表。调度分发是在简单直观的Web用户界面就可以非常简单的调度他们需要的报表运行。通过配置该报表的规则自动将生成的报表发送到指定的邮箱。数据处理通过报表的规则将原始的数据汇总为以小时为单
55、位的数据,以日为单位的数据。还可以按照指定的规则进行分类汇总。利用横向关联和历史数据的对比的功能来实现多维的分析报表。对原始的数据进行加工处理,比如:汇总、聚合等。通过统计分析、运行分析和对比分析三个引擎可以从原始的、散乱的数据中形成数据趋势图,为管理者的决策提供有效的依据。数据源支持访问许多种数据源,包括主流的数据库,如Oracle,DB2,SQLServer,Sybase,XML,WebService, CSV/Excel,从而向终端用户隐藏底层数据源的数据结构与复杂性。多种数据源还体现在一张报表的数据来自于多个数据集乃至多个数据库。还能通过外部数据接口将报表的数据导入。开放性提供了多样的
56、集成选项,使用这些选项来定制报表的外观风格,向其他应用程序提供报表服务。除了可编辑的JSP页面与基于URL的API,还通过Web服务API的方式来提供其所有功能的访问。易用性快速部署:在短短一小时内即可完成安装配置并投入运行,将用户报表部署上去,提供报表服务。多样的现成的报表模板与报表库可以定义常用的布局和格式化选项的可重用样式,保存下来并在多个报表中使用,使得开发人员更高效地创建拥有统一外观的报表。拖拽式报表布局可以加快开发进度。多种多样的可视化报表部件,其中包括网格(grid),表(table),图片(image),和图表(chart)。报表可自动转换为html, pdf, word, e
57、xcel等格式,并可以通过扩展设计器来支持其他格式。交互式查看功能让用户可以进行报表定制。支持创建数据立方体与交叉表。可向报表设计中添加脚本程序来处理复杂的业务逻辑或数据访问。多报表设计中重用报表部件可以加速新报表的开发或现有报表的更新。报表设计参考第一类:管理层报表设计参考1. 重大告警统计汇总报表,统计最高级别的告警的应用分类、排名、按时间趋势分析图,并能下钻显示告警明细信息。2. 使用率综合排名报表:通过 CPU、内存、数据库表空间、磁盘空间的使用率排名,为未来的容量规划提供参考。3. 人员工作效率统计报表,根据指定日期和各省统计事件单。(统计处理人地域)。内容包括:公司、事件总量、平均
58、处理时长、处理及时率、解决率、满意度平均得分;4. 日常操作数量统计报表,根据指定日期按照统计日常操作事件单总数。内容包括:公司、工单总量、及时完成数、及时完成率;报表设计样例如下图所示:变更状态分布报表变更类型统计变更实施时间统计月变更第二类:监控报表设计参考1. 主机CPU综合统计报表,根据指定日期统计主机CPU综合性能。内容包括:状态、主机、系统、使用率、系统、用户、等待、空闲、队列进程数;2. 主机内存综合统计报表,根据指定日期统计主机内存综合性能。内容包括:使用、交换请求数、交换页换进、交换页换出、内存队列数、系统内存使用、用户内存使用、文件系统数据缓冲命中率;3. 主机磁盘/文件系
59、统综合统计报表,根据指定日期统计主机磁盘/文件系统综合性能。内容包括:Inode的总数目、可用Inode数目、已用Inode数目、Inode使用率、磁盘空间的总数目、可用磁盘空间、已用磁盘空间、磁盘空间的使用率、文件系统的总空间、文件系统使用比率;4. 主机磁盘性能综合统计报表,根据指定日期统计主机磁盘性能综合报表。内容包括:磁盘平均服务时间、磁盘平均等待时间、等待磁盘系统进程线程数、磁盘忙的百分比、传输率、传输字节数;5. 主机进程综合统计报表,根据指定日期统计主机进程综合报表。内容包括:占用CPU时间、进程状态、进程指令行、进程的规模、特定用户进程数、僵尸进程个数;6. 网络设备综合统计报
60、表,根据指定日期统计网络设备综合报表。内容包括:端口流入利用率率、端口流出利用率、端口误码率、端口丢包率、设备CPU利用率、设备内存利用率、设备缓存利用率;7. 数据库综合统计报表,根据指定日期统计数据库综合报表。内容包括:内存使用、特定表的空间性能信息、内表空间读写次数、内表空间利用情况、数据文件或数据设备读写、数据库碎片、数据库日志空间或回滚段使用、数据库锁使用、数据库用户占用资源;8. J2EE应用服务器性能综合统计报表,根据指定日期统计J2EE应用服务器综合性能。内容包括:当前应用服务器的内存堆使用比率、当前数据库连接池使用比率;9. 告警综合统计报表,根据指定日期按基础架构分类统计事
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 建筑行业节能减排
- 海外护理职业规划
- 2025年学科工作方案
- 2025年幼儿中班教学工作方案
- 出镜记者与主持人实务 课件 第三章 电视新闻故事化
- 大班班本课程《管你好玩》
- 健康宣教护理
- 端午节活动举办方案2025年
- 幼儿园课程管理
- 2025年三八妇女节学校活动方案
- 烟道改造居民同意协议书
- 2023年《房屋建筑学》考试复习题库大全(含答案)
- 征地拆迁培训班课件
- 2024年江苏城乡建设职业学院高职单招(英语/数学/语文)笔试历年参考题库含答案解析
- 寄生虫科普讲座课件
- 四新技术培训课件
- 游泳对提高免疫力的方法
- 《社会保险法解读》课件
- 汞中毒学习课件
- 浙江嘉华晶体纤维有限公司年产300吨超高温陶瓷纤维棉及600吨高温陶瓷纤维棉制品环境影响报告表
- 国际商事调解的流程和程序
评论
0/150
提交评论