集团公司智慧IT运维平台-技术路线方案_第1页
集团公司智慧IT运维平台-技术路线方案_第2页
集团公司智慧IT运维平台-技术路线方案_第3页
集团公司智慧IT运维平台-技术路线方案_第4页
集团公司智慧IT运维平台-技术路线方案_第5页
已阅读5页,还剩102页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、PAGE 集团公司智慧IT运维平台技术路线方案目 录 TOC o 1-4 h z u HYPERLINK l _Toc528144440 1.目标及范围 PAGEREF _Toc528144440 h 5 HYPERLINK l _Toc528144441 1.1 项目目标 PAGEREF _Toc528144441 h 5 HYPERLINK l _Toc528144442 1.2 项目范围 PAGEREF _Toc528144442 h 6 HYPERLINK l _Toc528144443 2.技术方案 PAGEREF _Toc528144443 h 7 HYPERLINK l _Toc

2、528144444 2.1 技术路线 PAGEREF _Toc528144444 h 7 HYPERLINK l _Toc528144445 2.1.1 关键技术 PAGEREF _Toc528144445 h 8 HYPERLINK l _Toc528144446 运行监控系统 PAGEREF _Toc528144446 h 8 HYPERLINK l _Toc528144447 配置管理数据库系统 PAGEREF _Toc528144447 h 27 HYPERLINK l _Toc528144448 IT服务管理系统 PAGEREF _Toc528144448 h 31 HYPERLIN

3、K l _Toc528144449 运维门户 PAGEREF _Toc528144449 h 33 HYPERLINK l _Toc528144450 大屏展示 PAGEREF _Toc528144450 h 36 HYPERLINK l _Toc528144451 平台集成 PAGEREF _Toc528144451 h 38 HYPERLINK l _Toc528144452 2.1.2 特色技术 PAGEREF _Toc528144452 h 39 HYPERLINK l _Toc528144453 电信级的统一数据采集技术 PAGEREF _Toc528144453 h 39 HYPE

4、RLINK l _Toc528144454 科学的业务可用性量化算法 PAGEREF _Toc528144454 h 43 HYPERLINK l _Toc528144455 特色的移动终端应用技术(掌上运维) PAGEREF _Toc528144455 h 45 HYPERLINK l _Toc528144456 强大的系统集成ESB数据总线 PAGEREF _Toc528144456 h 52 HYPERLINK l _Toc528144457 高效的告警扫描产品 PAGEREF _Toc528144457 h 54 HYPERLINK l _Toc528144458 面向SOA的流程引擎

5、 PAGEREF _Toc528144458 h 54 HYPERLINK l _Toc528144459 CMDB灵活建模和调和技术 PAGEREF _Toc528144459 h 58 HYPERLINK l _Toc528144460 大屏综合展示开发技术 PAGEREF _Toc528144460 h 59 HYPERLINK l _Toc528144461 2.1.3 系统性能 PAGEREF _Toc528144461 h 61 HYPERLINK l _Toc528144462 设备管理数量 PAGEREF _Toc528144462 h 61 HYPERLINK l _Toc5

6、28144463 响应时间 PAGEREF _Toc528144463 h 62 HYPERLINK l _Toc528144464 容量 PAGEREF _Toc528144464 h 62 HYPERLINK l _Toc528144465 2.2 系统总体架构及部署 PAGEREF _Toc528144465 h 62 HYPERLINK l _Toc528144466 2.2.1 总体架构 PAGEREF _Toc528144466 h 62 HYPERLINK l _Toc528144467 2.2.2 系统组成及系统体系结构 PAGEREF _Toc528144467 h 63 H

7、YPERLINK l _Toc528144468 2.3 标准化 PAGEREF _Toc528144468 h 64 HYPERLINK l _Toc528144469 2.3.1 运行监控系统 PAGEREF _Toc528144469 h 64 HYPERLINK l _Toc528144470 运行监控系统接口规范 PAGEREF _Toc528144470 h 64 HYPERLINK l _Toc528144471 监控对象命名规范 PAGEREF _Toc528144471 h 66 HYPERLINK l _Toc528144472 运行监控服务目录 PAGEREF _Toc5

8、28144472 h 68 HYPERLINK l _Toc528144473 运行监控服务及报表申请流程 PAGEREF _Toc528144473 h 70 HYPERLINK l _Toc528144474 2.3.2 服务管理系统 PAGEREF _Toc528144474 h 73 HYPERLINK l _Toc528144475 服务管理系统接口规范 PAGEREF _Toc528144475 h 73 HYPERLINK l _Toc528144476 运维术语和运维流程 PAGEREF _Toc528144476 h 73 HYPERLINK l _Toc528144477

9、相关指标 PAGEREF _Toc528144477 h 75 HYPERLINK l _Toc528144478 基础数据 PAGEREF _Toc528144478 h 77 HYPERLINK l _Toc528144479 2.3.3 配置管理系统 PAGEREF _Toc528144479 h 78 HYPERLINK l _Toc528144480 配置项分类标准 PAGEREF _Toc528144480 h 78 HYPERLINK l _Toc528144481 配置项命名标准 PAGEREF _Toc528144481 h 79 HYPERLINK l _Toc528144

10、482 配置项信息变更规范 PAGEREF _Toc528144482 h 81 HYPERLINK l _Toc528144483 配置项信息模板 PAGEREF _Toc528144483 h 85 HYPERLINK l _Toc528144484 2.4 安全设计 PAGEREF _Toc528144484 h 85 HYPERLINK l _Toc528144485 2.4.1 物理安全 PAGEREF _Toc528144485 h 86 HYPERLINK l _Toc528144486 2.4.2 网络安全 PAGEREF _Toc528144486 h 86 HYPERLIN

11、K l _Toc528144487 2.4.3 主机安全 PAGEREF _Toc528144487 h 86 HYPERLINK l _Toc528144488 2.4.4 数据安全 PAGEREF _Toc528144488 h 89 HYPERLINK l _Toc528144489 2.4.5 应用安全 PAGEREF _Toc528144489 h 91 HYPERLINK l _Toc528144490 2.4.6 安全管理 PAGEREF _Toc528144490 h 92 HYPERLINK l _Toc528144491 2.5 与其他系统的集成 PAGEREF _Toc5

12、28144491 h 93 HYPERLINK l _Toc528144492 2.6 备份方案 PAGEREF _Toc528144492 h 94 HYPERLINK l _Toc528144493 2.6.1 备份方案 PAGEREF _Toc528144493 h 94 HYPERLINK l _Toc528144494 备份技术介绍 PAGEREF _Toc528144494 h 94 HYPERLINK l _Toc528144495 备份策略介绍 PAGEREF _Toc528144495 h 94 HYPERLINK l _Toc528144496 备份技术要求 PAGEREF

13、 _Toc528144496 h 95 HYPERLINK l _Toc528144497 重点备份内容 PAGEREF _Toc528144497 h 96 HYPERLINK l _Toc528144498 2.6.2 恢复方案 PAGEREF _Toc528144498 h 96 HYPERLINK l _Toc528144499 恢复时间与策略 PAGEREF _Toc528144499 h 96 HYPERLINK l _Toc528144500 备份恢复处理流程 PAGEREF _Toc528144500 h 97 HYPERLINK l _Toc528144501 备份恢复处理方

14、案 PAGEREF _Toc528144501 h 98 HYPERLINK l _Toc528144502 3.软硬件配置方案 PAGEREF _Toc528144502 h 101 HYPERLINK l _Toc528144503 3.1 软件配置清单 PAGEREF _Toc528144503 h 101 HYPERLINK l _Toc528144504 3.1.1 运行监控配置清单 PAGEREF _Toc528144504 h 101 HYPERLINK l _Toc528144505 3.1.2 服务管理配置清单 PAGEREF _Toc528144505 h 103 HYPE

15、RLINK l _Toc528144506 3.1.3 配置管理配置清单 PAGEREF _Toc528144506 h 104 HYPERLINK l _Toc528144507 3.1.4 运维门户配置清单 PAGEREF _Toc528144507 h 104 HYPERLINK l _Toc528144508 3.1.5 大屏展示配置清单 PAGEREF _Toc528144508 h 105 HYPERLINK l _Toc528144509 3.2 硬件配置清单配置建议 PAGEREF _Toc528144509 h 105 HYPERLINK l _Toc528144510 3.

16、2.1 生产环境硬件配置建议 PAGEREF _Toc528144510 h 105 HYPERLINK l _Toc528144511 3.2.2 测试环境硬件配置清单 PAGEREF _Toc528144511 h 106 HYPERLINK l _Toc528144512 3.2.3 数据库配置建议 PAGEREF _Toc528144512 h 107目标及范围项目目标集团公司在总部和企业层面已经建立了以综合网管系统和SAP SLM系统为主的运维支持系统,运维支持系统概览如 REF _Ref328568448 h * MERGEFORMAT 图所示。图 运维支持系统概览集团公司总部建立

17、呼叫中心系统实时响应了用户有关门户、OA、基础应用、安全、视频、MES等系统的服务请求;工单系统实现了总部运维人员处理系统故障的工单流转;SAP SLM实现了ERP系统服务请求受理、事件管理、应用监控及变更管理;网管监控系统实现了因特网、主干网、局域网、服务器、安全设备、企业防火墙、基础应用等基础设施的故障和性能监控;资金集中监控系统实现了资金集中系统的网络设备、服务器、安全设备、存储、负载均衡、灾备和应用系统的一体化监控;MES应用监控评价系统对MES应用进行监控,为MES上线达标、验收达标及深化应用提供了报告和依据。在企业,已建成76家企业的综合网管系统,实现了对企业基础设施的监控;基本建

18、成防病毒管理Bigfix系统,截至2012年1月,共安装18.3万台,授权数18万。同时,广州石化、茂名石化、燕山石化、北京石油等部分企业已建设了运维服务管理系统。本次项目的总体目标是整合运维支持系统,建设集中的一体化运维平台,支撑集团公司IT运维共享服务,提高运行效率,降低成本,实现总部和企业运维统一调度和集中管控,达到国内领先、国际一流的水平。(1)建设集团公司IT运维平台,实现运行监控、配置管理数据库、IT服务管理、运维门户与大屏展示;实现与SAP SLM、SSOC、云资源管理平台、资金集中监控系统、加油卡监控等系统的集成。具体实现如下:统一调度运维资源:建成集中的服务管理系统,集成SA

19、P SLM,实现运维支持工作的全过程管控和知识共享,通过在线流程有机协同总部、区域中心和企业之间,运维队伍与项目组之间的运维支持工作。集中监控应用系统:建成集中的运行监控系统,实现对50套应用系统的应用监控,从用户使用的角度进行可用性监控,及时发现和处理问题,缩短系统不可用时间。集中管理配置信息:建成集中的配置管理数据库系统,实现50套应用系统与总部管理的基础设施的统一管理,为运维支持、变更风险分析、重大问题处理决策等及时地提供真实数据。大屏展示运维情况:提升运维门户和大屏展示,通过系统集成大屏展示应用监控指标、信息安全状况、服务受理情况、重大问题处理情况等运维服务信息。(2)制定集团公司IT

20、运维标准与规范。包括运行监控规范、服务管理规范、 配置管理规范等。项目范围项目范围包含总部基础设施和总部统建的50套应用系统,以及与两家试点企业已有运维系统的集成。基础设施的范围主要包括总部4个数据中心,11个区域中心,涵盖服务器、存储、安全设备、网络设备、数据库、中间件等,当前共有各类设备7000台左右,具体数量以实际为准。应用系统的范围主要包括ERP、MES、资金集中管理、总部生产营运指挥、电子商务、合同管理、综合办公、加油卡(区外)、APC等50套应用系统,主要涵盖了SAP、.NET、JAVA、Domino等技术平台。技术方案技术路线IT运维平台系统的建设将采取如下总体技术思路,兼并考虑

21、平台的整体性与可扩充性。采用先进的企业级架构技术采用先进的工作流引擎和组件化技术支持自动配置项发现和识别支持丰富的接口实现工具,保证相关系统协同运维平台主要包括呼叫中心系统、服务管理系统、运行监控系统、配置管理数据库系统、综合展示与运维门户,平台实施的技术路线为:产品路线选择先进的成熟产品,在考虑利旧的同时,考虑易于适应运维业务、平台需求变更的产品;选择系统间接口采用标准协议或具有集成相关系统成熟套件的产品;基于云架构进行基础设施及应用部署。实施路线将专业工具与通用平台相结合,通过系统集成满足专业管理需求与通用管理需求。参照最佳运维实践,定制业务流程及主要功能。对于不能由产品定制实现的功能,根

22、据产品技术路线,采取J2EE或.NET及其他技术路线进行二次开发,采用标准接口或其他技术手段进行集成 每个子系统使用的关键技术详细描述如下。关键技术 IT运维平台在技术的选择上遵循先进性和成熟型的原则,确保IT运维平台达到国内领先。具体采用关键技术分系统描述。运行监控系统统一数据采集运行监控系统的数据采集层通过与被管系统的接口采集相关数据,送到数据处理层进行数据处理。数据采集是运行监控系统的重点,采集的效率、准确性直接影响到整套运行监控系统的效率。因此,需要一套高效、准确的采集平台。自主开发的统一数据采集平台(软件登记名称:统一采集云平台软件V7.0)经过多年的沉淀和积累可以很好地解决以上问题

23、。统一采集平台的建设目标是构建基于云架构的采集共享平台,能够实现统一采集、统一共享、统一管控:统一采集:统一采集控制,对基础设施的监控进行管控,对不同厂商的监控工具进行集中管理,实现监控软件的起停控制,策略的统一管理、下发,支持采集客户端的的自动分发、集中部署。 可接入各种设备系统,具备灵活的扩展性。支持第三方厂家适配器插件,提高采集系统的平台能力和开放性。 更合理的采集策略和并行度,采集执行效率提升。支持云计算技术,突破硬件采集瓶颈。统一共享:按需采集,根据管理需要灵活设定采集范围和采集指标。采集平台处理能力可根据负载进行调整,克服采集资源浪费的问题。统一的北向接口,采集规模可以平滑伸缩,通

24、过采集机管理功能,满足应用和用户规模伸缩的需要。对不同的数据源采用不同的采集适配器,以插件形式集成在统一采集平台。一次采集多处复用,实现数据开放性,并可按照约定接口向第三方系统提供数据。统一管控:管理采集能力伸缩,支持超大规模数据采集,多服务器并行处理,实现大数据量的并行采集,提升采集效率。动态负载均衡,通过采集节点同构、互换能力及任务转移等措施来保障采集服务的高可靠性和容错能力。指标算法可视化。可视化的指标算法管理可方便维护人员对各类指标算法的维护和使用,是实现数据质量管理和采集过程管理的基础。采集流程透明化,可监控数据处理过程,简化了接入过程,减少了维护工作量。功能架构统一数据采集的功能架

25、构如图所示:图 统一数据采集功能架构具备如下功能: 采集适配器实现与设备侧的接口协议适配,从设备侧获取原始数据,进行数据解析(词法分析,数据格式标准化,根据处理规则将采集到的底层数据转换成相应的信息模型的数据)。采集适配器的功能组成如下:协议适配、数据获取、告警风暴抑制、数据解析、数据上报,并支持被动接收设备侧发送的数据。经过解析后的源数据通过适配器北向接口向上共享。 采集调度及处理数据处理接收采集任务,主动调用相应采集适配器从设备侧获取数据,对数据进行解析、归一化,并根据需要进行KPI指标计算。原始数据、归一化数据、KPI指标均可以推送到数据共享层,可以文件、数据库、消息等方式进行传送和保存

26、。支持采集适配器的灵活扩展以支持不同设备的数据接入。同时可以接收订阅策略,根据策略和当前时间实例化成采集任务,根据各采集节点的运行环境和资源空闲情况进行判断,能够选择合适的采集节点,并把任务下发;能够接收采集节点反馈的任务执行情况,并监控各采集节点运行状态;根据任务的采集结果分析数据是否完整,能够根据设定的策略触发数据的补采。支持如下采集能力:自动采集能力满足定时任务周期性自动采集数据,采集周期和采集时间根据要求可任意设置。采集的时间粒度可以基于单个网元选择。手动采集能力满足任意时间通过手工方式下发采集任务。通过对要采集数据范围设置开关量,即可随时手动按网元或时间进行数据采集。全量采集功能提供

27、按照全部被管理对象的全量采集任务集中下发,根据数据需要进行全量数据的集中采集做系统整体数据更新能力。单网元采集功能在全量采集基础上补充提供针对单网元的数据采集及数据更新,作为全量采集缺失的有效补充机制。 采集接入管理适配器的注册、查询、装载以及采集单元设置。 采集策略管理对采集策略的配置、查询等设置。能够根据采集对象、采集指标、采集频率、采集时间、启停状态灵活定义被管理网元的采集策略。可支持批量采集策略配置,即一次对一组被管理对象设定采集策略。采集策略支持按分钟、小时、天采集,可以是周期性连续的时间段,也可以根据实际使用需求需要针对一天中的特定的几个时间点进行定制任务性采集数据。 指标算法管理

28、采集算法的导入/导出、编辑、差异分析以及指标的核查分析等。 数据共享管理数据订阅请求,对数据消费者的管理和查询、权限授权、根据设定的数据订阅权限判断该订阅请求是否合理并作出响应。数据准备好后,给订阅该数据的外部系统发送通知消息以及数据的访问方法,外部系统主动获取数据,对同一份数据的不同订阅者分别发送通知。 负载均衡管理设置采集机/组启停、采集服务查询、负载均衡监控及负荷阈值查看。 采集数据监控分析对采集到的数据进行完整性等监控及质量问题分析。 系统自身管理对统一采集平台自身的管理,把适配器注册到平台中,设置访问设备的信息,对统一采集平台中任务执行情况、数据共享情况的监控,设定各外部应用系统对数

29、据订阅的权限,支持通过统一采集平台直接完成外部系统对数据的订阅。部署架构统一数据采集平台的部署结构如图所示:统一数采的部署结构图各采集机做为采集节点,部署在各个专业网域内,和被管理设备进行交互。采集调度服务器、消息服务器和各个采集节点进程之间保持网络畅通,各采集节点之间可以不直接连通。这种部署方式通过采集节点同构、互换能力及任务转移等措施,可以保障采集服务的高可靠性和容错能力。采集调度服务器及其存储设备,部署控制层和应用层,根据需要可以部署为主备服务器,支持在不同机器上分布部署。消息服务器,接受、传递、转发消息,根据需要可以部署为主备服务器。数据来源本项目中,统一数据采集平台的数据来源如下图:

30、在本项目中统一数据采集的数据来源有三方面:(1)直接采集网络、服务器、存储、数据库、中间件等基础设施的性能数据、告警和主要配置数据。(2)直接采集22套应用系统的可用性和响应时间等应用监控数据。22套应用系统包括会计集中、业务公开、合同管理、电子商务、综合办公、总部门户、股份/集团公司网站、总部生产营运指挥、零售管理、目录服务系统、统一邮件系统、统一通信系统、代理服务系统、文档安全管理系统、统一身份管理、PKI/CA、日志审计系统、时间服务、防病毒。(3) 通过和其他监控系统集成,实现对50套重点应用系统( REF _Ref349655104 h * MERGEFORMAT 表 1.6 REF

31、 _Ref349655112 h * MERGEFORMAT 表 1.8)中另外28套应用系统的应用监控。其他监控系统包括SAP Solution Manager、微软SCOM、安全SOC、资金集中监控系统、加油卡监控系统、MES应用评价、APC运行监控、勘探开发监控、机房环境监控系统。统一数据采集至少提供但不限于以下三种数据采集方式:通过配置实现采集:通过配置Syslog、SNMP Trap、Socket、ODBC、NetFlow、Eflow等方式将事件日志、告警信息、性能参数以及各类事件数据发送到采集服务器或数据集中管理组件。安装代理实现采集:在服务器上安装采集引擎代理程序,执行后台采集服

32、务以及采集脚本,将目标系统上的事件日志、告警信息、性能参数以及各类事件数据收集后发送给采集服务器或数据集中管理组件。采集到的数据暂存于被管服务器端,缓存时长可调整,具备主动数据上传能力,在与上层模块通讯中断的情况下,主动尝试重连,提供断点续传能力。定时轮询采集:通过ICMP、HTTP定时轮询、用户模拟体验来获取被管对象的数据。平台至少支持:SNMP、 SNMP Trap、SYSLOG、专用Agent、Telnet/SSH、Ping、ODBC、JDBC、WebService、Flow、SMI-S、Http/Https、JMX、Socket等数据采集协议和接口。重点支持协议支持如下:表 运行监控系

33、统支持的数据采集协议内容规范数据采集SNMP、SNMPTrap V1、V2、V3:采集支持Snmp协议的产品。Syslog:采集支持Syslog协议的产品。Agent:采集专用Agent的数据,主要指服务器代理。Flow:Netflow、Netstream、Cflow、Sflow采集支持Flow协议的产品。ODBC/JDBC:采集存储在数据库的系统日志。API采集:运行监控系统主动调用被监控系统提供的API,来获取监控信息。SMIS采集:存储设备、光纤交换机、HBA卡等SAN存储设备运行数据采集。FTP,NFS或SMB等通用文件接口:采集基于文件的日志,包括数据库日志文件、中间件日志文件、业务

34、系统日志文件、定时采集系统资源而生成的文件等。专用日志采集接口:通过监控设备提供接口获取日志。采用代理获取:通过第三方代理获取日志。包括但不限于SHELL、BAT、SOCKET等采集方式。终端用户体验:通过模拟用户操作行为,探测应用可用性。使用情况监控:注册用户数、在线用户数、交易量、成功交易次数、失败交易次数等。针对不同的监控对象将获取不同的数据内容,包括:针对网络设备,获取的信息包括:接口数量、IP/MAC地址、接口索引、接口类型、接口描述、接口速率、工作状态、管理状态、接口流量、VLAN信息、丢包信息、错包信息等;针对安全设备,获取安全设备的安全告警日志和运行状态等信息;针对主机系统,获

35、取的信息包括:操作系统类型和版本、网络接口数量、IP地址/MAC地址、子网掩码、CPU编号、内核数、内存大小、CPU动态信息、内存动态信息、系统进程动态信息、硬盘动态信息、用户访问信息等;针对数据库,获取的信息包括:数据库名称、数据路径、基本目录、数据库版本、字符集、配置的临时表大小、临时表目录、数据表信息、缓存信息、线程信息、锁信息、页和行锁信息、查询命中率、数据库内存使用性能指标、数据库特定表的空间性能指标、表空间性能指标、数据文件或数据设备的读写次数性能指标、数据库碎片的情况性能指标、数据库日志空间或回滚段使用情况性能指标等指标针对中间件,获取的信息包括:中间件系统类型、中间件系统版本信

36、息、会话动态信息、进程池动态信息、JDBC连接池动态信息、事务数动态信息、事务的平均持续时间、JVM动态信息、EJB动态信息等;针对存储设备,获取基本信息、健康度、磁盘信息、主机端口映射信息、阵列lun信息、阵列组信息等;虚拟化管理:树立并建立虚拟化资源对象间的关系模型,实现对虚拟化配置管理系统、运行状态和故障管理、虚拟机运行性能管理。终端用户体验:对模拟终端用户访问各应用系统(如登录、查询、报表、退出等)的过程进行监测,监测终端用户访问应用系统的可用性与响应时间;应用系统使用情况:应用性能管理应该重点关注应用交易的状态,包括注册用户数、在线用户数、交易量、成功交易次数、失败交易次数;自定义对

37、象监控:根据运行监控系统的要求,系统提供对监控对象和监控内容的扩展,扩展方式简便,提供可视化、脚本等多种形式的扩展方式。关键技术管理服务器双机热备统一采集平台支持分布部署,在日常运行过程中管理服务器属于系统的核心中枢,统一采集平台通过对自身软件管理控制功能的优化改造,无需采用例如HA等第三方的双机热备软件,即可实现管理服务器的双机热备。通过双机热备方式,解决管理机单点故障,保障在一台机器故障的情况下,能够自动完成切换,不丢失采集任务,正常输出数据,为上层应用提供稳定的数据支撑。统一采集平台实现的双机热备功能,是针对系统自身的实时性特点所定制的高可用解决方案,属于应用软件级别的双机热备,不仅能够

38、应对网络、主机等基础设施层面的故障,还能够支持应对主机应用程序的挂死等故障,保障采集任务的不丢失,有效提升了统一采集平台的稳定性与安全。统一采集平台实现管理服务器的双机热备,主要包括主备服务器信息同步功能、主用服务器状态监控功能、主/备服务器切换功能。用例示意图如下:流程示意图如下:采集节点负载均衡和容灾采集节点心跳监控:采集节点实时上报心跳信息给管理服务器,心跳信息中包含系统资源占用情况,包括CPU、内存占用情况,管理服务器通过心跳信息及时掌握各采集节点的状态,管理服务器在3个心跳周期没有收到心跳就置该采集节点为不可用状态,不会再给该采集节点下发任务,同时发送告警信息及时通知维护人员。采集节

39、点负载均衡:根据当前采集节点的资源空闲情况、当前运行任务情况,待下发的任务权重,计算出发给每个采集节点的任务。支持定向到采集节点:由于网络路由限制,允许对采集节点进行分组,在采集节点组内部进行负载均衡,支持对某个采集源的采集定向到某一个采集节点。采集节点容灾:当某个采集节点硬件出现故障后,该采集节点上正在执行的任务会被重新分发给其他采集节点完成。系统自恢复能力采集节点和管理服务器之间的网络断开后,采集节点应该能够不断尝试和管理服务器通讯,网络恢复后采集节点会及时上报心跳信息,后续管理服务器就会把该采集节点置为可用状态,下发新的任务。监控数量监控数量每级节点支持的管理对象下限如下,可通过软硬件处

40、理能力进一步扩展:网络设备对象:不低于2000个(含虚拟网络设备)。服务器对象:不低于2000个操作系统(含虚拟服务器)。通用应用服务对象:不低于500个应用实例(含DNS、IIS、tomcat等)。数据库对象:不低于200个数据库实例,含Oracle、SQL Server、My SQL等数据库支持,并支持对神通数据库的管理开发定制。存储设备对象:不低于20个。应用系统:不低于100个,主要为自主设计开发的专用业务系统。数据存储能力系统保存所有原始告警数据,原始告警与监控系统或网元管理终端所获告警保持一致,告警数据一致性能达到100%。原始粒度性能数据默认在线保持3月以上,小时粒度性能数据默认

41、在线保持1年以上,日粒度性能数据默认在线保持2年以上。且此时间可以根据用户需求自行修改;支持在线数据在线修改功能,用户可通过对应用界面进行修改。支持超过1年的数据归档导出,支持数据倒入恢复功能。各种日志文件、历史告警文件应至少能保存6 个月的事件。6个月以上数据采用光盘、磁带等介质进行备份,脱机保存,应提供查询功能。视图管理拓扑视图主要是对IT基础网元拓扑关系的展示,业务视图主要是对BSM(业务服务管理)要体现的业务系统与IT基础网元相互关系的展示。在拓扑关系展示和业务关系展示的理论框架中,都包含服务的分解与构建、应用映射等功能的模块,所以,运行监控子系统中采用统一的视图管理实现拓扑展示和业务

42、视图的展示。架构设计图 web视图技术架构Topology在每一层次位置情况如下:数据源:配置文件将作为File数据被使用。在Topology模块中,对于XML File数据的需求与依赖程度远远高于其它模块,主要是因为Topology的全局开关与默认参数、交互动作、事件插件、指标字典、显示转换器、告警、图标、右键菜单等等核心功能全部基于配置工作,并进一步用于屏蔽项目个性化带来的分支维护与版本升级压力。PM与AM分别指性能服务层与告警服务层,这部分并不发生改变,主要为客户端提供实时的、高性能的性能与告警数据。Hyperspace是新的系统架构中用于提供资源服务的模块,与PM、AM同级,也是中层服

43、务的一部分。Topology 的所有资源数据都将不再依赖于数据库,而是直接从Hyperspace查询获得,这其中不仅仅包括最基本的网元等,还包括更加高级的树与图。Database的作用在Topology核心功能中被弱化,但是在Topology各个业务的外围功能中,地位不降反升,主要是因为趋势、统计、排名、状态类数据均存在通过Topology集中图形化展示的需求。架构层次:服务端:服务端DAO层次将借助Spring Transaction来进行事务管理。另外,服务端对于拓扑图资源维护过程中的一些触发式的预计算也要进行更多的支持,以便客户端能够更方便、更专注的完成图形绘制的工作。数据交互:新架构上

44、变更较大的是由服务端向客户端主动推送数据,在一个浏览器中,Topology通过FlashPlayer与Web的整体框架共用同一个已经在服务端注册过的消息客户端,从而接收由服务端主动推送给Topology模块的告警、资源变更、状态变更等消息,并在图中将变更快速、直观体现出来。此外,Hyperspace向外提供RESTful的WebService访问接口,并提供Java与JavaScript两种语言的客户端,所以Topology将直接应用其提供的客户端完成对于资源数据和图结构数据的获取。客户端:采用JavaScript + CSS3 + SVG技术。除了智能手机的屏幕过小不适合浏览拓扑结构视图外,

45、Pad等屏幕稍大的移动终端应该能够支持拓扑图形的显示。智能终端推送可考虑小规模的异步轮询模式,以极小代价获取服务端是否更新的动态标识,来达成推送的跨终端平台能力。图形引擎拓扑的图形绘制完全由图形引擎(GraphEngine)负责,它的接口比纯粹的点、线、面绘图更加高级,提供专门用于组织、绘制二维拓扑图形的全部高度抽象接口。这些接口与具体绘制的拓扑业务无关。另外,图形引擎对其定义的接口用哪一种绘图技术来实现也不关心,只要这种技术能够实现图形引擎所定义的接口,那么业务逻辑部分就可以通过图形引擎的接口完成拓扑图的绘制。大数据技术数量庞大的IT资源,在运行过程当中,时时刻刻都在产生大量的运行事件信息,

46、同时也积累了超大数据量的历史运行数据。采用大数据分析处理技术为告警相关性挖掘、长周期性能分析与预测、实时数据业务性能数据分析、告警日志检索、应用流量分析、数据分析挖掘等应用场景提供了新的途径和方法。大数据分析处理在产品系统中的应用场景说明:大数据技术说明Hadoop是一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。Hadoop的成员架构如下图所示: Hadoop成员架构图本次系统中使用到的Hadoop框架内容包括:(1)HDFSHadoop分布式文件系统(Distributed File System)

47、 HDFS (Hadoop Distributed File System)(2)Map-Reduce并行计算框架,0.20前使用 org.apache.hadoop.mapred 旧接口,0.20版本开始引入org.apache.hadoop.mapreduce的新API。本项目中此项技术用来解决大数据的预处理或特定要求下的大规模计算。具体特点:海量数据快速加载。海量数据的清洗与转换工作。海量数据转换为Hbase格式数据。Hbase HYPERLINK /view/1993870.htm t _blank HBase: 类似Google BigTable的分布式NoSQL列数据库。( HYP

48、ERLINK /view/1993870.htm t _blank HBase和 HYPERLINK /view/4600961.htm t _blank Avro已经于2010年5月成为顶级 Apache 项目),本次项目中,将使用Hbase作为大数据的索引查询库使用,满足快速的ID查询需求。具体特点:满足海量数据的快速查询。满足海量数据的过滤、排序、分拣等操作。HiveHive:数据仓库工具,可以使用SQL脚本方式,对数据进行开发,本项目作为日常的汇总统计工具。具体特点:满足对数据的稽核统计与Impala的结合,满足近线短周期的大数据快速JDBC、ODBC方式查询。Redis内存数据库技术

49、redis是一个key-value存储系统。和Memcached类似,它支持存储的value类型相对更多,包括string(字符串)、list(链表)、set(集合)、zset(sorted set -有序集合)和hashs(哈希类型)。本项目中,Redis库作为编码集中管理,保持在集群内部的编码统一。告警相关性挖掘通过时间序列模型、 Hadoop 技术、数据挖掘、时间窗口模型等大数据技术,进行告警压缩、告警规则生成、告警预测、告警历史处理经验分析、故障定位,提升告警压缩率、准确率、关联度。日志告警检索利用Hbase数据装载、与索引装载的异步实现、大数据压缩等Hadoop技术和Hive开发的数

50、据分析,对非结构化日志数据的海量处理和检索,精准定位关键字热点区域,对关键字进行重点组织、过滤、分析、报告输出。实现查询的跨越级目标,实现秒级查询。数据库设计数据库架构设计做好数据库的设计与优化是保证系统性能的关键:数据库的设计,包括表的设计、索引的设计等。增量层将去除不必要的索引;根据表、索引的设计情况,估算每个表的基准数据量及大小,还有表数据的增长情况,合理设计每个表的参数值。对于数据量大的表,采用分区表和物化视图等技术,以及在设计上考虑历史表等方法来提高性能;根据表、索引的设计情况,合理设计表空间的大小、在磁盘上的分布以及相关的参数;合理调整数据库的初始化参数以及操作系统的内核参数等;合

51、理规划连接池及客户端对数据库的连接数目;根据现场实际情况,定期监测和检查数据库的使用情况,并对不合理参数做出调整。同时,也定期对数据库中的碎片进行整理。大数据表设计存储空间设计不要为监控实例多、监控周期少的性能数据表设置存储的限制。在ORACLE数据库中,对于一些数据容量比较小的表格,设置存储配额限制是合理的,可以提高空间的利用率。对于大表设则不对其存储空间做出任何的限制。为大表分配足够的临时空间查询时,我们还会经常的进行排序操作。当记录多的话,这个排序动作,要求具有比较大的临时存储空间。所以,当某个表预计会有很大的记录数量的时候,我们就要给其分配足够多的临时空间。考虑表和表的索引分离存放大表

52、所对应的索引通常也比较大。一般来说,索引的数量是随着表记录的数量增加而增加,两者是接近于一个正比例的关系。考虑把表和他的索引分别存储于不同的表空间中,最大的好处是让索引比较容易的获得所需要的连续的存储空间,从而提高输入输入的效率。大表分区设计当数据库表记录达到千万条以上时,不但影响着数据库的运行效率,也增大了数据库的维护难度,可以通过对大表进行合理分区得到很大的改善。当表和索引变得非常大时,分区可以将数据分为更小、更容易管理的部分来提高系统的运行效率。系统通常按照如下的规划进行分区:5分钟性能表按天分区,小时表10天一个分区,天汇总表是1个月一个分区,表月也是一个月一个分区。表及索引分区对用户

53、的访问数据是透明的,完全不影响前端应用的数据访问逻辑。每个分区可以被单独管理,可以不依赖于其他分区而单独发挥作用,因而,分区可以提高可管理性、性能与可用性,从而给各种各样的应用程序带来极大的好处。性能设计告警信息处理运行监控系统拥有强大告警数据处理能力,在处理设备产生告警的同时也能接受Trap、syslog等告警数据。网络正常情况下,集中告警系统的告警平均响应时间(指从网元发生告警到集中告警系统显示告警)不大于30 秒。告警处理时延(即本系统接口收到告警到本系统终端显示出告警之间的时延):不超过3秒。收集处理告警信息的能力:大于1000条/秒。系统能处理的最大当前告警能力:大于5000条/秒。

54、在系统满负荷情况下,告警响应时间应不大于以上指标的150%。设备管理数量每级节点支持的管理对象下限如下,并可通过软硬件处理能力进一步扩展:网络设备对象:不低于2000个(含虚拟网络设备)。服务器对象:不低于2000个操作系统(含虚拟服务器)。通用应用服务对象:不低于500个应用实例(含DNS、IIS、tomcat等)。数据库对象:不低于200个数据库实例,含Oracle、SQL Server、My SQL等数据库支持,并支持对神通数据库的管理开发定制。存储设备对象:不低于20个。应用系统:不低于100个,主要为自主设计开发的专用业务系统。系统处理效率监控系统拥有高效的系统处理能力,具体参数如下

55、:后台采集及解析处理,单个等效网元不超过2毫秒。后台处理响应:后台数据平均处理速度小于7秒,最大不超过20秒。一般页面响应时间:用户进行界面操作时,系统响应时间小于2秒;用户进行查询、汇总数据时,系统响应时间小于5秒;用户生成报表时,系统响应时间小于10秒。以上时间均排除网络延迟的干扰。系统自身流量占用:平均每次采集请求/应答流量约为1 Kbyte,经过数据压缩后,流量约为0.5Kbyte,约每 5分钟采集一次,则带宽需求为: “50 * 0.5K*8 / 300 = 0.67 Kbit/s”。数据库:数据入库能力大于500条/秒。运行监控系统自身软件占用资源:在系统硬件资源满足的前提下,系统

56、资源平均内存占用少于30%、峰值内存占用少于70%,平均CPU占用少于30%,峰值CPU占用少于60%,主动拥有资源自动释放功能,会定期整理系统资源。服务器端数据库性能稳定。数据存储能力系统需要保存所有原始告警数据,原始告警应与监控系统或网元管理终端所获告警保持一致,告警数据一致性能达到100%。性能数据默认在线保持1年以上,且此时间可以根据用户需求自行修改;支持在线数据在线修改功能,用户可通过对应用界面进行修改。支持超过1年的数据归档导出,支持数据倒入恢复功能。各种日志文件、历史告警文件应至少能保存6 个月的事件。6个月以上数据采用光盘、磁带等介质进行备份,脱机保存。配置管理数据库系统资源模

57、型管理采用自主开发的成熟的资源建模软件产品GOAT,通过建立对象到关系型数据的映射和转换,达到了数据的对象化封装,包括对象查询,数据检查,规则约束等。按照现在广泛使用的ORM的方法,完成对持久层产品的两个重要组件的创建和修改,它们是持久层JAVA类和映射文件(MAP文件)。通过按照对象映射,规则约束条件等生成的JAVA类,最终打包成J2EE的EJB发布在中间件的服务器上,并以此对外提供API方式访问。GOAT系统包括模型文件处理(Model Handle)、模型编辑模块(ModelEditor)、持久化模块(Persistent Module)、资源数据对象管理、数据导入、导出模块、监控管理接

58、口模块和数据处理模块。GOAT数据来源于:通过数据采集层采集的配置数据通过数据导入工具导入的客户信息数据和手工录入的网络资源数据GOAT管理的数据包括:资源模型数据当前网络资源数据当前业务资源数据模型文件处理(Model Handle)由于GOAT对持久层封装了许多功能,比如数据检查,规则约束等,按照现在广泛使用的第三方持久层产品的方法,就必须完成对持久层产品的两个重要组件的创建和修改,它们是持久层JAVA类和映射文件(MAP文件)。模型文件处理采用模型编辑器产生资源模型文件,把模型文件经过解析后,按照模型文件中的要求对持久层需要的JAVA类(在JAVA类中实现规则定义,规则计算等封装功能)和

59、MAP文件进行创建或修改,之后生成可以运行的类和配置文件,最后进行发布部署。模型编辑模块(Model Editor)通过模型编辑器Model Editor上图形化的生成和修改工具, 可以定义生成xml文本格式资源模型文件。ModelEditor不仅能定义被管对象资源的属性以及资源之间的相互关系,还能定义资源上可以实现的业务功能接口API等。文件格式:xml文件。保存位置:Server端目录。文件分类:按照预定义的分类归并,便于管理。模型文件内容:资源模型文件能描述多种数据类型,支持属性信息的传递,计算,分组,能够表示引用和多种包含关系,并包括资源操作接口和状态变化操作接口。模型建模功能:涉及了

60、对资源模型的类,属性,方法,方案,相互关系,全局方法,存储表等多种操作。其他Model Editor实现的功能:包括模型文件打开/编辑/关闭等一般操作,模型文件内容的检查,模型文件导入导出功能,具备了自检查内容,并可以后台独立操作,产生的文件格式是通用的xml格式。持久化模块(Persistent Module)这个模块采用了目前成熟的ORM技术,用以简化对数据库的操作。通过面向对象化的操作,将资源模型数据转化为数据库中的数据,表和约束关系,方便和高效地实现了对资源模型数据的处理。持久化模块中的Cache & Transaction Coordinator是基于ORM技术或者Applicati

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论