




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、 128/128智慧企业运行管理平台方案建议书目 录 TOC o 1-3 h z u HYPERLINK l _Toc500364171 1方案概述 PAGEREF _Toc500364171 h 7 HYPERLINK l _Toc500364172 1.1项目建设背景 PAGEREF _Toc500364172 h 7 HYPERLINK l _Toc500364173 1.2项目建设目标 PAGEREF _Toc500364173 h 7 HYPERLINK l _Toc500364174 1.3平台总体建设规划 PAGEREF _Toc500364174 h 8 HYPERLINK l
2、 _Toc500364175 1.4平台总体功能架构 PAGEREF _Toc500364175 h 10 HYPERLINK l _Toc500364176 1.5平台分期建设规划 PAGEREF _Toc500364176 h 11 HYPERLINK l _Toc500364177 1.6平台关键技术路线 PAGEREF _Toc500364177 h 12 HYPERLINK l _Toc500364178 1.6.1高性能分布式采集架构 PAGEREF _Toc500364178 h 12 HYPERLINK l _Toc500364179 1.6.2高可靠集群部署架构 PAGERE
3、F _Toc500364179 h 12 HYPERLINK l _Toc500364180 1.6.3高吞吐数据存储引擎 PAGEREF _Toc500364180 h 14 HYPERLINK l _Toc500364181 1.6.4端对端应用全面监视 PAGEREF _Toc500364181 h 14 HYPERLINK l _Toc500364182 1.6.5自动化运维操作控制 PAGEREF _Toc500364182 h 14 HYPERLINK l _Toc500364183 1.6.6智能化运维预案响应 PAGEREF _Toc500364183 h 15 HYPERLI
4、NK l _Toc500364184 1.6.7全景化指挥调度展示 PAGEREF _Toc500364184 h 15 HYPERLINK l _Toc500364185 1.6.8灵活自定义展示设计 PAGEREF _Toc500364185 h 16 HYPERLINK l _Toc500364186 1.7非功能性设计方案 PAGEREF _Toc500364186 h 16 HYPERLINK l _Toc500364187 1.7.1系统性能设计 PAGEREF _Toc500364187 h 16 HYPERLINK l _Toc500364188 1.7.2可扩展性设计 PAG
5、EREF _Toc500364188 h 20 HYPERLINK l _Toc500364189 1.7.3开放性设计 PAGEREF _Toc500364189 h 22 HYPERLINK l _Toc500364190 1.7.4易用性设计 PAGEREF _Toc500364190 h 23 HYPERLINK l _Toc500364191 1.7.5安全性设计 PAGEREF _Toc500364191 h 24 HYPERLINK l _Toc500364192 2一期平台建设方案 PAGEREF _Toc500364192 h 26 HYPERLINK l _Toc50036
6、4193 2.1一期平台架构 PAGEREF _Toc500364193 h 26 HYPERLINK l _Toc500364194 2.2综合监控管理 PAGEREF _Toc500364194 h 26 HYPERLINK l _Toc500364195 2.2.1基础设施监测 PAGEREF _Toc500364195 h 26 HYPERLINK l _Toc500364196 2.2.2应用性能监测 PAGEREF _Toc500364196 h 44 HYPERLINK l _Toc500364197 2.2.3应用体验监测 PAGEREF _Toc500364197 h 58
7、HYPERLINK l _Toc500364198 2.2.4集中告警管理 PAGEREF _Toc500364198 h 64 HYPERLINK l _Toc500364199 2.3资产配置管理 PAGEREF _Toc500364199 h 73 HYPERLINK l _Toc500364200 2.3.1配置模型管理 PAGEREF _Toc500364200 h 75 HYPERLINK l _Toc500364201 2.3.2配置自动发现 PAGEREF _Toc500364201 h 77 HYPERLINK l _Toc500364202 2.3.3数据校验管理 PAGE
8、REF _Toc500364202 h 79 HYPERLINK l _Toc500364203 2.3.4配置维护管理 PAGEREF _Toc500364203 h 81 HYPERLINK l _Toc500364204 2.3.5配置关系管理 PAGEREF _Toc500364204 h 83 HYPERLINK l _Toc500364205 2.3.6配置数据消费 PAGEREF _Toc500364205 h 84 HYPERLINK l _Toc500364206 2.4运维服务管理 PAGEREF _Toc500364206 h 86 HYPERLINK l _Toc500
9、364207 2.4.1服务台 PAGEREF _Toc500364207 h 86 HYPERLINK l _Toc500364208 2.4.2事件管理 PAGEREF _Toc500364208 h 87 HYPERLINK l _Toc500364209 2.4.3问题管理 PAGEREF _Toc500364209 h 89 HYPERLINK l _Toc500364210 2.4.4变更管理 PAGEREF _Toc500364210 h 90 HYPERLINK l _Toc500364211 2.4.5发布管理 PAGEREF _Toc500364211 h 91 HYPER
10、LINK l _Toc500364212 2.4.6运维知识库管理 PAGEREF _Toc500364212 h 92 HYPERLINK l _Toc500364213 2.4.7运维流程引擎 PAGEREF _Toc500364213 h 93 HYPERLINK l _Toc500364214 2.5运维展示分析 PAGEREF _Toc500364214 h 95 HYPERLINK l _Toc500364215 2.5.1网络监测展示 PAGEREF _Toc500364215 h 95 HYPERLINK l _Toc500364216 2.5.2应用监视展示 PAGEREF
11、_Toc500364216 h 96 HYPERLINK l _Toc500364217 2.5.3综合监视展示 PAGEREF _Toc500364217 h 96 HYPERLINK l _Toc500364218 3二期平台建设方案 PAGEREF _Toc500364218 h 98 HYPERLINK l _Toc500364219 3.1二期平台架构 PAGEREF _Toc500364219 h 98 HYPERLINK l _Toc500364220 3.2操作自动化管理 PAGEREF _Toc500364220 h 98 HYPERLINK l _Toc500364221
12、3.2.1自动化平台 PAGEREF _Toc500364221 h 100 HYPERLINK l _Toc500364222 3.2.2运维自动化场景 PAGEREF _Toc500364222 h 102 HYPERLINK l _Toc500364223 3.2.3作业调度管理 PAGEREF _Toc500364223 h 104 HYPERLINK l _Toc500364224 3.3运维服务管理 PAGEREF _Toc500364224 h 109 HYPERLINK l _Toc500364225 3.3.1服务目录与服务请求 PAGEREF _Toc500364225 h
13、 109 HYPERLINK l _Toc500364226 3.3.2运维自肋服务门户 PAGEREF _Toc500364226 h 115 HYPERLINK l _Toc500364227 3.3.3云资源自动化交付 PAGEREF _Toc500364227 h 117 HYPERLINK l _Toc500364228 3.3.4呼叫中心对接 PAGEREF _Toc500364228 h 120 HYPERLINK l _Toc500364229 3.4运维展示分析 PAGEREF _Toc500364229 h 121 HYPERLINK l _Toc500364230 3.4
14、.1运维效能分析 PAGEREF _Toc500364230 h 121 HYPERLINK l _Toc500364231 3.4.2全景可视化展示 PAGEREF _Toc500364231 h 122 HYPERLINK l _Toc500364232 4三期平台建设方案 PAGEREF _Toc500364232 h 125 HYPERLINK l _Toc500364233 4.1三期平台架构 PAGEREF _Toc500364233 h 125 HYPERLINK l _Toc500364234 4.2运维操作控制 PAGEREF _Toc500364234 h 125 HYPE
15、RLINK l _Toc500364235 4.2.1软件管理控制 PAGEREF _Toc500364235 h 125 HYPERLINK l _Toc500364236 4.2.2设备远程控制 PAGEREF _Toc500364236 h 126 HYPERLINK l _Toc500364237 4.2.3故障智能化处置 PAGEREF _Toc500364237 h 126 HYPERLINK l _Toc500364238 4.3运维大数据分析 PAGEREF _Toc500364238 h 127方案概述项目建设背景XX公司联合所属单位共同出资成立的高科技互联网企业,以“信息互
16、通、资源共享、能力协同、开放合作、互利共赢”为核心理念,以“互联网+智能制造”为发展方向,以提供覆盖产业链全过程和全要素的生产性服务为主线,以技术创新、商业模式创新和管理创新为重要战略举措,依托集团雄厚的科技创新和制造资源,开放整合社会资源,构建以“制造与服务相结合、线上与线下相结合、创新与创业相结合”为特征,适应互联网经济业态与新型工业体系的云生态系统。随着云数据中心业务的发展,IT规模激剧扩展,云网面临的运维压力,因此迫切需要一套一体化、自动化的运维管理平台来支持云数据中心的运行保障工作,提升运维管理效率、降低运维管理风险。项目建设目标通过运维管理平台的建设,能够让用户在网络、业务系统的运
17、行监控管理的基础上,实现统一运行维护工作,最终达到如下目标:一、梳理资产配置,构建精确、统一的资产配置管理库构建符合实际管理需求的资产配置模型,对资产配置信息进行梳理,实现资产配置的全生命周期管理,并实现资产配置的可视化展现。二、强化主动监控,构建内控体系,实现集中管理通过部署集中监控系统,实现网络、IT资源、业务应用的集中监控和统一操作,主动、及时地发现问题,解决被动救火的局面。三、建设自动化能力,提高运维效率,降低操作风险参照互联网成功经验,建立自动化操作平台,实现对应用软件安装、系统巡检、合规检查、故障自愈等运维操作的自动化,提升运维效率、降低人工操作风险,同时为下一步走向智能化运维打下
18、基础。 四、规范运行流程管理,促进有序高效协作参照ITIL 规范,对运维管理工作进行优化,对服务管理进行改善,根据相关制度进行,对内完善流程,使运维人员具备更高的工作效率;同时把运维过程中产生的丰富经验进行积累和总结,形成有效的知识库,建立知识的共享机制。五、全方位数据展现,实现统计分析和决策支持通过提供各类性能分析报表、资源统计报表和运维分析报表,从各个侧面、各个角度反映系统的运行情况、性能情况和人员工作情况,为系统升级、改造、扩容提供科学依据;也为员工的绩效考核提供电子依据。平台总体建设规划信息化建设是一个持续过程,业务、技术、管理都在持续发展,这些都要求运维工作也必须是一个持续建设、持续
19、改进的过程,运维项目的建设不能着眼于当前的管理需求,还要充分考虑未来35年的发展规划,从而确保项目建设成果具备一定的扩展性和延伸性,能够满足或通过升级、扩展的方式逐步满足未来对运维工作的要求。根据本项目建设需求,运维管理平台的建设也遵循分阶段、分步的建设策略,逐步完成运维平台“一体化、自动化、智能化”三个阶段的建设目标。运维平台三步走建设策略我方建议综合运维平台的分阶段建设目标如下:一期:平台搭建,建立一体化运维管理平台 建设一体化运维管理平台,实现基础设施全面监控,针对关键应用系统应用性能监控、用户体验监控、集中告警管理及集中监控展示等监控管理能力,同时构建配置管理库(CMDB)构建资产运维
20、管理档案库,建立运维服务流程,实现运维工作规范化管理。二期:优化完善,提升运维自动化与对外服务交付能力 建立运维自动化基础能力,实现环境准备自动化、应用安装自动化、巡检自动化等,提升运维效率、降低运维操作风险。全面覆盖同时深化CMDB与运维流程建设,提供对外服务交付能力。完善运维服务流程,实现资源自动化交付,提升对外服务交付能力。三期: 深化应用、持续提升,建立运维智能化控制及分析能力基于二期建设成果,并应用深度监控与运维自动化能力,强化运维智能化分析与控制能力,提升故障分析与处置能力。平台总体功能架构智慧企业运行管理平台(以下简称运行管理平台)是支撑一体化、自动化、智能化运维管理的技术平台,
21、基于统一运维技术标准和管理规范构建,由信息采集层、信息分析处理层、综合业务功能层、业务用户层组成,具备面向业务的监控管理、操作管理、配置管理、服务管理、度量管理和运维门户等功能,支撑综合监视、运维控制、运维服务三大业务需求。运行管理平台技术架构平台按分层架进行设计,包括:业务用户层:对多种运维用户角色提供综合监视、集中告警、运维控制和运营服务能力。综合业务功能层:通过监控管理、操作管理、配置管理、流程管理、度量管理、运维门户六大功能模块支撑业务目标信息分析处理层:通过开放接口汇聚,实现信息汇聚、信息分析与处理、信息分析,结合云计算大数据技术来分析处理存储。信息采集层:对数据中心各类资源(动力环
22、境网络系统、设备存储、虚拟化资源、系统资源、业务系统、应用体验等)直接采集或通过现有系统集成监控。平台分期建设规划根据平台总体建设规划,运维管理平台的建设遵循分阶段、分步的建设策略,逐步完成运维平台“一体化、自动化、智能化”三个阶段的建设目标。各阶段具体建设划分如下:其中:黄色区块为一期项目建设内容,绿色区块为二期项目建设内容,蓝色区域为三期项目建设内容。平台关键技术路线高性能分布式采集架构在大规模监控环境中,数据最终会上报到监控服务端,但如果直接上报到服务器端,会导致服务端连接压力过大、数据无法及时处理的情况,所以应采用分布式汇聚技术,根据压力分摊原则,在服务端与Agent、Probe之间,
23、按需增加汇聚代理(以下称为Proxy),如下图如示:分布式采集汇聚示意图通过汇聚代理Proxy,可以获得以下优势:分散服务端处理压力,利用Proxy主机计算能力分担,做一些数据转译预处理处理;分布式采集汇聚,允许Agent、Probe通过Proxy间接上报数据连接,适用于数据中心异地采集、复杂网络安全环境采集等情况。高可靠集群部署架构系统部署架构设计时充分考虑了可扩展性,可以根据管理资源规模的增长横向进行扩展,包括:1)在系统服务端架构,按微服务架构设计,所有的业务服务进程设计为无状态服务,可以不断水平扩展增加计算分析能力。服务端水平扩展部署2)针对存储方面有状态类服务,则按存储类型的特点,设
24、计多种不同的扩展结构:关系型数据库实现业务分库与主从读写分离、NoSQL数据库则通过架构本身的数据水库与冗余,实现水平扩展。服务端数据库水平扩展部署高吞吐数据存储引擎在指标阈值分析时,以及用户界面的仪表盘操作时,都需要高频的访问最近24小时等热点数据。为了避免不必要的数据库IO与网络请求,本系统引入Redis内存缓存,对一些热点数据进行内存数据存储,实现高效的数据查询服务。通过这种方式,将数据访问的50ms周期下降到5ms以下,在高并发的情况下,能大幅度减少数据库压力,提高数据处理时效性。端对端应用全面监视基于网络的数据侦听监测是唯一一种对生产系统“零”影响的应用系统性能监控方案,收到了数据中
25、心应用性能监测(APM)领域的青睐,但设计过程中主要将面临以下挑战:需要在业务流经的环节网络布点,如何实现大流量下的7层业务协议获取,将是一个挑战;如何实现全样本实时监控,如何实现分钟甚至秒级的实时展现与告警;以XML业务数据协议为例,不同开发商应用层协议会存在较大差异,如何实现快速的协议层数据提取。设计时采用了以下技术来满足上述高性能、全样本、灵活性的挑战。自动化运维操作控制自动化运维的核心关键是任务调度引擎,引擎的设计需要解决以下问题:满足大规模、多组合网络环境的业务应用集中管理;支持环境准备、应用软件安装、补丁升级、自动化巡检、合规检查、远程控制、故障自愈等自动化运维场景。可以根据运维场
26、景的要求编排任务调度流程, 确保任务调度的实时性和顺序性;操作能力要易于扩展,可根据不同运维场景和人员技能储备使用相应的脚本语言实现运维操作。提供多种任务调度触发方式,可以定时、手工、事件或异常条件触发。自动化任务调度引擎在设计时就定位在大型互联网应用和大型数据中心的运维环境,针对以上问题都已经进行了充分的考虑和设计。智能化运维预案响应自动化运维工具除了能够实现各项任务的自动操作外,还需要能够结合场景实现智能化的预案处理,能够按照预先设定好的预案实现对各项事务的相应,系统设计时考虑到多运维工具组合使用的场景,引擎内置定时调度器、人工交互执行界面和开放简洁的API,支持多种触发方式。智能化运维预
27、案响应包括:应用服务自动化恢复、集群组件弹性伸缩、应用主备切换、表空间自动扩展等。全景化指挥调度展示基于全网系统的全面实施,系统形成了监控管理、配置管理、自动化管理、运维服务等多个主题数据,基于这些数据可以实现全面的运维量化分析,并能够建立一系列的可视化展示视图,为运行值勤保障、指挥调度分析、运行态势分析提供数据支撑,提升运维质量与决策水平。灵活自定义展示设计以监控数据库、资源设备资源管理库以及其他多源数据库为数据源,对运行展现数据进行可视化的视图设计和展现,能够实现各类设备、网络、应用、机房等视图设计,为运维管理员提供了灵动在线可视化建模设计器。通过可视化视图定义能够帮助用户全方位地了解IT
28、基础资源的运行情况,涵盖了网络、服务器、业务应用、机房环境等IT资源的连通性、健康性、可用性等指标,并且以直观的圆饼图加以显示。非功能性设计方案系统性能设计平台将利用当前先进的软硬件技术、数据库系统技术,提供较高的实时性能、处理性能、存储效率、用户并发访问能力。系统着力于占用较少的资源和网络带宽,不影响对目标源的正常运行干扰,确保所建平台对用户各种操作的响应时间在合理的时间范围内。具体来说,本项目采取以下性能设计方案。并发访问性能设计系统设计将根据系统业务量、数据量的要求和估算结果,采用并发处理机制、多级存储机制,有效保证系统访问的并发性有效满足项目建设要求和实际业务需要。(一)并发处理机制
29、系统采用多线程、多任务并发处理和执行机制,通过服务请求缓存队列,有效管理系统访问的用户总量、并发响应规模。系统从表示层、应用逻辑层、数据层提供了相应的并发容量、并发响应的处理机制和逻辑组件。(二)并发扩展能力当用户的并发访问量扩展、数据收集广度精度扩展时,系统的模块提供了水平扩展能力。在表示层可通过虚拟IP技术、负载均衡设备、Nginx反向代理技术,实现WEB层面的并发扩展;在业务层主要通过无状态业务处理,通过基础模块(缓存服务、消息总线、认证服务)本身来保持状态共享,通过无状态可以便捷的水平复制,提高业务层面的并发能力;在数据层通过数据库的集群、数据的读写实时复制技术大大提供读并发的能力,并
30、在关键数据写入中采用大数据NO-SQL的技术,提高写入的并发能力。(二)并发性能指标通常情况下,系统可以达到的并发性能指标如下:平台可以满足1000个用户同时在线,可以通过优化软件、扩容硬件进一步提高在线用户;平台可以满足500个用户同时并发,即对同一功能调用,可以满足200个用户来同时提交事务,并可通过优化软件、扩容硬件进一步提高;服务端单节点接入需保证3000个指标/秒的吞吐量,以支持1000个以上服务器或虚机;服务端接入可实现水平扩展,通过多种负载均衡措施,充分利用集群扩展能力,让接入吞吐量不断增加,以满足监控规模的不断扩展。响应时间性能设计从用户体验的角度,需要在系统功能页面的打开、显
31、示、常规操作的响应时间控制在较短的时间范围以内。而对于大批量数据处理与检索、统计分析数据转换、数据汇总报表生成等复杂处理,需要将系统响应时间控制在合理的范围内。 为了保障面向用户的响应时间,我们通过表示层、应用层、数据层三层来保障系统响应时间,以满足项目建设要求和实际业务需要。(一)表示层响应设计在表示层通过 Struts、Portlet 等封装框架的方式,结合前端MVC、Ajax、Flex、HTML5等技术简化复杂逻辑,提高异步响应处理,并通过对页面动作的数据表示、迁移控制、处理流程的合理安排,获从获得快速的表示层响应处理效果。 (二)业务层响应设计通过统一封装业务逻辑构件、分布式缓存、消息
32、异步处理等方式,将系统的并发用户数、资源利用率等性能指标控制在合理的范围内,从而提高业务数据提取逻辑的响应速度。在应用逻辑层对特定的业务应用逻辑,按照业务主题进行逻辑部件规划,采用SOA的体系设计,从服务代理、服务定位、服务处理的层次设计响应处理逻辑,容易进行水平扩展,来保障更好的并发性能。(二)数据层响应设计采用多种数据存储的设计,提供临时性的缓存持久化、关系型数据库、NO-SQL数据库的搭配,采用一定的反范式设计,优化数据存取性能,通过适当的索引、固化视图、存储过程,优化数据取逻辑,提高数据访问响应性能。对于分析型的数据,采用ETL实现数据导入到数据仓库中,数据仓库采用星型主题模型,实现对
33、分析型数据的进一步加工和长期保存,避免和短期事务性数据较差,导致系统性能下降。(三)响应时间技术指标在并发的容许范围内,通常情况下系统可以达到如下响应时间标准:一般页面平均响应时间为小于 3秒,配置库的平均业务响应时间小于2秒;各类管理流程对配置库、知识库的相关操作响应时间小于3秒;需要下载较多内容和图片的交互性页面响应时间小于 5 秒钟;统计类业务的页面平均响应时间小于5秒;较为复杂的统计类业务页面平均响应时间小于40秒。数据处理吞吐性能设计对数据批处理和传输性能影响较大的业务接口,在对数据的导入导出、批处理作业、流式数据处理过程中,通过设计合理的接口、通信处理逻辑、并行处理机制,可将数据内
34、部处理、与外部系统进行数据交换的时间和吞吐能力控制在合理范围内,以满足批量快速处理和传输的要求。(一)实时数据吞吐性能设计对于实时数据的处理方面,系统采用了实时计算、并行处理的大数据技术,通过分布式的、容错的实时流式计算系统,对数据进行连续计算和处理,将结果以流的形式输出,主要用于性能指标、事件处理、配置发现等关键业务实时或准实时计算。(二)批量数据吞吐性能设计对于业务数据的批处理方面,系统主要采用ETL的处理机制,并且融入了多进程、分布式的并发模式,加快批处理的能力,实现数据的提取、转换和加载,过程中对数据进行加工、清洗,融合大数据的批处理技术进行处理,降低对传统关系型数据库的依赖。批量数据
35、处理主要用于对数据的归并、分析,将实时和短期数据转换和加工为存放长期数据的数据仓库。(三)数据处理吞吐性能指标监控指标库实时性能指标存储周期至少支持3个月,小时粒度数据存储周期至少支持1年,天粒度归并数据至少支持3年, 月粒度归并数据至少支持5年;集中监控汇聚支持最高4000条/秒的监控指标接入能力,支持平均800条/秒的性能处理能力;集中支持最高1000条/秒的告警事件峰值接入能力,支持平均100条/秒的告警事件处理能力;配置发现收集模块支持平均50个/秒配置项的收集处理能力。可扩展性设计平台采用互联网微服务MicroService架构设计,具备优秀的模块开发扩展性,采用Rest风格的Ope
36、nAPI接口,是目前最流行的WebService服务接口,便于系统功能和第三方对接。同时微服务架构的另外一个优势是水平扩展性,相比传统的多层单一架构,微服务通过分层化、分布式、无状态等设计思路,确保了系统在运行部署时的弹性扩展能力。其次,系统采用分布式架构设计,确保系统性能的平滑扩张,当被管资源增加、系统数据量扩大或访问量增大而系统当前性能不能满足要求或出现性能瓶颈时,能够通过水平扩展的方式来实现系统性能提升,从能够适应规模增加对系统的性能的压力和要求。第三,应具备数据采集的平滑扩展,当随着信息化不断发展,被管对象或系统逐步增加时,在数据采集层能够通过配置、协议扩展或脚本扩展等方式来实现被管对
37、象或系统的接入。最后,应指标具体监控指标的随需增加,当被管资源增加,或者需要对某项资源进行更加详细的监控时,能够通过界面配置即可完成具体监视指标的增加。 微服务架构可扩展性设计图(1)服务管理节点:主要提供对整个计算机集群的管理,以及对微服务的注册和发布,控制节点本身不需要进行复杂的业务计算,可使用冗余部署方式组成控制节点集群即可。(2)无状态节点:主要包含服务请求节点和服务计算节点,前者完成服务的预处理和再分发,后者完成复杂计算和分析,无状态节点节点本身不存储全局数据,只保留计算过程中临时数据,可以随时启停,易于水平扩展。(3)有状态存储节点:主要用于保存全局数据,可以采用高性能内存缓存和N
38、OSQL数据库,这些系统本身即可组成多个局部数据集群,并根据其部署系统的特点进行相应的水平扩展。随着业务规模和逻辑的变化趋势,微服务架构可以借助各个模块服务接口进行交互调整和扩展开发,从而为系统提供了优秀的可集成能力和开发扩展能力。同时还支持通过配置即可实现监视指标的增加,以及接入系统的增加。开放性设计系统采用 Restful、WebService、Java、Python、MQ、SOA、HTML5等开放技术,底层技术以开源软件作为基础并深度优化,业务模块采用微服务设计并严格测试,形成了开放性的运维管理平台。系统的OpenAPI接口,优先采用互联网Restful WebService服务接口,辅
39、助于MQ等数据传输接口,可以有效的兼容异构系统的集成对接,从而满足系统开发性的要求,具体请参考系统集成方案章节。开放性架构和接口设计系统的Open API接口完全开放给用户,并有专门的文档和代码说明,为企业级用户提供专业接口服务支持。易用性设计系统采用良好的体验设计,简单易用的设计能够帮助技术人员快速实用、操作和维护系统,系统采用现代化的互联网用户体验设计,符合用户情感化的交互设计原则,遵循精细的设计规范。通过提供全中文界面,基于浏览器和移动APP的界面,设计友好、功能清晰、经过简单摸索就可以上手,提供丰富的交互式帮助,大大缩短用户学习周期,为用户提供体贴、周到的体验感。现代互联网化的界面设计
40、规范安全性设计系统通过一系列的安全性设计和措施来降低安全隐患,提升系统、数据的安全性,通过系统访问控制、系统容错、数据传输等方面综合保障系统安全运行,确保系统本身不会成为IT环境的安全短板。(一)权限控制安全设计 通过统一的用户身份认证、角色权限控制、对用户所能访问的功能和数据进行合理控制,对人员操作提供完善审计回溯。(二)系统容错安全设计 在应用界面逻辑处理中,运用校验、容错技术来防止各种误操作、恶意操作,提高系统的健壮性。在数据流处理中对数据进行校验、对恶意数据进行预警提示,可避免错误信息入库。 (三)数据传输安全设计 利用成熟的HTTP、MQ通讯技术,支持输加密、MD5 摘要等方案,来确
41、保业务信息传输过程中数据的安全性、完整性和一致性。一期平台建设方案一期平台架构运行管理平台(一期)目标是建设一体化运维管理平台,实现基础设施全面监控,针对关键应用系统应用性能监控、用户体验监控、集中告警管理及集中监控展示等监控管理能力,同时构建配置管理库(CMDB)构建资产运维管理档案库,建立运维服务流程,实现运维工作规范化管理。一期平台架构综合监控管理基础设施监测基础设施资源监视实现对服务器、 存储、 网络等基础资源以及对运行于基础资源上的数据库、中间件等平台环境的监视,支持国内外主流品牌的资源监控,同时对国产化资源具有良好的支持。网络监视管理系统支持国内外主流网络厂商、安全厂商的设备进行有
42、效的监控和管理,能够自动发现网络的结构并自动生成物理拓扑、网络拓扑和子网拓扑,还可通过拓扑编辑工具能够定制网络拓扑图。系统支持包括Cisco、Huawei、H3C、Nortel、Foundry、3Com、等厂商的路由器、交换机、防火墙等设备。支持对路由器、二层交换机、三层交换机、防火墙的监控。系统支持简单网络管理协议SNMP v1、v2、v3方式轮询监控;支持SNMP trap陷阱接收方式监控;支持SYSLOG方式监控设备日志;支持PING方式监控网络设备时延及可用性,主动从多角度实现设备运行数据的采集,调整采集的策略,并支持实时的向运维平台提供运行监控和分析数据,为上层服务管理建立集中监控子
43、系统提供网络运行数据。二、网络拓扑管理系统能够自动发现网络中各设备及设备之间的相互连接关系,自动计算生成网络拓扑、物理拓扑以及子网拓扑,针对客户关心的部分,系统还能根据某一网段、IP地址等限制条件进行拓扑发现,对于个别识别不准确的设备,能够通过拓扑编辑工具方便的进行手工调整,满足客户的实际管理需要。拓扑能够呈现出设备及链路的运行性能、联通状态及设备结构信息,支持通过颜色变化来直观呈现故障、性能变化情况。拓扑支持物理拓扑、网络拓扑和子网拓扑,能够呈现出TCP/IP 广域连接设备、线路和本地局域网的运行状态, 能够对接入网络的网络设备运行状态进行实时监控和管理。系统除了自动生成拓扑图,还可以根据实
44、际手工绘制,支持自定义拓扑图的背景图、内置中国及各省市行政区域图、2D以及3D网络元素图、机房机架设备图等;并且,拓扑展现内容丰富,鼠标移动即展现相关节点的详细信息;同时,还支持拓扑打印导出功能。拓扑图直观、简明,展现布局合理,符合网络人员的使用习惯,可以根据实际需要做拓扑缩放以及拓扑图内图标的缩放和更换,拓扑图能够灵活、方便的按照客户的实际管理需要,按照层次、区域(IP地址)进行拓扑视图设置,各视图之间能够灵活切换,并能够对不同用户设置不同的访问权限,针对不同的用户可以展现不同的拓扑图,使网络管理人员较为方便、高效的在统一界面下进行网络管理的各种操作。支持对链路自定义功能,能够直接在拓扑图上
45、进行相关操作,包括指定链路两端设备与端口、双工类型,链路名称增加和删除链路,同时支持链路的隐藏功能。能够实时监控网络中设备、链路等节点信息,真实反映当前实际网络中各节点的关系及整体运行状态,包括每个模块的工作状态、IP地址、MAC地址、ARP表、网络连接、路由表信息等。支持真实面板功能,系统自带多种主流设备的面板,对暂不支持的设备,也可以通过系统接口设计工具进行新面板上传,可以直接在面板上进行相关操作,如具体的端口开启、关闭等。网络拓扑提供集成化的网管操作入口, 提供快速的模糊搜索工具, 提供设备和链路快速监测入口,提供 TraceRoute、Ping、Telnet、SSH、Remote Pi
46、ng、MIB 浏览器等快速排障工具。系统能够直接在拓扑视图上对设备等节点进行操作管理,内置集成常用的操作工具,包括TraceRoute、Ping、Telnet、SSH、Remote Ping、MIB浏览器等快速排障工具以及快速的模糊搜索工具,进行常用的网络操作ping、telnet、保存系统配置、截取端口流量信息等日常管理操作。通过设备快照,可以直接查看节点详细属性,包括资产、用户、物理信息,可以以图象形式展现设备的物理位置,物理形状,端口状态。系统支持标准MIB,同时也支持各主流厂商的私有MIB定义,能通过不同的方式获取各种不同设备的二层信息。系统支持拓扑的重发现和动态更新,可以通过实现设置
47、好的时间,周期性的对全网进行轮询,对网络的变更情况能够实时、动态的在拓扑上展现出来,当有新设备加入后可以手工触发全拓扑或仅对特定部分进行更新,确保拓扑所展现的和实际网络情况一致。系统可以通过网络中各节点的连接关系,判断故障根源所在,当问题出现时能够在视图上醒目显示出故障位置和原因,管理员可以通过主机名、IP地址、mac地址等信息在视图上定位某台设备或主机,并发现与其它相邻设备的连接关系,以达到快速定位功能。支持拓扑钻取,能够层级展现网络拓扑结构图,支持拓扑与故障事件关联。二、网络性能监测网络设备监控实现对网络基础设施环境性能的监控,定时采集网络性能信息,及时发现那些可能会导致网络服务质量出现明
48、显下降的情况及故障隐患,并通过告警阀值设置、实时显示告警等,主动预警网络隐患;通过报表等工具,进行网络环境性能统计、性能趋势分析。根据网络监控对象,网络性能可分为网络设备性能、重要网络链路性能、网络协议性能等,网络性能主要指网络设备的CPU利用率、内存利用率、链路通断、端口信息、硬件运转情况等,重要链路性能包括重要网络链路的带宽利用率、重要链路的流量、重要链路的带宽利用率、重要链路丢包率、重要链路错包率、网络协议等运行的指标。此外,系统还可以帮助用户统计网络设备及终端设备的详细信息,不仅包括设备名称、别名、厂商、型号等基本信息,还有设备端口的类型、端口号、IP地址、MAC地址、端口速率、端口状
49、态、端口绑定的VLAN以及对端端口的详细信息,此外还支持SNMP设备的端口各类出入栈二层桢传输统计情况,如丢包率、错包率等。服务器监视支持通过Agent方式和多种协议方式管理和监测主流服务器硬件指标和操作系统,在操作系统层面系统支持Windows、Linux、HP-UX、IBM AIX、SUN Solaris、SCO Unix等不同操作系统的服务器的运行状态和性能数据,包括服务器的基本信息、CPU负载、内存利用率、应用进程、文件系统、磁盘空间和吞吐、事件、网卡和日志等信息的分析与监视,能够收集系统日志信息(微软操作系统包含系统日志、应用日志和安全日志),帮助用户及早发现服务器系统的性能瓶颈与故
50、障隐患。在服务器硬件层面,系统支持IBM、HP、DELL、浪潮等主流品牌的服务器的硬件监控,包括服务器电流、电压、温度、风扇、电源状态等。系统对主机系统的监控支持代理(Agent)和协议相结合的方式,协议方式主要采用Snmp、CLI、WMI、IPMI以及代理等技术手段对设备进行数据采集。其中Windows系统支持SNMP、WMI、Agent等方式进行监控采集;而Linux/Unix及类似内核的系统支持Snmp、CLI(含SSH、Telnet两种方式)、Agent等监控方式;对于硬件则主要采用IPMI协议的方式实现对曙光、浪潮、IBM、DELL、HP等主流品牌的硬件服务器进行监测和信息采集,包括
51、服务器、主板、CPU、电源等资源的配置信息;主板、电流、电压、温度、风扇的动态运行信息;chassis底盘信息,如功率是否过载、驱动故障、机箱是否开启等。主机监控同时,系统支持不同指标设置不同报警级别和预警阀值,在系统出现临界状态或过界状态,系统能自动报警。提供基于WEB的实时的图形化展示界面,实时呈现设备的运行状态。存储设备监视系统的存储监控管理模块支持对符合标准SMI-S1.1规范的存储设备进行检测管理,包括IBM、EMC、HP、华为、曙光等存储设备的监测管理,能够分析与监测存储设备的各项运行状态参数,包括如存储设备连通性、存储模块状态、存储空间情况、存储等多类监测组。同时可以根据不同情况
52、设置不同报警级别和预警阀值,在监控指标出现临界状态,系统能自动报警、自动响应和自动处理。系统对存储系统的监控主要采用协议监控方式,通过Snmp、CLI(Telnet)、SMI(存储行业的标准协议)等多种方式远程监控存储系统,能够监控存储设备的物理磁盘、存储池、控制器、存储卷的性能和容量等指标。同时,系统提供基于WEB的实时的图形化展示界面,实时呈现数据库系统的运行状态和关键指标信息。存储监控界面IaaS云监控系统支持系统支持对VMWare、KVM、Xen等虚拟化平台的监控管理,并支持与IaaS云管理平台进行对接实现云资源监控,VMWare、Openstack(华为云、浪潮云、曙光云等)、阿里云
53、等云平台监控。OpenstackDocker虚拟化监控除虚拟化及IaaS云平台监控之外,同时支持对新兴的Docker监控。Docker监控数据库监视系统的数据库系统监控模块支持各种平台上的关系型数据库或非关系型数据库的监控,其中关系型数据库包含Oracle、MS SQL Server、MySQL、Sybase、DB2、达梦等国内外主流数据库系统,能够监视到数据库负载与状态、数据库表空间、数据库内存、数据库会话、数据库锁等关键指标;而非关系型数据库则包含了Cassandra等各类NoSQL的监控,能够连续地监控数据库启动时长、数据库统计、连接数、游标、请求页错误数、全局锁、索引计数、内存、文件、
54、操作数、查询器、记录、批处理、网络、断言等关键指标。系统对数据库系统的监控采用Agent的模式,支持ODBC/JDBC远程监控数据库系统,用户根据不同权限进行监控。我司能够面向各种数据库提供数据库监控账户创建和权限配置要求,保障监控账户配置的合理性和应用的安全透明度。数据库监控系统除了支持传统的关系型数据库监控外,还支持对Nosql数据库的监控,包括:Cassandra、MongoDB等。 MongoDB 数据库监控同时,系统提供基于WEB的实时的图形化展示界面,实时呈现数据库系统的运行状态和关键指标信息。中间件监视系统的中间件监控管理模块支持包括对Apache、Tomcat、Weblogic
55、、Nginx、JBoss等WEB中间件,Redis、Memcached等缓存中间件以及TLQ、ActiveMQ、RabbitMQ、Kafka等MQ中间件的监控管理。能够分析与监测中间件的各项运行状态参数。系统对中间件系统的监控支持代理Agent模式,支持通过JMX、SNMP、JMS中间件厂商协议等多种方式对常用中间件进行监控。系统能够连续地监控各类数据库的关键运行参数和性能指标,支持实现的具体监控指标包括但不限于以下内容:1、WEB中间件:能够监测基本信息、连接池、线程队列、负载监测、通道情况监测等多类监测指;2、缓存中间件:能够监视客户端、CPU、过期键、键长度、内存、网络、持久化、发布/订
56、阅、复制、慢查询日志、命令状态等关键指标。3、MQ中间件:能够监视内存使用率、存储使用率、临时使用率,消息队列的队列平均排队时间、消费队列数量、出队列数量、队列分发数量、入队列数量、队列过期总数、发送中的队列数量、队列最大入队时间、队列当前内存使用率、队列最小入队时间、生产队列数量、队列排队数量等关键指标。同时,系统提供基于WEB的实时的图形化展示界面,实时呈现数据库系统的运行状态和关键指标信息,如下图所示:大数据平台监视大数据平台监视主要针对用户当前已有的Hadoop大数据平台进行监视,针对Hadoop各关键组件的运行情况,能够对 Zookeeper、HDFS、MapReduce等关键组件进
57、行持续监控,例如针对HDFS文件系统,系统能够对HDFS文件系统总容量、损坏块、数据节点(DataNode)相关指标、HDFS 空闲空间、HDFS使用磁盘空间、HDFS使用空间总数、丢失磁盘块数量、主节点(NameNode)相关指标、复制的磁盘块总数等关键指标进行监控。针对大数据平台监控,系统采用Agent方式实现对Hadoop系统的监控,来实现对大数据平台各关键组件和指标的持续监控。如下图所示,系统采用分布式部署架构实现分式系统计算系统的监控:Hadoop(HDFS)监控标准应用监视系统提供对基础应用平台的基础信息、连接测试、基本负载等重要信息的监测。能够有效实时地分析IIS、HTTP/HT
58、TPS 、POP3、DNS、FTP、DHCP、LDAP等常见通用服务的运行状态和参数,深入分析服务响应速度变化的技术原因和规律,从根本上解决服务响应性能的问题。同时,支持预设性能门限阀值,当监控资源运行指标达到门限值时,通过事件管理自动告警。系统对常用服务的监控主要采用Agent+协议分析的模式,支持通过HTTP协议、HTTPS协议、Telnet协议、POP3协议、TCP协议、DNS模拟检查等多种方式进行实时采集监控。同时,系统提供基于WEB的实时的图形化展示界面,实时呈现常用服务的运行状态和关键指标信息。IIS监控监控可视化展现系统支持资源的监控信息灵活展示,系统对上述资源监控后,可通过定义
59、不同维度仪表盘来实现监视指标的可视化呈现:Resdis监控此外,系统支持按照时间轴方式同步展现多个指标,即管理人员查看某个时间节点的运行情况时,系统仪表盘将同步联动该资源在该时间节点上的全部监控指标信息:同步联动展现组件标签化管理我方系统支持可视化展示运维的负载热图,通过不周同色度(红色、黄色、绿色分别代表高、中、低负载)显示资源运行负载情况。同时支持主机或设备增加数据中心、业务、位置、集群、管理组等任意维度进行展现,同时可以利用标签过滤进行分组展现,支持快速呈现高负荷资源并钻取查看。资源负载热图系统支持以数据中心、业务、位置(机房)、集群、管理组等不同纬度进行资源展示,同时支持基于不同的纬度
60、进行组合展现。1)支持数据中心角度进行资源分组展示各数据中心的资源运行负载热图。数据中心热图展示2)支持以业务角度进行资源分组展示业务系统的资源运行负载热图。业务热图展示3)支持以机房角度进行资源分组展示各机房的资源运行负载热图。机房热图展示4)支持以集群角度进行资源分组展示各集群的资源运行负载热图。集群热图展示5)以管理组角度进行资源分组展示各管理组所负责管理的资源运行负载热图。管理组热图展示系统支持以数据中心、业务、位置(机房)、集群、管理组等不同纬度进行资源展示,同时支持基于不同的纬度进行组合展现,如业务与集群进行组合。业务集群组合展现系统支持利用标签过滤进行分组展现,可以根据主机名称、
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 木兰词中英雄形象塑造分析教案
- 国学小名士观后感
- 在线服务技术维护与支持服务合同协议
- 货币银行学知识点测试卷
- 产品委托加工承揽合同协议
- 新闻传媒产业发展趋势试题集锦
- 智慧城市交通出行优化方案设计报告
- 员工请假及销假记录表
- 格林童话幼儿故事解读
- 木地板购销质量保证合同
- 中国传统文化经典解读-《菜根谭》智慧树知到期末考试答案章节答案2024年陕西工商职业学院
- 2024年江苏国信仪征 高邮热电有限责任公司招聘笔试参考题库含答案解析
- 小班社会《认识家用电器》课件
- JTG C10-2007 公路勘测规范
- 2024年广州市高三一模高考英语试卷试题答案详解(含作文范文)
- 小学英语绘本-小鸡
- GB 19644-2024食品安全国家标准乳粉和调制乳粉
- 中学数学教学典型课例研究
- 阅读让我们更聪明
- 牙周病科普讲座课件
- 工业地产营销推广方案
评论
0/150
提交评论