数据中心基础设施管理系统-集中监控方案_第1页
数据中心基础设施管理系统-集中监控方案_第2页
数据中心基础设施管理系统-集中监控方案_第3页
数据中心基础设施管理系统-集中监控方案_第4页
数据中心基础设施管理系统-集中监控方案_第5页
已阅读5页,还剩24页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 29/29数据中心基础设施管理系统集中监控方案建议书(DCIM)目录 TOC o 1-3 h z u HYPERLINK l _Toc519410914 1.项目概述及需求理解 PAGEREF _Toc519410914 h 4 HYPERLINK l _Toc519410915 1.1.项目背景简介 PAGEREF _Toc519410915 h 4 HYPERLINK l _Toc519410916 1.2.项目管理范围 PAGEREF _Toc519410916 h 4 HYPERLINK l _Toc519410917 1.3.项目建设原则 PAGEREF _Toc519410917

2、 h 5 HYPERLINK l _Toc519410918 1.4.项目建设目标 PAGEREF _Toc519410918 h 6 HYPERLINK l _Toc519410919 1.5.解决方案概述 PAGEREF _Toc519410919 h 7 HYPERLINK l _Toc519410920 2.系统架构及实现原理 PAGEREF _Toc519410920 h 11 HYPERLINK l _Toc519410922 3.1.系统架构 PAGEREF _Toc519410922 h 11 HYPERLINK l _Toc519410923 3.1.1.采集层 PAGERE

3、F _Toc519410923 h 12 HYPERLINK l _Toc519410924 3.1.2.处理层 PAGEREF _Toc519410924 h 12 HYPERLINK l _Toc519410925 3.1.3.管理层 PAGEREF _Toc519410925 h 13 HYPERLINK l _Toc519410926 3.1.4.交互展现层 PAGEREF _Toc519410926 h 13 HYPERLINK l _Toc519410927 4.DCIM系统功能实现 PAGEREF _Toc519410927 h 14 HYPERLINK l _Toc519410

4、929 5.1.基础设施集中监控 PAGEREF _Toc519410929 h 14 HYPERLINK l _Toc519410930 5.1.1.UPS监控 PAGEREF _Toc519410930 h 15 HYPERLINK l _Toc519410931 5.1.2.蓄电池监测 PAGEREF _Toc519410931 h 16 HYPERLINK l _Toc519410932 5.1.3.配电参数监测 PAGEREF _Toc519410932 h 17 HYPERLINK l _Toc519410933 5.1.4.发电机监测 PAGEREF _Toc519410933

5、h 19 HYPERLINK l _Toc519410934 5.1.5.精密空调(加湿器)监控 PAGEREF _Toc519410934 h 20 HYPERLINK l _Toc519410935 5.1.6.环境监控(温湿度、风速、氢气) PAGEREF _Toc519410935 h 22 HYPERLINK l _Toc519410936 5.1.7.漏水检测 PAGEREF _Toc519410936 h 23 HYPERLINK l _Toc519410937 5.1.8.消防(极早期)监测 PAGEREF _Toc519410937 h 24 HYPERLINK l _Toc

6、519410938 6.系统部署方案及软硬件配置要求 PAGEREF _Toc519410938 h 25 HYPERLINK l _Toc519410939 6.1.分布式部署方案 PAGEREF _Toc519410939 h 25 HYPERLINK l _Toc519410940 6.2.服务器硬件 PAGEREF _Toc519410940 h 27 HYPERLINK l _Toc519410941 6.3.服务器软件 PAGEREF _Toc519410941 h 29项目概述及需求理解项目背景简介 伴随着数据中心规模的不断扩大,业务量的逐渐增大,对数据中心的运维管理也变的越来越

7、重要。一旦基础设施系统出现问题,而没有及时地得到妥善解决,常常会给企、事业造成很大的损失。怎样能7x24小时保证设备系统的正常运行,避免各种故障的发生,优化和改进传统的运维模式,提高客户服务的及时性和满意度就显得非常重要。因此,建设一套数据中心基础设施管理系统势在必行。一个完备的运维管理系统能够提供7x24小时检测基础设施运行状态、各种资源状态的信息。运维管理人员依靠流程管理系统可以及时排除故障避免造成重大损失,控制运维质量提高服务水平。项目管理范围项目内容:设施故障发现与警报;记录日常运维日志信息;设施故障统计;设施软硬件信息统计;服务进程管理;将数据信息存储备份,并采用不同方式直观的展示出

8、来;服务人员绩效、考核管理;将数据生成报表;项目建设原则数据中心基础设施管理系统建设指导思想是:“统一规划、分步实施、已有纳入、新建遵循”。数据中心基础设施管理系统项目建设是要建设一个集中管控资源的运维平台,所以需充分考虑对已有各种产品组件做针对性的开发、整合工作。在项目建设过程中,除满足系统功能需求外,遵循如下原则:安全性原则:系统设计注重安全方面的设计,确保系统的安全运行。系统提供安全认证技术,确保登录身份认证安全性、有效性。稳定性原则:保证系统不间断运行,系统执行监控及操作任务时或出现自身故障,绝不能影响被监控及操作对象的正常稳定运行。开放性原则:系统遵循行业主要的标准化组织所提供的标准

9、或建议,采用标准的、开放性的技术,能够实现与其他厂商的产品无缝地连接;采用国际标准化组织及工业界广泛接受的有关标准和基于标准的通用软硬件平台。可扩展性原则:在保持系统的基本体系结构长期稳定的前提下,可以有效地容纳和支持基础设施规模的不断扩大和复杂、业务种类的增多。同时,能够在应用体系结构和软件模块划分两个方面支持整个应用的良好扩展性。在体系结构方面采用多层结构划分,实现各层的高聚合和层间低耦合。尽量使用模块化和插件化,使得扩展时对原系统的影响最小化。用户体验优化原则:具有较高的易用性,界面友好,美观统一,并对人机交互进行优化设计。灵活性原则:系统各子系统及子系统内功能模块具有一定的独立性,同时

10、具有系统相关性和整体一致性。系统提供自动化升级维护功能,系统的维护及拓展灵活、方便。规范性原则:统一接口标准,规范数据字典。定义监控接入标准,规范未来新建系统的监控。项目建设目标 加强数据中心的维护平台建设,提高数据中心的运行管理水平,通过运维体系的建设,结合构建集中式的服务热线、运维流程、系统监控和综合展示系统,通过系统联动,及时、准确、全面反映与掌握数据中心的运行状态,保障各业务系统的正常运行,并达成如下目标: (1)强化主动监控,实现集中管理。 以设施资源可用性监控为主线,构建数据中心统一集成的设施资源及应用服务监控平台,能够主动、及时地发现问题,并调度资源解决问题,形成数据中心运维管理

11、主动服务的新局面。 (2)帮助定位故障,快速恢复系统运行。 建立集中的告警分析及展现平台,提供灵活、自动化的事件处理能力。当故障产生时,可以进行故障的快速定位,发现故障原因,调度资源快速恢复系统服务,从而缩短故障解决时间,降低维护成本,提高系统整体可用性。 (3)掌握运行质量与效率,合理利用资源。 建立数据中心基础设施管理系统平台后,可以实时了解数据中心全部资源的负载与使用情况,根据需要从整体角度考虑资源的使用,同时可以根据业务高峰期的不同来调剂业务系统对资源的使用。 (4)规范运行管理,有序开展维护。 参照数据中心运维规范,对运维管理工作进行优化,对服务管理进行改善,将管理数据电子化,管理过

12、程规范化。根据相关制度进行运行维护管理,对内完善流程,对外提高服务,加强管理,使流程更规范更合理,使技术人员具备更高的工作效率,提高业务技术能力和解决实际问题的能力。 (5)共享运维经验,完善知识库。 把运维过程中产生的丰富经验进行积累和总结,形成有效的知识库,建立知识的共享机制,提供信息共享和交流的平台,提高数据中心运维人员的工作效率。解决方案概述DCIM系统是在在分析了国内数据中心管理现状和需求后,自主研发而成。秉承以客户为中心、流程为导向的理念,实现对基础设施资源的全面管理,完美整合了人员、技术和流程三大要素,帮助用户以较低的成本提供稳定、优质的服务,共同实现基础设施服务的目标。DCIM

13、系统提供了“无缝式基础设施监控系统”功能,其系统架构清晰,采用模块化的设计理念,各功能模块既可独立运行、松散耦合;亦可整体功能无缝衔接覆盖整个业务系统,灵活的自由组合真正实现个性化的基础设施无忧运维。DCIM系统提供一个图形化、可定制、统一的监控管理平台。通过它实现对基础架构性能和告警数据的直接监控与展示,实现对用户环境的整体运行状态的监控管理。故障预警和管理前瞻性地发现系统的故障和性能问题,能够快速识别、隔离、诊断和修复生产中出现的问题。前瞻性发现基础设施和应用系统的故障。前瞻性检测复杂的应用性能问题。基于业务的性能影响分析报告快速识别、隔离和诊断问题的起因,事故根本原因分析。对一些简单的故

14、障问题,提供自动化修复故障的功能;对复杂的故障和性能问题,尽可能提供修复故障和改善性能的建议。提供的丰富的事件通知功能,事件通知方式包括:Mail 自动向指定邮箱发送告警邮件。短信 自动向指定手机发送告警短信。声音 自动产生声音告警。图像 自动以图标形式显示告警事件。其它 通过二次开发可实现特殊要求的告警方式。提供监控参数化配置管理,参数超过设定阀值,产生报警信息。多层次的视图展示直观、准确地体现各层面的系统和业务运行状态,分别展示不同管理层次和范围的系统运行状态。根据企业的业务特点和管理习惯,可将展示视图分成一级视图、二级视图和三级视图,分别展示不同管理层次和范围的系统运行状态(如下图所示)

15、。集中统一的管理界面用户在统一监控管理平台上可查看所有视图,提供直观的图形用户界面。基于上下文环境和组合视图,降低用户诊断问题的时间。基于角色和权限的控制,增强管理的安全性。提供可定制化的工作区和视图,提高操作的灵活性。开放的接口能够集成第三方监控工具,实现将第三方监控(例如BA、安防、柴发、电力或特定应用管理工具等)完全变为监控系统的一部分。丰富的报表展示功能提供统一的报表界面,具备强大的数据展现能力:提供网络、系统、数据库、网络、中间件、应用和业务运转状况的集中统一报表提供实时与历史性能报表提供数据分析、展现和用户报表定制功能预制报表模板自动周期性报表,如日报、周报、月报、季报、年报等支持

16、PDF、HTML、Excel等报表格式系统架构及实现原理系统架构本次提供的数据中心基础设施管理系统涵盖较多被监控的对象,覆盖面较广,功能复杂,系统设计遵循模块式开发、部署,系统从底层到最上层的图形用户接口共分为四层,每一层实现不同的功能,系统整体的架构如下图所示:整个系统管理架构分为采集层、处理层、管理层、交互展示层四个层次。采集层包括数据中心环境中的机房环境、暖通设备、电力设备、安防设备等被管理实体,是需要被实时监控的对象,是原始信息的来源。所有的被管理对象通过标准协议或私有协议方式向管理端提供各种性能和事件数据。处理层包含两个功能,一是对管理实体中的数据进行数据采集;二是根据要求对数据进行

17、必要的整合。除了采集到的数据外,还可能包括各种管理数据,系统汇总后的数据、文档数据等。系统管理的数据采集方式支持以下几种:采用定时轮循机制获取被监测设施的数据;监听代理端的TRAP消息实时获取数据;通过设备厂家提供的监控工具获取数据;通过读取日志文件获取数据;通过其他厂商监控平台获取数据。管理层数据中心基础设施管理系统所使用的各种业务逻辑,集中管理和协调各子系统之间的服务调用,是系统管理的核心管理平台,主要有如下功能要点:1. 性能管理,对基础设施实时监控,采集各种指标数据,并与告警模块关联,在产生异常时及时发出警告2. 告警管理,提供告警主动通知、告警统计、告警相关性分析等功能3. 统一事件

18、处理,集中收集基础设施事件与告警,并提供告警相关性分析,辅助管理员排除故障4. 基于运维服务管理则实现运维管理功能,包括服务台、事件管理、问题管理、变更管理、配置管理、发布管理、知识库管理、SLA管理等模块。交互展现层展现层是DCIM系统与运维人员之间的人机交互接口,本次系统采用全WEB化的客户端界面,运维人员只需使用浏览器即可在网络中任意一台电脑上随时接入系统,系统支持portal功能,可以根据用户的需要呈现不同的功能和数据。此外,系统支持email、短信、声光等多种方式的事件通知形式。通过北向接口及标准协议,系统可将监控、采集数据推送至第三方管理平台及3D展示平台。 DCIM系统功能实现基

19、础设施集中监控 基础设施集中监控采用一体化监控采集系统(运行在嵌入式服务器上),系统主要功能有:机房设备监控:系统自身提供各种设备通讯接入端口,连接各种设备,例如红外,烟感、水浸、门禁、视频、空调,电源,UPS,发电机,服务器等,一旦发现异常,自动报警,发送报警通知信息并联动控制。动力监控支持: UPS、市电电量、配电开关、蓄电池组、精密配电柜、ATS/STS、电源支路电流、PDU机柜电源、防雷器、发电机等设备监控;环境监控支持: 空调、漏水、温湿度、空气质量、光照度、粉尘含量等监测;安防、消防支持: 视频监控、门禁管理、入侵检测、火灾检测、极早期监测;微环境监控支持:监控机柜内的温度湿度状态

20、、线路状态、供电状态,保障核心设备的稳定运行,辅助分析机房的局部环境及能源应用情况;联动控制:对所有设备设置报警上下限,任何设备数据超出范围,系统能够产生报警信息,并联动控制其他接入设备,例如录像、喷淋、新风机、空调等。UPS监控监控内容设计对机房内UPS电源的各部件工作状态、运行参数等进行实时监测,一旦发生故障及报警通过监控平台发出对外报警。实现方式通过UPS设备提供的RS485(或RS232)智能接口及通讯协议,采用总线的方式将UPS的监控信号直接接入监控主机的串口,由监控平台软件进行UPS的实时监测。实现功能(只监不控)实时监视UPS整流器、逆变器、电池(电池健康检测,含电压电流等数值)

21、、旁路、负载等各部分的运行状态与参数(能监测到的具体内容由厂家的协议决定,不同品牌、型号的UPS所监控到的内容不同)。系统可对监测到的各项参数设定越限阀值(包括上下限、恢复上下限),一旦UPS发生越限报警或故障,系统将自动产生报警事件,并第一时间发出语音、电话、短信等对外报警。提供曲线记录,直观显示实时及历史曲线,可查询一年内相应参数的历史曲线及具体时间的参数值(包括最大值、最小值),并可将历史曲线导出为EXCEL格式,方便管理员全面了解UPS的运行状况。蓄电池监测监控内容设计对机房内蓄电池的参数进行实时监测,一旦发生故障通过监控平台发出对外报警。实现方式通过加装蓄电池检测仪与每节电池进行连线

22、监测,多台蓄电池检测仪通过RS485智能接口及通讯协议采用总线方式将信号接入监控主机的串口,由监控平台软件进行蓄电池的实时监测。实现功能实时监测蓄电池组的总电压、充放电电流、电池表面温度(可选,需配置贴片式温度传感器)、单体蓄电池的电压参数。系统可对监测到的各项参数设定越限阀值(包括上下限、恢复上下限),一旦蓄电池发生故障,系统将自动产生报警事件,并第一时间发出语音、E-Mail、声光等对外报警。提供曲线记录,直观显示实时及历史曲线,可查询一年内相应参数的历史曲线及具体时间的参数值(包括最大值、最小值),并可将历史曲线导出为EXCEL格式,方便管理员全面了解蓄电池的状况。配电参数监测监控内容机

23、房市电的供电质量好坏将直接影响机房内用电设备的安全,设计在配电柜上安装电量仪对市电进线进行各项供电参数监测。实现方式通过在配电柜中安装带液晶显示的电量仪对进线实现监测,既可在配电柜表面实时看到电量仪采集到的参数,亦可通过电量仪的RS485智能接口和通讯协议采用总线的方式将信号接入监控主机的串口,由监控平台软件进行市电的实时监测。实现功能实时监测市电进线三相电的相电压、线电压、相电流、频率、功率因数、有功功率、无功功率等参数。系统可对监测到的各项参数设定越限阀值(包括上下限、恢复上下限),一旦市电发生越限报警,系统将自动产生报警事件,并第一时间发出语音、电话、短信等对外报警。提供曲线记录,直观显

24、示实时及历史曲线,可查询一年内相应参数的历史曲线及具体时间的参数值(包括最大值、最小值),并可将历史曲线导出为EXCEL格式,方便管理员全面了解市电的供电状况。发电机监测监控内容设计对(柴油、燃气)发电机各部件的工作状态及运行参数进行实时监测,一旦发生故障及报警通过监控平台发出对外报警。实现方式通过发电机设备提供的RS485(或RS232)智能接口及通讯协议,采用总线的方式将发电机的监控信号直接接入监控主机的串口,由监控平台软件进行发电机的实时监测。实现功能实时监视发电机的输出电压、电流、功率、油压、水温、转速等参数(能监测到的具体内容由厂家的协议决定,不同品牌、型号的发电机所监控到的内容不同

25、)。系统可对监测到的各项参数设定越限阀值(包括上下限、恢复上下限),一旦发电机发生越限报警或故障,系统将自动产生报警事件,并第一时间发出语音、电话、短信等对外报警。提供曲线记录,直观显示实时及历史曲线,可查询一年内相应参数的历史曲线及具体时间的参数值(包括最大值、最小值),并可将历史曲线导出为EXCEL格式,方便管理员全面了解发电机的运行状况。精密空调(加湿器)监控监控内容机房温度、湿度出现异常时,将导致机房其他设备运行所需的环境失去保障,因此设计对各机房内空调(加湿器)的运行状态和参数进行实时监测,同时可对空调(加湿器)进行远程的开关机控制。实现方式通过空调(加湿器)设备提供的RS485智能

26、接口及通讯协议,采用总线的方式将空调的监控信号通过串口服务器转换为网络信号接入监控主机的网口,由监控平台软件进行空调的实时监测。实现功能实时监视空调(加湿器)压缩机、风机、水泵、加热器、加湿器、去湿器、滤网、回风温度和湿度等的运行状态与参数,并可对空调实现远程开关机的控制(能监测到的具体内容由厂家的协议决定,不同品牌、型号的精密空调所监控到的内容不同)。系统可对监测到的各项参数设定越限阀值,一旦精密空调(加湿器)发生故障,系统将产生报警事件,并第一时间发出语音、电话、短信等对外报警。提供曲线记录,直观显示实时及历史曲线,可查询一年内相应参数的历史曲线及具体时间的参数值(包括最大值、最小值),并

27、可将历史曲线导出为EXCEL格式,方便管理员全面了解精密空调(加湿器)的运行状况。环境监控(温湿度、风速、氢气)在机房中有大量的服务器,设备对温、湿度等运行环境的要求非常严格,按照机房功能区域的划分及的实际面积,同时结合设备的密集情况,在机房内安装多个温湿度、风速、氢气浓度传感器,以实时检测机房和重要设备区域内的温、湿度、风速、氢气浓度。温湿度、风速、氢气浓度传感器将把检测到的数值实时传送到现场嵌入式服务器中,并在监控界面上以图形形式直观地表现出来。一旦温、湿度值、风速、氢气浓度越限,系统将自动报警框,提示管理员通过调节空调温、湿度值给机房设备提供最佳运行环境。并且还可以将一段时间内机房里的温

28、湿度、风速、氢气浓度值通过历史曲线直观地表现出来,以方便管理人员进行查看。温湿度传感器可与空调系统实现联动,当机房的温度越限时,系统可联动设定空调温度及启动空调进行工作等联动动作。 机房内对温湿度值、风速、氢气浓度监控,一旦发生警情及时通知管理人员,使损失降到最低。漏水检测鉴于机房设备的重要性,在机房中安装美国泰科的定位式漏水检测系统,用于监测机房的空调有无漏水事件发生,确保设备不受水浸的危害。机房内精密空调的进出水管均有可能出现漏水,这将威胁着机房内各设备的安全。设计通过在有可能造成漏水的水源附近安装1套非定位式漏水监测设备,在精密空调底下四周共敷设1根的漏水感应绳,一旦有水泄漏碰到漏水监测

29、绳,感应绳通过漏水控制器将信号传输到现场嵌入式服务器上,同时在集中管理服务器上形象、准确的输出告警信息。消防(极早期)监测监控内容设计对机房内由消防控制箱提供的干接点信号(或在机房内安装不同点位点的极早期烟雾报警器)进行实时火警监测,一旦发生报警通过监控平台发出对外报警。实现方式采用采集消防控制箱(极早期烟雾报警器)提供的干接点信号,将信号接入监控主机的串口,由监控平台软件进行消防的实时监测。实现功能实时监测机房内的消防火警(极早期烟雾报警器)信号,一旦发生报警,系统自动产生报警事件,并第一时间发出语音、电话、短信等对外报警。系统部署方案及软硬件配置要求分布式部署方案 本次系统需要在一个系统中

30、集中监控机房环境、网络、服务器等。项目的采集服务器设计容量需按照100台规模的扩展空间进行考虑,保证在系统增长过程中网管系统可以常规扩展。系统采取分布式多probe部署方式进行实施。 本系统是由管理节点(Manage Node)、探针节点(Probe Node)和管理终端三大部分组成,管理节点的主要功能如下:负责定义监控策略,并将监控策略准确下发到探针节点,探针节点根据收到的监控策略对被监控的对象进行监控和数据采集负责接收探针节点发送过来的监控对象的状态数据并将这些数据集中存入数据库,并提供最新一次采集数据的内存缓存负责接收探针节点发送过来的告警,并执行告警动作,比如发送短信、发送邮件、声音告警等,及时通知IT管理人员 探针节点可以有多个,探针节点的主要功能如下:负责监控并采集监控对象的各种指标数据,根据被监控的对象不同,采集的指标也不一样,采集完成后,将这些数据通

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论