XXX公司IT监控运维系统技术建议书v20(模版)_第1页
XXX公司IT监控运维系统技术建议书v20(模版)_第2页
XXX公司IT监控运维系统技术建议书v20(模版)_第3页
XXX公司IT监控运维系统技术建议书v20(模版)_第4页
XXX公司IT监控运维系统技术建议书v20(模版)_第5页
已阅读5页,还剩57页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

XXX公司IT监控运维系统技术建议书xxxxx(中国)有限公司TIME\@"yyyy年M月"2018年1月

目录1 XXX公司IT监控运维系统的建设目标 62 XXX公司IT监控运维系统的建设要素 72.1 系统设计原则 72.2 系统建设方法 73 XXX公司IT监控运维系统的方案建议 83.1 系统架构设计 83.2 系统建设效果 104 XXX公司IT监控运维系统的功能说明 124.1 实时监控IT服务质量:监测IT系统的健康度 124.1.1 针对业务的健康度管理 124.1.2 针对服务对象的健康度管理 134.1.3 针对地域的健康度管理 144.1.4 核心网络及服务器健康度管理 154.2 集中式管理:实现IT统一运维管理 174.3 面向服务质量的监控,关注于IT系统的SLA 194.3.1 SLA状态查询 204.3.2 SLM服务报表 204.3.3 SLA设计器 214.4 统一告警处理:集中的告警管理和分析处理 214.4.1 丰富的事件管理和分析处理手段 214.4.2 动态数据的阀值监控 244.5 综合性能分析:对IT业务系统的综合性能分析 254.6 完备的基础架构监控功能 274.6.1 服务器监控管理 274.6.2 虚拟化监控管理 284.6.3 网络监控管理 294.6.4 数据库监控管理 314.6.5 中间件监控管理 334.6.6 存储监控管理 344.7 业务应用可用性监控 354.7.1 业务可用性监控 354.7.2 SAP的监控 364.7.3 DominoNotes的监控 394.7.4 Exchange的监控 404.7.5 AD的监控 414.7.6 业务监控的收益 424.8 能耗监控 454.8.1 数据收集 464.8.2 数据分析 474.8.3 分析报告 494.8.4 能耗报警 504.8.5 能耗控制 514.9 各类运维报表,监测资源利用状态 514.10 个性化支持,提供自定义管理面板和报表 534.10.1 性能报表设计器 534.10.2 列表设计器 544.10.3 管理面板设计器 544.11 支持多租户,不同用户查看不同的内容 554.12 易用性,用户DIY管理风格 555 重点问题分析 565.1 开放的管理体系 565.2 扩展性 565.3 兼容性 575.4 系统高度可配置 575.5 安全性 576 CAIT监控运维系统的方案特点与优势 586.1 丰富的同行业项目实践经验 586.2 提供完整的IT运维管理系统建设规划,符合XXX公司建设发展的需要 596.3 系统资源消耗小,Nimsoft独特的轻量级代理技术,减少对被管服务器的资源消耗,降低对业务系统的影响 596.4 单一交付、集中管理,全面覆盖IT系统的各个层面 596.5 统一的管理门户,Nimsoft实现了真正意义的统一运维管理 596.6 提升运维能力,Nimsoft可以实现针对SLA的告警和报告 606.7 易用性,Nimsoft提供灵活的访问方式 606.8 提升处理效率,Nimsoft的数据处理效率和高可用性更优 606.9 项目实施风险小,Nimsoft提供单一产品支持,实施简单 606.10 灵活性,Nimsoft提供报表和管理面板的定制工具 607 相关产品概述 61

XXX公司IT监控运维系统的建设目标XXX公司针对IT系统在日常运维中存在的问题,希望通过IT监控运维系统实现对这些IT系统的运维监控和优化分析。针对以上项目建设目标,XXX公司的IT运维管理系统建设从管理角度,可以进一步解析为以下四个方面:统一管理需求实现从服务水平SLA到基础架构,从事件管理到性能分析的统一管理实现对运维效率的提高与运维成果的统一监管和提升实时掌握基础架构的健康度情况闭环管理需求从服务水平的角度,实现全面的监控和瓶颈诊断的闭环处理保证故障、异常、隐患由合适的人采用合适的方式闭环处理精益管理需求分析基础设施的运行负荷,提供相关数据,帮助制定合理的资源调配方案通过丰富完善的信息图档资料,为XXX公司的运行维护工作提供直观准确的基础数据战略管理需求帮助优化基础设施的运行性能帮助提升系统的稳健性,降低系统风险XXX公司IT监控运维系统的建设要素系统设计原则根据XXX公司的建设需求,CA公司结合国内外各个公司的先进经验。在此次项目建设中,将遵循以下原则:先进性原则:选择了代表先进水平和全球主流趋势的软硬件平台产品,使之不仅能够满足目前业务的需要,还能适应未来技术发展的趋势和需要。灵活性原则:根据XXX公司对IT基础架构及业务监控平台的综合需求,优化系统资源配置,实现最大的应用灵活性。可扩展性原则:在设计上充分考虑到可扩展性需求,提供具有最高可伸缩性的系统,并保护XXX公司的项目投资。稳定性原则:整体系统确保稳定、高效、连续地运营,能够支持全天24小时的连续运行需求。可管理性原则:系统提供可靠地管理手段,包括用户权限管理、运维监控以及相关性能分析的可管理性。开放性原则:系统方案采用开放标准,开放结构,开放系统组件和开放用户接口,充分满足用户投资保护和业务扩展、系统维护等方面的需求。此外,根据XXX公司的管理特点,在系统设计上还考虑到安全性、保密性、可视化处理等需求,力求提供一个完整实用的总体方案。系统建设方法IT监控运维系统的建设是一个系统的工程,需要经过多个阶段的工作,才能顺利进行。其大的建设阶段包括三个阶段即系统调研、KPI指标确认和定制监控。在实施服务中有包括了软件咨询、定制开发、培训服务、系统推广和软件维护6个阶段。图系统建设方法示意图系统调研全面梳理并分析IT系统所涉及的各技术层面、相关层面等内容,明确关键系统所需监控的层次与维度。调研各个基础架构组件,包括服务器、网络、数据库、中间件、存储、虚拟化等的监控信息。KPI指标确认据已梳理的基础架构,确定各层面、各维度的监控指标,并给出采集方法、判别方法、处置建议等关键信息。针对不同类型的应用监控需求,给出标准的实施技术规范。定制监控根据基础架构监控指标,通过引入工具和定制开发等手段,采集和分析相关数据包信息,实现对KPI指标的监控管理。XXX公司IT监控运维系统的方案建议系统架构设计根据以上建设目标,XXX公司IT监控运维系统的架构设计如下图所示:图系统架构设计XXX公司IT监控运维系统通过建设统一监控系统,采用有代理监控模式和无代理监控模式,实现对基础架构可用性的监控和服务质量的保障,并通过统一运维管理门户提供统一的运维管理界面。统一监控系统是通过统一的管理平台,实现对IT系统进行集中监控和管理。通过大量的商业化的采集探针,可以从被监控设备中采集相应的事件、告警、性能、拓扑和可用性信息。CA公司推荐采用轻量级代理程序和无代理管理混合的方式管理监控对象。即增强了对监控对象的管理能力,同时将对监控对象的资源影响降到最低。采集的数据通过事件根源分析和性能监测诊断等手段,实现对基础资源可用性管理和服务质量保障监控。统一运维管理门户提供了基于Portal门户的统一运维管理窗口。运维人员可以通过Web浏览器,采用统一登录、分权管理的方式完成相应的管理工作。同时,运维人员也可以通过统一运维管理门户实现拓扑查看、告警管理、性能分析、运维规划报表、自定义报表、业务诊断分析和查看服务工单的功能,并支持个性化门户的自定制功能。系统建设效果提供XXX公司IT监控运维系统的建设,实现了基于SLM的多角色多角度的全面管理。如下图所示:图系统建设效果首先,通过IT监控运维系统实现了对XXX公司各个IT应用系统的全面运维管理。将所涉及到的网络、服务器、数据库、中间件、虚拟化、存储和应用系统都监控管理了起来。其次,提升了运维管理能力,实现了统一运维管理和服务能力管理,为XXX公司全面评估现有IT系统的服务能力和服务质量提供科学的数据依据,并进一步为系统规划和系统扩容等战略管理要求,提供了数据报表和指导分析。再次,通过CA公司解决方案可以实现多角色的管理,不同的管理角色如:XXX公司CIO、XXX公司IT经理和各部门的运维人员等可以通过不同的管理界面和管理内容实现不同的管理要求。通过IT监控运维系统的建设,未来可以实现从业务的角度自上而下的管理和从运维的角度自下而上的管理。一方面,可以从IT系统使用的角度监控最终用户体验,并定义IT系统瓶颈。另一方面,也可以从基础架构的角度,分析其对IT系统使用的影响,并确定告警处理的优先级。CA公司解决方案不仅实现了对IT系统的监控能力,还实现了针对服务水平的管理能力。从而为XXX公司提升监控能力,提供更先进更全面的管理平台。服务水平协议(SLA)是客户和服务提供商之间的协议,对合同以及客户和服务提供商之间的关系来说,协议双方确认和记录其各自的服务需求非常重要。服务水平管理(SLM)包括一套工具以便于监控和确保针对内部客户和外部客户的一系列SLA的有效性,服务水平管理直观显示为下列的层次结构:-服务平管理(SM)-服务平协议(SLA)-服务平目标(SL)-服务量(o)服务水平管理(SLM)的基本原则是把服务水平协议(SLA)细分成较小的部分,让运维人员能跟轻松简单的建立强大、可扩展和可衡量的协议。XXX公司IT监控运维系统的功能说明实时监控IT服务质量:监测IT系统的健康度针对CIO和IT运维人员对IT监控运维的要求,IT监控运维系统提供了面向IT服务质量的实时监控视图。通过该视图,CIO和IT运维人员可以通过多个管理角度,一目了然的看到当前各个IT系统的服务状态,并可以通过逐级点击的方式查看相关的健康度状态和相关监控指标状态。针对业务的健康度管理通过系统整体健康度管理,可以实现对XXX公司所关注的各项业务的健康度管理,帮助XXX公司第一时间掌握自身各项业务的服务水平和健康度状态。如果发现有业务健康度下降的问题,可以通过点击鼠标,向下挖掘,分析影响业务健康度的问题和定位业务瓶颈。针对服务对象的健康度管理通过系统整体健康度管理,可以实现针对服务对象的健康度管理,比如针对VIP客户,针对大客户,或针对企业各分支结构和组织的IT服务能力的健康度管理。当服务对象的健康度出现故障时,可以快速定位问题,分析主要故障对服务对象的影响程度和影响面。针对地域的健康度管理通过系统整体健康度管理,还可以根据地域或地图划分,查看各地域的系统健康度状态。当有些地域出现健康度下降的情况时,快速定位业务问题所在。核心网络及服务器健康度管理网络和服务器是基础架构的主要环境,网络即服务器的健康度状态对系统的整体健康度状态影响最大。因此,可以通过网络及服务器健康度管理,全面查看网络可用性和带宽使用状态,以及服务的综合性能状态等信息。通过网络健康度管理,一方面可以快速查看网络设备的可用性或主要端口的可用性信息,另一方面可以快速查看各网络设备的端口流量状态。查看网络端口流量带宽状态。通过服务器健康度管理,可以快速查看各服务器的服务状态,包括Windows服务器、Linux服务器、Unix服务器的可用性。通过点击各个服务器,可以进一步查看服务器的CPU、内存、硬盘、进程、服务、日志文件等信息。集中式管理:实现IT统一运维管理IT监控运维系统不仅可以实现针对IT系统的监测管理,还可以实现基于ITIL的流程管理。针对XXX公司所提出的监控和ITIL一起建设的需求,可以实现真正意义上的监控和运维一体化管理。一方面,运维人员可以通过统一管理门户UMP访问各类管理功能,并实现各种运维流程操作;另一方面,监控系统收到故障后,也可以自动的生成相应的事件工单,而不需要手工干预。IT监控运维系统提供了统一的拓扑管理、事件管理、性能管理、容量规划、诊断分析和流程管理功能,并支持多样的运维报表和自定义的报表。可以有效的提高XXX公司对IT运维管理的能力,满足XXX公司IT运维管理的能力。提供拓扑管理,选择相关管理内容。可以查看设备的自动发现状态。提供多种直观的拓扑展现方式,可以查看当前的拓扑展现状态,包括圆形、正交、层级等。提供集中的事件管理功能:支持各种性能分析功能:面向服务质量的监控,关注于IT系统的SLA当前系统运维管理不仅仅是针对被管设备的性能指标的监控,而是更加关注于系统的各项SLA指标。通过对SLA各项指标的监控,来评估和管理系统的可用性。IT监控运维系统提供了全面的SLA支持能力,从SLA的创建,到SLA的状态查询,以及SLA的报表展现,无需开发,即可帮助客户实现针对SLA的管理能力。SLA状态查询通过IT监控运维系统可以实现对各项预定于的SLA的状态查询,了解各SLA的变化情况,分析影响SLA的根源所在,快速定位SLA问题,提升系统的服务水平。SLM服务报表通过IT监控运维系统可以向IT管理层定时提供各类针对SLM的服务报表,让IT管理层第一时间了解系统的服务水平和SLA违背的情况。帮助IT管理层逐步提升系统的服务能力。SLA设计器IT监控运维系统提供了灵活的SLA设计器。运维人员客户根据需要,将各类性能指标作为QoS指标,通过多个Qos指标的组合生成所需要的SLO项,再将多个SLO项组合生成所需要的SLA项。通过SLA设计器,无需编程和定制开发,即可以灵活的设定各类SLA,从而满足CIO、IT主管和运维人员的运维管理需要。统一告警处理:集中的告警管理和分析处理丰富的事件管理和分析处理手段IT监控运维系统提供了丰富的告警管理的功能和告警处理手段。运维人员可以通过告警过滤,查看相应的告警信息。IT监控运维系统支持告警的各类处理机制,告警的过滤、告警级别定义、告警压缩、告警关联、告警转发、告警自处理、告警分配和告警监控时间设置等。IT监控运维系统提供了丰富的事件管理功能,事件管理可以覆盖所有需要管理的设备,快速捕捉到服务器、中间件、数据库、应用程序产生的日志和消息等事件。默认提供了五种告警级别,并提供了多种事件处理手段,运维人员可以根据需要灵活的定义报警事件。事件的集中管理在一个统一的运维管理系统上,通过同一个管理界面,实现对事件的集中管理。维护人员可以在统一事件管理平台上看到所收到的事件的发送源、系统名、用户名、事件信息、事件生成时间等详细信息。统一事件管理平台的设置有很强的灵活性,可根据运维人员的不同要求而改变,以适应各个运维人员的需要。事件关联处理防止告警风暴事件关联处理可以有效的防止告警风暴,通过内置的事件关联处理机制,可以快速的定位问题根源,屏蔽关联告警,防止告警风暴。事件关联处理技术使得当故障发生时,运维人员能够更快地定位原因、排除故障。通过高级事件关联引擎,更快地识别故障根源。这个引擎将把事件与高层次报警关联起来,并立即查找故障的根本原因。深入分析(drill-down)功能令运维人员能够看到与每一个故障有关的所有事件。通过使用以上的这些事件关联模板,维护人员就可以方便的设计出满足自己需要的事件处理,从而实现对事件的智能处理,并快速定位关键故障,从而恢复系统故障,保障系统的正常运行。灵活的事件的过滤处理与分类归并可以通过定义对统一事件管理平台所收到的事件信息进行过滤,只显示运维人员所关心的事件信息,同时可对所显示的事件信息进一步分类,对不同级别的事件信息以不同的颜色表示。通过这种方法可以提高运维人员的工作效率,增强系统的可维护性。多样的事件自动处理设置可以定义事件触发器,当统一事件管理平台收到某一条或一组特定事件信息时,统一事件管理平台可以自动执行一组动作(Action)自动处理事件。这组动作可以包括发送一条报警信息,执行一个命令,启动一个进程或一个批处理业等。如监视用户的关键数据库应用,当收到数据库进程非正常终止的信息时,对此进程自动重起,以保障用户的应用不间断运行。事件的管理方式事件管理可指定事件所有组、所有人,与操作权限直接关联,如事件的所有人才能更改或删除该事件,同组的其他人才能查看该事件等。可设定条件自动更改事件内容,如指定最高严重等级的事件发生以后超过1小时无人响应就自动将事件所有人改为更高级别的管理员。事件管理执行动作的多种通告方式统一事件管理平台支持将事件通过声光报警、电子邮件、短信通知等方式,将事件信息通知相关运维人员。事件的数据统计统一事件管理平台的事件管理会记录所有收集到的事件信息,并每天生成一个事件日志文件,还可对事件信息进行统计,提供相关日报表、周报表和月报表。动态数据的阀值监控IT运维管理系统能够动态收集应用性能数据并通过定制界面展现,可以对任意关键性能监控对象定义告警阀值(例如JVMheapsize,JDBCcollectionpool,数据库连接数量,事务处理时间,浏览器浏览时间等)并根据阀值提供不同的监控展示方式(例如:标志颜色,坐标水位线等)IT运维管理系统能够监控所有业务的响应时间,包括关键业务的响应时间,并评测出客户端实际的响应时间。每个业务中的“ErrorsPerInterval”、“StallCount”和“Concurrent”参数可以表示业务的可用性问题,“AverageResponseTime”参数表示响应时间,可以为这些参数设定报警阈值,当超过阈值就会及时报警,通知系统管理员。IT运维管理系统能够对一组相关对象的性能数据进行合并、计算(例如:将相关的几个方法调用的总平均时间相加,或按比例扩大监控数字等)并根据用户的需求将合并或计算的结果用不同的方式展现出来并定义该组数据的阀值。IT运维管理系统支持设置一定的阀值自动收集相关用于诊断数据(javacoreheapdump),自动增加监控的级别。举例:当某段时间CPU持续60%以上,这个时候触发报警,该报警对应的自动脚本自动执行,保存一下当时的javacore。综合性能分析:对IT业务系统的综合性能分析综合性能分析主要是针对XXX公司各类业务系统,将对业务系统影响最大的各类性能指标放在一张视图中去综合管理,从而实现对性能的统一分析。IT运维管理系统实现了全面的性能管理,包括服务器性能管理、数据库性能管理、中间件性能管理、存储性能管理、网络性能管理、应用性能管理等。维护人员可以根据需要灵活的设定性能阀值,生成相应的性能告警。可以以图形化的方式,批量对监控对象、监控指标和监控策略进行设置,并支持灵活的设定采样周期。根据采集到的不同对象的性能参数,在统一的界面内分别以曲线图,饼图或表格的方式显示,可以根据分析的需要,将不同的参数指标或不同主机的性能参数指标在同一窗口内显示比较,从而可以了解系统的性能瓶颈和不同系统的负载压力。对于性能的指标,还可以做到根据历史的变化趋势,设置在某一置信度下的预测功能。从而可预言到系统需要升级扩展的时间。性能管理会集成所有收集到的性能指标信息,与后端的报表工具集成,生成性能统计报表。查看数据中心的综合性能:查看某业务系统的综合性能:查看某台设备的综合性能:完备的基础架构监控功能服务器监控管理通过IT监控运维系统,可以实现对各类物理服务器的监控管理和性能分析。通过IT监控运维系统提供了服务器管理的视图。用户也可以根据需要,定制自己所需要的服务器性能指标来进行性能分析。虚拟化监控管理通过IT监控运维系统,可以实现对各类主流虚拟化技术的监控和管理,包括VMWare、Ctrix、Hyper-V、IBMVM、SolarisZone等。运维人员即可以查看各类虚拟化组件状态,也可以分析各类虚拟化指标变化。网络监控管理通过IT监控运维系统,可以实现对网络设备的监控和分析。根据客户需要可以实现针对网络设备状态的监控和网络带宽状态的监控,也可以实现对不同厂商设备的性能监控和分析。数据库监控管理通过IT监控运维系统,可以实现随各类数据库的性能查看和分析,包括SQLServer数据库、Oracle数据量、DB2数据库、Sybase数据库、Informix数据库和Mysql数据库。中间件监控管理通过IT监控运维系统,可以实现对中间件的监控管理,包括Weblogic、Websphere、Tomcat、Jboss等各类中间件软件。存储监控管理通过IT监控运维系统,可以实现对主流存储设备的监控,包括EMC、IBM、NetApp、HDS、HP等。业务应用可用性监控业务可用性监控现有的很多系统监控工具采用的是一种以IT系统架构管理为基础、自底向上的管理方法,这种方法存在着固有的不足,会导致管理手段和管理目标的背离,典型的现象是一线业务人员可能埋怨业务系统性能与可用性很差,但是运维人员事先却毫无觉察,相关的管理系统上也没有反映。原因在于系统架构的监控不能反应出业务层面的运行状况。比如在系统架构层面,我们可能看到数据库、主机、网络等运行正常,但业务上可能一线操作人员已经感觉到业务处理很慢,甚至无法交易,原因在于可能系统架构各个单点上的性能没有问题,但他们联系一起形成业务的上层处理,就会反应出各个系统部件的相互操作的性能问题,而这种性能问题将反应在业务层面,如业务处理很慢,甚至不可用。业务应用监控正是要求突破以往的思路和手段,采用以业务应用为核心,自顶向下的方法对业务系统的可用性进行管理,即管理的出发点或最初的着眼点由支撑业务应用的系统架构变成业务应用或者服务本身。这种从最终用户的体验角度来看待业务系统的监控与管理,它的监控数据来源于最终用户,包括一线业务操作人员等,来源于最终用户对业务系统的真实体验,通过监控各个业务网点真实用户的业务操作状态,得到业务系统的性能和可用性的监控数据。NIMSOFT具备7×24的业务监控管理能理,在这样的监控模式中,运维人员可以随时查看业务应用视图,了解当前关键的业务处理流程是否都能正常完成各自的功能,如客户存取款交易、客户资料查询等。NIMSOFT提供各种监控探针,监测业务应用的各个组件的性能状态,如网络的状态、基础架构的状态、数据库性能状态、中间件性能状态,以及业务的响应情况等。当出现业务应用故障时,运维人员可以快速的向下挖掘,通过业务应用与基础架构组件的关联性管理,快速展现和分析业务应用问题。运维人员可以根据各个组件性能变化对业务应用的影响程度,设置相应的性能告警阀值。当性能状态溢出阀值时,生成相应的告警信息,并发送给统一监控平台统一处理和分析。统一监控平台可以将相关告警信息进行告警关联性分析,确定根源告警,定位系统瓶颈。NIMSOFT的业务应用监控功能与基础架构监控、网络监控、存储监控等采用同一监控产品实现,无需集成,无需编程,可以真正的满足监控数据集中关联展现与统一分析的要求。NIMSOFT提供了各个层面的SLA统计分析的能力,包括业务应用层面的SLA、基础架构层面的SLA、网络层面的SLA、存储层面的SLA等。不及提供了灵活的SLA定制和监测手段,还提供了多样的预定义的SLA报表。通过对业务应用各个组件的SLA监控,NIMSOFT不仅可以实现对关键业务监控信息的记录,还实现了按照不同时间段的业务SLA查询统计分析功能。通过这种以业务为中心的管理流程,业务人员和运维人员可以更好的结合起来提高工作效率,从而进一步对业务应用的可用性进行优化。SAP的监控NIMSOFT针对SAP的监控提供成熟的商业化监控探针,该探针是一种完全集成的即插即用解决方案,作为NIMSOFT平台的自然扩展,这些模块的使用消除了不必要的架构设计和实施流程。SAP监控探针能够实现新的业务与应用管理在现有IT管理环境中的迅速部署,该产品为客户提供了一种针对分布式SAP系统的集中式即插即用的可用性与性能管理工具,从而使IT企业能够为其业务客户提供最高水平的支持。作为预先配置的即插即用模块,该探针具有高度灵活性和可扩展性,仅需极少的配置操作。与专门的SAP管理产品不同,NIMSOFT对所有为最终用户提供SAP服务所需的IT要素进行管理。此外,还可以管理各种关键业务应用和整个IT环境,这对于IT企业来说是极为有利的。从CCMS获取数据SAP拥有一种管理R/S应用的出色产品––计算中心管理系统(CCMS)。这是R/3管理领域的最佳产品。因此,NIMSOFT可以通过CCMS来获取SAP的关键性能指标,两者可以完美地配合运行,几乎可以被视作一件产品。灵活调用通过SAP探针可分别执行可用性管理或性能管理,也可两者同时进行。可用性管理可用性管理可帮助维护人员了解SAP环境何处出现了问题。问题可能是磁盘太满、某关键操作中断或无法在预定时间启动。NIMSOFT将共同针对这一情况向SAP管理员发出警报。除提供修改建议外,这些产品还提供SAP管理员可调用的预定义措施。这些产品还提供自动措施,例如在发生紧急情况时向管理员发送e-mail信息。NIMSOFT可自动获知CCMS探测出的可用性问题。此外,还对整个环境中70多种与SAP相关的问题进行监控。出现问题时,可以调用多种管理工具来快速解决问题。NIMSOFT可以监控的一些可用性问题如下所示:

监控管理要求1可用性管理2事务响应时间监控3SAP实例监控4文件监控5批处理作业6操作过程监控7工作进程监控8CCMS报警9系统缓冲性能管理10系统日志监控性能管理功能将针对SAP环境中可能会影响最终用户生产效率的性能下降问题作出通知。NIMSOFT将共同针对以上情况向SAP管理员发出报警。这种统一的处理方式允许对可用性和性能问题进行快速、有效、统一的管理。图SAP监控示意图图灵活展现的SAP监控的各个指标DominoNotes的监控通过NIMSOFT可以实现对DominoNotes业务的7×24小时监控和管理。运维人员可以灵活的监测不同交易地点对业务应用访问的可用性和性能状态。当发生业务应用问题时,可以通过NIMSOFT系统快速向下钻取,查看相应的服务器、网络、数据库的健康度状态,从而全面监测业务的可用性。针对DominoNotes的监控,可以实现对一下指标的采集和管理:

监控管理要求1Notes数据库监控2NotesWeb监控3Notes服务器监控4Notes邮件监控例如,其探针可以很容易定义要监控的频率、严重性、例程状态等等,也可以利用状态报表很容易发现潜在的性能问题,如下图:图Notes监控示意图一Exchange的监控提供NIMSOFT可以实现对于MicrosoftExchange的监控,提供了企业Exchange环境的关键任务监控和管理功能。NIMSOFT可监控关键Exchange应用或数据库资源,包括:ProcessMonitor(用于监控核心Exchange过程所耗CPU时间量)InactiveProcessMonitor(用于监控核心Exchange过程的活动和状态)ExchangeServerMonitor(用于监控ExchangeServer过程的活动)信息传输代理的信息处理数据MTA工作队列IS公共信息平均提供时间IS专用信息平均提供时间系统状态(通用WindowsO/S系统参数)逻辑磁盘空间(逻辑磁盘空间使用参数)有效客户登录MTA信息量(信息传输代理的信息处理数据量)IS专用信息(PrivateInformationStore处理的信息数据量)IS公共信息(PublicInformationStore处理的信息数据量)MTA和IS队列(信息队列长度数据)邮箱数据(系统邮箱收集的数据)公共文件夹数据(系统所有公共文件夹收集的数据)AD的监控NIMSOFT提供专门的AD监控探针用于对活动目录的管理,从而能够保证GlobalCatalog和OperationMaster等主要资源持续正常运行。针对AD的监控,主要包括了如下性能指标:ActiveDirectory响应时间监控响应速度ad_server监控域控所有重要服务adevl监控有关AD、LDAP、DNS等日志复制延迟丢失和发现的ADFSMO一致性全球目录搜索域控制器磁盘空间DNS服务器可用性图AD监控示意图一业务监控的收益通过业务应用的监控,可以帮助贵公司获得以下收益:成熟平台,集中操作,统一处理CA公司解决方案可以帮助贵公司建立业界一流的运维管理架构,该架构可以实现对IT各个层面的统一运维管理。包括网络、服务器、存储、数据库、中间件、应用和真实用户体验等。通过综合的事件管理、性能和可用性管理、用户体验管理、服务品质管理和业务服务管理,帮助贵公司建立全面有效的运维管理架构。CA公司解决方案采用了业界领先的成熟产品,通过一个管理平台全面覆盖对网络、服务器、虚拟机、数据库、中间件、存储和应用的全面监控管理,实现了业务整体监控、事件统一处理、性能统一分析,并进一步帮助贵公司建立运维标准化。图NIMSOFT平台示意图实现端到端的业务健康度监控贵公司面临的最大困难是,如何在复杂多样的网络环境中,对业务的健康度进行全面的评估和分析。CA公司解决方案正是帮助贵公司解决这一困难的最佳方案。CA公司的解决方案覆盖了业务健康度的各个层面,帮助贵公司一方面,掌握用户性能体验、建立服务水平等级SLA;另一方面,监控所有业务交易的性能,分解并关联到底层的应用组件,网络,数据库,服务器的性能。此外,还实现了主动地监测性能变化和问题,快速准确的诊断业务故障的原因。图端到端监控示意图通过专业的服务水平管理,保障业务应用服务水平在系统运维中需要对业务应用的服务水平进行全面的分析和诊断。采用专业的服务水平管理工具,可以有效的提升贵公司在这方面的管理能力和管理效率。CA公司解决方案可以从业务性能分析和服务水平管理两个方面全面保障业务健康,提升贵公司对业务应用服务水平的管理需要。图业务服务分析和诊断示意图支持各个层面的监控需要,全面保障业务稳定贵公司的重点是实现对各个层面的监控,包括用户、业务系统和基础架构。通过对各层面的监控,实时了解用户对业务的使用情况,分析和定位业务系统瓶颈和基础架构问题,不断的优化业务系统和基础架构,从而全面保障业务的服务能力,提升贵公司的服务质量。CA公司解决方案提供了丰富多样的监控器,可以有效的覆盖到贵公司的各个层面。图丰富的监控器示意图能耗监控NIMSOFT提供能耗监控功能专用于测量、管理和控制楼宇、数据中心和云环境的电源和制冷状况。NIMSOFT能耗监控能够通过SNMP、Modbus和BACnet等协议,从能源和IT设备收集数据,而无需任何其他硬件。也可以与现有的楼宇管理系统(BMS)集成,从而使高级分析和报告功能可以补充BMS的现有功能。NIMSOFT能耗监控通过收集、分析、报告、报警和控制五个方面来提高可用性和运行时间,增加IT操作的灵活性并降低成本。数据收集使用NIMSOFT能耗监控可以满足这些需求:跨地理区域和设备收集数据并将其存储在集中的信息库中。还有一点也非常重要,即,使工具能够通过各种协议(如SNMP、Modbus、BACnet等)与不同系统和设备进行通信,并允许设备及关联的仪表或传感器提供必要的数据。通过捕获这些信息然后使其可从单个显示板访问,IT和设施管理员可以更好地了解能源消耗和利用情况,并获得用于评估未来能效项目有效性的基线。根据所收集数据的粒度级别,这些可用工具的性能和影响可能也有所不同。一些公司可能还希望包括从现有系统(如楼宇管理系统(BMS))中收集的数据,以帮助从更广泛的角度了解整体能源消耗模式。最重要的是,数据收集不仅是运营能源管理过程的第一步,也是整个过程能够成功的关键一步。实时利用仪表、传感器和设备,查看电源、能源、温度、湿度、气流等。可以从BMS、PDU、发电机、CRAC单元、冷却器、IT设备和其他系统收集数据。通过IT协议及遗留协议与这些系统进行连接,从而从遗留系统收集电源和环境数据。经过轮询、计算、搜集和存储的数据不仅包括实时数据,而且包括历史数据,它们提供一个起点,这样当变化发生的时候,将有一个起点,由此测量变化的结果。图从多种设备收集数据并将数据汇集到全局视图中图数据中心能源概览视图数据分析既然已收集并存储了所需的数据,能耗监控过程的第二步就是分析这些数据点。要进行能源分析,最好同时使用标准指标和自定义指标。标准指标(如PUE、DCiE、SIEER、IT-PEW等)是很好的起点,但可能不足以实现提高能效的目标。在分析时需要区分两种类型的数据点:一种用于轮询,另一种用于计算,因而需要创建自定义指标。轮询的数据直接从设备、仪表、系统和传感器收集,而计算的数据则衍生自轮询的数据,是通过从单个或多个设备、仪表等进行比较或推断而得到的。计算的数据的一个重要优势是,不仅可以识别实时指标,还可以基于可用于建模和容量规划的计算来识别各种IT基础架构设备上的即时能源消耗情况。强化分析还可以自动控制对能源利用率的优化。分析负载分布、最多的违规领域、IT总负载、相关负荷等数据汇总以提供本地、区域和全局视图并且分析到详情状况实时状态监控的设施和楼宇规划视图图追踪系统的使用,例如PDU,并且允许查看备用容量的所在图数据中心精密空调温湿度数据图数据中心发电机组监控数据分析报告能耗监控将来自全异电源、冷却和IT系统的数据点关联在一起。它将它们合并起来生成像PUE这样的量度或其他自定的计算量度。这种灵活和粒度化报表为您的环境在发生变化前提供一种基线,并且在发生变化后监控它,而无需以估算和假设的所有数字为基础。这样帮助使得您的组织从减少中计算真实的ROI并且帮助提供资助其他效率项目需要的验证点。一些组织可能想向客户展示他们的IT服务成本。例如,对某些受管理的服务供应商,有真实存在的用电内部计费。其他组织可能想要向客户或部门显示消费或成本数据作为参考的目的,从而在为他们提供服务时提供更大的消费透明度。能耗监控可以用单击按钮的方式立即创建内部计费报表,节省时间和费用。它还提供了一系列其他的实时和历史报表,其范围包括“前N位”异常值报表和实时PUE趋势和报表。同时实时访问多个轮询和计算的数据点支持标准和自定义量度,包括:PUE、DCiE等关于组织内部或群组之间设备的能耗和成本的报告内部计费或“show-back”功能图允许使用标准量度和自定义量度追踪并报告能耗报警能耗监控通过智能报警功能可以自动识别异常并发送报警。本报警功能可以寻找和正常模式的偏离程度,表示更少的错误警报。系统向管理员提醒异常情况并且还可以集成通知IT管理系统和服务台。您的团队可以迅速评审历史报表,更方便地确定问题根源并解决问题。智能报警超越传统的以阈值为基础的报警,后者通常被怀疑给出错误警报。通过能耗监控可以使用高深的“时间超过阈值”或“偏离正常”报警技巧从而识别要求关注的模式。系统除了能够提醒人们,还可以集成多种其他系统从而整合其他管理流程的报警功能。高级报警功能可以帮助在事件成为危机之前识别症状超出时间阈值报警偏离状态报警和服务台集成从而生成事件并指派技术人员通过和CMDB集成进行影响分析能耗控制能耗监控通过自动调整物理设备对环境中的变化作出响应。例如,随着IT活动的大大增加,制冷系统也会相应地增加活动。可变频率驱动开启的风扇让系统在低速时保持优化,它可以自动增加活动从而将IT设备的温度维持在可接受的水平。当温度回落,不再需要提速,风扇速度就可以自动降低。自动和控制还可以延伸至虚拟环境中。当服务器上的虚拟机数量增加时,IT负载也可以相应增加。物理机器或安装那些服务器的机架也可能达到功率容量限制。能耗监控可以生成其他智能报警并且软件可以自动触发虚拟机向新的物理地址转化。使用CAecoMeter计算引擎进行的高级分析和使用能耗监控异常引擎产生的高级报警在有效触发这些控制方面扮演重要角色。物理控制,例如控制集成的VFD风扇虚拟自动化。通过集成,CA能源管理系统能够:在机架或异地之间移动虚拟机将机架的最大功耗控制在一定水平之内基于策略的电源管理与报警引擎和虚拟管理工具集成各类运维报表,监测资源利用状态IT监控运维系统提供了丰富的运维报表,包括预定义的统一运维报表。报表设计了IT的各个层面包括服务器报表、虚拟化报表、网络报表、数据库报表等。此外,针对报表的生成策略,提供了灵活的报表作业调度的功能。IT监控运维系统提供多种运维管理报表,尤其是即拿即用的统一运维报表。通过点击查看各类运维信息。运维报告可以导出为EXCEL、PDF、CVS、Flash等各类文件格式。XXX公司维护人员根据需要设置多种报告作业,如日报、周报、月报、季报、年报等。也可以根据需要,设置不定期的报告作业。个性化支持,提供自定义管理面板和报表统一管理门户支持多种个性化管理定制,通过报表和管理模板设计器,可以定制运维所需的各种个性化的运维报表的管理面板。性能报表设计器提供性能报表设计器,可以通过简单拖拽的方式,快速生成所需的新的运维管理报表。该报表的设计生成,无需编程,只需要通过简单的拖拽既可以实现。选择所需的数据,拖拽到下面的报表中,即可生成所需要的报表。修改报表标题,添加新报表,将报表保存后,以备以后直接查看。列表设计器通过列表设计器,可以实现定制各类设备报表,实现列表数据的展现。管理面板设计器通过管理面板设计器,运维人员可以设计自己所需的管理面板。IT监控运维系统提供管理面板的设计指南,并提供强大的设计功能。运维人员无需编程,即可以实现个性化管理面板的设计和生成。将生成的管理仪表板保存后,可以发布给相关的人员来使用。支持多租户,不同用户查看不同的内容IT监控运维系统支持多种用户权限和密码的管理,供运维人员选择使用。登录UMP后,点击账号和密码管理。既可以实现对不同用户的权限和密码的修改和管理。易用性,用户DIY管理风格IT监控运维系统功能灵活、易于使用,运维人员可以根据自己的需要,通过简单的添加页面和portlet,DIY具有自己管理风格的管理界面和管理内容。同时也可通过页面管理定制自己的展现内容和展现风格。重点问题分析开放的管理体系IT监控运维系统具有开放的管理体系,可以实现多个层面的系统集成,从而扩展管理范围和管理能力。IT监控运维系统支持通过CMDB集成的方式、网关的方式、基于WEBServiceAPI的方式、门户集成的方式来集成第三方监控工具,实现将第三方监控(例如空调、门禁、UPS或特定应用管理工具等)完全变为监控系统的一部分。此外,IT监控运维系统还提供了丰富的SDK开发包,支持SHELL、C、VB、J2EE、.NET、Perl等多种开发语言。扩展性IT监控运维系统具有良好的可扩展性,不仅提供了基于WEBService的API,还提供了丰富的SDK开发包,支持SHELL、C、VB、J2EE、.NET、Perl等多种开发语言。从而实现监控资源的二次开发。兼容性IT监控运维系统提供统一的事件管理平台,并提供多种兼容集成网关,既可以实现与CA自身的ServiceDeskManager服务台的集成,也可以实现与第三方服务台如BMCRemedy、HPServiceManager的集成。此外,IT监控运维系统还提供了基于WEBService的API和多种SDK开发包,允许通过接口开发的方式实现与基于ITIL的服务台和流程管理的集成。系统高度可配置IT监控运维系统自身可以安装在Windows、Linux、Solaris操作系统上,后台数据库支持SQLSERVER、MYSQL、Oracle等。IT监控运维系统的配置性极强,可以根据运维管理需要灵活的配置。所有配置手段都向运维人员开放。运维人员可以根据需要配置数据采集规则、预警规则、预警方式、以及用户报表和管理门户内容等。安全性安全方案的实现,离不开管理,所谓“三分技术、七分管理”。管理的有效性,可以解决许多技术层次解决不了的安全性问题。人员是管理的核心。日常的交互与操作安全管理,涉及到系统运作时的方方面面,它的基本原则是:要求发生在系统内的所有行为都是有定义行为,并且符合程序控制的要求,所有行为的发生都有审计记录。要实现对全网设备的安全管理,必须集中管理超级用户口令,这也是IT运维管理系统所必须的,同时要定期更改口令,并且采取建议的口令选择方式。IT运维管理系统除了自身的用户身份管理外,提供与LDAP等身份认证机制集成的用户身份管理接口,用户可以根据不用的监控人员身份,定义各监控人员的权限和性能监控界面。另外,对于IT运维管理系统本身,由于其特殊性,即具有管理其他网络设备和主机的权限,因此其自身的安全性更加重要,IT监控运维系统具有多级操作员权限控制,不同的操作员管理不同的对象,并且具有不同的权限。可以考虑特定的管理员只能管理职权范围内的设备,根据人员的多少,可以细分为各种业务的管理员,如系统管理员,数据库管理员。同时IT运维管理系统由于其自身的特殊权限,可以管理网上所有设备,并在被管理端执行命令,因此必须防止冒充管理服务器的行为,这就要求管理服务器与被管节点间必须采取相互信任的通信方式,管理端与被管节点上的代理程序Robot间采用加密的SSL通信方式,保证了管理信息的传输安全性。在数据采集中,IT运维管理系统支持无代理和有代理两种数据采集模式,从而大大提高了数据采集的安全性,降低了安全漏洞。另外,IT运维管理系统的管理服务器支持双机热备份的HA方式,保证在任何时候都可以管理,而且被管理端的Robot可以在主服务器失败时将信息发送到备份服务器,也可以定义在不同时间发向不同的服务器,保证在任何时间都有人在监控这些信息。CAIT监控运维系统的方案特点与优势丰富的同行业项目实践经验CA公司具有各行业IT服务管理项目的实践经验,熟悉各行业特点和IT管理要求。CA公司在IT服务管理领域的运营和实施方面有着丰富的实践经验、良好的信誉以及雄厚的技术资源,十多年来,CA公司已经成为百余家企业的IT服务管理和运营的战略伙伴,它们分布于30多个国家,涉及制造、电信、银行和电子等行业。其强大的技术实力可满足客户不同的要求,众多经验丰富的工程师和咨询顾问具备为用户提供深入广泛的多种服务方式的能力提供完整的IT运维管理系统建设规划,符合XXX公司建设发展的需要CA公司在大量的项目经验的基础上,形成一

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论