数据中心一体化综合运维解决方案_第1页
数据中心一体化综合运维解决方案_第2页
数据中心一体化综合运维解决方案_第3页
数据中心一体化综合运维解决方案_第4页
数据中心一体化综合运维解决方案_第5页
已阅读5页,还剩65页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、1数据中心一体化综合运维解决方案内容提要2财务一体化综合运维解决方案介绍一体化运维案例和演示中心现场答疑一体化运维中的故障处理闭环场景基础架构、业务和应用监控工具发现异常集中监控平台告警生成短信通知邮件通知告警清单告警面板监控平台与流程平台的集成运维流程平台告警分析生成工单事件管理流程事件处理完成1、工单关闭2、生成知识库告警恢复大屏实时展示系统健康状况告警统计分析报表工单统计分析报表问题管理变更管理其他流程自动化工具流程运转BSM一业务服务管理4应用数据库物理/虚拟系统网络中间件用户集中监控平台统一展现平台中间件监控业务影响管理统一事件平台统一性能平台网络监控主机监控数据库监控虚拟监控应用监

2、控自动化管理平台作业调度自动化操作平台操作任务管理操作权限管理补丁管理配置操作人工巡检系统装载版本规范合规审计流程管理平台事件管理问题管理变更管理发布管理配置管理知识管理服务目录服务水平服务请求运行管理CMDB业务模型服务目录自动发现调和联邦关键IT指标业务系统运行状况业务影响报表分析解决方案目录集中监控解决方案系统监控网络监控应用监控集中事件平台业务影响分析动态基线和智能阈值流程管理和CMDB解决方案统一展示门户Portal解决方案5基础架构监控范围6服务器数据库应用中间件网络其它UnixOracleSAP R/3MQSeriesFirewall存储LinuxSybasePeopleSoft

3、MSMQRouter其它可基于SNMP管理的设备Win-NT/2000/2003/2008SQL ServerOracle AppsMQSISwitchNetwareInformixSiebelWeblogic其它可基于SNMP管理的网络设备OpenVMSDB2 UDBBaanTuxedoAS400CA-IngresExchangeTXSeriesTru64ProgressJD EdwardsWebsphereOS Hardware MointorRDBTomcatMysqlApache/IIS主机监控支持平台广泛CPUFilesystemDiskSwapLogProcessNetworkNF

4、SADServicesHAErrpt(AIX)集成Windows性能计数器主机监控 服务监控(Windows)服务停止的时候产生告警事件服务停止的时候自动重启该服务监控该服务消耗的资源主机监控进程监控(Unix)在出现的界面上配置要监控的进程属性定义进程名字(标识符)定义进程关键字符串,该字符串必须是可以通过ps ef 命令检索得到的定义该进程数目的最小最大值,如果该进程名字是唯一的,都设为1定义告警状态主机监控日志监控日志监控配置属性界面日志监控Advance日志没更新告警设置监控日志大小日志权限改变监控日志更新时间监控Web Application监控支持WeblogicWebsphere

5、TomcatMQ通过JMX、PMI、Byte-Code Instrumentation 、JVM Profile等接口实现JVM的性能状况垃圾回收的情况吞吐量管理任务执行队列监控日志监控与管理EJB的监控Servlet、JSP、WebApp的调用信息JDBCJCAJMS的监控与管理JTA的监控与管理JMX日志的注册与通知机制Cluster环境下服务器属性的监控“Top N”的WebApp、EJB、Servlet和JSP以及SQLJVM操作系统进程资源的使用信息和服务器的网络活动信息数据库监控集中管理各种数据库(Oracle、Sybase、Informix、DB2、SQL Server等)管理数

6、据库可用性。支持双机模式预警式监控内置专家经验配置简单,自动发现数据库架构监控重要参数数据库状态实例状态表空间/数据库利用率性能参数(缓冲池,Buffer命中率等等)死锁检测日志监控连接数用户实时捕捉SQL语句设备硬件和存储备份的监控。与硬件和存储备份的管理软件做集成接口。14基础架构监控存储和硬件对虚拟环境的监控。VmwarePower-vmhyper-v等15基础架构监控虚拟机管理类shell的PSL语言,方便扩展,技术门槛不高。示例一:时间同步需求开发需求所有业务机器都要定时与时间服务器进行时间同步,如果时间差距超出阀值则告警实现通过Patrol的PSL语言开发知识模块实现。Window

7、s服务器使用命令:w32tm /stripchart /computer:2Linux服务器使用命令:ntpdate -d 216基础架构监控开发扩展系统部署支持分布式部署,便于适应用户不同的网络环境采用多探针的方式,穿透防火墙对不同的网络维护区域执行巡检作业。针对管理设备量和数据负载量相对较小的用户,也可以采用单机部署,减少硬件投入。部署方式适用条件硬件环境单机部署(将WEB应用、数据库、采集分析程序、接口部署于同一台服务器)采集设备量在300台以下2路CPU、双核2.0GHZ以上内存:8G以上RAID 1-5、硬盘:500G以上*31000M网卡*2单机部署适用情况及硬件需求:分布式部署适

8、用情况及硬件需求:部署方式适用条件硬件环境机群协作部署方式(采集分析程序部署于多台服务器)采集设备300台,或者存在跨区域的设备WEB应用服务器2路CPU,双核2.0GHZ内存:8GRAID 1-5/硬盘:500G1000M网卡*2数据库服务器2路CPU,双核2.0GHZ内存:32GRAID 1-5/硬盘:1T*31000M网卡*3数量巨大时可以考虑采用磁盘阵列采集机及分析服务器CPU双核2.0GHZ(分析服务器2路)内存:8GRAID 1-5/硬盘:500G1000M网卡单台采集机(采集设备限制=200台)。18资源纳管18资源自动纳管、分组操作主动发现被管理网络资源与配置信息,内部结构分级

9、、分组呈现,审计报告让资源变更尽在掌握中支持批量导入手段,丰富资源纳管途径性能监控1919设备级性能监视背板和端口管理2020丰富的设备背板监视支持设备背板仿真,直观监视端口状态、端口I/O(流量、误码、丢包、溢出包等)、SDH、光端口功率。系统已内置大量设备背板图,并且支持快速扩展拓扑管理21分级分层,区域定制区域拓扑逻辑拓扑物理拓扑通道瓶颈分析22端口流量趋势通过对链路数据采集,以获取管理链路的使用情况信息。提供自定义时间段的历史数据与统计数据查询,为日常运维及故障排查提供:峰、谷值及平均流量等多种分析数据支持。通过查看链路的使用情况,以确定在资源容量不足时,及时调整链路负载或是升级带宽。

10、端口流量统计列表端口流量趋势图协议状态监测23路由协议检测突破监控局限,实现设备间协议指标检测,满足网络割接前后路由差异分析的需求,快速定位路由故障。 支持自动、手动采集设备的路由表,及时更新设备路由信息。维护人员可以通过设备查看某设备路由,同时也可以在整个网络筛出指定的目标地址路由状况。路由检测指标:OSPF邻居数量OSPF邻居UP时间OSPF路由条数ISIS邻居数量ISIS邻居UP时间ISIS路由条数BGP路由条数MPLS LDP邻居数目任务结果集中告警更直观差异情况即时发现与基线配置的差异性保证配置文件变更历史可追溯消除割接疏忽确保配置保存规避风险启动运行配置对比模板配置基线对比历史配置

11、数据对比配置变更管理24配置变更及差异分析配置数据跟踪,及时掌握设备配置变更情况,实现配置变更历史追溯;通过周期性与触发式的备份机制,确保数据的完整性,支撑设备配置信息的快速恢复,减少业务损失;突出颜色标注,跟踪差异配置变更管理全局配置内容检索25提供在所有设备配置中的动态关键字(关键字可以是一个IP、一个VLAN、一个ACL、一条路由、也可以是一组端口、一段配置)检索功能,帮助人工对海量设备配置信息的排查;提供检索结果统计,确保配置下发的成功情况并避免资源的重复分配;自定义批量检索规则与检索结果26日志监视LOG日志实时接收自动分析:根据定义的告警筛选规则,自动筛选LOG,直观呈现所有规则集

12、检查结果,标志出告警内容。 手动分析:为事后分析而提供。从某段历史的日志中快速找到需要内容,为故障判断提供途径将LOG应用从被动转向主动通过关键字进行手动分析详情查看后续处理通过预置规则进行自动分析,将大大减少维护人员日志阅读工作量!自定义指标扩展高级巡检27作为日常巡检的扩展手段,提供个性化地巡检项目定义,无需程序修改即可满足后续维护功能扩展需求;规则提供导入导出,实现全国IP承载网维护经验共享,功能不再固化,使用者同时也是开发者。灵活的规则定义与指令扩展模拟人工方式登录操作设备指令信息的自动捕捉与处理单一与多个巡检指标规则的导入导出,实现经验共享1、如何做到对不同厂家的设备通用支持?2、如

13、何将维护经验固化、沉淀?3、如何实现经验的共享?界面化的规则制定,操作更直观规则备份与恢复常用报表28 多角度分析网络现状,形成:故障报表、TOPn报表、峰值报表、性能报表、热点报表、工作日报表 打造行业内领先软件服务企业社价值员工舞台故障报表TOPN报表性能报表报表树 应用监控日趋重要常规的监控手段难以监控到真正的应用故障。基础架构监控日趋稳定,运维管理水平提高,基础架构故障对应用的影响日趋减少。应用管理越发重要。现在的用户更关心整体的服务性和可用性,而非单点故障。如何知道哪些应用慢?如何知道慢在什么环节?是什么导致应用如此长的响应时间?防火墙ApacheWebSphereWebLogicC

14、ICS数据库主机WEBWEB中间件通过业务监控可以更加有效了解业务服务质量,结合系统监控提高服务的稳定性主动模拟仿真用户业务交易主动式应用监控-模拟用户应用操作场景31主动性监控网站访问可用性及性能监控32主动性监控网上订单交易响应时间监控通过模拟仿真,从用户角度对业务健康度进行监控透明不会对代码、服务器和内容进行修改无延迟可以工作于HTTP及HTTPS模式被动式应用监控-实时用户体验监控可以直接从上图列出目前数据分析时进行的session.从下图可以看到,在上述分析的时间段,共有1551个session运行,并且在各个session中都存在server(SV)错和应用错(AP)。中石油规划总

15、院门户网站诊断从分析报告中也能够快速地了解到经常出现问题的页面中石油规划总院门户网站诊断进一步分析,可以看到,实现该应用交易的数据流,从代码分析页面,可以迅速地定位到执行该交易的交易代码,可以发现,该交易在http请求链接数据库的时候花费了很长时间,并且没有完成正常的数据库链接操作结论:对该交易进行session定位,可以看到该交易相关的session由于之前的后台数据库请求问题,而导致请求超时,,提交诊断结论给用户进行优化。中石油规划总院门户网站诊断集中事件管理 BMC Event ManagerEvent Processor对来自平台、应用等的事件进行统一集中处理对事件进行分类、分级、过滤

16、、丰富、关联、自动升级、响应自动产生故障工单,启动故障处理流程支持高可用性架构NetworksServerApplicationsDatabasesNT & Unix Log filesevents sourcesSNMP traps010010111011Plus ModulesPATROLOtherEvent Processors开放集成接口通用数据采集接口(性能)Web Services APIMonitor WizardsScript wizardSQL Query wizardJMX wizardWindows Perfmon/WMI wizardSNMP wizardData Vi

17、ews第三方产品接口(性能)CA UniCenter TNGHP Business Availability Center (BAC) HP Operations Manager (OVO)IBM Tivoli Monitoring (ITM)Microsoft MOM/SCOMVMware (vCenter, ESX, ESXi)Gomez Performance Network (GPN) serviceKeynote Website Perspective Keynote Transaction Perspective数据采集接口(事件)SNMPLogfilesTCP/UDP clien

18、t/serverTelnet adapterWindows Event LogCommand lineC API (iiSDK) - Client and server APIWeb Services API - Client and server API第三方产品接口(事件)CA UniCenter TNGHP-OpenView Network Node ManagerHP-OpenView OperationsIBM NetCool OmnibusMicrosoft MOM/SCOM Tivoli TECTL/1第三方产品接口(事件外发)CA UniCenter TNGMicrosoft

19、MOM/SCOM HP Service ManagerHP OpenView Network Node ManagerHP OpenView OperationsTivoli TECDatabases与流程平台的双向集成预警和智能过滤41业务有忙有闲,我如何设定一个合适的阈值, 反映业务的“正常”状态 太低, 业务忙时频繁报警,烦 太高, 告警的时候已经很严重了,有风险智能动态基线自学习,“理解”业务的潮涨潮落,直接利用性能历史数据,动态调整阈值“异常模式”识辨 可自定义的”学习粒度” (小时,天,星期)13:25:00 5:50:2012am 2am 4am 6am 8am 10am 12p

20、m 2pm 4pm95%50%25%5%75%AbnormalityDetectionDynamic Baselines 警告严重42动态基线和智能阀值动态基线针对运行有固定规律的性能指标,收集特定时间段的被监控属性值,计算得出的一个低基线值和高基线值组成上下基线,并随时间的推进进行加权平均,基线的准确度随着时间的前进会逐步提高。43Typical Static Thresholds95%50%25%5%75%Abnormality DetectionDynamic Baselines MinorMajor智能动态阀值,提前预警动态基线和智能阀值44动态基线和智能阀值消除告警风暴、提高事件命中

21、率!Upper BaselineLower BaselineNormal Behavior45动态阀值效果示例深圳BEA的基线实例基础架构和业务应用的关联影响服务模型ApplicationDatabaseSystem NodeSystem NodeIT or Business ServiceBusiness Process 1Business Process 3Business Process 2User group1IT部件逻辑部件企业管理技术事件2. 业务故障的根源是什么?21b. 故障的优先级如何?11a. IT故障会影响哪些业务?“模型设计”三要素 对象+影响关系+事件CMDB服务影响

22、模型事件影响关系对象48具体IT架构的告警会反映到业务系统,显示影响关系和影响程度业务影响解决方案目录集中监控解决方案系统监控网络监控应用监控集中事件平台业务影响分析动态基线和智能阈值流程管理和CMDB解决方案统一展示门户Portal解决方案49解决方案目录集中监控解决方案系统监控网络监控应用监控集中事件平台业务影响分析动态基线和智能阈值流程管理和CMDB解决方案统一展示平台(Portal)解决方案50很多企业的IT管理现状是这样的报表系统业务运营系统资源管理系统XX运营系统应用监控灾备系统网络监控环境监控主机监控IT运维流程系统服务水平管理安全管理配置管理系统客服系统各运维系统分散,缺乏集中

23、操作手段运维信息很难关联性分析,无法提供综合的分析报告缺乏个性化界面和统一操作方法,增加操作难度账号信息在各系统独立管理,重复记录和认证、多点维护、带来系统安全隐患移动化支持。旧有系统不一定支持移动终端的数据呈现XX业务系统业务运营系统报表系统服务水平管理安全管理系统客服系统业务配置系统应用监控资源管理系统网络监控灾备系统环境监控IT运维流程系统主机监控IT管理的入口-Portal系统建设了Potral以后,IT的集中管理可以是这样的:集成为手段 数据为基础 用户为中心 数据综合挖掘 统一报表 呈现 个性化门户 人员组织统一管理 统一鉴权所以,我们可以对Portal进行定义Portal是一种W

24、EB应用,以集成为手段、以数据为基础、以用户使用为出发点,建立IT的信息管理门户。Portal是一个IT管理的入口,把各种业务数据、管理数据统一集成到一个平台,根据每个用户使用权限和角色的不同,形成个性化的应用界面.53模块组合式的门户平台54架构的高扩展性按照Portal规范设计,具备良好的扩展性,在符合规范的前提下,通过不同的接口方式,提供多种手段帮助企业集成各运维系统,以保障企业后期的扩展,使企业的投资更有保障性以PORTAL技术搭建运维门户Portal在IT管理中的适用场景/Portal的功能目录2022/8/1555安全管理移动办公协同办公个人待办常用入口变更通知用户接入管理设备接入

25、管理移动终端访问移动审批专属页面订制领导驾驶舱个人主页大屏展示运维管理性能管理告警管理微信推送系统接入管理资源管理资讯发布企业公告流程管理功能目录下的子项是Portal系统的各个独立的模块。针对不同用户的需求,可以将不同的子模块进行组合,形成对口该客户需求的Portal解决方案调度管理容量管理交易管理云管理云资源管理云服务目录云操作管理云用户管理数据管理大数据平台对接数据仓库对接日志工具对接统计分析视图管理机房管理功能目录-运维管理定位:Portal不是细分领域的运维工具,Portal集成各工具的数据和业务的数据,最终做数据处理和数据呈现。告警管理:性能管理:资源管理:流程管理:调度管理:容量分析:交易管理:机房管理统计分析:视图管理:56对接专业运维工具,进行数据抽取/复制后呈现对原始数据进行统计分析,以报表、视图等方式呈现功能目录-云管理用户通过云Portal可参与整个云的生命周期管理。云Portal完全屏蔽后台,用户可通过Portal实现对云平台

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论