2022年IT监控运维管理平台建设方案_第1页
2022年IT监控运维管理平台建设方案_第2页
2022年IT监控运维管理平台建设方案_第3页
2022年IT监控运维管理平台建设方案_第4页
2022年IT监控运维管理平台建设方案_第5页
已阅读5页,还剩31页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、IT监控运维管理平台建设方案PART 01IT监控运维现状及痛点对企业IT监控运维的基本认识IT系统架构机房环境硬件设备网络中间件业务数据系统应用IT监控运维业务运营人员方法流程工具可用性成本连续性性能体验设备故障系统异常系统故障系统变更企业IT监控运维的核心使命就是保证企业业务的正常与高效运转系统监控维修更新业务保障应用反馈企业信息与数字化的迅猛发展,给IT运维带来了全新的挑战故障类型越来越多业务变化越来越快CIO业务中断容忍度更低用户体验要求越来越高系统变更越来越频故障排查、修复更难系统架构越来越复杂系统负载更大、故障风险高新系统上线越来越多业务访问量快速增长业务处理时效性更高高层对IT部

2、门考核更严技术快速演进与新技术应用人员技术能力与经验不足人员成本越来越高知识经验无法沉淀构建主动式的IT监控与运维将成为必然所趋被动救火式维护主动巡防式监控定时粗略巡查等待故障报告人工故障处理实时全面监控分散维护系统集中监控系统自动故障处理提前故障预警随着业务对IT运维提出的要求越来越高,原来传统的被动救火式的IT运维模式已经不能满足企业的要求,无法为业务的发展提供保障只有借助当前先进的技术,构建主动巡防式的IT监控与运维体系,能够提前预防并智能化处理系统的各类故障,才为业务的快速发展保驾护航,满足企业对IT的要求高风险低评价离散化人工化低风险高价值一体化智能化企业当前IT监控的现状及痛点1应

3、用现状复杂的智慧社区,其次是WLAN,其他基本是单体应用2监控现状目前,基于zabbix,做了硬件资源和中间件调用缺少应用层监控3异常处理现状异常发现方式通过人工拨测 应用级异常无监控形式数据库监控缺少手段、内存泄露被动式维护模式故障发现不及时故障处理效率低故障对业务影响大系统运行风险高运维工作量大服务满意度不高PART 02IT监控运维解决方案总体思路全面性从基础设施、主机、虚拟机、容器集群、日志、调用链全面具备监控能力提供多种的监控指标的采集能力及办法自动化具备监控脚本部署的自动化部署监控主机的监控端口自动发现能力平台化加强平台化,所有监控指标统一处理简化监控技术栈,降低运维难度业务视角从

4、业务视角分析故障从业务的视角来分析故障带来的影响解决方案构建智能化IT监控平台,建立主动式IT监控运维模式人员支撑运维工程师技术工程师CIO业务主管运维主管信息推送工作支撑数据采集故障探测采集信息应用服务中间件底层系统基础设施业务状态连接系统移动应用智慧社区视频监控WLAN系统数据采集异常检测主动预警信息通知邮件通知声音告警报告推送大屏展示可视展示主动告警智能IT监控运维管理平台数据采集探伤检测规则配置智能监控主动告警自动修复数据分析可视展示构建主动式IT监控运维模式的核心思路与方法目标:保障业务 & 提升能力 & 降低成本 & 彰显IT价值一体化建立统一的IT监控与运维体系平台化-集中监控精

5、细化全面、精细的监控提供多种的监控指标的采集能力及办法多维度从多维视角开展IT系统的监控与运维技术/业务/管理智能化故障定义标准化故障分析模型化故障巡检算法化自主化故障主动探测预警故障自动修复部署自动执行可视化实现可视化监控故障告警、处理、分析可视化展示基于统一平台,打造一体化监控运维体系,全面提升运维能力统一智能IT监控运维管理平台统一策略统一告警统一操作集中展示全面分析集中监控所有系统都纳入到统一个平台进行监控监控信息集中管理统一故障与指标定义故障的分析策略设置故障监控与预测策略统一告警能力支持统一告警规范设置集中告警策略配置统一故障告警处理统一故障自动修复处理统一自动部署操作统一信息可视

6、化展示统一的信息发布集中数据存储与管理集中的IT故障分析全面的故障与预警报告分析,优化IT运维知识沉淀、经验传递、能力提升精细化的监控是主动并全面识别、预防、处理各类故障的基础统一智能IT监控与运维平台Hypervisor虚拟化网络SNMPSDK中间件JMX/CLI存储SNMP/SMI-S服务器SNMPAgent数据库JDBC新资源协议操作系统网络流量流量分析硬件监控存储监控基础设施系统层中间层应用层业务层vCenteNagiosCactiZabbixPRTG对象内容层级工具对IT系统所包含的对象、资源与内容进行细致的分层与分类全面连接、监控各类IT资源与内容,全面采集数据不同类型资源使用不同

7、的监控与管理工具通过精细化的数据采集,实现对It系统的多维度、全面监控与运维细致的结构化内容分层,是实现精细化IT监控的前提业务层前端渲染、交易量、访问量、成功率、响应时间、响应笔数等应用层资源占用、服务存活时间、日志大小、端口存活、API调用情况、线程数等中间件层队列服务、数据库服务、缓存服务、配置中心服务等系统层CPU、内存、磁盘、进程数等基础设施层机房、网络、硬件等在精细化基础上从多个维度监控系统,保障业务的可用与连续T从技术角度发现故障从技术的角度来对系统运行状态进行分析,识别、预测并排除故障,保障系统可用。B从业务视角排除故障从业务的视角来分析故障带来的影响,排除故障,确保系统业务的

8、可用与连续性。M从管理视角分析故障从管理的视角来检查使用状态与分析故障,确保系统使用符合企业管理要求与规范。智能化的监控分析,识别故障并预测风险,构建主动运维能力智能化标准化算法化模型化建立故障识别模型基于体系标准库建立定义故障的数据模型确定每个故障、风险、问题的识别数学模型可以从不同维度(技术/业务/管理)建立多种故障识别模型梳理故障指标体系标准基于保障业务,确保系统正常运行的目标,梳理出金阿卡指标与故障体系标准构建监控指标库构建故障与风险类型库构建事件、问题与任务类型库设计故障分析算法基于故障模型设计自动故障与风险分析的算法创建IT监控与分析任务(监控的系统与内容)设置自动化算法的执行与调

9、度策略自动执行算法,识别、预测故障与风险基于实际效果技术优化、调整算法标准化程度、故障模型与算法设计的合理性直接决定项目成效标准化模型化算法化监控指标库风险故障库问题事件库模型库任务算法库调度引擎监控需求采集数据项定义故障定义风险调用关联设计加载NN建立标准、细致的IT监控指标库,实现一体化、精细化IT监控监控指标库主机监控CPU使用率内存使用率网络写入I/O磁盘使用率磁盘写入I/O网络丢包率前端监控页面性能监控接口性能监控数据库/中间件监控mysqlredismongonginxtomcathttpsoracle日志查询应用日志应用错误日志组件日志服务器日志主动的故障探测与自动的故障修复,极

10、大提升效率并降低风险主动探测+预防主动进行系统应用巡检和探伤检测主动预测故障风险进行潜在故障干预自动告警+运维自动告知相关人员故障与风险信息自动执行故障修复或系统部署等任务自主化监控运维平台在全面采集系统各项运行数据后,进行智能化的分析,可以及时识别出各类故障和故障风险,基于此平台会进一步采取自主化的处理方式,及时修复故障,提前解除风险,以保障业务的可用性和连续性。平台会主动对系统进行各项指标的探测和巡检,以便及时发现系统故障平台会基于智能化数据风险,给出故障风险预测提前判断潜在的故障,并进行主动干预,降低系统运行风险任何故障或风险信息,平台都会及时给予告警(支持邮件、短信、信息、声音、警灯等

11、方式),通知相关人员平台支持对(部分)故障进行自动的修复处理平台支持自动执行系统部署图文监控数据采集主动巡检探测自主化IT监控与运维总体流程平台具备了自主化IT监控与运维能力,不仅可以进行主动的伤探检测,还可以在发现故障或潜在故障风险后,进行主动的故障修复处理,实现整个IT故障检测与处理的全自动化。潜在故障风险自动告警智能引擎监控模型任务调度读取数据信息反馈IT故障问题主动故障修复主动干预处理预测识别监测发现处理日志报告基于告警策略自动进行告警基于策略配置基于策略配置执行修复任务部分故障无法直接进行修复处理,则平台会自动生成故障处理任务并指派给相应人员生成故障工单生成故障修复任务生成风险消除任

12、务部分故障直接分派人工处理故障过程结果反馈部分风险可以自主修复主动式的IT故障探测与系统状态巡检,保障业务的可用性可以利用自动化测试脚本,命令执行,调用接口、模拟操作等方式,主动对IT的各项资源以及业务系统的运行状况进检测,主动发现存在的故障与潜在风险,改变被动等待故障发生的IT监控运维工作模式,保证业务的可用性。IT故障的主动探测、系统状态自动巡检、业务可用性保障业务可用测试网卡主机磁盘交换机端口进程serverApp中间件数据库负载设备App发现问题主动巡检快速修复告警通知智能故障分析业务影响范围解决告警硬件可用探测系统状态巡检硬件状态巡检执行测试脚本执行检测命令调用服务接口模拟操作告警策

13、略配置告警内容模版告警联系人告警方式告警事件统一的告警策略配置,自动化监控告警,集中历史事件管理历史告警事件管理监控运维智能引擎可以在平台上配置统一的事件告警策略,包括:告警事情、告警内容、告警方式与告警联系人。平台在监控过程中,一旦发现符合告警策略的事件,即会自动发出告警,并将告警事件进行统一管理与分析。实时监控数据读取数据实时计算加载触发告警发现故障风险事件事件管理集中分析优化策略可以定义不同事件/风险的等级,然后根据事件/风险等级,设置不同的告警策略可以定义事件的告警方式,告警联系人员范围,告警内容等可以集中配置、更新、管理告警策略实现自动化IT运维,简化IT运维工作,提高运维效率利用平

14、台的自动化运维工具,可以将传统枯燥、重复的运维工作逐渐用机器自动化代替,例如磁盘自动清理据、数据定时备份、定期服务重启、应用自动部署等,无需人为参与,大大减轻了IT运维工作量。自动运维日志管理监控运维任务调度加载任务执行任务触发执行日志日志报告任务统计自动运维策略维护任务生效周期执行触发设置任务执行脚本任务目标定义加载临时运维任务手工新增任务使用策略自动生成周期性的运维任务系统巡检磁盘清理计划维护数据备份重启服务关闭服务应用部署快照恢复系统体检系统发布支持各种IT运维作业提供可视化的监控与故障数据分析及展示平台具备强大的大数据分析能力与展示能力平台将整合当前与历史监控数据进行深度分析,分析故障

15、特征,辅助发现问题根源平台将对IT监控数据全面的分析,定期输出分析报告,支持企业从传统运维统计转向智能运维分析平台具备强大的图形化数据展示开发能力,支持个性化数据展示开发平台支持各类图形化的数据展示并支持大屏设备提供数据与信息推送功能,支持各种方式的数据推送方式数据分析信息展示信息推送方案应用全景示意图打造主动式IT巡检运维模式智能IT监控运维管理平台IT物联网大数据云计算基础设施网络存储服务器数据库中间件应用服务业务应用WLAN视频监控智慧社区移动应用智能故障分析大屏统一监控快速故障修复信息推送与告警故障报告数据汇集深度分析发现故障/风险数据分析可视化展示信息推送报表管理指标配置故障模型算法

16、引擎监控任务故障处理调整算法查收报告整体监控信息配置处理告警处理故障设置任务数据采集主动探测告警、修复识别、预测实时任务定时全面多维智能方案应用价值示意图支撑企业IT监控运维的智能化升级搭建智能化IT监控运维平台以大数据分析能力支撑的智能化IT监控运维平台机器数据分析传统ITSM、APM、NPM、SOC、Cloud Management保障业务、降低风险、提升效率构建智能化运维体系自主化智能化多维度精细化一体化可视化本解决方案对于企业的核心价值被动式维护模式主动式监控模式离散一体局部滞后人工缓慢快速全面提前自动监控内容故障发现运维方式故障处理保障业务提升IT价值提升效率降低成本监控模式PART 03IT监控运维管理平台建设方案系统建设目标与内容优先监控四大平台:WLAN、智慧社区、视频监控、移动办公。视频监控和WLAN实现与硬件对接实现自动采集、自动监控、自动告警、自动运维修复、自动部署实现巡检规则配置,自动执行巡检,生成巡检报告搭建智能IT监控平台:搭建部一套智能化的IT系统监控运维平台,基于该平台实现对各IT系统集中监控与维护平台总体架构管理控制台大屏统一监控自动告警统一采集平台统一处理平台自动采集智慧社区WLAN视频监控移动办公自动监控平台功能架构数据源层数据采集层业务处理层展示层基础设施服务器虚拟机数据

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论