版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于智能算法的统一运维监控管理平台——助力湖北农信高效、智能、全面运维管理湖北省农村信用社联合社—陈胜项目概述项目概述目录·项目背景·项目目标目录建设内容·平台架构·创新特点·智能运维场景项目成效·项目价值·总体收益项目背景项目背景手机银行/网银、支付、信贷管理系统等,它们采用不同的技术架构(包括传统架构与云计算、微服务架构)和多种操作系统、数据库及中间件,相互关联且交互日常运营产生海量的运维数据,包括交易日志、系统日志、网络流量数据、用户行为数据等,数据格式多样且增长迅速。传统的数据处理方式难以满足实时分析和深度挖掘的需求,导致潜在问监管机构对银行强监管,对系统稳定性、数据安全性等方面有极高要求。任何系统故障或安全漏洞都可能引发严重后果,如客户信息泄露、交易中断等,因此运维管理需确保系统始终符合监管为保障业务正常运行,银行投入大量人力、物力进行运维,但传统运维模式主要依赖人工操作,随着业务竞争加剧,银行需要在保障服务质量的前提下,优化运现状与挑战现状与挑战信创环境、信创软硬件的陆续使性信创环境、信创软硬件的陆续使性手机银行/网银,聚合支付等业务从农信银回迁,对系统运维和手机银行/网银,聚合支付等业务从农信银回迁,对系统运维和现有监控工具老旧、出现告警不云计算、分布式和微服务架构,云计算、分布式和微服务架构, 项目目标 以数据为基础,以算法为支撑,以场景为导向平均故障间隔时间MTBFMTTRMTTR平均故障恢复时间平均故障平均故障修复时间平均故障修复验证时间平均故障发现时间故障定位故障定位智能异常检测全链路追踪全链路追踪MTBF平均故障间隔时间快速发现快速发现:发现的快-从单一告警到立体化故障发精准定位:定位的准-从多平台切换到统实现运维闭环管理建设目标建设目标资源全面监控实现对云上云下所有硬件设备、软件系统和网络环境的实时监控。资源全面监控实现对云上云下所有硬件设备、软件系统和网络环境的实时监控。0102统一日志管理对全行日志进行统一采集、处理、存储与查询分析,结合日志模式识别与日志异常检测等算法实现日志智能化管理。全面应用调用链分析全面应用调用链分析03集中告警管理04统一接入与处理多源告警消息,利用算法实现告警事件收敛、降噪、异常检测和根因分析,实现事件全生命周期全局管控。智能数据分析利用智能算法自动分析海量监控数据,快速准确地识别故障和异常智能数据分析利用智能算法自动分析海量监控数据,快速准确地识别故障和异常,减少人工监控带来的疏漏与误判,提高监控的准确性和效率。快速故障定位通过日志串联分析,实现对故障点的上下游关系的快速识别,缩短故障排查时间0605项目概述项目概述目录·项目背景·项目目标目录建设内容·平台架构·创新特点·智能运维场景项目成效·项目价值·总体收益基于智能算法的统一运维监控管理平台架构基于智能算法的统一运维监控管理平台架构闭环故障分析与处置基于日志模式识别的异常检测闭环故障分析与处置基于日志模式识别的异常检测场景全链路业务追踪场景全链路业务追踪采集基于指标体系的应用健康度评估……最佳实践和方案论智能运维成熟度模型运维指标体系管理运维数据治理采集基于指标体系的应用健康度评估……最佳实践和方案论智能运维成熟度模型运维指标体系管理运维数据治理用户体验与应用性能管理运维应用立体化监控立体化监控可视化展示可视化展示报告报表报告报表日志管理日志管理事件管理事件管理配置管理配置管理运维流程管理运维流程管理运维数据平台运维数据平台运维中台CMDBCMDB算法中心算法中心低代码平台低代码平台采控中心用户体验业务应用服务节点系统网络云平台三方数据源事件指标追踪配置数据三方数据源事件指标追踪行内应用传统/分布式架构应用云原生/微服务架构应用基于追踪开放标准的应用(OpenTracing等)行内应用基础设施:私有云/混合云/虚拟化/超融合/X86物理机/小机创新特点:一个门户、千人千面统一运维门户:整合基础设施监控、日志分析管理、应用链路分析、事件中心、算法中心等功能,实现跨系统、跨平台的全面可视化,提供统一的视角来审视整个IT环境和业务流程。千人千面:业务人员、一线、二线运维人员根据不同角色,分配不同运维权限。一线运维角色二线运维角色统一门户展示一线运维角色二线运维角色创新特点:基础资源监控全覆盖创新特点:基础资源监控全覆盖覆盖云上、云下基础资源资产监控覆盖云上、云下基础资源资产监控,提高IT设施的管控能力,为资源集中化监控和业务系统可观测能力提供强力支撑。资源对象监控指标阈值监控网络拓扑建设全面监控服务器、操作系统、数据库、中间件、网络设备、存储设备等基础资源。全面覆盖各类设备的监控指标,支持对指标阈值进行自定义设置。系统中展示自动搜索生成的物理连接拓扑图。创新特点:日志集中管理接入行内重要业务系统全量日志,日增2T日志量,进行日志串联分析,结合日志异常检测及日志模式识别智采用简洁、轻量、高效、稳定、可扩展的技术架构,可以兼容ES、双引擎;采用基于列式存储数据库Clickhouse,在数据写入、响应时间、部署规模、高可用等各方面具有良好的表现,能够满足各种业务场景下日志存储的需求基于日志的链路分析全量日志检索分析基于日志的链路分析全量日志检索分析创新特点:重要业务系统链路全覆盖创新特点:重要业务系统链路全覆盖基于旁路报文数据基于旁路报文数据,构建业务全路径实时性能监控体系,构建数据中心业务性能第一感知源云上业务系统云下前置核心云上业务系统外联机构创新特点:立体化监控管理创新特点:立体化监控管理集成已有监控工具(基础监控、集成已有监控工具(基础监控、NPM、BPC、云平台监控等构建统一监控能力,提供系统健康度评估和展示。通过指标、告警、日志、业务调用关系、资源依赖关系等进行多维度监控分析,丰富监控和故障分析路径,保障业务持续稳定运行。①服务日志数据②资源指标数据⑤拓扑统一展示覆盖18套重点业务系统覆盖18套重点业务系统数据整合l汇总资产、日志、指标、告警四类数据展示系统拓扑;l统一界面实现日志分析、指标查看、告警监控;③日志指标数据④各类告警数据创新特点:统一配置管理创新特点:统一配置管理CMDBCMDB配置管理:将传统线下资产和云上资产进行统一管理。为运维可视化、业务可视化、数据分析等场景,提供数据支撑。①云上、云下资产资产覆盖率100%;②共建设近百个模型,主要包含业务资源、软件资源、硬件资源3大类8子类模型分类。属性信息关系信息台账搜索资产台账属性信息关系信息台账搜索资产台账创新特点:生产事件闭环管理创新特点:生产事件闭环管理统一接入基础监控、NPM、统一接入基础监控、NPM、BPC、互联网金融云、楚天农商云、系事件——工单闭环管理运维流程管理:以ITIL4、ISO20000为基础,适应湖北农信数字化转型中新的业务发展与IT架构的特点,打造规范化、流程化的IT运维流程管理体系;完善事件、问题等标准管理流程,建立事件到工单的闭环管理过程。灵活的表单设计拖拽式流程设计领导驾驶舱领导驾驶舱创新特点:核心业务数据可视化展示创新特点:核心业务数据可视化展示全省业务大屏全局视角建设从顶层到各区域业务数据大屏全省业务大屏全局视角建设从顶层到各区域业务数据大屏,关注行内五类核心业务数据,提升行内数据价值和市场敏感度,实现了业务数据的全面可视化和精准管理。 全局事件展示省内各区域核心数据,把握整体业务状况聚焦核心区域洞察 聚焦五类核心业务,实时展示核心指标数据聚焦核心区域洞察 按各区域展示详细的业务数据,制定针对性的市场策略市场拓展 对比区域差异,识别潜在市场 按各区域展示详细的业务数据,制定针对性的市场策略市场拓展 对比区域差异,识别潜在市场,促进区域协同发展 为战略规划制定、调整提供数据支持和决策依据 为战略规划制定、调整提供数据支持和决策依据智能运维场景-算法中台强大算法能力为运维平台智能化场景赋能,助力智能运维场景落地,减少问题发现和故障排查的时长(MTTR提升检测准确率和运维效率。7大类共32种算法及72种开箱即用算法泛型全力支撑可观测平台核心场景。告警降噪单指标预测告警降噪异常检测多维指标分析根因分析与推荐异常检测多维指标分析抽象能力开放的平台抽象能力开放的平台统计能力场景能力统计能力场景能力集成能力工程化能力扩展能力管理能力集成能力工程化能力扩展能力管理能力算法中台提供了丰富的算法,开箱即用,支撑丰富的运维场景。 算法中台配置数据执行算法泛型应用实践过程 算法中台配置数据执行开箱即用的算法库新建实新建实验查看结查看结果管理算法泛型管理算法泛型调参优调参优化发布算法泛型新建数据源场景管理发布算法泛型新建数据源场景管理数据中台智能运维场景-数据中台指标数据追踪数据配置数据监控数据以运维数据为基础。通过集中数据采集、数据处理、数据存储、规则模型、顶层场景设计,形成运维场景各层级应用系统的调用关联,做到端到端覆盖,利用智能算法平台,形成业务场景全链路业务追踪、健康度、多维分析IT指标、业务层级拓扑的立体化监控。指标数据追踪数据配置数据监控数据集成模板采集集成模板采集指标采集配置采集数据管道数据管道流式计算批量计算任务编排数据建模运维数据库配置数据全链路追踪可观测全链路数据分析全链路统一告警数据服务API智能运维应用其他数据源数据规范数据质量其他数据源数据规范数据质量数据安全全链路多视角分析能力,快速定界、定位全链路多视角分析能力,快速定界、定位拓扑,联动指标、日志、告警、变更等多维数障根因分析路径,快速定界定位。智能运维场景-全链路可观测及故障定位智能运维场景-基于日志算法的故障发现智能运维场景-基于日志算法的故障发现在多类型的日志模式中在多类型的日志模式中,无需设置,自动发现新增的日志模式,监控日志模式趋势,如遇到异常,系统及时给出告警提示,辅助客户快速发现问题根因。据据模型训练模型训练异常检测异常检测噪音特征-降噪分析相似性/ACLevens降噪算法相关性/AMDrain噪音特征-降噪分析相似性/ACLevens降噪算法相关性/AMDrain降噪算法因果性/ACFrepm降噪算法噪音特征-降噪场景智能告警定级根因分析/定位/推荐智能检测风暴智能运维场景-告警降噪 集 集AI智能降噪过滤条件27149条规则压缩AI智能降噪过滤条件27149条规则压缩9272条集成数据源原始告警270w+条1W/S智能运维场景-单指标异常检测智能运维场景-单指标异常检测提炼指标静态阈值/同环比阈值提炼指标 静态阈值/同环比阈值提炼指标静态阈值/同环比阈值提炼指标 原始告警智能化算法 原始告警智能化算法原始告警原始告警 静态阈值/同环比阈值监控工具指标 监控工具指标→监控工具指标 监控工具指标→ 智能化算法
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 高铁乘务员个人工作计划
- 2024年盐业行政工作计划
- 2024年四年级下学期工作计划范文
- 精教科研工作计划
- 质控中心工作计划科室质控小组工作计划例文
- 万能英语教学个人计划
- 2024年护理部工作计划表
- 公司企业个人工作计划范文
- 一日计划学后感想
- 政府信息公开工作计划
- 山东省济南市历下区2023-2024学年八年级上学期期末语文试题
- 2024年完整离婚协议书下载-(含多款)
- 探针台行业分析
- 嵌入式工程师大学生职业规划发展报告
- 2024年安徽省高中学业水平合格性考试英语试卷试题(含答案)
- 徐州市2023-2024学年八年级上学期期末英语试卷(含答案解析)
- 供应链风险管理报告
- 《科技节主题班会》课件
- 2023-2024学年广东省佛山市顺德区七年级(上)期末数学试卷(含解析)
- 江苏省徐州市2023-2024学年七年级上学期期末语文试题
- 国家标准《建筑设计防火规范》2018修订版
评论
0/150
提交评论