阿里智能化故障治理流程探索和实践_第1页
阿里智能化故障治理流程探索和实践_第2页
阿里智能化故障治理流程探索和实践_第3页
阿里智能化故障治理流程探索和实践_第4页
阿里智能化故障治理流程探索和实践_第5页
已阅读5页,还剩19页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、阿里智能化故障治理流程 探索和实践阿里巴巴故障治理背景介绍阿里巴巴全局故障治理流程基于AIOps的全局故障治理架构故障治理实战案例新零售/云计算等新业态给故障治理带来的挑战智能运维大图目录业务环境给稳定性带来的挑战业务数量巨大订单量49.1万笔/秒业务形态差异较大电商、金融、云计算、物流、新 零售、文娱、社交业务关联性复杂用户行为对业务的影响 应用调用链路复杂线上故障需要统一的治理机制业务故障统一发现跨BU故障协同处理故障的影响面及根因统一收口推送故障快速恢复需要 统一的机制要解决的问题:平衡监控准确率和召回率报警规则维护成本较大故障等级定义仁者见仁故障判断条件繁多千万级别的运维事件 哪些与业

2、务故障相关?跨BU故障如何定位根因快速恢复场景稍纵即逝 如何实时决策触发切换?如何快速响应并组织故 障处理阿里巴巴全局故障治理流程故障发现故障定级故障通告故障辅助 定位处理决策故障快速 恢复故障复盘故障演练业务流程基于AIOps的全局故障治理架构AIOps故障治理产品架构监控展示异常发现故障通告根因分析相关事件推送智能监控大盘智能基线多指标关联分析自动化通告智能干系人管理可疑应用分析多维下钻故障信息检索快速恢复切换故障自定义分析信息流转故障恢复故障治理生命周期故障治理实战案例故障发现故障定级故障通告故障辅助 定位处理决策故障快速 恢复故障复盘故障演练通告排查自动化通告核心故障秒级通告故障知识图

3、谱智能水位故障自定义分析人工故障通告人工根据故障 等级定义定级业务监控报警慢人工判断故障影响等级并组织通告内容发送一 般在5分钟左右人工判断影响 是否达到故障不可靠人的主观因素会影响故障判级,不能确保故障 通告时效SLA,通告文案可能有错自动化故障通告故障等级定义结构化智能基线计算跌幅数据预处理基线拟合平滑去噪声Modified STL滑动平均插值补缺故障自动定级 通告95%准确 快速发出业务量下跌count失败率跌至percent自动化故障通告自动化故障通告通过多条监控规则, 触发自动化故障通告生成自动化通告内 容,发送给业务方故障概述故障等级影响范围监控等级定义从分钟级通告到秒级通告故障发

4、生报警发出1-2分钟涵盖了大部分业务,在业务发生重大故障时,一 般最快可在1-2分钟内发出报警,3-5分钟发出详 细故障通告报警发出快慢与故障持续时长有直接的关系分钟级监控部分核心业务(如淘宝交易创建、支付宝交易创 建),一旦发生故障,等到分钟级报警发出,即 使立刻发出通告,报警发出之前业务已经产生巨 大损失故障处理需要争分夺秒减少故障损失缩短故障时长 加快报警发现改分钟级监控 为秒级监控核心故障秒级通告秒级指标波动大,传统报警策略误报多减少故障损失缩短故障时长 加快报警发现接入条件:监控指标每秒数据量级=500趋势预测异常发现通告发出10-20秒故障发生准确率:80%召回率:80%零监控配置

5、成本异常判 定孤立森林逻辑回归特征工程集成 策略时序分析N-sigma统计特征One-hot自动反馈调节机器学习智能异常检测故障知识图谱故障场景复杂多样,目前暂无法做到所有故障自动化 通告。存在大量人工通告人工故障通告,由值班同学根据平台提供的故障信 息,结合个人经验,组织发送给处理人。易出错2、通过非结构化的故障通告, 如何快速找到故障处理人?快速 发现历史相关故障帮助处理?rdma1、人工发送的通告,出错率10%。其中90%由错别字导致WHO?口错误通告示例故障知识图谱历史故障信息实体识别产品线、BU、人名、 关键词等实体抽取实体关系故障知识图谱新故障通告实体抽取智能纠错历史故障匹配 度查

6、询实体匹配度查 询原因初步怀疑为RDMA异常故障推荐干系人推荐实体查询人工通告错误率 减少50%智能水位多个系统指标映射为水位指标取值0- 100衡量应用实时容量通过水位发现业务容量瓶颈,提 供扩容依据不受应用扩缩容影响不受应用流量成分变化影响无需应用压测极限值作输入无需预先假设服务异常CPU临界值多维指标映射,部分权重为线性关系,部分为非线性(阶跃拉升):水位=w*cpu, load, T+f(disk, mem, )业务需求水位特点关键业务包含的应用成百上千,如何快速发现应用容量瓶颈故障自定义分析分机房指标 分析查看关联变 更基础设施故 障分析全链路应用 状态分析关联业务 分析监控、开发同

7、学根据经验排查异常容量问题排 查故障发生人工故障分析故障平均排查时间10分 钟,影响故障恢复时长排查结果受不同人影响 较大,不可控往往查询多个平台,影 响效率故障自定义分析多维下钻 分析变更分析跨BU基 础设施故 障分析全链路应 用分析关联业务 分析通用分析自定义分析故障发生分机房下钻分门店下钻变更大盘IDC/网络中间件智能异常检 测智能异常检测自动化故障 通告故障秒级通告监控组故障知识图谱智能异常检 测故障平均排查时间1分钟排查结论不受经验限制新零售给故障监控带来的挑战实体店故障给客户造成 的感受更直接高峰期、活动业务不可 用,易引发社会群体事件业务门店零散分布,中心 难及时感知故障及影响面

8、故障分门店下钻分析-及时启动应急预案故障分门店下钻故障定位 20Min2Min故障总时长减少4倍1/4云计算给故障监控带来的挑战ECSRDSSLBOSSCDN.监控 系统GOC故障应急无法统 一查看监控、报 警数据,故障处 理成本高报警发送云服务由于业务特 性,拥有大量个性 化基础设施,无法 统一监控统一监控网关ECSRDSSLBOSSCDN.监控 系统GOC报警发送Monitor GW抽象不同监控 系统报警/监控统 一查看监控查看提高故障应急效率通用参数特定参数智能运维大图AIOPS质量监控时序异常检测指标相关性分析报警收敛根因分析故障类型判定历史故障推荐可疑应用/事件推荐故障自愈自动化触发快恢脚本执行环境成本容量容量预测自动

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论