智能故障预测与应用健康管理实践_第1页
智能故障预测与应用健康管理实践_第2页
智能故障预测与应用健康管理实践_第3页
智能故障预测与应用健康管理实践_第4页
智能故障预测与应用健康管理实践_第5页
已阅读5页,还剩31页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、智能故障预测与应用健康管理实践技术创新,变革未来目录OPS的目标 & 工作1Qunar运维演进2Qunar的实践4故障预测与健康管理(PHM)简介 & 方法论3前景与问题5OPS的目标减少应用的故障产生快速修复故障OPS的职责围绕这个公式展开的可用度 = MTBF / (MTBF + MTTR)MTBF:平均无故障工作时间。在规定的工作环境条件下开始工作到出现第一个故障的时间的平均值。MTTR:平均修复时间。是指可修复产品的平均修复时间,就是从出现故障到修复中间的这段时间。已发生 的故障精确定位有效隔离快速解决如何应对故障未发生 的故障容量预测故障预测健康管理目录OPS的目标 & 工作1Qun

2、ar运维演进2Qunar的实践4故障预测与健康管理(PHM)简介 & 方法论3前景与问题5Qunar运维演进效率低,无法有效审计OPS人工处理人人工工/半半自自动动业务方提工单/邮件,人工审核运运维维自自动动化化CMDB(OPSDB)监控平台(Watcher)独立领域自动化工具/平台审批工作流IM(Qtalk)操作无法标准化、脚本/工具无法收敛、知识无法沉淀通知业务方、业务方Check不及时,阻塞OPS并发执行任务,沟通成本极高PPoorrttaall资源、CI/CD、监控、日志、基础服务集中管理统一入口、统一认证/授权应用全局唯一标识(appcode)基础运维数据同步共享应用全寿命周期管理手

3、段和策略故障事后处理故障review整改措施&追踪故障知识库故障实时发现事件关联根因分析快速定位/止损故障预测目录OPS的目标 & 工作1Qunar运维演进2Qunar的实践4故障预测与健康管理(PHM)简介 & 方法论3前景与问题5PHM历史沿革故障预测与健康管理(Prognostic and Health Management,PHM)NASA提出VHM飞行健康监控进化为ISHM综合系统监控管理JSF项目的启动大大推动了PHM的发展PHM应用领域PHM应用于互联网领域的探索目标一致理论完备技术满足大数据实施流处理,机器学习人工智能普及化避免失效,提高应用可靠性理论界成熟的理论支撑,工业界充

4、分的实践验证PHM方法论 流程PHM方法论 模型基于故障状态信息基于异常现象信息基于使用环境信息基于损伤标尺信息PHM方法论 要求01及时性要求预留足够的维修保障时间经济性要求预测成本 故障损失02可评价验证结果有效性必须可量化验证03目录OPS的目标 & 工作1Qunar运维演进2Qunar的实践4故障预测与健康管理(PHM)简介 & 方法论3前景与问题5故障预测流程1 指标采集2 数据预处理3 故障诊断6 用户反馈5 健康状态通知4 故障预测预测指标的选择基础监控指标 业务监控指标基础报警业务报警中间件日志系统日志业务日志应用关联关系运维事件完整、客观真实、有效故障预测03 预测模型指标趋

5、势预测 时序异常检测 事件关联分析04 故障知识库故障场景匹配 运维经验01 策略&阈值静态阈值设置 动态阈值设置 指标检测策略02 历史数据比对短期环比 长期环比同比同比振幅故障预测示例 动态阈值(移动平均值)故障预测示例 静态阈值(差分)故障预测示例 环比历史数据故障反馈自上而下的建 立规范和制度。 提高全员对可 靠性的认识。通过技术手段 建立多种方便 的反馈渠道。对反馈分类, 对有效需求进 行处理,甄别 无效需求的内 涵。对有效反馈快 速处理,有效 的将处理结果 呈现出来机制健全渠道畅通响应及时反应迅速健康看板健康档案运维事件时间轴关联拓扑图基石 之 appcode应用唯一标识全局唯一无

6、层级关系统一标识各种资源全生命周期跟踪关联运维事件记录运维操作触发运维事件关联appcode关联监控指标业务指标关联基础指标关联关联报警所有报警必须关联 到appcode。明确 报警有何处发出, 被何人接收。基石 之 分级业务分类订单类业务核心业务服务基础服务应用分级业务重要性 (P1-4)报警分级WarningCriticalUnknown运维事件分级对应用健康的影响(L1 - 4)基石 之 报警有效性要求:报警作为预测的重要指标必须准确和独立现实:滥设报警:不知道应该设置什么报警于是什么都报无效报警多:什么都报 = 什么都没报报警规则不更新:业务发展+技术迭代后没有及时更新报警规则报警接收

7、人不清楚报警来源:人员交替没有做好报警交接工作对报警-Bug之间的关系理解模糊:监控&报警并不能替代QA与责任心观念错误:一键傻瓜式的报警设置是不存在的解决:关联Appcode:明确报警来源,明确报警接收人,明确报警管理者 监控长时间没有结束的报警:调整报警设置 or 人员培训提供各种报警设置方法:单指标、多指标聚合、同比/环比、函数、组合 教育&培训基石 之 故障记录故障Review原则和制度确定参加人员有时限要求故障级别、责任部门最终确认找到根本原因形成改进计划故障故障统 故障存档计分析演练和培训建立故障管理制度和流程发现故障申报故障通报故障故障跟踪故障总结跟进故障改进故障上报标准化标准上报表单接受上报故障自动化 故障机器人故障级别和升级根据故障特征和损失程度对故障划分级别根据级别规定解决时限和动员范围超过时限仍未解决或损失扩大进行故障升级目录OPS的目标 & 工作1Qunar运维演进2Qunar的实践4故障预测与健康管理(PHM)简介 & 方法论3前景与问题5PHM在互联网行业的问题业务变化快商业形态变化快技术更新快人员流动快缺少理论支撑重实践轻理论不能形成总结不能持续改进方向选择随意缺少交流不知道不愿意没渠

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论