阿里飞天平台智能运维创新实践_第1页
阿里飞天平台智能运维创新实践_第2页
阿里飞天平台智能运维创新实践_第3页
阿里飞天平台智能运维创新实践_第4页
阿里飞天平台智能运维创新实践_第5页
已阅读5页,还剩18页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、阿里飞天基础设施智能运维创新实践技术创新,变革未来01飞天基础设施业务介绍02飞天基础设施智能化进展03针对稳定性提升的智能化实践04总结 &展望飞天基础设施业务大图向基础设施全新的运维模式演进-AIOps所有操作线上化规范,效率,数据积累过程结果数字化透明,可衡量,智能化的基础分析决策智能化准确,高效,全局优化飞天基础设施技术演进路线自动化数字化智能化01飞天基础设施业务介绍02飞天基础设施智能化进展03针对稳定性提升的智能化实践04总结 &展望DC-Brain:飞天基础设施智能运营决策平台规模应用落地场景集群和服务器智能化运维大规模计算系统供应链智能化数据中心智能化运维供应链智能化整体方案

2、:针对供应链特点,打造需求、运营、分析、决策智能化方案实现数据驱动、基于算法的需求预测、库 存优化、TCO分析和优化自动闭环环境:打通自动化工具和系统平台与智能化算法 的闭环系统为未来进行先进AI算法和系统探索、部署奠定基础数据中心智能化运维目标:针对数据中心电热性能进行优化包括:冷量预测控制、Power预测控制、IDC电热感知、PUE优化等对现场运维进行智能化改造 包括:多媒体信息处理巡检、安防视频识别、工单智能派发等集群智能化方案:提升集群和服务器的稳定性和可靠性包括:服务器和部件故障预测,跨域关联, 根因分析,规则生成提升集群资源利用率和流转率包括:集群资源异常检测,关联分析智能决策01

3、飞天基础设施业务介绍02飞天基础设施智能化进展03针对稳定性提升的智能化实践04总结 &展望云的稳定性是客户关注的重中之重超过半数的全球财富500强企业,每周至少会经历超过1.6小时 【2】的服务不可用时间美国67个数据中心,平均宕机成本代价是 $9,000/分钟【1】阿里云始终把稳定性和安全性放在第一位并且不断尝试采用先进智能化技术,提前发现,主动解决问题。Reference:【1】https:/globalassets/documents/reports/2016-cost-of-data-center-outages-11-11_51190_1.pdf【2】https:/www./opi

4、nions/how-predictive-maintenance-can-eliminate-downtime/集群资源 智能探查集群利用率异常检测低水位和闲置智能判断和预警服务器&部件 故障预测智能管理&修复集群自动管控故障智能化在线修复决策集群和服务器智能化布局硬盘故障预测内存宕机故障预测根因分析实现从专家规则-智能分析的演进实现问题和故障的处理方式,从被动响应-主动发现-提前预测集群和服务器智能运维大量的数据缺失和噪音如何有效构造时间序列和序列数据特征数据样本极不均衡正样本占比 远小于 1%高效、快速检测数据分布和特征重要性变化提供长期稳定预测噪音&特征数据不均衡动态可适配预测性维护关键

5、技术挑战Density120140.8201520160.6201720180.40.20100101102Raw Values103104实践1: HDD故障预测数据 不均衡动态 可适配噪音&特征年化故障率1%按天预测,故障样本比例为 万分之0.30.8标注方案非标准化数据(特征)噪音 + 标注噪音故障类型占比分布发生变化重要特征分布发生变化重要特征数据分布变化典型故障分布占比变化三大核心挑战0.20100101104102103Raw ValuesDensity20142015201620172018RODMAN:A robust disk failure predic

6、tion management pipeline整体解决方案Bayesian Change Detection检测变点发现Pre-failing状态并增加正样本提前发现模式突变点,进行预测正常硬盘 Vs. 不同类型故障硬盘 关键指标对比特征 工程统计特征针对时间序列数据多种不同维度统计特征生成专家知识结合专业领域知识, 进行特征构造模型生成采用深度学习进行特征构造多种特征工程方案Rodman与业界方案对比RGF:KDD 16RF:ATC 17误报率FPR 0.04% 条件下,A1硬盘故障预测覆盖率(左)误报率FPR 0.08% 条件下,B1硬盘故障预测覆盖率(右)针对典型HDD厂商大规模硬盘进

7、行部署预测,每月可提前准确发现数百块故障硬盘避免PB级别数据可能的丢失预测结果分析实践2:服务器宕机预测差异化的挑战:如何通过领域知识对多种日志进行分析和筛选如何准确判断序列数据的异常变化如何从半结构化的日志数据(序列)中构提取判别性 的特征挑战及整体方案宕机问题来源占比1)通过领域知识及特征重要性分析,将有效日志类型从15种减少到5种2)借助统计分析,进行统计特征构造3)利用算法和模型,生成特征LDA主题收敛公式DSPM返回特征数量上界日志过滤&多种特种构造方案宕机前log中关键事件数量19预测效果不同预测命中时间分布不同Pre-failing时间窗实验效果经过大规模集群上长周期测试,Precision稳定在50%以上预计上线后,能提前1小时以上进行宕机预测,使内存引发的宕机问题降低50% ,整体宕机次数降低10%01飞天基础设施业务介绍02飞天基础设施智能化进展03针对稳定性提升的智能化实践04总结 &展望对于AI,我们应该期待什么?-AI World 2016, 李 航“不论是人工智能还是其他前沿技术,都离不开高质量的数 据、强大的计算平台和高效的算法。只有这三件事放在一 起,才能真正在机器学习和人工智能领域取得突破。” 阿里巴巴CTO & 阿里云智能总裁 张建锋智能化可行性系统用户数据算法20182

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论