AIOPS的实践和探索_第1页
AIOPS的实践和探索_第2页
AIOPS的实践和探索_第3页
AIOPS的实践和探索_第4页
AIOPS的实践和探索_第5页
已阅读5页,还剩29页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、AIOPS的实践和探索目录一、背景介绍二、AIOPS的思考三、AIOPS的实践方案四、经验和总结运维体系介绍技术支撑技术支撑核心技术支撑addopsDBANet AccessOpenstackCephopsdevcontainerInfrastructureAIOpsSiteOpsNocNetOpsSAOdin基础平台Hulk云平台互联网服务网络安全服务安全大脑SREAddOpsOps基本情况概览技术沉淀产品沉淀资源沉淀服务沉淀业务沉淀100+专利10+开源贡献物理/虚拟主机K8s+容器服务自有BGP网络20+城市服务节点大数据服务人工智能服务搜索视频日请求150亿软件仓库100+IDC云视频

2、服务信息流日访问量8499亿关系型数据库10+数据中心云存储服务智能硬件DB访问6000亿KV数据库10万+服务器安全服务个人安全2EB安全大数据S3存储骨干带宽4T推送/IM服务浏览器可信云认证Hadoop生态核心节点双环路IoT服务金融等保三级大数据应用1000+业务线资源沉淀运维现状软硬件环境硬件和软件 数量的爆炸 式增长新的架构层 出不穷监控平台监控数据没 有发挥价值传统阈值报 警的弊端故障定位故障种类、 原因的复杂 性需要花费很 长时间定位运维人员同时要处理 多个故障7*24小时的 职守发展历程2012年以前标准化&工具化2012年-2016年精细化&平台化2016年-2017年数据

3、化&可视化2018年智能化单点应用&部 分串联能力2018年以后智能闭环,极 大解放生产力目录一、背景介绍二、AIOPS的思考三、AIOPS的实践方案四、经验和总结场景的选择智能变更 容量预测 报警收敛 智能问答容量规划 性能优化 预算评判成本效率退还推荐 资源调度根因分析 异常检测 瓶颈分析 辅助决策 故障自愈场景的选择-成本天下武功,唯富不破;马氏太极,以钱克刚。服务器加速流转(2000万)资源回收预算系统AI助手智能调度,提升利用率(50%+)DB智能调度分时计算场景的选择-效率天下武功,无坚不破,唯快不破。异常检测(基线)根因分析关联分析根因分析故障自愈故障预测磁盘自动清理磁盘故障预测

4、CPU报警处理团队构成看病出方制药懂业务,有数据,提需求,要目标。懂业务,玩数据,会编程,重交付。懂算法,能建模,会编程,保质量。有产品理念的运维有大数据背景的运维开发有算法和工程化经验的开发目录一、背景介绍二、AIOPS的思考三、AIOPS的实践方案四、经验和总结数据积累IDC数据网络数据主机硬件操作系统进程数据VIP流量访问日志业务打点业务日志数据库指标数据库日志中间件指标容量预估目标不同准确率、不同时间开销、不同预测时间的时间序列预测算法。基于周期性检测的时间序列预测算法(PAPC)容量预估目标不同准确率、不同时间开销、不同预测时间的时间序列预测算法。周期性检测容量预估目标不同准确率、不

5、同时间开销、不同预测时间的时间序列预测算法。PAPC+LR普通+LSTM准确率(PCT)0.0440.044时间开销2.63s23.8s预测结果预测模型LR、ARIMA、bp神经网络、LSTM指标准确率时间开销周期性序列非周期性序列PAPC的准确率、时间开销跟普通的一样。分类目标尽可能高的准确率、不同分类任务的分类算法。分类模块模型选择;调参;组合;样本问题负样本特别少,样本库正负样本数量悬 殊;标注成本高;解决方法:理想情况:用户(运维人员)标注;一般情况:过滤规则+用户(运维人员)标注;规则+自动生成样本;随机采样;无监督学习;资源回收目标解决线上机器利用率低的问题,提高资源利用率。核心模

6、块:机器画像(预测);机器分类;效果:准确率:90%以上;回收1500台机器,约1.6千万;MySQL智能调度系统数千个数据库的实例,由于历史因素,线上资源存在浪费的现象实例基本信息采集cpu、内存使用率、磁盘占有率;io读写、实例网卡流量;标签类别低消耗端口、计算型端口、存储型 端口、综合型(计算型和存储型) 端口;Label编码实例个数低消耗1,0,0,0206计算型0,1,0,0273存储型0,0,1,0270综合型0,0,0,1140背景MySQL智能调度系统核心模块:实例和机器画像(预测和定量分析);决策树分类;调度算法:尽量保证迁移次数少尽量少的避免切主保证主库和大容量端口的稳定性

7、控制每台机器上主库的个数(不超过5个)和实例总个数同一端口的实例不能出现在同一机器上不调度黑名单机器等等效果:某机房30台高负载机器中的14台变为可用。效率效率方面提高运维效率;自动化智能运维;流程:发现问题分析问题解决问题;kpi聚类目标多维时间序列实现聚类。方法:归一化;尝试不同聚类方法;异常检测目标准确率高、召回率高和误报率低的检测算法。传统检测方法恒定阈值 累计恒定阈值(单点抖动) 缺点规则单一,复杂突发情况无法应对累计方式会漏掉关键报警阈值设置受时间或者空间的变化影响异常检测多种检测方法投票(无监督)Isolation Forest:异常数据跟样本中大多数数据不太一样。异常数据在整体

8、数据样本中占比比较小。二叉树的个数: 100树深度:10平均路径长度越短,越异常EWMA+3:EWMA(t ) = Y(t)+ ( 1-) EWMA(t-1)for t = 1, 2, ., n输入值与EWMA预测值 参与计算的均值波动3倍 标准差之外的视为异常异常检测交换机流量突变LVS流量突增突减场景敏感、一般、不敏感根据敏感程度设置阈值检测等级准确度高于95%+节省了人力,运维和开发都受益效果信息流导航用户中心使用业务异常检测有监督学习效果:公开数据集:http:/iops.aiF-Score:0.8报警收敛收敛规则知识库关联规则-Apriori算法同一主机维度的监控项, 较短的时间窗口内,多个报警事件的关联分析人工规则运维经验效果1)生成20+关联规则2)报警减少60%-80%主机报警事件的根因分析指标和报警事件的关联主机报警事件的根因分析指标和事件相关性Correlating Events with Time Series for Incident Diagnosis信息增益比信息增益和信息增益比是衡量离散特征 对模型的贡献程度的重要指标目标是只找到最有价值的监控项xgboost分类二阶泰勒展开;正则化;列抽样;并行化;主机报警事件的根因分析效果展示优化进程级别的时间序列;相关性分析

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论