运维学件技术入门_第1页
运维学件技术入门_第2页
运维学件技术入门_第3页
运维学件技术入门_第4页
运维学件技术入门_第5页
已阅读5页,还剩38页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、技术创新 变革未来运维学件技术入门目录什么是运维学件1我们的一些实践2运维学件开源探索3 车牌自动识别带来的“小变化” AI在悄然改变生活,对运维领域,也会如此 AI从大量输入中总结出准确预测的规律(模型)数值型预测 0/1型预测概率型预测等 接入AIOPS的困难没有数据 或者数据 量级太少 缺乏算法 专家希望了解 算法工作 原理希望可以 自主可控供需方均 担心自身 数据泄漏学件是什么?学件(Learnware)= 模型(Model)+规约(Specification)概念提出者:南京大学教授,国内机器学习领域领军人物周志华老师。VSAPI规则学件 AI模型与规则的差异较少改变相对简单 容易理

2、解 容易解释 专家总结 数据无关时刻在变非常复杂 很难理解 不易解释 学习总结 数据相关规则AI模型API 学件if else case switch hard code简单决策树路径 回归参数网络结构和参数复杂学件的特点和优势l 可演进(修改、学习)l可了解l可重用l可不依赖数据l可不依赖专家 AIOPS 五级分类一级尝试应用:开始尝试应用AI能力,还无较成熟单点应用二级单点应用:具备单场景AI运维能力,初步形成供内部使用的学件三级串联应用:有由多个单场景AI运维模块串联起来的流程化AI运维能力四级能力完备:主要运维场景均已实现流程化免干预AI运维能力五级终极AIOPS:有中枢AI,可以在成

3、本、质量、效率间从容调整,达到业务不 同生命周期对三个方面不同的指标要求,实现多目标下的最优或按需最优 目录什么是运维学件1我们的一些实践2运维学件开源探索3 单点案例成本 内存存储智能降冷 内存存储智能降冷-背景社交网络的业务特征访问量大延迟敏感优先选择内存KV存储随着业务发展,内存数据和成本迅速增加 存储内存智能降冷-方案l生成分离策略-机器学习预测是否能够下沉l生成数据特征-制作数据画像(抽样扫描业务数据)KEY长度记录大小最后读时间最后写时间过期删除时间周期热度变化访问量业务数据量空查询率逻辑回归随机森林l根据预测结果自动执行流程l专家经验打标分类 算法选择LR和随机森林#使用逻辑回归

4、预测lr = LogisticRegression(C = 0.1,penalty = l1) lr.fit(features_train,labels_train.values.ravel() lr_y_pred = lr.predict(features_test.values)cm = confusion_matrix(labels_test,lr_y_pred )# 计算混淆矩阵的召回率print(召回率: %.2f%(cm1,1/(cm1,0+cm1,1)# 计算混淆矩阵的准确率print(准确率: %.2f%(cm0,0+cm1,1)/(cm0,0+cm0,1+cm1,0+cm1,

5、1)#使用随机森林预测features_train, features_test,labels_train,labels_test= train_test_split(features,labels,test_size=0.2,random_state=0)rf = RandomForestClassifier(random_state=1,n_estimators=10,min_samples_split=2,min_samples_leaf=1)rf.fit(features_train,labels_train.values.ravel()rf_y_pred = rf.predict(f

6、eatures_test.values)cm =confusion_matrix(labels_test,rf_y_pred) # 计算混淆矩阵的召回率 print(召回率:%.2f%(cm1,1/(cm1,0+cm1,1)# 计算混淆矩阵的准确率 print(准确率:%.2f%(cm0,0+cm1,1)/(cm0,0+cm0,1+cm1,0+cm1,1)召回率:0.82; 准确率: 0.81;n_estimators=20,召 n_estimators=30,召 n_estimators=40,召 n_estimators=50,召 n_estimators=60,召n_estimators

7、=100,回率: 0.91;准确率: 0.92;回率: 0.94;准确率: 0.94; 回率: 0.94;准确率: 0.94; 回率: 0.94;准确率: 0.94; 回率: 0.91;准确率: 0.92;召回率: 0.91;准确率: 0.92; 存储内存智能降冷-效果l 热数据和冷数据的访问比例10:1,下沉精准,对SSD没有造成访问压力内存热数据访问量SSD冷数据访问量l 访问延迟没有明显变化l 业务调用成功率正常,降冷对业务透明 单点案例质量 统一监控去阈值 统一监控去阈值背景监控曲线千变万化,通过设置阈值方式费时费力,难以维护更新,容易误报漏报 单机统计指标150+,10万+服务器模块

8、汇总视图百万级,大量模块视图未被监控 支持成功率监控3sigma+规则 支持曲线指标监控(区间3sigma、统计判别、多项式拟合)+无监督+有监督 串联应用案例质量 ROOT智能根源异常分析 ROOT智能根源异常分析原始访问关系图降纬访问关系的告警叠加图及面积算法 由原来的面积法更新为通过Apriori 频繁项集+皮尔逊相关系数定位根源告警ROOT智能根源异常分析业务侧监控用户端监控服务内监控基础监控访问关 系采集访问关 系降纬Group 社团划分DBSCAN异常度聚类调用相关性 时间相关性 曲线相似性根源结论皮尔逊相关系数 +Apriori 频繁项集DBSCAN3sigma 统计判别 无监督

9、 有监督告警叠加访问紧密度 串联应用案例效率 织云全自动扩容 织云全自动扩容容量分析 与预测平衡木灰度上线时间序列 异常检测生死指标 监控DLP平衡木资源权限pkg配置 文件脚本流程引擎监控 变更体检自动 扩容灰色表示运维场景蓝色表示自动化工具黑色表示智能化学件 平衡木实际效果:通过几次迭代,模块整体支撑性能提升20%以上。支撑能力提升22% 平衡木通过梯度下降法,找到一组, %,使得所有机器的CPU使用率的方差最小L(, , %) =(%, %,/( )(更多单点或串联应用 多维下钻智能分析EP0JSD1JSD大、EP大影响异常主要因素JSD小、EP大 1 属于受异常影响 0JSD小、EP小

10、 与异常无关JSD大、EP小维度可继续划分目标:搜索出对异常波动和贡献度最大的维度组合,差异度:( Jensen-Shannon (JS) divergence ) (找出维度)=?9, = 0.5( + (=( =?129 99D(预测值和观测值)贡献度:9, = (9, 9, ()( ()J(找出子项) 频繁项集关联告警智能分析图片来源: https:/article/2017/4/12/26086.htmlApriori 频繁项集支持度就是几个关联的数据在数据集中出现的次数占总数据集的比重。 或者说几个数据关联出现的概率置信度体现了一个数据出现后,另一个数据出现的概率智能咨询客服操作工具

11、客服Demo2:部分识别,给出 相关问题Demo1:完全识别,直接给 出答案Demo3:查询操作模式 目录什么是运维学件1我们的一些实践2运维学件开源探索3 适合做成开放运维学件的场景需求 共性 强数据 量级大收益 明显问题 独立数据 容易 采集接口容 易规范重复 率高 我们的尝试腾讯织云 AIOps应 用实践学件库无阈值智能监控时间序列指标预测 主机异常智能分析Mysql异常智能分析硬盘生命周期预测(TEG) 平衡木智能负载均衡根因分析ROOT 生死指标监控DLP 多维下钻智能分析 内存数据自动下沉 进程异常智能分析 学件N已开源基于8亿+用户平台、20万级服务器、百万级监控指标打磨而成。开

12、源内容也包括样本标注系统。可以直接以Docker形式获取镜像部署环境,或在github上获取代码自己搭建全新的环境 训练。/Tencent/Metis聚焦和业务场景无关,通用的运维领域问题持续建设中,暂不开放代码,但已经可以以PASS接口形式 体验,将在效果进一步提升,代码经过审核之后,逐一开源部分暂时还没准备好的通用学件,或该场景为私有应用场景还在探索改进中的更多智能运维场景,会在其中寻找合适的 通用学件,或消除专有性后持续开源或开放体验。 Metis无阈值智能监控运维学件时间序列预测输入:一段时间序列、需要预 测长度模型:统计方法+深度学习输出:预测时间段的详细数据 硬盘生命周期预测检测效

13、果:型号ST2000NM0011; ST3500514NS; ST1000NM00117天内预测正确率56% 21天内预测正确率72% 40天内预测正确率88%输入:硬盘SMART指标数据模型:百万盘训练的SVM模型输出:是否坏盘2%21%6%14%75%硬盘 主板RAID卡电源内存 其他后续可期: 更多型号模型SAS盘硬盘生命周期预测SSD寿命预测定级处理:级别1:(剩余寿命0.5年 或 剩余寿命耗尽 建故障单 )且上架时间4年(寿命不足,建 议退役);级别2:(剩余寿命0.5年 或 剩余寿命耗尽建故障单)且上架时间4年(超标使用,建 议置换) ;级别3:剩余寿命=0.5,上架时间4年,总

14、寿命4年(超标使用,建议降低IO)。输入:SSD盘剩余寿命比、采样日期模型:生命周期预测模型输出:剩余寿命年限 操作系统异常检测指标选取:指标含义cpu_usageCPU使用率util_max多块盘中%util最大值mem_usage内存使用率eth1_in_pkg网卡入包量eth1_in_traff网卡入流量OutRequests出包数InReceives入报数NoPorts未知端口收包RetransSegsTCP报文重传数process进程数雷达图基类:77+操作系统相关指标坐标轴选标准差来统一量纲雷达图聚类: 操作系统异常检测检测效果:服务器经检测后划分labelBASE图表示基准TYPE_label图表示该类基准观测服务器切片数据与两个基准之间的差异 后续可期:通过异常类积累样本,可做有监督类别划分更多指标可选配输入:服务器切片数据模型:10w+服务器聚类模型输出:类别、BASE数据、类别 数据、单机数据 MySQL异常检测1、异常实例表现:在某一个或两个特征的值会偏高,且孤异不合群;2、正常实例表现:合群、抱团出现、各个特征值归一化后较为均衡;3、少数异常实例需要通过分类模型或引入时序进一步确认,如受

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论