




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
唐磊(小唐)2101概述&背景•客户诉求•业务难点02业界方案03我们的方案•业界方案•基于专家规则的自动化运维策略•发展趋势•运维评价•发布熔断23概述&背景–客户诉求维护成本高•资源利用率低•IT资源管理和运维复杂繁琐•…无人值守口客户用云述求可控制VM:VM:•智能编排•原子操作•自动化•监控&告警•根因诊断稳定&可靠:•稳定性SLA幸福感提升幸福感4业务难点–基础设施规模大200+可用区(AZ)3000+28数据中心区域(Region)•云计算基础设施规模决定了其运维复杂度100,000,000+(CPUs,disksetc.)1,000,000+5000+5业务难点–产品形态多、业务领域广热迁移(无感更换物理机)?X86计算G6通用型R6内存型C6计算型D1NE大数据型HFC6高主频算型I本地SSDR5内存型G5业务难点–产品形态多、业务领域广热迁移(无感更换物理机)?X86计算G6通用型R6内存型C6计算型D1NE大数据型HFC6高主频算型I本地SSDR5内存型G5通用型C5计算型HFG频通用型ENE络增强SN1NE计算网络增强SN2NE通用网络增强D1大数据型F3FPGA计算型D2大数据型I本地SSDGA1GPU可视化型F1FPGA计算型异构计算裸金属&高性能计算 高性能数据库ed时);图高性能数据库;高性能网站前端机;售卖形态多业务本地盘存储大数据业务异构GPU业务异构FPGA业务SCC超算业务监控诊断运维手段有差异6链路长技术难度深链路长技术难度深•LLC一致性•LLC容量QoS•LLC争抢elMEianSKLICLAtom覆盖子系统众覆盖子系统众多CPUCPU子系统举例•IMCfreq•IMCchannel702业界方案/.anIDGrafanaZabbixWebUI析•OneAgent通用采集•动态阈值告警自动分析•APITrace分析析TraceIDusZabbixServerMySQLMetricTSDBResourceZabbixClientZabbixClientZabbixClientAppExporteranIDGrafanaZabbixWebUI析•OneAgent通用采集•动态阈值告警自动分析•APITrace分析析TraceIDusZabbixServerMySQLMetricTSDBResourceZabbixClientZabbixClientZabbixClientAppExporterTagTracingStatus控时代201620172018201920202012BorgMonCNCFBorgMonCNCF发布yunSLSyunSLSCacti发布 Metric-加入加入CNCFE22010//03我们的方案/2智能化201320162017201820192010智能化201320162017201820192010我们的方案–ECS监控运维体系发展历程ECS正式售卖ECS全链断平台上线监控采集接入FlushAgent重构接入Flush入落日弓入落日弓环境问题运发布熔断99.自22021/1客户侧事件完整链路追踪运维引擎运维事件受损事件宕机/夯机性能受损实例类磁盘类客户侧事件完整链路追踪运维引擎运维事件受损事件宕机/夯机性能受损实例类磁盘类诊断引擎异常抽取数据清洗特征计算异常定义维度关联聚合计算聚类分析可靠的底座•数据处理:承载百万级物理机的诊断能力ODPS承载百TB级数据传输;(hadoop)BLINK确保每日同等数量级的数据实时性(apache-flink)•日志服务:类似ELK产品栈,提供更完整的数据处理能力(数据投及强大的计算聚合函数(map,json,lamda函数等)•MNS:高效、可靠、安全、便捷、可弹性扩展的分布式消息通知服务•TDDL:分库分表解决方案(sharding-jdbc/MyCat)JOB/ElasticJob)查询分析离线数据源集群基础设施机型地域BLINKODPSTDDL我们的方案–整体架构运维定义NC运维定义NC运维工作流编排VM运维运运维调度运维评价A/B运维评价A/BTest规则匹配统一流控规规则定义根根因推导监监控采集监控调度任务执行任务存储配置下发结果存储配置存储在线数据在线数据控制面虚拟化GUEST硬件组件schedulerX/2告警中心云监控其他消费•P95CPU利用率:告警中心云监控其他消费•P95CPU利用率:100T/D我们的方案–监控数据采集口规模效应项entPrometheusNightingaleK8s开源滴滴开源触发方式服务侧服务侧周期采集按需采集周期采集周期采集百万级节点千级别万级别整度高采集回流分离中结果实时回流中结果实时回流报表和告警有限节点丢失提醒有限节点丢失提醒不支持不支持采集大盘T+1同步SLS采集大盘T+1同步SLS (张家口) 节点采集节点采集口资源最大化利用:资源有限(1-2HT)•调度器轻量化•采集之间数据共享口代码发布灰度可控••问题尽早暴露•降低故障爆炸半径/3我们的方案–运维策略相关定义•监控异常•特征定义•运维规则•运维动作/4例如客户事件响应的预期行为;产出例如客户事件响应的预期行为;产出KeyMetrics数据口产生背景:•是否存在过度运维的问题?•对客户真实体感是什么?口评价度量*:•性能度量•不可用度量•控制面度量口差异化分析:•显著性差异检验-单因素方差分析F检验(Welch'sanova)•精准控制切流比例-功效分析(Cohen’sf)[*]LevyS,etal.PredictiveandAdaptiveFailureMitigationtoAvertProductionCloudVMInterruptions.[C]//OperatingSystemsDesignandImplementation.2020./5MaxCompute对外评价API切流建议模块方差/功效分析a.每日命中资源详情b.每日命中资源各维度分布离线结果表KeyMetric原始数据--ADB/SLS加速查询定时计算任务过滤器配置特征分类配置Spark算法静态维表特征规则异常计算MaxCompute对外评价API切流建议模块方差/功效分析a.每日命中资源详情b.每日命中资源各维度分布离线结果表KeyMetric原始数据--ADB/SLS加速查询定时计算任务过滤器配置特征分类配置Spark算法静态维表特征规则异常计算类离线异常特征运维策略A/B上线流程A/BTest灰度切流比例建议口落地方案评价模块数据加速层KeyMetrica.a.历史异常回放b.提前命中程度统计分析c.漏召回详情分析d.新增命中资源详情分析口面临问题•如何与现有的运维体系整合?•如何安全高效的灰度发布上线?/6我们的方案–业务流控口业务流控我们的方案–业务流控口业务流控:•自动运维维持正常水位•有效阻止故障发生灵活的流控规则数据报表支撑流控维度/784218421等发布节奏计算、存储、网络各机型/集群等30+维度我们的方案•业界大概XX%的生产事故由变更而触发•集团全部故障中xx%+和变更相关•支撑百万级资源的发布(千万级VM)布业务方数百•累计变更次数n亿•发布次数n万2.我们的方案–灰度发布&熔断召回率=召回率=熔断次数+漏召回次数∗100%效熔断准确率=熔断次数+
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论