![滴滴开源夜莺系统技术架构概述课件_第1页](http://file4.renrendoc.com/view/4945b5014dc6d5b14dbd185affdfca7c/4945b5014dc6d5b14dbd185affdfca7c1.gif)
![滴滴开源夜莺系统技术架构概述课件_第2页](http://file4.renrendoc.com/view/4945b5014dc6d5b14dbd185affdfca7c/4945b5014dc6d5b14dbd185affdfca7c2.gif)
![滴滴开源夜莺系统技术架构概述课件_第3页](http://file4.renrendoc.com/view/4945b5014dc6d5b14dbd185affdfca7c/4945b5014dc6d5b14dbd185affdfca7c3.gif)
![滴滴开源夜莺系统技术架构概述课件_第4页](http://file4.renrendoc.com/view/4945b5014dc6d5b14dbd185affdfca7c/4945b5014dc6d5b14dbd185affdfca7c4.gif)
![滴滴开源夜莺系统技术架构概述课件_第5页](http://file4.renrendoc.com/view/4945b5014dc6d5b14dbd185affdfca7c/4945b5014dc6d5b14dbd185affdfca7c5.gif)
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
滴滴开源夜莺系统技术架构概述助企业构建稳定性体系滴滴开源夜莺系统技术架构概述助企业构建稳定性体系1目录CONTENTS夜莺设计思路和产品简介夜莺如何助建稳定性体系目录夜莺设计思路和产品简介2夜莺设计思路和产品简介夜莺设计思路和产品简介3业界现状如何?业界现状如何?4监控在滴滴的演进influxDB+alarmopen-falconwoaterodinuni-monitorecmc-monitor滴滴的监控数据指标总量十亿量级,每秒处理千万量级查询请求每秒十万量级nightingale监控在滴滴的演进influxDB+alarmopen-fal5夜莺项目信息主站:
/源码:
/didi/nightingale1.3K+star180+fork100+issue+pr2020.4.14v1.3.xDataModel支持extra字段,可以带上一些traceid或者日志类信息,给高端玩家2020.4.2v1.2.x页面支持中英双语,主站也在翻译中优化数据推送的长连接,优化judge连接池引入docker-compose简易部署方式2020.3.17v1.1.x支持ldap校验,用户信息回灌数据库支持counter类型的指标,兼容Open-Falcon社区插件夜莺项目信息主站:https://n9e.didiyun.6告警引擎逻辑重构引入了导航对象树索引模块升级换代时序数据库优化告警引擎高可用改进原生内置日志监控功能模块精简可运维性增强配置文件中心化数据模型没变,只是扩展了字段,与原来兼容,社区的所有插件可以复用时序数据存储,底层仍然使用rrdtool归档落盘优化巨大,几乎就是重写了…维持不变的与Open-Falcon的对比告警引擎逻辑重构告警引擎高可用改进数据模型没变,只是扩展了7夜莺架构概述夜莺架构概述8建立通用DataModel,支持夜莺数据采集的能力所有数值型时序数据场景与社区同仁共建生态!系统内置:默认支持Linux的agent,社区很快有了Win的agent、交换机的采集器;Linux的agent内置了日志监控,可以用正则提取监控指标,业务监控利器扩展机制:内置插件机制,可复用Open-Falcon大部分插件和采集器,另外非常推荐大家使用SDK埋点采集应用监控数据三点差异:与Open-Falcon相比,扩展了extra字段、变更了rpc协议、counter类型处理逻辑前置到collector建立通用DataModel,支持夜莺数据采集的能力所有数值型9夜莺数据存储的能力gorillarrdtoolgorillarrdtoolgorillarrdtooltsdbtsdbtsdbgorillarrdtoolgorillarrdtoolgorillarrdtooltsdbtsdbtsdbtsdb-cluster-01tsdb-cluster-02集群外来看是双写双读;集群内来看是一致性哈希,模块内来看是内存压缩加硬盘归档一致性哈希一致性哈希transfertransfertransfer双写夜莺数据存储的能力gorillarrdtoolgorilla10生产级的灵活性,引入心心念念的服务树,去掉单独的nodata组件,去除告警无关指标的内存消耗夜莺告警引擎的能力告警分级告警收敛告警回调告警认领告警升级时间窗口留观时长静默恢复策略继承特例排除与条件告警标签过滤生产级的灵活性,引入心心念念的服务树,去掉单独的nodat11夜莺事件处理的能力事件存储事件发送事件回调未恢复告警所有历史告警用来做日常巡检和告警分析各类告警发送模块可以在/n9e下找到为告警自愈提供了可能,或接入自己的事件管理夜莺事件处理的能力事件存储事件发送事件回调未恢复告警所有历12夜莺后续发展规划引入指标聚合功能,自动聚合集群维度的指标数据与云原生体系更好的整合,自动读取Kubernetes的
各组件监控指标,是否引入PromQL正在论证整理尽可能多的插件,丰富社区周边,周边欢迎提交到/n9e这个group夜莺后续发展规划引入指标聚合功能,自动聚合集群维度的指标13夜莺如何助建稳定性体系夜莺如何助建稳定性体系14稳定性体系构建思路预防发现定位止损复盘提升稳定性,就是要减少故障,要从故障生命周期各环节着手降发生排掉隐患规范流程量化风险结果可见指标完备策略完备提前预测即时通知告警升级定级定责告警跟踪故障管理改进项管理统计分析监控大盘事件大盘链路追踪告警现场根因推荐协作机制预案管理预案演练一键操作告警自愈操作原则稳定性体系构建思路预防发现定位止损复盘提升稳定性,就是要减少15夜莺在故障预防环节的作用排掉隐患检查所有的机器是否关联了必要的策略,
即告警完备性排查夜莺提供完备的接口,可以查询策略数据、告警数据,以此分析量化监控系统的使用情况,我们称为监控健康分量化风险检查策略接收人是否有效,
及时发现离职的情况统计回调覆盖率,
代表了自动化程度,
人为处理故障显然恢复的慢统计产品线维度的告警事件量,
太多的,
要给出理由或整改计划统计接收人维度的告警事件量,
看是工作安排不合理还是策略不合理统计告警恢复时长,
用分位值来量化告警处理的及时性和预案有效性夜莺在故障预防环节的作用排掉隐患检查所有的机器是否关联了16夜莺在故障发现环节的作用升级兜底即时通知告警引擎夜莺提供生产级灵活可靠的告警引擎,支持多种告警函数,各种灵活策略,支持数据缺失告警和多条件告警夜莺将告警事件推到Redis
队列,
异步实时消费;提供邮件、微信、钉钉等各类即时通知方式夜莺支持了告警升级机制,可以通过告警升级的方式,将告警发送给备份人员或领导,保证有兜底夜莺在故障发现环节的作用升级兜底即时通知告警引擎夜莺提供生产17夜莺在故障定位环节的作用监控大盘:查看趋势图;提供高性能查询能力;大盘提供下钻链接,可以串联上层业务和底层模块、场景事件大盘:夜莺将告警事件入库,可以将监控事件和变更事件放到一个大盘里,出了问题能够较快定位到可能是某个变更引起告警现场:夜莺会把触发告警的时候的原始指标数据保存下来,以防随着时间被降采样;夜莺的回调机制可以和公司内部命令通道打通,告警的时候自动执行某个脚本采集现场数据夜莺在故障定位环节的作用监控大盘:查看趋势图;提供高性能查18夜莺在故障止损环节的作用夜莺在这块只有一个能力,就是告警回调,与内部自动化逻辑打通滴滴内部每周的故障自愈任务量大约几千次,节省了大量运维人力夜莺在故障止损环节的作用夜莺在这块只有一个能力,就是告警回调19夜莺在故障复盘环节的作用
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 企业文化宣传合同范例
- 农村装修贷款合同范本
- 2021-2026年中国电力维护合板市场竞争策略及行业投资潜力预测报告
- 中医私承合同范本
- 一租房合同范本个人
- 兽药代加工合同范本
- 上海汽车租车合同范本
- 保洁补签合同范本
- 2025年度酒水行业知识产权保护与纠纷解决合同范本
- 劳务公司之间合同范本
- 周口2024年河南周口市公安机关招聘辅警458人笔试历年参考题库附带答案详解
- 《头面部穴位按摩》课件
- 2024美团简化版商家合作合同标准文本一
- 2025年贵州黔源电力股份有限公司招聘笔试参考题库含答案解析
- 《休闲食品加工技术》 课件 1 休闲食品生产与职业生活
- 春季开学安全第一课
- 《病史采集》课件
- 十大护理安全隐患
- 2025年新生儿黄疸诊断与治疗研究进展
- 公司安全生产事故隐患内部报告奖励工作制度
- 商场撤场申请书
评论
0/150
提交评论