饿了么互联网监控体系架构介绍_第1页
饿了么互联网监控体系架构介绍_第2页
饿了么互联网监控体系架构介绍_第3页
饿了么互联网监控体系架构介绍_第4页
饿了么互联网监控体系架构介绍_第5页
已阅读5页,还剩29页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、饿了么互联网监控体系架构介绍目录背景遇到的问题场景化系统设计背景2.03.01.0Statsd/Graphite/GrafanaETraceZabbixELogStatsd/Graphite/GrafanaETrace/LinDBESM/InfluxDB/GrafanaELKEMonitor/LinDBSLS单IDC异地多活覆盖了饿了么所有的监控 (业务监控,全链路监控,PaaS,IaaS等)覆盖所有应用及服务器每天采集原始数据 800T高峰计算事件 7000W/s现状目录背景遇到的问题场景化系统设计遇到的问题多套监控系统,包括收集,可视化及报警等各种上下文切换适合熟练工,不适合新同学快速发现

2、问题快速定位问题GOC开发人员核心问题核心用户E-Monitor如何解决业务(订单/运单)应用Tracing/Logging (Exception/SOA/DB/Redis/Q)PaaS中间件(ES/DAL/Redis/Q/Job/SLB)IaaS(CPU/MEM/Network/TCP)各层面向的用户及其视角是不一样的做好业务侧监控,并能联动标准化应用/PaaS/IaaS各层监控需要一个纽带来把各层串联起来端对端监控充分与周边系统集成如何解决Tracing业务应用PaaSIaaS如何解决一套系统覆盖所有监控,支持多平台目录背景遇到的问题场景化系统设计业务大盘VS Grafana与业务更贴合D

3、ashboard AppChart Repo自动的关联及Drill Down小工具业务大盘应用监控应用监控- Exception应用监控- SOA应用监控- SOA基础设施- DALTracing所有的 Metrics 曲线上都可以点击查看 10S 窗口内有问题的采样数据Tracing服务器监控一键搜索场景的好处SLS 集成,可以很方便通过 Trace ID 关联查询到相关的日志开发发现异常,通过 Trace 定位到某个机器,直接可以通过机器信息关联到 Docker Container, 直接集成 AppOS开发发现基础设施问题,可以通过 Runtime Dependency看到所有的依赖,从

4、而可以看到自己 使用的那些基础设施有没有问题同时的基础设施的同学发现了问题,也可以及时的反馈给业务方千人千面报警发现问题EMonitor 定位问题快速恢复问题,快带定位问题目录背景遇到的问题场景化系统设计整体架构Pipeline - Lambda支持多IDC全量日志,通过指标+采样的方式支持 Java/Golang/Python/PHP/C+/Node.js所有监控数据计算窗口为 10S自研 + 开源组件构建了整套系统整体架构遇到的坑Kafka broker 某一节点IO Hang 住,导致所有Producer 线程全部 Hang 住,流量掉底HBase 上构建了索引,导致 HBase 热点严

5、重系统稳定性生产效率基于Kafka Client 封装了一个Broker 与 Thread 绑定的版本,即一个线程负责某一Broker 的写入,当 某一节点写入有问题,数据自动Balance 到别的节点不支持全文检索,有时看起很用的功能,其实不一定是用户真正需要的从Pipeline 处理所有数据流,到计算和写存储分离类似 Lambda,计算采用类 SQL所有的数据都转换成 Metrics, 外加自定义的可视化组件,阶段性的前进,每个阶段只做 1-2 件重要 的事情计算- Shaka随着数据量不断增加,系统开始出现不稳定的情况,有时出问题之后需要较长时间来恢复计算是整系统的资源大户,也是整个系统

6、最核心的组件之一做好数据的 Sharding 对一个计算类组件非常重要,越早做 Sharding 效果越好写 Kafka 之前就按一定的数据特性来 Sharding,不同类型的数据写不同的 Topic/PartitionShaka 内部又按不同 Event 类型 Sharding 到不同的 SQL Engine基于 CEP(Esper) 实现类 SQL 的计算非结构化的数据转换成结构化数据UDF 处理异常数据分析及采样计算- Shaka采样计算存储- DataHDFS + HBase 存储所有的 Raw Data,HDFS 存储所有的 Raw Data,HBase 存储简单的 索引 (Requ

7、est ID + RPC ID = file + block offset + message Offset)64 KB Block + SnappyMetrics Sampling (Metric Name + Tags + Timestamp) = Request ID/RPC ID)Metrics - LinDB1.02.03.0社区版RocksDB扩展 RocksDB自研存储 类LSM自研索引采用 Metric + Tags + Fields 方式基于 Series Sharding,支持水平扩展自动的 Rollup,s-m-h-d高可靠性,支持多副本,支持跨机房自监控,数据治理列式存储,具有时序特性的 LSM 存储结构倒排索引抓住时序特性利用好这些数值系统是慢慢演进出来的Metric - LinDBMetric - LinDB时序数据特性(根据其时间特性可以分为不随时间变化和随时间变化的数据)Time Series = Metric + Tags:这部分数据基本都是字符串,而且该数据占数据包的大头,但是不会随时间变化而变化, 尽量把字符串变换成数值来存储,以降低存储成本Fields:这部分数据基本都是数值,并且随着时间变化而变化,但是数值类型容易做压缩36台服务器,分不同集群每天增量写入 140T高峰TPS: 750 DPS/s10S 存 30天,历史

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论