ArchSummit全球架构师峰会-《全链路稳定性背后的数字化支撑-阿里巴巴鹰眼技术解密》-周小帆_第1页
ArchSummit全球架构师峰会-《全链路稳定性背后的数字化支撑-阿里巴巴鹰眼技术解密》-周小帆_第2页
ArchSummit全球架构师峰会-《全链路稳定性背后的数字化支撑-阿里巴巴鹰眼技术解密》-周小帆_第3页
ArchSummit全球架构师峰会-《全链路稳定性背后的数字化支撑-阿里巴巴鹰眼技术解密》-周小帆_第4页
ArchSummit全球架构师峰会-《全链路稳定性背后的数字化支撑-阿里巴巴鹰眼技术解密》-周小帆_第5页
已阅读5页,还剩75页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

p链路稳定性背后的数字化支撑阿里巴巴一中间d技术部l就职于阿里巴巴中间d&稳定性平台。间dD鹰眼E监控系统服务端技术负责人。l阿里云产品D业务实时监控(ARMS)”技术负责人。•被动->主动微服务之“熵EEagleEye的灵感来自于Google的Dapper论文。(/pubs/pub36356.html)3.926.1095448703d0e3478c74f4814924235095448703d0e343.926.1095448703d0e3478c74f4814924235095448703d0e34Ap局唯一TraceIDIc74f4814924235095448703d0e34群095448703d0e345.34一次分布式调用问题:在每天10000+亿次的分布式调用中,23.5一次分布式调用从倒排索引中查找TraceID:78c74f4814924235095448703d0e34|HTTPCall|OK|ServiceCall|OK|DBCall|TIMEOUT……问题:如何还原实际调用“栈”?3.926.1c74f4814924235095448703d0e34c74f4814924235A5.34c74f4814924235095448703d0e34群0c74f4814924235095448703d0e34095448703d0e343.926.1c74f4814924235095448703d0e34c74f4814924235A5.34c74f4814924235095448703d0e34群0c74f4814924235095448703d0e34095448703d0e344ra6e.,+21+.,(3pan.,23.5TraceID+RPCID在异常日志的错误信息中找到在异常日志的错误信息中找到TraceId 异常日志在这里TraceId=ac18287913742691251746923serviceName入口urlidcipidcip23.53.9入口urlc74f4814924235095448703d0e3426.1AD5.34c74f4814924235095448703d0e34群serviceName入口urlidcipidcip23.53.9入口urlc74f4814924235095448703d0e3426.1AD5.34c74f4814924235095448703d0e34群idcserviceName0c74f4814924235095448703d0e34c74f4814924235095448703d0e34将万a级别调用链数据进行聚合servserviceNameidcserviceName入口url订订将万a级别调用链数据进行聚合 (根据业务o口进行聚合)调用链的聚合结果-链路分析点点-agle-ye基础功能小结功能。保障工作提供报表。•被动->主动的结果(HBase)的结果(HBase)鹰眼整g架构(2012根据TraceId查询调用链件流Agent(离线)的结果(HBase)件流(离线)的结果(HBase)件流Agent鹰眼整g架构C实时化(2014根据根据TraceId查询调用链实时计算后的结果(HBase)件流Agent件流Agent鹰眼整g架构C轻量化(201(实实时计算后的结果(HBase)重启计算节点的流计算引擎重启计算节点的流计算引擎•持续计算稳定性岩机自愈能力。•解决方案m复•计算过程不落地•解决方案全量计算->流式增量计算(例:全量数据计算入口页面uvvs.增量计算入口页面uv)One-Pass&Mergable推荐StreamLib(/addthis/stream-lib)流式聚合将聚合拆分为LocalReduce+GlobalReduce以避免热点。……相关e化C齐p度e化基于Snapshot算法。%% 准确度10%eIdRowkey•阶段二:使用Hadoop/ODPS1.按TraceId的时间戳和哈希TraceId排序2.针对调用中记录的每个列进•阶段三:使用分库分表的列式DBRowkeySDBProxy•流计算中完成降精度•Co-Processor和预计算(流求。•同样引入StreamLib完成基A买家abc点击M单YZ的A买家abc点击M单YZ的费用BCEDB的e惠A•实际排查中遇到的案i–线L的某次系统调用异常,是由哪笔订单的什T操作引起的?–系统QPS出现波动,影响了L游哪些服建立业务id与TraceId的双向绑定用户存在“自定义”链路的需求-agle-ye集群1ipeline单一来源eagleeye.logD自定义链路E•数据来源•数据过滤方式按服务过滤、按TraceID采样…•聚合维度&精度•持久化方式HDFS/HBase/MySQL/列式存储/分布式缓存/搜索…•部署方式满足P性化需求的-agle-ye1ipeline用D积木块E搭建数据处理流程(A203,r部名4/>gPoweredbyGoogleBlockly日志路径:/home/admin/logs/buy.log2014-07-2517:25:00|0a48514414249449347162339e|0.3淘宝|400|00|0a48514414249449347162339e|0.15聚划算|500|……竖线分割,分别表示:日期|TraceId|RPCId|电话|来源|价格|操作结果产生关联。数据清洗,切分字段2016-07-2517:25:00|0a48514414249449347162339e|0.1天猫|300|ERROR按照入口进行GroupAc4onAc4onAc4onAc4on将D积木块E转化R流计算(A203AcAc4onAcAc4onAcAc4on上进行执行。(JStormorSparkStreaming)与系统链路双向绑定根据业务事件id反查调用链,从而顺藤摸瓜找到更多的上下游业务信息:手机号商品标签与e惠当时的库存情t异常错误l息支cl息记录与系统指标双向关联。果用户提供自定义流式数据采链路产生双向关联。http/httpsavascript复制库分发APP网关l息http/httpsavascript复制库分发APP网关l息p息排查p景图接o层系统息/缓存流单号秒级处理峰值秒级处理峰值鹰眼整g架构C模块化(201(中间件调用事件流Agent业务日志事件流的结(HBase)终端(无线、PC)事件流•被动->主动••只存储“可疑的”数据••只展示与可疑数据有关联的报表•点(事件)与面(指标)•上游与下游时序指标的异常点聚合BEACD聚合BEACD…按点关联:同—部署单元上的问题按线关联:时间点上临近的变更按链路关联:链路上下游的问题定位定位->BB识别按点关联:B应用接收按时间线关联:配置变更发生在指标波动前1分钟。按链路关联:A应用强依赖B应用。AA栈为:跨库事务阿里巴巴鹰眼系统演进史66•链路跟踪能力(•链路跟踪能力(4ra6e.d,21+.d•离线、实时统计能力•数百P集团r应用接o•业务p息排查•业务实时监控•强化流计算/时序与事d存n44••支持p链路压测•云产品-,A3/A203•流程插d化、配置可视化•对接1000+集团rP性化需求•p链路根因分析•3marA/>g•业务链路自动梳理•调用链p息排查•p局调用拓扑•链路依赖项的分析梳理•调用链p息排查•p局调用拓扑•链路依赖项的分析梳

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论