腾讯海量监控包袱与创新_第1页
腾讯海量监控包袱与创新_第2页
腾讯海量监控包袱与创新_第3页
腾讯海量监控包袱与创新_第4页
腾讯海量监控包袱与创新_第5页
已阅读5页,还剩41页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、腾讯海量监控包袱与创新腾讯 技术运营重点监控体系自动化能力架构分布短信告警 5 万条/天单人最高1500条/天监控实例监控系统指标数告警量人均告警量900W2030040000500腾 讯 正 在 做 哪 些 监 控有 哪 些 不 一 样 的 地 方有 哪 些 值 得 关 注 点在监控领域有三个主题快、准、全 他们永远是矛盾的,调和矛盾成了运维 技术或艺术正在做哪些监控用户浏览器终端APP逻辑Svr(S+,So)Web Svr(Qzhttp,Apache)DNS解析域名获得实际IPCacheSvr(CMEM/CKV)DB Svr (CDB/TDB)CDN代理(Qhttpd)LVS/TGW-测速

2、-返回码-错误码IDC Speed IDC Probe-CDN自动化测试-CDN一致性监控-基调模调模调自动化 测试组件监控组件监控组件监控LDNSDBC监控容基量础监网控管组件监控自动化 测试LD监控变更体检报告入侵/攻击监控Ut客户端上报 xN监控体系演进N:网络质量监控B:网管基础监控A:自动化测试M:模块间调用S:测速系统W:站点分析系统m:模块监控 L:容量管理l:L5组件监控 Y:一致性Monitor特性监控S:QZ组件监控F:设备特性监控R:返回码监控C:CDN监控P:Ptlogin监控D:存储质量H:客户端环境R:ROOT根源分析I:华佗移动端分析Q:舆情监控G:日志大数据分析

3、U:UIN染色分析DLP核心指标Habo多维分析Q调拨测监控 移动端卡慢 全链路日志20062007200920112013201420152016覆盖完整用户端监控服务内监控业务侧监控测速核心产品指标模块间调用返回码各纬度业务指标L5失败率自动化测试攻击防御组件监控基调舆情监控强制一致性移动分析(mua)html5Gslb、lvs基础资源丢包断线死机重启硬件故障容量监控业务增长 VS 监控系统发展客户端、数据层监 控 覆盖 率 弱 ;系统建设离散,监 控 数据 分 散 ;综合 分析 能力弱 , 定 位 时 间 长 ;告警数量过多 ;多、大、杂2009年2010年2014年2017年主要监控系

4、统数91120+18主要监控指标数132178300+400监控实例数-45w900w2000w基础告警数/天1923003000+5000+业务告警数/天3623903.9w4.97w个人告警量/天(包含运维开发)-最大:177平均:13500+1500184有哪些不一样的地方放下包袱来 创新不是破旧立新而是尊重历史坚决优化历史演进中的架构落后ROOT 根源智能分析法基于业务架构,结合数据流关系,通过时间相关 性、面积权重等算法,将监控告警进行筛选分类, 发掘有业务价值的告警,并直接分析给出告警根源ROOT原理 : 多维关系降维ROOT原理 : 告警叠加时间片与时间相关性原因告警、现象告警原

5、因告警:往往是造成故障的根源,却往往无需处理现象告警:故障的结果,往往看不出根源,需要分析持续告警、波动告警、关联告警持续告警:不紧急、不重要波动告警:业务重要性决定告警重要性关联告警:有因有果,即时处理分类筛选和选择性处理持续告警, 65.0%波动告警, 24.1%关联告警, 9.2%1、链路中告警模块数=1长=1(只有一个模块告警时固定为1),宽=(1+告警模块所在链路的序号除以链路总模块数),面积=长*宽=1*(1+(iarr+1)/lnkcout)*100a、1-0-0-0,b、0-1-0-0,c、0-0-0-1,权重面积=1*(1+(0+1)/4)*100=125; 权重面积=1*(

6、1+(1+1)/4)*100=150; 权重面积=1*(1+(3+1)/4)*100=200;备注:链路中只有一个模块告警,并且结合业务链路生成的特性,告警模块越靠后,权重面积越大;2、链路中告警模块数1长=链路中连着告警模块的最大个数(iarrmax),宽=连着或不连着告警模块宽都为1+1/(连着不告警的模块个数),面积=长*宽=iarrmax*(1+1/N+)*100a、1-0-0-0-1,b、1-0-0-1-0,c、1-1-0-0-1,d、1-1-0-1-0,e、1-1-0-0-1-1-0-0-1,f、1-1-0-0-1-1-0-1-1,g、1-1-1-0-1-0-0-1-1,权重面积=

7、1*(1+1/3+1)*100=233; 权重面积=1*(1+1/2+1)*100=250; 权重面积=2*(1+1/2+1)*100=500; 权重面积=2*(1+1/1+1)*100=600;权重面积=2*(1+1/2+1+1/2+1)*100=800; 权重面积=2*(1+1/2+1+1/1+1)*100=900; 权重面积=3*(1+1/1+1+1/2+1)*100=1350;3、特殊情况:1、链路中,前面模块都没有告警,但最后模块连着告警(相当于链路中全模块告警),权重面积*10;2、链路中,模块全告警,权重面积*10;a、0-0-0-1-1,b、1-1-1-1-1,权重面积=(2*

8、1*100)*10=2000; 权重面积=(5*1*100)*10=5000;算法案例DLP业务生死指标衡量业务死、活的指标无阀值设定,完全根据指标值做波动判断 一个服务只能有一个生死指标不建议用业务指标做生死指标自定义-告警泛滥的罪魁祸首+3-3无阀值设定,完全根据指标值做波动判断一个服务只能有一个生死指标DLP案例跟踪警聚联比构告汇关对架关联计算自身故障/变更网络故障公告DBC故障公告关联链路告警帮业务组织数据全链路监控无接入门槛的数据组织方式不把数据多当包袱界定数据的生产者 与 消费者帮助生产者消费数据一条消息在系统内的51个状态早期染色监控业务格式数据 织云舆情监控现网各类日志织云多维

9、监控织云基础监控 织云特性监控 其他已有数据源织云日志中心兼容各种数据源E l a s t i c s e a r c h筛 选&转 意 预处 理抽 取 公 共 特 性预 计 算 大 盘 值展 现&告 警全链路分析监控平台各类数据的再利用数据中挖掘各种纬度收到用户反馈织云查该日志举个栗子吧至此:根因是用户进了机场后,因wifi开关开启,自动试连,并跳转登陆界面验证分析结果跟进时代,践行机器学习海量业务的监控优势 机器该学习什么教机器正确学习咖啡运维运 维 需 要 这 么 多 技 能 吗狭义人工智能。对于特定任务,这样的技术能做得像人类一样好,甚至更好视频 图像 文本推荐20122015AI 走

10、向咖啡运维之路趋势、对比、波动、阀值、分布、聚类常见的分析模型重新检视ROOT、DLP、全链路DLPROOT全链路基于架构 基于经验 基于概率基于规范基于分工基于数据 基于模型收敛告警事件产生告警事件提高事件处理能力织云舆情监控 + AI客服数据积累问题发现问题处理第一个阶段机器学习 之 文本图像相似性机器学习 之 图像第二个阶段如何告诉AI规则是什么如果用了自动找出来的历史告警,模型就会学成历史告警的策略 = nothing有监督学习告警第三个阶段机 器 学 习告诉AI数据的意义第四个阶段有哪些有值得关注点监控是 平台也是 产品更重要是 运营快准全无遗漏 覆盖广即时性 告警快告警准 误告少如果监控是产品稳强易如果监控是平台 指标闭环生态如何运营监控指标很具体SMART可衡量可达到可观察有时间DLP告警 = 服务异常服务异常 x DLP告警时间 = 服务不可靠性SUM ( 服务可靠性,) = 业务不可靠性业务不可靠性/一段时间(如月,年)= 业务可靠性指标(年,月)可横向对比有趋势变化可以目标明确闭环发起跟进技术 解决结单 反馈分析 总结持续 改进监控发现业务可靠性/质量 提升生态自动化测试摸调摸调自动化测试摸调摸调自动化测试摸调摸调横向业务指标对比成功率ATT摸调monitor业务特性告警 组件监控Crash /卡慢移动端监控速度体验APP H5测速web测速多媒体图片 海外速

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论