2020年GOPS全球运维大会-容量管理体系建设实践_第1页
2020年GOPS全球运维大会-容量管理体系建设实践_第2页
2020年GOPS全球运维大会-容量管理体系建设实践_第3页
2020年GOPS全球运维大会-容量管理体系建设实践_第4页
2020年GOPS全球运维大会-容量管理体系建设实践_第5页
已阅读5页,还剩16页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

容量管理体系建设思考及实践1运维疼点&解决之道2总结与展望3精细化运营目录CONTENTS4容量管理体系建设思路1运维痛点&解决之道运维痛点问题

–为什么需要容量管理痛点问题大促扩容大促缩容流量调度成本管控大促都需要极大的容器资源来支撑活动流量,哪些应用该扩,该扩容多少?大促后缩容,缩减哪些应用,缩减多少资源?机房集群切换,能不能切,能切多少?流量调度时有数据可以支撑面对IT资源成本高额账单,该从哪里着手缩减?2容量管理体系建设思路容量管理

-

运维立体化监控容量监控是运维立体化监控体系中一环,并且处于核心位置基础监控中间件监控容量管理返回码监控数据库监控客户端监控CDN图片异常监控核心业务监控网络监控容量管理

–建设思路12345梳理资源对象明确度量指标建立数据模型自动化工具数据校对检验梳理运维资源,哪些资源需要纳入容量管理体系针对不同类型资源,采集不同数据项,建立度量指标针对不同类型资源,建立不同数据模型,基于实时数据和历史数据建立模型及时响应业务问题,积累场景,沉淀解决方案,提升工作效率通过全链路压测及大促数据,验证数据模型预测准确性,优化模型,提升预测准确率容量管理

-

资源对象和度量指标应用设备网络带宽数据库中间件资源资源类型一、应用设备:容器、物理机二、数据库:MySQL三、中间件:Jimdb、Elasticsearch、Hbase、Hadoop四、网络流量:域名流量、机房流量不同资源类型有不同的度量指标容量管理

-

基于应用的度量指标IOCPU内存网络计算密集型业务进行大量计算消耗CPU资源多线程IO密集型业务网络、磁盘读写频繁网络传输密集型业务图片、视频传输,主要消耗网卡及网络带宽,典型如CDN图片加载,直播等数据密集型业务通常这类业务非常占用内存资源,典型如大数据应用,搜索引擎,缓存等应用度量指标应用特征分析数据模型容量管理

-

应用CPU峰值利用率算法根据机器数加权平均 根据CPU核数加权平均 分钟级CPU核数加权平均1、先平均,再峰值2、应用容器规格不统一,不会影响数据准确性3、排除预发布设备1、先平均,再峰值2、应用容器规格不统一,会影响数据准确性3、排除预发布设备4、采样率问题1、先分钟取峰值,再根据核数取平均,再全天取峰值2、峰值不一定是在同一秒在基于应用的容量管理实践中,我们通过引入应用峰值利用率来实现应用的负载度量。建立容量数据是容量管理中最为基础、重要的一个环节基于准确的容量数据有利于更有效的做容量预测和规划容量管理

-

数据历年大促数据运营流量预估压测数据日常数据每年618、双11大促活动的历史数据和运营团队时刻保持沟通,比如神券日,单品日,大型秒杀日的流量预估常态化压测数据历年大促全链路压测数据日常均值日常峰值数据标准化数据统一化凭经验预估容量基于历史数据,做出预测按比例扩充基于当前值和目标值的按比例换算压测单机压测全链路压测容量管理

-

容量预测方法VS常规方式智能预测容量管理

-

智能预测模型数据验证1、历史数据、以及压测数据,验证预测2、不断调整模型,使其预测更加精准样本回归1、样本数据回归预测建立模型1、回归分析:线性、非线性、一元回归、多元回归数据准备1、数据准备:QPS和CPU利用率2、数据时间周期统一3、数据清洗,去噪01020403容量管理

–概览图数据分析监控形式监控大屏日报/周报监控预警服务能力监控视图业务层级视图

业务实时视图CDN带宽视图 DB资源视图Hbase资源视图

单机曲线视图工具应用标注 压测实时负报表配置 载统计核心应用视图Jimdb资源视图CPU占用率算法负载统计算法聚类

|

回归分析业务数据报表整点高负载DB大促报表机房资源总览物理机总览统计报表所有应用负载部门数据报表Jimdb大促报表整体概览应用信息总览部门资源总览异常应用负载CDN带宽报表历史数据报表机器资源总览数据说明基础数据CMDB数据预处理数据模型数据存储数据查询数据聚合KafkaNSQJimdbClickhouseMySQLESBDP3精细化运营容量管理核心

-

质量和成本业务迅速发展,

带来运营成本飞速增加,

如何确保不陷入成本失控的困境,一直是困扰各方的难题应用稳定性压倒一切,

各方需要确保服务稳定性和高可用,

为业务迅速发展保驾护航质量和效率容量管理体系为运维同学跟进应用运营提供数据支持

和决策依据,

提升应用可用性的同时,提高工作效率。成本管控容量管理体系更进一步的作用在于成本管控,如何在低成本运营前提下,

确保服务稳定性,

确保服务质量不降低,是运维同学面临的一大难题。平衡容量管理

-

水位线机制合理利用率区间10%15%20%xx%xx%xx%应用负载追求平衡显而易见,提高使用率也不是越高越好。应用的稳定性和高可用性为前提风险线 低负载

高危线 安全线 水位线安全线风险线:紧急扩容高危线:限流降级容量管理

–精细化运营在确保应用稳定性的基础上,缩减运营成本,降本增效。积累场景,沉淀解决方案,通过工具化平台,系统解决场景化问题,提升工作效率。确保应用稳定性,高可用性。高质量低成本高效率精细化运营4总结与展望总结

–主动运维AIOPS体系全景图数据采集数据处理指标配置数据存储数据服务数据清洗统一化日志 数据聚合 标准化数据检索可视化数据开放数据拆分 细粒度MQ 流式计算 京东BDP大数据平台 离线计算 大数据存储在线分类计算能力机器学习分析算法离线相似性质量异常检测故障预测根因分析成本

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论