服务器下的基础运维智能化实践课件_第1页
服务器下的基础运维智能化实践课件_第2页
服务器下的基础运维智能化实践课件_第3页
服务器下的基础运维智能化实践课件_第4页
服务器下的基础运维智能化实践课件_第5页
已阅读5页,还剩22页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

阿里巴巴海量服务器下的基础运维和智能化实践GOPS

全球运维大会2019·上海站目录业务介绍1整体架构2安全运维3智能化之路4GOPS

全球运维大会2019·上海站我们是谁GOPS

全球运维大会2019·上海站\$$ᚆᬩⒸଘݣ:一套自动化数据中心管理系统,管理数据中心中的软硬件生命周期,各类静态资源编排,基础软件的版本和发布解决什么问题GOPS

全球运维大会2019·上海站设计理念设计理念终态系统:当前态向终态逼近,假设失败会在任何地⽅发⽣⾼吞吐和⾼可靠:热备,快速服务切换能力稳定性和鲁棒性:即使天基系统瘫痪也不能影响管理的服务⾃版本维护,天基运维天基:⾃⼰部署⾃⼰,从⽆到有部署天基的能⼒飞天智能运维平台系统最核心的设计,业务联动的监管控一体化安全运维以及恢复机制和变更机制的统一声明式(Declarative)变更。无论是配置变更,还是软件升级、硬件变更,都是通过一个格式化的说明文件来提交。这个对于避免人工失误是非常有效的。变更、恢复和修复机制的统一:面向终态的设计使得这三类操作采用同样的机制。集成的监控机制:自动发现故障运维系统要解决的问题:能够最大化的无人干预,信息化->自动化->智能化稳定安全,能够尽量避免人工失误,并且在失误或故障发生的情况下,能快速进行恢复GOPS

全球运维大会2019·上海站目录业务介绍1整体架构2安全运维3智能化之路4GOPS

全球运维大会2019·上海站Region化GOPS

全球运维大会2019·上海站不做100%可用的假设,不能因为中心服务不可用,而影响别的服务版本兼容和自管理相邻三个版本之间必须保证向下兼容版本和升级自维护,自己运维自己减少单点故障master存状态,其他模块无状态,可重入每个模块功能设计尽量简单确定信号触发确定行为轻量快速的服务状态检查Monitor状态机反馈,监管空一体化自包含:Package

Model,减少对环境的依赖,易于清理分布式设计+HDOLQJ6HUYLFH'HSOR\6HUYLFH'HYLFH0DQDJHU3RUWDO&$3,6HUYHUWMSUR[\6HUYLFH0DQDJHU&RQƉJ0DQDJHU6\V(QY0DQDJHU'RZQORDGHU$YDLODELOLW\6HUYLFH6LPSOH'HFLGHU6HUYHU6HUYLFH'HFLGHU0RQLWRU$SS1$SS26HUYHU5ROH7LDQML&OXVWHU8VHU

&OXVWHU6HUYHU5ROH:

7LDQML.7LDQML&OLHQW'HOLYHU\TianjiAdaptorTjMasterOn

PaxosGOPS

全球运维大会2019·上海站变更天基品用户提交发布GOPS

全球运维大会2019·上海站变更定义:通过平台进行的软件部署、版本升级、配置变更、扩容、缩容等操普通模式:所有的机器同等对待,审批之后开始升级。金丝雀模式:先选两台机器,试着升级,成功了再升级剩下的。grayunit模式:灰度升级,用户可以自定义灰度策略。滑动窗口模式:自定义机器升级并发数,保证任意一个时刻,升级机器不超过并发数非安全模式:不考虑服务可用性,所有的机器直接升级Adaptor业务灰度模式:查询批次返回机器灰度模式普通

金丝雀

grayunit

滑动窗口

Adaptor业务灰度GOPS

全球运维大会2019·上海站灰度模式普通

金丝雀

grayunit

滑动窗口

Adaptor业务灰度GOPS

全球运维大会2019·上海站灰度模式普通

金丝雀

grayunit

滑动窗口

Adaptor业务灰度GOPS

全球运维大会2019·上海站灰度模式普通

金丝雀

grayunit

滑动窗口

Adaptor业务灰度GOPS

全球运维大会2019·上海站灰度模式普通

金丝雀

grayunit

滑动窗口

Adaptor业务灰度GOPS

全球运维大会2019·上海站自愈系统应用系统机器整机替换离线修复故障注入在线修复机器机器系统机器HealingServiceRepairServiceReplaceServiceChaosManagerGOPS

全球运维大会2019·上海站自愈领域自愈范围负责服务自愈实现方式发现问题决策修复动作MonitorState基础硬件monitor应用上报1.2.3.4.按照规则触发修复actionquotamanageractionmanageraction

translatorServiceDecider1.2.3.对action进行审批simpledecidercustom

decider1.2.3.GOPS

全球运维大会2019·上海站x_laborxx_laborxxx_laborLabor目录业务介绍1整体架构2安全运维3智能化之路4GOPS

全球运维大会2019·上海站Infrastructureas

CodeGOPS

全球运维大会2019·上海站通过配置文件定义一切一切变更都是基于code

review的configuration

change通过服务模版方式管理版本和配置服务在不同集群之间版本配置尽量保持一致终态不管当前状态,向终态前进安全运维三驾马车:Monitor

+

状态机

+

Decider践行devops角色实例

Monitor产品根据自身CheckHealth结果汇报的信息角色实例

KeyMonitor用于处理check_health_app本身异常,无法汇报信息的情况机器

Monitor对服务器进行监控产生的监控信息GOPS

全球运维大会2019·上海站Monitor状态机GOPS

全球运维大会2019·上海站Simple

Decider应用通过定义百分比的方式实现Decider逻辑,天基根据百分比自动审批Custom

Decider应用自己实现逻辑,通过天基API与天基交互Adaptor

Decider应用按要求提供openApi,天基负责调用GOPS

全球运维大会2019·上海站Decider目录业务介绍1整体架构2安全运维3智能化之路4GOPS

全球运维大会2019·上海站ݻ$Ꮠᦡfl@ƒ ᬩⒸ §ᄍ¾––>

AIOps所有操作线上化规范,效率,数据积累过程结果数字化透明,可衡量,智能化的基础分析决策智能化准确,高效,全局优化\$$ᏐᦡflᬩⒸದfiᄍ¾$ᕚ自动化数字化智能化GOPS

全球运维大会2019·上海站DC–Brain:\$$Ꮠᦡfl$ᚆᬩⒸ¾@ଘݣGOPS

全球运维大会2019·上海站fi ଫ$៧flfl‰集群和服务器智能化运维大规模计算系统供应链智能化数据中心智能化运维供应链智能化整体方案:针对供应链特点,打造需求、运营、分析、决策智能化方案实现数据驱动、基于算法的需求预测、库存优化、TCO分析和优化自动闭环环境:打通自动化工具和系统平台与智能化算法的闭环系统为未来进行先进AI算法和系统探索、部署奠定基础针对数据中心电热性能进行优化包括:冷量预测控制、Power预测控制、IDC电热感知、PUE优化等对现场运维进行智能化改造包括:多媒体信息处理巡检、安防视频识别、工单智能派发等集群智能化方案:提升集群和服务器的稳定性和可靠性包括:服务器和部件故障预测,跨域关联,根因分析,规则生成提升集群资源利用率和流转率包括:集群资源异常检测,关联分析智能决策GOPS

全球运维大会2019·上海站集群资源智能探查集群利用率异常检测低水位和闲置智能判断和预警服务器&部件故障预测智能管理&修复集群自动管控故障智能化在线修复决策集群和服务器智能化布局硬盘故障预测内存/宕机故障预测根因分析ᵞᗭ޾๐ª࢏$ᚆᬩⒸ••实现从专家规则->智能分析的演进实现问题和故障的处理方式,从被动响应->主动发现->提前预测GOPS

全球运维大会2019·上海站集群资源智能探查集群

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论