




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、百度智能持续交付的设计架构目录在百度做变更面临的挑战1百度智能持续交付的思路百度智能持续交付的实践 总结质量效率成本种类繁多,规模庞大,架构复杂业务迭代速度快服务稳定性要求高减少异常变更对服务稳定的影响控制运维人力投入满足业务快速迭代要求在保障服务质量的前提下,减少成本,提高变更效率在百度做变更面临的挑战传统交付方案与困境配置变更 内容配置执行 策略服务器滚动 部署全部部署 完成交付完成检查是否 符合预期中止并恢复服务自动化变更平台交付流程将智能运维引入持 续交付流程,增强 交付自动化,保证 质量同时提升效率线上报警 紧急回滚等待上线 周期太长程序功能不 符预期流程复杂频 繁中断配置错误 变更
2、异常目录在百度做变更面临的挑战百度智能持续交付的思路2百度智能持续交付的实践总结2007开放运维平台基础运维平台智能运维平台脚本工具20122014人工执行命令 脚本运维操作WEB 运维平台提供 API 接口 可配置可定制智能工程框架 智能算法策略敏捷半自动运维无人全自动运维运维理念百度运维发展史Gartner 的理解Algorithmic IT OperationsBig Data + Machine Learning驱动三大场景AutomationMonitoringService DeskSource:Gartner ReportIT Operations Analytics Must
3、Be Placed Within an AIOps Context. Will Cappelli (Research VP) | 26 August 2016我们对AIOps的理解我们的理解Artificial Intelligence IT Operations数据 + 策略 + 工程应用场景故障管理变更管理容量管理服务咨询Intelligent Agent智能运维工程思想运维知识库(OKB)运维操作抽象层(OPAL)运维机器人(Guardian)书同文:统一运维“语言”车同轨:统一运维“方法”应用、服务、机房、集群、镜像、机器.统一接口PAAS 1NoahPAAS2PAAS 3PAAS4.
4、适配不同平台的“驱动”.行同伦:统一运维“模式”SOP/Runbook asCode分场景定义运维模式;思路一致Code,Not Doc;行为一致个性化模型、配置、参数、数据提倡“复用”智 能 运 维 平 台智 能 解 决 方 案异常检测根因诊断止损决策容量预测故障管理场景服务咨询场景容量管理场景故障诊断&决策故障自愈故障发现&感知FAQChatbot自动压测容量规划自动扩缩容变更管理场景程序上线配置分发命令执行计算框架执行框架工具链状态管理运维开发框架ETLSchema管理查询&计算关联分析运维知识库运维策略库百度AIOps整体架构基础设施和生产环境核心思路:系统代替人的决策,根据人制定的目
5、标,自主执行变更,执 行过程中根据服务状态反馈,动态进行调整,实现无人值守交付智能持续交付系统思路配置变更 内容配置执行策略服务器滚动部 署全部部署 完成交付完成检查是否符合预期中止并恢复 服务配置变更 内容配置执行策 略服务器滚动部 署全部部署 完成交付完成检查是否符 合预期中止并恢复 服务智能变更平台交付流程自动化变更平台交付流程智能化目录在百度做变更面临的挑战百度智能持续交付的思路百度智能持续交付的实践3总结系统架构:使用框架构建变更机器人,整合变更数据,开发变更策略, 联动多场景基础设施能力进度展示查询状态改变状态任务下发运维知识库展现层运维数据目标集群数据采集服务实 时指标远程执行任
6、务干预变更机器人模板生成控制层变更检查运行框架变更消息执行结果智能持续交付系统实践数据训练监控采集系统集群控制系统基础设施运维策略库运维策略执行历史执行干预什么是模板明确变更执行的原则说明变更执行的步骤对模板的要求保证交付的安全高效尽量全面的描述细节智能生成模板Stage-0沙盒环境Stage-11% IDC-1Stage-2 99% IDC-1Stage-31%rest IDCsStage-499%rest IDCs智能检查智能检查智能检查原则:分级发布智能检查机房间顺序机器内顺序失败容忍度失败重试策略机房并发度执行超时粒度:单台机器,明确的顺序、并发度、容错策略机器并发度智能生成模板如何自
7、动生成模板原始数据运维知识库中全面的服务信息生成策略服务信息规则映射为模板数据 生产 过程分类映射服务管理模型和规范存储:MetaDB,TSDB,EventDB关联挖掘查询和视图反馈干预raw 数据 清洗消歧权限和配额质量控制核心数据中间数据择优计算数据 源管理类平台监控类平台操作类平台统 一 数 据 模 型AppHost元数据ProductServiceIDCPersonInstance.状态数据事件数据throughputcpumem bandwidthlatencyiortt.error diskanomalychangeroot causeremediation.运 维 知 识 库 整
8、 体 架 构模板参数元数据产品信息应用信息服务信息实例信息状态数据服务状态服务流量系统资源请求耗时事件数据变更发起事件变更干预事件服务异常事件智能生成模板服务顺序:bj nj gz机器并发度: 4机器顺序s, a ,b产品信息映射到模板的示例事件数据变更发 起事件状态数据、元数据应用对应服务列表服务下的实例列表 各服务流量占比 各服务下实例数量 各服务最小可用度实例标识变更机器人开发难点功能复杂运维平台差异很大难以复用组件化开发感知器Sensor决策器DM执行器Executor可扩展运行框架运维对象(变更应用)变更发起事件分级执行模板生成决策执行决策感知接口操作接口变更控制机器人感知自动/人工
9、干预事件检查干预决策Sensor多事件源支持推拉等方式访问事件源事件可聚合后再处理Decision-Maker规则匹配决策树基于状态的决策Executor多任务并发执行通过状态机、工作流两种模 式执行运维操作长流程支持长流程断点续起高性能控制系统远程执行是影响变更性能的关键环节高性能完整策略支持可干预能力REST API任务调度层任务缓存层任务下发结果汇报支持变更策略语 义支持暂停、中 止、跳过、重 做、撤销集群控制系统指标数据规模数十万台并发度万台并发下发延迟秒级任务量数千万/天支持快速回滚分机房部署智能变更检查如何检查服务状态指标多样性系统指标:CPU、MEM、NETIN/OUT业务指标:
10、请求资源召回个数可用性指标:请求拒绝数、请求成功率系统资源消耗增加召回资源变少系统请求成功率降低阈值上界阈值下界使用固定阈值自动化人工配置指标阈值自动判断指标异常情况指标异常则发送拦截消息指标阈值配置困难阈值选择困难准确率低,影响变更效率召回率低,影响可用性阈值需要不断更新类似程度下跌经常出现阈值下界阈值上界智能变更检查智能检查算法度量变更前后指标变化与历史变更是否相似与同模块未变更实例是否相似实验组(变更实例)对照组(未变更实例)历史变更实验组检查结果指标正常指标正常指标异常智能变更检查正常异常正常发起 变更否否与历史 变更表 现一致是与对照 组表现 一致是检查流程目录在百度做变更面临的挑战百度智能持续交付的思路 百度智能持续交付的实践总结4总结一键交付智能检查召回故障集人工检查召回集80%故障召回率变更引入故障全集全面指标覆盖设计思路系统代替人的决策交付过程无人值守实践要点模板模板满足分级发布原则依据知识库生成变更模板执行基于框架开发变更机器人集群控制系统远程控
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 深入理解项目管理模型的关键试题及答案
- 大数据数据挖掘方法论重点基础知识点
- 2024年种子繁育员考试重点试题及答案
- 2025家具定购合同范文
- 2024年种子繁育员考试中的实际案例解析试题及答案
- 2024年游泳救生员资格考试覆盖试题及答案
- 2024年游泳救生员职业安全措施试题及答案
- 四年级健康教育课程设计
- 项目管理流程设计能力试题及答案
- 项目管理考试的综合模拟练习试题及答案
- 2024年浙江杭州市林水局所属事业单位招聘拟聘人员招聘历年高频考题难、易错点模拟试题(共500题)附带答案详解
- 再生资源行业培训课件
- DB35T 2094-2022 公路工程竣(交)工验收质量检测技术规程
- STEM教育理念下大班科学活动的指导策略研究
- 对于慢性骨髓炎的护理
- 地下室手机信号解决方案
- 财务咨询顾问协议样本
- 光电轴角编码器校准规范
- 2024年中国邮政航空有限公司招聘笔试参考题库含答案解析
- 《物流成本管理 第4版》各章思考题及习题答案
- 带式输送机计算
评论
0/150
提交评论