![蚂蚁故障应急全流程体系构建及应用实践_第1页](http://file4.renrendoc.com/view14/M03/1F/28/wKhkGWdcJRiAESPHAADR8ELAY0I259.jpg)
![蚂蚁故障应急全流程体系构建及应用实践_第2页](http://file4.renrendoc.com/view14/M03/1F/28/wKhkGWdcJRiAESPHAADR8ELAY0I2592.jpg)
![蚂蚁故障应急全流程体系构建及应用实践_第3页](http://file4.renrendoc.com/view14/M03/1F/28/wKhkGWdcJRiAESPHAADR8ELAY0I2593.jpg)
![蚂蚁故障应急全流程体系构建及应用实践_第4页](http://file4.renrendoc.com/view14/M03/1F/28/wKhkGWdcJRiAESPHAADR8ELAY0I2594.jpg)
![蚂蚁故障应急全流程体系构建及应用实践_第5页](http://file4.renrendoc.com/view14/M03/1F/28/wKhkGWdcJRiAESPHAADR8ELAY0I2595.jpg)
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
刘凯宁l蚂蚁集团SRE技术专家l熟悉全链路技术风险防控方案,深度参与过容量、资源、压测、应急、变更、资金安全等领域的业务布防和能力建设l多次参与公司级超大型活动的稳定性保障,承担过大促保障队长、全链路压测负责人、全链路资源容量负责人、全链路资金安全保障负责人等角色n谁应该为线上稳定性负责? 在日常运营中,无论什么原因导致我们服务中断、l用户服务体验下降:故障的核心要关注用户感受,可通过客诉舆情获知用户投诉,也可以通过监控渠道主动推知用户端的使用情况。l无论什么原因:无论是蚂蚁集团自身原因,还是第三方如供应商、运营商,或者蚂蚁集团调用了别人的服务出了问题,影响到用户,都是故障l不包括的情况:用户方环境(没有联网等)或者自身操作引起是故障是故障是故障不是故障M客诉量资损金额客诉量资损金额作为标准,评价已经发生的故障等级,对影作为标准,评价已经发生的故障等级,对影最终定级针对明确的业务故障场景,需要100%监控覆盖,并接入GOC724盯屏,及时发现异常触发应急止血SRESRE随有新业务或系统架构重大调整时,各业务可时以按需随时拉起随有新业务或系统架构重大调整时,各业务可时以按需随时拉起review,定稿后邮件公示一般是每半年由GOC同学发起进行统一review,不同业务逐次进行故障场景及等级修订,定稿后邮件公示CCTWSPTWSP1-5-10-301-5-10-30登录关键功能此处举例,不代表真实场景,数字仅供参考风公告审批公告发送公告管理风险事件分析改进措施跟进风险事件管理风险项扫描风险项处理公告审批公告发送公告管理风险事件分析改进措施跟进风险事件管理风险项扫描风险项处理风险治理审计规则管理审计事件跟进运维风险审计蚂蚁国际财富保险风险团队工作台支付宝蚂蚁国际财富保险风险团队工作台支付宝个人工作台个人工作台数字科技OB、语雀系统管理工作台数字科技OB、语雀系统管理工作台大安全风险运营工作台风险运营工作台故障管理GOCGOC场景定义故障应急协同故障复盘故障复盘改进措施跟进改进措施跟进复盘改进应急处理复盘改进应急处理生命周期管理丰富度升级定义合理跟踪在线审核公示布防水位管控自动场景演练多站点融合盯屏自动化通告事件自动关联等级辅助判断应急值班管理应急托管接入团队协同复盘自动化分析复盘自动验收改进项标准事件接入措施辅助跟进改进措施分发审计功能公告功能场景管理生命周期管理丰富度升级定义合理跟踪在线审核公示布防水位管控自动场景演练多站点融合盯屏自动化通告事件自动关联等级辅助判断应急值班管理应急托管接入团队协同复盘自动化分析复盘自动验收改进项标准事件接入措施辅助跟进改进措施分发审计功能公告功能场景管理风险扫描接入风险项处理风险项通知风险统计分析审计规则制定审计事件分析审计规则执行审计结果跟进公告录入公告权限管理公告审批及加签公告触达率分析风险治理风险扫描接入风险项处理风险项通知风险统计分析审计规则制定审计事件分析审计规则执行审计结果跟进公告录入公告权限管理公告审批及加签公告触达率分析风险治理钟恢复率技术风险定期评奖技术风险定期评奖生产故障处罚条例全局稳定性小组全站应急值班长技术风险运营小组应急管理制度变更管理制度稳定性等级保障制度海豹突击队应急值班长体系应急体系升级统一应急体系统一应急体系统一的1-5-10应急技术体系依赖应急专家沉淀平台能力部门应急值班长部门业务稳定性一号位XX一级部门应急小组部门应急值班长部门业务稳定性一号位XX一级部门应急小组Action分发和进展跟踪负责各部门之间的应急协同负责全站故障应急指挥负责各部门之间的应急协同负责本部门故障应急指挥负责本部门故障应急指挥盖、应急快恢能力建设、应急人员培养、风险意识培训盖、应急快恢等事项调调度、应急止血、故障影响消除、蚂蚁全局稳定性小组成立建立考试制度,持证上岗按年度换届、稳定运行蚂蚁全局稳定性小组成立建立考试制度,持证上岗按年度换届、稳定运行首次发布应急值班长制度由小组成员挑选出对业务有一定了解,有组织力、决策力应急止血应急组织↑蚂蚁应急值班长专业度责任心认同感专业度责任心认同感告警告警时效性、召回率端智能异常告警端智能异常告警↓基础运维层(集群)客诉类告警客诉类告警客户端服务端基础设施层(单机)蚂蚁应急体系端智能异常告警蚂蚁应急体系基础应急SLA业务应用应急能力统一运维平台应急资源池物理机房XX站点标准应用XX站点标准应用主站标准应用灰度应急资源池主站线上应急资源池灰度应急资源池主站线上应急资源池机房A机房B机房C业务整体降级单功能点降级动画效果降级异步降级风控咨询降级链路弱依赖降级调整任务速率日志降级基础运维操作应用扩容应用重启应用关流|替换|下线日志清理接口限流/应用限流SQL限流DB切主机房级别切流链路切流单应用切流效果类切流服务端迭代回滚前端迭代回滚客户端开关回滚客户端版本回滚DRM回滚运营配置回滚DB变更回滚VIP变更回滚一键停止压测一键停止自愈查杀数据/AI任务查杀悬挂事务数据预热修改业务配置数据订正数据迁移解决30%+解决60%+解决10%AgentBasicAgentProAgentBench平台自动评测接口触发评测用户自主评测text2graph数据工程预置OpsGPT-OpsGPT-变更操作记录监控查询记录评测数据xx动线记录预置RAG(Alpha)OpsGPT-OpsGPT-平台自动评测接口触发评测用户自主评测text2graph数据工程预置OpsGPT-OpsGPT-变更操作记录监控查询记录评测数据xx动线记录预置RAG(Alpha)OpsGPT-OpsGPT-复盘文档息抽取息推荐动线数据应急经验沉淀评测数据OpsGPT-Tool(GA)评测数据OpsGPT-Tool(GA)OpsGPT-Tool(Beta)预置Tool(Alpha)团队文档转换评
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年严格版租赁建筑工具合同示例
- 2025年采购合同优化谈判共识
- 2025年餐厅盈利与厨师股份策划挂钩协议范本
- 2025年嘉兴从业资格证货运考试答案
- 2025年大学生毕业实习与就业意向协议
- 2025年甘肃货运从业资格证笔答题
- 2025年加盟店管理合作协议模板下载
- 2025年上海考货运从业资格证题库
- 2025年拉萨货运从业考试试题及答案
- 2025年安徽货运从业资格证考试试题
- 新版中国食物成分表
- DB11∕T 446-2015 建筑施工测量技术规程
- 运输车辆挂靠协议书(15篇)
- 完整版:美制螺纹尺寸对照表(牙数、牙高、螺距、小径、中径外径、钻孔)
- 绘本阅读促进幼儿分享与合作行为发展的研究分析-以中班为例 学前教育专业
- 部编人教版五年级道德与法治下册全册课件完整版
- 医院医疗质量管理制度完整版
- 粤剧课程设计
- 食品感官检验基础品评员的岗前培训课件
- AQ/T 2061-2018 金属非金属地下矿山防治水安全技术规范(正式版)
- 《网络安全防护项目教程》课件项目1 系统基本安全防护
评论
0/150
提交评论