




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
阿里云-服务技术-SRE/任新成 01业务稳定性保障大图 02日常态有效预防之故障演练 03日常态实时防护之流量控制 04日常态高效组织之应急协同 05日常态快速恢复之多活容灾 06大促态业务稳定性保障实践 07业务稳定性保障未来趋势展望-流量管控入口流控热点隔离集群流-流量管控入口流控热点隔离集群流控熔断降级-故障演练练编排架构感知容灾演练-应急协同促全链路压测变更封网管控大促应急流程态稳定性分警分析快速恢快速恢复-多活容灾流量路由流量纠错规则管理键切流大故障定责规范故障通告流程故障应急流程监控覆盖规范变更熔断规范运维操作红线新人上岗认证大促封网规范大促保障流程⼀键升级有损低频/⽆损⾼频客户界⾯•⽀持SLB、ECS⼀键升级有损低频/⽆损⾼频客户界⾯•⽀持SLB、ECS、RDS等多项阿⾥云服务丰富的演练场景•主机节点兼容Linux、Windows多操作系统NEW故障演练平台多样的演练形式适配集成易⽤的演练平台•业务系统架构⾃动化感知应⽤架构•多种演练恢复策略,安全可控安全的演练保障•多维度权限管控,可控演练•应⽤级别的爆炸半径NEW适配集成线线上真实故障事件维系统模拟流量摸底单元化/容灾爆炸半径持续集成环境技术可观测设施稳态识别预案系统爆炸半径异构云架构商架构⼚商A、⼚商B…⼀站式演练实施流程多样化演练制动环境/资源隔离多维度权限管控应⽤级爆炸半径演练防护基础设施演练容⼀站式演练实施流程多样化演练制动环境/资源隔离多维度权限管控应⽤级爆炸半径演练防护基础设施演练容器平台演练业务应⽤演练云服务演练演练场景⼀键接⼊微服务演练容器演练容灾演练架构⾃动感知故障效果可视化爆炸半径可视化可视化演练实施收益故障定位能监控辅助定位巡检辅助定位故障应急协同服务组介⼊影响⾯评估故障根因定位核⼼系统⽣产环境/仿真环境根因复盘预案执⾏⼈⼯恢复切流⾃愈监控项检查改进措施服务响应慢(卡)服务⽆响应(吊)服务退出(死)数据损坏故障发现能故障处置能⼈⼯定位故障恢复故障复盘故障场景演练⼯单经验沉淀演练⼯单经验沉淀研发⼈⼈⼯触发CI/CD组织运营双随机演练模式演练⼤屏看板⽣产质量分析报告演练数据运营专题保障项⽬跨部分分享日常态业务稳定性之实时防护–流量控制异常激增流量•激增流量打垮冷系统(数据库不稳定服务依赖•慢QOJ查询卡爆连接池池量的副作用SLBNGINX日常态业务稳定性之实时防护–流量控制SLBNGINX 动态请求动静请求分离 ⾮⾮法请求热点/普通流量探测分离;精细流控热点/普通流量探测分离;精细流控机机器B机机器C机器机器E机机器F它应用它应用•根据应⽤容量流控;•⾃适应系统防护•慢SQL;缓存击穿防护;日常态业务稳定性之高效组织–应急协同快恢预案初因定位应急结束指标统计快恢预案初因定位应急结束指标统计人员调度故障直播间故障发生排查定位复日常态业务稳定性之快速恢复–故障发生排查定位复业务快速恢复故障发故障发生切流-业务排查定位MSFECSBSpringCloudSpringCloudAliwareMQAliwareMQ单元请求分流./单元化部署.1业务代码改造MSFECSBSpringCloudSpringCloudAliwareMQAliwareMQ单元请求分流./单元化部署.1业务代码改造数据星型复制A云/RegionB云/Region层CDNCDN/DNS/IPMSFE30%70%30%APPPAPAPPPCCSBMsha-SyncMsha-Msha-SyncMQ-RouterMQ-MQ-Router双向•特性:•自定义分流规则,接入层集群实现入口流量路由和纠错t务层•特性:•支持网关模式(CSB)、直连模式(Sync同步)•单元服务寻址能力•服务路由保护特性•支持组件:企业版MQ数据层•特性:•数据同步•数据单元保护、延迟策略保护数数据单元保护容灾切容灾切流大促态业务稳定性保障–双十一大促时间轴大促态业务稳定性保障–全链路压测全链路压测全链路压测3个核心环节:压测环境、压测平台、压测数据对应真实的线上环境,压测结果和问题暴露都是最真实情况,可通业务模型,和真实业务情况保持一致全链路压测交易模型核心指标:容量总目标、单元路由规则、拆单比、平均子订单、全链路B/C比PC/无线比、基础压测数据模型(买家/商品/卖家数量)、优惠模型、购物车模型、极热点模型、红包模型、平台和商家津贴比例等压测数据(基础数据)测环境(⽣产系统)数据准备平台数据准备平台/文件流量控制平台/模型压测引擎压压测引擎压测引擎压测引擎北京阿里CDN河南CDN节点上北京阿里CDN河南CDN节点上海阿里CDN压压测引擎malldetailtmallbuytmallcartcartlogincpmalldetailtmallbuytmallcartcartlogincpumpmaybachbtddetailp压测平台与容量平台、限流平台、GOC、DB等进行了打通•p压测平台与容量平台、限流平台、GOC、DB等进行了打通•容量:核心应用的CPU、RT、成功率等级指标•限流:非极限摸高场景触发限流&核心指标下跌•GOC:核心业务指标(全站交易、购物车等)异常•DB:数据库设定的核心指标异常p安全机制•针对压测流量放松安全策略,使得压测流量不被判别为攻击流量p全链路压测的流量通过在链路上带上特定的压测参数来区分p所有中间件的协议都支持对压测流量的识别,使压测标识能够随着调用传递下去•实现下游的应用、基础中间件和存储都能够识别压测流量p全链路压测在同一个数据库的实例上对数据库表建同样结构的影子表进行数据隔离大促态业务稳定性保障–变更封网管控**通过合理的大促态变更管控可以有效减少系统变更带来的风险,确保双11大促期间系统的平稳安全运行多年大促变更封网持续优化的实践沉淀,业务模型(分层精细封网策略)+平台化(ChangeFree)【变更系统分层封网模型】业务层应应用相关re业务运营业务运营(资损类)座基础设施云上基座调度/流量benode物理网络服务器云安全云网络计算存储天基CDNASI………业务型-核心/非核心应用区分强弱管控业务型-业务低风险强封弱不封业务依赖通用组件强弱都封全局基础组件强弱都封【业务精细封网策略】全域封网场景强管控期弱管控期业务大促-小型大促 (5W笔/s<交易峰值<10W笔/s)0天1.7天:峰值前1天的08:00开始,至活动当天/结束业务大促-普通大促 (30W笔/s>交易峰值>=10W笔/s)0.25天(6小时)小时2.7天:峰值前2天的08:00开始,至活动当天/结束业务大促-高峰大促 (交易峰值>=30W笔/s)1.2天:峰值前1天+峰值后4小时4天:值前3天,至活动当天/结束节假日 (国庆、春节)0天国庆7天,春节9天:节假日期间(仅春节前后各增加1天)重保0天重保时段执行弱管控「名词定义」全域封网:参与封网BU和变更系统均超过20个&持续时长超过1小时;全域封网严格控制封网时长和范围强管控:所有操作的变更系统全封,紧急发布、白名单审核、一键审批集中管理,大促回收至大队长管理弱管控:底层基础平台全封、业务依赖通用系统全封、核心业务全封,非核心业务不做管控,破网审批BU闭环大促态业务稳定性保障–变更封网管控ChangeFree,接入CF后执行变更的流程•通用服务类:影响大促的所有操作和对象封网弱管控期强管控期应用配置•通用服务类:影响大促的所有操作和对象封网弱管控期强管控期应用配置(diamond、switch等)应用配置(diamond、switch等)应用全部应用应用运维应用配置仅核心应用全部应用运营峰值前后小半时峰值前后半小时不封网数据计算数据平台D2数据平台D2中间件管控中间件管控中间件管控数据库/Tair云产品全等等基础设施某次双11大促封网管控案例•应用类:仅大促相关的BU核心应用封网•通用服务类:业务依赖公共组件+全局基础组件弱管控期弱管控期强管控期10.2910.3110.270点11.14点11.211.811.100点11.114点10.2910.31变更类型20年双1120年双11弱管控,21年双11不封网用类21年双11大促态业务稳定性保障–大促态应急流程大促态业务稳定性保障–大促态应急流程重大故障影响 (BG重大故障影响 (BG)核心可用率 (核心BU)故障时长 (下钻至BU、各子团队)故障分 (下钻至BU、各子团队)年度回顾预案演练红黑榜红蓝对抗全民扫雷BU安全生产周会生产突袭影响层级BuHead技术TL稳定性一线人员季季度回顾新人培新人培训安全生产日安全生产日安全生产课安全生产课程制作红烂红烂苹果练安全生产安全生产年年:•乱世重典,盛世恤刑事件中心 Af-rMnq事件预警
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025-2030年中国乳酸行业投资价值研究报告
- 2025年中国朝天辣椒粉市场调查研究报告
- 2025年中国数码仪表市场调查研究报告
- 襄阳科技职业学院《信息可视化》2023-2024学年第二学期期末试卷
- 肇庆市实验中学高中生物:伴性遗传第课时的集体备课教案模版
- 2025至2031年中国继电耦合型接线端子排行业投资前景及策略咨询研究报告
- 新疆体育职业技术学院《汽车专业英语》2023-2024学年第二学期期末试卷
- 2025-2030年中国ORC发电行业发展深度测评及投资可行性预测研究报告
- 新疆医科大学《英语视听二》2023-2024学年第二学期期末试卷
- 信阳艺术职业学院《职业定位发展》2023-2024学年第一学期期末试卷
- 2025-2030中国生物质能发电行业市场现状供需分析及投资评估规划分析研究报告
- 夫妻债务转让协议书范本
- 普法宣讲杨立新-民法典-人格权 编【高清】
- 2023中国电子科技集团有限公司在招企业校招+社招笔试参考题库附带答案详解
- 2025年房地产经纪人(业务操作)考前必刷综合题库(800题)附答案
- 桌球助教合同协议
- 电商行业10万字PRD
- 2024-2025学年八年级下学期道德与法治期中模拟试卷(一)(统编版含答案解析)
- 10.2 保护人身权(课件)-2024-2025学年七年级道德与法治下册
- 高一下学期《双休时代自由时间背后暗藏残酷筛选+你是“猎手”还是“猎物”?》主题班会
- GB/T 26354-2025旅游信息咨询服务
评论
0/150
提交评论