网易云音乐稳定性保障体系_第1页
网易云音乐稳定性保障体系_第2页
网易云音乐稳定性保障体系_第3页
网易云音乐稳定性保障体系_第4页
网易云音乐稳定性保障体系_第5页
已阅读5页,还剩26页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、网易云音乐稳定性保障体系稳定性保障体系依赖治理实践故障演练实践后续规划网易云音乐产品介绍2013.04网易云音乐正式上线定位音乐社交和移动社区2015.07用户数突破2亿2017.04用户数突破3亿2017.03网易云音乐4.0版上线在音乐APP中首个上线短视频功能网易云音乐2.0版上线 增加私人FM2014.022016.07用户数突破1亿3.0版上线全面推进个性化2015.10用户数突破4亿2017.112017.09上线自制精品付费电台进军知识付费领域2018.012018.032019.08用户数突破8亿2019.08主办国内首个独立音乐人盛典硬地围炉夜2017网易云音乐原创盛典5.0

2、版本上线,全新升级视频页面全新社区版块“云村”稳定性治理挑战日常流量保持高位运行,对系统可用性要求高,稍有不慎,引发舆论危机云音乐的社交属性,有传播发酵的天然优势,小活动也能带来流量裂变随着云音乐业务高速发展,系统稳定性要求越来越高,相应地,对稳定性测试工作提出了挑战流量冲击系统复杂稳定性意识线上系统复杂度,指数级增长稳定性保障工作覆盖面广且杂,任意环节没有做到位,都能引起大事故线上故障是低频偶发事件,ROI不明确,在迭代过程中以业务产出为导向,稳定性工作容易被忽视稳定性意识周期性波动,由低频事故强化意识+随着时间淡薄,稳定性专项推进困难稳定性治理思路实战演练为抓手方法论、工具链为基础演练发现

3、 恢复预防高效、可持续管控稳定性风险高可用组件标准化部署 资源使用优化充分暴露不稳定因素 训练强化人员稳定性意识撬动开发、测试、运维协作闭环稳定性意识发现预防恢复复盘稳定性保障体系故障演练流量演练依赖演练准入条件准入条件完善依赖关系拓扑验证强弱依赖合理性评估容量,验证过载保护措施建立性能基线,把控迭代过程质量验证系统故障恢复能力、预案完备性和有效性真实操练,训练人员应急处置能力稳定性保障体系依赖治理实践故障演练实践后续规划依赖治理思路定义当依赖节点出现问题时,对系统核心业务数据、可用性产生影响,该依赖即为强依赖,反 之为弱依赖用途整改不合理强依赖关系,提升系统健壮性;验证弱依赖降级策略,提升系

4、统自愈能力 完善依赖关系拓扑,帮助诊断故障根因、容量变化趋势依赖治理思路指标项验收标准服务强依赖高级别应用不允许强依赖低级别应用P0资源层(业务方定义)允许被强依赖,非P0资源层不允许被强依赖服务弱依赖弱依赖断言返回码200(磐石平台默认值),可根据业务实际情况调整断言弱依赖降级预案不允许影响用户体验,且自动触发场景强依赖场景不允许强依赖非P0接口场景弱依赖弱依赖降级预案不允许影响用户体验,且自动触发场景强弱依赖场景维度梳理场景与服务间的强弱依赖关系明确业务影响范围,推动客户端稳定性保障服务强弱依赖接口/应用维度梳理服务上下游之间的强弱依赖关系推动依赖关系治理,提高服务稳定性流量录制回放流量检

5、索故障注入规则匹配依赖分析大盘审计依赖治理实践依赖治理实践应用维度的依赖关系判断应用间的耦合关系、提供依赖容量评估依据依赖治理实践api/rpc维度的依赖关系应用于故障分析诊断、降级方案设计依赖治理实践引入工作流,管控治理进展大盘展示依赖风险每日自动检测不合理依赖,提供定位信息依赖治理实践依赖治理成果用例数16w+链路覆盖率80%+发现问题数300+质量每天全量自动化执行全量执行耗时4h节省人力1h/功能点效率稳定性保障体系依赖治理实践故障演练实践后续规划故障演练思路定义为提高系统高可用性和训练人员应急处置能力,根据故障用例和故障恢复预案,进行演习 的过程背景压力施加在系统或模块的 性能测试流

6、量,模拟 系统真实运行状态故障注入代码级别系统级别机房级别故障演练思路指标项验收标准SLO故障演练实施后,达到99.99%发现时间故障发现到人员响应在15min内止血时间自愈时间15s 人工止血5min故障影响范围应用层:调用链路双向不影响无状态中间件:不允许出现全局性影响有状态中间件:要求自愈业务影响范围模块不可用用户比例 资损影响用户比例 资损金额故障恢复恢复效果:业务恢复、容量恢复、数据恢复如初 恢复时间:30min故障演练思路故障演练实践环境标准化:用完即抛,机器共享演练环境隔离:支持多套测试环境、线上环境,不影响正常测试工作故障演练实践代码级故障注入系统级故障注入故障演练实践参数配置

7、:故障注入对象、故障类型下发通道:故障命令执行器目标策略:注入对象的集群故障比例预期指标:故障时及故障恢复后的预期表现故障演练实践记录演练过程的关键事件监控系统表现、流量表现,后续打通业务指标故障演练实践基于用户场景,设计演练任务场景管理梳理数专评论页的所有接口,对接口定级故障演练实践演练环境根据接口链路信息,自动创建测试环境演练任务选择故障注入点和故障类型,批量创建演练任务故障演练实践验证评论服务在数专服务 故障时的应急预案数专服务rpc异常评论服务client注入数专rpc错误,远程调用失败故障下发后核心功能正常评论用户不显示头像挂件会员不能对付费资源评论故障恢复后业务恢复正常系统容量恢复正常故障演练实践故障演练成果用例数500+预案数200+故障类型50+发现问题数150+质量一键执行,产出报告服务端演练自动化节省人力5h/场景效率中间件高可用标准双机房部署标准资源隔离标准标准化稳定性保障体系依赖治理实践故障演练实践后续规划后续规划稳定性基线:依托

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论