新浪微博稳定性经验谈_第1页
新浪微博稳定性经验谈_第2页
新浪微博稳定性经验谈_第3页
新浪微博稳定性经验谈_第4页
新浪微博稳定性经验谈_第5页
已阅读5页,还剩32页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

新浪微博稳定性经验谈洪小军

@XiaoJunHong邀请嘉宾:唐福林@唐福林新浪微博@微博平台架构新浪微博稳定性经验谈什么是稳定的系统?少出问题快速解决清楚系统健康状况趋势新浪微博稳定性经验谈影响稳定性的因素依赖的资源、服务异常网络、硬件故障流量突增代码bug各种“坑”…….新浪微博稳定性经验谈存在不可避免的影响稳定性的因素,但是又需要保证系统的稳定性,怎么做到?新浪微博稳定性经验谈构建稳定的系统?少出问题:DesignForFailure快速解决清楚系统健康状况趋势新浪微博稳定性经验谈DesignForFailure分层隔离(分离核心和非核心接口、服务化等)SLA保证(资源、服务等各层面保证)保证代码质量(最佳设计模式、测试、CodeReview)容灾设计(多IDC、多点部署)容量规划(保持一定富余)完善的监控报警机制(异常监测及其流量增长预警等)灰度发布……新浪微博稳定性经验谈分层隔离–分层模型waDNS七层(Nginx、Varnish…)应用层(Tomcat、Jetty…)服务层中间件资源层(Cache、Storage…)新浪微博稳定性经验谈分层隔离–隔离目标和原则保证异常出现时影响范围可控按主要接入方隔离按业务隔离按功能核心程度隔离新浪微博稳定性经验谈分层隔离–隔离方式物理隔离|逻辑隔离读写隔离DNS七层应用层服务层|中间件资源层隔离成本低中中中高新浪微博稳定性经验谈SLA保证服务提供方:服务对外的SLA承诺服务消费方:对依赖资源或服务的SLA要求新浪微博稳定性经验谈SLA保证–超时控制依赖的资源或服务超时控制异步调用超时控制新浪微博稳定性经验谈SLA保证–谨慎重试异常场景下重试可能导致系统持续恶化对于写入场景存在数据重入风险新浪微博稳定性经验谈SLA保证–容量规划每季度至少一次例行性评估重大活动前容量评估监控系统黄色预警日常30%以上冗余资源或系统架构调整时需要重点关注新浪微博稳定性经验谈SLA保证–

Failover策略服务降级:保核心功能快速失败:保证不卡死流量限制:保正常请求新浪微博稳定性经验谈SLA保证超时控制谨慎重试容量规划Failover策略新浪微博稳定性经验谈不能保证系统方方面面都能自动Failover,但是又需要保证系统的稳定性,怎么做到?新浪微博稳定性经验谈构建稳定的系统?少出问题:DesignForFailure快速解决:容灾预案清楚系统健康状况趋势新浪微博稳定性经验谈容灾预案IDC容灾(切换到其它IDC)限流(拒绝超出或异常的请求)降级(降级有问题资源、保核心功能)紧急快速扩容……新浪微博稳定性经验谈所做这些都是有效的吗?是否有遗漏?在测试环境下已经做了充分测试!线上呢?等待异常出现时来验证系统是否经得起考验?OR新浪微博稳定性经验谈在线容灾演练–Touchstone系统确认碰撞时安全气囊是否开启(DesignForFailure)事后有应对措施(容灾预案)保证影响在预期可控的范围之内!新浪微博稳定性经验谈构建稳定的系统?少出问题:DesignForFailure快速解决:容灾预案清楚系统健康状况趋势:在线容灾演练新浪微博稳定性经验谈Touchstone系统介绍引流线上真实流量异常场景搭建和模拟容灾预案预演验证系统运行稳定性状况ResourceServerClient新浪微博稳定性经验谈引流线上真实流量通过tcpcopy引流线上真实流量到演练服务器图片来源:tcpcopy官方文档新浪微博稳定性经验谈异常场景搭建和模拟资源提供方搭建真实异常场景使用linuxtc模拟依赖资源和服务异常场景接口字节码形式注入sleep代码模拟接口慢的场景ResourceServerClient123新浪微博稳定性经验谈容灾预案预演模拟异常的场景运维人员做相应预案操作验证系统运行稳定性状况新浪微博稳定性经验谈怎么判断系统是稳定的?接口层面分析返回码中4xx、5xx等比例响应时间是否在正常范围内是否满足SLA要求返回包大小(辅助手段)日志分析(辅助手段)……最终用户层面前端页面展示新浪微博稳定性经验谈Touchstone系统–实时数据展示新浪微博稳定性经验谈Touchstone系统–报表输出新浪微博稳定性经验谈通过输出的异常数据,怎么分析系统问题点?新浪微博稳定性经验谈异常影响程度叠加放大描述:某组资源延迟400ms,但是接口整体持续延迟2s串行化操作?新浪微博稳定性经验谈功能相关的接口同时受到影响描述:某资源异常,依赖此资源的功能都受较大影响依赖性的影响!思考:分层隔离中被隔离开的功能是否受到影响?是否存在非核心资源影响核心功能的情况?期望的SLA保证是否都生效?新浪微博稳定性经验谈大范围大量接口受到影响描述:某资源异常时,tomcat中大量接口出现503系统过载?容器保护策略失效?新浪微博稳定性经验谈某个接口的所有请求都受到影响描述:某个存储节点异常,依赖此存储的接口全部受到影响资源单点部署?只有一套slave?新浪微博稳定性经验谈稳定性演练系统输出系统稳定性状况系统优化改进建议切实有效的处理预案新浪微博稳定性经验谈保证系统一直处于稳定状态新系

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论