邹辉-腾讯云-IaaS技术负责人-高可用设计之道_第1页
邹辉-腾讯云-IaaS技术负责人-高可用设计之道_第2页
邹辉-腾讯云-IaaS技术负责人-高可用设计之道_第3页
邹辉-腾讯云-IaaS技术负责人-高可用设计之道_第4页
邹辉-腾讯云-IaaS技术负责人-高可用设计之道_第5页
已阅读5页,还剩58页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

高可用设计之道Zou邹辉湖北恩施华科大公邹辉湖北恩施华科大10年华为+腾讯10年华为+腾讯 DOCKERLB监控……不抽烟、不喝酒、五音不全、爱旅游腾讯云基础产品中心IAAS负责人想与大家探讨的•如何衡量一个系统可用性?•构建一个高可用系统,可以从哪几个方面入手?•过载保护、灰度发布、柔性可用的概念及应用•常见的负载均衡技术实现。124124可可用性是什么?•影响可用性因素•可用性不是过度设计架构设计架构设计如何提升可用性33天天下武功唯快不破有人的地方就有故障深圳福永IDC-蛇口IDC间线路被挖断有人,就有意外(bug),有意外(bug)就有故障重启•重启•软件BUG•变更发布•服务器宕机•磁盘只读•交换机故障•机架故障•机房故障•专线故障•光纤挖断•带宽满•流量陡增•误操作•遗漏•策略错误 (平均无故障工作时间) (平均无故障工作时间)MTBF*100/(MTBF+MTTR)%业务正常时间/(业务正常时+业务异常时间)TR (平均故障恢复时间)可用性可用性90*24*60/(90*24*60+20)=99.98%少出故障快速定位故障少出故障快速定位故障快速解决故障快快速发现故障我们不能控制别人,但是我们能够控制自己可用性完美架构业务场景可用性完美架构业务场景成本成本衡脱离业务场景去做架构设计就是耍流氓!!12341234可用性是什么可用性是什么?架架构设计如何提升可用性•小彩灯带来的思考•腾讯典型设计思想天天下武功唯快不破节日小彩灯带来的思考小彩灯带来的思考接入层集群集群 虚拟机服务VPC务服务集群上海地域……地域API集群二区集群串联到并联的改变接入层集群集群 虚拟机服务VPC务服务集群上海地域……地域API集群二区集群一区一区集群集群MYSQL各种云服务MYSQL各种云服务调度系统官网集群二区二区集群一区集群集群集群集群•机房内多实例容灾•后端系统多地分开部署,分开服务无状态设计CLB业务恢复并联在接入层+逻辑层的应用无状态设计CLB业务恢复接入层接入层逻逻辑层及剔除业业务影响1/N该无状态的就无状态,该CLB的就CLB换机换机机机CLBCLBCLBCLBCLB本身的并联设计换机换机机机CLBCLBCLBCLB换机换机地区二地区一CLBVIP地区之间容灾方案地区内部容灾方案拉取配置配置下发CLB的另一种思路取对端址收缩机探测馈成功率馈延时 B(业务)A(业务)gent基于客户端的拉取配置配置下发CLB的另一种思路取对端址收缩机探测馈成功率馈延时 B(业务)A(业务)gent基于客户端的负载均衡L5比例公共服务器集群循公共服务器集群ipport%tCipport10%请求 策系统,不构成将路由下发到L策系统,不构成将路由下发到L5Agent触发DNSAgent拉取定要求,属于比较运行方式以VIP方式提供,对业务透明需要业务修改代码调用API制较简单,敏感度低并联在缓存+数据库层的应用Lster Cache CacheAccessAccessAccessCache多套多套Cache,分布在多台机器同同Cache主备部署,分布在两台机器Cache1Cache2/接入层备Cache1Cache2/接入层备库主缓存多点数据库主备CacheCacheN自研的复杂性。建议用云上的缓存+数据库服务YSQLMemcacheAPIAAPI服务器 Memcache缓存服务Cmem缓存服务Cmem1如何降低单个小彩灯故障?软件系统中的雪崩效应多米诺骨牌我们需要把故障控制在一定范围!跳闸断及早拒绝•后端反馈给前端及早拒绝•后端反馈给前端繁忙•前端保护后端•后端直接拒绝量力而为•设置超时时间•设置队列长度分离部署•快慢分离•轻重分离•用户分离动态调节•监控告警•自动调节如何降低单个小彩灯故障?控制住故障后,如何让故障对业务的影响降到最低?成功成功 成功API查服务服务成功记录日志忽略并继续失败失败失败判断SessionTrue继续False返回失败接口级别的柔性可用:绕过故障的非关键接口滴滴中的舍与得?成本资源人力时间成本资源人力时间体验体验一一致性可用性速度需求产品级别的柔性可用:学会砍需求~优秀的代码是高可用架构的基石!12341234可用性是什么可用性是什么?架构设计架构设计如何提升可用性•环境问题•灰度发布天天下武功唯快不破30%10%5%30%10%5%8080%变更流程是一个持续优化改进的过程回滚方案周知周边团队变更官网公告大系统不同人,不同团队负责?每次发布回滚方案周知周边团队变更官网公告大系统不同人,不同团队负责?每次发布只发布其中一块,影响有限,回滚迅速每次发布只发布其中一块,发布效率的提升控制台流程系统服务OSS灰度发布预发布环境模模块向前兼容模模块解耦发布AAPI完完善测试环境灰度方案灰度发布高可用的最后一道关口灰度方案分步伐选择别递增量一次灰的范围性要少灰度发布是时间与安全要少12341234可用性是什么可用性是什么?架构设计架构设计如何提升可用性天天下武功唯快不破在客户发现问题之前发现问题网络拨测软件日志监控模调/运行数据网络延时、吞吐进程监控短信、微信网络拨测软件日志监控模调/运行数据网络延时、吞吐进程监控短信、微信问题的发现最快可以做到秒级~硬硬件资源监控CGICGI、接口拨测模模拟服务拨测统统一告警平台人工干预告警能不处理的不处理、能自动处理的自

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论