




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
从“救火”走向“防火”——商业平台业务运维实践救火防火时间都去哪儿了救火防火•
越是做到高级阶段,防火的工作所占的
比重就会越高。•
从救火到防火,不是一蹴而就的事情,
应该是个逐渐演进的过程思考点发生发现响应全部恢复时间故障发现故障响应故障修复开始处理故障定位提升故障
发现率提升故障处理速度降低故障率目标故障预防过程
Agenda如何提升故障处理速度如何提升故障发现率如何降低故障率123故障响应规范应急处理预案这些都做了,还有提升的空间吗?
准确识别故障响应时间目标与措施
快速判断
故障定位时间
快速执行故障修复时间•••••7*24值班规范
•
分析数据及图表
•
流量切换工具
•
报警内容
•
服务降级工具职责与分工
•
故障运维手册
•
数据修复工具故障预演
•
任务修复工具•
回滚工具•
数据提取工具•
……主要受哪些影响因素
影响因素
1、新手2、故障处理步骤繁杂
应对方法优化报警内容,使报警内容变得可依赖。报警内容除了报告问题,还将故障的判断和处理方法附在其中。
利用数据任务调度管理系统,
对数据任务进行统一管理优化报警内容该报警对应的运维专员联系方式该报警对应的开发人员联系方式减少对运维人员经验的依赖,使得新人和值班人员都可以快速处理灵活配置报警内容降低维护成本,提升工作效率繁杂数据故故障处理存在的问题题:•不能快速识识别哪些任任务失败了了,影响了了谁•一个任务失失败会导致致多个任务务失败,每每个任务的的任务都会会发一个报报警•处理多个任任务失败时时,需要人人工确认修修复顺序,,还要等待待每个任务务执行完成后再再人工执行行下一个•如果果所所需需数数据据源源存存在在短短暂暂延延迟迟到到位位,,会会导导致致任任务务执执行行失失败败并并报报警警,,有有时会会对对运运维维人人员员产产生生干干扰扰ABCDEFGHIJKLM…繁杂杂数数据据故故障障处处理理数据据任任务务调调度度管管理理系系统统:•实时时自自动动的的可可视视化化数数据据任任务务关关系系图图•能快快速速识识别别哪哪些些执执行行失失败败及及影影响响范范围围•父节节点点任任务务失失败败后后报报警警,,子子任任务务节节点点不不再再执执行行((也也不不会会报报警警))•恢复复关关键键路路径径节节点点任任务务时时,,只只需需选选择择带带依依赖赖执执行行,,后后续续子子节节点点任任务务会会自动动执执行行,,无无需需人人工工干干预预,,等等待待•支持每个任务务自定义重试试次数和间隔隔,如果任务务所需数据源源存在延迟提供现象,不不会马上报警警,直到达到到最大重试次次数为止,降降低对运维人员的干扰ABCDEFGHIJMLK……繁杂数据故障障处理Agenda如何提升故障障处理速度如何提升故障障发现率如何降低故障障率123••••••••网络连通性机器存活远程可达丢包检测容量监控磁盘故障磁盘坏道内存条检测基础资源类完善监控指标标常规业务类自定义业务类类••••端口进程Curl工作日志••••••••任务始止类关键组件监控控一致性类跨界类监控数据流监控超时/延时类类失败率/成功功率……自定义业务类类监控…………监控项低位警界线业务系统健康康度趋势高位警界线监控项加强关注!加强关注!导致全面短信报警过多多产生麻木心理降噪•监控的系统::300+•监控的实例::20000+•运维人员短信信接收:人均均每天6条•报警策略•报警分层•精准下发取得的效果采用的手段报警分层网段可用机器存活远程可达业务类ABCDEFGHIJMLK……数据依赖任务务报警精准下发发运维值班1运维值班2运维专员1运维专员2运维专员3运维专员4运维专员N开发人员1开发人员2开发人员NAgenda如何提升故障障处理速度如何提升故障障发现率如何降低故障障率123它山之石,可可以攻玉数据说话有针对性的推推动改进!避免重复性故故障!代码发布是故故障的导火索索上线次数趋势势图异常处理趋势势图推动开发人员员有针对性解解决•程序Bug•设计缺陷•代码配置•部署问题变更操作是故故障的导火索索•••••业务模块新增增机器机房迁移,变变更IP机器故障更换换下线业务模块块……••••••维护系统配置置部署相关监控控维护应用环境境及配置维护访问控制制关系更新代码配置置(研发人员员)……常见运维变更更涉及哪方面的的操作涉及大量的IP、访问关关系等信息,,操作繁杂!!机器1机器2…机器N……………………系统配置监控策略访问关系其他操作繁杂,易易出错某个业务抽象运维对象象减少人工干预预优化技术架构构抽象运维对象象机器1机器2…机器N系统配置监控策略访问关系系统配置监控策略访问关系AppID机器1机器2…机器N……………………其他运维人员之前之后级别等……配置策策略服务管理……报警策策略监控策策略…自动机制机器列列表新机器器发现现自动生生成监监控项项基础监监控部部署App1机器1…机器N策略变变更嗅嗅探通用配配置分分发私有监监控部部署……App2机器1…机器N自动生生成配配置策策略树树私有配配置分分发自动更更新发发布目目的地地AppN机器1…机器N机器规规模越越大效效果越越明显显1.当某App中有有新机机器到位时时,会会对该该机器器自动部部署相相关的的系统统配置、、监控控项,,同时时自动更更新对对应App的代码发发布地地址列列表2.当某个个App有有系统统配置更新新、监监控策策略更更新时,,会下下发到到所有有相关的的机器器减少人人工干干预只需针针对Appid设置置一次次相关关策略略,其他工工作全全部自自动完完成…………机器11机器12…机器1NApp1机器21机器22…机器2NApp2机器31机器32…机器3NApp3机器41机器42…机器4NApp4机器51机器52…机器5NApp5机器61机器62…机器6NApp6机器71机器72…机器7NApp7机器81机器82…机器8NApp8应用间复杂杂且不透明明的访问关关系服务端要确确认被哪些些客户端访访问,才能能保证正确确的开通访访问白名单单:机器+接口+方法机器11、机器12……机器1N机器31、机器32……机器3N机器61、机器62……机器6N客户端需要要访问服务务端:机器11、机器12……机器1N机器21、机器22……机器2N规范化后的的开发架构构客户端(服务使用用者)服务端(服务提供供者)1.2.3.4.5.人工在管理理界面中进进行服务注册与维维护,管理理服务端及接口,,以及客户户端对哪些接口访访问等客户端启动动时获取服服务端机器及URL列表服务端启动动时获取访访问控制列表服务端及接接口发生变变更时自动推送给给客户端,,更新调用服务器器的机器及及URL列表客户端及接接口发生变变化时自动推送给给服务端更更新访问控制列表表RPC协议议客户端代理理RPC协议议客户端代理理…RPC协议议服务端代理理客户端代理理负载均衡器器并发访问拦拦截器白名单拦截截器服务对象代代理3524管理UI1服务注册中心服务治理框框架层RPC协议议层业务层…………机器11机器12…机器1NApp1机器21机器22…机器2NApp2机器31机器32…机器3NApp3…机器5NApp5机机器器5512…机器6NApp6机机器器6612小范围试点点,效果显显著,推广广使用访问控制、、自动路由由、负载均均衡如果App1有新机机器到位::•框架会自动动通知App5、App6的的所有机器器,App1已已有新机器器为他们提提供服务,,各机器自动将请求求均衡落到到App1的各台机机器上•同时,自动动通知App2的所所有机器,,有新机器需要纳入入到他们的的访问白名名单自动容错、、负载均衡衡如果App2有机器器宕机:•框架会自动动通知访问问它的App1、App3、、App6的的所有机器器,App2有机器器故障已不不能提供服务•各机器的访访问请求不不再向故障障机器发送送,并自动将请求求均衡落到到App2存活的机机器上WarOrRPM标准化发布布方式App1机器1机器1机器N机器N机器分组组A机…器2机器分组组B机…器2自动部署署重启回滚检查一致致性安装卸载启动停止主任务子任务WarOrRPMApp2………………从救火走走向防火火发生发现响应全部恢复复时间故障发现现时间故障响应应时间故障修复复时间开始处理理故障定位位时间提升故障障发现率率(及时全全面准确确)提升故障障处理速速度(快速有有效)降低故障障率(有效防防御)数据修复复工具流量切换换工具服务降级级工具回滚工具具数据提取取工具……职责与分分工7*24值班规规范故障响应应规范故障处理理预案故障预演演量化问题题管理抽象运维维对象减少人工工干预优化技术术架构目标措施预防故障障发生完善监控控指标建立业务务健康度分析体体系降低误报报率,提升准确确度故障运维维手册分析数据据及图表表报警内容容可依赖赖准确识别别快速判断断快速执行行后续努力力方向•更智能–智能监控控–智能故障障修复–智能健康康度评估估•更轻量–简单易控控–随时随地地9、静夜四无邻邻,荒居旧业业贫。。1月-231月-23Thursday,January5,202310、雨中黄叶叶树,灯下下白头人。。。17:58:3217:58:3217:581/5/20235:58:32PM11、以我独独沈久,,愧君相相见频。。。1月-2317:58:3217:58Jan-2305-Jan-2312、故人江海海别,几度度隔山川。。。17:58:3217:58:3217:58Thursday,January5,202313、乍见翻疑疑梦,相悲悲各问年。。。1月-231月-2317:58:3217:58:32January5,202314、他乡生白发发,旧国见青青山。。05一月20235:58:32下午17:58:321月-2315、比不不了得得就不不比,,得不不到的的就不不要。。。。一月235:58下下午午1月-2317:58January5,202316、行动出成成果,工作作出财富。。。2023/1/517:58:3317:58:3305January202317、做前,能够够环视四周;;做时,你只只能或者最好好沿着以脚为为起点的射线线向前。。5:58:33下午5:58下下午17:58:331月-239、没有有失败败,只只有暂暂时停停止成成功!!。1月-231月-23Thursday,January5,202310、很多事事情努力力了未必必有结果果,但是是不努力力却什么么改变也也没有。。。17:58:3317:58:3317:581/5/20235:58:33PM11、成成功功就就是是日日复复一一日日那那一一点点点点小小小小努努力力的的积积累累。。。。1月月-2317:58:3317:58Jan-2305-Jan-2312、世间间成事事,不不求其其绝对对圆满满,留留一份份不足足,可可得无无限完完美。。。17:58:3317:58:3317:58Thursday,January5,202313、不知知香积积寺,,数里里入云云峰。。。1月-231月-2317:58:3317:58:33January5,202314、意志坚坚强的人人能把世世界放在在手中像像泥块一一样任意意揉捏。。05一一月20235:58:33下午午17:58:331月-2315、楚塞三湘接接,荆门九派派通。。。一月235:58下下午1月-2317:58January5,202316、少少年年十十五五二二十十时时,,步步行行夺夺得得胡胡马马骑骑。。。。2023/1/517:58:3317:58:3305January202317、空山新雨后后,天气晚来来秋。。5:58:33下午5:58下下午17:58:331月-239、杨杨柳柳散散和和风风,,青青山山澹澹吾吾虑虑。。。。1月月-231月月-23Thursday,January5,202310、阅读一切好好书如
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 公司材料欠款合同范本
- 小院改造转让合同范本
- 墙绘合同范本
- 农民蜂蜜销售合同范本
- 吉林省吉林市丰满区2024-2025学年八年级上学期期末考试数学试卷(含答案)
- 废气治理合同范本
- XX大学XX学院毕业论文答辩演讲模板
- 2025版权交易的代理合同
- 2025年度智能生产线升级借款合同
- 2025国内技术转让合同示范文本
- 2024年山西华阳新材料科技集团有限公司招聘笔试真题
- 2025年03月双鸭山市“市委书记进校园”引才活动黑龙江能源职业学院13人笔试历年典型考题(历年真题考点)解题思路附带答案详解
- 2025年湖南兴湘投资控股集团有限公司春季校园招聘28人笔试参考题库附带答案详解
- 比例的应用(教学设计)-2024-2025学年六年级下册数学北师大版
- 农业机械设备使用与操作指南
- 2025年03月春季甘肃临夏州引进高层次人才和急需紧缺专业技术人才344人笔试历年参考题库考点剖析附解题思路及答案详解
- 2025年03月州省气象部门第二批公开招聘应届高校毕业生34人(第6号)笔试历年参考题库考点剖析附解题思路及答案详解
- 图书管理员的岗位技能要求与试题及答案
- 自体输血管理制度与技术规范
- 燃气管道管道吹扫方案
- 2025年浙江省初中学校TZ8共同体中考数学一模试卷
评论
0/150
提交评论