2023龙蜥操作系统大会全面推进运维智能化分论坛_第1页
2023龙蜥操作系统大会全面推进运维智能化分论坛_第2页
2023龙蜥操作系统大会全面推进运维智能化分论坛_第3页
2023龙蜥操作系统大会全面推进运维智能化分论坛_第4页
2023龙蜥操作系统大会全面推进运维智能化分论坛_第5页
已阅读5页,还剩276页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2023龙蜥操作系统大会全面推进运维智智在创新:产学研联动开源模拟故障案例集系统助力行业标准的建立基础设施监控非常重要应用监控非常重要基础设施监控非常重要应用监控非常重要动环监控非常重要,是机房稳定的基石的可观测性工具都失去了灵魂网络流量监控非常重要图1:EnterpriseStrategyGroup.echTarget,(ESG)-ObservabilityfromCodetoClod,2002年2月运动式上工具产品和预期不一样防万一应用的软件bug,那帮外包程序员总也没法根治问题,三条两头crash,老板很生气,上一个应用监控产品来管管那现空调坏了,折腾一晚上才恢复,上个动环监控吧,这样可以提早发现问题产品之间缺少生态合作导致产品只能解决部分故障案例产品的设计哲学依据产品经理或者某一个专家经验构建,采购产品之后与预期效果有差距,进而对厂商提出采购产品之后与预期效果有差距,进而对厂商提出超出就换个厂商继续折腾对未来可能出现的故障场景缺乏了解任何人可以产生一致理解的典型故障任何人可以产生一致理解的典型故障任何人都可以在私有环境构建部署任何人都可以在私有环境构建部署起完善故障案例绝大多数故障案例开源开放开源开放License友好开源开放欢迎所有人一起完善故障案例任何人都可以在私有环境构建部署任何人可以产生一致理解的典型故障开源开放欢迎所有人一起完善故障案例任何人都可以在私有环境构建部署任何人可以产生一致理解的典型故障基于复旦开源的TrainTicket,覆盖绝大多数故障案例/anolis/soma/tree/master/chaos已经支持的故障案例已经支持的故障案例短期内将要支持的故障案例短期内将要支持的故障案例中远期将要支持的故障案例中远期将要支持的故障案例系统稳定性保障标准体系研究中国信通院稳定性保障实验室负责人王海清•稳定性保障体系都包含哪些内容•稳定性保障体系都包含哪些内容•稳定性保障技术能力•稳定性保障建设路径01020102•开展稳定性保障能力建设的背景和价值重要性:云服务稳定安全运行事关人民切身利益,事关社会稳定运行近年来云服务发展迅速,产业生态日益成熟,云服务的运行稳定已经是信息通信行业稳定安全运行的重要组成部分。云服务故障案例云服务故障案例2023年6月13日AWS出现2个小时的宕机,多个AWS服务的错误率和延迟持续增加,电子商务等多个业务受到影响。2023年1月25日微软Azure云产品由于广域网问题造成众多Microsoft365服务的持续性故障,用户服务中断5个小时。2022年7月21日微软的团队群聊与协作软件Teams出现宕机,无法访问和使用其功能,服务中断数小2022年7月19日谷歌和甲骨文在伦敦数据中心的冷却系统出现故障,导致部分实例终止和服务降级,该问题在十几小时后才得到解决。2021年11月16日,GoogleCloud服务器由于网络配置问题造成负载均波及全球用户。2023年6月19日早盘10时左右,中信证券的交易系统瘫痪,挂单后无法完成成交且无法撤销交易。2022年12月18日国内某云厂商由于其香港机房出现故障出现大规模服务中断事件,持续超过15个小时。2022年7月29日,神州专车发布通知平台暂时无法使用叫车服务,相关人员正在紧急抢修。2022年6月13日,“同花顺崩了”冲上微博热搜。同花顺在其官方微博上表示,部分用户受某云服务故障影2021年12月7日国内某云厂商部分的服务也发生了短暂崩溃事件。各级政府具体政策和措施各级政府具体政策和措施云服务稳定安全运云服务稳定安全运行应急演练专项活动金融标准化“十四五”发展规划关于银行业保险业数字化转型的指导意见“十四五”数字经济发展规划“十四五”国家信息化规划工信部举措类•工信部统一部署,联合信通院开展面向全国云服务运营商的云服务稳定安全运行应急演练专项行动中国人民银行政策规划类•提出统筹金融数据中心标准体系建设,制定数据中心灾备体系标准银保监政策规划类•强化网络安全防护。构建云环境、分布式架构下的技术安全防护体系,加强互联网资产管理,完善纵深防御体系,做好网络安全边界延展的安全控制。国务院政策规划类•增强网络安全防护能力。强化落实网络安全技术措施同步规划、同步建设、同步使用的要求。国务院政策规划类•培育壮大人工智能、大数据、区块链、云计算、网络安全等新兴数字产业,开发网络安全技术及相关产品,提升网络安全自主防御能力稳定性保障难度升高急迫性:分布式系统稳定性挑战加剧,产品侧与用户侧双向推动稳定性稳定性保障难度升高保障体系变革分布式系统稳定性保障难度升高,用户侧需求及预期的提升加剧稳定性保障挑战,急需适配新一代系统稳定性保产品侧产品侧技术域技术域系统复杂难预测系统复杂难预测流量冲击核心系统日常流量保持在高水位,并发请求量大、业务激增随机性强流量冲击应用之间依赖关系错综复应用之间依赖关系错综复杂,单一节点问题可能会被障影响范围难以评估难分析节点分布范围更广、数量更多,为日志采集、分析带来难分析管理域管理域技术规范缺失管理制技术规范缺失管理制度欠佳稳定性意识差稳定性保障建设投入产出比难衡量,大部分组织以业务产出为导向,稳定性工作易被忽视稳定性意识差技术技术标准、规范缺失,难以满足组织内技术发展要求管理管理机制老旧,不能适配快速发展、迭代的技术体系用户侧稳定性需求及预期升高用户侧系统依赖更强12 12 9.743 9.34345 9.0445 8.426 7.7167 4.69782.988不同应用用户规模*《第49次中国互联网络发展状况统计报告》故障容忍度低系统稳定性内涵及度量稳定性是系统稳定性是系统抗干扰和返回平衡状态的能力--《现代控制理论》系统稳定性释义如果你不能度量它,你就无法改进它。--管理学大师彼得·德鲁里业界通常用MTBF和MTTR这两个关键指标来衡量稳定性,这两个指标分别是「平均故稳定稳定核心目标是提升系统稳定的时间(MTBF)和降低系统不稳定的时间(MTTR)实践路径故障预防故障前故障改进故障后技术能力原则系统稳定性建设路径实践路径故障预防故障前故障改进故障后技术能力原则推进系统稳定安全生产能力提升降低故障发生概率降低故障发生概率降低故障影响范围/程度降低故障影响范围/程度人员组织人员组织流程机制流程机制运营能力运营能力生态建设生态建设故障发现故障发现故障中故障定位故障定位故障恢复故障恢复需求导向需求导向政府引导政府引导技术生态人才培养标准建设稳定性保障运营能力建设稳定性保障流程机制稳定性保障组织建设稳定性保障实施路径=流程机制技术生态人才培养标准建设稳定性保障运营能力建设稳定性保障流程机制稳定性保障组织建设生态建设降低故障发生概率降低故障发生概率降低故障影响范围/程度降低故障影响范围/程度值班机制值班机制稳定性巡检稳定性巡检稳定性周期总结稳定性周期总结专题行动专题行动开发测试机制产品发布机制产品变更机制持续运维与应急管理安全运营运维故障演练机制开发测试机制产品发布机制产品变更机制持续运维与应急管理安全运营运维故障演练机制组织与驱动力组织与驱动力参考中国信通院标准《分布式系统稳定性成熟度模型》完善稳定性组织能力,压实稳定安全运行主体责任组织与驱组织架构组织文化稳定性意识培育参考中国信通院标准《分布式系统稳定性成熟度模型》完善稳定性组织能力,压实稳定安全运行主体责任组织与驱组织架构组织文化稳定性意识培育战略规划需要考虑对系统稳定性的持续发展和支撑,系统稳定性在组织战略中以一定的形式体现。系统稳定运行需作为战略目标的重点考虑因素和内容负责系统稳定性工作的统筹规划、整体布局、组织协调和实施落实,包括组织制定并实施战略规划和技术路线、审议技术方案等稳定性团队构建稳定性团队构建标,并针对该岗位发展有明确的培训课程、培训目标以及考核机制总结事件经验,形成稳定性知识库,建设总结事件经验,形成稳定性知识库,建设组织内部沟通和协作机制,设立奖励机制,激励员工积极参与稳定性保障建设工作指导企业建设,提升全流程稳定性保障能力•第一:辅导企业优化稳定性保障整体机制,协助企业早期发现和修复潜在指导企业建设,提升全流程稳定性保障能力•第一:辅导企业优化稳定性保障整体机制,协助企业早期发现和修复潜在•第三:稳定性保障咨询可以将最佳实践和专业知识传递给组织内部的团制验点石成金参考中国信通院标准《分布式系统稳定性成熟度模型第二部分:机制成熟度》事前降低风险,事中及时预警,事后降低影响,持续提升用户体验持续运营:持续运营是确保组织的系统和服务持续高效运行的“不老针”稳定性体系的建设是一个持续不断的过程,其根本在于不断提升基础组件的容量和性能,以及确保研发和变更流程的安全升持续改进和创新是核心价值,组织实现高度自动化,并采用先进的技术和运营能力梯度提升运营能力梯度提升建立标准的运维和运营流任务。咨询建设价值参考中国信通院标准《服务韧性工程(SRE咨询建设价值参考中国信通院标准《服务韧性工程(SRE)建设成熟度体系第四部分持续运营能力》•通过咨询建议的最佳实践和流程改进,组织可以降低运维成本•咨询可以帮助组织更好地管理和监控其系统和应用程序分散的,无明确的流程和标准技术生态稳定性课程培训人才培养信通院可协助企业制定企业标准建设技术生态稳定性课程培训人才培养信通院可协助企业制定企业标准建设•系统稳定性保障赛道足够宽,整体而言参与者并不多,行业发展尚处于起步•稳定性保障建设行业发展成熟度差异明显,互联网与金融行业对新技术体系的接纳度较高。•企业内部沉淀稳定性保障相关技术文档,定期组织技术分享。组织结构化故障复盘,在企业范围内共享经验,帮助其他员工学习经验教训。•整合培训资源,以企业内部培养为主,外部多种培养方式为辅。可以考虑行业企业协同培养,结合各自优点,打造相对完善的培养方案•积极联合高校开展专业领域的合作并开设专属课题,将人才培养前置到高校阶段,为系统稳定性保障领域输送更多的专业人才。•建立负责技术标准管理的相关部门,制定标准管理措施和步骤,规范企业技术标准管理工作,提升标准质•广泛开展合作共建,积极与国家信息技术标准制定机构合作,推进系统稳定性的细分领域标准的制定。故障定位故障恢复故障改进故障发现故障预防故障复盘与改进统一指挥恢复优先故障发现故障预防故障定位故障恢复故障改进可观测性故障告警根因分析故障巡检链路追踪故障定位故障恢复故障改进故障发现故障预防故障复盘与改进统一指挥恢复优先故障发现故障预防故障定位故障恢复故障改进可观测性故障告警根因分析故障巡检链路追踪容灾切换应用多活故障复盘故障改进与追踪架构设计结合通信、金融、互联网等行业用户对系统稳定性保障技术的理解与实践,总结归纳系统稳定性保障技术体系包括故障预防、故障发现、故障定位、故障恢复及故障改进五大能力域。 故障预防故障预防容量管理全链路压测容量管理全链路压测消除单点依赖设计容错设计变更管控故障演练建设反馈容量管理相关规范容量管理相关规范上资源也需要相应地动态调整。过多资源资源影响服务响应性能、阻碍业务快速发容量管理是指以最高的性价比和快速的方法,使IT基础设施的容量切实且持续符合不断变化的业务需求的活动。精准的容量管理,可以使企业上云的预算规划更科学,同时也更贴合业务发展阶段的需要。中国信通院《容量管理技术分级能力要求》国家规定与标准要求力成熟度模型GB33136-2016明确全链路压测必要性压测前压测中压测中生产压测场景编排压力模型压力机准备发压调度压测监控数据清理压测报告压测记录流量透传数据隔离确定压测环境数据准备施压策略压测熔断性能建议服务挡板风险保护通信行业标准《全链路压测平台技术要求》【事前】全链路压测:在微服务场景下发现系统中可能存在的性能瓶颈和问题明确全链路压测必要性压测前压测中压测中生产压测场景编排压力模型压力机准备发压调度压测监控数据清理压测报告压测记录流量透传数据隔离确定压测环境数据准备施压策略压测熔断性能建议服务挡板风险保护通信行业标准《全链路压测平台技术要求》随着系统上云进程推进,系统架构越发复杂,业务场景越发多样化,对性能测试的要求也越来越高,传统的压测无法覆盖到所有的环节,导致通常会忽略掉某些基础服务或节点,所以传统压测已不能满足微服务场景下压力测试的需求。系统架构系统架构变革压测测试压测测试方式变革架构较简单单个系统功能点多调用链路明显变长,单个系统功能点少性能测试必须做到覆盖“全部”系统面向单机或单系统,主要关注单系统接口施中的单点故障陷阱、、,防止系统雪崩谨防隐藏在云的无形基础设构建限流降级熔断机制•施中的单点故障陷阱、、,防止系统雪崩谨防隐藏在云的无形基础设构建限流降级熔断机制•确保集群节点位于不同的云“区域”和“可用区”建设者•关键服务器冗余成集群•网络连接冗余成多通道•存储做镜像或者RAID冗余•数据中心通过容灾和双活实现冗余•服务做容错处理和依赖设计硬件单点存储单点机房单点基础技术单点服务注册中心单点数据单点外部服务单点前端资源单点是通过开关配置将某些不重要的业务功能屏蔽掉,以提高服务处针对服务请求数量的一种自我保护机制,当请求数量超出服务的处理能力时自动丢弃新来的系统容错能力熔断方出现故障时,调用方主动【事前】架构设计:构建韧性架构,避免架构设计不合理造成稳定性事故或性能瓶颈高等级服务不允许强依赖高等级服务不允许强依赖于系统启动依赖基础软件依赖业务域依赖数据库依赖硬件依赖赖依赖治理操作步骤依赖治理操作步骤应用接入应用接入依赖分析依赖分析依赖预判依赖预判依赖验证依赖验证方案归档方案归档参考中国信通院《分布式系统稳定性建设指南》参考中国信通院《分布式系统稳定性建设指南》,构建稳定韧性的系统架构《变更管控成熟度模型》变更制度管理变更规范管理变更流程管理变更管控准入变更影响面分析变更审核及审批变更风险分析变更前灰度/分批发布风险防御变更中产事故占比超过50%《变更管控成熟度模型》变更制度管理变更规范管理变更流程管理变更管控准入变更影响面分析变更审核及审批变更风险分析变更前灰度/分批发布风险防御变更中产事故占比超过50%变更操作越发高频且团队离散:从营等团队都具备线上变更操作。变更报告及数据沉淀变更度量与审计配置管理系统更新变更结果验证服务稳定性变更后权限管控为导致线上稳定性问题的主要引发因素。需要将变更管控视为技术问题来解决,完善相应的技术架构、管理制度以及适配的技术平台能力。系统复杂度无法避免:任何设计系统的组织产生的所有设计都将受限于组亚马逊系统复杂度NETFLIX系统复杂度变更执行容量上下游依赖其他为什么需要混沌工程混沌工程是故障演练的一种技术手段,作为保障分布式系统稳定性的重要技术,其提供了主动发现系统稳定性弱点的方法,近几年成为推动企业IT韧性系统建设的强大助力。起源奈飞为什么需要混沌工程混沌工程是故障演练的一种技术手段,作为保障分布式系统稳定性的重要技术,其提供了主动发现系统稳定性弱点的方法,近几年成为推动企业IT韧性系统建设的强大助力。起源奈飞DVD租赁业务因数据库故障中断3天奈飞业务上AWS云,但AWS服务实例会突然消失推出生产环境随机关闭服务实例的“混沌猴”云生产环境线上事故驱动出混沌工程故障点价值与成效价值与成效混沌工程使用频率与产品可用性提升显著相关。从未使用过混沌工程的受访者中,有近三成受访者产品可用性低于99%,而随着混沌工程使用频率提升,在每天都会演练的受访者中,这一比例急剧缩减到2.5%(右图蓝色模块),即随着混沌工程使用频率提升,低混沌工程理念混沌工程故障发现故障发现定位故障场景业务系统应用故障中间件故障基础资源故障生产环境/仿真环境预案执行人工恢复容灾切换故障复盘监控项检查改进措施故障恢复故障复盘故障监控故障巡检链路追踪根因诊断定位报实施规划体系建设混沌工程平台故障模拟演练工单改进建议演练计划完成度混沌工程理念混沌工程故障发现故障发现定位故障场景业务系统应用故障中间件故障基础资源故障生产环境/仿真环境预案执行人工恢复容灾切换故障复盘监控项检查改进措施故障恢复故障复盘故障监控故障巡检链路追踪根因诊断定位报实施规划体系建设混沌工程平台故障模拟演练工单改进建议演练计划完成度原子故障覆盖度故障场景探索度故障闭环程度产品赋能故障场景程度覆盖程度工程熟练度实验环境实验工具实验计划管理原子故障故障场景实验观测实验环境爆炸半径实验结果应用成效度组织建设度混沌工程混沌工程文化建设成熟度指导培训场景分析风险分析故障恢复与复盘落地的最佳组合用户入口用户入口《混沌工程成熟度模型》行业标准指导混沌工程在组织内阶梯化落地助力企业构建优秀混沌工程平台能力《混沌工程平台分级能力要求》行业标准业务连续性状况性能状况容量状况巡检评估维度巡检操作步骤明确确定性风险指标及基准各子域稳定性指标数据采集数据比对并出具风险报告实现日常巡检故障巡检基础设施状况信息安全现状业务连续性状况性能状况容量状况巡检评估维度巡检操作步骤明确确定性风险指标及基准各子域稳定性指标数据采集数据比对并出具风险报告实现日常巡检故障巡检基础设施状况信息安全现状则标,阀值与告警级别关联警通知人置故障告警根因分析耦合性如何在告警风暴时压缩告警?如何快速从大量告警中找到故障根源?如何提高不同团队的故障处理协作效率?如何实现对云设施的风险管理?>故障根因诊断为人工智能的分支,属于诊断性专家系统 知识库:规则集核心组件推理机:思维方式>根因诊断系统构建》警系统可观测性建设(故障巡检+故障告警+根因分析)帮助组织精准发现系统故障,识别定位故障根因。联动的数据集联动的数据集不是什么传统监控可观测性传统监控目标是及时的发现系统运行中发生的问题可观测性是在发现问题的基础上,具备分析问题和解决问题的能力是什么链路追踪:单个请求的完整处理流程录云上的复杂系统中将监控、日志与链路追踪有机结合的高效的“可观测能力”。未来可观测性从概念认知、标准制定、建设规范等方面实现大一统:观测数据统一化、丰富化应用领域多样化应用领域多样化可观测平台标准化、普及化可观测平台标准化、普及化敏捷开发流水线与观测工具的结合打破“先发布,后观测”的现有格局:流水线实时读取观测数据,确保部署前的测试过程无问题、部署之后版本运行状>全生命周期可观测,避免开发过程中“暗疾”况良好。在提升迭代效率的同时保障版本质量将可观测性应用到软件开发全生命周期,使得软件开发、测试、部署、,。可观测性系列标准推动组织提升可观测能力可观测性平台技术要求:可观测性是软件系统质量探索的基石,软件系统的可观测使得在此基础上的各种系统行为分析有据可依。可观测性建设成熟度模型:为组织提供一种系统性的方法来评估、改进和提升其可观测性体系建设。可观测性平台技术要求可观测性建设成熟度模型根因分析平台能力要求同城多活和异地多活是应用多活的典型部署形态《应用多活成熟度模型》联盟标准技术提升需要构驱动因素业务覆盖需要更高的灾难恢复要求接管能力难单数据中心扩展受限资源利用率低指导容灾建设能力在组织内阶梯化落地同城多活和异地多活是应用多活的典型部署形态《应用多活成熟度模型》联盟标准技术提升需要构驱动因素业务覆盖需要更高的灾难恢复要求接管能力难单数据中心扩展受限资源利用率低指导容灾建设能力在组织内阶梯化落地驱动署多活架构的技术特性处理影响接入数据并存储助力企业构建优秀应用多活架构能力《应用多活架构能力要求》行业标准指导容灾能力梯度提升应用多活是以应用为中心的云原生容灾架构,是“应用容灾”技术的一种高级形态。当灾难发生时,多活系统可以分钟级内实现业务流量切换,用户甚至感受不到故障发生。同城多活异地多活云容灾、云迁移、多活、混合云容灾数据库复制双活主备容灾可视化4、故障追踪管理机制变更闭环数据驱动绩效支持保障高优先级的问题构建故障跟踪平台,基于线上化的问题跟踪数据进行自动化催办4、故障追踪管理机制变更闭环数据驱动绩效支持保障高优先级的问题构建故障跟踪平台,基于线上化的问题跟踪数据进行自动化催办-故障分析过程、根因分析、定责、改进方案-发布方式:风险通报、专项例会、监控部门通过管理机制及工具赋能平台流程控制研发测试需求产品第三方加强平台能力建设,提升监控覆盖面与准确率,提升根因诊断等异常完善应急处置过程的协同效率,信息传输及触达效率,完善人员能力、工具平台能力的提升修复程序设计逻辑缺陷,提升系统健壮性,增加日志完备度与监控埋点需求,加强版本管理优化等提升非功能性测试、功能性测试覆盖完善业务逻辑设计、功能设计完善硬件、软件、线路等方面的健分角色推进故障改进-可观测性平台、应急预案、应急演练、应急协同-高可用架构设计、容灾设计、架构实施-应用开发、应用设计、应用测试、版本控制-变更测试、变更计划、变更故障、变更实施-配置更新、参数配置、配置检查-产品缺陷、硬件故障、产品补丁-数据备份、监控预警、保障方案-问题跟踪、解决时间、总结分析故障复盘是为了分析故障处置行动,沉淀经验,转化为团队能力中国信通院基于研究基础,提供复盘优化能力建设评中国信通院基于研究基础,提供复盘优化能力建设评估和咨询系统稳定性保障关键技术总结故障前系统稳定性保障技术体系建设提升架构韧性加强故障隐患排查提升系统容错能力故障中前期准备提升风险感知敏锐度提升应急处置水平抓住重点加强故障定位、分析能力完善落实复盘信息传导故障后责任到人,跟踪处理信息传导故障后强化绩效上医治未病尽早预防故障,降低故障发生几率40%止血大于修复⑧下医治已病推动故障闭环,降低故障复现率2.云服务系统容灾恢复能力2.1容灾恢复制度检查2.22.云服务系统容灾恢复能力2.1容灾恢复制度检查2.2容灾恢复能力测试3.云服务事故应急处理能力3.1云服务应急响应机制审查3.2云服务应急预案演练1.1.云服务系统稳定可靠能力1.3可观测性能力测试云服务稳定安全运行保障体系•安全运行责任制•云服务分类分级管理•云服务稳定安全运行保障体系•安全运行责任制•云服务分类分级管理•考评考核制度•联防联控机制风险隐患排查化解能力•平台关键指标监测运行事故应急处置能力运行事故应急管理体系•预案演练机制•信息上报及披露机制•应急管理复盘•应急管理平台能力48重要系统冗余保障能力•备份策略•数据恢复策略•系统可用性策略•容量监测管理关键业务智能管控能力•可观测性技术能力•全链路压测技术能力•混沌工程技术能力•配置管理能力•变更管控能力踏实踏实、务实、求实的“稳保”梦之队刘馨蔚阿里云高级开发工程师龙蜥社区系统运维SIGContributor01当前运维的趋势和挑战02探索及实现路径SysOM应用观测实践SysOM智能监控实践统以及IaaS底层从ColocationIaaSPaaSFaaS数据数据数据数据ServerlessServerlessServerlessServerless操作系统操作系统操作系统操作系统虚拟化(xen、kvm)虚拟化(xen、kvm)虚拟化(xen、kvm)虚拟化(xen、kvm)物理机物理机物理机物理机数据中心数据中心数据中心数据中心Ansible/AWXGrafana/Zabbixperf/ftrace/bcc•无法对部署的系统进行稳定•基于操作系统现有的数据接口、日志进•基于基线的告警存在大量的误报员•通过大量工具的组合应用进程B的内存问题,很难让运维人员进程B的内存问题,很难让运维人员大量PageCache形成前端工具/库Tracing框架libscaplibscapfuncgraphfuncgraphSystemTapTrace-cmdTraceeauditdFalcoPerf_event_opensyscalltracefsbpfsyscallAuditingSubsystemtracepointHarwareeventstracepointHarwareevents(HPC…)fentry/fexitfunctionhooks(ftrace)提供tracing数据的来源perf/ftraceperf/ftraceSurftrace工具使用eBPF诊断基于eBPF的持续raptorJava;可靠性和用户满意度 监控2BasicObservability可靠性和用户满意度 监控2BasicObservabilityProactiveObservability43CausalObservabilityBusinessObservabilityLevel2LevelLevel2Level3Level4“三大支柱数据”有限资源的使用情况磁盘...系统出现错误或异常的情况,通常用错误数、错误率softlockup...节点健康度指标关联根因分析节点健康度指标关联根因分析集群健康度资源画像水位评估ContinuesProfiling台根因分析和智能诊断根因分析和智能诊断发起诊断和分析数据根因分析,重新根因分析,重新应用性能和瓶颈发现、智能监控、异常告警、根因分析、深入诊断应用性能和瓶颈发现、智能监控、异常告警、根因分析、深入诊断慢查询系统级根因剖析慢查询系统级根因剖析Java应用可观测性能火焰图自动分析分析应用和系统指标,跳转执行相应诊断跳转到应用监控大盘分析典型问题根因,输出结论跳转应用典型异常事件大盘分析应用和系统指标,跳转执行相应诊断跳转到应用监控大盘分析典型问题根因,输出结论跳转应用典型异常事件大盘全局流量拓扑全局流量拓扑发现RT指标异常步诊断/修复建异常原因和进一议Java运行时异常原因和进一步诊断/修息主要时间消耗在相关系统指标的对比 步诊断/修复建异常原因和进一议Java运行时异常原因和进一步诊断/修息主要时间消耗在相关系统指标的对比 融合java和系统的调用栈信息监控告警诊断结果以网络为中心的应用感知技术研究创新视角下的微服务性能、安全与故障感知探索与实践张晗、李亚慧清华大学01云原生及微服务相关研究成果01云原生及微服务相关研究成果未来展望以网络为中心的应用感知加强数字基础设施建设加强数字基础设施建设在内的沉浸式新技术研发投入3300万英镑、向数字安全软件开发和商业示范投入7000万美国、欧盟、日本、新加坡等国家纷纷加快信息基础设施建设,提升数字经济产业竞争力截止2023年,中国在用数据中心机架总规模超过位居世界第二[3]。56.3%其他FDP43.7%数字经济 “数字中国”被首次写入建设整体布局规划》,数 “数字中国”被首次写入建设整体布局规划》,数字中国建设有的里程碑。在首届数字中国建设峰会的贺信中深刻阐明数 规划》,明确到2025年数字中国建设取得决定“十四五规划“十四五规划”表:"十四五”规划中提出的数字经济重点产业云原生被用来表示“anapproachinsoftwaredevelopmentthacloudcomputingtobuildandrunscalableaenvironmentssuchaspublic,private,云原生被用来表示“anapproachinsoftwaredevelopmentthacloudcomputingtobuildandrunscalableaenvironmentssuchaspublic,private,andhybridclouds"[4]. mware[4]/wiki/Cloud-native_computinggvisor[5]/wiki/Microservices据估计[6],截至2023年,微服务行业市亿美元。增长幅度与增长规模与云原生市 微服务架构的经典应最终引起了Amazon突遭全球大面积故障,用出现异常。直至Gmail邮箱,谷歌日用服务质量感知服务的运行效率和响应速度服务依赖关系的分析服务负载均衡和资源分配的最优化安全事件感知潜在的安全威胁和漏洞网络流量的异常模式通信行为的突然变化非典型的数据传输行为故障中断感知不寻常的流量激增或下降服务响应时间的显著变化应用服务的中断或不稳定现象以网络为中心信模式、通信数据等基础设施与应用以网络为中心信模式、通信数据等基础设施与应用以应用为中心打印维护了应用语义的日志立体组件覆盖完整感知应用无缝链路追踪技术路线分类定义以系统为中心以系统为中心利用端系统原有运维能力或修改端系统,在端系统处采集日志,间接实现对云原生应用的感知开箱即用监控开箱即用监控松耦合多样性松耦合多样性敏捷性虚拟化追踪工具应以无侵入、零插码的方式,快速便捷地提供结果在多语言、多内核长调用链、高虚拟化下无预标记的跨度组装数据收集write拒绝钱包攻击(Denial拒绝钱包攻击(Denial-of-Wallet)理解团队的战略目标和具体需求,将团队的感知意图自动地映射、转化、下发为具体的操作和策略AI驱动的服务器故障管理研究与实践AI技术在浪潮服务器故障管理中的探索浪潮电子信息产业股份有限公司服务器故障管理大规模服务器集群应用移动应用移动原生应用桌面应用1985-2009AI技术基础设施深度学习机器学习1980-2019大模型云2006-1016云原生传统IT1980-2005大规模服务器集群应用移动应用移动原生应用桌面应用1985-2009AI技术基础设施深度学习机器学习1980-2019大模型云2006-1016云原生传统IT1980-2005智能化运维智能化运维注:E级,是指能在一秒钟实现百亿亿次数学运算的超级计算机稳定可靠稳定可靠E级算力极致体验易用易维护算力狂飙趋势下服务器故障呈现多元、多因、多态趋势服务器故障分级服务器故障分级•一级故障|小故障软件或小的硬件问题引起快速重启或软件更新解决•二级故障|主要故障硬件引起更换硬件或高级故障检修解决•三级故障|严重故障多组硬件故障或严重的网络攻击引起高级技术人员干预解决•四级故障|灾难性故障自然灾害等不可抗拒因素引起重建服务器基础设施灾备硬盘硬盘主板风扇其他主要部件故障占比部件故障率排序低故障率高故障率>40%中故障率硬盘>40% 运维“三失”难题•告警失稳服务器出现频繁误报、告警冲突、紧急性区分度低、过度报警等问题•诊断失准缺乏关键信息导致的服务器诊断结果不准确,无法有效定位故障源•预测失效容量、性能、故障预测时,模型性能不及预期或结果不准确 场景日益复杂•数据孤岛问题凸显运维数据离散、形成数据孤岛,导致运维经验无法共享,增加了客户及服务商重复投入成本•算力效能低运维场景多样,依赖于场景特征的AI算法选型无法满足一次或少次训练多场景使用的需求,导致算力浪费•运维模式遭遇挑战服务器集群场景泛化,需要运维的节点和场景多样(如智算中心、边缘数据中心、云数据中心等),且节点数量爆发式增长,传统被动响应的运维模式无法满足业务需求 亟待新思路•数据:从离散到汇聚融合多场景本地化离散运维数据、经验数 亟待新思路•数据:从离散到汇聚融合多场景本地化离散运维数据、经验数据,建立规范化标准化数据治理平台,破解数据孤岛问题•算法:从垂直到通用常用的决策树算法、聚类算法、时序算法等。以ChatGPT为代表的具有“涌现”能力的大模型带来了新的发展机遇•架构:从被动到主动在基于故障、告警触发的被动响应式运维的基础上,主动智能止损、主动定位故障。针对于系统风险的主动防范AI合 •样本极度不平衡正负样本比值小于1/2000•故障的类别故障类别多种多样,规则难以覆盖全部•多维影响因素不同硬件因素相互作用共同影响运行状态•故障模式多变多种类型故障、多种原因复合出现•故障动态趋势故障呈现变化性质,不同情况下故障表现不一致,一致性较弱服务器故障管理的难点注:如硬盘,SMART故障日志标记为正样本服务器故障管理VendorVendor类型:主流内存设备数据:内存日志技术:机器学习、模型训练目标:降低宕机率硬盘:管理软件类型:SAS/SATAHDD数据:SMART日志技术:机器学习、模型训练目标:健康评分、提前预测故障VendorVendor类型:主流内存设备数据:内存日志技术:机器学习、模型训练目标:降低宕机率硬盘:管理软件类型:SAS/SATAHDD数据:SMART日志技术:KPI趋势预测算法目标:提前预测故障(1天)VendorVendorCloudIQ基于云的应用程序,它利用机器学习,通过智能、全面的预测性分析,主动监视和衡量戴尔基础架构的整体运行状况InfoSight智能分析平台,可基于大数据技术进行容量分析、性能趋势分析和健康状况检查等,提供可用性预测、自动预警、健康预警和自动生成建议报告预测提升预测提升宕机减少宕机减少故障减少故障减少手工及脚本手工及脚本工具标准化高阶智能化平台自动化2010s2013~20162017~至今2030s?部件部件CPU硬盘主板BMC(BMC(硬件层算力算法)故障管理单元故障检测故障检测故障预警故障修复故障隔离故障上报故障定位关键技术部件级实时检测部件级实时检测系统故障全时修复与宕机故障快速诊断定位整机性能持续监测整机健康度持续监测部件级智能预警核心能力服务器故障管理应用实践CMCI/MCE能力模块带服务器日志信息层服务器监控硬件和固件层服务器部件层带内带内日志DMIDecodeMCELogAERreportLogEDACELogCMCI/MCE能力模块带服务器日志信息层服务器监控硬件和固件层服务器部件层带内带内日志DMIDecodeMCELogAERreportLogEDACELogKdump带外日志外SEL/SNMPTrapPECI日志一键日志/ACD模型训练模型评估模型优化模型管理特征生成InService-ClientInManage-Client数据处理样本标注特征选择数据/特征库数据存储智能运维架构InService/InManage-AIOpsACPIAPEICECE/UCECPUCPUMemoryStorageNetwork巡检计划典型故障过滤模型黑盒日志分析模型批量设备故障分析历史解决方案模型DeepLogLog2VecLLM日志解析巡检计划典型故障过滤模型黑盒日志分析模型批量设备故障分析历史解决方案模型DeepLogLog2VecLLM日志解析CPUCPU、内存、电源、PCIe设备、硬盘全部件故障检测,分钟级故障定位打通带内带外,系统日常巡检和异检测丰富专家库智能故障诊断系统故障实时自动报修,降低人工干预时自动采集上报自动采集上报系统日志分析模型系统日志分析模型 故障现象对照模型故障现象对照模型历史故障解决建议产品典型故障典型案例客服技术专历史故障解决建议产品典型故障典型案例客服技术专家分析经验日志模板挖掘故障重要度排序故障重要度排序故障根因分析故障根因分析故障分析报告故障分析报告解决方案解决方案断MLCIIO0~4M2IOSFnUBOXiMC0~3M2MUPI0~3对CPU记录故障的关键寄存器进行增强抓取,对CSR及MCABank记录数据的深度关联解析,精确锁定真实故障源,在发生故障的现场快速精准定位到导致该故障发生的部件 PCH/PCIeDeviceMemoryBMCBMC上报MsgHndlr诊断MemoryaccountingdatabaseMCE故障处理策略registersGloballogfileBMC处理sel+黑盒日志+MsgHndlr—mcelogdaemonMemorycontrollerThresholdsTriggersMCELog上报机制l数据处理结果返回内存CE数据处理KcslfcCE每条写入SELMachinecheckmcelog-client写入返回KCS发送KCS接收e e 健康度评分以及健康趋势统计故障根因分析未来故障发生故障类别及风规则系统规则系统InManageonline_DataAI模型服务器集群 InManage依托自研的面向基础设施的AIOps平台,有效解决局部硬件概率性故障下的系统容错问题硬盘故障预测提前量依托InManage,采用AI算法进行故障、性能和容量等预测,突破智能化运维“What”、“When”、“Wellness”、“Why”、“Wisdom”的5个W,让用户数据中心更加高效、稳定、可靠预测精确率 InManage具体算法实现中,着力突破以下难点:1.潜在的失效模式发现困难2.数据“缺少 InManage具体算法实现中,着力突破以下难点:1.潜在的失效模式发现困难2.数据“缺少”故障解释性针对生产环境标签数据不足困难,结合半监督、主动迁移学习技术,引入硬件的负载特征(metrics),并融合服务器级的性能特征,结合AI算法强大的全局、长视角以及短视角的辨识能力,实现关键部件的故障预测特征衍生特征生成短视角短视角特征全局视角特征窗口特征差分特征SMART日志硬盘Metrics模型算法库AI模型训练测试数据历史数据 MCEMCE日志统计特征、事物特征MCE日志信息地址信息Mic特征提取Mic特征提取基于音频的多级智能预测系统故障预警记录Outlet-bearing-damagedInlet-bearing-damagedFan-blade-balance-failureBMCBMC内嵌音频预测引擎声音预测引擎MicMicMicMicMicMicMic阵列突破数据中心海量机柜中超万台风扇背景混杂、突破数据中心海量机柜中超万台风扇背景混杂、噪声混淆问题,精准识别风扇故障类别,包括叶片偏心、轴承磨损、润滑油不足、积灰等故障突破相似声纹数据难以识别问题,缓解正负样本不均衡的问题,达到“见微知著”服务器故障管理让失稳、失准、失效不再是难题预知即阻断预知即阻断发生即发现发现即处置处置即精准THANKYOU!阿里云应用诊断分析平台最佳实践ATP快速定位Java问题阿里云高级研发工程师OpenJDKCommitterGolangCompilerContributor应用诊断分析平台通过分应用诊断分析平台通过分析Heapdump文件,可以效率低下、应用出现Java堆内存异常上涨、应用卡顿、内存泄漏等问题应用诊断分析平台对栈日志进行分析,聚合成调用火焰图,帮助用户快速定位热点方法和最深的调用栈。同时提供种类丰富的过滤、查找能力用以筛选线程。Java线程栈分析可应用诊断分析平台通过分析Java垃圾回收过程中产生的日志,可以发现GC导致的长时间暂停、意外触不合理等问题,并能够帮助评估GC对应用性能的影响应用诊断分析平台通过分聚合和分析出应用程序的热点方法、异常事件、异崩溃时产生的hs_err日志,根据AI算法只能匹配和建议潜在修复建议和修复版本,快速定位崩溃根因。5分析模块5分析模块月分析负载企业用户月分析负载01Java堆分析镜像拉取失败导致安全故障02Java栈分析02Java栈分析新功能预览JavaGC日志分析AI驱动JVM崩溃分析JavaAI驱动JVM崩溃分析JavaProfiling分析新迭代导致搜索响应显著变慢Java堆分析Java栈分析:热点在URLClassPath遍历遍历Jar文件,寻找目标类日志发现大量类无法找到异常JVM花费大量时间寻找该类升:热点在URLClassPathRequestspersecond:139.13[#/sec](mean)Timeperrequest:35.938[ms](mean)@Query(value="SELECTnewcom.example.demo.Book(b.id,,b.pageCount)FROMBookb")List<Book>findAllBooks();@Query(value="SELECTsum(LongcountBookPages();边缘轻量场景下系统运维的探索与实践ZealDoctor中兴通讯-操作系统产品部曾主导ZealRobot测试

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论