




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2022版本调查报告由Dynatrace提供网站可靠网站可靠性工程现状—2022版2随着组织寻求驾驭云自动化以加快数字化转型,网站可靠性工程(SRE)已经走上了中央舞台。大多数组织在采用网站可靠性工程时仍处于相对不成熟的阶段,网站可靠性工程是一个经常被误解的专业。能。它推动开发团队之间的一致性并为共同合作提供支持以确定最佳实践,使团队能够跨专业进行规模化的自动化处理,以符开发流程的自动化、服务水平目标(SLO)的配置,或者避免超出错误预算的修复和解决方法的制定,不能完全由一个团队负责。也不能只由一个团队来分析漏洞或者建立自行修复、深入应用和基础设施的可观测能力。如果所有这些工作都由一个团队完成,网站可靠性工程将成为又一个传统运维或安全职能。网站可靠性工程正在演变为更具战略性的角色,侧重于为开发团队配备他们推动当今开发和创新所需的工具、数据及能力。网站可靠性工程还具备有利条件帮助组织应对出现了复杂性大爆发。目前,在云原生计算基金会(CNCF)生态体系中有1,000多种解决方案,数量多到法管理。因此,各种软件开发群体不断涌现,他们拥、工具及喜好。这样就有可能对可观测能力、自动修复及漏洞管理采用某种标准方式,而这在整个开发生命周期中推进可靠性是不可或缺的。因此,为网站可靠性工程定义一条“金光大道”至关重要—开发团队可以采取的一组关键步骤—驾驭这些复杂性、实现他们的目们使用什么样的工具。涵盖开发安全运维生命周期的自助服务式可观测能力的可用性以及监测即代码方法只需几次点击即可在其应用内建立反馈回路。这样,网站可靠性工程将率先由基础自动化阶段进入到客户体验和业务成效的智能调度阶将赋能开发团队以前所未有的速度推动转型。本报告剖析了当前网站可靠性工程成熟度,识别出组织在错综复杂的云原生开发中正在应对的关键发展趋势和挑战。这份报告展示了来自世界各地组织的450个网站可靠性工程的汇总数据,获得了来自这些推动可靠性最佳实践的第一手经验。我希望您能从这些内容中找到有价值的见解,帮助您定义自己的金光大道,让网站可靠性工程更上一层楼。—BerndGreifenederDynatrace创始人兼首席技术官网站可靠性工程现状—2022版3Contents执行概要 4网站可靠性工程的发展 5第2章服务水平目标的角色 16第3章网站可靠性工程成功的关键 32结束语 44方法论 45要本报告基于对450个网站可靠性工程的全球调查,涵盖各种类型的行业,为网站可靠性工程(SRE)这门学科如何发展提供了绝无仅有的视角。本报告揭示了在哪些领域存在着需要克服的挑战,在数字化服务的可靠性、安全性及韧性成为商业成功的首要因素的世界里网站可靠性工程的未来面貌。我们将深入探讨的一些主要调查结果包括:网站可靠性工程日渐成熟,但成熟的速度还不够快·随着组织对网站可靠性工程的战略价值理解加深,网站可靠性工程师(SREs)越来越受到欢迎。但这些人供不应求,因此找到支持、促进其工作的方式至关重要。·网站可靠性工程实践日益成熟,由于实践者越来越多地参与践的普及,从而确保安全在开发生命周期的各个阶段成为重些趋势需要提速。服务水平目标对于网站可靠性工程不可或缺,但难点在于充分发挥其全部潜能·尽管发展的重点放在衡量成功的服务水平目标(SLO)上,但几乎所有的网站可靠性工程师都表示,定义和制定这些服务水平目标是一个严峻挑战。但其中的大部分问题属于战术·评估服务水平目标仍是一个混乱的过程,需要在整个组织内题都甩给了网站可靠性工程师。为获得成功必须加倍努力减少网站可靠性工程实践的繁重工作·在网站可靠性工程实践中,自动化的应用越来越普遍,但效果有好也有坏。组织必须找到差异并运用战略和解决方案,以提高其网站可靠性工程师的生产率。·人工智能运维和一体化可观测能力解决方案对于将网站可靠性工程实践扩大到整个组织日益重要,但不能只是将它们作为现有工具链之上的一层。4网站可靠性工程现状—2022版4网站可靠性工程现状—2022版5网站可靠性工程处于接受曲线的早期阶段网站可靠性工程势在必行,但组织之间存在着差距。组织需要将他们的方法转变为网站可靠性工程,因为只有五分之一(20%)的组织声称拥有了成熟的实践。对于商业成功的战略重要性。第1章:网站可靠性工程的发展网站可靠性工程现状—2022版6目前您的组织处于网站可靠性工程(SRE)历程的哪一个阶段?6%不成熟我们尚未正式实施网站可靠性工程,但尽量遵循网站可靠性工程原则32%初级阶段我们已在最近两年实施了网站可靠性工程实践,所以尚处于初级阶段42%成熟中我们已经实施网站可靠性工程实践两年以上,正在不断地推进我们的方法20%高级阶段我们已经实施网站可靠性工程实践五年以上,正在采用高级的网站可靠性工程原则第第1章:网站可靠性工程的发展网站可靠性工程最佳实践:复的整个生命周期。主题1缩短平均修复时间一直高居网站可靠性工程任务单榜首网站可靠性工程师始终致力于改进生产系统的可靠性,其中缩短平均修复时间(MTTR)是他们的首要任务。然而,大多数(60%)网站可靠性工程师发现,自己的大部分时间被构建标,但如果实现这一过程既艰难又费时,由自动化所带来的效率就会丧失殆尽。其中大多数问题源于网站可靠性工程团队构建自动化开发运具备一切皆代码的能力。一段时间后,这就形成了一堆复杂的Web代码,愈发难以扩可靠性工程师发现,如果他们不找到一种更高效的长远方法,未来他们会消耗越来越多的时间。这凸显出需要网站可靠性工程师与开发运维团队、开发人员化功能与现有的工具和工作流进行整合,减少网站可靠性工师的手工操作、改进工程实践。88%们对于商业成功的战略重要性88%网站可靠性工程现状—2022版7确保快速发现并消除安全漏洞设计实验并运行测试以减少生产环境发生故障的风险影响架构设计决策以确保可靠性和可伸缩性48%确保快速发现并消除安全漏洞设计实验并运行测试以减少生产环境发生故障的风险影响架构设计决策以确保可靠性和可伸缩性48%第1章:网站可靠性工程的发展以下哪项工作让您组织的网站可靠性工程师平均每周付出的时间最多? (所有的回答)缩短平均修复时缩短平均修复时间60%58%52%51%确保系统在出现异常时可靠运行58%52%51%确保系统在出现异常时可靠运行设设计实验并运行测试以便根据用户负载扩容插装应用使其具备可观测插装应用使其具备可观测性43%67%8网站可靠性工程现状—2022版8网站可靠性工程现状—2022版9第1章:网站可靠性工程的发展主题2转变为由网站可靠性工程驱动的工程超过半数(51%)的网站可靠性工程师表示,他们花费大量的时间去影响架构设计决策以提高可靠性。这意味着在向着网站可性、韧性及安全性的工作提供支持。但还有很长的路要走。训。他们懂得用什么来构建系统,可以从单个人员参加新系统的设计过程,从一开始就能为架构师在设计中纳入可靠性提供意见。DevSREOps网站可靠性工程现状—2022版10StephenTownshend,网站可靠性工程主题3网站可靠性工程在将开发安全运维扩大到整个组织方面也取得了进展,可以确保根据发现的漏洞迅速恢复系统。超过三分之二(68%)的网站可靠性工程师表示,随着组织不断采用第三方库用于云原生应用开发,他们希望自己今后在安主题3网站可靠性工程在将开发安全运维扩大到整个组织方面也取得了进展,可以确保根据发现的漏洞迅速恢复系统。超过三分之二(68%)的网站可靠性工程师表示,随着组织不断采用第三方库用于云原生应用开发,他们希望自己今后在安所看到的,鉴于2021年12月Log4j漏洞的发现,第三方代码库有可能包含重大的安全风险,而网站可靠性工程团队在确保迅速识别并消除此类缺陷、为组织提供保护上发挥着关键作用。更核心化。68%网站可靠性工程现状—2022版11第1章:网站可靠性工程的发展网站可靠性工程最佳实践不要事后才想起可靠性和韧性。这足以证明应将网站可靠性工程原则纳入设计过程(即网站可靠性工程驱动的工程)。第1章:网站可靠性工程的发展第1章:网站可靠性工程的发展主题4地实验超过一半(52%)的网站可靠性工程师花费大量的时间设计实之一的网站可靠性工程师强调这是他们的首要任务。鉴于实验对于网站可靠性工程师的重要性,团队仍需要想方设法确保他们能够腾出更多的时间去完成这些任务。为使网站可简那些涉及密集手工操作的任务。网站可靠性工程现状—2022版12第1章:网站可靠性工程的发展对网站可靠性工程师的期望和需求与日俱增,这使他们的时间日益捉襟见肘以下哪项工作让您组织的网站可靠性工程师平均每周付出的时间最多?23%缩短平均修复时间11%设计实验并运行测试以减少生产环境发生故障的风险10%确保系统在出现异常时可靠运行12%影响架构设计决策以确保可靠性和可伸缩性11%确保快速发现并消除安全漏洞9%插装应用使其具备可观测性12%构建、管理自动化代码10%设计实验并运行测试以便根据用户负载扩容网站可靠性工程现状网站可靠性工程现状—2022版139%14%9%14%51%26%鼓励网站可靠性工程师进行实验,理解许多项目将不会带来积极的结果制定了失败预算来跟踪并控制失败对于项目失败的接受度非常低网站可靠性工程现状—2022版14第1章:网站可靠性工程的发展主题5师优先进行战略性工作尽管这一条在网站可靠性工程师任务优先级列表中排鼓励他们去做实验,而且在四分之一(26%)的组织中有可能会分散网站可靠性工程师的精力,使得他们在必须寻求新的战略和解决方案,以减少由网站可靠性工程团队执行战略价值较低的任务的需求。组织负责人还需要培养一种文化,不仅能接受失败,IT看作是成本中心的传统目标中解脱出来。第1章:网站可靠性工程的发展网站可靠性工程现状—2022版15主题6可靠性工程受到表彰和奖励网站可靠性工程师必须能够自由挑战公认的准则,为以创新为导向的设计和工程实践制定新的基准。许多组织在这方面取得了长足进步,有针对网站可靠性工程团队成功奖励的办法。近三分之一(31%)的组织通过黑客马拉松来发明改进可靠性的新途径,为获胜的网站可靠性工程团队提供奖金。在鼓励提升网站可靠性工程的商业战略价值的实验文化时,这些方法将成为关键。您的组织对可靠性工程有何表彰和奖励?76%的组织对可靠性导致关键绩效指标大幅提升的情况有具体的奖金/奖励44%的组织对那些在处理紧急事务以外的业务方面有积极影响的工程师给予特别表彰31%的组织通过黑客马拉松来提高可靠性并给予奖励网站可靠性工程现状—2022版16第2章工程师的指明灯组织意识到在对服务水平的基本测量之外还要基于对业务有意义的指标制定目标的重要价值。除了要将主要精力放在服务水平目标上,超过半数(58%)的网站可靠性工程师采用开发运维研究与评估(DORA)指标,该指标已成为在软件开发和交付过程中识别所需改2章:服务水平目标的角色随着网站可靠性工程日益成熟,团队需要专注于识别他们测量成功的方法上的欠缺之处;尤其是在优化关键用户历程之时。这将使那些能够提供真实用户体验详细深入分析的可观测能力平台愈发重要,由此网站可2章:服务水平目标的角色随着网站可靠性工程日益成熟,团队需要专注于识别他们测量成功的方法上的欠缺之处;尤其是在优化关键用户历程之时。这将使那些能够提供真实用户体验详细深入分析的可观测能力平台愈发重要,由此网站可性工程师不仅能看到后台性能监测数据,还能了解哪些因素影响了用户行为,从而推动消耗的速率是多少,并量化这些问题可能对服务造成的整体影响。4项关键指标网站可靠性工程是由指标驱动的,它的成功取决于可靠的指标。按照DORA的要求,这些指标包括(但不限于):部署频次组织向生产环境成功发布的频次更改前置时间提交进入生产环境所需的时长更改故障率导致生产环境发生故障的部署的百分比恢复服务时间组织从生产环境的故障中恢复所需的时长网站可靠性工程现状—2022版172章:服务水平目标的角色您的组织如何评估应用和基础设施的服务水平?我们制定了目标与关键成果(OKR我们制定了目标与关键成果(OKR)、关键绩效指标(KPI)我们制定了服务水平目标(SLO我们制定了服务水平目标(SLO)我们采用来自服务提供商的服务水平协议(SLA)我们采用来自服务提供商的服务水平协议(SLA)我们采用开发运维研究与评估(DORA我们采用开发运维研究与评估(DORA)指标(例如恢复时间、部署频次)我们使用能够获得的简单监测工具我们使用能够获得的简单监测工具网站可靠性工程现状—2022版18网站可靠性工程现状—2022版19MichaelCabrera,网站可靠性工程负责人!!数据源过多,难以整合各不相同的数据64%18%不知道跟踪哪些指标!!指标过多,难以发现与特定服务最相关的指标54%18%不知道如何评估服务水平目标!!监测工具无法便捷地定义、跟踪服务水平目标的性能历史36%16%!不知道如何才能制定出良好的服务22%网站可靠性工程现状—2022版!!数据源过多,难以整合各不相同的数据64%18%不知道跟踪哪些指标!!指标过多,难以发现与特定服务最相关的指标54%18%不知道如何评估服务水平目标!!监测工具无法便捷地定义、跟踪服务水平目标的性能历史36%16%!不知道如何才能制定出良好的服务22%网站可靠性工程现状—2022版202章:服务水平目标的角色尽管使用服务水平目标的情况不断增加,99%的网站可靠性工程师表示定义、制定服务水平目标存在挑战。但这些挑战主要是战术性的,因此通过采用正确的解决方案相对容易解决。对于他们更具战略性的挑战,网站可靠性工程师应在与业界最佳实践保持同步上投入时间,通过Google网站可靠性工程手册之类的来源。持续检查竞争对作为其基准,有助于加深对服务水平目标的了解。创建服务水平目标时遇到挑战。99%2章:服务水平目标的角色标管理困难重重况。其原因通常在于团队用来管理应用和基础设施的监测解决方案和指标过多,而它们为网站可靠性工程师制定服务水平目标所提供的帮。这不仅仅是制定服务水平目标的问题—一旦定义了服务水平目标,网站可靠性工程师在对其进行管理、评估时也会遇到各种严峻挑皆是、需要将性能与用户体验数据进行关联。采用人工方式对服务水平目标进行评估也会导致浪费宝贵时间,妨碍了团队将更多的精力放在如果他们不能妥善解决这些问题,团队将会继续在孤岛状态下工作,还要实施有效的过程对不达标情况进行监测、报警及应对,这更是让他们雪上加霜。其结果是,网站可靠性工程的核心原则可能最终被放弃,随着解决时间的增加,在用户受到影响之前实施修复计划变得越来越在管理、评估服务水平目标时您的团队遇到的最大挑战是什么?孤岛式的团队和多种工具难以统一成单一版本的服务水平“真实信息”由于与日俱增的复杂性导致盲区且无法采集监测数据,准确测量服务水平目标是否达标过于困难和费时由于无法将性能指标与用户体验进行关联,准确测量服务水平目标是否达标过于困难和费时人工评估服务水平目标要占用太多的时间孤岛式的团队和多种工具难以统一成单一版本的服务水平“真实信息”由于与日俱增的复杂性导致盲区且无法采集监测数据,准确测量服务水平目标是否达标过于困难和费时由于无法将性能指标与用户体验进行关联,准确测量服务水平目标是否达标过于困难和费时人工评估服务水平目标要占用太多的时间在服务水平目标不达标发生之前,没有简便的方法对这种情况进行预测服务水平目标没有业务所有者,因此没有人会为维护它们负责没有能方便地查看、跟踪所有的服务水平目标和错误的单一仪表板59%52%41%22%18%18%网站可靠性工程现状—2022版212章:服务水平目标的角色网站可靠性工程最佳实践2章:服务水平目标的角色网站可靠性工程最佳实践许开发人员在错误进入生产环式的干预和修复工作的需要。战,组织应将一切有关工作都整合到一个能满足所有关键相关方需台还具备原生服务水平目标能力,组织就可以避免要向他们业已臃肿不堪的工具链增加其他工具的可怕情景。这让网站可靠性工程师能够创建单一真实信息来源,因此他们可以轻松地对错误预算进行监在出现不达标情况时合作破裂的风险。网站可靠性工程现状—2022版222章:服务水平目标的角色在实施服务水平目标时,网站可靠性工程师面临的最大障碍是弄清从何开始,然后是识别他们应关注的指标。在试图寻找最佳方法时很容易迷失方向,重要的是要切记不存在大小通吃的方法论。最常见的陷阱是被引诱选择阻力最小的途径,通过完全基于已经采集的服务水平指标(SLI)来制定服务水平更好的途径是通过询问哪些因素对业务最重要,由此识别服务水平目标需要满足的业务目标和服务水平协议 (SLA)。组织可以用来入门的四个常用服务水平目标包括:·可用性—服务是否可供用户使用·用户满意度(Apdex)—满意程度,基于服务性能·错误率—失败请求与全部请求之比·崩溃率(移动)—所支持的各种设备上的崩溃率这些服务水平目标不一定都与所有的组织有关,因此网站可靠性工程师不仅要按照具体情况实施,还要对它网站可靠性工网站可靠性工程现状—2022版23用服务水平目标我们从考察一个移动应用服务水平目标的例子开始。网站可靠性工程师不仅要将业务与性能服务水平目标进行合并以确保它们保持平衡,还要测量与应用获得成功及用服务水平目标我们从考察一个移动应用服务水平目标的例子开始。网站可靠性工程师不仅要将业务与性能服务水平目标进行合并以确保它们保持平衡,还要测量与应用获得成功及其业务成效有着重要关系的因素。应用接受度可用性获得有效响应的请求的占比应用评分基于Android或iOS商店的评分响应时间登录请求响应时间不到100ms的崩溃官方所支持设备上的崩溃率成功率成功请求与HTTP500错误之比网站可靠性工程现状—2022版242章:服务水平目标的角色业务服务水平目标(以终端用户为中心)可用性服务是否可供用户使用?参与度转化率达成了我的业务目标的用户占比是多少?用户满意度(ApDex)对我的应用的性能按0-1评分,满意程度是多少性能服务水平目标利用率提供服务占用资源的平均时间成功率成功请求数与总请求数之比响应时间服务请求所需的时长饱和度最紧张的资源流量测量在您的系统上承接了多少需求2章:服务水平目标的角色网站可靠性工程师采用一系列的方法来识别其服务水平目标的指标,借助了未明确公认的“标准”或已建立的最佳实践。半数的网站可靠性工程师注意到,他们的组织用于如何确定其服务水平目标的指标的方法论寥寥无几。最常用的方法是根据终端用户体验需求来估计正确的指标,这也是最科学的。对大多数组织来说,确定会对业务产生有形影响的服务水平目标的指标极其困难。阈值设置得过足轻重,因为不会给团队带来任何以期改进服务水平的激励。网站可靠性工程团队采用更准确的方法来定义以求助于先进的监测解决方案,指导他们根据历史数据和行业标准来设置正确的服务水平目标阈值。然而,只有不到四分之一(24%)的组织采用平目标会取得很好的效果。为确保其组织始终处虑最佳实践、竞争对手以及同行的战略也非常重网站可靠性工程现状—2022版2526%24%20%26%24%20%18%11%1%我们根据终端用户体验来估计哪些因素感觉似乎是正确的指标我们的解决方案指导我们根据历史数据和行业标准更明智地设置服务水平目标阈值无论我们的系统目前在做什么,我们都以它们为依据它们由IT部门的高级经理决定我们根据直觉来估计哪些因素感觉似乎是应力求达到的正确指标我们不知道这些指标从何而来,我们只需要遵照它们网站可靠性工程现状—2022版262章:服务水平目标的角色您如何识别您的每一个服务水平目标的指标?网站可靠性工程现状—2022版27DanneMeiraCastro,网站可靠性工程我们不断发展我们的服务水平目标,制定新的基准,挑战客户体验的极限为部署/架构决策提供信息2章:服务水平目标的角色网站可靠性工程师针对不断增加的指标来管理的空间,因为在数据中没有出现明显我们不断发展我们的服务水平目标,制定新的基准,挑战客户体验的极限为部署/架构决策提供信息2章:服务水平目标的角色网站可靠性工程师针对不断增加的指标来管理的空间,因为在数据中没有出现明显任何确定的目的都达到了高水平。在您组织内部如何使用服务水平目标?服务水平目标的战略重要性与日俱增,它们的作用不只是确保在业务的其他许多方面都符合服务水平目标。59%53%我们专门通过评估发布所造成影响的方式来检查服务水平目标49%由我们的服务提供商对他们给我们业务造成的影响负责我们通过我们的服务水平目标来评估我们的服务水平协议是否充分满足了我们业务的需求45%42%为IT团队提供其工作对业务影响的深入分析39%向业务部门报告IT性能39%为我们的开发运维/开发团队划分任务优先级36%网站可靠性工程现状—2022版282章:服务水平目标的角色网站可靠性工程最佳实践识别并划分对业务影响最大的开发及运维团队的相关方共同制定有助于满足这些目标的服和商业经营团队。这凸显出随着组织认可需要确保其系统先天具备可靠性和安全性,网站可靠性工程开始融合并转向开发安全运维。鼓励业务、开发、安全及运维团队之间密切协作的组织向这些方法论转变的过程将会更加成功。这些团队之他们改进过程和业务成效的评估就越有效。只有通过由顶层推动的文化变革,并且高级2章:服务水平目标的角色网站可靠性工程最佳实践识别并划分对业务影响最大的开发及运维团队的相关方共同制定有助于满足这些目标的服和商业经营团队。这凸显出随着组织认可需要确保其系统先天具备可靠性和安全性,网站可靠性工程开始融合并转向开发安全运维。鼓励业务、开发、安全及运维团队之间密切协作的组织向这些方法论转变的过程将会更加成功。这些团队之他们改进过程和业务成效的评估就越有效。只有通过由顶层推动的文化变革,并且高级IT负责人为他人树立了榜样,才能实现这种程度的协作。网站可靠性工程现状—2022版29网站可靠性工程现状—2022版302章:服务水平目标的角色在您整个组织内哪个/哪些团队负责推动采用服务水平目标并管理服务水平目标?88%网站可靠性工程688%网站可靠性工程60%安全业务47%基础设施45%开发运维41%运营32%应用36%32%应用36%网站可靠性工程现状网站可靠性工程现状—2022版312章:服务水平目标的角色需要明确确定服务水平目标拥有者境应用很重要,但运维或网站可靠性工程团队更适合负责其他环境的服务水平目这意味着在大多数组织内部存在着关于应由谁来负责服务水平目标的不确定性,这给网站可靠性工程师带来了挑战。如果其他团队没有意识到在确保符合服务水平目标中他们自己角色的重要性,保持这些服务水平目标并在整个组织中推动网站可靠性工程成熟度将会非常困难。,为确保符合服务水平目标,制定它们的团队需要直接与开发运维或开发团队合作。将职责转移到其他团队意味着倒退,而不是坚持真正的开发运维最佳实践。维及开发运维团队都有自己的工作职责,但需要由网站可靠性工程师来带领他们并确保所有的团队维护为其环境制定的服务水平目标。您组织内部的团队如何开展工作以确保符合服务水平目标?88%17%48%27%开发团队负责监测、管理为其应用制定的服务水平目标单独由开发运维或网站可靠性工程团队负责监测、管理服务水平目标由制定服务水平目标的团队独自负责管理服务水平目标制定服务水平目标的团队直接与开发运维或开发团队合作以确保其符合网站可靠性工程现状—2022版31网站可靠性工程现状—2022版32第3章网站可靠性工程的障碍是什么尽管网站可靠性工程方法论已被广泛采用,但大多数(97%)组织在实施专用的实践时会遇到障碍。这是关于获得必要技能的挑战,要么引进新员工,要么提高现有团队的技能。这意味着需要一种新方法,通过使开发运维和开发人员团队成为网站可靠性工程师来减少此类障碍,同时无需其他专业技能。第3章:网站可靠性工程成功的关键您认为在您的组织内实施网站可靠性工程实践时最严峻的挑战是什59%51%43%20%19%认为培训/再培训现有IT运维/系统管理人员成为网站可靠性工程师非常困难认为网站可靠性工程师成本高且难以招聘到认为难以在市场上找到网站可靠性工程技能认为自己的IT组织不具备采用当今IT准则的文化认为改变运维方式不是IT管理层的优先工作的的网站可靠性工程师表示,实施网站可靠性工程实践在其组织内存在挑战。97%网站可靠性工网站可靠性工程现状—2022版33第3章:网站可靠性工程成功的关键关键点1工程师在很大程度上依赖于公司自研、自己开发以及开源的解决方案来完成其工作。这使他们能够打造专门针对其组织特定需求的工具链。还需要少量的前期投资用于新工具,使网站可靠性工程师能够在自己的需求发生改变、推进解决方案时接入或退出生产环境。但这种自己开发的方式难以规模化,经过较长时间后会带来问题。这些工具链需要投入大量的时间、人工及专业技分散了对核心职责的注意力。现成的商业解决方案也经常被证实收效平平,限制了网站可靠性工程师从开源解决方案中受益的能力。站可靠性工程师的注意力转移到维持用于推动网站可靠性工程实践的工具链上。雇佣更多的网站可靠性工程师通常最有效的方法是减轻网站可靠性工程维护工具链的繁重工能创造更多商业价值的工作上。组织应寻求这样一种基于平式的平台将大幅减少网站可靠性工程团队的繁重工作,因此可以迅速将其推广到整个组织。在在网站可靠性工程工具集中最流行的解决方案14%66%自己开发的解决方案开源解决方案现成的商业解决方案(COTS)网站可靠性工程现状—2022版3420%第3章:网站可靠性工程成功的关键第3章:网站可靠性工程成功的关键网站可靠性工程最佳实践基于单一数据模型的解决方的网站可靠性工程师表示,他们能否在整个公司推广网站可靠性工程实践,在很大程度上取决于所能获得的自动化和人工智能能力。85%关键点2不难想象,组织会想方设法通过自动化来减轻开发人员和网站可靠性工程师的负担。加快推动应用的自动化所需的数据。将这些数据与运行时漏洞管理进行整合也非常重用于优先处理对业务威胁最大的漏洞。需为处置紧急事件花费时间,组织可以为开发人员和网站可靠性工程师减少大量的繁重工作,这样他们就可以专注于能为企业创造更大价值的工作。网站可靠性工程现状—2022版35第3章:网站可靠性工程成功的关键为减少开发人员和网站可靠性工程师的繁重工作,71%的组织在生命周期的各个阶段增加了自动化的运用58%的组织在持续集成/持续交付流程中增加了自动化的运用58%的组织对工具栈进行了整合46%的组织对工具栈进行了现58%的组织对工具栈进行了整合网站可靠性工程现状—2022版36网站可靠性工程现状—2022版37第3章:网站可靠性工程成功的关键靠性工程的工作中,的哪项实现了自动化来为他们的工作提供支持?通过自动修复解决应用故障预测服务水平目标不达标评估安全漏洞48%55%57%43%4948%55%57%43%49%通过自动化事件管理来评估通过自动化事件管理来评估性能和/或可用性警报提升代码质量解决安全漏洞加快代码交付速度第3章:网站可靠性工程成功的关键关键点3在网站可靠性工程师通过服务水平目标来管理、评估服务水平的道路将主要精力放在实验和持续创新上。我们还将看到,越来越多采用业务水平目标的组织会将其成功与更多客户满意度,因为每一秒的停机时间都会影响收入、损害品牌形象。这些方法将进一步提高网站可靠性工程成熟您希您希望到2025年您测量服务水平的方法发展到怎样的程度?我们将继续采用我们现有的方法,其中包括以自动方式评估的服务水平目标除了以自动方式评估的服务水平目标之外,我们还将引入业务水平目标(BLO),以确保团队之间更加步调一致我们将从以人工方式评估我们的服务水平目标转变为自动方式我们将继续采用我们现有的方法,其中包括以人工方式评估服务水平目标我们将继续采用我们现有的方法,其中不包括使用服务水平目标网站可靠性工程现状—2022版3844%22%13%20%1%第3章:网站可靠性工程成功的关键第3章:网站可靠性工程成功的关键网站可靠性工程最佳实践:使人工智能运维成为您的网站可靠性工程战略的核心支和工程师所依赖。的组织在整个生命周期的各个阶段越来越多地采用人工智能运维,以减少开发人员和网站可靠性工程师的繁重工作。68%关键点4人工智能运维是网站可靠性工程成熟度的核心除了他们关注点的在自动化上,网站可靠性工程师注意到人工智能运维对其未来的角色越来越关键,凸显出一些重要的优势。网站可靠性工程师正寻求人工智能运维能有助于进一步减少繁重工作,使他们做出更多的数据驱动决策,围绕他们如何优先他们的时间以便为企业推动最佳产出。团队能将主要精力放在更快地决策上。网站可靠性工程现状—2022版39网站可靠性工程现状—2022版40AndrzejGebski,网站可靠性工程第3章:网站可靠性工程成功的关键人工智能运维会对以下网站可靠性工程实践造成多大程度的影响?64%使团队能够让更多的流程自动化,这些流程对确保服务水平持续达标至关重要64%63%使63%62%使团队能够优先处理安全漏洞以最大限度缩短服务停机时62%62%62%61%使团队能够在服务水平目标不达标发生之前做出预测61%59%释放出更多的开发运维时间专注于网站可靠性工程工作,例如混沌工59%网站网站可靠性工程现状—2022版41第3章:网站可靠性工程成功的关键关键
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 传统食品工业化生产2025年智能工厂改造项目进度控制报告
- 社渚镇民宅转让合同范本
- 灌溉项目合同协议书范本
- 碎石机械销售合同协议书
- 机动车销售服务合同范本
- 汽修厂多人合伙协议合同
- 湖南文理学院合作协议书
- 电动车出租合作合同范本
- 烘焙店工作合同范本模板
- 物业创意园租房合同范本
- 01-低血糖症科普知识讲座
- 2025年新疆维吾尔自治区生产建设兵团中考语文真题(解析版)
- 2025年广西中考地理试题(含答案)
- 货车转让不过户合同协议书
- 化工自动化仪表 选择题805-1556
- GB/T 4604-2006滚动轴承径向游隙
- GB/T 12008.2-2010塑料聚醚多元醇第2部分:规格
- 既有住宅适老化改造项目可行性研究报告书
- 公司网银盾交接单
- 施工人员安全教育培训课件
- 建筑施工项目成本费用分析手册
评论
0/150
提交评论