2020年全球运维大会-转型的灯塔:技术运营标准课件_第1页
2020年全球运维大会-转型的灯塔:技术运营标准课件_第2页
2020年全球运维大会-转型的灯塔:技术运营标准课件_第3页
2020年全球运维大会-转型的灯塔:技术运营标准课件_第4页
2020年全球运维大会-转型的灯塔:技术运营标准课件_第5页
已阅读5页,还剩28页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

转型的灯塔:技术运营标准评估权威指南及案例解读

转型的灯塔:技术运营标准评估权威指南及案例解读1目录技术运营标准简介1标准的框架与设计思路2标准的“硬”技术与案例解读3标准的“软”能力与案例解读4

目录技术运营标准简介1标准的框架与设计思路2标准的“硬”技术2互联网技术的发展驱动运维技术前进移动互联网时代传统时代互联网时代平台化时代云计算时代AIOPS时代降本增效新场景一体化工具链组织文化理念移动迁移多终端去IOE开源热潮上云运维开发效率应用运维质量&用户BASE流程化ACIDITILITSM海量运营技术运营3P平台化自动化开源架构升级云运维无线技术栈Velocity持续交付ITSM敏捷精益算法AI平台大数据人工运维云运维智能化运维运维开发应用运维一体化移动运维Devops时代能力侧重时代特点

互联网技术的发展驱动运维技术前进移动互联网时代传统时代32015年技术运营标准的萌芽上线聚用户营销高可用架构设计持续部署可用性保障数据服务运营活动支持用户体验优化成本优化客户服务互联网应用运维框架

研发期研发运营期2015年技术运营标准的萌芽上线聚用户营销高可用架构设计持续4三年三稿与顾问团模型顶层设计模型验证立项研讨初稿编写专家评审发布征求意见稿提交送审稿正式发布报批稿起始于2015年《互联网应用运维能力成熟度模型》

DevOps

标准产生过程三年三稿与顾问团模型顶层设计模型验证立项研讨初稿编写专家评5标准中的软能力与硬技术技术运营服务规范意识能力平台化能力运营服务能力流水线监控自动化质量意识标准化IT服务流程事件管理高可用性管理配置管理发布管理成本管理容量管理持续性管理变更管理数据中心业务理解用户体验智能+监控设计风控一体化配置中心事件平台

标准中的软能力与硬技术技术运营服务规范意识能力平台化能6技术运营标准对行业的意义虽然,DevOps

像水,水无常态但是,喝水需要容器,这就是标准

(无规矩不成方圆)BATJ经验的总结与传承

(对齐能力、避免重复踩坑、闭门造车)从0到1、自检、过程改进、建设目标标准并非“限定”(ITIL

V4

已经发布

)五级阶梯式成长模型

(并非0或1)DevOps

标准ITIL/IOS

20000CMMI

/

敏捷开发 测试运维

管理 +

技术标准化

+

工具赋能管理标准化技术运营标准对行业的意义虽然,DevOps像水,水无常态D7标准对企业的价值自查了解企业

DevOps自身发展情况,发现问题,查漏补缺,明确未来持续优化的方向。自证衡量对照被认定为国内领先或顶尖水平,

成为

DevOps在中国落地的行业标杆,引领行业发展。明确企业内部各项目

外部服务商、合作伙伴的

DevOps

能力现状、成长情况及工作量。对比同行业及所有行业的

DevOps

优秀实践,相互取长补短,共同进步。(书同文、车同轨、行同伦)

标准对企业的价值自查了解企业DevOps自身发展情况,发8目录技术运营标准简介1标准的框架与设计思路2标准的“硬”技术与案例解读3标准的“软”能力与案例解读4

目录技术运营标准简介1标准的框架与设计思路2标准的“硬”技术9DevOps

标准全局框架

牵头单位:中国信息通信研究院(国家智库,可信云等出品单位)起草单位:云计算开源产业联盟、DevOps时代社区、高效运维社区、BAT、京东、中国移动、中国电信、中国银行、平安科技和中国银联等目前进展:2018年6月29发布全量征求意见稿,2018年7月在联合国ITU-T

正式立项DevOps标准全局框架牵头单位:中国信息通信研究院(国10技术运营标准的框架组成监控管理监控采集数据管理数据应用运营配置管理配置管理容量与成本管理容量管理成本管理事件管理变更管理事件与变更管理高可用管理应用高可用管理数据高可用管理风险管理危机管理应急管理业务连续性管理业务认知管理体验管理用户体验管理技术运营

技术运营标准的框架组成监控管理监控采集数据管理数据应用运11技术运营标准框架&设计思路

技术运营标准框架&设计思路12具备中等企业技术运营水平局部建立自动化能力,有标准化的流程辅助工作的完成覆盖应用对象全生命周期管理,部分能力项实现联动二级具备成熟企业技术运营水平,场景自动化集中式管理,有标准化规则贯彻应用全生命周期强调技术运营能力的覆盖广度,从被动响应到主动预防明确量化管理的指标与要求,驱动架构和技术的优化三级国内顶级的技术运营能力,实现垂直场景的技术深度复杂场景实现无人治理,实现多对象多事件的关联与执行从规则化演进到半智能化,动态决策与调度自动化工具精细化数据运营,技术运营与业务运营结合,驱动优化四级国内领先水平国内先进水平技术运营标准的重要级别说明

具备中等企业技术运营水平二级具备成熟企业技术运营水平,场景自13

各能力项的递进与关联级别 说明监控管理事件与变更管理配置管理容量与成本管理高可用管理业务连续性用户体验管理平均级:

·

基础的监控管理,一级

部分 能满足企业对

IaaS自动化 监控的基本需求。基本的事件规范和变更操作要求,及时处理事件和管控部分变更风险。靠人工保障配置记录的管理。基础的硬件与业务的指标汇聚流量切换。基础的健壮性,硬件故障能及时恢复。数据库备份可靠。基础的业务影响分析能力和业务风险分析具有快速处理用户体验的投诉问题,具备丰富的业能力,基本应急演练。

务端的数据收集能力。二级先进级:自动化/脚本化覆盖更多监控对象。告警收敛,监控数据关联分析。对常见的场景可以实现告警度量、管控和可视化的能力。完善的事件及变更管理能力,覆盖全生命周期的管理。流程与场景部分的自动化和可视化。统一的配置管理系统,全生命周期的管理技术运营相关的对象。持配置变更。技术运营全生命周期的容量和成本的管理。有规则和流程支持,以满足有规则和流程支

不同场景的需求。应用服务间调用关系治理

·整体RTO

达到平台,支持应用服务级别的

99.90%。监控报警。至少半年进行一次灾IT系统有效打通,故障快 备测试演练。速定位。详尽的应急响应预案,数据库读写分离,主备实

充分考虑外部舆情和时同步,同城多机房备份。

客服的信息反馈。端到端全链路事件埋点;全链路的体验告警,用户体验优化效果可衡量、可视化体验管理能力联合内部,主要场景的用户体验优化领先级:三级

系统化/平台化精细化和平台化,通过标准化的管理和自动化工具,强化技术运营过程中的功能细节管控。面向应用场景实现告警管控和可视化管理。平台化。完善的可视化管理,对过程和团队做到度量。平台,支持灵活符合技术运营场景的需求。各个维度有精细化扩展,能够与其他 ·

灵活的容量与成技术运营流程打通,

·自动化配置管理

本管理规则与流程,所得数据指导技术扩展和关联分析,

运营活动,为企业提供数据支撑和优化建议。自动化动态扩容。分布式缓存,分表分库,跨库事务。异地数据备份。整体RTO

99.95%主动模拟注入故障,2分钟响应,5分钟找同城多机房实时数据备份,到原因启动预案,10分钟完成问题解决。自动跟踪及用户改善工具。用户体验类的指标基线,并被快速定位和解决。

并能联合外部建立优化工具,驱动整体的用户体验指标的改善。5分钟发现质量数据异常各能力项的递进与关联级别 说明监控管理事件与变更管理配置14重叠能力项的说明持续交付

技术运营重叠能力项的说明持续交付技术运营15技术运营评估首批通过企业-华泰证券2级

华泰证券股份有限公司涨乐财富通交易服务项目华泰证券为投资者研发的集热点财经新闻、股市行情报告、委托交易、产品商城为一体的全功能免费手机理财软件,目前用户规模千万级,并发用户数几十万。涨乐财富通月活数超750万,注册、下载量超4800万,稳居行业第一,公司客户通过涨乐财富通APP进行交易的人数占比已超过87%。多次获得重量级奖项,如“2018年度券商优秀APP奖”、“2017年度最佳金融APP”等。技术运营评估首批通过企业-华泰证券2级华泰证券股份有限公司16技术运营评估首批通过企业-北京移动2级中国移动通信集团北京有限公司CRM订单中心项目面向北京移动业务运营及运营支撑,可独立部署并对外提供一组,标准化订单服务的载体,已拥有1000+容器实例数,千万级用户量并发用户十万级。应用场景:北京移动CRM订单中心系统功能主要完成订单模板管理、流程编排、订单审核、订单创建、订单 分解、订单变更、订单调度、订单撤销、订单竣工和订单查询等流程化管理功能。

技术运营评估首批通过企业-北京移动2级中国移动通信集团北京有17技术运营评估首批通过企业特点分析应急演练应用高可用数据高可用成本管理事件管理变更管理用户体验管理弱项强项故障演练场景固化,缺乏重要业务场景的梳理和沉淀。对变更风险识别暂未有共性规则抽象,更多依赖经验判断。依赖人为经验进行判断,缺乏客观量化的判断指标。未和实际的容量数据、业务使用情况联动分析管理。高可用架构设计清晰,

数据库充分考虑了数据的分布式和一致性,运行维护机制完善。应急演练未与CMDB联动分析,实操环节仍存在人为失误的风险端到端的服务承诺未做明确的规则要求,流程学习未强制实施。运营配置管理统一配置管理平台较为成熟,实现了配置对象的全生命周期的管理可扩展、可自动更新。监控采集采集服务平台化,灵活性和扩展性强,

可以自定义采集服务。数据管理可根据业务需求进行定制化开发管理,数据处理实时性强。数据应用统一监控平台,监控指标覆盖面广泛,可定制化分析与展示。告警与管控统一告警管控平台,能根据生产环境定制统计分析视图,

部分常见场景已开始尝试智能化运维。

技术运营评估首批通过企业特点分析应急演练应用高可用数据高可用18目录技术运营标准简介1标准的框架与设计思路2标准的“硬”技术与案例解读3标准的“软”能力与案例解读4

目录技术运营标准简介1标准的框架与设计思路2标准的“硬”技术19标准中的“硬”技术监控管理配置管理高可用管理容量与成本管理系统设计最佳实践架构能力数据应用

标准中的“硬”技术监控管理系统设计20案例1:应用运行自治的技术运营能力配置对象配置数据数据采集数据传输数据接收数据处理数据存储数据服务告警与管控可视化管理弹性能力柔性能力运行与维护数据库高可用缓存高可用成本合理性预算与核算业务容量基础设施容量业务配置监控自发现弹性伸缩成本可量化持续交付12435N

案例1:应用运行自治的技术运营能力配置对象配置数据数据采集数21过程域 过程域二级 三级

评估维度1级(平均级:部分自动化)2级(先进级:自动化/脚本化、小范围)3级(领先级:系统化/平台化、大范围)监控管理监控采集数据 ·

具备操作系统级监控指标的采集采集 能力,如CPU、内存等系统日志、应用日志和接口日志等数据采集上报到多个服务端统一的数据采集及跨平台兼容支持提供开放式、自定义的采集上报发送延迟、数据校验、采集限频等数据传输通过标准协议传输数据单份数据多份订阅及分发传输支持多种传输及容灾方案,如同时具备推与拉具备平行扩展、数据汇聚和高效传输等架构能力数据管理数据接收仅实现数据接收支持数据清洗、转发、丢弃、复制等异构数据源集中接收统一的数据上报,支持文本、字符串和加密协议等空值检测、乱码校验、属性校验、过载保护数据 ·

原始数据源预处理处理 ·异常数据识别实时计算数据处理延时小于

1分钟自定义日志字段解析,数据校正、持久化、异常告警数据存储具备基本的数据存储能力自定义数据四则运算、分类和聚类等对外提供数据接口,可扩展的ETL

能力异构数据源的处理及关联分析的能力统一的数据存储,确保完整性和可用性文本、数值型、位图和时序数据存储高并发查询,冷热数据分离半结构化数据、时序数据的快速检索与统计数据应用数据服务提供基础的数据存储服务可计算最大值和平均值等,数据接口支持按条件导出、自定义查询支持复制、同步或传输数据到其他存储介质在线自定义数据统计分析,如在线

SQL数据权限、加密或脱敏,接口调用限频、限制访问源告警与管控多通道发送告警信息告警收敛,告警触达率和准确率统计告警关联运维操作提示,自动告警升级告警关联收敛,自定义告警关联自助分析工具告警关联自动化工具,常见场景下的故障自愈可视化管理在线数据图表展示自定义图表,场景化的在线数据查询业务监控指标重点展示基于业务拓扑架构或调用关系的可视化及异常展示多维度的数据下钻与展现,全业务级的可视化过程域 过程域二级 三级评估维度1级2级3级监控管理22监控架构能力的演进数据来源AgentSDKHTTPKafka文件导入传输通道应用场景日志查询日志告警多维下钻分析多维监控告警业务数据大盘实时报表调用链查询依赖分析数据管理接入层解析校对聚合ES筛选分组转发Hive数据接收数据处理数据API数据存储过滤过滤翻译数据库统计格式化吞吐量Druid

数据采集数据应用监控架构能力的演进数据来源应用场景数据管理数据采集数据应用23过程域 过程域二级 三级评估维度1级(平均级:部分自动化)2级(先进级:自动化/脚本化、小范围)3级(领先级:系统化/平台化、大范围)配置管理运营配置管理配置对象记录基础设施级配置对象全生命周期管理,状态更新及时通知支持业务、应用级配置对象自动发现、可关联,支持自定义扩展字段变更关联技术运营事件,如运维告警关联返回码配置数据依靠文档记录配置信息统一配置管理,实时反馈运行状态支持变更回溯、日志审计、API

接口等关键配置数据自动纠正,单一可信数据源权限与组织相关联,多用户视角的统计与展现配置管理能力阶梯式提升有配置记录的实践,纳管部分配置对象配置记录能够为运营活动提供支持配置对象间的关联,触发规则完成运维操作

过程域 过程域评估维度1级2级3级配置管理运营配置管理配24高可用管理解读过程域 过程域二级 三级评估维度1级(平均级:部分自动化)2级(先进级:自动化/脚本化、小范围)3级(领先级:系统化/平台化、大范围)高可用管理应用高可用管理弹性能力根据监控性能指标或计划,进行应用的自动化动态扩容多应用相关联的自动化同步横向扩展柔性能力软硬件故障不易产生业务中断梳理应用调用关系,负载均衡支持多种算法能流量切换,应用发布对业务影响小基础的健壮性,硬件故障能及时恢复在较短时间内完成应用扩容的上线运行与维

·具备常用信息系统护管理 ·

主机、进程端口监控结合配置管理系统实时更新状态信息集中展示能力,信息全面准确缓存高可用

针对热点数据使用缓存加速数据高可用管理 数据库 ·

备份可靠,保证数据一致性高可用 ·

主从同步及切换应用服务间调用关系治理平台,支持应用服务级别的监控告警应用节点可快速横向扩展,支持分批发布,且发布过程对生产无影响·良好的健壮性,无单点,硬件故障不易出现业务中断或异常失效转移、限流IT系统信息有效打通业务层监控,易于查看业务调度和性能,支持故障快速定位持久化有缓存的备份节点,主备节点保持实时同步,能主从切换主备实时同步,读写分离使用数据库本地事务保障数据一致性有同城多机房的数据备份主节点宕机可自动切换备份节点并保持数据一致具备分布式,可快速平滑横向扩容分表分库横向扩展,跨库事务有同城多机房的实时数据备份,有异地数据备份可按照RPO要求恢复至2分钟内的数据数据库变更不影响业务正常运行1、应用的非功能设计要求2、数据的高效应用与可用性管理高可用管理解读过程域 过程域二级 三级评估维度1级2级325过程域 过程域二级 三级评估维度1级(平均级:部分自动化)2级(先进级:自动化/脚本化、小范围)3级(领先级:系统化/平台化、大范围)容量与成本管理容量管理基础设 ·

按相关维度聚合施容量 ·

容量监控与告警实时容量查询,支持

API

查询接口特征管理、基线管理、单机承载的量化管理动态容量平衡的架构容量预警、容量预测业务容量按相关维度聚合容量监控与告警特征管理、反馈指标管理自定义业务容量计算方法与基础设施容量关联分析决策业务调度、柔性服务、容量预测成本管理成本合理性基础的成本意识与管理基础设施及软件的全生命周期成本管理准确记录成本相关数据的预算与核算基础预算、基础核算体系化的预算管理、核算管理主动成本分析,全局技术运营对象的核算多维度、精细化成本管理成本数据与容量数据关联分析成本换算、主动成本优化成本分析与预测成本数据自动化校对容量和成本管理的阶梯式提升客观量化关联计算、场景化使用 --

(关联监控管理)主动管理、驱动优化 --

(关联配置管理)

过程域 过程域评估维度1级2级3级容量与成本管理容量管26目录技术运营标准简介1标准的框架与设计思路2标准的“硬”技术与案例解读3标准的“软”能力与案例解读4

目录技术运营标准简介1标准的框架与设计思路2标准的“硬”技术27标准中的“软”能力业务连续性管理用户体验管理事件变更管理流程设计文化运营组织协同数据度量

标准中的“软”能力业务连续性管理流程设计28案例2:重大活动保障机制被动响应故障影响标准化管理变更流程管理部署管理建立机制事前管理事件处理事后管理体验数据管理业务优化管理定义价值业务认知管理容灾容错灾备管理组织机制应急管控应急预案应急演练组织机制业务影响分析业务风险分析度量测算RTO

RPO

案例2:重大活动保障机制被动响应标准化管理建立机制体验数据管29用户体验管理解读过程域二级过程域三级评估维度1级(平均级:部分自动化)2级(先进级:自动化/脚本化、小范围)用户体验管理业务认知管理重视业务运营指标,未涉及对核心用户群的体验分级管理基本的业务认知,定期体验业务及产品能使用常用诊断体验问题的测试工具拥有衡量用户体验质量的体验类指标团队定期的业务培训,并有上岗资质考试具备能主动挖掘用户痛点需求的产品能力,并能以用户单场景化系统性解决问题能够联动内部产品、客服等团队,丰富统一的用户体验类的知识管理系统团队定期产品岗培训,主动优化团队考核及创新性团队管理模式体验数据管理采用基础采集工具,全面收集及丰富业务程序、网络等类型的采集维度能按用户到业务端全链路用户事件的数据埋点规划。拥有大数据实时计算分析的技术解决方案能定期review及更新用户体验指标的数据维度收集竞品及外部相关业务口碑数据,并能够在5分钟内发现数据质量异常能按业务核心体验指标的动态基线进行数据管理基于多维度数据的实时可视化,支持用户链路的关联数据查询及追踪体验优化管理依靠用户体验的场景监控及业务突发预案,快速解决用户体验问题能够精细化监控及下探用户全链路的体验问题并形成可视化体验报告能依靠与外部团队的合作丰富用户端的体验触达工具基于用户体验管理系统,整合工具、周边系统、解决方案,具备自动跟踪、联动处理的事件闭环的线上用户体验管理能依靠外部资源合作,引入行业优秀的解决方案或新技术,完善体验的解决方案库或触达用户的决策库业务认知管理

体验数据管理体验用户管理用户体验管理解读过程域二级过程域三级评估维度1级2级具备30事件与变更管理解读过程域 过程域二级 三级评估维度1级(平均级:部分自动化)2级(先进级:自动化/脚本化、小范围)3级(领先级:系统化/平台化、大范围)事件与变更管理事件管理事前管理基本的分类,被动受理和处理系统故障值班接口人实时响应问题和事故进一步分级,主动的事前流程宣导重大故障应对预案,事件组织与工具基本具备达到架构和运营要求场景和组织进一步扩展平台化,平台间信息共享和协同高可用和连续性规划事件处理故障后快速处理和恢复应急响应和故障处理时效合理、止损意识服务台统筹、预案一站式脚本执行能力高效决策能力、合理止损、标准化管理流程平台化,操作可授权和可视化等、强容错事后管理基本的纪录、分析和通报学习改善机制,定位客观,正确找到原因和责任归属事后流程和质量文化事故分析透彻、度量改进、改善验收、知识库沉淀度量关联绩效考核,平台反哺变更管理变更流程

·

变更操作周知管理 ·

突发场景下的变更能力部署管理具备

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论