数字化安全生产平台的思考以及落地_第1页
数字化安全生产平台的思考以及落地_第2页
数字化安全生产平台的思考以及落地_第3页
数字化安全生产平台的思考以及落地_第4页
数字化安全生产平台的思考以及落地_第5页
已阅读5页,还剩7页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数字化安全生产平台的思考以及落地行业背景十四五规划下加速各行业全面加速数字化升级“加速数字化发展:发展数字经济,推动数字产业化和产业数字化,推动数字经济和实体经济深度融合,打造具有国际竞争力的数字产业集群。加强数字社会、数字政府建设,提升公共服务、社会治理等数字化智能化水平”数字政府网上办事大厅、数字防疫金融互联网银行、智能风控医疗健康智慧医疗、全国联保新零售智慧门店、全域营销交通物流智慧收费、出行服务能源水利精准预测、智慧水利生产制造生产调度、工业检测游戏云游戏、AR/VR数字化转型中业务连续性保障的挑战工具分散告警难收敛人员边界模糊架构复杂性缺乏安全意识无应急体系监控报警太多,如何过滤对业务有价值的报警事件,如何有效收敛?1监控工具分散,如何数据共享和统一,实现全景展示、全业务覆盖?2业务架构愈发复杂,敏感程度也变高,如何保障业务稳定性?3复杂业务场景下保障稳定性和连续性的职责边界不清,如何协同?4线上线下故障如何规范化预防和应对,应急流程如何保障顺畅?5故障定级规则不统一,如何追溯与改进?6传统运维手段不足运维手段和工具割裂,无法形成有效的组合拳工具割裂上云/云原生浪潮下,多数运维手段任然停留在基础设施层面而非业务层面面向基础设施,非业务面对越来约复杂的业务架构和越来越快的业务迭代,只能被动运维,难事前有效预防,事中从容应对被动运维缺乏体系化、规范化、可扩展的稳定性保障体系缺乏规范体系阿里巴巴组织-技术-文化三位一体的安全生产体系值班长容灾演练

故障演练

预案演练

全链路压测演练

演练验收全链路功能仿真演练

组织机制文化全局架构容灾能力异地多活

同城容灾

运行态稳定性防护限流降级

弹性伸缩

流量调度

开关预案

发布&变更风险控制变更管控

灰度/蓝绿

安全生产环境攻防演练

数据中心系统数据垂直安全生产

考试认证

伏波讲堂

熔断机制

变更规范

运维红线

红黑榜/奖惩

安全生产日/月集团安全生产门户

应用数据流程支撑体系工单系统

活动平台 舆情中心

大促中控台

流量数据故障平台故障发现

故障应急

根因定位

故障恢复

故障复盘

故障数据挖掘

运行态稳定性度量压测

依赖治理

故障注入

业务对账

稳定性能力体系变更数据业务数据故障数据AIOPS智能决策

专家系统

AI

算法

数据运营稳定性/故障分

稳定性运营报告

运行态状态监控链路监控

业务监控

系统监控

SL

A监控

稳定性专项全局风险治理监控覆盖度全面灰度

数字化安全生产平台介绍DPS

Scene(业务场景层)DPS

Domain(能力领域层)DPS

Flow(能力编排层)(行业方案层)DPS

SDK(能力扩展层)DPS

Product(产品层)故障预防三板斧故障快恢1-5-10故障演练红蓝攻防容量管理大促一体化容错管理韧性评测容灾管理多云多活质效医保 数字防疫 金融系统上云 …….业务流程编排用户租户组织业务监控域容灾域快恢域故障域变更域演练域协同域……CRD

Spec阿里商业阿里开源三方开源业务大屏自定义配置数字化安全生产平台(Digital

Production

Stability,简称DPS)是一站式的业务连续性保障平台,解决安全生产过程中的组织协同难,应急效率低,业务故障频发,SRE理论落地实施难等问题,提升业务连续性.核心特点DPS

Solution场景化业务保障流程产品化安全生产解决方案标准化安全生产能力管理数字化安全生产度量1-5-10介绍5分钟故障处置监控发现告警通知人工上报故障确认故障通告故障响应故障定位故障快恢恢复验证1分钟故障发现10分钟故障快恢1分钟故障发现体系建设落地面临问题解决思路核心业务监控大盘监控能力风险覆盖率指标1分钟发现有效率发现漏报率监控系统多样导致数据分散自研监控商业监控开源监控监控指标复杂导致重点缺失网络传输监控(丢包,延迟)服务器系统状态(CPU,load)虚拟机,容器监控应用运行状态(成功率,qps)业务运行状态(订单创建量…)用户体验(白屏,内容错误.)人员视角不同导致问题遗漏业务人员关注业务,应用运行运维人员只关注机房监控全局监控大盘核心业务监控-故障关联核心业务监控中心化管控系统监控去中心化监控非核心业务监控-风险预警关联统一收敛查询统一监控系统自研监控商业监控开源监控核心业务监控指标用户体验业务运行状态影响面下跌幅度持续时长错误总量业务故障场景非核心监控业务运行状态指标影响面下跌幅度持续时长错误总量业务风险预警业务故障场景系统监控指标容器虚拟机监控服务器系统状态应用运行状态影响面系统资源水位容量饱和度配置方式系统告警升级配置方式配置方式5分钟故障处置体系建设研发人员运维人员测试人员应急链路角色多缺乏流程驱动怎么组织?谁来响应?谁来处理?谁来监督?业务链路长初因定位难流量问题?网络问题?编码问题?依赖服务问题?基础设施问题?配置变更问题定位能力应急协同能力多用于初因定位多用于根因定位指标应急5分钟响应率统一定位系统全局变更诊断SaaS定位IaaS定位PaaS定位发布变更业务日志网络DB慢SQL配置变更Trace链路宿主机缓存热点/未命中数据库变更进程信息DNS……中间件……初因5分钟定位率规范应急流程明确角色分工引入技术支持角色(组织,监督)从业务,变更快速初因定位从应用,系统进行根因定位定位结果聚合,快速查询面临问题 解决思路落地10分钟故障恢复体系建设面临问题解决思路流量问题?网络问题?编码问题?依赖服务问题?基础设施问题?流量问题网络问题如何合理使用快恢能力编码问题依赖服务问题基础设施问题配置变更问题如何建设快恢能力建设快恢通用能力杜绝快恢一刀切明确快恢执行条件快恢能力的分类快恢能力的时效快恢能力的有效性评估快恢常态化运营落地10分钟快恢达标率快恢能力标准化接入基于故障的快恢能力推荐流量类成功率RT类系统资源类编码/依赖流量/网络中间件容器/资源类型根因切流回滚重启扩容限流隔离回滚扩容隔离扩容降级扩容故障快恢覆盖率快恢能力有效率目标模型定义(部署形态,资源分层)容器化产品对接云底座ECSKubernetesEDAS进程服务应用主机非容器化ANSIBLEDeploymentPodContainer回滚切流限流降级扩容重启发布隔离能力分类能力实现重启举例快恢目标数字化安全生产1-5-10落地目标:1分钟发现、5分钟响应、10分钟恢复基础能力业务应用提取关键业务场景故障定级告警指标&规则设计告警规则配置应急场景配置业务/系统调用链路梳理提取核心应用提取核心接口提取应用部署资源梳理技术团队组织架构建立故障应急机制建立各角色SLA建立故障复盘标准建立全链路问题快速发现能力 建立全链路监控能力 建立故障管理体系 建立故障快恢能力业务/技术调用链路&快恢能力梳理快恢能力补齐现有快恢能力对接业务层->应用层->数据库层->基础设施层的端到端监控 度量 快恢预案统一管理日志采集接口黄金指标慢SQL/调用异常/错误分析链路追踪 cpu网络日志解析数据采集JVM ChatOps业务应用集群宿主机EDAS容器MQ既有监控系统ZabixPrometheus云监控其他重启

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论