版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
王肇刚(梓弋)品事业部-混合云平台里云高级技术专家王肇刚(花名:梓弋)王肇刚(花名:梓弋),阿里云基础产品事件部混合云全景监控平台团队(前阿里集团监控平台Sunfire团队)及混合云云+应用一体化运维项目负责人。在智能监控、运维领域工作多年,一直在努力通过产品化、智能化的方式提升监控、运维的效率和能力。•混合云场景下落地可观测能力的技术挑战•面向混合云客户的企业级监控平台技术架构探索•混合云可观测实战案例从监控到可观测控通过采集、分析和使用特定.vs.测通过分析系统主动暴露或生成的数据被动施加关注具体指标和现象关注报警和概况从外挂式监控到内置式监控从孤立、割裂的指标、事件到全景、全栈化的态势感知和关联分析分析从报警响应到故障全声明周期的问题排查、处置和长期优化主动透出关注上下文和背后原因关注根因和处置方案栈可观测景可观测一体栈可观测景可观测一体云平台、基础位一体、处置一体化混合云行业增长趋势明显,目前处于攻坚期受监控(可观测)产品自身技术演进趋势影响众多的NPM和APM厂商进入ITIM(IT基础设施监控)领域,监控产品供应商之间的界限越发模糊注重分析监控工具更多地关注数据采集(收集)和展示,栈监控受客户IT技术形态演进趋势影响监控领域的客户更多关注在混合基础架构(多云、异构网络、物联网)等领域的监控能力成本运营运维人员希望通过一起使用ITIM工具和云原生监控能力,来达成(成本)优化的目标。混合架构混合云客户对可观测能力的三大需求服务于故障处理全声明周期的可观测能力服务于故障处理全声明周期的可观测能力如何进行监控元数据如何兼容监控视角和数据采集、聚合维度如何满足应用性能监如何观测应用自身的如何基于应用暴露业如何进行监控元数据如何兼容监控视角和数据采集、聚合维度如何满足应用性能监如何观测应用自身的如何基于应用暴露业如何在混合架构下度应用架构差异传统应用架构微服务架构技术栈差异发语言差异技术框架差异研发模式差异运维模式差异基于物理机/基于容器/K8S虚拟机运维虚拟机运维技术环境差异导致全栈监控落地困难如何让监控、运维同灾……割裂层之二:平台运营和平台运维之间的割裂割裂层之三:监控报警和应急处置之间的割裂割裂层之四:不同的垂直应用系统之间的割裂如何在割裂的运维体系下落地全景可观测灾……割裂层之二:平台运营和平台运维之间的割裂割裂层之三:监控报警和应急处置之间的割裂割裂层之四:不同的垂直应用系统之间的割裂迟延成功率成成功率支付网关政务业务政务中台门户网站政企业务2政企业务2应门户网站政企业务2政企业务2租户侧contractbusinesscontractbusiness)政企应用2c政企应用2政企应用1Container/ECSContainer/ECSOSS管控OSS管控存储安全平台运维平台侧云平台层运维应用/业务监控获取拓扑困难运维应用/业务监控获取拓扑困难•业务和业务之间的横向拓扑•业务和应用之间的纵向拓扑•应用与应用之间的横向拓扑•应用与云产品实例(中间件、DB)之间的纵向拓扑•云产品实例和云平台组件之间的纵向拓扑如何让监控报警更好地服务于故障定界和处置 故障发现故障定级故障快恢故障定界快恢预案告警服务于故障发现告警服务于故障快恢报警风暴掩盖关键业务告警告警服务于故障定级故障定级难以综合技术容灾能力和业务影响告警服务于故障定界告警和快恢入口割裂,快恢决策依赖人工判断针对不同监控对象的告警杂乱发送,无法结构化地服务于故障定界•混合云场景下落地可观测能力的技术挑战•面向混合云客户的企业级监控平台技术架构探索•混合云可观测实战案例KPI看板析自愈化定级量预测应急指挥编排智能诊断场景略管理应急快恢能力集成应急业务视图应急应用视图应急盯屏应急预案应急协同应用监控业务监控景视图应用全局拓扑秒级监控计算类云实例应用视角云资源池监控API控应用健康画像容器&经典应用程调用监控盘KPI看板析自愈化定级量预测应急指挥编排智能诊断场景略管理应急快恢能力集成应急业务视图应急应用视图应急盯屏应急预案应急协同应用监控业务监控景视图应用全局拓扑秒级监控计算类云实例应用视角云资源池监控API控应用健康画像容器&经典应用程调用监控盘代码级诊断应用Trace分析数据库调用监控应用核心链路Prometheus数据库类云实例race智能基线检测成JAVA异常监控景检测集成集成景检测据管理一存储管控计算引擎一采控框架场景化监控能力验分析报告演练集成应用云实例拓扑集成存储类云实例应用云实例拓扑集成存储类云实例康画像控控系挖掘警模板注入统一采控平台代理管理统物理服务器据库应用系统虚拟机&容器业务应用应用一体化运维对业务应用应用一体化运维对象云平台安全生产业务场景故障发现故障定界故障处理事件定级1.集中式调度2.消息驱动3.守护&监护Sunfirebraingger SunfirereduceSunfiremaptputManagerctorShareinputManagerggerServerSunfireAgentAli-metricxporterHbaseLindormAlibabaAlarmCenterSunfireAlarm混合云可观测架构实现路径1.集中式调度2.消息驱动3.守护&监护Sunfirebraingger SunfirereduceSunfiremaptputManagerctorShareinputManagerggerServerSunfireAgentAli-metricxporterHbaseLindormAlibabaAlarmCenterSunfireAlarm起点:阿里集团监控平台(Sunfire)技术架构SunfiremetaSunfirecomputeAlibabaAlibabaCMDBSunfireWEBUI&APISunfireMQLSunfireMQL计算核心业务指标,不超过4.7秒的数据迟延监控集群自身规模(节点数量)过万~分布在阿里集团多个数据中心,生产突袭验证全局高可用基于消息的异步调度租户隔离的分布式部署准确拉模式下的数据齐全度保障•客诉量•舆情•舆情反馈•舆情监控方案•在线客诉监控方案•热线客诉监控方案阿里云ECS宕机数客户端监控APP监控方案•Crash率、Crash数(各维度•客诉量•舆情•舆情反馈•舆情监控方案•在线客诉监控方案•热线客诉监控方案阿里云ECS宕机数客户端监控APP监控方案•Crash率、Crash数(各维度)…业务总量、成功率、耗API…服务端监控•日志监控解决方案•智能监控报警策略方案•端监控指标业务指标钉钉文本消息量优酷视频全国播放量进程容量性能系统监控基础指标监控方案应用监控•应用服务监控方案•HTP、JVM…集团故障应急由业务监控而非系统/应用监控触发直接根据业务影响面和影响程度进行实时故障级别判定和指挥调度•基础服务•网络•机房•基础服务监控标准方案•网络监控方案系统应用监控基础设施监控服务端业务监控起源:阿里集团全局故障应急背景下的监控方案 监控重点 监控重点监控解决方案淘宝交易创建量用户反馈监控客户端业务监控客户端业务监控不影响业务的系统/应用报警不触发全局的故障应急调度不影响业务的系统/应用报警不触发全局的故障应急调度故故障定义业务监控风险预警故障通告故障快恢应急协同故障复盘混合云可观测架构实现路径—阿里集团监控平台转型之痛直面Sunfire转型之痛大规模监控计算调度和在混合云现有客户场景客户普遍缺失业务监控的理念……急需补全的能力客户侧专有云资源严格规划,小型化瘦身和部署能力增强是当务之急需要兼容全栈监控能力,增加链路监控和日志集成和兼容客户侧多样监控数据源和监控工具……业务应用云可观测架构演进路线图业务应用云+应用一云平云平台安全生产业务场景故障发现故障定界故障处理事件定级化运维对象实时计算架构和实时计算架构和Prometheus架构兼容智能化框架融合和演进指标监控和开源链路监控系统集成业务监控向三层全景监控架构演进面向一体化定级的事件中心架构演进计算架构和Prometheus架构融合 Map-Reduce融合Prometheus计算架构和Prometheus架构融合 Map-Reduce融合Prometheus要点•将Promethues原生架构的计算能力和Sunfire计算、存储进行有机结合•通过扩展设计,提升了Prometheus的高可用能力。 HAPrometheusGroup指标监控和开源链路监控系统(Skywalking)集成SunfireSunfire*Prometheus*SkyWalking->云原生可观测性架构演进要点调用链信息与应用性能监控指标联动不需要在JavaAgent端加指定参数,能做到服务自发现检测边界可视化线上回溯智能化框架融合和演进检测边界可视化线上回溯算法功能演进从智能基线到黄金指标异常检测,再到智能诊断、智能配置推荐、智能..…智能检测,根据历史推测该时间点同比智能检测,根据历史推测该时间点同比下跌40%,异常需要关注算法产品化能力迭代算算法参数可配置••算法调度框架任务分发算法中心调度存储API任务执行报警分发添加算法场景异步回调回溯算法任务••算法调度框架任务分发算法中心调度存储API任务执行报警分发添加算法场景异步回调回溯算法任务公共算法层架构演进要点架构演进要点存算一体化,降低报警发送延迟统一调度:统一调度分发任务,控制错误重传等容错机制,衍生出不同类型的任务调度插件满足不同类型业务需求配置存储时序存储算法配置界面算法实现框架Api层Service层统一事件中心解决方案事件聚合规事件抑制配报警收敛报则置告异构事件接入入应用层告警事件接入云平台层告警事件接入异构事件配置化接入统一推送API统一拉取事件接入事件抑制按时间抑制抖动抑制变更抑制事件通知事件订阅事件聚合接收人管理通知策略模板渲染统一事件中心解决方案事件聚合规事件抑制配报警收敛报则置告异构事件接入入应用层告警事件接入云平台层告警事件接入异构事件配置化接入统一推送API统一拉取事件接入事件抑制按时间抑制抖动抑制变更抑制事件通知事件订阅事件聚合接收人管理通知策略模板渲染钉钉群通知接收账号管理逐级通告维度智能聚合Webhook推送渠道管理值班组管理历史关联聚合通知组管理比例关联就高关联事件关联报警数据多维分析客户成功分析预警事件挖掘报警日报数据导出报警收敛优化报告事件数据分析事件认领事件诊断相似事件推荐事件处理记录事件处置一一体化定级解决方案业务视图应用视图故障定级事件盯屏事件中心产品功能事件去重事件去事件去重 (无状态)事件去事件去重 (有状态)事件丰富元元数据丰富丰富业业务树丰富企企业级能力事件数据流租户管理容量管理统一认证权限发布数据Normandy应用变更报警数据SunfireASOPremetheusARMSZabbix渠道管理事件认领事件数据分析事件诊断处置&分析事件盯屏业务视图应用视图可视化渠道注册渠道映射Sender事件组聚合通知订阅渠道分派器发布数据Normandy应用变更报警数据SunfireASOPremetheusARMSZabbix渠道管理事件认领事件数据分析事件诊断处置&分析事件盯屏业务视图应用视图可视化渠道注册渠道映射Sender事件组聚合通知订阅渠道分派器事件聚合接入网关事件丰富事件去重事件关联事件网关架构演进要点•通过开放性设计和事件模型抽象,提供丰富地南向、北向集成能力。•结合阿里云专有云的部署方案,支持各种场景下的容灾能力。技技术架构北北向集成下游渠道钉钉群邮件短信电话Webhook渠道账户适配器账渠道账户适配器账户系统Uni-manager元数据NormandyCMDBSunfire业务树客户账户系统元数据适配器客户CMDB自定义数据渲染引擎C•混合云场景下落地可观测能力的技术挑战•面向混合云客户的企业级监控平台技术架构探索•混合云可观测实战案例统一事件中心(统一接入、过滤、合并、处理事件)原始消息业务指标应用监控微服务基础资源云服务实例Tracing400+条/天统一事件中心(统一接入、过滤、合并、处理事件)原始消息业务指标应用监控微服务基础资源云服务实例Tracing400+条/天周告警数据汇总业务监控大屏,客户重点展示和使用控报警规则的定义,不仅实现对每层监控的快速发现,快速告警,同时为监控数据分析提供全面的数据支撑。云平台底座代扣托收XX联网直收渠道信息查询功能前端微服务接口务接口数据微服务接口代扣托收XX联网直收渠道信息查询功能前端微服务接口务接口数据微服务接
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 二零二五年度新能源技术股份合作开发合同3篇
- 2025年度离婚协议中未成年人监护权及抚养权争议调解书6篇
- 二零二五年供用电合同担保与电力设施建设合作协议3篇
- 淘宝小白运营课程设计
- 2025版绿色食品认证家禽养殖订购协议
- 2025年度新型城镇化项目验收委托合同3篇
- 二零二五年度多功能办公用品定制加工合作协议3篇
- 二零二五年度影视剧临时演员表演权益合同3篇
- 机械操作工安全技术操作规程(3篇)
- 2025年建筑施工企业安全生产许可证制度(2篇)
- 上海某建筑基础及上部结构加固工程施工方案砖木结构 砖混结构
- 停车场施工施工组织设计方案
- GB/T 21385-2008金属密封球阀
- GB/T 18994-2003电子工业用气体高纯氯
- 超分子化学简介课件
- 文言文阅读训练:《三国志-武帝纪》(附答案解析与译文)
- (完整版)招聘面试方案设计与研究毕业论文设计
- 调休单、加班申请单
- 肉制品生产企业名录296家
- 规划设计收费标准
- 山区道路安全驾驶教案
评论
0/150
提交评论