




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
备丰富的运维平台产品建设经验;了云技术快速发展的关键时期,有从云平台底层到业务最教育、泛娱乐等行业客户,基于客户业务打造托管式的云上智能运维解决方案,擅长用云最佳实践、产品管理、研发管理、业务重保、疑难问题攻坚等。多角度洞察运维痛点企业演进过程中运维解决之道阿里集团用云最佳实践企业运维平台的未来多角度洞察运维痛点企业演进过程中运维解决之道阿里集团用云最佳实践企业运维平台的未来农业时代蒸汽时代工业时代智能时代维本运维当企业IT系统发展到一定规模后,就会了一小部分场景逻辑,使用shell来实现一蒸汽时代。自动化运维工具和平台大幅度提升人力成本不断提高,渐渐地对于重型信问题判断依赖经验运维资源不足脚本适用范围小缺少数据量化支撑标准化程度低根因分析操作对事件影响不明问题判断依赖经验运维资源不足脚本适用范围小缺少数据量化支撑标准化程度低根因分析操作对事件影响不明知识体系转移较慢趋势预测知识复用性低企业对IT系统依赖度高运维稳定性差农业时代蒸汽时代工业时代智能时代维本运维机机器学习无无法自动运维依依靠人力运维故障画像故障画像多角度洞察运维痛点企业演进过程中运维解决之道阿里集团用云最佳实践企业运维平台的未来应用架构师云平台架构师应用开发应用运维专业运维CB资源供给部署监控与可观察性运维操作与自动化可靠性与可恢复性应用架构师云平台架构师应用开发应用运维专业运维CB资源供给部署监控与可观察性运维操作与自动化可靠性与可恢复性合规与运维风控CC云上应用如何运维?风险识别、防护、检测、评估和处置业务监控的意义故障导致公司资金损失客户流失还可能产生社会舆情及群体事件故障导致公司资金损失客户流失还可能产生社会舆情及群体事件PP1P2故障故障发现时长故障持续时长 监控发现分钟级分钟级*4用户上报为何选择业务监控发现故障?•相比其他监控,对公司核心业务指标进行监控,更易发现业务异常异常发生历年故障分析监控发现恢复时长远小于非监控发现监控对于故障快速恢复非常重要付款成功量异常监控SSK据源采集SLS监控系统agent据源采集SLS监控系统agent Reduce 订阅管理 报警网关智能监控报警规则业务监控技术方案•调度10万+核计算资源,提供分钟级百T日志处理能力,存储亿级监控项业务监控平台IHbaseWeb数据流任务流业务监控-指标自定义采集配置路径详细筛选统计简单直观的反映监控指标代表含义•日志文件完整路径•增量采集线上等压测标业务逻辑业务结果错误码列-多维度•关键字段前后有明确标识分割(如|)•以上筛选能力一般是基于具体业务需要场景组合使用故障场景业务体量则业务等级…故障场景业务体量则业务等级…淘宝交易创建–量大稳定菜鸟仓储操作–波动稳定饿了么退款申请–量少•量大,周期趋势稳定•故障等级:异常下跌5%触发故障•量中等有抖动,周期趋势稳定•故障等级:异常下跌15%持续3分钟触发故障•场景相对简单,成功失败原因均明确•量少,无周期趋势•故障等级:持续5分钟成功率低于80%•场景相对简单,成功失败原因均明确•成功量8-22点环比下跌超过2%•或成功量22-8点2分钟求和环比下跌超过3%警•成功量3分钟求和环比下跌10%且成功量3分钟求和昨天同比下跌10%且成功量3分钟求和上周同比下跌10%•或成功率持续2分钟小于95%•成功率持续3分钟低于90%且失败量持续3分钟大于5•或成功量持续3分钟为0(兜底入口异常无失败量)•不宜配置成功量波动报警注:上述配置阈值,均为示意值。周周期趋势业务等级高,全站交易核心业务故障场景下跌3%就触发故障业务体量大,趋势稳定波动小STL实现方案不同业态曲线的特征有较大差异•STL实现方案不同业态曲线的特征有较大差异•数量级•局部波动程度•周期面临挑战对外部干扰对外部干扰不同业态的异常判定标准有较大差异•线上业务(游戏).vs.线下业务(新零售)智能监控-实际效果监控报警核心指标准确准确率取决于监控报警配置质量01取决监取决监控覆盖及报警质量决定异常是否能被监控发现重大故障>=90%一般故障>=70%02召回率报警报警量取决于合理订阅及准确率03多角度洞察运维痛点企业演进过程中运维解决之道阿里集团用云最佳实践企业运维平台的未来上云历程集团上云三个阶段:弹性上云核心系统上云全面上云在每个阶段集团上云解决的问题和核心关注点都是有差异的。同时在每个阶段达成具有里程碑意义的上云案例。22017~2019弹性连续3年完美支撑双十一购物22019~2020核心系统上云22020~全面上云BU业务考拉饿了么高德优酷等100%上云极致弹性,SP模式引入集团•基于飞天技术服务平台(Apsara•基于飞天技术服务平台(ApsaraServiceStack)CloudDoc/Advisor模块能力进行云平台风险巡检并前置治理风险。•重保期云平台针对性封网管控及变全网更评审台集群水位评估与管控。腾挪。•利用单元压测摸排各模块性能瓶颈,并完成容•利用全链路压测方式验证系统整体并发能力是•对系统全链路性能瓶颈点做性能调优。北京冬奥累计压测奥运相关项目数十个子模块,数百保证关键系统并发性能识别云基础设施潜在风险•按问题场景梳理准备应急预案73项,覆盖云上数据和中间件等8个产品垂直线方向。超限和管控异常等不同问题的应急处理。•主要产品钉群机器人35类核心告警处理预案。演练。•主管单位、冬奥组委和各厂商安全情报协同处•冬奥重保期间蜜罐捕获请求数千次,恶意请求赛事问题快速恢复构建纵深防护体系奥业务连续性保障方案云平台基础设施容灾能力验证,如负载均衡SLB多可用冗余验证,RDS数据库HA切换验切能力。•钉群机器人主要产品核心告警项目35项,重保期核心告警主动处理41次,避免风险扩大。•利用资源Grafana监控大屏按照top异常资源观察和汇总异常实例资源信息,做到全局实施观限治理基于业务和组织进行云上资源的身份管理和授权规范•根据组织架构对云资源进行分组,并以云上用户组为最小•权限越界访问用户数审计•授权失败审计•未在指定时间登录的用户数审计•未配置强制多的因子认证的用户数审计•根据组织架构对云资源进行分组,并以云上用户组为最小•云上用户组在信息系统运行不同阶段权限的治理•制定访问管理流程•配置审计进行持续合规审计•云安全中心进行持续合规审计BeijingBeijing2022总体账号设计用用户权限访问控制流程 信息系统运行不同阶段权限治理Beijing2Beijing2022云上安全产品安全产品WAFAnti-DDoS(BGP)Anti-DDoS(国际)加密服务堡垒机云安全中心墙人机验证数据库审计理基于丰富的阿里云安全标准化产品巡检发现问题,进行资产与数据的安全治理•所有已部署的资产必须按照重要程度和数据敏感性进行分类•在可以批准并实现足够的安全和治理要求之前,无法将任何使云•任何包含受保护数据的段中提升权限都应属于异常SLSSLSAuditCenter•依托SSL保证数据传输过程的安全性,依托KMS、加密服务对提取操作进行合规审计监测方案全过程安全防护保障基于强大的安全服务团队保障赛前赛中赛后的全过程零安全事件全全生命周期默认安全建设全全面风险评估和安全验证安安全责任有效区分落地情情报协同与应急预案飞天技术服务平台飞天技术服务平台-CloudDoc/Advisor运维机器人术机器人学习特征库算历史分析数据模式匹配模型训练多云联动分析OPENAPI可视化大盘控制台云监控数据操作系统级别数据用户业务日志数据用户平台操作数据数据源(租户层、业务层)具平台支撑云基础设施全景大屏业务信息系统全景大屏数十个云上系统的数百个关键指标的全景观测云基础设施全景大屏业务信息系统全景大屏全景作战大屏全景作战大屏冬奥某业务系统突发冬奥某业务系统突发业务异常应急践业务业务访问异常③算法多维度根因分析④NLP以及时序数据实现定界⑤专家经验自动化根因下钻⑥时序数据清洗分析,定位根因⑦提供问题处理建议&解决方案②算法实时动态检测①业务异常发生算法时序监测ODS-DFV业务指标异常源站对应时间点有变更发布操作源站业务5xx比例与WAF侧一致推导根因可能由于源站异常导致发布过程出现java内存占用异常,导致java进程崩溃解决方案及高可用建议诊流程根据阿里巴巴多年运维沉淀以及阿里云专家经验,使用不同数据流和习模型快速生成正常的应用程序模式和行为。根因下钻使用机器学习算法,将监控项异常与以实时产出或者前瞻性的产出处理建议。明确资源授权及业务各项监控核心指标集成告警配置,相关产品配置项和第三方事件管理服务。通过数据接入自动绘制资源架构拓策略利用监控和应急体系保障稳定性,活前完成高可用性方面演练策略利用监控和应急体系保障稳定性,活前完成高可用性方面演练模块化和全局接口可调用性量预置和性能调优进行治理从云上冬奥到大型活动保障量资源预留调度,深度性能优化统复杂度和内部组织协同复杂度对大数据处理能力要求高大型活动需要确保零故障,对整体稳定性及应急预案要求极高多角度洞察运维痛点企业演进过程中运维解决之道阿里集团用云最佳实践企业运维平台的未来运维平台的发展趋势企业围绕应用、云服务、云平台、基础设施构建可观测、可自动化智能化运维全新的云运营、云工具策略和云运维模式成为必然趋势.Gartner2022IT运维与云管关键趋势指出t要新的运营和工具策略不可变基础设施和基础设施即代码不可变基础设施和基础设施即代码(IaC)作为应用程序操作和工具的核心原则。程序操作和工具的核心原则。使用云”LandingZones”以增强管理和治理的最佳实践4、对可观察性和效率的需求不断增长会4、对可观察性和效率的需求不断增长会可观察性(observability)是一个属性而不是过程最小化、持续的投资AIOPS组合来获取即时价值这是云运维的基础使用DevOps和开发实践使自动化成为IT和业务的弹性基础。称为持续基础架构自动化(CIA)。使用策略即代码(PaC)来加强安全性和合规性•自动化事件管理•通过变更管理平衡速度和风险•去中心化的配置管理•LandingZone••LandingZone•云迁移咨询•数据库迁移•云原生迁移改造•数据中台建设•大数据平台建设架构设计数仓设计••GTS服务介绍阿里云GTS部门(GlobalTechnicalService)通过多种服务方案组合帮助您在企业数字化转型全生命周
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025-2030基本耐火材料行业市场现状供需分析及重点企业投资评估规划分析研究报告
- 2025-2030地基行业市场深度调研及发展趋势与投资战略研究报告
- 2025届四川省眉山一中办学共同体中学高考仿真卷英语试题含答案
- 2025届福建省“超级全能生”高三适应性调研考试英语试题含解析
- 2025-2030八宝粥产业规划专项研究报告
- 2025-2030全屋定制家具行业市场发展现状及竞争形势与投资前景研究报告
- 北京丰台十二中2025届高三第一次模拟考试英语试卷含答案
- 湖北省黄冈市蕲春县2025年高三第二次诊断性检测英语试卷含解析
- 2025届山东省昌乐县第二中学高考英语一模试卷含解析
- 山西省河津三中2025届高三适应性调研考试英语试题含解析
- 夫妻债务转让协议书范本
- 2025年房地产经纪人(业务操作)考前必刷综合题库(800题)附答案
- 桌球助教合同协议
- 电商行业10万字PRD
- 2024-2025学年八年级下学期道德与法治期中模拟试卷(一)(统编版含答案解析)
- 高一下学期《双休时代自由时间背后暗藏残酷筛选+你是“猎手”还是“猎物”?》主题班会
- GB/T 26354-2025旅游信息咨询服务
- 交互式影像中叙事与视觉表达的融合及其观众体验研究
- SL631水利水电工程单元工程施工质量验收标准第1部分:土石方工程
- 广东省茂名市2025届高三二模考试地理试题(含答案)
- 2025年上半年福建福州市金融控股集团限公司招聘22人易考易错模拟试题(共500题)试卷后附参考答案
评论
0/150
提交评论