




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、 HYPERLINK / 中国AIOps 现状调查报告(2022 年) HYPERLINK / 中国AIOps现状调查报告 HYPERLINK / (2022 年) HYPERLINK / 2022 年 7 月 28 日核心观点摘要AIOps 能力建设基本情况多数企业近年来在运维方面的资金投入仍处于增长阶段。近 4 成企业运维方面年平均投资规模超 5000 万元,投资规模在 5000 万元-1 亿元的企业占比 11.24%,1 亿元-5 亿元的企业占比 13.45%。超半数企业在实现自动化运维、自动化部署的基础上进一步增强监控、运维智能化能力。根据本次调查显示,61.21%的企业选择优先关注和
2、投资 DevOps 自动化部署,52%的企业选择优先关注和投资升级监控和 AIOps。以结果为导向的 IT 运维 KPI 指标是当前企业关注的重点,企业对于用户体验的关注正在持续升温。根据本次调查显示,60.04%的企业最关注 “可用性、正常运行时间和性能”指标。用户满意度也获得了 44.66%的关注,这反应了企业对于用户体验的持续升温。智能运维已经在各行业逐步落地应用,特别是在科技、互联网、金融、电信几大领域应用效果十分显著。根据本次调查结果,科技和互联网行业受访者所在企业表示已建立了智能运维平台并形成了相关评价体系分别占比 49.64%和 37.96%,其次是银行占比 28.99%和电信企
3、业占比 25.97%。内外双修,智能运维系统/工具/平台既可用于增强企业自身运维能力,同时也可以对外输出产品能力。根据调查显示,企业的智能运维系统/工具/平台同时具备行业特性,如 48.29%的科技公司和 43.64%的互联网企业,主要对外提供智能运维产品及解决方案,50.36%的金融企业则更多面向内部使用。超半数企业以自主研发的方式建设 AIOps 能力。根据本次调查结果,超过半数(57.83%)的受访者所在团队主要以自研的方式搭建智能运维平台/工具,22.98%的受访者所在团队采用共研方式搭建智能运维平台/工具,另外还有 19.20%的受访者所在团队选择采购第三方解决方案搭建智能运维平台/
4、工具。将现有监控平台、大数据平台等多种数据源接入智能运维工具/平台,进行多场景数据融合是当前比较常用的智能运维实践方式。目前近一半(46.21%)的企业采用数据接入方式,同时还有 37.85%的企业智能运维工具/平台具备数据采集能力。持续完善数据能力,搭建计算分析引擎,进行数据分析和模型构建是智能运维能力中不可或缺的一部分。根据本次调查结果统计,目前 76.93%的受访者所在企业均已搭建了计算能力引擎,主要以自研(36.86%)和采用第三方提供(40.07%)两种方式为主。多数企业内部组建了专职团队负责 AIOps 能力建设。根据本次调查结果,25.84%的受访者所在企业组建了专职团队/部门负
5、责智能运维能力建设,此外还有由多个团队/部门联合组建(13.17%),各团队/部门分别建设(13.06%)和联合第三方厂商/外包组建(12.45%)等多种团队模式。AIOps 场景应用情况AIOps 仍处于初期发展阶段,受访者对目前 AIOps 能力水平的评价与期望超过其所在企业实际应用的情况。从整体来看,30.27%的企业自评目前处于辅助智能化运维阶段,28.61%的企业自评处于进阶智能化运维阶段。智能运维在质量、成本、效率、安全四大运维领域均已开展部署和应用,其中质量领域最为关注。调查显示,54.79%的企业当前着重关注智能运维的质量领域(包括异常检测、告警收敛、根因分析、故障处置等)能力
6、建设,其次 45.77%的企业关注效率领域,45.49%的企业关注成本领域,30.82%的企业关注安全领域。大部分企业在数据分析和算法模型分析方面已经逐步开始场景探索。并且已有 15.61%和 11.07%的受访者所在企业将数据分析方法和算法模型应用与大部分业务场景。通过使用智能运维算法,可快速提升运维智能化、自动化水平,大幅降低故障平均检测时间,加速平均修复时长。通过调查发现,目前已经有 11.95%的企业核心系统故障服务恢复时长可以达到 10 分钟内的水平,11.23%的企业已经达到 15 分钟内完成系统故障恢复。AIOps 发展趋势与挑战多数企业领导层已经对智能运维能力建设加以重视并付诸
7、行动,但在智能运维的建设过程中仍有诸多困难与挑战。根据调查统计,目前遇到的困难和挑战主要在不同运维场景中的实践探索中产生的,比如“能力定制化,难以跨业务应用或泛化成本高”(35.81%), “场景有限,大量运维场景没有成熟的方案”(33.98%),“新场景建设周期长”(30.71%)。需求驱动能力升级,除普遍关注的质量场景,安全场景成为更多企业未来关注和提升的方向。根据本次调查结果,质量场景仍然是主要提升方向。36.75%的企业在未来将提升故障的根因定位效率,32.82%的企业将会提升故障修复速度,31.82%的企业将完善故障预测能力以及 23.52%的企业将会建立故障处理流程规范。安全场景得
8、到更多的关注,40.79%的企业将加强对安全事件的快速响应以及相应的防范措施的建设。未来趋势:加强人员与技术方面投入,持续探索智能运维场景,持续优化现有场景能力,提升稳定性,易用性。47.76%的企业将在目前已有的智能运维场景中继续优化改进,提升效果。44.71%的企业将在易用性、可用性、稳定性等方面持续改进。一、调查背景(一)调查方法及样本1、调查方法本次调查报告采用在线问卷调查方式,共收集到有效问卷 1807 份。2、样本描述参与调查企业所在行业:包括互联网、科技、电信、银行、能源、证券、教育、咨询与服务、零售等行业。数据来源:中国信息通信研究院图 1 行业分布参与调查企业规模:人员规模在
9、 500 人以上的企业占比接近六成。近四成的受访企业资产规模在 1 亿元以上。数据来源:中国信息通信研究院图 2 企业人员规模数据来源:中国信息通信研究院图 3 企业资产规模参与调查人员地域分布:覆盖全国 31 个省级行政区近 90 个城市。数据来源:中国信息通信研究院图 4 个人地域分布参与调查个人职位:超过 5 成的受访者来自运维与研发部门,其中 28.33%的受访者来自运维部门,28.22%的受访者来自研发部门,12.68%的受访者来自技术及架构相关部门。数据来源:中国信息通信研究院图 5 个人职业分布参与调查个人工作经验: 超过半数的受访者工作经验在 4 年以上,工作经验为 6 至 1
10、0年的受访者居多,5.31%的受访者工作经验超过 20 年。数据来源:中国信息通信研究院3、样本说明图 6 个人工作经验序号N 值说明1N=1807样本总量二、AIOps 发展现状(一)AIOps 能力建设基本情况在当前数字化转型的浪潮下,企业 IT 运维方面的投资规模将逐步增加,IT 运维的关注方向也将逐步从自动化运维向智能化运维发展。伴随着企业规模扩大,业务模式更新,以及云计算、大数据、人工智能等新技术应用,智能运维能力已在科技、互联网、金融、电信等行业逐步落地应用,并呈现出多样化的发展趋势。近三年中,近 4 成企业在运维方面年平均投资规模超 5000 万元,此外投资规模在 2000- 5
11、000 万元的受访者所在企业占比 12.74%,500-2000 万元占比 18.55%,100-500 万元占比 21.26%,100 万元以下占比 13.88%。数据来源:中国信息通信研究院图 7 企业运维年平均资金投入规模(2019-2021)在实现自动化运维、自动化部署的基础上进一步增强监控、运维智能化能力。根据本次调查显示 DevOps 自动化部署(61.21%)、升级监控和 AIOps(52%)是大部分企业的优先关注和投资的方向。数据汇总来看,提升系统自动化部署能力,实现基础架构代码化、测试自动化等是企业当前投资的重点方向。另外可观测性、SRE 等时下热点也成为企业的投资方向和选择
12、。数据来源:中国信息通信研究院图 8 企业在技术投资时优先考虑的 IT 运营指标企业 IT 运营首要目标是减少故障发生次数,提高故障修复效率,以保证系统高效稳定运行,并进一步降低运营成本。根据调查结果显示,60.04%的受访者所在企业最关注“可用性、正常运行时间和性能”指标,同时有 46.60%和 44.66%的企业关注“发生故障/事件的数量”与“用户满意度”, 40.29%的企业关注“MTTR(平均恢复时间)”, 此外 28.33%的企业将 “IT 运营成本”也纳入了运营关注指标。数据来源:中国信息通信研究院图 9 企业 IT 运营关注指标智能运维已在各行业逐步落地应用,特别是在科技、互联网
13、、金融、电信几大领域应用效果十分显著,根据本次调查结果,科技和互联网行业受访者所在企业表示已建立了智能运维平台并形成了相关评价体系分别占比 49.64%和 37.96%,其次是银行和电信企业(28.99%和 25.97%)。数据来源:中国信息通信研究院图 10 企业智能运维能力建设情况内外双修,智能运维系统/工具/平台既可用于增强企业自身运维能力,同时也可以对外输出产品能力。根据调查显示,企业的智能运维系统/工具/平台同时具备行业特性,如科技和互联网企业,主要对外提供智能运维产品及解决方案(48.29%和 43.64%),金融行业则更多面向内部使用(50.36%),电信行业相对较为均衡,面向内
14、部使用,同时也对外提供产品及解决方案(51.80%)。数据来源:中国信息通信研究院图 11 智能运维系统/工具/平台提供服务类型超半数企业以自主研发的方式建设 AIOps 能力。根据本次调查结果,超过半数(57.83%)的受访者所在团队主要以自研的方式搭建智能运维平台/工具,22.98%的受访者所在团队采用共研方式搭建智能运维平台/工具,另外还有 19.20%的受访者所在团队选择采购第三方解决方案搭建智能运维平台/工具。数据来源:中国信息通信研究院图 12 团队搭建智能运维平台/工具的方式多数企业内部组建了专职团队负责 AIOps 能力建设。根据本次调查结果,25.84%的受访者所在企业组建了
15、专职团队/部门负责智能运维能力建设,此外还有由多个团队/部门联合组建(13.17%),各团队/部门分别建设(13.06%)和联合第三方厂商/外包组建(12.45%)等多种团队模式,共研(19.81%)或者采购第三方服务的形式(16.55%)搭建智能运维平台/工具。数据来源:中国信息通信研究院图 13 企业智能运维能力建设组建团队/部门情况智能运维解决方案提供商新炬网络 ZnAiops 智能运维管理平台腾讯蓝鲸智云BMC Helix 数字化服务智能运营平台阿里云 AIOps 智能监控解决方案亚信全域智能运维平台 AISWare AIOps华为云 AOM浪潮云云泽智能运营平台西骏数据 MC-Sta
16、ck 统一运营管理平台擎创夏洛克 AIOps 智慧运营平台必示智能运维平台博睿数据智能运维算法能力平台 Swift AI建信金科孔明产品紫羚一体化智能移动 IT 运营管理平台宝兰德 Opslink AIOps 解决方案云杉网络 DeepFlow 云原生可观测性平台百度智能运维平台日志易智能日志中心广通优云智能运维管理平台 AIOps智能运维解决方案丰富而多样,反映了市场的创新活跃性和多元化发展。本次调查统计了目前中国市场已有的智能运维解决方案提供商(数据仅根据问卷调查结果统计,不涉及市场份额情况,仅供参考):华青融天鹰眼 EZSonar 业务监控系统浩鲸 WhaleDI IntelliOps
17、智能运维平台IBM Watson AIOps 解决方案听云北冥LinkedAIOps 根因分析爱数 AnyRobot Family 3 基于机器数据的场景化运维平台鼎茂科技 AIOps 智能运维平台 ARCANA PaaS思特奇图南智维平台创新奇智 AIOps 智能运维平台中国电信翼维智能平台7x OPS翼维智能平台星眼一体化运维平台绿盟智能安全运营平台 ISOP睿象云戴尔科技集团 CloudIQ (AIOps)星汉未来云原生基础治理平台 SchedulX云新信息 iBSM,DCOS金蝶天燕 AIOps 智能运维平台能力(9.79%)。智能运维,数据先行,数据是智能运维的“原料”,是搭建智能运
18、维能力的基础。多数企业仍处于智能运维场景的探索和实践阶段:开始关注和梳理运维数据,建设数据规范化能力,为下一阶段运维数据的智能化分析做准备。目前企业智能化运维重点还在于数据的采集和规范方面。根据调查显示,37.84%的受访者认为开展智能运维最优先的能力是对数据采集分析,其次是对数据的规范化能力(22.54%)和工具平台的支持(21.09%),在此基础上完善算法数据来源:中国信息通信研究院图 14 智能运维的前置条件将现有监控平台、大数据平台等多种数据源接入智能运维工具/平台,进行多场景数据融合是当前比较常用的智能运维实践方式。目前近一半(46.21%)的受访者所在企业采用数据接入方式,同时也有
19、一定比例(37.85%)的智能运维工具/平台具备数据采集能力。数据来源:中国信息通信研究院图 15 智能运维工具/平台数据获取方式当前企业的智能运维系统/工具更多集中于对系统(服务器、操作系统)监控数据和业务/应用监控数据的处理和分析。根据本次调查显示,目前 57.39%的企业智能运维系统/工具处理分析的数据中包括应用指标、日志等数据,53.35%涵盖系统监控数据,其次占比 42.50%的是网络监控运维中关注的流量类型数据,最后是动力环境监测数据,占比 20.14%。数据来源:中国信息通信研究院图 16 智能运维工具/平台分析的数据种类多数企业采用第三方提供的智能计算引擎为 AIOps 系统提
20、供算法能力支持。根据本次调查结果统计,目前 78.57%的受访者所在企业均已搭建了计算能力引擎,主要以自研(37.63%)和采用第三方提供(40.91%)两种方式为主,在使用第三方提供的计算引擎的基础上,20.96%的受访者所在企业根据业务需求进行了定制化开发,更好的适配业务场景需求。数据来源:中国信息通信研究院图 17 企业智能运维计算能力引擎大部分企业已经在数据分析和算法模型分析方面已经逐步开始场景探索。智能运维中的计算分析能力,包含了常用的数据分析方法和算法模型分析,从目前的应用情况来看,企业实践普遍集中于在部分典型场景进行试点及应用。并且已有 15.61%和 11.07%的受访者所在企
21、业将数据分析方法和算法模型应用于大部分业务场景。数据来源:中国信息通信研究院图 18 企业当前运维工作中数据分析与算法模型应用情况围绕智能运维,大量的算法模型被尝试和应用。在本次调查中,我们统计了目前智能运维领域中使用较为广泛的数据分析和模型分析方法。运维工作中常用的数据分析方法,包括密度聚类 DBSCAN、相关系数 Pearson、正态分布 N-sigma、统计学分类 Bayes 等方法。数据来源:中国信息通信研究院图 19 企业目前运维工作中常用的数据分析方法运维工作中常用的算法模型分析方法,包括深度学习 LSTM、聚类分析 K-means、关联规则挖掘 Apriori、趋势预测 Arim
22、a、孤立森林 Isolation Forest、时间序列预测 Prophet 等算法。数据来源:中国信息通信研究院图 20 企业目前运维工作中常用的算法模型分析方法(二)AIOps 场景应用情况根据由中国信通院牵头制定的行业标准云计算智能化运维(AIOps)能力成熟度模型 第 1 部分:通用能力要求中的 AIOps 能力建设分级要求,可以将智能化运维整体能力从感知、分析、决策、执行、知识更新五个维度进行级别划分,系统的参与程度随智能化程度逐级递增,并结合智能运维应用场景特点,形成 AIOps 能力成熟度模型。图 21 AIOps 能力成熟度级别划分从目前的发展情况来看,现阶段 AIOps 能力
23、大多集中在 L2 级别,主要以系统辅助分析,帮助人工进行决策和操作为主,较为领先的能力实践可以达到 L3 级别,而 L4 和 L5 级别随着 AIOps 的技术发展和能力的逐步增强,将是未来智能运维能力建设的发展方向和目标。AIOps 仍处于初期发展阶段,受访者对目前 AIOps 能力水平的评价与期望超过其所在企业实际应用的情况。从整体来看,参与本次调查半数以上的受访者自评企业目前智能运维处于辅助智能化(30.27%)和进阶智能化阶段(28.61%)。此外,21.47%的受访者自评处于初始智能化运维阶段,13.72%的受访者自评已达到全面智能化运维阶段,5.92%的受访者自评达到了高度智能化运
24、维阶段。数据来源:中国信息通信研究院图 22 企业 AIOps 发展阶段不同 AIOps 能力成熟度阶段的企业关注领域各不相同,达到全面智能化运维阶段的企业更加关注在效率和安全领域的智能化运维能力建设。根据本次调查结果显示,自评为初始智能化运维阶段的受访者更多的是从质量领域开始进行场景探索(50%),质量领域的关注度远超其他部分。自评为辅助智能化运维阶段的受访者持续增加了质量领域(61.97%)的关注度,并且开始探索成本(52.47%)和效率领域(46.62%)的实践。而自评为全面智能化运维的受访者在质量、成本领域的关注度比较均衡(49,60%,45.16%),并且关注度逐渐向效率领域(55.
25、65%)倾斜,以及增加了对安全领域(40.32%)的关注和投入。最后自评为高度智能化运维阶段的受访者认为在质量、成本、效率、安全四个领域的关注度接近一致,也说明未来要达到高度智能化运维阶段需要逐步完善各个领域及场景的智能化运维能力。数据来源:中国信息通信研究院图 23 各阶段智能运维场景关注情况智能运维在质量、成本、效率、安全四大运维领域均已开展部署和应用,其中质量领域最受关注,调查显示,54.79%的受访者所在企业当前智能运维着重关注质量领域(包括异常检测、告警收敛、根因分析、故障处置等)能力建设,其次是效率领域(45.77%)、成本领域(45.49%)和安全领域(30.82%)。数据来源:
26、中国信息通信研究院图 24 企业当前智能运维重点关注领域质量领域最先考虑的智能运维场景是异常检测(62.26%)和告警收敛(57.55%),其次是故障预测能力(46.76%)、故障自愈(43.72%)、根因分析(42.67%),最后是故障预防(33.04%)。数据来源:中国信息通信研究院图 25 智能运维能力-质量领域应用情况成本领域的场景建设较为均衡,资源优化(44.49%),成本评估(40.40%),容量预测(40.40%),但有 20.59%的受访者所在企业表示还未开展成本部分内容,也是这四大场景中占比较高的。数据来源:中国信息通信研究院图 26 智能运维能力-成本领域应用情况效率领域最
27、先考虑的智能运维场景是效率评估(37.52%)、知识构建(36.58%)、智能变更(34.42%),智能问答(30.99%),舆情分析(16.60%)。数据来源:中国信息通信研究院图 27 智能运维能力-效率领域应用情况安全领域最先考虑的智能运维场景是风险可视化(40.12%)、威胁感知(32.82%)、安全知识图谱(31.10%),其次是脆弱性感知(24.02%)、SOAR(20.09%)、UEBA(16.05%)。数据来源:中国信息通信研究院图 28 智能运维能力-安全领域应用情况随着智能运维能力的持续完善以及应用场景的不断深入,将明显感知到智能运维带来的 效率提升。相较未引入智能运维能力
28、,在使用工具链、智能运维工具/平台处理一次典型的故 障(如核心系统的一次故障发现到完全修复),整体故障处理时间大概有多大提升。从数据来看, 53.96%的受访者还是可以感知到智能运维带来的效率提升,其中 25.4%的受访者表示有一 定效果提升(15-25%),16.77%的受访者表示提升效果明显(30-50%),还有 11.79%的受访 者感受到效果十分显著。数据来源:中国信息通信研究院图 29 故障恢复时长与效率提升的感知情况统计 通过使用智能运维算法,可快速提升运维智能化、自动化水平,大幅降低故障平均检测时 间,加速平均修复时长。通过调查发现,目前已经有 11.95%的受访者所在企业核心系
29、统故障服务恢复时长可以达到 10 分钟内的水平,并且还有 11.23%已经达到 15 分钟内进行恢复。大部分受访者所在企业处于 15-30 分钟的恢复时间(18.76%)和 30-60 分钟进行故障服务恢复(17.54%),仅有 7.86%的受访者所在企业恢复时间超过 4 小时。(三)AIOps 发展趋势与挑战智能运维发展道路欣欣向荣,通过调查我们发现,绝大多数的领导层已经对智能运维能力建设加以重视并付诸行动,但在智能运维的建设过程中仍有诸多困难与挑战,主要是在不同运维场景中的实践探索中产生的。比如“能力定制化,难以跨业务应用或泛化成本高”(35.81%),“场景有限,大量运维场景没有成熟的方
30、案”(33.98%),“新场景建设周期长”(30.71%)。技术应用方面,如“数据集成与标准化成本过高”(27.95%),“模型效果难以维持,持续优化成本高”(23.46%)。企业内部环境和组织架构方面,如“环境复杂,难以支持智能运维建设”(19.76%),“受限于 AI 团队规模”(18.43%)。此外还包括了智能运维的运用和价值体现,“运用困难,不了解如何使用智能运维的分析结果指导运维决策与管理”(17.49%),“智能运维的建设价值难度量和体现”(16.93%)。数据来源:中国信息通信研究院图 30 智能运维建设过程中遇到的困难需求驱动能力升级,除普遍关注的质量场景,运维下的安全场景成为
31、更多企业未来关注和提升的方向。根据本次调查结果,我们将运维系统中需要进一步完善和提升的能力按照场景进行划分,质量场景仍然是主要提升方向,其中包括提升故障的根因定位效率(36.75%),提升故障修复速度(32.82%),完善故障预测能力(31.82%)以及建立故障处理流程规范(23.52%)。成本场景中,包括需要进一步优化资源配置与成本优化(33.31%),建立系统健康度评估(29.88%),完善对变更过程的检测(19.98%)。效率场景中,涵盖运维知识库的构建与相关解决方案的关联(32.15%,23.63%),并同时将舆情信息纳入运维场景分析(26.34%)。安全场景得到更多的关注,其中需要加
32、强对安全事件的快速响应以及相应的防范措施的建设(40.79%)。数据来源:中国信息通信研究院图 31 目前企业使用的运维系统改进方向企业不断优化现有场景能力,提升稳定性、易用性,持续探索智能运维新场景并加强人员与技术方面投入是未来发展趋势。47.76%的企业将在目前已有的智能运维场景中继续优化改进,提升效果。44.71%的企业将在易用性、可用性、稳定性等方面持续改进。40.73%的企业将在更多新场景的应用中建设智能运维能力。32.1%的企业将研究与探索新技术/场景以满足未来业务的增长需求。27.67%的企业将加强人员方面投入,对技术人员进行 AIOps 相关培 训。数据来源:中国信息通信研究院
33、图 32 未来企业智能运维建设方向三、AIOps 实践案例(一)运营商篇随着国内企业数智化转型的深入推进,电信行业运维从传统的基础设备运维逐渐转为软硬件结合的综合管理,运营和运维工作面临着越来越大的压力。运维人员数量无法随着设备数量线性增加,每万台服务器运维人员的数量持续下降,亟需引入智能化运维手段,解决人力不足的矛盾。同时,也需要借助智能化工具提高资源的可用性,提升用户使用体验。案例 1 智能运营平台应用联通数字科技智能运营平台是联通数字科技有限公司自行研发的一款基于动态基线算法进行设备监控的产品,在业界得到了广泛的应用。该平台采用人工智能技术,根据基线动态配置浮动阈值,参照实际业务场景配置
34、安全范围,对不同设备的时序数据进行强针对性监控。国家开放大学的实验学院信息化改造项目选用了联通数字科技有限公司开发的智能运营平台,对国家开放大学三个校区(五棵松、魏公村、东直门)200+台 IT 设备及动环设备进行集中监控管理。智能运营平台在三地的部署图该项目实现了故障诊断、问题定位、分析结果自动化,结合运维知识库,确定处置方案;实现了自动完成故障感知、决策、执行的全过程,实现自动扩容、流量调度等操作;实现了对性能数据进行特征提取、分类,利用机器学习算法进行集成学习,动态分析设备运行参数的变化趋势,针对重要特性数据进行预测算法学习,预测网络流量、性能趋势、磁盘容量以及故障发生的可能性,规避潜在
35、系统风险;实现了对人工无法覆盖范围的延展,对客户动环指标进行全方位移动式环境监测、周期巡检;实现了定期检测资源的能耗指标,计算资源能耗,自动生成能耗报告,运用机器学习算法对未来资源能耗进行预测。通过预设能耗管理模型,结合业务负载情况,动态调整 IT 设备的上下线、关机、启动,达到绿色节能的目标。智能运营平台帮助客户解决了监控手段匮乏、故障发现滞后、动环监控死角、能耗管理落后、运维重要趋势无法预测等问题。随着系统架构逐步虚拟化、容器化、微服务化,IT 云资源池规模及技术栈类型也在逐步增加,指标数据日益增大;网元间的业务差异性要求网元评分标准“千人千面”,同参数模型精确度差;独立参数配置虽然能部分
36、解决问题,但需要极高的维护成本;为了解决数字化转型出现的问题,结合 AI 算法、大数据技术、自动化操作能力等打造了晴雨表产品。晴雨表系统采用可视化展现层、应用分析层、数据采集层三层架构。评分结果通过页面实时展示,同时结果回写至 Kafka 后再存入 ES 集群进行长久保案例 2 基于指标异常检测在云平台网元健康度判断的应用浙江移动存,整个过程无需等待指标采集上报。 系统架构部署方案 通过大数据运维,AI 算分,自动化操作发现低分故障网元,推送故障 详情信息到 kafka,自愈系统消费到 Kafka 数据后匹配到对应的自愈脚本 执行自愈,实现自动化故障恢复,减少人工干预。晴雨表以交付类产品进行输
37、出,支持一站式解决方案部署。目前已在浙江移动、新疆移动、集团大数据 BG、浙江创新研究院等多个环境投入生产使用。接入流程图新疆移动于 21 年 4 月在本地部署了晴雨表,对接现场数据采集能力,通过内置模型及个性化模型编排耗时一周成功上线,解决了系统实时监控盲区,故障感知率提升 90%。集团大数据 BG 于 21 年 12 月在一级 IT 云哈尔滨资源池部署了晴雨表,用于行程码系统日常监控保障,截止目前使用良好。晴雨表目前打分覆盖 33000 余个网元,基本涵盖云平台所有组件,日均评分网元约 10w 个,平均每年规避 G4 及以上故障 50 起,平均先于用户 5 分钟感知发现故障,有效缩减了用户
38、断服时长,提升了用户感知。晴雨表中基于OCDT 算法的智能异常检测模型,目前已在参与评分的千余条指标中进行运用,提高了晴雨表 16%的查准率,大大减少误报情况。案例 3 业务端到端故障智能发现诊断自愈中移动信息云原生技术的引入使得 IT 系统规模庞大、架构复杂,IT 运维迎接新的挑战, IT 业务系统集群规模越发庞大,传统的告警不能及时有效的发现系统异常,海量日志无法有效分析,业务调用链复杂,可观测性差,导致故障定界定位极其困难。本案例围绕业务系统的 metrics、log 、trace 数据进行横向业务分析,纵向 SaaS/PaaS/IaaS 分析,实现智能运维故障发现、诊断、自愈三个阶段的
39、端到端分析操作。方案框架图故障发现阶段采用无监督 metrics、log 异常检测,通过多维数据分析实现故障发现。无监督日志异常检测算法,可自动学习日志的模式,如新的类型、新的日志比例、新的异常参数等。算法首先基于预训练的 AI 模型和专家词典对日志分词,然后基于词序和词频等相似度特征,将日志聚类成多种模板进行异常检测。故障诊断阶段使用 trace 日志还原业务链拓扑、节点信息。通过业务链异常挖掘算法进行横向根因分析,确定引起了整个业务链故障的节点排名。通过日志异常检测算法智能发现相关节点的异常日志,以及结合跨层告警,结合知识库关联分析,在主机进程、中间件、网络拓扑中纵向定位根因。故障自愈阶段
40、使用自动化编排,实现自愈策略配置,人工确认故障准确后,系统自动完成自愈。操作完成后,系统自动跟踪自愈后的指标、告警,完成故障处理的闭环。价值与效益:故障发现时间平均提前 20 分钟。基于 AI 算法定位,排除大量的无效告警,月均告警量下降 20%。故障定位耗时从 30 分钟缩短到 10 分钟。西藏 CRM 系统运维自采用本系统的 7 个月来,累计节约 260 人/天,获得约 55 万收益。案例 4 异构系统智能故障诊断平台的应用广东移动近年来广东移动业务支撑系统加快向云化、容器化、微服务化的架构转变,带来系统架构复杂、故障点激增的问题,对故障处理的人员技术水平要求随之提高。为解决痛点问题,融合
41、业界规范,发展成为广东移动特色的“异构系统智能故障诊断平台”。2020 年 10 月份开始生产应用,已持续稳定运营一年以上。基本实现流程,通过日志、告警、KPI、性能指标、调用链、资产多种维度数据进行精准的故障诊断。其中有三个创新点:全息模型:综合多维度数据异常检测综合评估,精确度高。而一般通用 方案是对单个指标异常检测,并不能代表系统真的有异常,不够精准。应用的 算法包括 3sigma、柯西、基于 fft 的 SR、arima、FP-growth、xgboost、tf- idf、有向图随机游走 pagerank 算法和 pcmci 根因定位算法(针对容器环境)。无差别诊断:自动适应 Kube
42、rnetes 容器化/微服务云化环境与传统物 理机、虚拟机的环境。针对云化环境与传统环境有不同相关性分析,传统环境 因为拓扑稳定,采用 FP-GROWTH 相关性分析,而针对云化环境,采用有向 图随机游走的分析方式,能够明确告警指标等原始数据的相关性。故障知识图谱:在异常感知和故障识别阶段能够根据自建的知识图谱对 故障诊断的结果做修正,保证诊断结果的正确性。 故障诊断流程图投入使用以来,该平台为我司带来实际的应用效益,可使故障诊断智能化、故障定位迅捷化、运行质量高质化,降本增效。前后变化 运维效率 人力投入 处理时间 传统运维 人工排查处理 5 名高级运维工程师 平均每个故障 30 分钟 本能
43、力 AI运维 AI 智能处理,90%的系统故障可依赖本能力准确诊断 1 名初级运维工程师(成本降低 80%) 平均每个故障 2 分钟(效率提升 93%) 案例 5 AI 驱动决策,双换助推转型,“七步法”构建智慧投诉服务运营新模式辽宁移动随着 IT 技术的迅猛发展,投诉运维体系的不断演进,投诉运维逐渐从人工运维转变为智能运维,如何进一步推进智能化运维,体现智能投诉价值,是智慧运维平台面临的新挑战。传统方式下,投诉投入再多人力,也难以满足用户对问题快速解决的诉求,对业务拓展及客户满意度已经形成风险,人工运维方式急需改变。在此背景下,辽宁移动通过小步快走,植入 AI 智慧、自动化敏捷能力,通 AI
44、 技术对海量的投诉工单进行分析,多种模式组合运用,铸造核心价值,提升投诉处理效率,提升服务支撑质量,降低投诉量。智慧投诉平台整体技术架构分为门户和服务层:投诉门户层包括营业厅用户、地市支撑用户、省支撑用户各自相应的定制门户,可以将定制化的服务能力集成在门户中;投诉服务分为两部分,分别是针对投诉的应用和场景服务,和应用或场景服务所需的基础能力服务(黑色部分)。 智慧投诉平台整体技术架构图 相关组件功能如下:投诉门户:实现各个角色或渠道门户页面展示。投诉预处理:实现营业员反馈问题智能交互,预处理工单相似/同源推荐;业务一致性平台(投诉前移处理):实现投诉前移 web 及后台维护功能,支持业务指标一
45、键核查,预案执行;投诉工作流:实现投诉流程扭转,投诉工单相似/同源工单推荐,投诉敏捷处理能力;投诉敏捷处理平台:实现投诉处理预案编排、跟踪、执行、记录功能;智能投诉平台:通过 AI 智能模型,提供公告关联推荐、FAQ 关联推荐、投诉关键分析分解;投诉知识库:实现热点 FAQ 导航关联、FAQ 知识搜索、FAQ 导入/编辑/删除、FAQ 点击量统计等能力;投诉基础应用:实现公告、调查问卷、优化建议、常用口径的管理能力;价值收益:自 2021 年智能投诉机器人、智能知识推送能力上线以来,全省各地市累计调用 190 余万次,平均每月 12 万余次,且使用量每月程上升趋势。借助智能化手段,业务支撑类投
46、诉月均工单量同比去年下降 36.8%,投诉处理时长缩短 30%以上,投诉处理满意度正向改善 6.68%。(二)银行证券篇案例 6 工行 AIOps 智能运维体系建设实践中国工商银行软件开发中心在互联网金融时代,业务数量呈爆发性增加,业务模式更新迭代频繁,依赖人工经验的运维模式越来越无法保障 7x24 小时生产环境的稳定可靠,为解决云平台运维中的“痛点”,中国工商银行基于已有的运维数据,通过机器学习等手段提升运维的自动化、智能化程度,布局 AIOps 智能运维建设,逐步打造银行业智慧运维。在平台建设方面覆盖了智能运维体系的全方位领域,主要由门户、数据源、技术支撑和运维数据分析平台四部分组成:门户
47、提供各类智能运维场景的配置和调优服务并提供可视化展现;数据源实现监控、日志采集存储,通过缓冲层满足数据多渠道消费分析的需要;运维数据分析中心完成平台技术支撑服务的封装,为智能运维各类应用场景提供数据清洗、在线标注、模型训练和模型计算等全套服务;平台技术支撑层实现运维资源供应及大数据和机器学习的平台化能力,根据模型计算的需要提供匹配的流式计算能力,并持续丰富模型算法库。科技金融日益繁荣,其支撑金融业务的技术架构和上层应用更是日新月异,日趋复杂,以银行、证券业为例,信息系统访问量和数据存储量呈现爆炸式增长,相关软硬件资源数量也急剧攀升,金融 IT 运维部门面临巨大的压力和挑战。智能运维通过大数据和
48、人工智能算法模型对产生的各类运维数据进行采集、处理与分析,迅速发现问题根源并对未来可能出现的问题进行预测预防,提升IT 运维质量和效率,已成为迎接挑战不可或缺的科技力量和解决方案。异常检测故障诊断故障预测故障自愈成本优化资源优化容量规划负载画像智能变更智能决策自动验证配置管理算法选择参数训练离线标注回溯实验离线评估数据存储时序数据库缓存数据库OLAP数据库关系数据库搜索引擎持久化存储AIOps门户运维可视化仪表盘PC大屏移动端自定义报表平台监控中心系统监控故障管理成本管理变更管理服务咨询应用监控智能问答中间件监控运维知识库日志中心应用日志运维数据分析中心操作系统日志在线学习离线学习中间件日志在
49、线检测 在线标注 在线评估在线报警分布式监控数据模型库服务监控基础指标模型业务数据模型 调用拓扑模型IT数据池平台技术支撑网络(含硬件)大数据平台机器学习平台存储(含硬件)基础设施云应用平台云计算(含硬件)智能运维平台架构图在应用场景设置方面,将场景划分为故障管理、成本管理、变更管理和服务咨询四个大类。故障管理大类被作为主要切入点,通过人工智能算法实现报警阈值的自适应调整,完成报警指标的压缩和关联性分析,提高报警准确性,实现智能异常检测;根据监控指标的变化情况,预测其未来增长趋势,提早发现潜在风险,实现智能故障预测;通过监控指标多维度下钻和聚合分析锁定故障范围,进一步通过运维数据比对推荐故障原
50、因,实现智能故障诊断;探索应急重启、容灾切换等故障修复手段的智能化判定与执行,实现部分场景的故障自愈。目前,工商银行已完成交易安全管控、交易异常定位、日志模式诊断等多个场景的落地实践与探索。案例 7 工行数据中心智能运维技术应用实践中国工商银行数据中心工商银行正处于向数字化转型发展的关键时期,随着业务快速发展及 IT架构向分布式转型,数据中心规模大、信息系统技术栈复杂,对传统运维模式提出了严峻的挑战,迫切需要运维模式向智能化转型,通过数据来驱动运维决策,提升稳定性保障能力。工商银行数据中心重点围绕信息系统运维可视化和快速排障能力提升开展智能运维(AIOps)技术的应用创新,构建了以动态运维地图
51、、日志及指标分析引擎为基础的多模态智能运维框架,融合了知识图谱、自然语言处理(NLP)、异常检测、关联分析等机器学习算法,面向运维应用提供分布式架构下拓扑自发现、日志模式自动化解析、指标无阈值监控等服务,并在多个运维场景中取得了良好成效,提升了异常感知能力,辅助实现快速故障定位。动态运维地图实现架构与图谱示意工商银行数据中心已构建起基于动态运维地图、日志及指标分析引擎的智能运维框架,初步具备了 AIOPS 的服务化能力,面向运维应用输出实时运维大数据分析能力,提供动态地图查询导航、单指标动态基线检测、指标趋势预测、多指标关联分析、日志模式识别及异常检测等智能分析服务。基于该平台的服务,开展了数
52、据库健康监测、分布式存储监控、业务级故障定位等运维场景的研发及落地,并取得了预期的创新成效。案例 8 AIOps 智能根因定位中国农业银行业务数字转型与架构分布式转型对商业银行业务系统的运维保障工作带来了巨大挑战,如何在海量的监控指标、复杂的调用关系中快速识别和定位故障根因成为一个亟需解决的难题。主要体现在以下三个方面:一是数据量大,分布式架构下,告警、指标、链路等数据体量庞大,而根因定位又对时效性有较高要求,需要能够保证较高的算法性能;二是定位数据源种类繁杂,除了监控指标体现出的异常,关联应用、运维活动、链路调用等各类数据均可能导致系统故障,不同类型的数据须采用不同的算法进行分析;三是定位效
53、果差,由于故障根因分析缺少大量有效的训练集,因此完全依赖算法在前期较难达到预期效果,往往需要结合一定的专家经验进行辅助决策。针对故障根因定位面临的难点问题,农行通过构建系统运行健康度实时评估体系、优化海量资源指标算法分析手段、打造 AI 算法与专家经验相结合的全方位根因定位平台等方式,实现对系统运行情况的智能洞察与快速定位,有效提升了运维故障的发现和处置效率。故障根因定位总体流程图此外,农行还打造了线上化的智能根因分析工作台,实现系统关联信息、资源拓扑信息、运维时间线信息、性能指标信息、根因定位结果的一站式全景汇聚,提供沉浸式根因分析体验。目前农行智能根因定位场景已在生产上得到了广泛应用,为生
54、产异常的 “及时发现、准确定位、快速处置”提供了有力支持,其中 AI 根因定位已覆盖全部应用系统,专家定位流程覆盖 70 余个系统共积累 200 余条专家经验,生产异常的定位时间压缩至 5 分钟以内。案例 9 AIOps 在银行业运维操作风险控制领域的实践建信金融科技有限责任公司随着银行业务数字化程度不断提高,以及监管机构对银行信息科技风险监管的持续加强,银行业金融机构需不断提高自身信息科技风险治理水平,持续加强自身信息科技风险管理能力。建信金科与中国建设银行运营数据中心合作,共同探索 AIOps 在银行业运维操作风险控制领域的优良实践。根据 DAKOps 和 AIOps 理念,建信金科自主研
55、发了孔明系统智能运维产品。本案例利用其中的采集功能模块(IT 服务管理等)、决策功能模块(运维数据平台等),可视化功能模块(运维报表等)覆盖了运维数据的全生命周期管理,并结合运维操作风险控制场景集合,形成了对运维操作风险的有效监管。孔明智能运维产品全景图1. 采集、集成运维操作相关数据;结合“信息科技风险监管报表及监管评级”等监管指标、IT 内控制度、过往银行操作失误案例等建立起的风险场景模型和知识,与采集集成的运维操作数据进行分析对比;利用 AI 算法对 IT 组件使用情况进行预测,结合运维操作相关数据进行建模分析;通过可视化平台形成高危风险操作事前预警和风险违规操作事后报告,为后续风险处置
56、等管理活动提供依据。项目成效:效率提升:基于运维数据平台数据收集分析功能、风险控制模型,实现对运维操作行为数据的加工与展示,提升风险检查的自动化水平。信息准确:相对于人工抽检运维风控相关数据,使用该平台后,大幅度提高发现风险违规操作的全面性和准确性。风险降低:本案例正在不断丰富运维领域风险控制场景,结合内审发现问题,可针对部分高危操作行为(例如在监测资源繁忙度高水位场景下实施变更操作风险等),实施操作前预警提示,避免操作行为最终违规。管控及时:构建个人和组织风险审计视图,对运维操作违规行为进行即时展示及预警,使其及时发现审计风险等问题并跟踪整改,避免操作风险处理不及时带来的影响。案例 10 打
57、造智能运维利器,助力运维数字化转型浦发银行浦发银行运维管理经历多年探索实践,从“脚本化”走向“自动化”、进而“智能化”,近年来利用大数据、人工智能技术自主研发,建立多中心多活实时数据通道、算子可编排流式计算开发框架、多数据源大数据存储、所见即所得可视化展现、自助可配智能算法建模、面向租户数据科学家实验室、自动数据质量校验数据治理等基础能力,基于其上探索实践智能运维场景。智能运维架构图数据中心数字孪生将数据中心管辖对象数化建模,分场地环境、基础设施、IT 软硬件、应用系统、业务交易五层建模,利用大数据、流式计算,建立大中小三屏联动可视化体系,满足业务保障、参观展示、故障定位等需求。利用 kafk
58、a、flink 等开源技术,对交易报文、应用日志等多种数据解析聚合,实现端到端链路延迟 5秒内。趋势预测根据时序数据趋势性和季节性特征、节假日和活动大促、时间点突变,结合机器学习分段线性拟合或分段逻辑回归,较好的适应数据中易出现波动变化的趋势项,最终做出对未来的容量评估。目前应用于文件系统和数据库使用率上,利用历史三周样本预测未来一周走势,提前规划清理变更或空间扩容。多指标异常检测通过交易指标异常触发,从海量监控实体的性能指标中,排查出异常的实体并自动分类排序。聚类不同表征的异常机器,采用搜索引擎排序技术 Learning-to-Rank 中的 pointwise 对机器指标做排序,利用逻辑回
59、归方法,自动训练出合适的排序模型。随着应用微服务化、系统架构分布式、数据中心多地多活发展趋势,浦发银行在数据可视化、运行监控、容量管理、应急处置方面创新实践各类智能运维场景,收效显著,浦发运维人将继续秉承对运维精细化追求、对运维精进之路持续探索,向数字化、智能化方向迈进。案例 11 “数字华泰”的智能运维(AIOps)建设于 2019 年启动全面数字化转型,2021 年 5 月 24 日,“数字华泰”运营指挥中心正式上线。“数字华泰”运营指挥中心定位于用科技赋能系统运行保障和业务运营分析,引领全面数字化建设,探索运营智能化,打造金融科技“数字指挥中枢”。选择西骏数据的 MC-Stack 作为基
60、座,结合的实际运维工具体系和运维场景需求,打造“数字华泰”的智能运维大脑:通过低代码方式接入现有各种运维工具数据。接入数据源包括统一监控平台、CMDB、日志分析系统、RPA 系统等等。接入方式包括 kafka、Restful- API 等。支持通过配置来实现数据的接入。构建高性能智能运维大数据平台,实现实时算法服务。以 X-HDC 大数据管理引擎为核心,分别构建时序数据、日志数据、指标数据、关系数据等的标准化模型,通过分布式任务引擎实现实时大数据分布式处理,提供海量大数据高性能服务。在此基础上,通过运维算法平台提供实时算法服务。智能运维大数据平台支持指标的异常监测及 AI 赋能。基于动态阈值进
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 影视技术与创新
- 英语考试试卷及答案
- 企业团队能力培训课件
- 铲车操作培训及就业保障合同范本
- 餐厅厨师劳动合同与职业健康管理
- 餐饮业店铺租赁合同范本及食品安全责任协议
- 房屋抵押典当业务合同范本
- 小区地漏定期检查方案
- 工厂店铺定向选址方案
- 智能家居产品保密及信息安全合同
- 2025至2030中国油气3D打印行业调研及市场前景预测评估报告
- 2024年绥阳县选聘城市社区工作者笔试真题
- 公文写作技能题库及答案
- 2025年广东省中考语文试卷真题(含答案解析)
- 辽宁省“三支一扶”招募考试真题2024
- 2025中国内地薪酬指南-kos高奥士国际-202506
- 算法歧视的法律规制-洞察及研究
- 检验表4.15 灌砌石或大块石理灌护坡单元工程施工质量检验表
- 2024《煤矿安全生产标准化管理体系基本要求及评分方法》掘进专业标准条款解读
- 胸痛中心的常态化质控与持续质量改进
- 核设施老化管理-洞察及研究
评论
0/150
提交评论