中国AIOps现状调查报告(2024)-云计算开源产业联盟_第1页
中国AIOps现状调查报告(2024)-云计算开源产业联盟_第2页
中国AIOps现状调查报告(2024)-云计算开源产业联盟_第3页
中国AIOps现状调查报告(2024)-云计算开源产业联盟_第4页
中国AIOps现状调查报告(2024)-云计算开源产业联盟_第5页
已阅读5页,还剩65页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中国中国AIOps现状调查报告年1中国AIOps现状调查报告(2024年)本调查报告版权属于云计算开源产业联盟,并受法律保护。转载、摘编或利用2中国AIOps现状调查报告(2024年) 6 16 21 3中国AIOps现状调查报告(2024年)保障业务连续性的必备手段。政策方面,以智能企业经营发展的重要推动力及社会重要生产力,各部息化规划》《关于印发“十四五”国家应急体系规划的通知》等政策文件中提到,新一代智能运维体系和具备纵深防御能力的信息网络安全产业方面,随着信息技术的快速发展,我国企业数字化转型逐步进入深水区,智能运维在通信、金融等技术密集型行业进一步深化,算开源产业联盟开展了2024年度AIOps现状调查。能力建设成熟度现状,对AIOps产业发展现状、未来AIOps发展趋势、企业当前面临的困难与挑战等情况进行了调查,共收回有效问卷3218份。本报告以调4中国AIOps现状调查报告(2024年)地实践的需求,为广大关注AIOps的从业人员、专院、中国工商银行、中国农业银行、中国民生银行、建信金科、中信银行、浦发银行、交通银行太平洋信用卡中心、华泰证券、银河证券、招商证券、数据、宇信科技、擎创科技、云智慧、日志易、必示科技、BMC中国公司、爱数、润建股份、众安科技、广通优云、云杉网络、新数科技、华青融天、西骏数据、鼎茂科技、基调听云等,各地AIOps实践企业和社会各界也对本次5中国AIOps现状调查报告(2024年)宇信科技、华讯网络、擎创科技、云智慧、必示科技、BMC中国公司、爱数科技、华青融天、浩鲸科技、紫羚云、优维科技、趣丸科技、溪数科技、思特奇、宝兰德、西骏数据、鼎茂科技、基调听云、日志易、星汉未来、上海叠念、金现代、高效运维社区、dbaplus社6中国AIOps现状调查报告(2024年)核心观点摘要AIOps能力建设基本情况务系统复杂且对系统运行效率要求较高的行业。随着智能化技术进一步赋今年运维数据治理、大模型与运维场景的结合以及运维数字员工等方向7中国AIOps现状调查报告(2024年)AIOps场景应用情况是多数企业目前建设AIOps能力的主要方式。我国智能运维运维团队提供了深入理解系统内部状态和过程的能力。可观测能力分企业已经建立了较为成熟的系统。这些企业主要在基础设施监控、用8中国AIOps现状调查报告(2024年)源多、标准难以统一、整合困难等方面。企业需要进一步提升底层9中国AIOps现状调查报告(2024年)AIOps发展趋势与挑战通过强化数据治理来提升数据的准确性和完整性。这不仅有助于智能中国AIOps现状调查报告(2024年)一、调查背景数据来源:中国信息通信研究院中国AIOps现状调查报告(2024年)参与调查企业规模:人员规模在500人以上的企业占比超七成。超半数的数据来源:中国信息通信研究院数据来源:中国信息通信研究院中国AIOps现状调查报告(2024年)数据来源:中国信息通信研究院中国AIOps现状调查报告(2024年)参与调查个人职位:受访者主要为运维工程师、技术架构师、技术总监、研发工程师,超三成的受访者来自管理岗位。其中26.16%的受访者为运维工程师,数据来源:中国信息通信研究院中国AIOps现状调查报告(2024年)数据来源:中国信息通信研究院N值1中国AIOps现状调查报告(2024年)业级DevOps在运维(技术运营)侧的高阶实现。智能运维平台:具备数据处理、智能计算能力并且已覆盖了多个传统运维领域以被可靠地观察、分析和监控的程度。一个具有良好可观测性的系统可以让管理员和开发人员快速地发现、定位和解决系统问题,从中国AIOps现状调查报告(2024年)二、AIOps发展现状(一)AIOps能力建设基本情况的需求将进一步增长。随着行业、团体标准的逐范化程度将进一步提高。这将有利于优质企业的智能运维在通信、金融等技术密集型行业进一步深化,并在能源统行业快速生根发芽,推动其数字化转型和升级。电信行并通过大语言模型增强智能客服和风险控制等系统功还在探索更复杂场景的拓展,以实现更全面和过引入智能运维技术可以提高生产效率、降低不良品工厂系统整体实现自洽、工厂决策实现智能化息系统的安全性和稳定性,保障患者个人数据安全和金与建材、船舶与海工装备等传统工业行业,工业设中国AIOps现状调查报告(2024年)技术融合应用的重要实践,在企业节本增效政府和公共服务机构通过智能运维技术提升线上数据来源:中国信息通信研究院中国AIOps现状调查报告(2024年)七成企业表示2024年在智能运维方面投入资金情况对比2023年持平。较2023数据来源:中国信息通信研究院中国AIOps现状调查报告(2024年)数据来源:中国信息通信研究院中国AIOps现状调查报告(2024年)数据来源:中国信息通信研究院中国AIOps现状调查报告(2024年)(二)AIOps场景应用情况型第1部分:通用能力要求》中的AIOps能力建设分级要求,可以将智能化运维整体能力从感知、分析、决策、执行、知识更新五个维度进行级别划分。系统的参从目前的发展情况来看,现阶段AIOps能力大多集中在L2辅助智能化运维、L3进阶智能化运维级别,主要以系统分析、辅助人工进行决策和操作为主。L4和L5级别随着AIOps的技术发展和能力的逐步增强,将是未来智能运维能力建设的中国AIOps现状调查报告(2024年)随着AIOps建设不断深入,企业AIOps智能运维能力建设成熟度逐渐提高,更多企业进入L3进阶智能化运维阶段。从整体来看,参与本次调查半数以上的受数据来源:中国信息通信研究院中国AIOps现状调查报告(2024年)智能运维在质量、成本、效率、安全四大运维领域均已开展部署和应用,其中域(包括异常检测、告警收敛、根因分析、故障处置等)能力建设,其次是效率领域数据来源:中国信息通信研究院中国AIOps现状调查报告(2024年)现阶段当企业核心应用系统发生影响用户使用的事件时,五成企业故障恢复时长一般为1小时至4小时内(51.05%仅有少数企业时间为10分钟以内的企业占比8.0数据来源:中国信息通信研究院中国AIOps现状调查报告(2024年)构建统一平台。根据本次调查结果,多数企业表示已开始场景实践但尚未形成平台能力,15.2%的受访者表示已建立了智能运维数据来源:中国信息通信研究院中国AIOps现状调查报告(2024年)通过采购第三方解决方案、组建团队进行联合开发,快速构建智能运维能力,数据来源:中国信息通信研究院中国AIOps现状调查报告(2024年)角兽企业。本次调查统计了目前中国市场已有的部分智能运维产品以及其):数据来源:中国信息通信研究院中国AIOps现状调查报告(2024年)企业已逐渐意识到数据质量对于智能运维效果的重要性,超八成企业已开展了31.13%的受访者所在单位已开始在部分运维应用场景开展运维数据治理活动,9.93%的受访者表示所在企业已全面建立运维数据数据来源:中国信息通信研究院中国AIOps现状调查报告(2024年)维团队提供深入理解系统内部状态和过程的能数据整合与可视化是可观测性技术的另一大优势,它将分散的数据集中起来,并通过直观的可视化手段展现,让运维人员能够更容分享和灵活整合,极大地提升了数据的利用价值。构的企业表示正在建设可观测能力,已有22.08%的受访者所在企业已经建设完善。数据来源:中国信息通信研究院30中国AIOps现状调查报告(2024年)可观测能力的建设在数据采集、存储、分析关联以及构建数据可视化、数据观测能力的基础上,可以结合智能运维能力应用于多种不同的可景主要分为基础设施、容器性能、应用性能、用户体验以及业务性能。通过本次调数据来源:中国信息通信研究院31中国AIOps现状调查报告(2024年)数据来源:中国信息通信研究院32中国AIOps现状调查报告(2024年)可观测性数据的融合和关联对于提高数据价值、改善决策过程和降低数据分析成本都非常必要。现阶段,企业在建设可观测能力的过程中业务实施成本过高也是现阶段企业面临的困难之一,占比49.34%。企业仍需通过加强数据治理、提升技术团队能力以及推动跨部门协作数据来源:中国信息通信研究院33中国AIOps现状调查报告(2024年)来学习服务人类语言理解和生成的能力。运维大模型是指大语言模型与运维领域知识融合训练形成的垂直领域大模型,可以帮大语言模型技术与运维场景的结合可以实现更加智能化和自动化的运维方式,越来越多的企业已将运维大模型相关场景能力的建设列入未来计划,近五成的34中国AIOps现状调查报告(2024年)数据来源:中国信息通信研究院本次调查数据显示,当前关注度最高的运维大模型应用场景为监控告警体(ToolAgent)和岗位型智能体(J35中国AIOps现状调查报告(2024年)数据来源:中国信息通信研究院36中国AIOps现状调查报告(2024年)有场景的效果略有提升但感知不强(提升在10%以内30.97%的受访者表示有数据来源:中国信息通信研究院模型准确性及可解释性难以保障(47.23%)是目前企业主要面临的问题,这些挑战不仅限制了大模型在运维领域的应用效果,也增加了企业在37中国AIOps现状调查报告(2024年)数据来源:中国信息通信研究院在智能运维等严肃场景中,为避免大模型幻觉问题,需提高模型训练数据的准38中国AIOps现状调查报告(2024年)(五)AIOps发展趋势与挑战智能运维技术的应用场景非常多样化和复杂化,需要根据不同的业务场景和应随着智能运维技术及工具平台逐渐成熟,越来越多的企业在运维场景的实践不断深入,关注的重心逐渐从如何实现智能运维到智这也说明企业建设智能运维技术及工具平台正从“可用、有用”向“易用、好用”通过本次调查发现,智能运维算法模型准确性、可解释性是现阶段企业主要面并为算法不准确的场景人工兜底。本次调研数据显示护和优化决策方面展现出巨大潜力,但数据的标准化、安全性和标注质量等方面仍面临挑战。数据的不完整可能导致分析结果的偏差,而错误或滞后的信息可能延误故障响39中国AIOps现状调查报告(2024年)数据来源:中国信息通信研究院40中国AIOps现状调查报告(2024年)通过强化数据治理来提升数据的准确性和完整性。这不仅有助于智能算法的持42.38%的企业将应用智能运维技术提升系统稳定性、可用性方面保障;41.数据来源:中国信息通信研究院41中国AIOps现状调查报告(2024年)三、AIOps实践案例中国联合网络通信有限公司、中国联合网络通信有限公司软件研究院创新,打造多模态海量数据实时异常侦测能力、构建AI引领的故障分析决策与自愈能力、实现AI智能隐患前瞻识别能力,通过AI算法与OneAgent指标有机结合,实现超大规模系统全层级可观测,异常场景一键故障诊断、故障自愈算资源共享和分布式计算优化,实现超大规模IT系统稳定保障能力有效落地,累计纳管全(1)实现多模态海量数据实时异常侦测能力平台以创新的APM与RUM数据融合采集技术为核心,实现了Metric、Logging、Tracing等实现与第三方数据源的无缝整合,统一数据接入规(3)打造AI智能隐患前瞻识别能力,增强系统安全防护与风险预警。采用DeepNeural框架进行开源改造,自研基于nacos的动态探针技术,创新性的通过单AGENT,在运营商行42中国AIOps现状调查报告(2024年)中广电移动网络有限公司针对5G核心网网络虚拟化技术和三层两域网造“业网一体的端到端故障管理”体系,引入AI训练+人工标注能力,从业务指标异常监控、云网一体业务影响分析、网络故障根因分析、智能变更辅助等故障处置的端到端流程入手,解决云化网络运维痛点和难点。打穿故障识别、故障影响分析、故障诊断、故障处置等故障管理全流程,为运维系统注入AI算法、跨域关联等革新技术结合运维专家经验的多维的监控技术实现变更过程可视可控,从而支撑广电网络运维效率大幅提升,网络安全AI算法得到各单独指标的动态阈值,通过孤立森林算法得到综合指标模型,通过假设检验算法,计算各网元实时指标群与模型偏离度,输出是否存在劣化网元创新点二云网一体的业务影响分析:由于NFVI故障发证故障,系统基于资源拓扑信息和故障信息,通过快速收敛和传播路径分析确定可能受影响网元,调用网元业务影响分析模块快速查询网元KPI风险或者异常结果。到不同故障场景下告警及其他异常事件之间关联关系和故障传播关系;当出现故障时,利用AI算法,实现故障告警,操作,日志异常,性能异常事件的快速汇聚,同时基于故障传播关系和Gini系数模型,逐个计算故障设备是根因设备的概率过数字化仿真评估网络抗冲击能力,基于离散事件驱动、统计向量模型解析双算法进行网络坚韧度评估,实现不冲击现网也能验证网络能力的目标;通过准确仿真容灾倒换场景,提前识别倒换瓶颈网元,支撑提前调整/加固业务劣化风险的实时检测、并根据变更操作是否影响业务来屏蔽或上报该风险;验证阶段支持:风险监控、新增告警分析、系统日志分析、分析变更前后软参的变化、系统资源分43中国AIOps现状调查报告(2024年)中移动信息技术有限公司广阔,但仍面临诸多技术难题亟待解决。在此背景下,中国移动信息技术中心依托九天大模型,通过持续的技术攻关,成功自主研发了深瞳多智能体运维大模型。这一创新成果已在浙江、上海、广东、河北等多个省份的公司得到实际应用,实现能体开发协作框架,让用户快速构建领域智能体,实现多智能体交互、复杂任务自动编形成智能体”AI+”一站式解决方案。专注于IT运维领域,面向SaaS、PaaS(含库、中间件)、IaaS等场景,以共创形式构建多个通用运维智能体,联合各省专单位共同赋通过自主研发的多智能体编排管理服务、工作流编排管理模块、知识库管理服务、插件利用ReAct框架和CoT思维链技术,深瞳有效地实现了Multi-Agent的编排与调度,从而大智能体,实现故障自动发现、自动诊断、自动处置等能力,为中国移动在智能化立了新的标杆。利用“聚智”智能体开发协作框架及多智能体交互能力,实案开发提效25%,故障无人化处置比例达到近50%的显著成效。的所有集群,实现了以语音交互形式对系统进行巡检、故障定位、健康度评估、容器启相关操作,借助大模型能力,系统异常定位、故障处理效率上升70%,故障定位、处理准确度均超过95%。44中国AIOps现状调查报告(2024年)中国移动通信集团有限公司安徽分公司安徽移动当前已建业务系统数量共计数百套,核心业务系统数量为数十套,服务覆盖省内外3500w+的用户。随着支撑网的不断升级演进,系统的复杂性越来越高,运维难度越来越高。安徽移动建立了针对业务支撑网络的智能运维体系,全力攻克1-5-10目标,实现对系统内各模块的实时业务指标分析监控和智能调度,提升业务支撑网的本平台基于增强搜索引擎的技术架构,实时汇聚各个业务系统的运维大数据,并且以高压缩比的方式进行压缩,以存算一体化的技术达到几百T的数据量可秒级关联的效果,目前已经已经聚集了上百个系统,几百T的运维大数据。数智调度大脑实时搜集、清洗、处理、分析上百个系统的指标、日志和告警数据,全量帮人读日志、读指标、读告警、做分析、做此外,还具备自动黑灯巡检功能,有效替代了人工巡检工作,这一先进功能不仅涵盖并超越了人工巡检的范围,还能捕捉并分析一段时间内的故障指标和报告,提供全面且深入的评估。一旦出现故障,调度大脑能利用搜集的大量数据,快速协助人员进行故障的定界,根据数据,调度大脑平均能减少冗余告警达60%,维护质量提升85%,故障定界效率提升90%。1.将增强搜索引擎和存算一体化算法大规模运用于一线非结构化数据治理:地采集各业务系统运维数据,并且就地一体化秒级关联计算,最终提升了数据的流通效率和源文件与机器学习算法相结合,通过算法识别出日志中的固化字段以及可变字段,提炼出具备代表性的日志模板,实现日志的模式分类,对新增、突增、突降、消失等日志模式实现实散在各个模块的运维数据通过关键字段,例如手机号码、用户标识、业务流水号、渠道号等字段,实现多来源、多系统,不同服务器及目录日志的数据用低代码的方式串联在一起,实现一屏统览,将排障时长由分钟级降至秒级,45中国AIOps现状调查报告(2024年)案例5面向业务的政企专线智能运维AIOps应用实践中国移动天津公司客户响应中心联合华为技术有限公司天津移动政企专线智能运维系统自2022年建设以来,已覆盖现网OTN、PTN、SPN、PON年平均达80%。同时基于系统对业务的端到端隐患的可视,初步构建了面向业务状态的隐患检测与预防体系。业务排障方面,自动化诊断天津移动结合集客专线网络特征和运维痛点,有针对性的构建AIOps能力,实现专线业1.集客专线业务拓扑还原:通过解析网管的专线业务配置,梳理逐层承载关系,结合首末节点资源信息,完成专线业务拓扑还原;如PTN通过解析还原网元、板卡、端口、伪线、隧道、标签交换等对象及关联关系,还原专线源宿端点及中板卡等)映射至关联的专线业务路径上,结3.一键专家智能诊断:多维度分析专线告警、性能、端口状态、联通性检测等,找到所有异常并汇总分析给出故障原因,定位精度到故障设备及端口,锁定根因故障点,指导快速修复;结合用户侧设备AI规律掉电识别能力,可以基于设备告警及AI密度聚类算法,分析2023年,在政企专线智能运维方案支撑下,天津移动专线客户满意度排名大幅提升,跻身集团前十,专线业务增长超20%,有效支撑了ToB专线业务发展。我们将继续以信通院AIOps标准为引导,持续增强数字化、智能化故障运维能力,借助“隐患排查”、“性能管理”、“重客保障”和“支撑自助”六个着力点持续投入建设,实现从面向网络到面向业务的运维转型,实现体系、46中国AIOps现状调查报告(2024年)中国工商银行股份有限公司数据中心成的对象关系复杂问题,向上层定位分析场景2、异常检测模块:着重解决了传统异常检测算法中对微小重构技术对训练数据进行拟合,学习多指标数据的正常模式,并引入基型对数据的异常与否学习出一个阈值,通过3、定位分析模块:定位分析模块基于上述动态运维地图47中国AIOps现状调查报告(2024年)国泰君安证券股份有限公司量不稳定、运维成本上升、故障响应慢、服务质量不稳定等问题。这机构的运营效率与客户满意度,进而影响其市场竞争力。本案例系统稳定性保障能力自动化评估办法,分解影响业务连续性因素性或运作质量,有效驱动组织能力、流程协同机制、工具的完善,科学、规范、有效的运维数据治理体系:为支撑公司和部门源获取和资源配置的效率,我司凭借多年的运维数据治理经数据治理体系,体系建设以质量为核心,以场景为导向,以体系过从顶层设计和典型运维场景出发,一方面自上而下完成运准和数据生命周期管理等梳理,另一方面自下而上逐步深入完成数据等各个运维领域数据的治理工作推进,实现运维数据管服务驱动可持续改进的运维体系:持续推进以业务为导向,台三位一体,不断审视优化的思路来构建可持续改进的运维体系智能化技术的应用,通过分析质效数据,不断优化和完善运维体还需深入软件生命周期,通过性能、容量、安全、可用性、业评估数据,挖掘线上潜在问题,在异常问题爆发前优化应用,以主5类评估模型的综合体系,涵盖了109项核心指标。实现数据驱动、精准度量、优化与持续改进的完整运维管理闭环。实现发现问题、整改问题、评估效果的快速48中国AIOps现状调查报告(2024年)联想(北京)有限公司为IT运维赋能的告警平台。联想SSG-BASD-TSD监控团队通过搭平台”,面向集团开放提供监控告警管理服务,通过引入先进的数据治理、机器学习、深①统一采集监控告警事件,总览全局:通过各类协议接收来自各应用的监控告警数据,通过多样化的数据处理方式和系统集成方式,将不同类型的告警数据标准化并丰富告警信③风暴预警:通过对告警数据进行时序分析,自动识别并提取告警特征维度,实时计算IT整体环境的异常指数,在出现

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论