大模型在华为云数字化运维的全面探索和实践_第1页
大模型在华为云数字化运维的全面探索和实践_第2页
大模型在华为云数字化运维的全面探索和实践_第3页
大模型在华为云数字化运维的全面探索和实践_第4页
大模型在华为云数字化运维的全面探索和实践_第5页
已阅读5页,还剩19页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大模型在华为云数字化运维的全面探索和实践演讲人:目录01华为云智能运维发展之路02大模型使能运维规划03运维大模型难点和解法04总结和规划华为云智能运维发展路线从单点,到复杂,再到自动化华为云AIOps发展之路-从单点,到复杂,再到自动化智能运维场景日志模版分析(2018)云服务单指标异常检测(2019)告警智能压缩(2019)网络多级异常检测(2020)硬件故障预测(2021)变更命令分级智能识别(2023)变更人员匹配度评估(2023)安全生产自动稽查(2023)变更风控驾驶舱(2023)单场景智能运维,传统ML算

•法(2018-2020)串并联智能运维,可视,可决策,•可执行(2021-2023)大模型使能运维,LLM+运维Copilot(2024~)智能运维架构运维数据自然语言问答,运维信息查询运维知识检索故障自动总结故障案例推荐运维数据运维算法算法服务运维智能决策运维算法运维数据运维智能决策运维小模型运维数据运维大模型运维决策服务分析报表数据服务KPI,告警,日志KPI,告警,日志变更数据运维人员流程数据运维语料运维私有知识库运维Copilot运维决策服务数据服务分析报表大模型使能运维总体规划聚焦高价值高门槛高人力场景,面向长期规划大模型使能运维业务规划:聚焦2条核心价值流,全面辅助运维人效提升聚焦高门槛,高价值,高人力场景,拥抱大模型提升运维人效场景WR故障处理流水线阶段起会故障通报影响评估故障定界故障恢复恢复验证故障复盘痛点重复故障拉取通报内容生成繁琐,涉及大量人力影响面评估难依赖少部分人人工查看监控、告警系统查询信息,效率低人工确认多个服务的恢复进展故障信息多处,人工总结耗时高机会点相似性识别:基于文本相似

WR自动化判重内容生成:通过AI生成通报内容生成,并由值班经理确认后发布NL2Query:提供统一对话式查询能力NL2Query:提供对话式查询能力、支持查询告警,监控指标,变更、事件等信息相似故障信息推荐:故障预案推荐NL2Query结合恢复步骤检测各云服务恢复情况内容生成:自动生成故障复盘报告场景事件单处理流水线阶段事件受理事件分流事件解决案例总结痛点定级不合理:事件单定级不合理,需要重新沟通确认定级分流不合理:针对事件描述和客户实际诉求反复沟通,信息分流复杂度高解决方案覆盖率和准确率低,且消费难:资料分散、缺少工具快速管理和检索知识案例没时间总结:案例书写耗时,质量和数量难以兼顾机会点智能分级:根据用户反馈结合大模型进行分级建议智能派单:根据派单规则和算法实现智能派单解决方案生成:检索知识库自动=生成解决方案案例生成:基于事件单自动生成案例TOP需求问答式运维信息查询故障预案推荐运维知识检索事件解决方案生成故障处理:2000+,平均参与人数10+

(非自愈)

事件处理:10000+,月均参与人:200+故障信息总结生成构建运维盘古助手,聚焦运维人效提升,打造智能运维新高地1多触点构建:构建运维助手多种触点模式,全面辅助运维场景,支持web,WeLink机器人和运维工具系统集成2

运维Copilot

Stack

:构建运维Copilot能力集,实现端到端运维对话,意图理解,

Agent和Tools建设,和运维大模型集成,实现运维大语言模型端到端构建;运维大小模型协同计算:小模型聚焦确定性量化分析,大模型注重内容理解和生成4•高质量运维知识语料中心:围绕运维知识数据收集,知识规范,知识管理和运维语料标注全面建设3定位:沉淀大模型使能运维标准方 案,建设全面辅助问答交互能力,打 造运维副驾驶AI

Core多轮意图理解模型故障智能根因算法意图识别小模型Sop文档风险评估算法运维提示词工程RAG场景模型微调盘古大模型意图识别运维场景路由意图增强运维内容检索运维信息查询故障根因推荐故障报告生成变更命令评估sop文档评估运维Skill运维信息查询Agent故障报告生成Agent故障根因推荐Agent变更评估Agent运维大小模型集成Cloud

Copilot框架Skill

Builder数据管理模型管理运维知识语料中心运维“大”模型-内容理解和生成运维大小模型协同计算独立Web端WeLink机器人运维工具系统集成运维盘古助手-多触点构建流程规范云服务故障模式库云服务故障预案库故障回溯报告运维对话语料事件案例12

运维Copilot

Stack3运维“小”模型-确定性量化4故障分析根因诊断预案推荐事件规范运维知识检索WR

变更规范

规范运维信息查询查监控指标

查告警

查资源查日志

查事件 查关系故障处理方案生成事件处理大模型辅助运维子场景运维大模型应用难点和解法围绕语料,知识,意图理解和复杂决策以及新交互实现大模型应用运维的确定性围绕运维大模型4大难点,构建6大方案4大难点:语料少,知识质量差大模型幻觉大模型逻辑推理难业务应用难,见效慢6大方案:运维语料数据增强全流程知识治理确定性运维意图理解增强RAG实践基于确定性决策实现大小模型协同故障诊断方案多触点集成方案,提升业务生产力华为云运维助手端到端链路流程运维操作类服务大模型结果知识类回复操作类回复客户问答模型作答结果任务匹配标准答案分发结果接入端Skill编排层数据层切片产品文档标准问答对知识管理向量化模型管理向量索引库知识训练管理模型层知识管理知识完整度路由分发中控意图路由分发纠错问题改写标准术语转换多轮改写意图理解准确率意图分发(意图理解路由)运维助手 标注平台意图理解标注知识完备度标注知识检索标注模型作答标注知识增强检索RAG搜索召回精排模型作答高频语料匹配标准问答对模型训练模型部署知识答准率知识检索前改写语料管理运维语料数据语料收集生成评测优化运维语料数据增强:采用大模型合成数据和语料的持续迭代实现语料数据增强效果:1个月完成运维领域10+运维语料数据集的建设,语料质量80%关键点二:采用大模型合成数据快速构建语料数据运维语料生产过程故障处理报告原始语料数据集真实事件检索行为收集业务人员模拟问答通过提示词模版生成语料增强运维语料数据集真实问答冷启动阶段语料训练问答意图识别 真实语料意图标注分析意识别图模型评估意图语料数据集修正符合预期真实应用阶段关键点一:围绕运维实际活动构建冷启动原始语料集,确保使用真实性和有效性关键点三:构建真实语料意图标注能力,持续进行运维语料的有效治理面临的问题:获取语料难:原始真实语料少,如何获取真实问答语料真实语料少:冷启动阶段运维语料少运维语料持续治理难:运维语料数据配比和有效性证伪难全流程运维知识治理:确定运维知识地图,明确职责边界,统一知识管理和存储,构建知识消费运营体系关键点二:明确知识Owner和知识责任人事件管理流程WR运作规范事件通报规范应急预案管理规范案例库关键点一:确定知识地图通用流程/规范/指导书产品介绍文档关键点三:统一知识管理和存储关键点四:知识消费治理云服务事件解决方案案例库云服务产品说明文档知识Owner1、制定领域知识管理流程和内容规范2、领域知识的生命周期管理(更新、整合、下架等)知识责任人1、负责知识的产生与更新,对知识投稿评审确认。2、及时响应知识纠错、问题与需求。知识应用知识搜索

知识推荐

智能问答知识产生知识

知识创建

审核知识发布知识发布知识运营知识权限问题监控统计分析知识数据管理分类信息产品信息区域信息切片产品文档知识管理向量化向量搜索运维流程规范向量索引库(知识湖)

关键词搜索倒排索引库(知识湖)故障预案事件案例知识解析多种格式:DocxPptxXlsx资料索引RAG搜索召回精排模型作答用户原始问题问题通用改写知识检索BadCase集无知识知识覆盖率【补知识】有知识知识检索准确率【提效果】自动标注面临的问题:华为云运维领域涉及多种知识:流程规范知识,产品使用知识,内部案例

wiki,知识治理和消费难如何选择知识?如何治理知识?如何管理知识?如何消费知识?效果:围绕事件知识,运维流程规范知识和产品知识,达成知识完整度:90%,知识准确率:85+%确定性运维意图理解:多层路由,结合大小模型构建运维多场景智能问答意图识别能力意图识别层通用embedding意图相似匹配分类算法查询告警 查询指标语语料集 料集……语料集知识问答运维skill问答提示词工程-知识问答or操作判断盘古大模型作答意图路由层事件知识问答Agent 故障处理Agent默认Agent查询变更查询告警能力执行层……指定式路由层智能意图路由层关键点一:多层路由,简化多场景运维意图识别skill意图纠偏模块意图改写相似意图精确匹配模糊意图分类模型槽位提取模块基于提示词参数提取基于算法提取知识问答纠偏意图纠偏层运维skill纠偏公域知识检索运维通用意图识别层关键点二:结合文本相似分类小模型和大模型实现意图的快速分类路由查询变更语料集查询拓扑面临的问题:运维助手覆盖20+意图类别,新增意图周级迭代精确控制意图分类?解决大模型意图识别幻觉?效果:意图识别准确率从65%提升至80%+关键点三:构建意图纠偏层,结合BadCase实现小概率错误的意图精准纠偏运维私域知识检索

关键字/正则案例:结合分层意图路由,支持20+高频运维指令查询查询告警查询监控指标查询变更单查询交换机设备全栈拓扑增强RAG实践:从知识问答改写到多路知识检索全面提升意图改写层检索层切片产品文档知识管理向量化向量索引库(知识湖)向量搜索运维流程规范倒排索引库(知识湖)故障预案事件案例知识解析多种格式:DocxPptxXlsxRAG搜索召回精排模型作答事件咨询问题标准化事件问题分类故障咨询类信息咨询类协助操作类基于prompt进行关键信息抽取基于prompt构建问题分类器问答对问答对召回问答对向量故障咨询类RAG信息查询类RAG协助操作类RAG向量搜索数据层关键点一:结合提示词工程实现问题标准化和分类改写,明确检索意图关键点二:结合问答对,向量检索和关键词检索实现多路由检索提升检索准确率关键词搜索用户问答面临的问题:事件咨询问题提问不精确,意图缺失,影响知识检索的有效性,多种知识相互干扰,回答存在幻觉问题如何理解真实知识问题?多种知识提升检索有效性?案例:面向事件信息事前自动提取问题概要,事后多路检索提升大模型检索准确率原始事件单信息云主机被释放了,但是没有通知,不应该是现在被释放?大模型可能理解的意图意图改写后结果为什么云主机被释放?大模型生成结果效果:问题理解准确率:50%+提升至80%+,AI答准率:30%+提升至70%+云主机释放之后,如果快速恢复服务?云主机被释放没有通知原因是什么?如何预防云主机被意外释放?基于确定性编排构建大小模型协同的故障分析方案请分析一下告警XX的根因有哪些?步骤处理列表:【查告警】:告警ID【诊断模型路由】:数据库【数据库诊断】:告警ID【根因问题改写】:可疑根因生成故障分析步骤关键点一:借助COT,结合故障案例,确定故障分析步骤数据库故障诊断小模型/分布式消息诊断小模型故障预案RAG检索诊断路由关键点二:结合编排框架,实现执行链的确定性编排,降低复杂任务的推理和决策难度查告警故障诊断总结查变更查指标查日志查告警关键点三:组合故障大小模型,小模型精确诊断定界,大模型确定预案推荐和总结告警关联分析拓扑根因定界根因定位智能告警压缩算法知识图谱

故障决策树KPI异常检测算

故障匹配推法

荐KPI关联分析算法面临的问题:故障诊断涉及多种监控数据查询,异常检测,根因聚类定界,故障报告总结等多个环节,传统大模型难以构建复杂推理决策能力1大模型如何端到端解决运维复杂任务?历史案例:请根据以下参考的故障案例生成故障处理步骤。

故障案例:名称故障现象:告警事件故障处理步骤如下:步骤1:查询告警信息步骤2:基于告警信息确定诊断模型:云服务RDS场景,诊断模型:数据库诊断云服务ECS,诊断模型:服务器诊断步骤3:基于2的结果,确定诊断模型函数…案例:结合编排框架实现运维故障总结分析概要自动实现多种信息内容聚合生成关联告警:XX变更信息:XX告警信息:XX客户保障:XX综合分析结论:XX多端触点集成,实现运维助手全场景覆盖,改变用户交互行为工作群:智能答疑机器人运维助手模式三:统一运维助手Web端,新交互@运维助手:查询变更列表模式一:流程嵌入,运维助手无缝融合统一运维助手Web端运维工具界面运维助手运维工具界面流程集成大模型模式二:副操作界面,Copilot辅助运维工具界面面临的问题:运维助手使用频次低,用户习惯难以改变1大模型如何融入运维流程,提升运维生产力?效果:运维使用人群整体覆盖率达成30%,整体运维人效提升

20%+改变交互行为,提高运维生产力案例:模式一,深度融合运维工具链路,实现大模型问答无缝集成应用事件解决方案融入事件处理作业流,,进入处理界面自动生成推荐解决方案信息自动填充事件工单案例:模式二,运维工具和运维助手大小屏联动分析,左屏可视,右屏辅助查询分析指令辅助网络设备查询丢包率,错包率左屏做全局故障信息可视感知右屏作为辅助分析指令查询左右屏联动分析,降低跨端跨产品交互总结和未来规划结合人机协同,基于LLM和AI

Agent构建运维数字助理驱动运维智能化演进总结和趋势趋势:业务演进:运维大模型使能三阶段,辅助运维-》运维工作流集成-》运维数字助理算法架构:运维大小模型协同将是未来运维算法架构的常态未来技术:从自动化运维走向无人化运维,核心需要实现人机协同技术和AI

Agent技术的集成应用总结:大模型使能运维重点围绕提升运维生产力为主:选择高门槛,高人力,高价值点场景大模型加速智能运维快速走向下一个阶段,运维助手将改变运维的交互模式,从而真实实现从自动化运维走向无人化运维大模型只是一个算法手段,降低模型应用的复杂度,但面向运维场景应用需要构建从知识语料>运维大小模型算法调优>编排框架>Copilot

Stack>产品集成应用>数据化运营端到端构建未来规划:基于大语言模型和人机协同技术,构建运维智能中枢决策引擎,驱动运维

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论