国泰君安 高坤:基于大模型驱动的云网全景可观测系统建设实践 2024_第1页
国泰君安 高坤:基于大模型驱动的云网全景可观测系统建设实践 2024_第2页
国泰君安 高坤:基于大模型驱动的云网全景可观测系统建设实践 2024_第3页
国泰君安 高坤:基于大模型驱动的云网全景可观测系统建设实践 2024_第4页
国泰君安 高坤:基于大模型驱动的云网全景可观测系统建设实践 2024_第5页
已阅读5页,还剩27页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于大模型驱动的云网全景可观测系统建设实践高坤国泰君安证券股份有限公司业务系统平滑迁移、应用多活、高性能、超建设开发测试云、生产云、集团协作云、开放生管实现IAAS资源自服务随着越来越多的核心业务系统迁移上云,云上业务的稳定直接影响着用户体验与服务质量,从应用服务可视化、应用调用追踪、故障诊断、业务保障、安全、审计、运营分析、调度等维度,针对云资源池业务分析及消费的需求越发突出。现有监控手段不能满足复杂环境中的业务运资源池内业务动态性高,覆盖范围广,业务覆盖的资源范围可能实时动态伸缩,目前监控手段无法动态获知复杂的业务访问调用关系,无法自动呈现业务的端到端全链路流量拓扑图核心设备南北向的流量镜像采集点无法覆盖资资源池内业务动态性高,覆盖范围广,业务覆盖的资源范围可能实时动态伸缩,目前监控手段无法动态获知复杂的业务访问调用关系,无法自动呈现业务的端到端全链路流量拓扑图关键业务系统访问出现某一时刻或单次请求故关键业务系统访问出现某一时刻或单次请求故障时,因无法记录单次请求或瞬时的网络及应用请求状态及性能指标,所以不能对故障问题提供责任举证,使得业务网络依旧带病运行,存在隐患对业务开发语言、框架有着严格的要求,需要组件疲于应对,使得精准的业务保障成为难题。在一云多芯环境建立云网络内的流量全景视在云原生环境中建设面向云内所有系统的高为云上应用提供更优质的服务,提供面向业务系统在云内的自助分析能力,保障业务稳定运行,加速故障分析效率,快速定覆盖数据中心云基础资源层各资源类型宿主机、虚拟机环境容器环境,包括信创、非信创环境云原生中间件、云原生数据库等云内应用按功能区部署数据分析层........................运维场景............可作为云网环境大数据平通过标准数据API,企业可可作为云网环境大数据平通过标准数据API,企业可以自行对底层数据进行查●满足云数据中心流量规模日益增长的需求,分析器、采集器软件可灵活横向扩展,支撑云网全景流量数据服务如一体化监控等,可以实现灵活的对接,按需将流量分●满足云数据中心流量规模日益增长的需求,分析器、采集器软件可灵活横向扩展,支撑云网全景流量数据服务平台可以进行对接联动,调用不同异构云平台的数针对精细化采集的数据流平台可以进行对接联动,调用不同异构云平台的数内租户内的业务,实现以租户为核心的网络流量分见网络流量和应用特征类型进行提取,并可以进行直观的展示,完成从物理网络到虚拟网络的端到端可以多维度、数据化、可视化展现网络中的不同指标,实现了对异常网络事件的量化功能;同时,结合历史数据,分析不同•实现多云资源池流量无侵入、零•实现多云资源池流量无侵入、零•针对不同的云资源,自动标记端生成多中心多资源池的可视化拓扑•针对某个业务,进行数据下钻,分析业务的调用拓扑关系,并根据业务网络情况,进行具体的性•基于端到端的数据链路情况,结合采集的性能指标,分析链路每工作负载资源维度POD资源维度 节点资源维度客户端客户端宿主机服务端宿主机客户端客户端宿主机服务端宿主机云网分析标准化建连时延、系统时延、n通过建立不同问题的排障树,标准化分析和排查n建立云网的自动化巡检流程,系统性识别网络中潜在风险,从而对环境进行优化配置,减少故障资源精细化管理资源精细化管理结合资源的使用情况,建立开发测试环境资源回收的机制,采用留指标数据,判断云主机的使用情况,并结合云网流量分析服务和云备份服务,实现资源回收的回收周期内流量数据较小的列表回收周期内流量数据较小的列表图,结合RED指标,发现访问管理中需要加强关注的部网络结构和配置,提升网络性能,保证云服务的高效稳4业务应用具备微服务众多、多语言开发、多通信急需一种立足于容器底座,关联应用性能观测,打通端到端可观测性的解决方案。示例手册,为解决应用故障提供参考和指导。告警应用本身告警应用本身使用计算能力去复制方法和知识,更高效的完成对可观测数据的处理、加工、分析。现状问题排查依赖经验的积累,无法快全栈可观测性涉及到从应用调用到底层基础设施的各个环节,包括应用性能指标、分布式追踪、网络性能指这些数据量庞大且复杂,需要综合多个维度进行分析和关联题排查依赖经解决思路利用先进的大模型技术,对云网环境中的海量数据进行高效的处理和分析。通过引入数据特征提取等预处理机制,提升数据处理的效率,高效的数据整合与融合框架,能够关联来自不同来源的观测数据,使得智能体可以基利用eBPF等新兴技术,在不修改大模型应用代码、不重启大模型应用进程的情况下,适应云网环境的不断变化。通过引入微服务架构和容器化技术,提升系统的可扩展性智能分析关联场景数据,包括全栈指标、调用日志、指标数据智能分析关联场景数据,包括全栈指标、调用日志、指标数据Otel标准化统一云网数据格式,采用opentelemetry的标准定义,对不同数据源进行合并深入剖析、诊断LLM的预训练过程,是提高大模型训练高效性和深入剖析、诊断LLM的预训练过程,是提高大模型训练高效性和细粒度跟踪细粒度跟踪实时性能监控实时性能监控深入剖析和诊断整个模型训练过程,识别和解决训练过程中的性能深入剖析和诊断整个模型训练过程,识别和解决训练过程中的性能瓶颈和资源争用低

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论