基于大模型驱动的云网全景可观测系统建设实践_第1页
基于大模型驱动的云网全景可观测系统建设实践_第2页
基于大模型驱动的云网全景可观测系统建设实践_第3页
基于大模型驱动的云网全景可观测系统建设实践_第4页
基于大模型驱动的云网全景可观测系统建设实践_第5页
已阅读5页,还剩11页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于大模型驱动的云网全景可观测系统建设实践IOE技术体系(集中式架构)集中式平台SQL

server/Oracle强一致性(交易+批量计算)OS、x86硬件平台分钟级备切换,最低99.99%可靠性云化技术体系(云原生、分布式架构)云化、分布式架构IaaS云底座证券新核心业务融合分析大数据平台分布式交易数据库DC1DC2DCnIaaS云底座云原生容器基础设施微服务框架中间件(消息、事务、缓存、调用链等)业务应用重构业务系统云原生化传统数据库分布化基础设施全面云化业务系统<应用逻辑>(java/C++)快速软、硬故障定界定位(一般问题闭环

<

30min)中间件KXCP/KCBP/REDIS/Ngnix业务系统平滑迁移、应用多活、高性能、超大规模分布式云原生架构中间件(消息、事务、缓存、调用链等)微服务框架云原生容器云原生技术体系3类云化,6大技术点基础设施全面云化传统数据库分布化分布式交易数据库融合分析大数据平台业务系统云原生化承载各类业务系统生产、同城及异地灾备环境基于CloudStack上线开发测试云,实现计算和分布式存储统一管控金融云发展时间轴完成国家云平台课题验收,发布CMP1.0,实现IAAS资源自服务基于Openstack上线开发测试云2.0,发布CMP2.0,实现对异构资源的统一纳管上线生产云、开发测试容器云平台上线开发测试信创云,并发布基础资源服务平台1.0上线生产信创云,托管云,发布基础资源服务平台2.0,实现一云多芯管理建设开发测试云、生产云、集团协作云、开放生态云四朵云努力打造全行业领先的自主开发、自主掌控的国泰君安金融全栈云云总体布局2013年2014年2015年2017年2019年2020年规划路线2023年

加速云原生基础设施建设加速云原生建设,完成“一云多芯”信创、非信创多元算力,资源统一管理,实现云边协同,资源敏捷交付2024年

云原生应用敏捷开发夯实数字基础设施升级,扩大云资源规模,推进高效敏捷开发向以应用为中心的架构演进,实现应用敏捷开发,提升应用迭代速度2025年

全栈能力全覆盖实现两地多中心全栈云原生服务能力全覆盖,完成存量系统整体迁移到全栈云。承载各类业务系统开发测试环境承载资产管理、期货、创投等各子公司的业务系统承载量化私募、PB等外部客户的业务系统生产云开发测试云集团协作云开放生态云聚焦云原生底座资源部署,加速云原生体系与平台建设,完善和提升云原生服务能力,以科技服务云平台为载体,面向集团提供全面、易用、自主可控的云原生服务,提升资源交付质效,高效支撑业务敏捷创新。结合公司基础架构特点,为每个云服务设立独立的业务资源模型,通过该抽象模型,能够实现多区域、异构资源池的统一纳管,从而满足鲲鹏、飞腾、海光等国产信创芯片的云资源,实现了“一云多芯”的统一管理。正是借助此架构的优越性,使用户在无感知的情况下自助申请、创建云资源。作为云平台核心的组件,该应用集权限管理、配额管理、计费和事务管理于一体,通过权限校验与配额分配,确保云资源的合理分配,实现了整个云平台内部统一、协调运转。智慧中台一云多芯、多云部署自研云应用,提升云服务质量云平台通过标准的接入规范和部署规划,最大程度的减少其他云应用开发周期和难度,能够实现快速SaaS应用的上线交付。依托于此,国泰君安云计算团队,自研开发了云监控系统、云网流量分析、弹性文件系统、对象文件系统、文档中心、镜像站等云应用,为用户提供了更加便捷的云资源交付与服务。随着越来越多的核心业务系统迁移上云,云上业务的稳定直接影响着用户体验与服务质量,从应用服务可视化、应用调用追踪、故障诊断、业务保障、安全、审计、运营分析、调度等维度,针对云资源池业务分析及消费的需求越发突出。缺少云资源池上的应用服务可视化能力核

资源

量数

使

黑盒

力01缺乏零侵扰的全链路分布式追踪针对关键业务嵌入SDK或者插码打桩的方式,对

要消

S

D

K

缘组

使

。03缺乏历史故障问题回溯分析能力关

访

故障

应用

题提

使

,存在隐

患04现有监控手段不能满足复杂环境中的业务运维排障要求资

广

覆盖

手段

访

无法

图02解决云网络的“黑盒在一云多芯环境建立云网络内的流量全景视图和运维、运营、安全管理机制,具备网络性能分析、网络回溯、资源回收、统计报表、网络全景拓扑全链路分析能力降低可观测运维复杂度在云原生环境中建设面向云内所有系统的高度自动化的可观测性平台,为云内应用提供量身打造的全栈、全链路、高性能数据完善公司金融云的管理为云上应用提供更优质的服务,提供面向业务系统在云内的自助分析能力,保障业务稳定运行,加速故障分析效率,快速定界,提升系统稳定性和运营效率在复杂的云基础设施及云原生环境下保障应用系统可靠稳定运行、减少故障修复时间,实现全链路数据监控、性能分析及故障快速定位,提升系统稳定性与运营效率虚拟化环境云原生环境云原生应用各

宿

虚拟机环

境容

、非信创环

境云

生数

用覆盖数据中心云基础资源层

按功能区部署数据分析层云原生数据分析节点云网观测系统观测应用观测......分析监控数据虚流拟量化数数据据云流原量生数数据据eBPF数据 云环境数据......运维场景云网络故障诊断云网络历史回溯云网络流量拓扑云网络调用链跟踪......云网络数据服务覆盖虚拟化、云原生、云中间件、云数据库等云内应用,实现对云网络的可观测能力覆盖;结合CMDB等多源数据,实现对海量数据深入挖掘和分析;依托AI中心和多平台联动,提供不同运维场景的数据服务;从流量引取、流量采集、数据存储等多个细分环节,实现由用户自主掌控的能力,并可以对云网内不同类型的可作为云网环境大数据平台,经过全网流量的采集,通过标准数据API,企业可以自行对底层数据进行查询、业务逻辑处理、封装,自主开发数据应用满足云数据中心流量规模日益增长的需求,分析器、采集器软件可灵活横向扩展,支撑云网全景流量数据服务系统稳定运行以租户、业务为核心与公司一云多芯的异构云平台可以进行对接联动,调用不同异构云平台的数据接口,自动感知各环境内租户内的业务,实现以租户为核心的网络流量分析。流量进行精细化的采集和管理精细化数据采集和控制运维排障分析针对精细化采集的数据流量,支持用户对其可以进行离线数据的回溯,对常见网络流量和应用特征类型进行提取,并可以进行直观的展示,完成从物理网络到虚拟网络的端到端全栈调用链追踪和诊断针对企业内部的个性化需求,如一体化监控等,可以实现灵活的对接,按需将流量分发给不同的数据需求部门以及对应的分析工具,实现云网的统一监控统一对外接口数据可量化可以多维度、数据化、可视化展现网络中的不同指标,实现了对异常网络事件的量化功能;同时,结合历史数据,分析不同层次的运行情况数据PAAS平台组件灵活扩展客户端服务端宿主机服务端客户端宿主机下钻基于云网的流量采集数据,自动生成多中心多资源池的可视化拓扑针对某个业务,进行数据下钻,分析业务的调用拓扑关系,并根据业务网络情况,进行具体的性能分析业务指标分析多中心云资源池全局视图端到端路径追踪详情基于端到端的数据链路情况,结合采集的性能指标,分析链路每一个路径的网络性能情况云资源自动学习和无侵入采集节点资源维度工作负载资源维度POD资源维度实现多云资源池流量无侵入、零干扰地全量采集针对不同的云资源,自动标记端到端数据标签userid:529794,docid:173903,date:2024-09-15,云网分析标准化回收周期内流量数据较小的列表资源精细化管理结合资源的使用情况,建立开发测试环境资源回收的机制,采用留指标数据,判断云主机的使用情况,并结合云网流量分析服务和云备份服务,实现资源回收的流程01

健全云网指标体系容量指标系统流量吞吐、数据传输包数、活跃连接数可用性指标TCP重传

、HTTP异常、DNS异常时延指标建连时延、系统时延、应用时延02

标准化排查流程通过建立不同问题的排障树,标准化分析和排查流程,加速问题排查过程建立云网的自动化巡检流程,系统性识别网络中潜在风险,从而对环境进行优化配置,减少故障风险可以快速了解业务系统的网络状况,通过定制化的视图,结合RED指标,发现访问管理中需要加强关注的部分,降低问题定界的时间通过对网络流量的细致分析,可视化监控有助于优化网络结构和配置,提升网络性能,保证云服务的高效稳定运行基于云门户的云监控分析服务云上应用关联性分析支持对系统内某个业务组件的指标查看支持对性能指标的关联性分析。通过关联基础资源的指标,加速问题排查效率云监控服务提供了一套基于租户的网络流量可视化方案建设背景eBPF技术eBPF可实现无侵入式订阅网络流量等各种内核事件建设情况告警应用本身下游上游已完成制定应用故障排查手册,为解决应用故障提供参考和指导。针对生产集群现有应用,积极推广链路排查方案,协助业务系统进行改造。针对测试环境,加快测试环境eBPF系统建设,未来将完善应用上线准则。积极采纳业务系统使用过程中的修改建议,提高系统易用性。加快云监控工具的统一入口建设,从而简化监控流程,提高管理效率。后续应用接入规划无法确定特定服务的上下游依赖服务流量是否正常无法回答应用的

DNS

请求解析是否正常;无法回答应用之间的连通性是否正确;业务应用具备微服务众多、多语言开发、多通信协议特点,观测工具繁多1234急需一种立足于容器底座,关联应用性能观测,打通端到端可观测性的解决方案。黄金指标可视化展示,直观表达系统是否正常对外服务。全局视角的应用拓补,实现系统架构感知、服务依赖分析等能力。支持多种协议Trace方便根因定位。开箱即用的告警功能,支持用户多种配置方式。丰富的上下文关联元信息。使用计算能力去复制方法和知识,更高效的完成对可观测数据的处理、加工、分析。现状专家经验问题排查依赖经验的积累,无法快速复制,对初级工程师仍需长时间学习专业知识广全栈可观测性涉及到从应用调用到底层基础设施的各个环节,包括应用性能指标、分布式追踪、网络性能指标、资源变更事件、函数性能剖析等。这些数据量庞大且复杂,需要综合多个维度进行分析和关联题排查依赖经验的积累解决思路基于大模型的数据处理与分析利用先进的大模型技术,对云网环境中的海量数据进行高效的处理和分析。通过引入数据特征提取等预处理机制,提升数据处理的效率,从而实现更加实时的可观测性多源异构数据的整合与融合高效的数据整合与融合框架,能够关联来自不同来源的观测数据,使得智能体可以基于大模型进行统一的分析。通过异构数据的关联算法,提升数据的分析价值零侵扰的大模型应用持续剖析能力利用

eBPF

等新兴技术,在不修改大模型应用代码、不重启大模型应用进程的情况下,实现零侵扰的大模型训练和推理过程的持续剖析能力可扩展的系统架构设计适应云网环境的不断变化。通过引入微服务架构和容器化技术,提升系统的可扩展性和灵活性,确保系统能够随着需求的变化进行平滑扩展和调整云网分析智能体LLM剖析诊断智能分析关联场景数据,包括全栈指标、调用日志、指标数据等,将数据汇总给大模型进行分析和下钻,简化云网层故障异常排查的难度Otel标准化统一云网数据格式,采用opentelemetry的标准定义,对不同数据源进行合并汇总,提供统一的云网分析智能体细粒度跟踪深入剖析、诊断LLM的预训练过程,是提高大模型训练高效性和可靠性的有效手段。实时性能监控低开销高安全大模型LLM应用快速发展,但是缺乏统一的监控标准,从CUDA、开发语言(Python)等维度进行细粒度跟踪深入剖析和诊断整个模型训练过程,识别和解决训练过程中的性能瓶颈和资源争用问题,提高训练效率内核空间执行,更低的开销,降低对LLM训练的影响,更安全、更稳定的运行,避免对系统造成影响实时

拓扑分析自动检索云环境日常

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论