算法创新赋能证券业智能运维转型_第1页
算法创新赋能证券业智能运维转型_第2页
算法创新赋能证券业智能运维转型_第3页
算法创新赋能证券业智能运维转型_第4页
算法创新赋能证券业智能运维转型_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

当前,证券业正处于快速发展的历史机遇期,资本市场改革知金融体系开放在

为各家券商带来业务增量的同时,也对其金融科技水平和抗风险能力提出了更

高要求,而证券交易系统的平稳、健康运行不仅与广大投资者的合法权益密切

相关,更是涉及金融安全、社会稳定的重要课题。实际场景中,证券业务具有

交易时段集中、交易规模巨大等显著特点,对IT系统的可用性和响应效率均有

着非常严苛的要求,给系统运维工作带来了巨大压力。在此背景下,证券业运

维工作急需开展智能化转型,以更为高效地支撑业务发展。

一、证券业运维转型面临的算法挑战

现阶段,智能运维的主流方案一般基于“大数据+机器学习”技术实现,即应用

统计学方法来分析告警、事件、指标、日志等大数据样本,并结合机器学习算

法进一步预测系统行为,这一模式的主要特点是应用驱动、事后分析、数据拟

合。然而,伴随智能化运维需求的持续提升,智能算法出现了一些难以解决的

问题,并导致其在复杂系统全维度监控、故障定位等工作中面临着诸多挑战。

1.盲人摸象式算法无法洞见系统整体运行情况

在传统的监控系统中,运维人员通常更关注基础监控、应用服务的接口请求量

等指标,但在复杂系统中,仅仅关注单点日志或者单个维度指标并不足以帮助

其掌握系统的整体运行状况。例如,当行情火爆时,单指标异常检测算法可能

会基于访问并发数产生CPU告警,但通过分析日志可以发现,这一情况在证券

业属于正常现象。

2.数据缺陷无法得到有效补偿

在运维领域,故障数据的稀疏性会导致算法没有足够的样本,使其只能在有限

的数据范畴内进行建模、拟合、预测,从而影响智能算法的实际效果。但在实

际工作中,由于证券行业对后台服务运行的稳定性和安全性要求极高,系统故

障本身是一个小概率、低频事件,而算法需要基于大量历史数据来学习规律,

并借此实现优化提升,如果之前发现的故障后来不再出现了,那么实际上是形

成了一个悖论。

3.算法适应性不足

由于运维系统架构复杂,关联关系呈网状发展,数据驱动的算法很难做到适应

性演进。与此同时,如果使用一个缺乏观测、分析系统内部运行机制的结构化

模型,意味着必须开展大量的数据采集、模型适配、参数调优等工作来确保分

析准确性,而一旦过分依赖大数据,会导致模型对黑天鹅事件等难以形成有效

预测。此外,证券业系统变更频繁,基于历史大数据样本得到的经验规律和特

征模型经常难以再复用,也无法准确分析和预测当前系统行为,而针对不同类

型的问题场景定制专门的分析解决方案,将大幅提升运维人员的技能学习成

本。

4.算法缺乏有效的反馈和修正机制

在实际应用中,智能运维算法并非“开箱即用”,而是需要与运维数据、业务

特点、运维目标等深度融合,不断进行打磨和适配。但是,目前大多数算法缺

乏基于反馈的模板调整能力,难以应对“这种模板应该根据这个变量拆

分,,,,这个变量应该被泛化”等个性化需求。此外,运维专家与算法设计人员

对于“故障”的理解也不尽相同,从而导致算法可能进行了无效学习或是错误

学习,并直接影响了算法的有效性。

二、数字学生系统分析体系建设路径

针对上述难点,证券业急需以实现复杂IT平台可观、可测、可控为目标,从实

时、在线维度还原系统工作机制并构建系统分析模型,研究、设计和验证具有

系统性、鲁棒性、自适应、自学习的智能运维新算法,以更好满足复杂系统潜

在故障检测以及系统稳定性分析等运维需求。

1.总体规划

围绕上述目标,笔者团队以实现复杂系统的整体可观测性为核心,从系统内部

的白盒化思路出发,提出了数字李生系统分析体系建设规划,并进一步细分为

两个阶段:

第一阶段是自上而下建立多层次指标体系,即通过描述系统内不同组件、模块

之间的依赖关系,构建系统内各指标间的非线性影响权重量化模型,以更为准

确地展现IT系统运行状态,同时为数据管理、数据分析、智能运维等场景提供

基础数据;并在此基础上,结合数据融合、特征工程、智能分析等手段,全面、

准确、及时把握高维复杂状态空间,满足IT平台的全维度观测需求。

第二阶段是自下而上构建数字挛生镜像模型,通过降低数据依赖性、提升算法

适应性,使得在系统结构或业务环境发生改变时,可基于数据动态输入、算法

动态调整,让数字李生镜像模型快速适应系统变化,最终在整体保持系统稳定

性与可靠性的同时,高效解决大规模、多尺度时变平台的实时调控问题,实现

对IT平台能力的量化评估。

2.算法设计

TT系统中各类资源构成的参数空间具有数量庞大、参数间存在复杂的非线性交

互影响等特点。为分析IT系统不同模块之间的关联交互作正,首先需要量化分

析不同模块相关参数对相邻模块以及服务质量关键指标(QualityofService,

QoS)的贡献程度,从而建立模块之间的量化交互模型。为此,笔者团队将平台

中不同层级的功能模块抽象为不同的逻辑功能节点,并构建了分层影响作用树

(如图1所示)。其中,每个节点根据不同的模型类型,均可以代表系统转移函

数、特定性能指标等具体含义,节点间的连线则可用于表示模块间接口变量、

指标之间的非线性影响权重。

在此基础上,笔者团队搭建了一种非线性影响权重量化模型,该模型能够通过

多个源指标构成的某集元素这目标指标的影响程度来描述IT系统的基础特性。

同时,结合非线性叠加测度理论,笔者团队在模型中引入了全新方法来量化模

块间参数的相互作用,即通过分析各个参数相互作用下的影响重要性,以此来

定量表征模型参数间的相互作用,该模型的突出特点是能够用广义非线性非可

加积分(Choquet积分)来定量评测模型变量之间的相互作用对QoS的贡献度。

例如,当给定一组观测数据,模型可以通过评估系统变量的非叠加测度来发掘

变量之间的复杂依赖关系,并量化单一变量及变量组合对目标函数(系统性能)

的贡献大小。

此外,考虑IT系统本身具有复杂行为模式、冗余设计、反馈和滞后响应机制、

临界点行为、系统持续演进等特点,而上述因素都会对准确评估IT系统健康度

产生影响,笔者团队针对性建立了基于马尔科夫链的状态转移概率模型,用于

探索IT系统内在可辨识的隐结构。具体而言,隐结构具有一定的稳定性,可反

映出IT系统特有的工作模式、运动规律,同时还具有足够的灵敏性,可在系统

出现异常时实现及时感知。

最后,笔者团队通过记录节点在状态迁移过程中的性能指标,基于节点的正

常、异常状态比例,根据特定标准实现了对节点健康度的统计评分。该健康度

评分方法基于节点不同状态下的期望输出指标,能够有效区分节点在不同输入

激励条件下的实际工作能力,为全面评估节点在复杂系统中的复杂行为提供了

一种新的视角。在此模式下,基于输入特征和输出特征的统计建模规律,将能

够准确反映出节点在较长时间跨度以及不同业务模型输入条件下的服务能力和

水平。

综上,前述算法主要具有以下三大特点:一是训练样本仅需准备一定量的测量

指标、日志等数据,无需与历史数据强耦合,即可以构建相对稳定的量化模

型;二是通过指标间非线性交互影响量化模型,可提供输入却输出的相互影响

权重,使模型比基于AI的黑盒模型具备更好的可解释性;三是在泛化和可迁移

性方面,由于构建了量化相互影响权重模型,模型比纯数据方法具备更好的泛

化和迁移能力。

3.数据底座建设

为打破数据孤岛,实现数据统一采集、统一存储、统一管理与统一视图展示,

笔者团队从能感知、会表述、自执行等维度入手,创新搭建了综合性智能化数

据底座(如图2所示),以进一步拓展数据应用的深度和空间,充分发挥数据价

值。

在能感知(可观)方面,笔者团队应用数字挛生技术,针对运维对象构建了数字

挛生可视化界面,并引入系统健康度评估体系和方法论,实现了系统健康度可

视化管理,使运维人员通过该界面能够直观了解系统健康度以及关联影响。同

时,监控平台覆盖运维全领域,拥有维度丰富的各类数据,并结合智能运维算

法支持快速发现故障,从而可实现对数据中心所有运行组件的全感知。

数据底座

采集■存储■管理■展示

图2智能化数据底座

在会描述(可测)方面,智能化数据底座基于数字挛生技术中的数字虚体,可细

致描述物理实体的可视化模型和内在机理,并对物理实体的状态数据进行监

测、分析,进而通过不断优化模型参数,提供智能化的决策辅助功能。

在自执行(可控)方面,“知其然,并知其所以然”是数字李生的核心理念。基

于智能化数据底座,运维人员可详细了解系统内部的各种影响及互动关联机

制,进而有目的地快速解决问题,实现真正的安全可控。

三、后续研究展望

当前,智能运维领域存在算法黑箱、算法同质化、模型缺陷等多种潜在风险,

但业界尚未针对智能运维算法的规范性、可靠性、可迁移性、有效性等制定统

一的评估方法,从而在一定程度上影响了智能运维技术的应用和发展。国泰君

安作为智能运维国家标准编订单位之一,己连续多年参与智能运维领域的研究

与实践,积极为智能运维国标编制建言献策。未来,国泰君安将继续作为牵头

单位研制智能运维算法的治理标准,推动智能运维系列标准推广落地。在此基

础上,国泰君安将携手业内同仁共同探索智能运维体系的落地路径,深入推进

各项运维能力建设和场景应用:

一是不断提升感知能力的时效性,在运维对象全生命周期的初始环节,就将其

纳入数据中心感知体系中进行管理。

二是持续构建“白盒”模型,运用数字季生方法论实时还原复杂系统的运行状

态,使核心业务在业务组件中的流动过程更加清晰可

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论