版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
近年来,面对国际形势变化以及互联网企业架构带来的启发,商业银行纷纷开
启分布式转型,同时其信息系统架构也呈现出集中式与分布式并存的特点。在
此趋势下,TT运维团队不仅要继续承担传统集中式大型主机平台平稳运行的运
维职责,又要做好未来分布式运维的技术储备,尤其在大型主机技术相对封
闭、向分布式技术栈迁移难度较大的情况下,如何顺利实现运维技术转型成为
当前面临的重大挑战。与此同时,在集中式和分布式并存的复杂架构下,只有
让运维能力具备与运维对象松耦合的可迁移性和普适性,才能更好地适应银行
信息系统技术不断更迭的现状和趋势。
针对上述变化,笔者团队以多年积累的运维经验为基础,总结提炼了分布式运
维管理方法论,并配套搭建异构系统运维管理平台,创新开展了以数据统一采
集与标准化治理为基础支撑、以标准化产品组件为控制接口、以即插即用的工
具平台为共享服务、以运维需求为应用场景的落地实践,逐步推动运维模式从
“事件驱动”向“数据驱动”转变,推动平台建设从“需求功能实现”向“通
用运维能力沉淀”转变。
一、异构系统运维管理平台
架构设计
面向分布式转型趋势,笔者团队将新技术手段与管理流程优化相融合,着力推
动以数据驱动的智能运维体系建设,并创新搭建了异构系统运维管理平台(如图
1所示)。该平台基于多维度运维数据,在屏蔽底层运维对象复杂性的基础上,
重点实现了标准化数据治理与规范化接口调用,旨在迭代推动运维模式向可视
化、自动化和智能化转型。平台设计重点强调了三项基本原则:一是相对独
立,即将复杂的运维能力建设拆分为相对独立的服务建设,通过规范接口,实
现平台间、模块间的相互调用协作;二是能力复用,即使每一个开发过的功能
模块在之后的能力建设中能够被最大程度被复用,进而降低成本、缩短时间,
实现乘数效应;三是闭环设计,即通过将人的能力和机器的能力统筹考虑,最
终实现数据、分析、决策、处置的操作闭环与事前、事中、事后的流程闭环,
并借此持续推进自动化、智能化转型。
功价
应用场景共享服务
场
景|告誉收敛]异常检费]|连接关系
日志分析平台大解展示
与ELKGrafana
服I时序旧渊]横因定位U容■定位]
务时间序列分析平台机学习
日志风否诊片问!欧蜉'[运雄知识廛B
I1i1Horao算法座
控制接口数据治理
接
口原生工具集SA/ARM/SFI^SYSREXX主机性能容・平台TDS
与
数一罐式健朦检查自动化工具大数据平台BIGDATA
据
自动化运堆管理平台MOMA配置管理数据痹CMDB
运主机平台
堀
对系统DB2CICSMQ开放平台X86平台
象匚通像I存储U批.JSWIFT-]
图1异构系统运维管理平台架构设计
基于上述原则,异构系统运维管理平台重点打造数据治理、控制接口、共享服
务、应用场景等四大功能模块,并在其中内嵌了“数据驱动、预防为主、应急
为辅”的预防性维护闭环流程。其中,数据治理功能重在实现对异构运维对象
数据的统一采集、存储、归总,控制接口功能重在实现对异构运维对象的统一
控制操作,共享服务功能重在将常用的数据分析服务集成为通用工具,应用场
景则是指根据事前、事中、事后的应急闭环迭代流程落地具体的运维场景,并
以统一门户全景展示异构运维对象的实时状态。
1.数据治理模块
异构系统运维管理平台的运维对象涉及大型主机平台、AIX平台、X86平台等多
个并存的异构系统,每天有大量源数据存储需求,数据的类型、格式也千差万
别。对此,笔者团队首先在数据治理模块中搭载了数据字典,并据此标准化数
据采集工具,最后基于数据仓库统一存储的治理策略,搭建了主机性能容量平
台(TDS)、大数据平台(BIGDATA)、配置管理数据库(CMDB)三大平台作为数据治
理的主要抓手,建设标准化的平台数据资源池。
以主机性能容量平台为例,该平台重点实现了对主机性能指标(SMF)数据的统一
结构化存储与管理。实践中,TDS首先是按照系统、存储、数据库、交易中间
件、消息中间件、批量等组件划分方式,分条目建设性能指标体系,再基于指
标体系抽取了685个常见的性能指标作为采集对象,每一类组件设计有单独的
采集解析脚本,收集数据互不影响,且采集的数据会统一落入DB2和MySQL数
据库。
在此基础上,作为支持上层应用的数据资源,该平台还重点搭载了三个典型应
用:第一部分是系统的健康检查,帮助运维人员快速掌握系统运行状态,发现
潜在的性能问题;第二部分是关键指标的容量预估,通过分析指标的长期变化
趋势,提前预估基础环境中的容量问题,做好容量规划,保障生产资源的弹性
扩容;第三部分是事后问题诊断,通过对底层多维度的指标关联挖掘,平台集
成有波动分析、趋势分析、定比分析等多个分析模型,用于根因的快速分析定
位。
2.控制接口模块
为实现对异构平台的统一自动化调用,控制接口模块中搭载了中国银行自主研
发的自动化运维管理平台一一MOMAoM0MA通过将常见运维操作进行标准化打
包,可实现对异构运维对象的统一控制,并基于工作流编排、调度和交互控制
等功能,支持用户在网页端定义一系列相互关联的指令作业,并按照事先约定
的执行流程进行自动执行与实时追踪,从而实现一套流程、集中控制、重复使
用,显著降低了管理成本和差错率。
M0MA平台通过标准化接口实现主机平台和开源平台对接,彻底改变了主机平台
的闭源特性,使传统主机平台拥有了丰富的可视化界面。同时,在变更任务的
拆分过程中,通过开发大量能满足平台接口调用规范的主机平台作业流,全面
覆盖了自动化控制、智能判断等功能,并共同组建了主机自动化运维脚本库。
未来,伴随着M0MA平台的演进和发展,主机平台的自动化运维能力也将不断提
升,而主机接口标准化建设则为异构运维对象的集中自动化调度铺平了道路。
3.共享服务模块
基于相对独立和能力复用等设计原则,共享服务模块作为对接数据与应用的通
用服务层,主要负责将运维场景常用的展示能力、分析能力、决策能力等集成
为即插即用的服务,以避免功能重复开发。目前,共享服务层重点建设了指标
展示大屏、时间序列分析平台(Horae)、主机日志分析平台、机器学习算法库等
作为通用服务工具。
其中,时间序列分析平台利用统计分析和机器学习算法,可对具有规律性的性
能指标数据进行精细化分析和价值挖掘,从而为上层应用场景提供任一性能指
标数据的趋势预测和异常检测服务。同时,该平台通过将时间序列分析中常见
操作封装为Horae平台命令,支持用户使用配置文件输入命令和参数信息来调
用服务。截至目前,Horae平台内已集成有10余种时间序列分析算法,并支持
算法的动态弹性扩展,能够很好地覆盖运维中常见的序列类型。
4.应用场景模块
应用场景模块通过将团队门户作为统一入口,基于对告警、日志、生产问题、
性能指标等运维数据的挖掘分析,实现了包含数据、分析,决策、处置在内的
操作闭环与覆盖事前、事中、事后的流程闭环。例如,该模块基于告警风暴收
敛、日志风险诊断、容量预估等功能可实现事前风险感知,通过运维知识库、
异常检测、自动处置等功能大幅提高了事中处置速度,以及结合问题跟踪、根
因分析等功能实现了事后闭环迭代。
二、异构系统运维管理平台应用示例
1.告警风暴收敛
传统运维方式下,运维团队通常会根据重要性和紧急程度从高到低将告警分为
红、橙、黄、蓝四个等级。从告警数量来看,每天以重要程度较低的蓝色告警
居多,因其包含了许多不重要的提示信息,所以很容易被运维人员忽视。鉴于
此,告警风暴收敛的一项重点工作即在于对蓝色告警进行再分级,并最终从海
量蓝色告警中筛选出真正有价值的风险。蓝色告警再分级如图2所示。
图2蓝色告警再分级
为实现上述目标,笔者团队利用机器学习算法围绕告警风险指数展开了统计分
析,其核心思想是抽取系统平稳运行时出现的蓝色告警历史数据特征,并将其
作为风险等级较低的正样本数据,同时将新出现的蓝色告警与历史一段时间的
正样本数据进行比对,当一条蓝色告警的发生次数、告警内容等特征与历史情
况趋同时,说明该告警风险等级低,而一旦与历史情况差别较大时,则说明可
能发生了异常情况,需要重点关注。
基于上述思想,笔者团队结合TFIDF文本分析和Kmeans聚类算法,对每条蓝色
告警的风险指数进行了实时计算,并将其依次分为“99999、1000+、100+、
10+、1+”五个风险等级,以辅助运维人员合理分配注意力,对风险等级高的蓝
色告警予以重点关注,实现精细化区分告警风险等级的目标C结合实际应用来
看,偏离历史一般规律越多的蓝色告警的风险指数越高,而这一结果和运维经
验相吻合,可有效助力运维人员及时发现潜在风险。
2.运维知识库
运维知识库旨在实现处置方案的快速查找,从而有效提高事中的应急速度。按
照传统的文档库建设思路,通常很难保证文档版本的动态更新,且使用时也往
往需要进行复杂的检索操作才能定位解决方案。为弥补上述不足,运维知识库
基于“有警必有解”的建设思路,将告警信息作为知识库统一入口,点击任意
一条新出现的告警信息,均可链接到运维知识库中针对该告警的具体解释和处
理手段,从而实现了对每一条告警的快速应对。
此外,为保证运维知识库的完备性,异构系统运维管理平台利用关键字技术对
告警的关闭操作和知识库的录入操作实施了强关联,即工程师想要关闭告警就
必须将解决方案录入知识库,从而实现了历史经验的固化积累;同时,为保证每
一条处置方案都能对应到可操作层面,还为其专门建立了后评价反馈机制,即
由一线值班工程师在实际使用后进行评价反馈,将有问题的解决方案登记到问
题跟踪,由二线处理并更新知识库。
3.故障自动处置
目前,运维自动化主要指监控告警自动化与处置操作自动化两个方面。传统运
维方式下,告警自动化产生后,通常需人工查找自动化脚本或工具提交执行,
且事中处置同样需人和机器枕,作完成。对此,异构系统运维管理平台通过内嵌
自动处置模块,力求打通监控和执行环节,即在无人参与的前提下,根据告警
信息找到对应的处置方法自动执行。
异构系统运维管理平台基于MOMA和主机自带的自动化工具集,可将日常运维的
手工操作转化为由自动化脚本组成的归档集成,并针对具有固定处理方式的告
警信息,抓取关键字触发脚本进行自动化处置,从而为日常运维提供了自动化
的预防性维护能力。以高亮信息处理场景为例,高亮信息是大型主机特有的从
路由到终端的提示信息,作为监控领域的一大痛点,运维人员每天都需要处理
大量的高亮信息,尤其在应用批次投产等特殊时段,甚至一天内会出现20余万
次,运维人员很容易在高亮风暴中忽略关键信息。针对上述难点,当利用异构
系统运维管理平台的自动处置功能进行高亮信息治理后,绝大部分高亮信息实
现了系统自动回复,使需要运维人员关注的高亮信息减少了80%以上,有力提
升了运维效率。
三、总结和展望
综上所述,本文介绍了一种面向分布式转型的运维管理方法,并基于此方法建
设了异构系统运维管理平台,不仅为预防性维护方法论的落地实现提供了一种
可参考的平台框架,而且为异构运维对象的统一管理维护奠定了能力基础。与
此同时,该方法通过在异构系统运维管理平台中构建标准化数据资源池,为实
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025版动漫主题咖啡厅设计制作运营合同3篇
- 活动策划执行安排服务无偿合同
- 2024年科技展览摊位租赁合同3篇
- 科技园区网络设施安装合同
- 幼儿园师资培训协议
- 美容院氧气房安全使用条例
- 2025年度文化创意产业设计师聘用合同书3篇
- 水利工程楼宇对讲施工合同
- 地下图书馆降水井施工合同
- 市政工程招投标授权委托专用
- 五金材料采购投标方案(技术方案)
- TB 10752-2018 高速铁路桥涵工程施工质量验收标准
- 客运站春运安全行车教育
- 机械原理课程设计压床机构
- 酒店物品艺术赏析智慧树知到期末考试答案2024年
- 交通运输系统导论智慧树知到期末考试答案2024年
- 乳腺腔镜手术介绍
- 服装的生产方案
- JTGT F20-2015 公路路面基层施工技术细则
- 机械加工厂计划管理
- 太阳能光伏发电系统最大功率点跟踪技术研究
评论
0/150
提交评论