中小银行运维自动化经验分享_第1页
中小银行运维自动化经验分享_第2页
中小银行运维自动化经验分享_第3页
中小银行运维自动化经验分享_第4页
中小银行运维自动化经验分享_第5页
已阅读5页,还剩21页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、中小银行运维自动化管理 解决之道分享 2014年7月 目录 2 运维管理中的操作控制难题1 运维标准化自动化解决之道 2 作业任务精确控制 监控巡检准确定位 应急处置自动调度 . 运维标准化自动化实施要点 3 运维管理总体目标-防范风险、优质服务、控制成本、系统建设 稳定运行精确控制 资源管理 标准服务 - 应用整体监控 - - 变更发布管理 -运行成本可计量 -技术规范体系化 -运维架构规范化 -制度体系层次化 运维 管理 - -设备资源管理 -资源性能分析 -容量总体规划 -数据资源管理 作业管理难题-漏做错做、任务异常、执行风险、隐患排查 q大型商业银行每日批作业任务数已达数千个,中小型

2、商业银行也近几百个,随着业 务复杂度及三方业务增加,任务数有增无减,并且变更频率教高,控制难度增加控制难度增加; q多个系统、多个作业任务之间形成了非常复杂的逻辑关系,仅靠表格等手工管理方 式,很难降低任务执行差错率降低任务执行差错率; q针对特殊日期的批作业任务临时变更,很难精确控制,一旦作业任务执行失误,影一旦作业任务执行失误,影 响范围较大,很难处理响范围较大,很难处理; q很难精确记录作业任务执行时长、时点、报错等情况,无法统计分析,发现作业任发现作业任 务执行过程中的潜在风险务执行过程中的潜在风险; q. 作业管理 作业管理手段-任务登记、变更控制、逻辑调度、过程记录、隐患排查 任务

3、定义?关系管控?技术标准?过程监控?结果检查?故障联查?任务优化? 作业管理 运行监控难题-预警、发现、定位、排查、隐患、预估、采集、资产 监控巡检 关键业务交易出现 问题,想排查故障 原因,那么: l网络环境如何? l网络报文正常? l系统资源有瓶颈 吗? l中间件有问题吗 ? l数据库有瓶颈? l应用程序有报错 ? l业务数据有问题 吗? l客户请求端状态 如何? 运行监控难题-预警、发现、定位、排查、隐患、预估、采集、资产 监控巡检 2013年3月17日 监控报警情况-缺乏网络通路质量检测直接报警【只有表象报警、无原因报警】 15:37 ECIF系统:三条报警ToFront 0307 e

4、rror、ToFront 0307 error服务测试异常 15:38 收单系统:03801 Success rate is low! Pb751 BUSY! 15:40 电子支付系统:EPAY thread is busy 15:44 个贷风险管理系统:plms4和plms2、plms5、plms6阻塞线程数高、 15:44 信贷风险流程管理系统:weblogic线程数高、jdbc连接池等待 15:45 操作风险管理系统session锁等待 15:45 图前监控采集机10.1.7.15报错 15:46 验印系统ssl握手失败 分析:1、从15:37到15:46,10分钟内统一监控平台共有19

5、条应用系统1级告警,但因总行 网络环境监控手段的缺失,未能第一时间发现网络线路质量问题,因此,如何提早发现网络 通路问题,如何快速定位故障点,是故障早发现快解决的关键。 20132013年年3 3月月1717日网络通路典型故障日网络通路典型故障 应急难题-经验积累、工具标准化、逻辑关系控制、快速准确执行? 应急处置 其它运维操作难题-数据全程管理、标准化变更发布、环境合规检查、资产动态采集验证 其它运维操作 中小银行运维标准化自动化的意义-人员、经验、风险、成本 p实施运维操作自动化的关键目标是什么?:运维操作管理应该细分为如下几个领域,每 个领域的具体目标是不同的:1)操作控制:准确调度;2

6、)监控诊断:固化知识;3)应急处置: 精确执行;4)变更发布:控制差错;5)规范检查:准确核对;6)资产采集:信息准确;7)数据 管理:全程控制; p如何有重点分步骤的实施运维操作自动化?:根据细化后的运维操作流域及其管理目标 ,分别设计方案及标准,然后按照:首先标准化,其次自动化,最后制度化的路线进行实施; p运维操作自动化与哪些运维管理环节相关?:与一线建设、事件管理、应急处置、数据 管理、运维标准化等运维管理环节密切相关,同时考虑人力配备、技术能力问题【短期引入】; p如何保持运维操作标准化的持续性?:通过问题日常跟踪机制【日积月累】、运维操作 维护工作流程【查缺补漏】、相关人员岗位规划

7、、以及工具持续优化【实用原则】达成; 意义及思考 目录 1 1 运维管理中的操作控制难题1 运维标准化自动化解决之道 2 运维自动化领域的细分 标准化是自动化的前提 管理体系是有效实现的基础 . 运维标准化自动化实施要点 3 运维操作领域细分-领域不同,目标及要求则不同,实现策略与方法不同 p操作控制:常规操作任务的定义、调度、执行、监控、变更、维护、优化 l作业调度:风险控制、运行评测、变更控制、配套检查 l操作控制:配置备份、环境比对、时点检查、标准安装 l数据操作:系统备份、业务备份、恢复执行、查询流程、销毁控制 p监控诊断:报警判断、故障定向、问题定位、二次采集、标准处置、资产核对 l

8、运行监测:系统、应用、数据、外联环节的主动探测,运行数据采集 l故障诊断:监控集成、二次判断、故障定位、现场采集 l故障处置:处置执行、状态判断、可用验证、故障隔离 p应急处置:应急环境与条件自动检测、应急流程实现与维护、应急操作自动执行 p变更发布:变更评审关键点管理(非功能需求在线核对)、应用发布自动化(标 准)、系统变更自动化(规范) p规范检查:监管/管理规范核对、安全自动检测、配置信息自动核对、安装规范 运维操作管理的实现:1)标准化;2)工具化;3)自动化;4)制度化 作业管理体系-制度细则、技术规范、监测优化 作业管理体系 应急操作管理体系-自上而下、从头落实、技术细化、持续改进

9、 应急管理体系 整体 预案 技术 预案 系统 手册 技术 演练 持续 维护 识别业务风险 控制故障影响 指导整体工作 明确故障升级 及处置整体流 程,建立规范 整体了解关键业务 系统结构,梳理各 类故障处置方法 以实战出发设计 演练场景,验证 操作有效性 将系统的变更、典型 故障,及时维护到应 急管理手册之中 技术操控管理重点范畴 业务影响分析 整体预案制定 事件定级 流程设计 系统结构梳理 故障处置步骤 日常变更管理演练场景设计 典型故障管理 实操与评测 分析建立设计实操评估 整体工作落实策略 监控巡检管理体系-认识对象、明确指标、操作测量、评估优化 监控管理体系 目录 1 7 运维管理中的

10、操作控制难题1 运维标准化自动化解决之道 2 运维操作经验的积累与获取 识别阶段工作的重点与难点 工具适用性选择与人员调整 . 运维标准化自动化实施要点 3 作业管理实施要点-识别作业管理关键点、分析关键问题分布实现 作业管理实施 p作业逻辑控制作业逻辑控制:各个作业任务之间往往存在先后逻辑关系,尤其是跨 应用系统的逻辑管理需要严格控制 p作业时间调度作业时间调度:很多作业需要控制执行日期及时间,如周一至周五某 时刻做,每月最后工作日做等等 p作业权限控制作业权限控制:关键作业需要特定角色或者多人复核等,需要进行严 格控制 p作业自动执行作业自动执行:对于将要实施自动执行的任务,应具备哪些条件

11、、应 如何改造、如何控制风险 p作业临时干预作业临时干预:在特殊情况下,如业务部门特殊要求,某些作业不按 照计划的时间等条件执行,能否有效控制是关键 p作业管理成体系作业管理成体系:对于作业管理中的人员、信息、流程等要素进行系 统化管理,将作业的基础信息、变更流程、人员工作等环节落实在一套 管理制度及工具中 p作业变更标准化作业变更标准化:严格控制作业任务在系统投产、节假日处理等情况 下的变更及实施 应急处置面临的复杂性-系统间关联性高、同城异地灾备环境 应急处置实施 应急处置操控实施-处置操作标准化、整体设计处置流程、自动操控 应急处置实施 监测采集实施-识别监测对象与指标、监测采集过程标准

12、化、实时自动监测采集 监测采集实施 监测采集实施-运行数据采集目标确定、采集手段梳理、采集流程设计实现 监测采集实施 关键生产环节的可用性保障-梳理整体环境及链路、确认测试方法、自动测试 监测采集实施 24 运维操作实现的关键因素技术经验、人员能力、工具实现、持续优化 首先要将内部日常运维工作逐步标准化规 范化,并形成简洁有效的运维管理过程, 记录每个故障、分析成因、跟踪问题,技 术经验、解决方案的日积月累。 外部技术经验及解决方案的引入,如网上 资料、外包资源、项目资源等。 技术经验 持续优化 在实施运维管理的同时,必须考虑配 套制度规范及细则的设计,以及技术 标准的建立,同时形成不断查缺补

13、漏 的工作机制。 将运维操作领域进行细化分工,在系 统设计、开发、投产、运行监测、优 化改进等环节持续落实。 24 工具实现 首先要明确各运维领域细化目标及需 求,基于此分析对于工具的详细需求 。 工具必须具备较强的二次开发能力, 充分掌握核心代码,以结果为导向整 体设计,不断持续改进 运维管理分工的细化,由按系统分工模 式,逐步调整为技术专业领域分工。 充分利用外包、驻场、项目资源,将上 述人员能力,按照标准化模式,输出成 为知识、解决方案,形成自身人员能力 。 人员能力 运维自动化工具思考-不是简单的流程化、复杂逻辑控制、实际处理难题. p任务的暂停、延迟、跳过、置换、提前:任务的法定时间因子、前序条件因子、执行令牌 因子(临时干预)【任务暂停、任务略过、任务提前、临时调换两个任务的先后顺序等功能 支持的情况】 p任务的时点报警、时长报警:可

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论