银行运维自动化管理解决方案_第1页
银行运维自动化管理解决方案_第2页
银行运维自动化管理解决方案_第3页
银行运维自动化管理解决方案_第4页
银行运维自动化管理解决方案_第5页
已阅读5页,还剩22页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、银行运维自动化管理解决方案目录运维管理中的操作控制难题1运维标准化自动化解决之道2运维标准化自动化实施要点3运维管理总体目标-防范风险、优质服务、控制成本、系统建设稳定运行精确控制资源管理标准服务应用整体监控事件处置管理 知识维护使用变更収布管理-运维服务标准化-运行成本可计量-技术规范体系化-运维架构规范化-制度体系层次化运维管理作业调度管理 安装规范核对 巡检全程控制 配置信息管控-设备资源管理-运行数据采集-资源性能分析-容量总体规划-数据资源管理精确操控管理是运维管理的基础,也是科技服务质量的保障大型商业银行每日批作业任务数已达数千个,中小型商业银行也近几百个,随着业 务复杂度及三方业

2、务增加,任务数有增无减,并且变更频率教高,控制难度增加;多个系统、多个作业任务之间形成了非常复杂的逻辑关系,仅靠表格等手工管理方式,很难降低任务执行差错率;针对特殊日期的批作业任务临时变更,很难精确控制,一旦作业任务执行失误,影 响范围较大,很难处理;很难精确记录作业任务执行时长、时点、报错等情况,无法统计分析,发现作业任务执行过程中的潜在风险;.作业管理作业管理难题-漏做错做、任务异常、执行风险、隐患排查任务定义?关系管控?技术标准?过程监控?结果检查?故障联查?任务优化?监控巡检运行监控难题-预警、収现、定位、排查、隐患关键业务交易出现 问题,想排查故障 原因,那么:网络环境如何?网络报文

3、正常?系统资源有瓶颈 吗?中间件有问题吗?数据库有瓶颈?应用程序有报错?业务数据有问题吗?客户请求端状态 如何?应急处置应急难题-经验积累、工具标准化、逻辑关系控制、快速准确执行?其它运维操作其它运维操作难题-数据全程管理、标准化变更収布、环境合规检查、资产劢态采集验证银行运维标准化自动化的意义-人员、经验、风险、成本实施运维操作自动化的关键目标是什么?:运维操作管理应该细分为如下几个领域,每个领域的具体目标是丌同的:1)操作控制:准确调度;2)监控诊断:固化知识;3)应急处置: 精确执行;4)变更发布:控制差错;5)规范检查:准确核对;6)资产采集:信息准确;7)数据 管理:全程控制;如何有

4、重点分步骤的实施运维操作自动化?:根据细化后的运维操作流域及其管理目标,分别设计方案及标准,然后按照:首先标准化,其次自动化,最后制度化的路线进行实施;运维操作自动化不哪些运维管理环节相关?:不一线建设、事件管理、应急处置、数据管理、运维标准化等运维管理环节密切相关,同时考虑人力配备、技术能力问题【短期引入】;如何保持运维操作标准化的持续性?:通过问题日常跟踪机制【日积月累】、运维操作维护工作流程【查缺补漏】、相关人员岗位规划、以及工具持续优化【实用原则】达成;意义及思考目录运维管理中的操作控制难题1运维标准化自动化解决乊道2运维标准化自动化实施要点3运维操作领域细分-领域丌同,目标及要求则丌

5、同,实现策略不方法丌同操作控制:常规操作任务的定义、调度、执行、监控、变更、维护、优化作业调度:风险控制、运行评测、变更控制、配套检查操作控制:配置备份、环境比对、时点检查、标准安装数据操作:系统备份、业务备份、恢复执行、查询流程、销毁控制监控诊断:报警判断、故障定向、问题定位、二次采集、标准处置、资产核对运行监测:系统、应用、数据、外联环节的主动探测,运行数据采集故障诊断:监控集成、二次判断、故障定位、现场采集故障处置:处置执行、状态判断、可用验证、故障隔离应急处置:应急环境不条件自动检测、应急流程实现不维护、应急操作自动执行变更収布:变更评审关键点管理(非功能需求在线核对)、应用发布自动化

6、(标 准)、系统变更自动化(规范)规范检查:监管/管理规范核对、安全自动检测、配置信息自动核对、安装规范运维操作管理的实现:1)标准化;2)工具化;3)自动化;4)制度化工具总体架构:操作流程调度引擎模块命令适配器数据库适配器windows自动化适配器流程监控用户管理报表.流程管理流程干预权限管理数 据 库作业管理器操作流设计器流程编缉保存流程上载下载操作流引擎(双机热备).流 程 解 析 执 行流 程 劢 态 部 署脚 本 解 析 执 行适 配 器 热 部 署流 程 实 时 快 照流 程 运 行 日 志代理适配器热部署适配器执行可 扩 展 即 揑 即 用 适 配 器HTTP适配器Syslog

7、适配器.WebServiceWebServiceXML-RPC作业管理实施要点-识别作业管理关键点、分析关键问题分布实现作业管理作业逻辑控制:各个作业任务之间往往存在先后逻辑关系,尤其是跨应用系严作业时五某时刻做做作业权格控制作业自行严、应如何改作业临格控制业需要控制执行日期及时间,如周一至周 等等业需要特定角色或者多人复核等,需要进要实施自动执行的任务,应具备哪些条件 情况下,如业务部门特殊要求,某些作业不按照计划,作业管进行系统化管一套管理制作业变统的逻辑管理需要 间调度:很多作,每月最后工作日限控制:关键作动执行:对于将造、如何控制风险时干预:在特殊 的时间等条件执行理成体系:对于 理,

8、将作业的基础 度及工具中更标准化:严格息、变更流程、人员工作等环节落实在控制作业任务在系统投产、节假日处理等情况下的变更及实施批量测试批量开发批量上线批量维护开发中心批量作业拆分业务逻辑实现批量作业流程设计 调度接口配置批量开发岗测试部门裁减流程测试日常维护 能否有效控制是关键作业管理中的人员、信息、流程等要素信运维部、系统部批量变更批量调度岗系统管理岗运维部门裁减流程启停任务操作批量调度岗批量维护岗批量操作岗作业管理体系-制度细则、技术规范作业管理批作业调度示例原有操作方式 批量流程设计 工作流展示 流程状态监控作业管理批作业调度事后风险分析示例作业任务耗时统计分析作业任务故障统计分析作业管

9、理监控管理监控巡检管理体系-认识对象、明确指标、操作测量、评估优化 Check change records Roll back application to old level对象构成信息监控KPI指标集监控策略实施说明(按层次、分维度)(分层级指标、二次诊断定义)(按工具设计、分对象定级)全方面多维度以体系化的监梳理应用监测点控指标为参考基础层面构成信息分层级按维度说明指标策略统一编码,整体描述应用- 存储:通道等- Level 1: 常规监测指标- 网络:通路、会话等- Level 2: 初步定位指标策略按照丌同对象定义报警级别- 系统:信号量等- Level 3: 深入诊断指标说明策略

10、的启劢条件、频率- 数据库:实例等- 与用设备信息指标二次诊断定义应用内部构成信息- 如:链路中断报警,需确认哪一个层面- 进程、服务、队列等指标的详细说明(知识库)应用外部关联信息指标采集及处理方式说明- 链路、文件、接口等应用交易信息- 交易分类、交易名称、返回码监测采集实施-运行数据采集目标确定、采集手段梳理、采集流程设计实现监控管理复杂链路根源故障分析自动化 调度服 务结果反馈Ping链路IPSYSLOG告警链路IP1IP2IP3IP42013监控报15:37 E15:38 收15:40 电15:44 个15:44 信15:45 操15:45 图15:46 验分析: 行网络 络通路年3

11、月17日警情况-缺乏网络通路质量检测直接报警【只有表象报警、无原因报警】CIF系统:三条报警ToFront 0307 error、ToFront 0307 error服务测试异常单系统:03801 Success rate is low! Pb751 BUSY! 子支付系统:EPAY thread is busy贷风险管理系统:plms4和plms2、plms5、plms6阻塞线程数高、贷风险流程管理系统:weblogic线程数高、jdbc连接池等待作风险管理系统session锁等待 前监控采集机5报错 印系统ssl握手失败1、从15:37到15:46,10分钟内统一监控平台共有19条应用系统

12、1级告警,但因总 环境监控手段的缺失,未能第一时间发现网络线路质量问题,因此,如何提早发现网 问题,如何快速定位故障点,是故障早发现快解决的关键。网络通路典型故障实现设计:1)在检测流程中体现网络通路资产信息(可以参数传递进去);2)从服务的 请求端开始,渐次扩展拨测,如:A-B、A-C,检测通断、丢包、延时等状态;3)将检 测结果,以日志、标准输出、参数等形式输出到工作流服务器端;4)利用监控数据采集手 段,采集拨测结果,并以路径图、表格等形式显示,也支持拨测流程的直接查看;关键生产环节的可用性保障-梳理整体环境及链路、确认测试方法、自动测试应急管理应急操作管理体系-自上而下、从头落实、技术

13、细化、持续改进识控指导整体工作整体预案预业务影响分析事件整体预案制定流程别业务风险明确故障制故障影响及处置整持续维护设计日常变更管理测典型故障管理发设计将系统的变更、典型,验证故障,及时维护到应 性急管理手册之中分析建立设计实操评估技术系统技术案手册演练定级系统结构梳理演练场景设计故障处置步骤实操不评技术操控管理重点范畴升级整体了解关键业务以实战出体流系统结构,梳理各演练场景 程,建立规范类故障处置方法操作有效整体工作落实策略工具总体架构:故障处置、灾备切换应急管理应急管理应急处置操控实施-处置操作标准化、整体设计处置流程、自动操控目录运维管理中的操作控制难题1运维标准化自动化解决之道2运维标

14、准化自动化实施要点3运维操作实现的关键因素技术经验、人员能力、工具实现、持续优化工具实现首先要明确各运维领域细化目标及需 求,基亍此分析对亍工具的详细需求。工具必须具备较强的二次开发能力, 充分掌握核心代码,以结果为导向整 体设计,丌断持续改进持续优化在实施运维管理的同时,必须考虑配 套制度规范及细则的设计,以及技术 标准的建立,同时形成丌断查缺补漏 的工作机制。将运维操作领域进行细化分工,在系 统设计、开发、投产、运行监测、优 化改进等环节持续落实。技术经验首先要将内部日常运维工作逐步标准化规 范化,并形成简洁有效的运维管理过程, 记录每个故障、分析成因、跟踪问题,技 术经验、解决方案的日积月累。外部技术经验及解决方案的引入,如网上 资料、外包资源、项目资源等。人员能力运维管理分工的细化,由按系统分工模 式,逐步调整为技术与业领域分工。充分利用外包、驻场、项目资源,将上 述人员能力,按照标准化模式,输出成 为知识、解决方案,形成自身人员能力。运维自动化工具思考- 不是简单的流程化、复杂逻辑控制、实际处理难题.任务的暂停、延迟、跳过、置换、提前:任务的法定时间因子、前序条件因子、执行令牌 因子(临时干预)【任务暂停、任务略过、任务

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论