面向敏捷运维的数据中心运维自动化系统建设_第1页
面向敏捷运维的数据中心运维自动化系统建设_第2页
面向敏捷运维的数据中心运维自动化系统建设_第3页
面向敏捷运维的数据中心运维自动化系统建设_第4页
面向敏捷运维的数据中心运维自动化系统建设_第5页
已阅读5页,还剩10页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

-精选财经经济类资料- -最新财经经济资料-感谢阅读- 1 面向敏捷运维的数据中心运维自动 化系统建设 摘 要: 数据中心运维自动化系 统建设,基于数据中心行业的特点和需 求,能够自适应混合环境,支持快速故 障恢复,按照不同运维场景实现自定义 的运维操作,促进了数据中心的敏捷运 维,推动数据中心向运维规范化、自动 化、智能化转型。 中国论文网 /8/view-12926831.htm 关键词: 数据中心; 自动化; 敏捷运维; 故障恢复; 转型 中图分类号:TP399 文献标志码: A 文章编号:1006-8228 ( 2017)05-83- 04 Construction of data center -精选财经经济类资料- -最新财经经济资料-感谢阅读- 2 automation system for agile operation Huang Weifeng (Shanghai Pudong Development Bank, Information Technology Department, Shanghai 200000, China) Abstract: The automatic system for data center operation and maintenance is constructed based off the characteristic and requirement of the data center industry, the system can support hybrid environment adaptively, support fast fault recovery, and achieve custom operation according to the different scenario, which promotes the agile operation of the data center, and promotes transformation of the operation and maintenance of data center to standardization, automation and intelligent. Key words: data center; automation; agile operation; fault -精选财经经济类资料- -最新财经经济资料-感谢阅读- 3 recovery; transformation 0 引言 伴随企业业务系统规模迅速扩大, 数据中心正面临系统架构集群化资源化、 应用架构面向服务松耦合、业务连续性 要求日益严苛、人均运维工作量持续增 长等发展趋势。传统运维在系统量日益 增长的现状下显现出效率低、成本高、 风险大等各种问题,浦发银行因此开展 面向敏捷运维的运维自动化系统建设 (以下简称运维自动化系统) ,通过该 系统,对各类 IT 资源实现自动化装机、 日常巡检、应用发布自动化、个性化运 维调度、自动化打补丁、主机信息查询、 合规检查自动化、配置收集自动化、故 障自动诊断与处置等功能,以提高基础 资源和应用部署的自动化水平,实现快 速交付、动态调整、弹性部署,降低人 工操作风险,提升风险管控技术能力, 实现数据中心的敏捷运维。 1 运维自动化系统的技术架构 数据中心运维自动化系统的整体 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 4 物理架构如图 1 所示5。 运维自动化系统架构中包括服务 器自动化组件、网络自动化组件、自动 化引擎组件、故障恢复组件、数据采集、 报表组件和管理门户共六个部分。 故障恢复组件,通过与监控平台 联动,抽取故障信息,通过匹配微服务 知识库,触发高性能数据引擎获得故障 现场快照,并执行相应操作,达到快速 恢复生产问题的效用。该组件包括的高 性能搜索引擎可以在海量数据中快速定 位故障,并把非优化的数据通过可视化 图表的方式展现在前台,为快速锁定生 产问题提供便捷通道。该组件支持微服 务知识库和微服务应用的方式进行灵活 的场景拓展,实现一个个面向具体运维 场景的故障恢复自动化。 2 运维自动化系统的技术特点 针对数据中心运维现状,我们在 前期认真调研了实际工作中的各种需求, 设计开发了本系统。目前本系统已承载 各种各样的 IT 基础设施运维,包括网 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 5 络、服务器、存储、应用等,通过本系 y 实现对这些基础设施统一操作。现 就本系统实现的几个关键技术特点进行 分析和总结。 2.1 自适应混和环境 运维自动化系统后台逻辑架构设 计理念之一是能够自适应混合 IT 软硬 件环境,涉及三方面核心服务。 分布式自动发现(眼) 自动发现的数据来源有两部分, 一部分是如图 2 下面区域所示,通过部 属于各个网段的卫星节点,自动发现和 纳管新上线服务器,自适应多种机型以 及其上多类软件;另一部分是如图 2 左 边区域所示,通过丰富的平台接口,获 取周边关联系统信息,采集来的数据经 过汇聚、清洗、比对与合成,进入到配 置库中。 自适应规则匹配(脑) 系统中预定义了四种自适应规则, 通过前一步分布式自动发现得到的配置 数据,根据不同软硬件类型和不同版本, -精选财经经济类资料- -最新财经经济资料-感谢阅读- 6 选用组件库中的模块组件,自适应地开 展装机、巡检、配置收集、软件发布。 行为驱动调度(手) 根据自适应规则匹配服务结果, 调度相应的模块组件,驱动执行。 2.2 支持快速故障恢复 运维自动化系统支持上百台乃至 更大规模集群的分钟级故障快速诊断与 恢复。 基于大数据技术,将各方面运维 数据采集、关联、统计分析和可视化展 现,在海量数据中快速定位故障关键信 息。另外,基于预定义的故障处理规则, 自动识别故障场景告警特征6,选择对 应的故障修复程序以及事后检查程序, 调度执行。 系统基于微服务的系统架构,实 现功能解耦,数据采集、传输、缓存、 索引等均采用全自动化方式设计和实现。 提供充分的第三方接口,可便捷的拓展 新的数据分析和故障恢复模型。 系统对复杂的运维大数据流程进 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 7 行了封装,提供可视化的云服务给用户。 系统利用高性能运维数据采集引擎收取 节点相关信息,把非结构、半结构的数 据转换为可视化图表和表格,在高性能 搜索引擎下,在海量数据中快速定位故 障关键信息,系统基于预先定义的故障 处理规则,主动判断匹配、协同故障场 景配置参数,选择对应的故障修复程序 以及事后检查程序4,调度执行,执行 结果和检查结果输出返回给监控报警系 统关联告警信息。执行决策过程支持人 工介入或全自动两种方式。 该 特点适用于故障特征明显、监控告警定 位精准、配套处理步骤明确的场景。 对于无法通过监控平台直接定位 到故障根源的场景,需登录上百台乃至 更大规模集群再逐台排查的方式显然是 无法接受的,系统支持一键式故障快照 收集、自动问题诊断定位和自动深入分 析,即发生故障时,运维人员一键执行 后: 第一步,快照收集。由运维自动 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 8 化系统调度和执行部署于被管节点的信 息收集器,将近期操作系统性能容量 (CPU、内存、DISK、FS 空间)和日 志数据、中间件性能容量(应用吞吐率、 执行线程使用率、JDBC 使用率)和日 志、线程(threaddump) 、进程(lsof) 和内存堆栈(heapdump )等,汇总归集 在管理节点上,这些收集信息的脚本、 命令和工具在自动化装机阶段已经包含 在装机和软件部属的组件当中、与当前 应用场景无缝衔接。 第二步,自动诊断。通过部属于 管理节点上的分析器,对服务器和中间 件性能容量数据排序、对每台服务器操 作系统和每个中间件 server 日志报错总 数进行统计、对未达报警级别的敏感关 键字日志进行统计,按 TOP 排名列出 可能是故障根源的可疑节点,以便在上 百台机器中定位到问题节点2。 第三步,自动分析。基于已定位 可疑节点,在已汇总归集的故障现场快 照中进一步分析,形成分析结果。 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 9 2.3 服务功能组件化 运维过程中,用户的需求时刻在 变化,比如图 3 中这位运维人员遇到的 四个需求,这些需求在系统建设之初是 难以全部考虑到的,即使考虑到,固化 的预定义功能也无法灵活的根据需求场 景快速调整。为此,系统支持用户自助 式在前端维护界面自定义任务并按需调 度、支持在系统后台通过拖拽拼装组件 模块方式快速满足新需求。 服务功能组件库的搭建分为三步。 第一步,预定制化了 2000 余个 运维脚本,包括 shellbatpython vbs 等,支持在 Windows、HPUX、Linux、AIX 等多个 操作系统,另外用户也可以在前端维护 界面自助式自定义脚本并按需定时调度。 第二步,将预定制的运维脚本封 装为结构化、标准化的组件模块,供后 续重用。 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 10 第三步,通过这些组件之间的排 列组合、定义组件之间的关系,形成面 向操作流程的 500 余项服务流。 例如,AIX 操作系统的安装涉及 到将 SHELL 脚本以及配置参数封装为 组件库中的获取 LPAR 状态 1、检查 LPAR 状态、安装 AIX、配置等等组件, 对这些组件拼接关联,实现整个 AIX 操 作系统安装的服务流。 3 实现敏捷运维的应用场景 基于运维自动化系统的技术特点, 以促进敏捷运维的要求,我行将自动化 技术广泛运用于数据中心的各类运维场 景。 3.1 运维过程自动化 运维自动化系统目前实现了健康 巡检自动化、安装部署自动化、合规检 查自动化、配置收集自动化、应用发布 自动化、自动化流程引擎、报表、管理 门户、用户、角色和权限管理、操作记 录和审计等功能性目标,还包括高可用 架构支持、系统架构支持、受管资源支 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 11 持及系统整合等非功能性目标,用于提 高整体运维水平和效率。 3.2 运维流程标准化 系统支持各类运维流程,如健康 巡检、合规检查、安装部署、配置收集 和故障处置,均根据实际运维需求对不 同操作系统、数据库、中间件、服务器 等基础软硬件资源进行操作,为了能够 满足组件标准化,访问接口标准化,运 维标准化和交付标准化的要求,通过分 布式部署的采集引擎,定时将所需要的 配置信息统一格式化后通过预封装的安 全通道推送给预定义的基于 POI 技术的 分析引擎,经过分析引擎中定义的主机 信息关联算法,将每台主机的相关硬件, 系统,软件等信息根据主机名和所属区 域主键进行关联后按照标准格式统一进 行存储;并且通过前台程序的再一次根 据业务流程模K 化封装将这些信息, 以提供前台操作以最大的灵活性,使得 日常运维操作日趋标准和便捷。 3.3 运维调度个性化 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 12 为了支持用户自定义运维操作, 适用于各类个性化运维场景,并形成知 识库在管理界面可供所有用户阅读与调 度。系统将用户在界面上预定义的命令 或脚本,通过解析引擎进行标准化封装, 产生基于 Unix 或者 Windows 平台的标 准化脚本,然后通过封装与安装在各纳 管机上代理程序的安全通道,将脚本通 过加密算法加密压缩,并发传送给需要 执行的被纳管机进行执行,然后通过分 布式部署在各个区域的卫星节点服务器, 统一收集相关结果信息或者文件,经过 分布式处理引擎,将数百乃至上千台纳 管机上运行的结果文件进行统一标准化 处理后存入数据库3。在前台,用户可 以通过页面展示,发送邮件或者导出文 件等多种方式来查询结果,这个功能基 于标准化,满足个性化,在运维需求多 样化的背景下,最大程度提高了运维效 率,提高了运维操作的便易性。 3.4 故障恢复快速化 运维自动化系统在集群中各节点 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 13 分布式部署高性能数据采集引擎,将系 统性能容量(CPU、内存、DISK、FS 空间)和日志数据、中间件性能容量 (应用吞吐率、执行线程使用率、 JDBC 使用率)和日志、线程 (threaddump) 、进程(lsof)和内存堆 栈(heapdump )等信息汇总归集在管理 节点上,将非结构、半结构的数据转换 为可视化图表和表格,在高性能搜索引 擎下,在海量数据中快速定位故障关键 信息,系统基于预先定义的故障处理规 则,主动判断匹配、协同故障场景配置 参数,选择对应的故障修复程序,以及 事后检查程序,调度执行,执行结果和 检查结果输出返回给监控报警系统关联 告警信息。采用微服务的方式提供定制 化的场景实现生产的故障快速诊断和恢 复功能,提高了生产系统应急响应能力。 4 系统效益

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论