2022年IT自动化运维平台建设解决方案_第1页
2022年IT自动化运维平台建设解决方案_第2页
2022年IT自动化运维平台建设解决方案_第3页
2022年IT自动化运维平台建设解决方案_第4页
2022年IT自动化运维平台建设解决方案_第5页
已阅读5页,还剩26页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、IT自动化运维平台建设解决方案目 录CONTENTS2平台解决方案1运维现状及分析3应用场景分析4资源需求人工运维自动化运维智能化运维AIOps运维工作主要由人工完成,运维人员负责机房、服务器选型、软硬件初始化,服务上下线,配置监控,盯监控等,基本上是遇到什么问题解决什么问题。自动化运维就是把周期性、重复性、规律性的工作都交给工具去做,具体来说有应用系统维护自动化,巡检自动化和故障处理自动化这三个方面;自动化运维依赖于管理平台,最可终达到提升运维效率的目的。AIOps利用大数据和机器学习技术,实现海量数据的异常检测和多维度关联分析,它将增强或部分取代 ITOM 领域的三个重要能力,即监测,服务

2、管理和自动化;进一步帮助 运维人员准确甄别系统异常,快速定位故障根因,并对潜在系统风险进行预警,以实现 IT 和业务的持续洞察和改进。当前IT运维的整体发展趋势是向自动化迭代,并向智能化演化;目前大部分组织的IT运维正处在从人工运维向自动化运维的发展阶段;有部分组织已经基本实现了自动化运维,正在向智能化运维升级,而也已有少量企业已经构建了初步的智能化运维体系。IT运维的总体发展趋势1Part运维现状及痛点2Part 承担了包括实体机、虚拟机、网络设备、数据库、中间件等1.5万台主机和数通设备的基础作业维护和应用故障维护工作。目前通过ZABBIX(监控)+业务网管系统(告警)实现监控收集、上报、

3、处理的闭环流程。具体流程如下:发生告警值维监控运维工程师研发工程师告警恢复zabbix采集到的信息生成告警,输出至业务网管通过电话、微信方式通知运维工程师处理运维工程师分析处理,或协调研发工程师处理运维过程缺乏回溯:缺乏对运维操作过程的管控。处理结果无痕迹,缺乏经验成果沉淀。日常运维缺乏自动化:缺乏自动周期性作业巡检任务及故障处理脚本,日常维护作业依靠每个运维工程师人为判断并执行脚本。规范性技术性问题分析及解决思路3Part123周期性任务执行结果无法监控周期性定时任务执行脚本和配置均由各运维工程师控制,执行结果无法监控,无系统化的统一管理配置告警处理过程缺少监控记录现阶段由运维工程师对告警信

4、息进行定位分析,根据故障分析结果进行处理。无系统化的根因和经验沉淀。若发生人员流动,告警无法处理无法进行平滑交接被动式的告警处理方式,非工作时间告警处理无法保证在第一时间被处理非工作时间告警处理传报响应慢构建自动化运维平台1.周期性任务统一管理:将周期性的日常任务执行和配置通过自动化运维平台来统一管理2.触发性任务实现自愈:结合故障场景梳理和告警逻辑关联,实现对故障的自动处理3.部分重要指标实现优化:针对部分故障没有发生,但是场景已经恶化的指标,自动进行优化处理。解决思路目 录CONTENTS1运维现状及分析2平台解决方案3应用场景分析4资源需求总体规划方案利用大数据与AI技术,构建智能化统一

5、运维平台,分阶段实现IT运维的自动化与智能化4Part统一智能化运维平台数据整合任务调度规则管理智能监控智能诊断自动运维大数据能力AI能力非结构化数据处理数据建模/标注机器/深度学习规则模型基于告警及任务指令基于技术与业务规则基于机器学习模型智能化运维自主化运维自动化运维一期二期远期根据故障告警及所配置的周期性任务等明确的指令自动执行运维工作基于趋势型等规则,根据指标数据自动发现故障并自动执行修复工作基于历史故障与日志等数据,通过自学习模型发现潜在问题与风险并自行处理业务网管日志平台Zabbix大数据平台机器学习平台基于历史重大事件的自动运维基于历史数据分析的主动运维基于趋势自动运维基于趋势扩

6、容缩容基于故障告警自动执行修复命令周期性任务脚本执行CMDB云管平台工单系统总体规划架构5Part数据整合数据采集数据抓取数据导入数据过滤数据清洗数据标注CMDB日志平台云管平台大数据平台机器学习平台对接系统告警数据指标提取数据导入能力对接基础能力任务调度消息管理规则管理趋势识别模型事件识别模型机器学习模型业务能力中心监控管理中心监控对象管理监控指标管理监控任务管理监控告警管理运维作业中心资源管理参数管理脚本管理工单管理任务调度中心任务创建管理任务调度管理任务执行监控任务执行报告智能诊断中心风险类别管理趋势识别诊断事件识别诊断机器模型诊断规则管理中心技术规则管理业务规则管理规则作业管理规则模型

7、管理运维分析中心告警故障统计运维作业分析故障风险报告系统优化建议前端应用自动化运维门户运维管理门户企业微信大屏监控一线运维值班主管运维工程师运维主管主管领导一阶段二阶段三阶段总体应用蓝图6Part统一智能化运维平台IT互联网大数据云计算智能运维监控创建运维任务自动运维作业数据各项整合深度分析&模型学习发现故障/风险自主运维作业风险综合评估系统优化建议智能风险识别数据整合任务调度运维作业规则配置模型识别智能诊断识别、预测标准数据任务调度跟踪评估机器学习数据导入指标载入维护工程师值班主管一线运维运维主管生成报告日志平台工单系统Zabbix Server大数据平台机器学习平台业务网管CMDB云管平台

8、全面提升IT运维效率,降低成本保障业务连续性降低技术性风险落地智能化应用推动智能化升级全面精准风险评估推进系统架构优化自动化运维平台Zabbix Server值维监控运维工程师运维管理职能管理管理监督应用运维告警同步业务网管工单系统脚本下发执行命令创建工单工单状态同步告警管理服务脚本管理服务参数管理服务任务管理服务工单管理服务 平台建设目标:实现高效、安全、规范化的运维与管理,提高工作效率,降低人工成本规则引擎本期建设方案7Part告警管理服务同步业务网管告警信息脚本管理服务实现自动化脚本集中管理任务管理服务设置定时任务并自动化执行;责任人对任务执行结果进行确认。工单管理服务针对自动化任务需要

9、沉淀的故障生成工单参数管理服务实现系统接口、邮箱配置等管理服务流程引擎消息引擎系统管理本期功能架构8Part数据整合数据采集数据抓取数据导入业务网管Zabbix Server工单系统对接系统告警同步工单状态同步基础能力用户管理任务调度消息管理日志管理系统管理安全管理业务能力中心监控管理中心监控指标管理监控配置管理告警任务管理告警列表任务调度中心创建任务任务类型任务删除审批管理告警统计系统对接运维作业中心脚本导入脚本导出脚本新增脚本编辑脚本查询关联参数新建参数参数编辑参数删除导出数据工单生成工单查询任务克隆任务调度任务执行执行监控日志任务结果确认任务统计运维作业统计运维作业分析前端应用自动化运维

10、门户运维管理门户企业微信大屏监控一线运维值班主管运维工程师运维主管脚本下发执行命令创建工单数据采集整体流程9Part业务网管平台收集到告警信息后,将告警信息推送到自动化运维平台;自动化运维平台根据规则服务和调度配置,判断治愈方案;自动化运维平台调用zabbix server 发送执行指令,监控执行过程;对于需要生成故障工单的告警,自动推送至工单系统,工单系统处理完成后完成闭环处理结果。数据流程10Part反馈执行结果自动化运维平台发送指令业务网管产生告警信息发送告警业务网管工单系统Zabbix2找到指令未找到指令22需生成工单被监控对象发送执行指令13自动化运维平台4值维/运维工程师5结果确认

11、执行后的指标获取权限34角色分析11PartPC端企业微信管理/职能人员告警推送告警分析告警查询指令下发任务执行结果确认脚本配置新建任务脚本配置任务执行结果确认告警推送告警查询执行任务审批执行过程管控执行结果查看执行痕迹查看触发性任务周期性任务周期/触发性任务定时设置值维/运维工程师脚本管理方案12Part方案一方案二优点缺点优点缺点1、脚本固化,出错概率较低2、对zabbix agent账号所需权限较小,无需提前赋权1、灵活性低,修改一次需要再次全网服务器同步2、脚本配置变更由运维工程师控制,需单独赋权后作批量部署3、脚本存放在服务器端,有被篡改的风险1、脚本集中化管理可管可控2、灵活高效:

12、脚本需要调整时,编辑后即时生效3、风险高的脚本可先经管理人员审批后配置4、脚本执行过程详细记录,可追溯1、对zabbix agent账号所需较高的执行权限,需提前赋权Zabbix server发送指令的方式有两个方案:方案一:执行脚本提前预置在各服务器端侧,作业平台与zabbix server进行指令通讯方案二:执行脚本在自动化作业平台维护和配置,客户端通过接收zabbix server远程命令执行建议采用方案二:由自动化维护平台统一负责脚本管理,需要执行时远程命令的方式进行脚本执行。功能设计-任务管理13Part任务管理主要针对周期性任务,设置定时触发策略,并支持执行脚本的关联、执行任务的启

13、用/禁用、执行结果的确认等功能设计-告警管理14Part告警管理中的告警信息来源于业务网管平台,支持执行脚本的关联、执行任务的启用/禁用、执行结果的确认等。功能设计-脚本管理15Part脚本管理实现脚本的统一管理,周期性任务及触发性任务通过关联脚本并触发任务策略,实现脚本的自动化执行,脚本类型支持:shell、bat、Perl、Python、pawershell。功能设计-工单管理16Part当任务需要生成故障工单时,自动发送工单给工单系统,工单派发的同时,系统根据策略自动执行任务。功能设计-参数管理17Part参数管理主要指系统变量等全局性参数管理。企业微信能够快速收到任务的执行情况:任务开

14、始执行:运维人员通过企业微信能够及时获取所设置或所触发的任务开始执行的时间;执行结果确认:运维人员能够通过企业微信进行自动化执行结果的查看并确认。功能设计-企业微信端18Part目 录CONTENTS2平台解决方案1运维现状及分析3应用场景分析4资源需求周期型任务业务流程19PartZabbixServer自动化运维平台新建周期任务周期性脚本配置获取服务器配置信息脚本与执行用户关联定时任务设置任务与脚本关联发送执行脚本及执行周期任务执行结果确认接收指令执行过程监控并接收执行结果Zabbix客户端接收执行指令脚本执行运维工程师 主管/值维/运维工程师 周期型任务应用场景1-磁盘清理20Part1

15、.对服务器进行分批执行,可先10台服务器进行配置,待运行1个周期后获取执行结果2.对执行结果进行人工确认,无任何异常第二阶段逐步增加,后续分阶段扩展至全部服务器。场景描述日志、备份文件等根据业务需求超过保存周期,可通过脚本定时清理或迁移至目标服务器业务流程1.运维工程师梳理业务场景:各业务系统运维工程师梳理业务场景、执行脚本、执行周期、执行服务器、执行预期结果;2.云管平台提前配置服务器执行用户:需云管平台提前在各服务器配置agent执行用户并拥有执行权限;3. Zabbix Server 提供API接收指令及周期命令4.自动化运维平台提供API接收zabbix server定时任务执行的结果

16、反馈执行计划周期型任务应用场景2-时间同步21Part 1.对服务器进行分批执行,可先10台服务器进行配置,待运行1个周期后获取执行结果2.对执行结果进行人工确认,无任何异常第二阶段逐步增加,后续分阶段扩展至全部服务器。场景描述时间同步分为系统时间和硬件时间,时间准确性关系到话单及计费准确性。可通过脚本定时与时间服务器同步业务流程1.运维人员整理各服务器ntpd服务服务开启状态2.云管平台提前配置服务器执行用户:需云管平台提前在各服务器配置agent执行用户并拥有执行权限;3. Zabbix Server 提供API接收指令及周期命令4.自动化运维平台提供API接收zabbix server定

17、时任务执行的结果反馈执行计划治愈型任务业务流程22Part业务网管自动化运维平台ZabbixServer脚本选择获取服务器配置信息脚本与执行用户关联任务与脚本关联发送远程指令任务执行结果确认执行过程监控并接收执行结果告警接收规则判断治愈是返回业务网管否告警推送接收指令Zabbix客户端接收指令脚本执行生成告警工单系统主管/值维/运维工程师 生成工单治愈型任务应用场景1-微服务重启23Part业务描述Zabbix监控到微服务不能正常运行,自动化运营平台重启宕机的服务业务需求1.业务网管推送告警信息至作业平台:包含告警服务器ip、告警业务类型、告警联系人、联系方式、告警级别,针对每一个告警进行治愈

18、配置2.运维工程师提供各业务系统部署服务器、部署路径,启动脚本,日志存放位置3.自动化运维平台提供告警工单接收接口,业务网管告警信息推送4.云管平台提前配置服务器执行用户:需云管平台提前在各服务器配置agent执行用户并拥有执行权限;5.Zabbix Server API:zabbix提供接口拉取脚本及接收执行指令6.自动化运维平台提供API接收zabbix server定时任务执行的结果反馈执行计划1.治愈性告警第二阶段执行2.对服务器进行分批执行,可先10台服务器进行配置,待运行1个周期后获取执行结果3.对执行结果进行人工确认,无任何异常第二阶段逐步增加,后续分阶段扩展至全部服务器。治愈型任务应用场景2-主机进程重启24Part业务描述Zabbix监控到服务器某进程不能正常运行,自动化运营平台重启进程服务业务需求1.业务网管推送告警信息至作业平台:包含告警服务器ip、告警业务类型、告警进程名、告警联系人、联系方式、告警级别,针对每一个告警进行治愈配置2.运维工程师提供各服务器被监控程序服务名、安装路径,启动脚本,日志存放位置3.自动化运维平台

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论