版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、.1IT系统统一监控预研报告目录 TOC o 1-3 h z u HYPERLINK l _Toc444465121IT系统统一监控预研报告 PAGEREF _Toc444465121 h 1HYPERLINK l _Toc4444651221引言 PAGEREF _Toc444465122 h 3HYPERLINK l _Toc4444651232平台建立的目标 PAGEREF _Toc444465123 h 3HYPERLINK l _Toc4444651242.1建立健全企业IT运行监测指标体系 PAGEREF _Toc444465124 h 3HYPERLINK l _Toc44446
2、51252.2完善公司业务监测指标体系,保障业务连续性 PAGEREF _Toc444465125 h 4HYPERLINK l _Toc4444651262.3管理业务系统容量 PAGEREF _Toc444465126 h 5HYPERLINK l _Toc4444651273平台架构 PAGEREF _Toc444465127 h 5HYPERLINK l _Toc44446512831平台技术架构 PAGEREF _Toc444465128 h 5HYPERLINK l _Toc444465129采集层 PAGEREF _Toc444465129 h 6HYPERLINK l _Toc
3、444465130处理层 PAGEREF _Toc444465130 h 6HYPERLINK l _Toc444465131展现层 PAGEREF _Toc444465131 h 6HYPERLINK l _Toc44446513232平台功能架构 PAGEREF _Toc444465132 h 7HYPERLINK l _Toc4444651334对新核心系统建立的要求 PAGEREF _Toc444465133 h 8HYPERLINK l _Toc44446513441规系统日志输出 PAGEREF _Toc444465134 h 8HYPERLINK l _Toc4444651354
4、3 提供效劳持续可用性监控方法 PAGEREF _Toc444465135 h 10HYPERLINK l _Toc4444651365结论 PAGEREF _Toc444465136 h 10引言随着信息系统规模持续扩大,业务应用的不断增加,效劳用户对象的日益增多,IT运维管理人员逐渐面临着三大难题:(1)设备和业务种类繁多,各类资料信息分散,导致位于一线的IT运维监控人员感知故障的速度晚于信息系统的使用用户,且故障发生后缺乏对信息系统的整体把控;而后台管理人员也往往因为信息系统性能数据和故障数据的匮乏而缺少对系统运行安康度的了解。(2)核心机房可能分布于多个地点,部署围广泛,设备繁杂,对于
5、大批最网络设备、主机效劳器、应用系统没有一个统一的监控平台,不能制定统一的故障预警管理策略,故障预警效率低,业务恢复时间慢;(3)对关键核心业务系统的运行安康程度缺乏评估手段和预警措施,只能被动等待问题发生,无法提前采取技术手段和管理手段躲避问题。在此背景下,总分公司一线运维人员数量多但是经历缺乏,后台运维工程师经历丰富但是数量少,这些矛盾促使我司在新系统建立时需同步建立一套一体化的IT运维监控和效劳预警平台,协助以自动化的手段完成信息系统的监测和维护。平台建立的目标建立健全企业IT运行监测指标体系首先,平台的主要目标是加大对公司部各遗留及专有监控系统的整合力度,提高IT运控中心对公司其他分支
6、机构IT系统管理、检测和把控能力,建立并完善IT系统监控、IT运行事件响应、IT系统故障处理、IT安康度报告、IT运行问题跟踪和反响机制,引人自动化IT运维管理工具,从而在公司部建立健全运行管理控制能力,实现IT安康度和业务连续性治理。在此根底上,进一步优化监控策略,实现对设备及效劳项全面、细粒度的监测,预警和管理,主要包含以下方面:1打造多平台环境下平安稳定髙效的检测代理及检测工具;2在实现对各类业务系统、硬件和网络设备、机房环境等实时检测的根底上,完善对新核心系统的全流程监控,根据性能数据进展预警,并将性能数据和故障数据引入事件管理平台进展后续治理,以可视化的方式向运维人员提供一览式的IT
7、效劳安康状况视图;3构建集成监控平台,对平台的检测插件、检测机制、预警算法、视图展现等监控资源进展统一管理,实现大屏集中式告警,便于后台管理人员直观地看到系统整体安康程度;通过视图的灵活组合可以快速定位故障点,结合知识库缩短处理时间。因此,IT运维自动化是一组将静态的设备构造转化为根据IT效劳需求动态弹性响应的策略,目的就是实现IT运维的质量,降低本钱。完善公司业务监测指标体系,保障业务连续性随着公司信息化的开展,IT技术已经从业务支持逐步走向与业务的融合,并成为公司稳健运营和开展的支柱。公司部很多业务流程都已经在IT部门的支持下实现了流程的再造和优化,提炼并制定了相应的流程图、流程文件及流程
8、运作机制。但是目前我们对于公司部业务风险的管控尚处在初步阶段。各类业务流程依然面临着来自部和外部的各种业务风险。例如部业务风险主要来自于员工和效劳商对信息系统的不当应用,如非授权操作或误操作;外部业务风险主要来自于外部的不平安事件,如黑客攻击、机房环境变化等。对应用系统进展业务监控,能够及时识别业务风险,有效进展相应的主动躲避操作,防止造成损失。管理业务系统容量通过业务监控平台可以密切监控业务系统性能,包括系统的业务处理量、处理性能、各资源使用状况等,通过对系统资源瓶颈的分析,可以降低或提高业务系统容量;平台架构1平台技术架构运维平台能够对各类计算机设备、网络设备、平安产品、应用系统等IT设备
9、运行状况和各种网上行为进展集中监控,对各类设备进展全面集中的统一管理,及时发现各类异常情况、快速定位各类事件故障并自动形成“工单、自动分派,再由调度系统进展分派,由系统按预定流程规则进展自动化处理或人工处理的运维业务信息管理系统。使运维工作由被动变主动,由手动处理变成自动处理,并大大降低了运维人员的工作强度,具备良好的延展性,如以下图所示:如上图所示,一体化运维监控平台的系统整体框架由下及上划分为3层数据采集息采集层、数据处理层(处理层和数据使用层(展现层)。此外,通过平台的管理控制台,在各个层面都能够对平台进展全方位的配置管理。采集层采集层主要负责采集信息系统的性能数据和故障数据,通过在信息
10、系统效劳器上部署Agent,或者通过SNMP协议采集等多种方式与外围系统对接,获取所述根底数据。采集层被动地接收平台效劳器发出的采集指令,执行相关的信息采集插件,将采集到的数据放人队列和数据库中,便于后续的分析和数据挖掘。处理层数据处理层根据不同监控对象的自身特点和运维管理需要,灵活定制相应的性能指标集,定义所述性能指标集中每个指标的监测围、数据来源, 计算方法、预警阈值、测量频度参数,通过实时和历史性能图表,进展监测、分析和确定系统性能瓶颈,假设超过预警阈值的状况,自动建立事件,并通知运维人员,由调度系统进展指派,由运维人员手动处理或按照流程规则由自动化运维工具处理。展现层展现层分信息系统全
11、局视图、系统安康度巡检报表、检测数据査询三个局部。全局视图可以展现实时监视告警情况,利用巡检报表,系统管理员可以分析系统性能状况,并记录进事件管理平台。上述综合展示通过业务视图、逻辑拓扑、重要设备、告警统计各个不同视图,将运维管理工作所关注的容有序、实时、全面地呈现出信息系统资源和业务系统的整体运行状况。32平台功能架构一体化IT运维监控模型基于松耦合体系架构,采取灵活模块化组装、云计算灵活部署构造,实现“监控、管理、管控三个方面协同处理过程,其功能架构如下:统一门户通过一次登录,即可对所有的平台功能进展操作,针对不同的登录用户,可以提供专门的个人桌面和辅助工具。监测台可以定义效劳视图,将性能
12、,流量,报表,拓扑等系统管理所关心的信息在不同样式的视图上集中表达出来。运行效劳平台以IT管理流程为核心,对运维的主要工作进展规化的管理,并实现设备维修、值班的管理。统一事件管理平台能够提供统一的企业级网络事件管理。通过从各种网络设备和管理平台收集网络事件信息,并进展必要的分析和自动化处理工作。集成数据网管系统,提供数据网管标准接口以供信息交互,完成事件的统一管理,使网络和系统中的各种资源得到更加高效的利用和综合管理。系统管理提供对效劳器、存储设备、操作系统、数据库、中间件、综合管理,实现系统故障告警管理、系统性能管理、拓扑与配置管理。接收来自防火墙、人侵检测、端口扫描等平安系统的告警,并将这
13、些告警实时呈现给信息网络平安部门,以采取进一步的响应动作,保障网络系统的正常运行,并对网络流量进展监听和分析。对新核心系统建立的要求41规系统日志输出目前核心业务系统的日志输出没有统一的规,有些日志采用log4j进展输出,有些直接在系统中采用System.out在nohup.out文件中进展输出,给运维监控分析排查问题带来较大的困难,建议在新系统的建立过程中,统一规日志的输出:规日志信息级别日志信息输出的优先级从高到低至少应分为五档,分别是Fatal、ERROR、WARN、INFO、DEBUG。这些级别用来指定这条日志信息的重要程度。在测试阶段可以翻开所有级别的日志,系统上线后只允许输出INF
14、O以上级别含INFO。各级别的日志信息作用如下:致命Fatal严重的错误,系统无常运行,如硬盘空间满等。这个级别很少被用,常暗含系统或者系统的组件迫近崩溃。错误Error系统可以继续运行,但最好要尽快修复的错误。这个级别用的较多,常常伴随Java异常,错误(Error)的环境不一定会造成系统的崩溃,系统可以继续效劳接下来的请求。警告Warn系统可以正常运行,但需要引起注意的警告信息。这个级别预示较小的问题,由系统外部的因素造成的,比方用户输入了不符合条件的参数。信息Info系统运行的主要关键时点的操作信息,一般用于记录业务日志。但同时,也应该有足够的信息以保证可以记录再现缺陷的路径。这个级别记
15、录了系统日常运转中有意义的事件。调试Debug系统运行中的调试信息,便于开发人员进展错误分析和修正,一般用于程序日志,关心程序操作(细粒度),不太关心业务操作(粗粒度)。系统出现问题时,必须抛出异常,在处理异常时记录日志,且日志级别必须是前三个级别FatalErrorWarning中的一种。日志中除包含错误信息外,还需包含如下信息:Web应用系统发生异常时,日志信息中需包含,系统操作用户的信息,发生异常时的业务数据、系统功能、程序代码信息及完整的SQL语句; 接口类效劳发生异常时,日志信息中需包含,接口调用的URL,调用端和被调用端的实地址,交互报文,报文的检查结果,接口响应时常;在日志中,记
16、录关键程序和数据库交易的处理时长,并根据事先预定的阈值,在日志中以醒目的方式完整的显示超过阈值的程序代码的方法名或SQL语句,以便运维监控人员分析,排查性能隐患。42 预留应用系统监控接口,便于监控系统采集相关指标在核心的建立过程中,需预留监控接口,应用监控系统通过调用核心系统的监控接口,来采集包括但不限于以下指标:从web页面对应用程序功能进展语义监控,比方“页面加载错误、“Error500、Error404;对用户质量的监控,页面加载时常;对程序主逻辑进展监控,判断主逻辑是否正常;如果主逻辑正常,则对程序自身占用资源的合理性、程序的性能、和程序的分支功能进展判断;另外对程序占用的资源情况进
17、展监控:CPU资源的占用,存资源的占用,文件句柄的使用情况,网络句柄的使用情况,文件状态的进程数;效劳的监控指标,数据加载的情况,模块的处理能力平均耗时,队列长度,线程池的使用率,模块间通讯的状态(平均连接时间,读、写错误数),模块运行时间;系统用户的操作习惯,完成功能模块操作的时长;43提供效劳持续可用性监控方法效劳化是应用系统开展的方向,但效劳的监控及问题的排查,一直困扰运维人员,尤其是多层效劳之间调用问题的排查是相当困难的例如:效劳调用 A-B-C-D,最终结果依次返回 D-C-B-A,中间任何环节出现问题,结果都返回不到A。建议在新系统的建立过程中考虑提供效劳的自测工具和监控方法,效劳的自测工具以便让运维人
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年旅游公司浮动抵押合同
- 个人住宅租借押金及季度租金合同样本(2024版)一
- 二零二五年度专业印刷品设计、印刷与打印服务合同3篇
- 事业单位基本建设粉刷工程分包合同2024版B版
- 2025年度烘焙连锁面包砖供应链合作协议4篇
- 二零二五年度干股虚拟股分红激励方案合同范本
- 2025年度玩具货物运输委托服务协议
- 二零二五年度物业小区个人承包社区物业服务综合解决方案协议
- 2025年度家用空调拆装安全操作规范及应急处理合同
- 二零二五年度家政服务公司保姆雇佣协议
- 海外资管机构赴上海投资指南(2024版)
- 山东省青岛市2023-2024学年七年级上学期期末考试数学试题(含答案)
- 墓地销售计划及方案设计书
- 从偏差行为到卓越一生3.0版
- 优佳学案七年级上册历史
- 铝箔行业海外分析
- 纪委办案安全培训课件
- 超市连锁行业招商策划
- 城市道路智慧路灯项目 投标方案(技术标)
- 【公司利润质量研究国内外文献综述3400字】
- 工行全国地区码
评论
0/150
提交评论