下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、 监控及报警模型的设计与实现 摘要:文章简述了监控的概念,介绍现阶段国内外实现监控的方式方法,根据上海财经大学实际情况选择使用开源工具建立监控系统,详细阐述了多维度监控和报警体系的模型设计并基于开源分布式软件zabbix实现了该模型,通过对各层次数据的展示和报警设置,快速直观的发现和定位故障、反应业务的容量和性能,对各维度、各层次数据的量化,展现业务运行的状态。关键词:自动化,监控平台,监控系统,配置管理数据库随着高校信息化的不断发展,数字校园和智慧校园的深入建设,如何保障业务的连续性,如何实时的自动监控各个业务系统的健康状况,建立多维度的监
2、控和报警模型,以及分析和预测未来可能出现的故障,是需要考虑和解决的重要课题。主动监控模式已经成为重要的监控手段。第一时间发现、定位并记录异常,从外部到内部、从业务到基础环境、从功能到性能等各个方面对业务数据进行采集、展现和报警体系的建设,对提高服务的可靠性和可用性是非常关键的。一个良好、全面、完善的业务健康多维度监控体系,能够帮助准确、及时、完善地了解业务各个层面的生存情况,并最终实现对业务的量化管理。1 一、国内外研究现状国内外有很多优秀的开源监控工具。 cacti、nagios、zabbix主要侧重于系统层、网络层的监控。在应用方面,nagios是应用比较广泛的监控工具,例如facebo0
3、k、新浪、搜狐、网易、阿里巴巴等国内外的大型企业都在使用nagios和cacti这套监控平台。著名互联网视频提供商pptv部署了全世界最大的zabbix集群,监控项多达一百万以上,报警点也超过三十万个。 实现监控主要有两个途径,分别是自建监控系统和采用第三方开源解决方案来实现。自建监控系统,是针对现在业务特性,定制和实现业务监控模型,进而达到监控业务各组成部分的健康,大的互联网公司一般会选择自建监控系统,成立一个专职团队将监控、报警及事件、故障结合起来,产生一整套行之有效的电子流,将故障事前、事中、事后的处理流程化、生产线化。开发一个agent在服务器上运行,agent会上报所需要的所有监控任
4、务的数据到服务端入库,再做数据前台的展现。第三方监控解决方案,主要包括开源及第三方监控运营商,第三方监控比较擅长某个领域,如networkbench、gomez是基于用户端监控的收费监控厂商,在个人电脑和手机端安装监控软件,并上报监控数据,能够比较真实反馈用户体验数据。2 高校技术研发人员较少,独立研发监控系统不现实,基于优秀的开源工具二次开发来实现监控系统是较好的方案。 二、监控模型设计监控的核心作用是对业务具有诊断能力,通过掌握生产环境下的多个维度数据,按照一定的监控模型,对影响运营质量的诸多要素和运营过程的各个环节进行监控、采集、建模、展现,通过监控来量化系统运营状况和确保最佳用户体验。
5、1 多维度监控模型可分为服务器维度、存储维度、网络设备维度、网络质量维度、业务维度、数据库维度、中间件维度等,如表1所示。 通过多维度的监控模型对现有的业务环节下的各个关键指标进行实时的有效监控和数据展示,有助于把握和掌控核心业务运行的现状,真正做到监控无死点。 三、报警模型设计1.报警方式 报警是发生异常时,快速定位和快速修复问题,挽回损失和用户体验的方式。 报警根据各维度实时监控反馈信息判断是否超过预设的阈值,如果是,则按预定的步骤(流程)进行报警或自动修复等操作。监控到的事件会导致或可能导致生产环境服务中断或服务质量下降的故障,事件发生后,需要通过报警去触发人为介入,之后断
6、定是否为故障及故障影响等,进而通过故障管理进行永久规避。 出了故障可以立即知道,以便即时处理,预见故障,防患于未然,如何最快、有效的将报警信息传递给接收人跟报警途径有关,通常会有表2的几种途径。 2.报警模型 报警模型的建立关系到报警质量和价值,报警模型可以理解为具有一定规则的预处理程序,这个规则可以是一个阀值,也可以是多维组合条件,针对规则进行后续的处理,比如报警或自动触发自动修复、过载保护等。通常报警模型分为通用型和业务型两大类: 通用型主要是系统运行指标,硬件可用性,网络状态,缓存、数据库通用应用运行状态等,此类报警模型对研发透明,主要由运维主导和负责。 业务型主要是指非常
7、规的应用模块,一个学校有多个产品线,每个产品线有多个服务,每个服务又分多个服务模块单元,每一个模块又有多个特性,此类报警模型根据用途又可分为自定义报警模型、服务报警模型、集群报警模型。针对一个产品线需要建立一系列的通用型、业务型监测与报警,当发生故障时才能实现及时人工处理和自动处理、自动恢复。报警模型如表3所示。 3.报警收敛 报警收敛可以提高报警质量、报警响应质量、报警自动处理和自动恢复质量。报警收敛是通过一定规则减少数量,减少干扰,提高单条报警价值,主要有以下两类: (1)按频率收敛,根据频率和次数设计报警模型,例如按不同重要级别的产品线进行细分,重要的产品高频率多次报警,次
8、要的低频率少报警,并根据报警次数进行合并,只展现不发送。 (2)按对象收敛,根据监控模型、ip、服务器负责人等对象进行横向、纵向的报警收敛,一定时段同一类报警进行合并报警、合并展现,例如机房数百台服务器因网络闪断触发报警,每一个报警接收人应该只接收到几条报警,而不是各报警模型触发数百条报警。 四、应用效果基于开源分布式软件zabbix实现多维度监控平台的搭建和实施,完成对多维度监控模型中的服务器、存储、网络设备、网络质量、业务系统等全方位多维度的监控,能够及时发现故障并发出警告,警告方式通过邮件和短信方式发出。整体的效果如图1所示。 五、结束语基于分布式zabbix系统建立的自动
9、化监控平台,集成自动化运维工具(puppet)和配置管理数据库(cmdb),完成了自动化监控的目标,实现了对我校服务器集群、虚拟化集群、web应用集群、f5负载均衡设备、一卡通设备、oracle/mysql数据库集群的实时监控。不仅有助于掌握系统整体运行情况,而且能够及时发现故障信息,很大程度上提高了信息化办公室的整体服务质量,保障业务持续性。随着学校信息化的持续不断发展,自动化监控系统还将不断的完善,发挥更大的作用。 未来自动化监控平台还有很多工作要做。如何提高监控的有效性,提高监控的准确性,减少误报率,如何多方面多角度的监控,形成立体的监控体系,还有待进一步的研究和探索。 参考文献: 1李
10、艳霞,刘乃嘉,王鑫.高校信息系统自动监控报警平台的研发与应用j.实验技术与管理,2011,28(3):101103. 2周伟强,陈灿华,李淑娟.基于cacti和nagios的校园一卡通监控系统研究j.实验技术与管理,2011,28(4):246249. 3陈琳,王彬.开源系统自动监控大量虚拟主机j.中国教育网络,2011(8). 4张晖,周利霞,姚会琴等.nagios监控系统在天津地震应急系统中的综合应用j.震灾防御技术istic,2012,7(3). 5杨磊.基于linux系统的监控工具与其自动化测试的设计与实现d.电子科技大学,2012. 6葛君伟,张博,方义秋.云计算环境下的资源监测模型
11、研究j.计算机工程,2011,37(11). 7崔振裕.基于开源软件校园网监测系统的研究与实现d.石家庄:河北师范大学,2012. 8薛冰,何燚.linux系统异常监控模型研究j. computer engineering,2012,38(5). 9陈大伟,章洋,彭泳.配置管理系统在服务生成平台中的应用研究db/ol. http:/ 1001ups,rihards. zabbix 1.8 network monitoring. packt pub1ishing ltd,2010. 11andreo1ini m, co1ajanni m,pietri m. a scalable architecture for realtime monitoring of large information systemsc/network c1oud computing a
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 幼儿篮球小班课程设计
- 国画山水书签课程设计
- 托班汽车音乐课程设计
- 印刷包装技术课程设计
- 学籍管理课课程设计
- 园林 课程设计个人小结
- 航空货物运输合同
- 在线视频会议技术服务合同
- IP保护及维权服务合同
- 汽车配件生产制造合同书
- 2024年山东省菏泽市中考历史试卷
- 说明文方法和作用说明文语言准确性中国石拱桥公开课获奖课件省赛课一等奖课件
- 中南运控课设-四辊可逆冷轧机的卷取机直流调速系统设计
- 江苏省苏州市2023-2024学年高二上学期1月期末物理试卷(解析版)
- 酒店建设投标书
- 《基于javaweb的网上书店系统设计与实现》
- 2024年315消费者权益保护知识竞赛题库及答案(完整版)
- 《皇帝的新装》课件
- 国家开放大学电大《基础写作》期末题库及答案
- 劳动教育五年级上册北师大版 衣服破了我会补(教案)
- DB3502∕T 139-2024“无陪护”医院服务规范通 用要求
评论
0/150
提交评论