系统日志数据采集_第1页
系统日志数据采集_第2页
系统日志数据采集_第3页
系统日志数据采集_第4页
系统日志数据采集_第5页
已阅读5页,还剩5页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

负责人:郑美容01目录系统日志数据采集系统日志数据采集1系统日志数据采集

Flume是由cloudera软件公司产出的可分布式日志收集系统,后与2009年被捐赠了apache软件基金会,为hadoop相关组件之一。尤其近几年随着Flume的不断被完善以及升级版本的逐一推出,特别是Flume-NG;同时flume内部的各种组件不断丰富,用户在开发的过程中使用的便利性得到很大的改善,现已成为apachetop项目之一。系统日志数据采集Flume概述:(1)Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。(2)Flume可以采集文件,socket数据包等各种形式源数据,又可以将采集到的数据输出到HDFS、hbase、hive、kafka等众多外部存储系统中。(3)一般的采集需求,通过对flume的简单配置即可实现。(4)Flume针对特殊场景也具备良好的自定义扩展能力,因此,flume可以适用于大部分的日常数据采集场景。系统日志数据采集Flume架构:Flume的核心就是一个Agent,每个FlumeAgent有三个组件:Source、Channel、Sink。系统日志数据采集(1)Flume分布式系统中最核心的角色是agent,Flume采集系统就是由一个个agent所连接起来形成(2)每一个agent相当于一个数据传递员,内部有三个组件:

Source:采集源,用于跟数据源对接,以获取数据

Channel:主要提供一个队列的功能,对source提供中的数据进行简单的缓存并传递到Sink中

Sink:下沉地,采集数据的传送目的,用于往下一级agent传递数据或者往最终存储系统传递数据。系统日志数据采集(1)Flume的核心组件Source的使用:

Flume提供了各种source的实现,包括AvroSource、ExceSource、SpoolingDirectorySource、NetCatSource、SyslogSource等对现有系统影响最小的是ExecSource和SpoolSource这两种方式:(1)ExecSource是以运行Linux命令的方式,持续的按照文件名输出最新的数据,如tail-F文件名指令(2)Spool

Source是监测配置的目录下新增的文件,并将文件中的数据读取出来系统日志数据采集(2)Flume的核心组件Sink的使用Flume也提供了各种sink的实现,包括HDFSsink、Loggersink、Avrosink、FileRollsink、Nullsink、HBasesink,etc等FlumeSink在设置存储数据时,可以向文件系统中,数据中库,hadoop中储数据。(3)Flume的核心组件Chanel的使用Flume对于Channel,则提供了MemoryChannel、JDBCChanel、FileChannel,etc等实现MemoryChannel可以实现高速的吞吐,但是无法保证数据的完整性,MemoryRecoverChannel在官方文档的建议上已经建义使用FileChannel来替换。FileChannel保证

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论