




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
Hadoop技术原理FlumeFlume简介01Flume简介01对于海量实时产生的日志,我们看出它需要经过一个“桥梁”或中介,这就是这章要学的Flume(Flume翻译成中文是水槽)。Flume把采集后的实时日志保存到HDFS或HBase中,可以进行离线计算。比如,要统计出最近一周的用户异常的数据,按地区划分,展示到一张地图上。另一种方式,则是Flume可以把采集到的实时日志,发送给消息中间件,比如Kafka,然后送到实时计算引擎进行计算,实时分析出当前存在的异常情况Flume简介02Flume是一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统(Flume由Cloudera提供)Flume支持在日志系统中定制各类数据发送方,用于收集数据。Flume提供对数据进行简单处理,并写到各种数据接收方(可定制)的能力。Flume简介03Flume在Hadoop生态圈中的地位Flume架构04生活中的Flume(水槽)Flume架构05Flume的核心(Agent)Flume架构06Flume的核心(Agent)Source组件:从数据源接收数据(即采集数据);Channel组件:连接Source和Sink的管道,缓存数据。Sink组件:传递数据给目的地(即保存数据);Flume架构07Flume传递的数据:Event(事件)Event:Flume将数据表示为Event。Event是Flume的处理数据元,它可能是一条日志、一个Avro对象等,通常约4KB大小Flume安装与应用02Flume安装01Flume安装步骤下载安装包apache-flume-1.8.0-bin.tar.gz解压到指定目录下tar-zxvfapache-flume-1.8.0-bin.tar.gz-C/usr/local/src/修改环境变量,在~/.bashrc文件增加exportFLUME_HOME=/usr/local/src/flumeexportPATH=$FLUME_HOME/bin:$PATH执行source~/.bashrc,使配置生效。Flume应用02Flume组件类型Channel类型Channel类型描述MemoryChannelEvent数据存储在内存中JDBCChannelEvent数据存储在持久化存储中FileChannelEvent数据存储在磁盘文件中SpillableMemoryChannelEvent数据存储在内存中和磁盘上,当内存队列已满,将持久化到磁盘文件(不建议生产环境使用)PseudoTransactionChannel测试用途KafkaChannelEvent存储在KafkaCustomChannel自定义更多属性请参考官方文档Flume应用03Flume组件类型Source类型更多属性请参考官方文档Source类型描述AvroSource支持Avro协议,即AvroRPC,内置支持ThriftSource支持Thrift协议,内置支持ExecSource基于Unix的命令在标准输出上生产数据JMSSource从JMS(JavaMessageServer)系统中读取数据SpoolingDirectorySource监控指定目录内数据变化NetcatSource监控某个端口,将流经端口的文本行数据作为Event输入SequenceGeneratorSource序列生成器数据源,生产序列数据SyslogSource读取syslog数据,产生Event,支持UDP和TCP协议KafkaSource从kafkatopic中获取数据HTTPSource基于HTTPPOST或GET方式的数据源,支持JSON等格式LegacySource兼容FlumeOG中Source(0.9.x版本)Flume应用04Flume组件类型Sink类型更多属性请参考官方文档Sink类型描述HDFSSink数据写入HDFSHBaseSink数据写入HBaseHiveSink数据写入HiveLoggerSink数据写入日志文件AvroSink数据被转换成AvroEvent,然后发送到配置的RPC端口上ThriftSink数据被转换成ThriftEvent,然后发送到配置的RPC端口上IRCSink数据在IRC上进行回放FileRollSink数据存储到本地文件系统NullSink丢弃所有数据MorphineSolrSink数据发送到Solr搜索服务器(集群)ElasticSerachSink数据发送到ElasticSearch搜索服务器(集群)CustomSink自定义Flume配置方法05配置口诀:一个定义,三个配置注意:一个Source可以配置多个Channel,但一个Sink只能配置一个ChannelFlume配置方法06配置示例1监控指定目录,当目录有新增文件时,把文件中的内容一行行发送到控制台Flume配置方法07配置示例2监控指定目录,当目录有新的日志时,将它保存到HDFS中Flume工作方式08多agent流可以将多个Agent顺序连接起来,将最初的数据源经过收集,存储到最终的存储系统中。前面agent的sink、当前agent的source需要是avro类型sink指向source的主机名(或IP地址)和端口。Flume工作方式09多ag
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 江西省高安市高安二中学2025届初三下第二次检测试题化学试题含解析
- 九师联盟商开大联考2025年高三下期末质量检查语文试题文试题含解析
- 个人离婚合同协议书填写范例
- 工业厂房建筑工程施工合同
- 四川省绵阳市高中2025届高三模拟语文试题含解析
- 江苏省盐城市建湖县全县市级名校2024-2025学年初三4月中考模拟物理试题含解析
- 合作协议合同范本房地产开发
- 消费合同管理规范
- 讲师聘请合同模板
- 仓储操作劳动合同
- 《岩石学》课件第二章结构构造
- 国家基本药物培训培训课件
- 水生花卉资料课件
- 高中地理·第一节人类面临的主要环境问题幻灯片
- 拟经营的食品种类、存放地点
- 益生菌与健康课件
- 2022医学课件医院获得性肺炎(HAP)诊治指南最新综述(精)
- 如何提高小学数学课堂教学地有效性讲座
- 05 【人教版】七年级下期中数学试卷(含答案)
- GB_T 31148-2022木质平托盘 通用技术要求_(高清-最新版)
- 固体物理(黄昆)第一章
评论
0/150
提交评论