版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
Hadoop大数据技术——Kafka分布式集群搭建湖南软件职业技术大学
Kafka是由LinkedIn开发的一个分布式的消息系统,使用Scala语言编写,它以可水平扩展和高吞吐率的特点而被广泛使用。目前越来越多的开源分布式处理系统,如Spark、Flink都支持与Kafka集成。比如一个实时日志分析系统,Flume采集数据通过接口传输到Kafka集群(多台Kafka服务器组成的集群称为Kafka集群),然后Flink或者Spark直接调用接口从Kafka实时读取数据并进行统计分析。Kafka概述03010402支持KafkaServer间的消息分区,以及分布式消息消费,同时保证每个Partition内的消息顺序传输。支持离线数据处理和实时数据处理。保证高吞吐率,即使在非常廉价的商用机器上,也能做到单机支持每秒100,000条消息的传输速度。以时间复杂度为O(1)的方式提供消息持久化(Kafka)能力,即使对TB级以上数据也能保证常数时间的访问性能。持久化是将程序数据在持久状态和瞬时状态间转换的机制。通俗地讲,就是瞬时数据(比如内存中的数据是不能永久保存的)持久化为持久数据(比如持久化至磁盘中能够长久保存)。Kafka设计目标Kafka设计目标湖南软件职业技术大学Kafka特点高吞吐量、低延迟:Kafka
每秒可以处理几十万条消息,它的延迟最低只有几毫秒。可扩展性:Kafka集群同Hadoop集群一样,支持横向扩展。持久性、可靠性:Kafka消息可以被持久化到本地磁盘,并且支持Partition数据备份,防止数据丢失。容错性:允许Kafka集群中的节点失败,如果Partition(分区)副本数量为n,则最多允许n-1个节点失败。高并发:单节点支持上千个客户端同时读写,每秒钟有上百MB的吞吐量,基本上达到了网卡的极限。Kafka特点0102030405湖南软件职业技术大学Kafka构架设计湖南软件职业技术大学
一个典型的Kafka集群包括若干生产者(producer)、若干Kafka集群节点(Broker)、若干消费者(Consumer)以及一个Zookeeper集群。Kafka通过Zookeeper管理集群配置,选举leader并在消费者发生变化时进行负载均衡。生产者使用推(push)模式将消息发布到集群节点,而消费者使用拉(Pull)模式从集训节点中订阅并消费消息。Kafka的整体构架如图所示。Kafka构架设计湖南软件职业技术大学Topic和Partition
Kafka集群中的主题(Topic)和分区(Partition)示意结构如图所示。主题和分区的具体定义如下。
(1)主题是生产者发布到Kafka集群的每条信息所属的类别,即Kafka是面向主题,一个主题可以分布在多个节点上
(2)分区是Kafka集群横向扩展和一切并行化的基础,每个Topic可以被切分为一个或多个分区。一个分区对应一个集群节点,每个分区的内部消息是强有序的。
(3)Offset(偏移量)是消费者在分区中的编号,每个分区中的编号是独立。Kafka构架设计湖南软件职业技术大学
消费者和消费者组
消费者和消费者组的具体定义如下。(1)从Kafka集群中消费信息的终端或服务都数据消费者,消费者自己维护消费数据的offset,而offset保存在Zookeeper中(Kafka0.0版本以后,offset存储在Kafka集群中),这就保证了它的高可用。每个消费者都有自己对应的消费者组。(2)每个消费者都有与自己相对应的消费者组,同一个消费者组中,每个消费者消费不同的分区,消费者组之间相互不干扰,独立消费Kafka集群中的消息。
LeaderFollowerISR每个Replica集合中的分区都会选出一个唯一的Leader,所有的读写请求都由Leader处理,其他副本从Leader处把数据更新同步到本地。是副本中的另外一个角色,可以从Leader中复制数据Kafka集群通过数据冗余来实现容错。每个分区都会有一个Leader,以及零个或多个Follower,Leader加上Follower总和就是副本因子。Follower与Leader之间的数据同步是通过Follower主动拉取Leader上面的消息来实现的。所有的Follower不可能与Leader中的数据一直保持同步,那么与Leader数据保持同步的这些Follower称为ISR(InSyncReplica)。Zookeeper维护着每个分区的Leader信息和ISR信息。Replica是分区的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025广东惠州市博罗县产业投资集团有限公司下属子公司招聘5人备考题库附答案
- 2025年11月重庆市万州区孙家镇人民政府招聘非全日制公益性岗位2人(公共基础知识)综合能力测试题附答案
- 2025年河南通航机场管理有限公司社会招聘23人模拟试卷附答案
- 2025广东湛江市公安局麻章分局招聘警务辅助人员12人(第三次)参考题库附答案
- 2025安徽合肥市直机关遴选公务员100人备考题库附答案
- 2026宝鸡太白县总工会招聘社会化工作者(2人)笔试备考试题及答案解析
- 2026福建泉州市石狮市鸿山镇人民政府招聘编外人员4人笔试备考试题及答案解析
- 2026北京市育英学校科学城学校招聘笔试模拟试题及答案解析
- 2025秋人教版道德与法治八年级上册4.2遵守规则同步练习
- 2026湖北省面向北京化工大学普通选调生招录笔试模拟试题及答案解析
- 盖州市水务有限责任公司2025年工作总结暨2026年工作计划
- 幼儿园老师面试高分技巧
- 瓷砖工程验收课程
- 难治性癌痛护理
- 2026年管线钢市场调研报告
- 中医内科学考试题库及答案(二)
- 2025年江苏省公务员面试模拟题及答案
- 2025中国家庭品牌消费趋势报告-OTC药品篇-
- 广东省2025届湛江市高三下学期第一次模拟考试-政治试题(含答案)
- 天津市河东区2026届七年级数学第一学期期末复习检测试题含解析
- 水库清淤申请书
评论
0/150
提交评论