流式计算应用5_第1页
流式计算应用5_第2页
流式计算应用5_第3页
流式计算应用5_第4页
流式计算应用5_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

计算应用学习流式01Flink简介03Flink组件目录02Flink系统架构Flink简介1Flink简介

ApacheFlink诞生于柏林工业大学的一个研究性项目。2014年,孵化出Flink,并于同年捐赠Apache,之后成为Apache的顶级项目。2019年1年,阿里巴巴收购了Flink的母公司DataArtisans,并宣布开源内部的Blink,Blink是阿里巴巴基于Flink优化后的版本,增加了大量的新功能,并在性能和稳定性上进行了各种优化,经历过阿里内部多种复杂业务的挑战和检验。同时阿里巴巴也表示会逐步将这些新功能和特性Merge回社区版本的Flink中,因此Flink成为目前最为火热的大数据处理框架。简单来说,Flink是一个分布式的流处理框架,它能够对有界和无界的数据流进行高效的处理。Flink的核心是流处理,当然它也能支持批处理,Flink将批处理看成是流处理的一种特殊情况,即数据流是有明确界限的。这和SparkStreaming的思想是完全相反的,SparkStreaming的核心是批处理,它将流处理看成是批处理的一种特殊情况,即把数据流进行极小粒度的拆分,拆分为多个微批处理。Flink系统架构2Flink系统架构

Flink是一个分布式系统,用于有状态的并行数据流处理。也就是说,Flink会分布式地运行在多个机器上。在分布式系统中,常见的挑战有:如何对集群中的资源进行分配与管理、协调进程、数据存储的高可用、以及异常恢复。

Flink自身并未实现这些功能,而仅关注在它自身的核心功能

-

分布式数据流处理。对于分布式集群的管理,由运行在它之下的集群完成,并提供基础设施与服务。Flink与常见集群资源管理器契合度良好,例如ApacheMesos,YARN,以及Kubernetes。当然它也可以配置为stand-alone集群。Flink并不提供可靠的分布式存储。它直接使用其他分布式文件系统如HDFS、S3等。对于在HA设置下的leader选举,它依赖于ZooKeeper。

Flink组件3Flink组件

在Flink中有四个不同的组件,它们共同协作运行流程序。这些组件为:一个JobManager,一个ResourceManager,一个TaskManager,以及一个Dispatcher。Flink是由Java和Scala实现,所以这些组件全部运行在JVM中。JobManager:主(master)进程,用于管理单个application的执行

ResourceManager:Flink

可以整合多个ResourceManager,例如YARN,Mesos,Kubernetes以及standalone

部署TaskManagers:是Flink的worker

进程。一般来说,会有多个TaskManagers运行在一个配置好的Flink

集群中。每个TaskManager提供了具体数量的

slotsDispatcher:负责接收

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论