2023学年完整公开课版Impala架构_第1页
2023学年完整公开课版Impala架构_第2页
2023学年完整公开课版Impala架构_第3页
2023学年完整公开课版Impala架构_第4页
2023学年完整公开课版Impala架构_第5页
已阅读5页,还剩8页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Impala架构介绍Impala架构Impala架构优缺点01

Impala架构Impala架构Impala,是Cloudera在受到Google的Dremel启发下,开发的实时交互SQL大数据查询工具。它没有使用缓慢的Hive+MapReduce批处理,而是通过使用与商用并行关系数据库中,类似的分布式查询引擎,由:QueryPlanner、QueryCoordinator、QueryExecEngine三部分组成。直接从HDFS或HBase中,使用SELECT、JOIN和统计函数查询数据,大大降低了延迟。Impala架构DataNode运行在同一节点上,由Impalad进程表示。一个datanode对应一个impalad,它接收客户端的查询请求,通过JNI调用java前端解释SQL查询语句,生成查询计划树。通过调度器把执行计划分发给具有相应数据的其它Impalad进行执行),读写数据,并行执行查询;把结果通过网络流式的传送回给Coordinator,由Coordinator返回给客户端。Impalad也与State

Store保持连接,用于确定哪个Impalad是健康的,可以接受新的工作。在Impalad中启动三个ThriftServer:beeswax_server(连接客户端),hs2_server(借用Hive元数据),be_server(Impalad内部使用)和一个ImpalaServer服务。Impala由三个服务组成:impalad、statestored、catalogdImpaladImpala架构Impala由三个服务组成:impalad、statestored、catalogdImpaladStatestored跟踪集群中的Impalad的健康状态及位置信息,由statestored进程表示。它通过创建多个线程来处理Impalad的注册订阅和与各Impalad保持心跳连接,各Impalad都会缓存一份StateStore中的信息。当State

Store离线后,因为Impalad有StateStore的缓存仍然可以工作;但会因为有些Impalad失效了,而已缓存数据无法更新,导致把执行计划分配给了失效的Impalad,导致查询失败。Impala架构Impala由三个服务组成:impalad、statestored、catalogdImpaladStatestoredCatalogdCatalogd作为metadata访问网关,从HiveMetastore等外部catalog中获取元数据信息,放到impala自己的catalog结构中。impalad执行ddl命令时通过catalogd由其代为执行,该更新则由statestored广播。Impala通过词法分析生成执行计划,执行计划表现为一棵完整的执行计划树,可以更自然地分发执行计划到各个Impalad执行查询。Impala架构第一阶段对sql进行解析、分析、优化。包括RBO和CBO,统计信息目前只有表大小和列的NDV,无histogram。第二阶段生成分布式的执行计划,确定是否要加exchange节点(是否存在partitioned

join或hashaggregation),选择joinstrategy(partitionedjoinorbroadcast

join)等,最后以exchange为边界将计划分段(fragment),作为impala的基本运行单元。impala的前端负责将sql转化成执行计划(java),包含两个阶段:单节点计划生成、并行化和分段。02

优缺点优缺点优点支持SQL查询,快速查询大数据。可以对已有数据进行查询,减少数据的加载,转换。多种存储格式可以选择(Parquet,Text,Avro,RCFile,SequeenceFile)。可以与Hive配合使用。优缺点缺点不支持用户定义

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论