数据倾斜的原因_第1页
数据倾斜的原因_第2页
数据倾斜的原因_第3页
数据倾斜的原因_第4页
数据倾斜的原因_第5页
已阅读5页,还剩7页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据倾斜的原因2学习任务了解何为数据倾斜数据倾斜解决方案数据倾斜的原理3知识目标了解何为数据倾斜了解数据倾斜解决方案理解数据倾斜的原理01能力目标掌握数据倾斜解决方案02学习目标4目录01何为数据倾斜02数据倾斜的原理03数据倾斜解决方案5何为数据倾斜-Hadoop中的数据倾斜Hadoop中直接贴近用户使用使用的时Mapreduce程序和Hive程序,虽说Hive最后也是用MR来执行(至少目前Hive内存计算并不普及),但是毕竟写的内容逻辑区别很大,一个是程序,一个是Sql,因此这里稍作区分。Hadoop中的数据倾斜主要表现在ruduce阶段卡在99.99%,一直99.99%不能结束。

6何为数据倾斜-Hadoop中的数据倾斜

这里如果详细的看日志或者和监控界面的话会发现:

有一个多几个Reduce卡住各种container报错OOM读写的数据量极大,至少远远超过其它正常的Reduce

伴随着数据倾斜,会出现任务被kill等各种诡异的表现。经验:

Hive的数据倾斜,一般都发生在Sql中Group和On上,而且和数据逻辑绑定比较深7何为数据倾斜-Spark中的数据倾斜Spark中的数据倾斜也很常见,这里包括SparkStreaming和SparkSql,表现主要有下面几种:key分布不均匀Executorlost,OOM,Shuffle过程出错DriverOOM单个Executor执行时间特别久,整体任务卡在某个阶段不能结束正常运行的任务突然失败8数据倾斜的原因数据倾斜产生的原因我们以Spark和Hive的使用场景为例。他们在做数据运算的时候会设计到,countdistinct、groupby、join等操作,这些都会触发Shuffle动作,一旦触发,所有相同key的值就会拉到一个或几个节点上,就容易发生单点问题。万恶的Shuffle

Shuffle是一个能产生奇迹的地方,不管是在Spark还是Hadoop中,它们的作用都是至关重要的。那么在Shuffle如何产生了数据倾斜?9数据倾斜的原因10数据倾斜的解决方案增加jvm内存。增加reduce的个数。自定义分区。重新设计key。使用co

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论