版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据倾斜的原因2学习任务了解何为数据倾斜数据倾斜解决方案数据倾斜的原理3知识目标了解何为数据倾斜了解数据倾斜解决方案理解数据倾斜的原理01能力目标掌握数据倾斜解决方案02学习目标4目录01何为数据倾斜02数据倾斜的原理03数据倾斜解决方案5何为数据倾斜-Hadoop中的数据倾斜Hadoop中直接贴近用户使用使用的时Mapreduce程序和Hive程序,虽说Hive最后也是用MR来执行(至少目前Hive内存计算并不普及),但是毕竟写的内容逻辑区别很大,一个是程序,一个是Sql,因此这里稍作区分。Hadoop中的数据倾斜主要表现在ruduce阶段卡在99.99%,一直99.99%不能结束。
6何为数据倾斜-Hadoop中的数据倾斜
这里如果详细的看日志或者和监控界面的话会发现:
有一个多几个Reduce卡住各种container报错OOM读写的数据量极大,至少远远超过其它正常的Reduce
伴随着数据倾斜,会出现任务被kill等各种诡异的表现。经验:
Hive的数据倾斜,一般都发生在Sql中Group和On上,而且和数据逻辑绑定比较深7何为数据倾斜-Spark中的数据倾斜Spark中的数据倾斜也很常见,这里包括SparkStreaming和SparkSql,表现主要有下面几种:key分布不均匀Executorlost,OOM,Shuffle过程出错DriverOOM单个Executor执行时间特别久,整体任务卡在某个阶段不能结束正常运行的任务突然失败8数据倾斜的原因数据倾斜产生的原因我们以Spark和Hive的使用场景为例。他们在做数据运算的时候会设计到,countdistinct、groupby、join等操作,这些都会触发Shuffle动作,一旦触发,所有相同key的值就会拉到一个或几个节点上,就容易发生单点问题。万恶的Shuffle
Shuffle是一个能产生奇迹的地方,不管是在Spark还是Hadoop中,它们的作用都是至关重要的。那么在Shuffle如何产生了数据倾斜?9数据倾斜的原因10数据倾斜的解决方案增加jvm内存。增加reduce的个数。自定义分区。重新设计key。使用co
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 系统抗干扰与稳定性分析-洞察分析
- 2024年度洗涤企业节能减排技术改造承包合同范本2篇
- 新护士护理质量管理
- 语义对齐技术探讨-洞察分析
- 采购合同的税收筹划3篇
- 采购员安全责任说明3篇
- 弦论中的拓扑相变-洞察分析
- 采购文件样本速成3篇
- 四年级数学(四则混合运算)计算题专项练习与答案
- 五年级数学(小数四则混合运算)计算题专项练习及答案
- ERAS在胃肠外科围手术期中的应用和进展陈开波
- 医疗预防保健机构聘用证明
- 三亮三创三比三评会议记录
- 盾构始发施工技术要点PPT(44页)
- 甲烷(沼气)的理化性质及危险特性表
- 促销费用管理办法15
- 剑桥英语 中级班 听力脚本剑桥二
- 职工配偶未就业承诺书
- 质量认证基础知识(共218页).ppt
- GB 13296-2013 锅炉、热交换器用不锈钢无缝钢管(高清版)
- 斜皮带机皮带跑偏调整方法ppt课件
评论
0/150
提交评论