2023学年完整公开课版sparksql性能调优_第1页
2023学年完整公开课版sparksql性能调优_第2页
2023学年完整公开课版sparksql性能调优_第3页
2023学年完整公开课版sparksql性能调优_第4页
2023学年完整公开课版sparksql性能调优_第5页
已阅读5页,还剩5页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

SparkSQL性能调优2知识目标SparkSQL性能调优的方法01能力目标掌握SparkSQL性能调优的方式02学习目标3目录01在内存中缓存数据02性能优化相关参数06040503广播分区数据的调控文件与分区文件格式在内存中缓存数据4版本缓存释放缓存spark2.+spark.catalog.cacheTable("tableName")缓存表spark.catalog.uncacheTable("tableName")解除缓存spark1.+sqlContext.cacheTable("tableName")缓存sqlContext.uncacheTable("tableName")解除缓存性能调优主要是将数据放入内存中操作,spark缓存注册表的方法性能优化相关参数5Sparksql仅仅会缓存必要的列,并且自动调整压缩算法来减少内存和GC压力。属性默认值描述spark.sql.inMemoryColumnarSpressedtrueSparkSQL将会基于统计信息自动地为每一列选择一种压缩编码方式。spark.sql.inMemoryColumnarStorage.batchSize10000缓存批处理大小。缓存数据时,较大的批处理大小可以提高内存利用率和压缩率,但同时也会带来OOM(OutOfMemory)的风险。spark.sql.files.maxPartitionBytes128MB读取文件时单个分区可容纳的最大字节数(不过不推荐手动修改,可能在后续版本自动的自适应修改)spark.sql.files.openCostInBytes4M打开文件的估算成本,按照同一时间能够扫描的字节数来测量。当往一个分区写入多个文件的时候会使用。高估更好,这样的话小文件分区将比大文件分区更快(先被调度)。广播6在进行表join的时候,将小表广播可以提高性能,spark2.+中可以调整以下参数。属性默认值描述spark.sql.broadcastTimeout300广播等待超时时间,单位秒spark.sql.autoBroadcastJoinThreshold10M用于配置一个表在执行join操作时能够广播给所有worker节点的最大字节大小。通过将这个值设置为-1可以禁用广播。注意,当前数据统计仅支持已经运行了ANALYZETABLE<tableName>COMPUTESTATISTICSnoscan命令的HiveMetastore表。分区数据的调控7spark任务并行度的设置中,spark有两个参数可以设置。属性默认值描述spark.sql.shuffle.partitions200用于配置join或aggregate混洗(shuffle)数据时使用的分区数。spark.default.parallelism对于分布式shuffle操作像reduceByKey和join,父RDD中分区的最大数目。对于无父RDD的并行化等操作,它取决于群集管理器:-本地模式:本地计算机上的核心数-Mesosfinegrainedmode:8-其他:所有执行节点上的核心总数或2,以较大者为准分布式shuffle操作的分区数文件与分区8这个总共有两个参数可以调整:读取文件的时候一个分区接受多少数据;文件打开的开销,通俗理解就是小文件合并的阈值。文件打开是有开销的,开销的衡量,Spark采用了一个比较好的方式就是打开文件的开销用,相同时间能扫描的数据的字节数来衡量。参数介绍如下:属性默认值描述spark.sql.files.maxPartitionBytes134217728(128MB)打包传入一个分区的最大字节,在读取文件的时候spark.sql.files.openCostInBytes4194304(4MB)用相同时间内可以扫描的数据的大小来衡量打开一个文件的开销。当将多个文件写入同一个分区的时候该参数有用。该

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论