2023学年完整公开课版CubePlanner优化_第1页
2023学年完整公开课版CubePlanner优化_第2页
2023学年完整公开课版CubePlanner优化_第3页
2023学年完整公开课版CubePlanner优化_第4页
2023学年完整公开课版CubePlanner优化_第5页
已阅读5页,还剩6页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

CubePlanner优化目录CONTENTS2减枝的原则1背景介绍背景介绍PART0101背景介绍ApacheKylin™(以下简称Kylin)是一个开源的分布式分析引擎,最初由eBay于2014年贡献给Apache基金会。Kylin提供Hadoop之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据,能在亚秒级的时间内返回查询结果。1数据分析师可以在WebUI中输入SQL,或者通过可视化分析工具选择任意的维度和指标来定制自己的分析报告。3Kylin的核心在于Cube的设计和构建,它把原始表中的数据按照用户选择的维度进行预处理,然后把结果(Cube)加载到存储引擎(默认HBase)里,供用户查询使用。2背景介绍帮助用户构建一个更高效的Cube,实现对Cube的“二次瘦身”。最终减少预计算的工作量和存储所需空间。在用户定义的AggregationGroup等手动优化基础上,CubePlanner自主挑选Cuboid,Kylin在2.3.0版本引入了CubePlanner,自动地对Cube的结构进行优化。如下图所示背景介绍知识巩固我们知道,在没有采取任何优化措施的情况下,Kylin会对每一种维度的组合进行预计算,每种维度组合的预计算结果被称为Cuboid,这些Cuboid组成了Cube。如果有20个维度,那么Cube就会有超过一百万个Cuboid。假设数据有10个维度,那么没有经过任何剪枝优化的Cube就会有210=1024个Cuboid;减枝的原则PART0202减枝的原则0102贪心算法基因算法Cuboid的效益即预计算出这个Cuboid,相比没有这个Cuboid对整个Cube的所有查询所能减少的查询成本。通过贪心算法和基因算法,更直观地展示CubePlanner的选择过程。减枝的原则Cuboid的成本:由于往往构建是一次性的,而查询是重复性的,因此我们忽略构建成本,只使用查询成本来计算。构建成本:取决于该维度组合的数据行数。查询成本:取决于查询该Cuboid所需要扫描的行数。本质上就是从2^N种维度组合中挑选出部分维度组合添加到进recommendCuboidList中以进行后续的构建。问题的关键在于剪枝的标准,对于某种可能的维度组合只有两种结果:被预计算和不被预计算,这取决于加入这个Cuboid产生的收益除以成本(效益比)。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论