CubePlanner优化背景知识_第1页
CubePlanner优化背景知识_第2页
CubePlanner优化背景知识_第3页
CubePlanner优化背景知识_第4页
CubePlanner优化背景知识_第5页
已阅读5页,还剩8页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

CubePlanner优化背景知识目录CONTENTS2背景知识1导语导语PART0101导语

CubePlanner机制通过计算不同Cuboid的构建成本和收益,并结合用户查询的统计数据挑选出更精简更高效的维度组合,从而减少构建Cube的时间和空间,提高查询效率。背景知识PART0202背景知识

ApacheKylin™(以下简称Kylin)是一个开源的分布式分析引擎,提供Hadoop之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据,能在亚秒级的时间内返回查询结果。Kylin的核心在于Cube的设计和构建,它把原始表中的数据按照用户选择的维度进行预处理,然后把结果(Cube)加载到存储引擎(默认HBase)里,供用户查询使用。数据分析师可以在WebUI中输入SQL,或者通过可视化分析工具选择任意的维度和指标来定制自己的分析报告。背景知识

Kylin会对每一种维度的组合进行预计算,每种维度组合的预计算结果被称为Cuboid,这些Cuboid组成了Cube。假设数据有10个维度,那么没有经过任何剪枝优化的Cube就会有

210=1024个Cuboid;如果有20个维度,那么Cube就会有超过一百万个Cuboid。背景知识

Kylin在2.3.0版本引入了CubePlanner,自动地对Cube的结构进行优化。如下图所示,在用户定义的AggregationGroup等手动优化基础上,CubePlanner自主挑选Cuboid,帮助用户构建一个更高效的Cube,实现对Cube的“二次瘦身”,最终减少预计算的工作量和存储所需空间。背景知识

剪枝的原则CubePlanner本质上就是从

2N

种维度组合中挑选出部分维度组合添加到进recommendCuboidList中以进行后续的构建。问题的关键在于剪枝的标准,对于某种可能的维度组合只有两种结果:被预计算和不被预计算,这取决于加入这个Cuboid产生的收益除以成本(效益比)。背景知识

Cuboid的成本构建成本:取决于该维度组合的数据行数。查询成本:取决于查询该Cuboid所需要扫描的行数。由于往往构建是一次性的,而查询是重复性的,因此我们忽略构建成本,只使用查询成本来计算。背景知识

Cuboid的效益即预计算出这个Cuboid,相比没有这

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论