Cube优化的几个重要概念_第1页
Cube优化的几个重要概念_第2页
Cube优化的几个重要概念_第3页
Cube优化的几个重要概念_第4页
Cube优化的几个重要概念_第5页
已阅读5页,还剩9页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Cube优化的几个重要概念目录CONTENTS2维度诅咒1导语3维度检查工具4膨胀率5空间与时间的平衡导语PART0101导语

把cuboid看做一棵树,参考下图:

构建出体积更小、查询速度更快的cube,cube优化分为空间优化和查询时间优化。维度诅咒PART0202维度诅咒

假设有4个维度,需要有2的4次方=16个cuboid需要计算,为什么?如何让cuboid既能满足查询需求,又能最小和最少就是剪枝优化。维度检查工具PART0303维度检查工具

同一个cube的不同segment之间仅仅是输入数据不通,模型信息和优化策略都是共享的,所以不同的segment中哪些cuboid被物化,哪些没有被物化都是一样的。kylin.shmon.CubeStatsReadercubenamekylin.sh

mon.CubeStatsReader

kylin_sales_cube可以查看cube的树形结构及行数、大小及shrink的评估值。膨胀率PART0404膨胀率

cbuoid的膨胀率应该在0%-1000%之间,如果超过1000%,需要仔细追查,原因有:1)cube中维度数据量较多,并且没有很好的cuboid优化,导致cuboid数量多。2)cube中存在较高基数的维度,导致包含这类维度的每个cuboid占用的空间很大,这些cuboid累积造成整体cuboid体积变大。3)存在比较占用空间的度量,如:countdistinct。可能导致每行数据有数十kb。cuboid的shrink(收缩率)达到100%,这样的cuboid可以被删除,通过使用不精确匹配来进行查询。空间与时间的平衡PART0505空间与时间的平衡

所有能使用cuboid的查询请求都能使用basecuboid处理,每个cuboid都代表一种查询样式。不精确匹配cuboid比精确匹配cuboid,需要使用更多的聚合运算。shrink100%的cuboid被牺牲了,只要它的父cuboid被物化,使用它的父cuboid开销就没有

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论