Kylin增量构建 公开课比赛一等奖_第1页
Kylin增量构建 公开课比赛一等奖_第2页
Kylin增量构建 公开课比赛一等奖_第3页
Kylin增量构建 公开课比赛一等奖_第4页
Kylin增量构建 公开课比赛一等奖_第5页
已阅读5页,还剩7页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Kylin增量构建目录CONTENTS2构建设置-Model1导语3构建设置-Cube层面导语PART0101导语

前提条件:

事实表中必须有一个时间类型的字段。这个时间字段最好是Hive表的分区字段。构建设置-Model层面的设置PART0202构建设置-Model层面的设置

设置分区字段PartitionDateColumn:分区时间字段只能来源于事实表,并且是时间类型。设置分区字段时间格式DateFormat:按照分区字段的时间格式来选择。构建设置-Cube层面的设置PART0303构建设置-Cube层面的设置

Cube每次增量构建都会生成一个Segment,随着时间的推移,当前Cube会存在大量的Segment,这时候会产生以下两个问题:1、执行查询时查询引擎要聚合多个Segment的结果才能返回正确的查询结果,聚合的Segment越多,查询的性能越差。2、每个Segment都对应Hbase的一张表,过多的Segment会在底层的存储系统产生大量的文件,会给存储系统HDFSNameNode带来压力。构建设置-Cube层面的设置

我们要在Cube层面进行以下设置来让Kylin按照一定的规则自动合并Segment:设置之前先了解Segment的两个特性:①Segment都有两个属性,分别为开始时间StartDate和结束时间EndDate,遵循左闭右开原则。②Segment之间是连续的,也就是说上一个Segment的EndDate等于下一个Segment的StartDate。构建设置-Cube层面的设置

设置AutoMergeThresholds:合并的阈值可以设置多个层级,当最大阈值不能满足时,尝试下一个稍小的阈值。设置VolatileRange:如何你不想Kylin自动合并最近某个时间段的Segment,可以设置改属性。比如设置为30,代表Kylin不会自动合并最近30天所包含的所有Segment。设置RetentionThreshold:如果你想只保留最近1年的Segment中的数据,可以设置该值为365。设置Partit

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论