数仓避坑-整明白懂粒度_第1页
数仓避坑-整明白懂粒度_第2页
数仓避坑-整明白懂粒度_第3页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数仓避坑-整明白懂粒度编辑导语:在数仓中,你理解什么是粒度吗?这是一个很抽象的名词,但同时它又是数仓中重要的一个概念。作者通过五个方面总结如何把粒度整明白的方法,我们一起来看下吧。上篇文章数仓避坑-搞懂维度模型介绍了维度建模经典的四部曲:选定业务过程、声明粒度、确定维度、确定事实。第二步中,粒度的概念着实有点抽象,很难理解。但是,如果粒度整不明白,近乎等于数仓没入门,你将会面临一系列问题~今天就给大家分享一下,我踩坑粒度的过程。一、先说说粒度的概念选定了分析的过程,紧接着就要声明粒度。看到书里这么说,我当时的反应是:为什么?粒度是什么?普通场景里,粒度可以理解为一个东西的大小。比如,钻石要区分颗粒度,大小不同的钻石,价格不一。而在数据分析的语境里,粒度则意味着分析的范围,分析的细致程度。举两个例子。系统的注册总人数,可以按照国家、省份来统计,这是地域层面上的不同统计粒度。系统的活跃用户数,可以按天、按周统计登录人数,这是时间层面上不同的统计粒度。从数据表的角度来看,粒度则解释着什么情况下增加一条记录。按国家统计用户数,中国只会有一条记录,按省统计,中国则会有34条记录。按周统计活跃用户,一年只会有52行记录,按天统计,一年则有365或366条记录。二、通过实战理解粒度好,看书搞懂了概念,实战就来了。公司出了新APP,老板很关心新APP的用户活跃程度,于是,用户端产品经理希望做个面板,看每天有多少人登录。同时,他提了另一个需求,他希望能支持统计两个日期区间内的登录人数(两个日期是变化的)。通过例子理解:某个活动发布后,要查看不同时间区间内的累积活跃用户数,比如1-2号,3-5号,以便及时调整促活的策略。初生牛犊不怕虎,说搞咱就搞,就按照维度建模经典套路搞。首先,选定业务过程。这个一目了然,自然就是用户登录过程。其次,声明粒度。这里用户方希望按照不同的日期统计累积人数,那粒度是天。然后,是确定维度。这个例子里,因为要按照日期分析,最主要的维度是日期(为了简单,例子里就就先不考虑其他维度了),日期维度表设计如下:三下五除二,维度模型搞定!就等写好ETL脚本,按周期调度啦。三、维度模型搞不定,是粒度理解不到位构建模型,最终都是为了查出对应的指标和结果,所以维度模型通常都会跟标准的指标系统配套来使用。对指标体系不太了解的朋友可以看这篇:一文帮你更好地理解指标,或者看华为阿里的产品。当我们按照标准套路,进入指标设计阶段,问题就会慢慢浮出水

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论