2023年数据中台项目建设方案_第1页
2023年数据中台项目建设方案_第2页
2023年数据中台项目建设方案_第3页
2023年数据中台项目建设方案_第4页
2023年数据中台项目建设方案_第5页
已阅读5页,还剩230页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2023年数据中台项目建建设方案第2章元数据中心我们在进行周知时,可能有遗漏(原本应该被周知到的下游未被周知必要的打扰(原本本次变更不会对该下游产生影响,但因怕遗漏,所加工、查询、可视化等链路,如果不能较准确地定位问题,那么从0元数据中心是数据中台最基础的系统(图2-1),其他系统都需要passport_wechat_reldw_dim_passport_wechatdw_dim_passport_wechatpassportwechatrel据图2-1(1)数据整合。数据源类型:MySQL生效时间(1)数据表的名称、关系、字段、约束、存储位置等。(2)数据表与字段之间的流程依赖关系。(3)事实逻辑表、维度表、属性、层次的描述信息等。(5)调度系统的相关调度配置、调度周期等。针对不同类型的元数据,我们可以把它们组织起来分为3组:数3组元数据的来源、内容与实现方式。如图2-4所示,这是一个订单数据的开发流程,订单交易明细表订单交易明细表(dwd_goods_order_df)字段类型描述订单类型创建时间订单总价字段类型描述订单总量订单总价创建时间以图2-4中的SKU每日汇总表(dws_go存储空间有多大有多少访问热度所属主题域、分层、是否分区表关联的指标表负责人是谁几时创建的生命周期多久每周30次每日SKU粒度交易金额永久无记录每日交易的明细记录记录数、存储量等节点、执行时间等表名注释信息表的产出任务每个表有哪些字段每个字段的信息每个分区的信息变更日志信息产出日志的信息标签:A1下单金图2-91)问题定位排查2)指标波动分析完全。更好的解决方法是,通过Spark/Hive/Flink本身提供的有3个。在这3个时机中,时机(1)因为没有执行代码,所以无法保证展示效果如图2-11所示。三申请权限数据预览全部(54)用户域(14)活动域(10)用户域(16)商品域(23)图图2-12血缘,如图2-13所示。数据血缘可以帮助使用者了解这个表的来源总图图2-13第3章数据指标中心营部门负责人的有差别,你检查一下是不是你算错了。”用户。”问题,这个问题挺严重的,我们必须重视。”一份覆盖全平台所有业务的指标字典。”3.1数据指标中心概述3.2数据指标中心的设计思路3.2.1定义指标并将其归集到对应的主题域曝光次数、浏览用户数、点击用户数下单次数、支付次数、退款人数表3-13.2.2拆分原子指标与派生指标三三盾乙指咨新建原子指标詛詛更多更多更多更多计算逻辑(seleet)辑更多辑更多3.2.3定义原子指标与派生指标的生产逻辑前文提到过“将指标的组成部分解耦拆分开来,并在逻辑表中进行规范的定义”,这个解耦和定义的过程就是把一个派生指标拆解成统计周期、聚合粒度、限定维度、原子指标,再重新拼装,生成新的派生指标的过程,如图3-2所示。指标指标我们可以这样理解上面的例子。(1)统计周期是这个原子指标进行统计运算的时间范围,在这里(2)聚合粒度是指标的主体,即按照哪个维度来进行聚合,在这(3)限定维度限制原子指标的计算范围,这里限定在商城,即只(4)原子指标是预定义的某个字段计算规则,在这里是求和(下创建派生指标如图3-3所示。指标命名规范有3个重点。(3)无指定业务范围的指标默认为平台指标,不需要带与“平台”业务名称,如商城-近30天支付人数。(4)无指定时间周期的指标默认为“近1天”(但需要保存小时粒果限定了时间范围,就需要加上时间周期,如近7天注册人数。完整的指标命名规范为商城(业务板块)+用户(实体)+近7天(统计周期)+新增((业务动作)+子单(类型)+单日(间隔周期)+平均(统计运算规则)十支付金额(原子指标),如商城-用户近7天新增子当指标主体为实体(名词),如游客、用户、商品等时,则只需当指标为业务动作(动词),如点击、支付、下单等时,则除将(1)一级指标,即原子指标与小部分全平台的(2)二级指标,即派生指标,由各个业务部门自行通过指标中心指标等级划分如图3-4所示。证所属主题域全部(54)用户域(14)交互域(23)会员域(23)活动域(10)用户域(16)商品域(23)交易域(23)上原子指标交易域2020/08/20编辑更多编维更多第4章数仓模型中心4.1数仓模型中心概述2154.2.1控制数据源的主题域或扩展的新主题域包含。主题域如图4-2所示。数仓模型中心8交易域交互域_goods务板块中的功能模块划分,如纯线上电商的主题曝光、浏览、点击下单、支付、发货、退款、确认收货注册、登录、退出确规定度量值与关联的维度。事实逻辑表是每个业务动作(可以简单理解为埋点)的存储表,如支付有支付事实逻辑表、下单有下单事实逻辑表等,如图4-3所示。所屋主题域全部(54)用户域(14)活动域(10)用户域(16)商品域(23)交易域(23)交互域(23)会员域(23)表名商品商品ID、商品名称、交易价格、类目ID、类目名称、品类ID、品区域ID、区域名称、城市Code、城市名称、所属主题域全部(54)用户域(14)活动域(10)用户域(16)商品域(23)交易域(23)交互域(23)会员域(23)表名_relation调度配置物理化编辑4.2.4构建总线矩阵一致性维度品牌ID下单YYYYYYYYYYYYYY发货YYNYYYY确认收货YYNYYYY4.2.5数仓分层建设2.CDM层来的。在CDM层,我们开始对数据进行清洗与处理,并按照数据模ADS层是根据CDM层加工生成的,包含数据产品个性化的统计4.2.6数仓效果评估模板化管理。这个数据产品构建在元数据中心之上,可以通过的表,就说明越多的任务是跳过DWD层去加工数据的,而且这些数所以要衡量复用度,就必须考量DWD层的模型被下游模型调用的数率表这几个表调用和加工,那么这个订单明细表的调用热度就是4。我们把DWD层的所有表的调用热度取平均值,就可以用这个值来衡第5章数据资产中心在月度报告会议.上,首席技术官让大家聊聊在当前企业数据化5.1数据资产中心概述三四产化化四产化化5.2数据资产中心的治理流程具被导入数仓,数据在数仓中进行清洗、加工、整合、建模等-系列者使用。在整个流转过程中,数据都以表的形式进行传输,如图5-2图5-2从4个维度进行评定:完整性、准确性、一致性和时效性。从这4个据资产通常被划分为5个等级。辅助的数据,如果出现问题,就会对业务造成一-定的影响,造成效缘关系,沿着数据链路往回追溯,一直追溯到源数据,找出与这个图5-3所示,报表系统的等级是A2,调用任务table_1和table_2对应的等级都为A2,对应的表table1、table1_1、table1_2也都被打上A2标记;table2_1本来也是需要被打上A2标记的,但被营销系统调用了,而营销系统的资产等级是A1,等级更高,所以table2_1需要被打上A1标记。A1A2报表系统A2强规则弱规则相关的数据表5-1分母为0提醒,NULL值参与计算影响结果,主键是否唯一,插入字(3)一致性:主要解决数据在不同的模型中的一致性问题,当一产等级的数据能被准时、准确地产出,如图54所示。图5-4从我们梳理出来的数据资产地图(图5-3)的等级来看,如果在日数据监控的校验逻辑主要分为固定值比较与波动值比较两个方则为1天波动检测。1天√离散值(分组个数)离散值(状态值)离散值(分组个数及状态值)表5-2求,为后续的方案改进提供指导。数据质量主要从以下4个方面进行大小以一定的权重进行配置。数据产品正常运行时间的达标率是99.5%,这意味着数据在99.5%的时间内可以被正常产出并交付给数从图5-5中可以看到,在这个数据加工链路中,源头是从业务库图5-5针对上述描述的3种数据,我们需要设计对应的策略。置相关的自动下架任务,如超过30天没有访问记录,或访问记录低高低中是高低低是低中高否低高高否衡是一项非常重要的工作,所以我们需要对数据成本治理效果进行果。我们先统计高峰期的时长,再计算每秒消耗1个CU(1CU=4GB以被下架的表的存储容量,乘以1GB内存的价格,就可以得出数据资产优化的相关功能界面如图5-6所示。图5-6第6章数据服务中心淀的资产数据的调用,都是由研发部门门定制化封装接口进行的。”6.1数据服务中心概述6.2数据服务中心的设计思路6.2.1将数据写入查询库数据量小,500万条记录以内分布式数据库表6-1表中,以及物理表是HBase还是MySQL的、是单表还是分库分表。数据服务中心的数据模型主要由3个部分组成:数居源、物理表、逻导入不同的查询库中,如MySQL、HBase、Redis等。这些查询库中分布式查询的相关功能会从底层物理表中把数据取出来。因此,对帮大家拿吃的。你按从左到右的顺序询问第一个人他要吃什么,并效的方法是什么呢?你提前了解清楚各种食物的存放区域,了解并记任务分配给不同的人去执行,大家在拿完食物后统一到桌子上一起字段。假如API调用者调用了A、B、C这3个指标,这3个指标分别存放在3个物理表中,那么数据服务中心会把这个请求拆分成3个独回给API调用者,这样可以降低API调用者的调用与学习成本。数据服务中心的元数据模型很好地规避了数据字段频繁变更的数据服务中心的元数据模型是一套解决方案解决数据烟囱式开数据中台的数据开发人员在构建好逻辑表与物理表的映射模型中,从查询到返回结果,流程-般如图6-1所示。图6-1因为数据的运用在日常的运营场景中非常常见,API服务的调用在每次调用API请求时,数据服务中心都需要加载元数据中心的元数据,如逻辑模型与物理模型的映射关系一用来解析请求并执行前文曾提到,在API请求的处理过程中,有相似的API请求时,数据服务中心可以直接从缓存中得到解析后的在推送服务中(后续会讲到),如对在线的用户信息等也可以做本三Q选西否否图6-2况下,通过API拿到对应的数据。复用类似的API,不需要重复开发。AP数据服务中心样mmArber2017-10-31231200有效详过用更2017-10-3123:12:00情让分析策略可以落地并正向影响业务。所以本篇会从宏观(业务和数据)、中观(工作内容和合作)和微观(3种分析场景实操)3个维度第7章数据分析理论应用价值。最近数括分析队入职了一些新人,老汤姆决定上可2进向组织一场内部的分享会,跟大家助聘安乂21的相关内容,营造一下业务数据化:收集数据业务化:赋能运运营业务产品:业务线上化图7-1合作。下面按照图7-1平的娄数据流转链路来梳理一下不同部门(岗位)主要的职责边界,以及整体是怎么串起来一起协调工作的。数据赋能业务一般会经历4个环节:数据表现、业务原因、业务策略业务数据业务原因猜想原因通过产品/运营/管理等方式影响业务业务决策再就刚才提到的发烧的例子详细解释一下数据赋能业务的过程:体温39C是数据表现,背后的身体原因是发烧了(业务原因),医生说7.1.4业务策略的闭环业务策略落地执行数据业务我们在工作中怎么判断业务策略是否接地气呢?我们主要从以下(1)深入思考业务策略成立的业务假设是什么。(2)通过调研判断业务假设是否成立。7.2.1数据分析的定义与流程撰写报告拆解的模块相互之间有交叉,就没办法具体定位是哪个模块的问题我在后面具体讲解实操案例时会展开讲解如何应用分析框架来报告的形式不限,可以是PPT、Exce|表格等,只要能够恰当、合理接下来我们还要和产品部门、运营部门-起7.2.2数据分析的3种场景一般来说,数据分析会有3种场景:预测性分析、描述性分析和诊断性分析,如图7-6所示。不同场景的数据分析对应的目的不同。图7-6性分析和诊断性分析通常以报告的形式来呈现分析结果,可以是PPT文化问题。所以说团队合作是-件相对复杂的事,数据分析师要多用据分析师80%的时间都在与数据打交道,通过数据去理解业务,但在调研和数据分析的区别如表7-1所示。项目数据类型非结构化数据、结构化数据结构化数据外部内部研究方向解答问题方向员工的产出是否与部门]的定位一致是非常重要的。如果企业当要就是这些,大家吸收得怎么样?”7.3.1数据分析团队的组织架构所以这就在机制上保证了数据分析师能够站在老板的立场上去客观队就要用合理的方式来处理,需要根据实际情况来判断,往往采取的方式是高优解决团队"老板"的需求,与业务方协调好需求排期。因为影响的是整个团队,所以数据分析团队一定要保证及时和高质量地满足团队"老板"的需求,否则数据分析团队会受到负面影响。数据分他们希望数据分析师与他们同频,所以数据分析师和业务方之间良好的合作氛围、互相信任与理解非常重要。数据分析师平时在处理需求给公司创造价值给公司创造价值对公司无益图7-7有好的工作节奏,我们就需要想清楚当下自己的核心诉求是什么,要目,将自己大部分的时间和精力都放在这个项目上。这样一-来,随是1+N中的1。项目的规模不能太小,要能给数据分析师足够的成长空间。N代表可以同时接一-些小项目,以一两个为宜,数据分析师经理需要深刻了解业务、懂产品、懂数据、懂运营等,这对个人的你的认知不一定真正是你理解和掌握到的认以参考以下几点建议(这种能力的养成需要经过长期实践和思考利用好团队的资源,让大家多从业务出发,给自己-些输入。比较忌如何培养好的工作方式呢?我们需要回到拆解的思维,把遇到的②数据分析师的专业技能不够硬,目前只能做取数的事情。因①业务方不清楚数据分析师的定位。只要大家都在平等、信任②业务方比较强势,在多次沟通后,业务方还是只让数据分析师做取数的工作。这种情况该怎么解决?数据分析师可从以下3个方总结来说,就是数据分析师要用积极的态度+过硬的专业技能+人-定要把握合理的尺度。如果业务方一直催促数据分析师,那么数第8章数据分析实操预测是指基于已知信息(历史数据、后续资源投入等),假设事物预测性分析3主要有两种场景。分析师主导了业务目标的测算,所以为了让他们做到公正,-般不会个部分我们都会根据一些分析方法,结合实际资源投入情况来进行进行拆解。我们以GMV=付费用户量x平均付费金额对GMV进行拆解,预估活动期间的GMV就变成预估活动期间的付费用户量及平均如果以相对粗略的方式进行预估,那么我们可以将往年"双十-"的付费用户量,乘以预估系数(比较今年和往年的资源投入比),得出以是一个范围,这样就会得出GMV预估值的保守版和激进版。GMV预估值的计算公式为GMV预估值=付费用户量x平均付费金额=(往年付费用户量x预估系数)x往年平均付费金额示例如图8-1所示。图8-110天的数据,那么今年的转化率也要取活动前10天的数据。(2)近30天未浏览该商品的用户量,可以在大盘用定,如限定为近30天登录过的用户。假设每个渠道的转化率今年保持稳定(结合资源投入、产品改进等实际情况预估一个范围),那么今年每个渠道的实际值是可以算出吗?”阿北:"另外,在这里我要重点提醒一下,大家以后会常常需要等)上呈现最8.2.3描述性分析案例流量转化可以按产品流程来分析,即进入商品A页面的流量有多少、到每个流程的转化率是多少。从分析报告的结构.上来说,在开始的③流量转化:分为5个流程,即进入商品A页面确认订单一选择付费方式一付费成功,在每个流程都要关注量的达成度(与时间进度对比);对于流量产生部分,对比不同时间段的流描述性分析示例如图8-2所示。核心部分时间进度月环比当月目标目标达成度月环比当月目标目标达成度月环比当月目标目标达成度当月值当月值当月转化率图8-2阿北:"这里涉及需求的细节我没有讲,如漏斗转化数据的统计一-定义问题一拆解问题一寻找原因一提出解决方案-落地执行一-的工作,如图8-3所示。做专业的检查提出解决方案你吃坏了肚子业务出现问题沟通需求图8-3①中位数是一组数据在排序后处于50%位置上的数据。②四分位数是一-组数据在排序后处于25%位置和75%位置上的以上就是用箱线图法判断异常值的过程(见图8-4),这里处理的距离是1.5倍IQR(温和异常值),更严格一些可以用3倍IQR去判断图8-4类?销量下滑了多少?类2月的日均销量比1月下滑10%的原因。要注意。这是什么意思呢?我给大家举一个考试的例子,假设某高考科目总分。这样的拆解也是满足MECE原则的,但如果把解决问题的问题的维度。但在前置拆解时,数据分析师需要往下再想一步,从在拆解完问题之后(把问题拆解为多个模块),我们就需要寻找原因了。在这步我们采用的方法是分析数据+业务调研。针对每个模块性分析等,这就是很多资料中提到的具体分析方法(对比思考一下上从哪里下手呢?分析数据比较忌讳的是没有想清楚要分析什么,盲目接着上文提到的线下运营的A零售门店销量下滑的案例往下讲。提到的线下运营的A零售门店销量下滑的案例,如果我们确实发现A是否是这个原因导致销量下滑,我们可以调研去附近J店购买商品的顾客,咨询他们没有选择A零售门店的原因,询问他们是否受到A(1)如何来解决?短期和长期的方案是什么(是运营活动还是产品机制)?大家先休息10分钟,最后我再讲一下如何撰写数据分析报告。8.4数据分析报告的产品,所以数据分析师-定要高标准地对外交付数据分析报告。数据分析师通过数据分析报告向需求方表达分析的结论并阐述分析过据分析报告一般要满足以下3个要求。在多数情况下,预测性分析的报告都是以Excel表格的形式来呈数据分析师在后续还需要根据实际情况对预测性分析的结果进行调(2)一定要保留过程的计算公式,以方便后续对数据进行调(3)最好用一个单独的工作表来记录数据之间的计算逻辑和指标计算逻辑和指标的口径3个部分。数据分析师可以将测算的过程按数①确定业务的核心监控指标、拆解的子模块的监控指标,用对(1)将结论放在前面是为了让业务方刚开始就对整个分析有宏观略放在后面。对于这些,我们可以根据实际情况来调整。对于结论、策略、分论点论证过程这3个部分,我们在撰写时一般需要注意什么①PPT的标题是对整页PPT内容的概括。诊断性分析报告的呈现框架如图8-5所示。将结论归纳为3~5个图/表数据要能够直接证明分论点图/表区图/表数据要能够直接证明分论点图/表区图8-5PPT中。对于PPT中的数据,我们要检查4项:名称+值+单位+数据口流程详细地讲解了一遍,我建议大家反复揣摩整个流程,体会数据第9章BI系统9.1让人头疼的看板需求上,截至今天,怎么这些看板报表还需要持续占用这么多资源?”1.研发人员的成长受限2.研发成本高3需求走排期,实现时间长9.2.2BI系统有哪些比较知名的BI系统早期大多数是由国外企业研发的,有台,将数据处理和分析能力进行整合,可以依据用户需求定制化服务方案。近年来,国内的企业也越来越强调通过数据来驱动业务增长,企业建设BI系统的需求越来越强烈,国内的BI系统研发商提供的BI系统逐渐把数据加工、多维分析和可视化等技术整合成方案,实现对外服务输出,在这期间出现了帆软软件有限公司、北京亿信华辰软件有限责任公司、阿里云、腾讯云、百度云等本地化服务更好的BI系统研发商。BI系统的发展阶段如图9-1所示。发展阶段图9-1随着市面上的BI系统越来越多,BI系统研发商的产品研发战略企业内部,存在分析需求的人,都可以成为BI系统的用户。BI系统的用户构成如图9-2所示。的用户构成如图9-2所示。数据工程师产品经理企业高管数据分析师运营人员财务人员商务人员图9-2务人员、产品经理、企业高管和商务人员。而在BI系统的背后,是转变为对BI系统的依赖。BI系统使有分析需求的人员可以在没有技9.2.4BI系统的特点9.3BI系统的关键技术分析工作。但是报表开发毕竟需要一定的技术,因此要想让BI系统数仓是对海量数据进行分析的基石,是BI系统的依托。个部分。日常的业务数据在被接入数仓后完成ETL的操作,帮助数据较普遍的解决方案是加并发和预计算。如果一个任务在MySQL中处钟才能得到结果,你无法接受,那么你可以尝试在预定的时间"跑数据”,将需要处理的数据提前进行处理,待再做查询时,速度就会有务数值偏离正常阈值时发出警示并辅助问题定位,如每年淘宝在"双主流媒体,面对不同的受众群体,对应的可视化应用风格不尽相同。创建可视化数据报表,以及数据分析与可视化结果展示,这也是BI从数据接入到数据可视化的过程如图9-3所示。9.4.1数据接入R图9-4需要SSL(L)初始SQL..登录表开发流程中起到承前启后的作用。数据集加工的主要流程如图9-6图9-6需要进行数据的再加工。数据集加I操作界面如图9-7所示。选择数据源1数据表加工3 字段21a2b3C4d5e图9-7表,包括左关联、内关联、全关联等。如图9-7所示,数据集加工经历了以下4步。择数据源以后,即可看到数据源内连接到的数据表(图9-7中的1和2关的数据进行关联操作,得到一个数据宽表(图9-7中的3区域)。4区域),逻辑如图9-8所示。数据字段数据内容112选择其名数据集4设置已选中字段的权限范围按枚举取值控制(针对离散数值字段);按取值范围控制(针对连续数值字段)选择选中的数3图9-9第三步,用户a选择需要设置权限的用户1、用户2、用户3(图第四步,用户a对用户1、用户2、用户3分别设置已选中字段图9-10表还在持续增加中。各类BI系统支持的图表类型截图如图9-11所示。图9-11以饼图为例,饼图可以展现每个组成部分占整体的比例,如图图9-12用户了解整体数据的比例分布。各品牌的市场份额、人群数量占比、过饼图看到细微的差别。在这种情况下,条形图(见图9-13)就是对们也可以加入南丁格尔图(见图9-14),南丁格尔图又称南丁格尔玫瑰一般可视化元素的配

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论