有赞数据治理之提质降本_第1页
有赞数据治理之提质降本_第2页
有赞数据治理之提质降本_第3页
已阅读5页,还剩7页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、Word文档有赞数据治理之提质降本大数据公司,但是有赞的最终目标是成为AI公司。在这个阶段,数据积累到肯定体量,数据治理是特别有必要的。数据治理的最终目的也是服务AI、做智能应用,发挥数据的价值,而质量和成本是数据价值的核心所在。在有赞,是如何衡量质量好坏、成本凹凸的?又是如何依靠产品,结合运营的手段,提升质量,降低成本的?本文,为你揭晓。 一、数据治理概述 1. 数据治理是什么 数据:简单业务场景下,由系统或人沉淀下来的大数据 治:为整治,关注数据质量,保障数据稳定性、精确性,合理掌握数据的生命周期,降低成本。 理:为梳理和管理,数据的基本信息、状态、关联关系等,目标是搞清有哪些数据、从哪来

2、到哪去,最终用到什么地方。 2. 有赞是怎么做数据治理的 数据资产化 通过数据采集、数据管理,然后做各种质量监控和平安审计,把我们各种数据相关的东西当做是数据资产。 数据量化和运营 包括衡量资产等级、平安等级,做质量分和成本。让大家直观地感受到数据的质量以及成本是怎样的。然后去构建个人工作台,用户可以知道自己的数据资产有哪些。 发挥数据价值 比如说通过数据地图高效地发觉数据,挖掘有效、有价值的数据,然后通过地图的力量做关键路径分析、一键通知、行业透视等。 目前有赞的数据治理,处在量化和运营阶段。上图是有赞数据资产平台的简化图,可以看出数据治理涉及到的方方面面。从这个图也可以看出,质量和成本最直

3、接影响业务和应用。 二、质量保障体系 1. 什么是数据质量 说到数据质量,大家最先涌到脑海的可能是数据内容质量。也就是说,怎么去保证数据内容的精确性,这是比较狭义的质量。质量其实还包括许多方面,比如说精确性、规范性、准时性和认可度,称为广义的质量。我们为广义的质量去做了一个产品,叫质量分。狭义的质量会影响业务的稳定性,比如说哪个数据出错了,比如说商家的GMV确定是不能出错的,出错了会影响业务的稳定。而广义的质量会影响用户,且最终会影响数据价值的挖掘。 2. 内容质量校验 数据和任务强相关,由于数据是由任务加工产出的。所以,内容质量校验也和任务强相关,每个任务完成之后,我们都会对产出的数据做各种

4、质量校验。 质量校验包括两个方面,预定义校验和自定义校验。预定义校验,我们系统自动执行的,不需要人工做任何的配置,包括数据量的波动、文件还有组件唯一性的校验等等。自定义校验需要每个数据owner做一些配置,在我们系统上也支持了许多,比如说非空校验、数值范围校验、还支持自定义SQL校验。 质量校验的结果正常的话,下游任务就可以正常进行;假如是可接受的特别,这时候会触发邮件和企业微信的报警;假如是不行接受的特别,结果数据是有问题的,则阻断下游的任务执行以避开数据资源的铺张,同时触发电话报警,通知相关人去处理。 3. 质量分 质量分包括:规范性、认可度、精确性以及准时性。规范性很好理解,比如名字规不

5、规范,解释有没有填,必需的质量检验有没有配。认可度要关注数据的使用状况,包括下游依靠状况、搜寻、保藏、关注的次数等等。精确性也比较好理解,就是数据的质量校验是不是常常出错,假如常常出错,这个数据可能就有一些问题,不值得信任;还有数据的分区是不是连续的,是不是有缺失。准时性,我们会去关注数据的超时状况,还有deadline接近状况等等。 我们把这四项定义好,确定分类和细则、定义好权重,通过简洁的公式就可以算出一个质量分。如下图所示,不同颜色代表不同的分类,最右边是细则的得分以及权重,通过得分加权重的计算方式,就可以最终算出一个数据的总得分。为了模型的可扩展性,有一个小细节,就是权重自动凑百,比如

6、橙色框里的权重,一个是30个是20,总分是50,实际上算权重的时候,我们会去给它折算到100。假如加减规章,不需要做许多的调整,权重都能自适应。 4. 提质手段 我们的质量提升手段,是从这几个方面去做的: 第一是预防,就是事前我们会去做DDL入口的限制。比如说你的表的命名不规范,或者解释显得不够,或者说该有的属性缺失了,我们会在第一DDL的入口去做限制。还有deadline预警,每天白天的时候进行检测,并提前发出告警。同时也会去做静态检查,全部的数据、任务变更的时候,都会进行静态检查,提前发觉问题。 其次是发觉特别,事后任务超时,或者说检验失败的时候,我们会去触发告警,提示到相关的人。 第三是

7、质量大盘,目的是为了让质量分引起大家的关注,同时在集团大盘里做许多优化的提示,让大家用起来,最终把质量提升上去。 最终是推动优化,其实做完前面那几步,大家可能只是对质量有一个比较明显的感知,但是真正去做质量的提升其实还需要许多运营动作,这就是我们在推动优化这块做的事情。 5. 提质效果 定义完质量分之后,经过一段时间推动,以及大家自觉地做一些提升之后,规范性上,消退了99%的同义不同名表,业务率和归属率提升到95%以上。精确性上,毁灭了95%以上的屡败规章,屡败规章指的一些常常失败的数据检验规章,或者最近一段时间常常失败,但是没有人去关注。在做质量分之前,有大量这样的规章存在,不仅是铺张了计算

8、资源,同时也会让告警接收人对特别状况产生麻木心情,所以说这个收敛是特别有必要的。另外一个指标是失败率,也从11%降到1.25%,有比较大的提升。稳定性和技术性,这是我们的一个提质效果。 上图是我们的质量大盘,最上边会有几大模块,一个是质量分数,然后是只要告警,还有超时任务,每个模块里面都会有详细的一些细节呈现。 三、降本运营机制 1. 资产成本量化 前面提过数据资产会有许多类型,对于开发人员来讲,他们看到的是一张张表,但是对于管理者或者运维人员,他们看到的是一堆堆机器,这些机器都是有成本的。我们的目标就是把成本分摊到表,让人感受到每张表的成本是多少。 首先,我们对机器资源去做分类,由于机器资源

9、其实就是一堆CPU、内存和磁盘,不同的资源,也有不同的稀缺性,我们需要对每种资源定价。就跟一头猪的不同部位,价格是不一样的,由于它们的稀缺性是不一样的。 从表的角度去看,每个表的产出都对应一个任务,同时也对应一些存储,它们占用计算资源和存储资源。我们大的思路就是对每一类资源去做一个定价,形成一个单价,然后采集到每个表占用的资源的量。单价乘以数量,就是成本。 数据成本是由资源单价和消耗资源这两个最关键因素打算的。 资源单价有四个方面:总成本、资源总量、稀缺性和合理水位。下面分别解释一下: 对于离线计算,比如Hadoop集群的总成本是多少,它的资源总量是多少,我们最关怀的是CPU和内存资源,这是我

10、们是可以采集到的。稀缺性,可以从资源瓶颈的角度来考量,对于离线计算,CPU会比内存更稀缺。合理水位,是说为了保证性能和稳定性,资源的负载需要维持在肯定水平。比如CPU,我们不行能把它用满,可能用到80%左右就到极限了,再往上就是特别危急的状态。所以说我们去算有效资源的时候,不会按资源真正的总量去算,而是按它的总量去乘以合理水位计算的。合理水位因不同的数据而异,需要详细去分析确定。 消耗资源有三个方面,存储和计算比较好理解。时间怎么理解?以离线计算为例,大多数离线计算场景可能都是T+1的,然后大家可能也能感受到凌晨的时候资源是特别稀缺的,但是白天的时候往往是空闲的。所以凌晨的时候资源应当是贵一点

11、的,白天的时候略微廉价一些。我们去采集计算资源的时候,也会去考虑任务的计算资源占用的时间段。在凌晨我们会去给他打一个系数,比如说1.3、1.5,但在白天我们会给他一个折扣,比如0.6、0.8。 根据上面的原理很简单得出一个计算公式,每个CPU的单价是多少,内存单价是多少,然后采集到使用到的资源数据,就可以算出数据的成本。 cpu单价,cpu_price = total_cost * cpu_weight / (total_cpu * cpu_load)内存单价,memory_price = total_cost * memory_weight / (total_memory * memory_

12、load)任务成本,cost = cpu_price * use_ cpu + memory_price * use_memory + disk_price * use_disk 2. 成本账单建设 成本量化之后,只是有了一个比较直观的成本数据。为了让各个层级的人都能直观的去看他们有多少数据、成本分布以及趋势是怎样的,我们做了成本账单,支持了三大类力量。 第一是分析,支持全类型多视角、敏捷的分析,有三类分析手段、有多种降本的方式、有五维视图。五维视图指的是说个人的、部门的、业务域的、业务线的以及全局视角的成本,都可以看。此外,账单也支持钻取、级联和趋势分析。由于大家看账单的时候,可能不光只想看

13、到一个数。假如我看到这个数差距特殊大,或者说我们这个波动特殊明显,就要去分析为什么会消失这种状况,所以需要支持许多分布分析、下钻分析、甚至呈现一些成本的细节。 其次是降本,给大家看到成本之后,盼望说大家做一些降本的工作,削减铺张。所以我们也做了许多降本的挖掘,包括怎么挖出哪些数据可以下线、哪些数据可以做延迟启动。延迟就跟上面我们讲的运行时间段有关,比如不重要的任务,不肯定要在凌晨的时候跟那些高优先级的任务抢占资源,可以把它挪到白天的时候执行,这样我们在算成本的时候会给一些折扣,这也算是降本的一种方式。还有许多任务,可能是小时级、甚至分钟级调度的,小时调度的任务,一天跑 24次,它成本就是每天调

14、度任务的24倍。实际有没有必要?未必,通过我们的调研发觉存在许多这样的人物,是可以做调度周期的优化。此外,还有一些调优的详细手段,怎么去避开数据倾斜,怎么去削减数据量的使用等等。 第三是我们把账单算到业务线上。数据中台在许多人看来是一个成本大户,消耗了资源,但是离业务比较远,很难讲出价值。但其实我们消耗的资源都是为业务服务的,所以我们要想方法把成本也分摊到业务线,让业务线也关注到,原来在制造价值的同时,其实也消耗了这么多成本。 上图是分摊业务线的大致规律,底层是数据、任务和平台服务。成本有两类,独占成本和分摊成本。独占成本就是有些集群平台或者任务就是为某个业务服务的,这些成本全部归到业务。分摊

15、成本,比如说数仓中间层,它的订单交易或者店铺可能有许多业务线都用到了,数仓去建立这些力量需要的成本,就需要分摊到这些业务线。 上图是数据成本账单的截图,这是一个部门视角,每个部门都可以看到自己成本是怎么样的,部门视角可以看到部门里边每个人的成本状况。最上面是一些数据指标的概览,可以看到我的成本状况、降本状况、资产的数量。然后中间是成本的趋势,在趋势图的每一个点都可以点击,右侧会有成本的榜单分析。比如说我看到12月6号成本特殊高,点一下就可以在右边看详细的成本是怎么样的。最下边是成本分析模块,我们可以看到成本分布。分成平台的成本、表的成本、还有各种各样的成本的分类,同时也支持按成员去分析它的成本

16、。比如说条形图,它其实是可以点击下钻看某个详细的人,有哪些表。右下角的模块是一个可降本分析,上面讲过给他们看成本,是盼望他们去做降本的事情,所以许多挖掘降本的点也在平台上去支持。 3. 成本分摊 在成本分摊的时候,怎么做默认的分摊,怎么设置分摊的比例?也许的过程三步,首先设定一个默认的分摊比例,根据各个业务线的订单量算比例,算是默认分摊比,这个数据通用层的分摊,加上一些独占的成本的分摊,会生成其次个比例。然后再结合平台域的分摊成本生成第三个比例。最终我们再把平台工具独占成本结合进去,形成了一个最终的比例。 4. 持续运营 建了许多规范后,计算出质量分、成本、账单,但假如不运营是很难把这个事情跑

17、起来的。由于大家对这个东西的感觉不深,也没有特殊强的动力,所以我们也做了许多运营的事情。 强化意识 我们从多渠道进行成本意识的宣扬,比如每次上线产品通过海报或者小视频,进行产品宣扬,告知大家用法,鼓舞大家多去使用。还有上文提到的,挖掘出一些改进的空间给到大家,让大家很明确的就可以去做一些事情。 奖惩机制 有赞内部有一个“有赞币”文化,可以把有赞币送给自己观赏的人、或者关心到自己的人,给他们一些鼓舞。 跟踪反馈 比如说看法箱、答疑群,还有怎么关注降本的一些实际的数据等等。 这些事情其实是平台围围着用户,为降本去做事情的,运营的目的是为了让平台用户和成本之间形成一个良性的互动。我们通过运营去推动用

18、户去做降本的事情,跟踪这些动作同时反馈在平台上面,这样的话就形成了一个正向的循环,最终达到一个比较好的降本效果。 5. 运营成果 经过大半年的努力,我们也有一些小小的成果。上图是实际运营的数据状况,第一个参加用户,是说目前有成本的用户中,超过32%的用户实行了降本相关动作。降本动作累计有1400多次,并且自主降本的比例超过了38%,这个也反映出大家对成本的意识已经有特别大的提升。在做这个事情过程中,我们也清理了超过2P的数据、下线超过300个任务,在成本方面每年节约了300多万。 四、总结与展望 质量成本,其实是围围着量化、产品以及运营这三个方面进行的,这也是数据治理的三辆马车。量化是为了让大家更直观地感受到当前的质量、成本现状,有哪些问题。让大家了解之后需要通过产品作为载体去支持大家做降本以及分析的需求。有了产品之后,还需要通过有效的运营手段,把这一套降本机制,以及提升大家成本意识的意图,给跑起来,最终形成一个良性的循环。 成本和质量的进展方向,如下图: 1. 大质量 首先,我们目前的质量主要集中在离线表,我们可以去扩展数据类型(实时数据,如Kafka;在线数据,如Hbase)

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论