腾讯游戏数据资产管理实践之路_第1页
腾讯游戏数据资产管理实践之路_第2页
腾讯游戏数据资产管理实践之路_第3页
腾讯游戏数据资产管理实践之路_第4页
腾讯游戏数据资产管理实践之路_第5页
已阅读5页,还剩20页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

腾讯游戏数据资产管理实践之路

导读:数据是资产的概念已经成为行业共识。然而现

实中,对数据资产的管理和应用尚处于摸索阶段,企

业数据资产管理面临价值评估难、数据标准混乱、数

据质量不高、数据安全威胁等诸多挑战。

腾讯互娱早在2013年开始启动数据资产管理工作,历

经从数据管理到治理,再到资产化的转变,并启动实

施大数据资产管理体系的建设,本文分享在此过程中

的一些实践经验与思路。

战略规划、组织架构、制度体系、审计机制、明厚疆学堂

(来源《数据资产管理实践白皮书3.0》)

数据资产管理(DAM,DataAssetManagement)是指规划、

控制和提供数据及信息资产的一组业务职能,包括开发、执

行和监督有关数据的计划、政策、方案、项目、流程、方法

和程序,从而控制、保护、交付和提高数据资产的价值。

(来源《数据资产管理实践白皮书3.0》)

数据资产管理的定位及架构如上图所示,其处于大数据平台

(中台)与数据应用的中间层,连接着底层的大数据平台(中

台),覆盖数据全生命周期管理,同时为上层数据应用提供

高质量数据的保障能力。

01腾讯游戏大数据运营概况

腾讯互娱增值服务部服务于50+款端游,40+款页游,

还有300+多款手游,每日数据量级为17000亿条,每

日数据增量约为260TB,总存储是80PB的规模。

15w+表

4003乙+数据

端游50+款

4000+表

63乙+数据

页游40+款

60w+表

13000亿+数据

手游300+款

技术栈是使用自研结合开源的混合模式,采用了TEG

数平的TDW(腾讯大数据仓库)来构建离线数据的计

算与存储,结合自研的高性能分布式计算Bitmap技术

实现多维、下钻分析。

个人历程对局分析个人中心交左

对于具体的数据服务场景,大家对上图这些界面不会感到陌

生。图中只是数据增值服务的部分呈现,包括玩家在游戏里

面的历程、对战的战绩信息、个人中心、社区交友、任务系

统等服务。其中,任务系统是基于我们实时能力构建起来的

一个数据应用。

除此之外,还面向IEG内部的游戏AI、游戏反外挂系统、铁

算盘、游戏助手、渠道管理等提供数据服务。

02腾讯游戏数据资产管理体系介绍

腾讯游戏数据资产管理体系如下图所示自下而上主要

分为元数据管理、资产管理四大核心组成、资产管理

平台以及数据增值服务等四个层次。

价值■新

热度分为质量雌[流g

广度分析安全建设数费

收益度分析影响评估数^

数据开放DevAIOps数提

最底层是元数据管理。元数据在整个资产管理体系中是最核

心的一个部件。我们会定制实现整个元数据的标准化,存储

的数据包含业务元数据、技术元数据,提供元数据的检索、

开放等能力。

往上一层便是资产管理四大核心部分:

1、价值评估,定义出用于评估整个数据价值的评估模型以

及数据度量报告,这是资产管理中最核心的一个点,可以协

助决策者清楚了解数据的价值在哪里,到底有多大。

2、数据运营,其覆盖了整个数据生命周期管理,包含数据

的安全、质量、成本等部分,采用了DevOps和AIOps这些

业界先进理念贯穿整个数据运营过程,参与这个职能的角色

我们也叫DataOpSo

3、数据治理,此概念更多强调的是数据标准化、制度、流

程等这一系列的内容。这里不详细展开。

4、数据集成,从数据的采集、传输、整合、到落地存储,

通过标准化去统一不同类型、格式的数据源,按指定规范去

实施转换,并最终落地至统一的大数据仓库,且访问数据采

用统一标准,这里采用的是TDW提供的方案。

最上层为资产平台能力。研发的思路遵循《数据资产管理实

践白皮书3.0》,并结合实际服务场景,提供多样及个性化

的数据资产管理服务。最顶层则为提供的数据增值服务,比

如提供数据可视化与分析、营销活动的支持、消息推送、渠

道管理等一系列服务。以上便是我们数据资产管理的技术体

系架构。

针对如何去评判整个资产管理建设的能力水平这个问题,总

结出“三好”能力模型。首先是“用好”数据资产,二是

“管好”数据资产,三是“看好”数据资产。

〃用好"数据资产〃管好〃数据资产

其中“看好”资产属于数据安全的范畴。数据是企业里面

的核心资产,也涉及了数据泄露与用户隐私等问题,一旦发

生数据安全事件,对公司的损失是巨大的,甚至是灾难性的,

所以“看好”资产是重中之重。

践行“三好”能力模型的过程中,会根据不同的角色去定义

并提供相应的服务能力,公司内部资产管理平台研发与设计

也是基于此评估模型。

03腾讯游戏元数据管理介绍

元数据管理在整个数据资产管理中占有举足轻重的地

位,接下来介绍腾讯游戏是如何对其进行设计和构建

的。首先它要具备以下几个能力特点:

元数据应用元数据检索数据一体化质量监控

技术元数据

其元数据存储

业务元数据

元数据采集转换层模型桥接器数据映射

异构数据源

元数据管理体系技术架

1、数据的异构适配和集中存储。随着公司历经不同的发展

阶段,必然会出现多种多样的技术栈,则不可避免的产生各

式各样的数据类型,比如说关系型、NoSQL类型,还有一些

文本的,一些业务接口、业务系统等。怎样去采集并且适配

如此之多的数据类型,怎样去描述和定义数据,其难度是非

常大的,因此定义了一个适配层,此做法和业界主流方案有

些类似。具体构建了一个模型桥接器来实现智能转换,去适

配异构和集中存储。

2、元数据到底存储了什么数据?举个例子,游戏行业是有

很多指标去衡量它的运营状态。比如说7日留存率,意思是

说这个玩家注册当天往后去推移7天有没有流失,有些业务

平台是按注册后第二天才开始计算,这样同一个指标大家就

理解不一样,自然导致计算结果不一致。所以将游戏内部累

计两、三千个业务指标,连同它的计算逻辑等描述都存储到

元数据里面去,然后再开放给所有的业务平台。比如

DataMore(智能游戏运营方案)、图灵(数据挖掘分析平台),

一体化(游戏指标开发平台)等内部平台,都采用一套标准,

包括指标名称及计算逻辑,这样便可有效避免数据不一致的

情况。

3、描述数据,其为元数据的本质,在元数据管理中发挥核

心作用。定义数据的来源,包括责任人,创建与更新时间,

分区号及数据字典等一系列的描述信息,以及表与表之间的

关系等。通过数据描述模型,数据使用者可以看到整个数据

的全景以及数据的描述信息,可大大降低其使用数据的成

本,最大化利用数据的能力,协助产品做精细化的运营,更

好地完成运营KPI。

4、自动构建血缘关系链,这是一个非常重要的考核指标,

后面会详细讲解。

5、扩展能力,辅助运营。元数据不仅包括业务的元数据,

还包括技术的元数据、运维日常工作过程当产生的告警指标

及阀值,甚至是AIOps模型的算法等,都会统统存储至元数

据中,以辅助做好运营,提供运营策略支持。

~日

20m42012■姐

加川7,tOt?38加7»*,8-

示不敷18套里记盘丽闻B

余■木懊■

■flU■■BOMtMn.tMO

如i人««W001WHAOimouMr

■词时刈・<40f叼物W1W»-17T?i3,49

序号钳一

STIb^G

uHEvcnoDSTRING

<3£%«HITAWSTRM

•^rortdOBtCMNT

dwZontfOSIOMT

OMJ*BGKT

STRftiG

BOWT

以上是元数据管理功能截图,包含一个数据全景及数

据属性描述的功能,可以清晰看到数据责任人归属、

创建时间、最后变更时间,它的表结构、字段、信息

等信息,这些信息对数据的使用者而言都是非常有用

的。

04腾讯游戏数据质量管理介绍

F面介绍构建数据质量体系的过程。不合格、不具备交付价

值的数据则为垃圾数据,所以数据质量的保障是一个核心

AV、o

数据

监控

数据质量体系的构建分为以下四个步骤:

第一,定义数据的标准,包括它的格式、类型以及上报模式

等均需统一标准化。内部通过制定好的标准去约束,比如定

义一张数据表的描述,包含数据类型,表名称,字段类型与

长度等,研发人员则根据此格式打日志,标准贯穿采集、传

输、转换、存储全链路。

第二,定义质量规则。此部分同业界一致,我们也采用完整

性、一致性、准确性及延时性等监控维度。具体介绍如下:

1、“完整性”,比较好理解,即数据不能缺失,不能出现

“采集一万落地八千”的不合格情况,此指标采用数据对账

的方式去做数据验证。

2、“一致性”,相当于数据定义的标准化,意思是怎么让

内部所有人按照指定规则去理解数据,且涵盖各个技术平

台、业务线系统。比如定义一个ipv4的IP地址是15位,

定义手机号码为13位的或者国内的邮编地址为6位,这个

理解上大家肯定是统一的,我们也会将这个标准存储到元数

据里面去,各业务平台一起去遵循这个标准。最终达成一致

性。

3、“准确性”,数据中避免出现乱码或者不是预设类型的

值。

4、“及时性”,从数据的采集到数据应用,它的时效性是

否满足业务的需求,比如正常打完一个对局时会收到系统推

送的一条消息、,内容可能是一个道具或一个金币,这个及时

性要求是非常高的,绝不允许出现对局完成后两个小时再把

金币推送出去,这就没有意义了。这是一项非常重要的数据

质量考核指标,对应用层面的影响也是非常敏感的。

第三,质量监控。定义完这些规则和标准后,接下来便是质

量监控,包括对帐、心跳、内容检查还有延迟告警等相应的

保障。

第四,质量报告。会给产品侧输出整体数据质量的趋势报告,

包括同比、环比及各个质量维度的达标率情况等,目前数据

交付的质量都维持在三个九。

总结来说就是通过业务+流程+技术的手段来实现数据

质量的总体保障。

05大数据资产管理之影响评估&快速定位

下图为一个非常典型的数据实时微服务的架构,从开

始的采集到传输,再到离线的计算和存储,还有一条

实时分支做数据的转发、透传、会涉及到消息队列以

及流式计算,然后将数据的结果写到Tredis(NoSQL)

中。写到NoSQL中的数据,来源可能是实时计算或者

离线计算任务。

基于实时流的数据微服务技术

研发人员会根据业务规则开发接口逻辑,调用数据存

储层,接下来研发会将接口交付至运维人员,进入完

整的DevOps全链路,最终完成整个数据+业务逻辑的

发布。整个应用过程会遇到几点问题:

第一点是整个数据服务涉及到的环节众多,只要其中一个环

节出问题,故障的定位就非常困难。第二点是业务层的数据

异常回溯,难度更大。比如一个玩家看到战报数据,正常的

话应该是20级,结果显示8级,如何快速确认数据从哪算

的,经过哪个环节,属于哪个业务逻辑、哪个项目、哪个逻

辑指标以及哪个计算服务集群等。第三点就是底层数据平台

故障,如何快速评估影响面。比如当离线计算平台其中一个

集群挂了,如何确认影响哪个项目、哪个接口、哪些指标、

哪些功能,也无从去判断跟定位。这里给出的解决方案是通

过“数据”加“业务”的血缘组合来解决。

如上图,血缘数据贯穿从数据采集开始到最终的数据服务整

个链路。首先将采集的粒度细到IP、端口与进程,业务表

ID、计算的任务ID、透传的表ID、计算业务指标以及Tredis

里面的Key前缀,最终交付给接口的业务ID以及集群的ID,

均上报至血缘数据库。此时整个解决问题思路清晰可见,无

论从上往下还是从下至上,均可轻易地实现问题的快速定位

以及影响面的快速评估。

GDAManr大数据访产■埋平台

.CHRW

-i

上图为平台截图,是一张普通业务的血缘关系图。从关系图

中我们可以快速了解数据从采集到应用中的全部处理过程,

知道其部署资源信息、接口信息以及指标信息等。具备这些

能力之后,则可运用其有效辅助运营。

比如,当一个计算任务出库出现延迟,运维人员通过血缘监

控可快速知悉此延迟可能会影响的项目、接口以及相应具体

指标,且可快速启动故障预案,如跟产品沟通,采取挂公告

或补偿性的动作等预案策略。

06大数据资产之生命周期管理

卜面探讨如何去做数据的生命周期管理,首先给出一个结

论:数据生命周期管理的策略与数据的在线度有关。

■数据分类和重要等级

瞬分类说明

收入类充值、消费类,跟资金财产有关的数据★★★★★

在线类用户注册、登录、登出等在线类数据★★★★

状态类游戏用户属性、等级等状态类数据★★★

用户在游戏内的体验操作等行为日志

行为类★★

性能类服务器性能、资源容量等数据★

数据在线度即为数据的活跃度,其随时间推移,数据使用价

值的降低不断衰减,用于数据的在线程度和使用衰减情况。

数据在线度主要受两个方面因素影响:

第一,其跟定义数据的重要级别有关系,我们共定义了“收

入类”、“流水类”、“在线类”、“行为类”和“性能类”

等。其中,“收入类”和“流水类”的重要级别比较高,故

而打上四星或者五星的标签。相应的,“行为类”或运维监

控日志,重要级别则相对没有那么高,为其打上一星或两星

的标签。数据的重要级别由运营人员根据运营经验定义。

第二,数据的价值,主要参考数据的热度和数据的广度。数

据在线度的关联函数定义为:

其中V(t)为数据访问热度,W(t)为应用广度,I为数据重

要等级。

07数据价值评估思路“三度”模型

接下来介绍资产价值评估的过程和方案。从三年前尝

试做这个事情,经历了两个阶段,第一阶段是数据的

成熟期,第二是研究的观察期,目前处于灰度放量阶

段。

模型成熟度

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论