数据智能管理峰会滴滴数据资产管理实践课件_第1页
数据智能管理峰会滴滴数据资产管理实践课件_第2页
数据智能管理峰会滴滴数据资产管理实践课件_第3页
数据智能管理峰会滴滴数据资产管理实践课件_第4页
数据智能管理峰会滴滴数据资产管理实践课件_第5页
已阅读5页,还剩61页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

滴滴数据资产管理实践滴滴数据资产管理实践1目录

/

Contents01滴滴的数据资产概述02平台建设之

数据开发平台03平台建设之数据应用平台04平台建设之

资产管理平台2019目录/Contents01滴滴的数据资产概述02平台建设2滴滴的数据资产概述2019滴滴的数据资产概述20193滴滴的数据资产5.5亿+用户1000+座全球城市日新增106TB+数据日均处理处理4875+TB数据人司机乘客路静态信息:全球、全国、城市等各粒度动态信息:行程轨迹车静态信息:归属人/公司、车牌号、车型…动态信息:里程数、维保记录700亿日ETA请求150亿日定位数据2019滴滴的数据资产5.5亿+1000+座日新增106TB+数据人4滴滴的数据特色010203实时数据占比高结构化数据为主,价值密度高地理位置、轨迹相关的数据占比高2019滴滴的数据特色010203实时数据占比高地理位置、轨迹相关25数据同步数据开发调度监控告警数据质量项目管理权限管理数据开发平台离线引擎实时引擎机器学习引擎数据内容建设数据服务化资产管理平台决策分析业务分析看板分析…数据应用产品平台

BI自助分析工具统一数据门户PCAPP-H5业务应用/DS 内部用户/DS 大屏用户数据公共层数据接入数据消费技术&业务元数据打通指标管理平台数据大屏滴滴的数据平台业务架构元数据打通,更准确识别公司核心数据资产,辅助资产信息的完善,从而沉淀数据资产2019数据同步数据开发调度监控告警数据质量项目管理权限管6平台建设

数据开发平台2019平台建设之数据开发平台20197数据梦工场数易 BI实时监控监控大屏北极星把脉数据应用产品数据地图监控告警数据质量资产管理离线计算引擎Hive

、SparkOmega 标签系统

智能地图…

…流计算引擎Flink数据检索ES消息队列Kafka、DDMQHbasePhoenix机器学习TensorFlow…

…一站式智能数据开发、生产平台——数据中台(数据梦工场)数据开发 调度 同步中心 数据安全 机器学习算法平台高质量的元数据内置规范产出语义明确的元数据衍生更智能化的平台服务极致简单只要会SQL,人人都是数据玩家!完整闭环一站式数据开发生产平台底层封装、模块中心化、平台应用模块智能联动,提升开发效率安全保障权限控制责任到人,权限到字段开发生产数据隔离多种措施保障数据安全行业领先基于开源引擎基线监控机制,标记最核心计算通路,确保核心数据及时产出经验积累国内领先的大数据体系建设及数据治理经验2019数据梦工场数易 BI实时监控监控大屏北极星把脉数据应用产品数8数据同步数据开发调度系统监控报警数据质量项目管理和权限管理稳定高效异构数据源同步服务。集成实时、离线两种方式;快速扩展,插件式拓展多种同步类型;自主运维,同步相关指标清晰可见;为流计算提供实时数据源;2019产品功能数据同步数据开发调度系统监控报警数据质量项目管理和权限管理稳9产品功能数据同步数据开发调度系统监控报警数据质量项目管理和权限管理针对数据开发、临时查询场景,为用户提供更加规范、顺滑的数据开发体验:智能编辑器,支持各种库表、函数、变量联想输入、动态语法检查等提供SQL格式化、错误提示,提供更顺滑的SQL开发体验支持各种SQL(Hive、Spark、Presto)、Shell、PySpark等类型任务支持,4)支持文件多版本、任务回滚;5)直通调度,字段检测依赖,方便测试和上线任务。6)提供历史查询记录和大规模数据下载能力(经过安全审批)2019产品功能数据同步数据开发调度系统监控报警数据质量项目管理和权10产品功能数据同步数据开发调度系统监控报警数据质量项目管理和权限管理支持百万级的离线例行任务调度,保障业务稳定运行。提供开发、生产两套环境,相互隔离支持MR/Hive/Spark/Shell等不太任务类型的任务调度支持小时、天、周、月多种调度周期配置4)数据回溯简单易用:支持重跑、支持多维度运维2019产品功能数据同步数据开发调度系统监控报警数据质量项目管理和权11产品功能数据同步数据开发调度系统监控报警数据质量项目管理和权限管理智能监控任务运行情况,异常时发出告警。体系化解决“是否报警、何时报警、如何报警、给谁报警”,

杜绝无效报警;抽象“数据基线”保证重要数据的及时产出,并动态规划相关任务优先级。结合算法,预测可能的数据延迟,提前预警,将影响面降到最低。升级逻辑,避免漏处理。数据量流量异常数据数据接入任务出错任务延迟基线延迟数据加工表规则监控字段规则监控自定义监控数据质量存储告警计算告警资源告警2019产品功能数据同步数据开发调度系统监控报警数据质量项目管理和权12产品功能数据同步数据开发调度系统监控报警数据质量项目管理和权限管理全链路的数据质量管控,实现数据质量校验、通知、管理能力完整配置

VS

快速配置强规则

VS

弱规则表规则VS

字段规则预设规则

VSSQL规则201941%产品功能数据同步数据开发调度系统监控报警数据质量项目管理和权13产品功能个人资产我的资产我的应用数据管理资产概览资产明细大盘待办

趋势应用概览表 任务单应用管理趋势&明细成本管理表管理数据编目全局资产资产管理资产分析业务全局管理应用血缘资产仪表盘 数据量 数据流趋势表任务quota数据加工者2019数据管理者统一便捷的进行项目管理和权限管理。1)项目管理提供项目自身的增删改查以及项目内的人员、角色、生产账号、库表、存储和队列等资产管理功能。2)权限管理针对人员、角色的权限申请和主动授权,以及过期权限、闲置权限的回收和权限审计等功能。数据同步数据开发调度系统监控报警数据质量项目管理和权限管理产品功能个人资产我的应用数据管理资产概览资产明细大盘待办 趋14数据同步数据开发实时数据源离线调度提交实时运维提交监控告警机器学习数据质量提交质量告警触发触发实时任务告警梦工场-模块关系图ML任务告警项目管理2019权限管理数据同步数据实时数据源离线提交实时提交监控机器数据质量提15梦工场-典型的离线场景数据库导入日志数据导入其他来源数据离线同步实时同步实时同步实时同步导入1 导入2 导入3导入4导入5导入6日志check计算1计算2计算3计算4计算5计算6计算7计算8导出1导出2导出3导出4导出5数据导入数据加工数据导出2019梦工场-典型的离线场景数据库导入日志数据导入其他来源数据离线16梦工场-优先级上推策略3 5 5数据库导入 日志数据导入 其他来源数据离线同步

3

实时同步

1

实时同步

5

实时同步

5 数据导入导入12 导入2

3 导入3

3 导入4

3 导入5

5 导入6

5 日志 5check

数据加工2 3 1 3 5计算1 计算2 计算3 计算4 计算5数据导出2 3 5计算6 计算7 计算81 2 3 4 5导出1 导出2 导出3 导出4 导出5基线(业务)->任务->

调度机->yarn

全流程打通2019梦工场-优先级上推策略3 5 5基线(业务)->任务->调17梦工场-业务下线数据库导入日志数据导入其他来源数据离线同步实时同步实时同步实时同步导入1 导入2 导入3导入4导入5导入6日志check计算1计算2计算3计算4计算5计算6计算7计算8导出1导出2导出4导出5数据导入数据加工数据导出业务下线导出32019梦工场-业务下线数据库导入日志数据导入其他来源数据离线同步实18平台建设

数据应用平台2019平台建设之数据应用平台201919数易数易敏捷、自助的数据分析、可视化平台。数易解决用户三大痛点问题:Where:去哪儿看数据What:数据分析、可视化可以产出哪些内容?How:业务需求那么多,如何快速响应,更方便、自助实现数据可视化?2019数易数易敏捷、自助的数据分析、可视化平台。数易解决用户三大痛20开放的

API

接口可视化能力分析

可视化BI层的可扩展性查询层查询层的可扩展性数据存储层存储层的可扩展性开放分析功能的查询接口扩展对接多种数据源可对接实时、离线、文件多种源数据类型无缝对接主流大数据处理套件数易技术特点2019开放的API接口可视化能力分析 查询层数据存储层开放21数据APP滴滴数据App,让用户随时随地第一时间触达数据,掌握业务,结合数据知识圈子分享,是滴滴内部的一站式数据移动平台。2019数据APP201922标签系统是基于海量标签进行用户分群、快速圈出特定人群、对人群进行计算及分析,支持精细化运营和广告投放等活动的运营支持服务系统。分析速度快数据颗粒度足够细数据交叉分析数据分析快速制定策略提供策略服务寻找相似人群产品策略策略收益分析目标人群关键指标趋势分析效果追踪标签系统2019标签系统是基于海量标签进行用户分群、快速圈出特定人群、对人群23用户单一维度构成分析交叉维度分析用户核心路径漏斗分析2019重点用户关键指标趋势追踪标签系统多维度数据分析用户单一维度构成分析交叉维度分析用户核心路径漏斗分析201924快速圈定目标用户制定千人千面的策略2019人群相似性扩展探索业务增长标签系统

策略制定快速圈定目标用户制定千人千面的策略2019人群相似性扩展探25图表配置简单灵活支持多源数据接入支持多维度分析2019业务监控大屏监控滴滴核心业务指标,是管理者、产品、运营等观察业务状况的“眼睛”。基于实时计算能力分钟级别发现业务故障业务BI监控图表配置简单灵活2019业务监控大屏监控滴滴核心业务指标,是26监控大屏订单数据毫秒级更新,适配实时数据彰显酷炫视觉特效实时业务核心数据监控+仪表盘的展示短信/电话预警配置支持实时、离线数据大屏各类展厅、展会数据大屏2019监控大屏201927平台建设

资产管理平台2019平台建设之资产管理平台201928一站式资源管理平台2019一站式资源管理平台201929资产管理平台成本透出资产概览账单明细历史对比治理抓手删除数据生命周期管理下线任务转交管理入口团队视图红黑榜……一体化的元数据2019资产管理平台成本透出资产概览治理抓手删除数据管理入口团队视图30资产治理(存储、计算)存储治理计算治理团队个人部门同源导入数据相似废弃表生命周期过长……暴利扫描相似计算无效计算数据倾斜参数不合理……2019数据存储和计算治理将治理的控制权交还给每一个使用者,根据业务的发展情况,即时即刻的去管理所属的存储和治理需求。资产治理存储治理计算治理团队个人部门同源导入数据相似废弃表生31资产管理平台个人资产我的资产我的应用数据管理资产概览资产明细任务表大盘待办趋势应用概览单应用管理趋势&明细成本管理表管理数据编目全局资产资产管理资产仪表盘数据量资产分析业务全局管理应用血缘数据流趋势表任务quota2019资产管理平台个人资产我的资产我的应用数据管理资产概览资产明细322019

谢谢2019 谢谢33滴滴数据资产管理实践滴滴数据资产管理实践34目录

/

Contents01滴滴的数据资产概述02平台建设之

数据开发平台03平台建设之数据应用平台04平台建设之

资产管理平台2019目录/Contents01滴滴的数据资产概述02平台建设35滴滴的数据资产概述2019滴滴的数据资产概述201936滴滴的数据资产5.5亿+用户1000+座全球城市日新增106TB+数据日均处理处理4875+TB数据人司机乘客路静态信息:全球、全国、城市等各粒度动态信息:行程轨迹车静态信息:归属人/公司、车牌号、车型…动态信息:里程数、维保记录700亿日ETA请求150亿日定位数据2019滴滴的数据资产5.5亿+1000+座日新增106TB+数据人37滴滴的数据特色010203实时数据占比高结构化数据为主,价值密度高地理位置、轨迹相关的数据占比高2019滴滴的数据特色010203实时数据占比高地理位置、轨迹相关238数据同步数据开发调度监控告警数据质量项目管理权限管理数据开发平台离线引擎实时引擎机器学习引擎数据内容建设数据服务化资产管理平台决策分析业务分析看板分析…数据应用产品平台

BI自助分析工具统一数据门户PCAPP-H5业务应用/DS 内部用户/DS 大屏用户数据公共层数据接入数据消费技术&业务元数据打通指标管理平台数据大屏滴滴的数据平台业务架构元数据打通,更准确识别公司核心数据资产,辅助资产信息的完善,从而沉淀数据资产2019数据同步数据开发调度监控告警数据质量项目管理权限管39平台建设

数据开发平台2019平台建设之数据开发平台201940数据梦工场数易 BI实时监控监控大屏北极星把脉数据应用产品数据地图监控告警数据质量资产管理离线计算引擎Hive

、SparkOmega 标签系统

智能地图…

…流计算引擎Flink数据检索ES消息队列Kafka、DDMQHbasePhoenix机器学习TensorFlow…

…一站式智能数据开发、生产平台——数据中台(数据梦工场)数据开发 调度 同步中心 数据安全 机器学习算法平台高质量的元数据内置规范产出语义明确的元数据衍生更智能化的平台服务极致简单只要会SQL,人人都是数据玩家!完整闭环一站式数据开发生产平台底层封装、模块中心化、平台应用模块智能联动,提升开发效率安全保障权限控制责任到人,权限到字段开发生产数据隔离多种措施保障数据安全行业领先基于开源引擎基线监控机制,标记最核心计算通路,确保核心数据及时产出经验积累国内领先的大数据体系建设及数据治理经验2019数据梦工场数易 BI实时监控监控大屏北极星把脉数据应用产品数41数据同步数据开发调度系统监控报警数据质量项目管理和权限管理稳定高效异构数据源同步服务。集成实时、离线两种方式;快速扩展,插件式拓展多种同步类型;自主运维,同步相关指标清晰可见;为流计算提供实时数据源;2019产品功能数据同步数据开发调度系统监控报警数据质量项目管理和权限管理稳42产品功能数据同步数据开发调度系统监控报警数据质量项目管理和权限管理针对数据开发、临时查询场景,为用户提供更加规范、顺滑的数据开发体验:智能编辑器,支持各种库表、函数、变量联想输入、动态语法检查等提供SQL格式化、错误提示,提供更顺滑的SQL开发体验支持各种SQL(Hive、Spark、Presto)、Shell、PySpark等类型任务支持,4)支持文件多版本、任务回滚;5)直通调度,字段检测依赖,方便测试和上线任务。6)提供历史查询记录和大规模数据下载能力(经过安全审批)2019产品功能数据同步数据开发调度系统监控报警数据质量项目管理和权43产品功能数据同步数据开发调度系统监控报警数据质量项目管理和权限管理支持百万级的离线例行任务调度,保障业务稳定运行。提供开发、生产两套环境,相互隔离支持MR/Hive/Spark/Shell等不太任务类型的任务调度支持小时、天、周、月多种调度周期配置4)数据回溯简单易用:支持重跑、支持多维度运维2019产品功能数据同步数据开发调度系统监控报警数据质量项目管理和权44产品功能数据同步数据开发调度系统监控报警数据质量项目管理和权限管理智能监控任务运行情况,异常时发出告警。体系化解决“是否报警、何时报警、如何报警、给谁报警”,

杜绝无效报警;抽象“数据基线”保证重要数据的及时产出,并动态规划相关任务优先级。结合算法,预测可能的数据延迟,提前预警,将影响面降到最低。升级逻辑,避免漏处理。数据量流量异常数据数据接入任务出错任务延迟基线延迟数据加工表规则监控字段规则监控自定义监控数据质量存储告警计算告警资源告警2019产品功能数据同步数据开发调度系统监控报警数据质量项目管理和权45产品功能数据同步数据开发调度系统监控报警数据质量项目管理和权限管理全链路的数据质量管控,实现数据质量校验、通知、管理能力完整配置

VS

快速配置强规则

VS

弱规则表规则VS

字段规则预设规则

VSSQL规则201941%产品功能数据同步数据开发调度系统监控报警数据质量项目管理和权46产品功能个人资产我的资产我的应用数据管理资产概览资产明细大盘待办

趋势应用概览表 任务单应用管理趋势&明细成本管理表管理数据编目全局资产资产管理资产分析业务全局管理应用血缘资产仪表盘 数据量 数据流趋势表任务quota数据加工者2019数据管理者统一便捷的进行项目管理和权限管理。1)项目管理提供项目自身的增删改查以及项目内的人员、角色、生产账号、库表、存储和队列等资产管理功能。2)权限管理针对人员、角色的权限申请和主动授权,以及过期权限、闲置权限的回收和权限审计等功能。数据同步数据开发调度系统监控报警数据质量项目管理和权限管理产品功能个人资产我的应用数据管理资产概览资产明细大盘待办 趋47数据同步数据开发实时数据源离线调度提交实时运维提交监控告警机器学习数据质量提交质量告警触发触发实时任务告警梦工场-模块关系图ML任务告警项目管理2019权限管理数据同步数据实时数据源离线提交实时提交监控机器数据质量提48梦工场-典型的离线场景数据库导入日志数据导入其他来源数据离线同步实时同步实时同步实时同步导入1 导入2 导入3导入4导入5导入6日志check计算1计算2计算3计算4计算5计算6计算7计算8导出1导出2导出3导出4导出5数据导入数据加工数据导出2019梦工场-典型的离线场景数据库导入日志数据导入其他来源数据离线49梦工场-优先级上推策略3 5 5数据库导入 日志数据导入 其他来源数据离线同步

3

实时同步

1

实时同步

5

实时同步

5 数据导入导入12 导入2

3 导入3

3 导入4

3 导入5

5 导入6

5 日志 5check

数据加工2 3 1 3 5计算1 计算2 计算3 计算4 计算5数据导出2 3 5计算6 计算7 计算81 2 3 4 5导出1 导出2 导出3 导出4 导出5基线(业务)->任务->

调度机->yarn

全流程打通2019梦工场-优先级上推策略3 5 5基线(业务)->任务->调50梦工场-业务下线数据库导入日志数据导入其他来源数据离线同步实时同步实时同步实时同步导入1 导入2 导入3导入4导入5导入6日志check计算1计算2计算3计算4计算5计算6计算7计算8导出1导出2导出4导出5数据导入数据加工数据导出业务下线导出32019梦工场-业务下线数据库导入日志数据导入其他来源数据离线同步实51平台建设

数据应用平台2019平台建设之数据应用平台201952数易数易敏捷、自助的数据分析、可视化平台。数易解决用户三大痛点问题:Where:去哪儿看数据What:数据分析、可视化可以产出哪些内容?How:业务需求那么多,如何快速响应,更方便、自助实现数据可视化?2019数易数易敏捷、自助的数据分析、可视化平台。数易解决用户三大痛53开放的

API

接口可视化能力分析

可视化BI层的可扩展性查询层查询层的可扩展性数据存储层存储层的可扩展性开放分析功能的查询接口扩展对接多种数据源可对接实时、离线、文件多种源数据类型无缝对接主流大数据处理套件数易技术特点2019开放的API接口可视化能力分析 查询层数据存储层开放54数据APP滴滴数据App,让用户随时随地第一时间触达数据,掌握业务,结合数据知识圈子分享,是滴滴内部的一站式数据移动平台。2019数据APP201955标签系统是基于海量标签进行用户分群、快速圈出特定人群、对人群进行计算及分析,支持精细化运营和广告投放等活动的运营支持服务系统。分析速度快数据颗粒度足够细数据交叉分析数据分析快速

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论