




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
平台、用户、业务的正向循环,推动企业数据价值不断释放EB级覆盖开发/算法/运营/财务/分析师等岗位淘宝TMALL天猫天猫超市……阿里在通过数据治理解决什么问题随着业务对数据的持续深度应用,伴随业务阶段递进发展以及数据架构的动态演进,数据治理亟待解决的重点问题也在不断涌基础准则:一切做数据治理的起因,都要有业务侧的痛点[成熟阶段]业务效益与成本均衡[成熟阶段]业务效益与成本均衡•成本的增长是否伴随着业务增长•数据对业务支撑的ROI如何评估[规模阶段]灵活便捷与风险管控•敏感数据是否有数据泄露•不同类型的数据是否有灵活的管理策略安全管控安全管控[应用阶段]数据可用性与易用性•数据是否准确可用,是否是及时产出的数据•数据是否准确可用,是否是及时产出的数据•有哪些高质量数据,可以让业务进行便捷使用[起步阶段]数据量与稳定性•是否有数据在执行•数据是否完成了正确执行阿里巴巴数据治理平台建设组织协同会队队方法论紧密结合平台建设方法论紧密结合平台建设权限隔离数据建模数据集成计算稳定权限隔离数据建模数据集成计算稳定数据运维性能提升数据运维性能提升任务调度数据开发任务调度数据开发成熟-成本治理成熟-成本治理数据分析数据地图数据质量风险识别数据分析数据地图数据质量风险识别数据资产数据服务数据资产数据服务规模-安全管控......……......……应用-应用提效起步-生产稳定文化运营文化运营院武核刊企业数据资产DataWorks数据地图离线同步数据地图实时同步数据服务数据安全数据服务数据质量数据资产治理数据洞察任务运维数据开发任务调度数据建模流式计算MaxCompute阿里云大数据计算服务CDH/CDPEMR+OSSHologres/ADBCDH/CDPEMR+OSS实时数据仓库开源大数据平台实时数据仓库云原生数据湖平台业务价值治理成效业务价值治理成效业务使用稳定可用成本效能业务应用业务使用稳定可用成本效能业务应用1.数据治理成效体现:稳定可用维度业务价值治理成效业务价值治理成效稳定可用基线破线故障数平均故障排查时长平均故障恢复时长重点保障业务应用稳定可用基线破线故障数平均故障排查时长平均故障恢复时长重点保障业务应用确定对业务的稳定可用的SLA通过合理的人力协作及治理工作高效保障业务所需的重点数据能及时、准确产出,满足数据对业务的约定3个9,即99.9%,全年可停服务时间:365*24*60*(1-99.9%)=525.6min4个9,即99.99%,全年可停服务时间:52.56min故障机制挂钩责任机制严重问题优先处理5个9,即99.999%,全年可停服务时间:5.256min故障机制挂钩责任机制严重问题优先处理重要数据重点保障重要数据重点保障级--A4重点应用级--A4重点应用故障等级P2故障P2故障P3故障P3故障P4故障P4故障数据时效性保障:通过智能基线进行数据产出保障灵活的优先级策略,调度与计算的资源倾斜,智能的提前告警干预30minAC 60min120min45minCGEF.10minGEF.120120min60mn60mnJLL50min30min50min30min承诺产出:9:00正常稳定产出正常稳定产出K点期望产出时间9:00K点期望产出时间9:00、告警余量30min、基线8级(最高级)倾斜倾斜DataWorks调度资源倾斜MaxCompute计算资源 预测基线产出时间提前干预稳定性问题提前干预稳定性问题 安全-正常运行告警-启动通知 ! 任务责任人当日值班表人员!! 全链路任务诊断排障依赖检查定时检查调度检查运行对比依赖检查定时检查调度检查运行对比引擎资源检查历史运行趋势日志代码详情质量规则检查引擎资源检查历史运行趋势日志代码详情质量规则检查9:00任务正常运行产出9:00任务正常运行产出模型质量规则设计实践根据数据仓库/集市的层次及功能定位配置数据源数据源 STG层 ,-ODS层 入口层/数据引入层/基础层数据清洗层/整合加工层轻度/高度汇总层维表层/事实表层出口层/应用层/报表层2.数据治理成效体现:业务使用维度业务价值治理成效业务价值治理成效应用使用频度分析类应用产品数据支撑覆盖度使用时效数智类应用使用频度分析类应用产品数据支撑覆盖度使用时效数智类应用产品业务类应用产品业务使用构建完整的元数据及血缘链路,重点业务应用的使用覆盖支撑C-里云使用时效数据支撑覆盖度数据地图使用时效数据支撑覆盖度数据地图表/字段检索表/字段血缘应用使用频度 T_1·T数据使用提效:统一的数据搜索入口数据使用提效:统计使用热度,面向使用者进行数据推荐相关表推荐基于使用链基于使用链路的多种表基础信息基于使用的字段热度信息融合业务描述的字段信息数据使用提效:通过模型及指标上下游血缘信息,引导使用在生产环境中,基于调度作业、数据同步等场景自动解析得出的表和表、字段和字段、表和其他实体之间的血缘关系,以可视化血缘大图的形式直观展示数据流转关系,表血缘表血缘-示例字段血缘字段血缘-示例数据使用提效:业务核心表,设置为常用表数据专辑通过“数据专辑”将表进行有效组织,在自由式搜索之外,引入中心式分发的匹配模式。是把业务需求满足度最高,质量最好,使用路径最短的数据模型给到用户。3.数据治理成效体现:成本效能维度业务价值治理成效业务价值治理成效成本效能成本效能平台资源成本数据计算时效分析响应时效重点保障业务应用平台资源成本数据计算时效分析响应时效重点保障业务应用成本效能维度:启动治理的时机,进行现状分析分析现状、预测未来、确认重点治理范畴。以发起资源优化治理为例,需要关注的数据:计算量级业务应用数集群资源量团队数据分布资源冷热分布存储量级计算量级业务应用数集群资源量团队数据分布资源冷热分布存储量级业务应用数据资源分布业务应用数据资源分布示例:存储资源量拐点出现示例:存储资源量拐点出现示例数据示例数据示例数据示例数据跨业务线的数据治理,需要组织架构保障 CTO-集团数据专业委员会集团数据治理专题小组集团数据治理专题小组业务治理团队协同合作团队业务治理团队协同合作团队数据平台团队数据平台团队定标准:《集团数据资产治理规范》修订与迭代定标准:《集团数据资产治理规范》修订与迭代协同法务/财务/安全等多个团队共同开展常态化数据治理协同法务/财务/安全等多个团队共同开展常态化数据治理团队核心工作组以责任人机制,作为治理落地的核心工作空间责任人业务线责任人工作空间责任人业务线责任人资产责任人确定责任治理的效果好坏对我有什么影响SLA|岗位职能要求|专业技能知识体确定资产的责任人有没有人负责治理,是不是所有资产都有人负责资产责任人定义|责任人完整率|资产管理覆盖率简化治理成效理解,建立统一的度量标准支持全局、项目、个人维度的综合健康分评估,面向研发、质量支持全局、项目、个人维度的综合健康分评估,面向研发、质量、计算、存储、安全五大领域进行细化评估部门/团队健康分成本效能维度:提升治理效能而伴随业务要求进行治理实施工作推动时,往往发现,数据治理进展缓慢、成效不足,数据问题依旧严重;而缺少「系统化」「体系化」的工具、平台、方法来支撑数据治理落地和持续推进,是关键原因之一。数据治理管理员数据资产负责人治理效益难评估治理效益难评估•数据治理效果没有面向组织间统治理实施难度大治理实施难度大持续治理成本高持续治理成本高制定重点「治理计划」,分阶段达成治理目标目标跟踪周期目标跟踪目标跟踪周期目标跟踪C-里云状态:状态:目标已达成场景选择内置治理场景模板目标设定制定各阶段治理计划-数据稳定性优化模板-存储资源优化模板-计算成本优化模板-支持选定场景配套的治理目标-结合时间周期进行可达成目标预估S1治理目标-根据治理目标,按日进行进展更新及成效分析-计划结束或截止后,生成计划总结分节约计算CU量节约计算CU量12c2024/01020304052024/06数据成本效能治理框架体系事前问题预防拦截数据治理健康分评估新支持HologresSQL任务9项,自动进行SQL与配置的自动问题发现与拦截l运行前:限制select*检查l提交前:无产出表检查l发布前:调度参数遗漏检查 资源使用分析计算资源消耗存储资源消耗异动分析资源明细融合完整丰富的元数据,以「治理健康分」事前问题预防拦截数据治理健康分评估新支持HologresSQL任务9项,自动进行SQL与配置的自动问题发现与拦截l运行前:限制select*检查l提交前:无产出表检查l发布前:调度参数遗漏检查 资源使用分析计算资源消耗存储资源消耗异动分析资源明细事后问题治理优化涵盖DWonHologres实时数仓中的表/任务/API表表新支持研发、质量、存储维度等14项治理项,自动进行数据问题发现l存储:长时间未访问表l质量:热门访问表未配置质量规则l研发:任务运行时间超长内置数据问题的各类治理操作策略,帮助治理负责人低成本、高效率地达成治理目标针对可快捷完成的治理操作,在治理工作台中直接内置,便于用户批量快速完成问题优化基于阿里巴巴十余年政企治理实践,沉淀高优先级治理问题,同时给出建议操作的有效操作表优化手段生命周期修改表责任人……任务优化手段任务下线任务暂停修改调度配置……影响分析表下线针对涉及多人协作、多治理操作环节、需要一定周期完成的治理场景,通过自动化治理专项保障治理动作的高效执行与安全稳定暂停调度Step4产出表生命周期管理Step4产出表重命名Step1延迟任务调度Step3下线任务Step2以成本优化场景为例,通过数据治理中心进行批量无效任务自动化下线。复杂的条件判断、散乱的处置手段、低效的重复操作无效任务不敢治理、不愿治理,造成存储和计算资源的浪费ExcelExcelDataWorks数据治理中心-优雅下线提供流程化、自动化执行的数据治理优化手段降低治理难度,规避处理风险,大幅提升治理效率自动化执行Step1延迟任务调度12小时Step1延迟任务调度12小时通知下游任务责任人静默等待12小时Step2暂停任务调度12小时静默等待静默等待12小时StepStep3下线任务静默等待12静默等待12小时通知任务责任人|下游任务责任人Step4重命名产出表为表名_toStep4重命名产出表为表名_to_be_deleted静默等待12小时通知产出表责任人|下游表责任人Step5删除产出表通知任务责任人|产出表责任人通常的治理策略和阶段•策略1:抓大放小(头部优先):•每个治理项在推进上都是先批量推出头部清单,并在推进中吸收用户反馈,改进治理识别规则;•策略2:分阶段重点突破(递进式治理)•存储治理:针对数据的存储做治理,不涉及其他因素。主要是资产生命周期治理、技术优化。技术优化主要是结合引擎侧能力,如存储切换和冷数据自动归档压缩等优化操作。•任务治理(无效/低效资产下线)任务治理主要正对当前项目中出现的大量无效任务,对其进行专项的下线,如无下游无访问节点、长期暂停节点等。•链路治理(重复资产治理,ADM穿透直接使用ODS的治理)•策略3:打造日常化治理能力(治理存量;管控增量)建立配套指标、工具和治理体系账单(网页/邮件/钉钉)明细信息治理动作应用账单应用账单整体部门账单个人账单业务账单整体部门账单个人账单业务账单团
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 挂靠联营协议合同
- 各行业人才招聘量统计表
- 二手房房屋买卖合同书
- 矿用管路安装施工方案
- 萃取塔清洗施工方案
- 屋面台阶维修施工方案
- 衡水罐体铁皮保温施工方案
- 脑血管病用药项目风险识别与评估综合报告
- 安徽拼接式蓄水池施工方案
- 同花顺:2024年年度审计报告
- 2024年世界职业院校技能大赛高职组“导游服务组”赛项参考试题库(含答案)
- 2024解析:第八章牛顿第一定律、二力平衡-基础练(解析版)
- 高职高考数学复习第四章指数函数与对数函数4-3对数的概念及运算课件
- 全国计算机等级考试(NCRE) 计算机一级(MS Office)考前必背题库(含答案)
- 工地早班会活动记录表(普工、塔司、信号工)
- 2024解析:第十三章内能-基础练(解析版)
- 《selenium安装教程》课件
- 第47届世界技能大赛网络安全项目江苏省选拔赛-模块C样题
- 提高痰标本留取成功率 呼吸科QCC成果汇报品管圈护理课件
- 2024年辽宁省中考数学真题卷及答案解析
- 物业员工安全知识教育培训
评论
0/150
提交评论