2023数据治理实践白皮书_第1页
2023数据治理实践白皮书_第2页
2023数据治理实践白皮书_第3页
2023数据治理实践白皮书_第4页
2023数据治理实践白皮书_第5页
已阅读5页,还剩134页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据治理行业实践白皮书(2023)袋鼠云数据治理行业实践白皮书(2023袋鼠云数据治理行业实践白皮书(2023)目录一、数据治理是数字化转型的必经之路 1(一)数字全球化催生数字治理需求 1(二)中国数字时代治理新范式 2二、数据治理概念 3(一)DAMA体系 4(二)信通院数据治理服务商成熟度模型(DGS) 5(三)国家标准:数据治理规范 7(四)数据中台 7(五)数据治理与数据中台 8三、数据治理目标与价值 9(一)构建数据标准体系 9(二)提升数据质量 10(三)推动数据安全体系建设 10(四)推动数据资产体系建设与管理 11(五)推动数据管理组织体系建设 11(六)促进数据应用及共享 12四、数据治理方法论 12(一)数据治理架构 12(二)数据治理模式 14数据治理模式介绍 14数据治理模式对比 16数据治理模式选择 17(三)数据治理实施路径 19(四)数据治理项目交付步骤 21项目交付组织建议 21项目交付步骤 22项目交付成果 23五、数据治理保障体系 24(一)组织体系保障 24(二)制度体系保障 25六、数据治理平台工具 27(一)数据治理平台工具全景图 27(二)袋鼠云数据治理管理平台 28数据模型 29数据开发 31数据安全 33数据标准 35元数据管理 38数据质量 44数据服务 47七、数据治理行业实践 51(一)金融行业数据治理实践 51银行机构数据治理实践 51证券公司数据治理实践 56基金公司数据治理实践 64(二)集团型企业数据治理实践 70某央企数据治理实践案例 70某旅游投资集团数据治理实践案例 74某控股集团数据治理实践案例 79(三)制造行业数据治理实践 84某汽车制造企业数据治理实践案例 84某芯片制造企业数据治理实践案例 90某半导体企业数据治理实践案例 94(四)政务领域数据治理实践 98某市住建局数据治理实践案例 98某高铁枢纽站数据治理实践案例 103某市数据治理实践案例 108(五)港口行业数据治理实践 111某大型港口数据治理实践案例 111某码头数据治理实践案例 126(六)教育行业数据治理实践 1311.某高校数据治理实践案例 131袋鼠云数据治理行业实践白皮书(2023袋鼠云数据治理行业实践白皮书(2023)第第1页一、数据治理是数字化转型的必经之路(一)数字全球化催生数字治理需求表1技术革命与经济全球化资料来源:《全球数字治理白皮书(2022年)》但是,数字全球化为全球经济发展提供新动能的同时,也引发了数据安全、1中国信息通信研究院《全球数字治理白皮书(2022年)》袋鼠云数据治理行业实践白皮书(2023袋鼠云数据治理行业实践白皮书(2023)第2页些都在催生数字治理需求。基于此,信通院在《全球数字治理白皮书(2022)》首次尝试提出全球规则、标准、程序及执行机制的过程。图1全球数字治理体系框架资料来源:《全球数字治理白皮书(2022年)》(二)中国数字时代治理新范式袋鼠云数据治理行业实践白皮书(2023袋鼠云数据治理行业实践白皮书(2023)第第3页新应用,加快推动数字产业化,推进产业数字化转型。字化转型,既为市场增效,又为企业社会赋权。管理、用数据创新”的治理机制。二、数据治理概念二十大报告实现业务数据化、数据价值化,助力企业数字化转型。那么何为数据治理?数据治理包含哪些模块?本章将结合目前市面上比较主流的几个体系进行阐述。(一)DAMA体系(DataManagementAssociationDAMAInternational,以下简称“DAMA”)在其《DAMA(2版)控制和共享决策(规划、监测和执行)的系列活动2。此外,DAMA2DAMA资料来源:《DAMA数据管理知识体系指南(第2版)》DAMA进行数据资产的评估都缺少具体的描述。2数据管理协会(DAMA国际):《DAMA数据管理知识体系指南》,机械工业出版社2020年版(二)信通院数据治理服务商成熟度模型(DGS)数据治理服务商成熟度模型(DGS)6216求等,明确数据治理目标和范围,并评估实施数据治理可行性;理,确保数据治理项目的顺利实施,降低风险和成本;系和设计文档,形成满足甲方需求的数据治理体系;方案实施能力域提供方通过依托相关平台工具,实现方案的落地;2图3数据治理服务能力成熟度模型资料来源:《DAMA数据管理知识体系指南(第2版)》DGS从服务商的角度出发,对数据治理的方方面面进行了解释,给出了模型实现部分数据治理工作,DGS截至目前,DGS2DGS。整体来看,数据标准等能力项。图4信通院数据治理服务商成熟度评估(三)国家标准:数据治理规范5(GB/T34960.5-2018)合、分析、应用、呈现、归档和销毁过程中,提出数据治理的相关规范3。及数据治理过程的要求,从而实现运营合规、风险可控和价值实现的目标。(四)数据中台人工智能、大数据等技术发展和企业数字化转型加速的双重驱动下,201920224;广义来看,数据中台是一套运用数据推动企业数字化转型升级的机制和方法论。3《信息技术服务治理第5部分:数据治理规范》(GB/T34960.5-2018)4艾瑞咨询《2022年中国数据中台行业研究报告》图5数据中台核心架构图资料来源:艾瑞咨询《2022年中国数据中台行业研究报告》全国首个数据中台团体标准《数据中台元数据规范》(T/ZAII035-2022)实现数据汇聚、治理、运营的架构5。这与艾瑞咨询的观点不谋而合。实施方法论支撑,构建的一套持续不断把数据变成资产并服务于业务的机制。(五)数据治理与数据中台复用能力,灵活高效地解决数据应用需求。5《数据中台元数据规范》(T/ZAII035-2022)不涉及的数据应用领域。换言之,数据中台真正实现了企业内部数据的闭环。为可以从顶层设计、专题及工具、数据应用三项核心内容入手。图6袋鼠云数据治理框架图三、数据治理目标与价值(一)构建数据标准体系袋鼠云数据治理行业实践白皮书(2023袋鼠云数据治理行业实践白皮书(2023)第第10页范有效依据。(二)提升数据质量高质量的数据对管理决策,业务支撑都有极其重要的作用。务系统、提供数据服务、发挥数据价值的必要前提。(三)推动数据安全体系建设必要环节。来的风险。(四)推动数据资产体系建设与管理体系与数据服务能力。(五)推动数据管理组织体系建设IT数据治理各项任务的有效执行。治理制度文化的建立和传播。(六)促进数据应用及共享规范的自助消费数据应用。间的沟通与合作,加强参与组织之间的联系等益处。四、袋鼠云数据治理新范式(一)数据治理架构ITIT图7袋鼠云数据治理框架图IT规划,实现组织数字化转型,固化管理机制及流程体系。据治理及数据应用互为动力,共同推动企业数字化转型的实现。图8数据治理蓝图架构示例(二)数据治理模式数据治理模式介绍8证明,通常数据治理模式包括三种基本模式。模式一:自下而上,以数据架构为重,开展数据治理。技术型企业,或政府机构,或新建、自研系统较多的企业。模式二:自上而下,以明确的数据应用为重,开展数据治理。行数据治理。石。据资产的未来开展数据治理。图9数据治理三大基础模式&地阐述数据价值,整体可行性较高。&于高风险高收益模式,需要企业高战略、高执行的推进落地。图10数据治理组合模式数据治理模式对比三大数据治理模式开展方式、适用场景、优劣势、资源投入各不相同。模式一,自下而上,切入方便,成本可控,重架构,但脱离应用,对执行团队架构能力要求较高,成效慢;模式二,自上而下,目的明确,切入方便,成本可控,重应用,但轻治理,容易造成面子工程,出现重复治理的风险;数据治理三大模式对比如下表所示:表2数据治理三大模式对比数据治理模式选择不同的数据治理模式,对企业的数据治理水平、组织协同程度要求不同。((度。这种模式对组织协同度要求相对较低,主要靠数据治理团队推动进行。以需求为主,对数据治理的水平要求一般。(将企业数据治理水平推向一个新水平,同时完成数字化组织的转型。&模式三的组合模式对组织协同性、数据治理水平要求最高。图11各数据治理模式图状,选择当下最合适的数据治理模式。图12数据治理PDCA循环机制(三)数据治理实施路径企业数据治理实施路径通常包含三个阶段。6美.质量管理专家沃特·阿曼德·休哈特(WalterA.Shewhart)首次提出第二阶段:深入拓展阶段,数据赋能常态化阶段。这个阶段数据应用成为重点,企业开始深挖数据价值,提高数据应用覆盖。KPI台、数据治理平台工具等实现智能管理,企业数据思维认知全面提升。第三阶段:智能应用阶段,运营决策智慧化阶段。探索数字业务,开启新篇章。这个阶段以智能应用为主,AI图13数据治理实施路径三大阶段(四)数据治理项目交付步骤项目交付组织建议专业的交付团队,是项目成功的关键,依托于专业的数据治理服务团队和知识沉淀,开展项目实施工作。CIOCDO图14数据治理项目交付人员配置项目交付步骤4第一步是需求调研第二步是方案设计治理。第四步是上线运维:整体开发完成后进行试运行,同步开展产品测试工作,均通过后进行产品验收及正式上线,质保期间由运维部门进行巡检及售后工作。图15数据治理项目交付步骤图项目交付成果理成果。图16数据治理项目交付成果图五、数据治理保障体系(一)组织体系保障CIO或CDO战略和考核机制。组织协调层由虚拟的数据治理委员会承担,负责统筹管理和协调资源,细化数据治理的考核指标。建和维护组织级架构(包括业务架构、数据架构、IT架构),报。工作执行层由业务部门和技术部门共同承担,负责在数据项目中落实数据治理工作,与管理层协同参与各项活动。图17数据治理组织框架图资料来源:信通院《数据资产管理实践白皮书6.0》表3数据治理组织架构角色职责表资料来源:信通院《数据资产管理实践白皮书6.0》(二)制度体系保障参考依据,从制度上保障数据治理工作有据、可行、可控。图18数据管理流程制度数据治理制度体系通常分层次设计,依据管理的颗粒度,制度体系可划分为总体规定、管理办法、实施细则和操作规范四个层次。基本内容如下:总体规定从决策层和组织协调层视角出发,包含数据战略、角色职责、认责体系等,阐述数据治理的目标、组织、责任等。管理办法从管理层视角出发,规定数据治理各活动职能的管理目标、管理原则、管理流程、监督考核、评估优化等。实施细则从管理层和执行层的视角出发,围绕管理办法相关要求,明确各项活动职能执行落实的标准、规范、流程等。操作规范从执行层的视角出发,依据实施细则,进一步明确各项工作需遵循的工作规程、操作手册或模板类文件等。表4数据管理制度体系六、数据治理平台工具(一)数据治理平台工具全景图数据开发与治理一体化是将数据治理的过程融入到数据开发的全生命周期的中后期阶段。平台覆盖了日常数据治理过程中的核心资产管理模块。图19数据治理平台工具全景图(二)袋鼠云数据治理管理平台DataOps图20袋鼠云数据治理产品框架图智能标签等。((19),实现一站式数据治理工作:数据模型从根本上控制企业增量的数据质量问题。Hive质量问题。Hive支持更规范、更便捷的建模方式,基于数据标准,实现可视化、配置化的建表建模及审批等流程管控。图21数据资产平台Hive建表1图22数据资产平台Hive建表2FlinkFlinkTable,FlinkKafka2.X、Kafka_0.10、MySQLOracleKafkaRDBMSTable图23数据资产平台Flink建表数据开发实时开发FlinkMetricIoT离线开发Hadoop值。任务发布Taier赖和周期配置,且相比开源方案可支持更多的配置内容。图24Taier调度方案Taier状态监控;支持百万级任务并发调度,满足大型数据中台日常调度需求。WebDAG下游依赖。支持手动配置、依赖推荐和自动生成三种方式的任务依赖配置。Cron持任务冻结、失败重试、任务实例过期时自动跳过策略;HadoopYARN三是优先级与任务提交队列:Taier擎的任务;支持任务优先级管理,高优先级的任务将被优先提交至计算引擎。任务运维并记录每个任务的运行日志,协助开发人员排查各种异常问题。报告,定时发送指定人员。图25运维总览页面图26查看任务上下游依赖数据安全数据脱敏管理张表的数据内容时,敏感字段数据会自动进行脱敏处理。图27数据脱敏管理数据权限管理支持Flink库表权限的管理,该权限配置可赋能实时开发平台。图28数据权限管理数据分级分类对字段进行分级。图29数据分级分类管理数据标准标准映射。词根管理对词根信息进行线上化管理,词根信息可用于数据标准的定义。图30数据标准词根管理码表管理支持维护管理码表数据,码表数据可用于数据标准的定义。图31数据标准码表管理行业模板系统内置部分行业数据标准,支持用户查询并一键引入至自己的标准体系,更加贴合行业规范和标准。图32数据标准行业模板数据库拾取用于数据标准的建立基础,根据拾取条件,将已存在的字段名转化为数据标准或者词根,丰富平台数据标准。图33数据标准数据库拾取标准定义支持数据标准的管理维护。支持自动关联已建好的词根、行业模板,引入码表。图34数据标准定义标准映射将已发布的数据标准和平台已采集到的字段进行映射匹配,评估企业数据的规范性。图35数据标准映射标准统计全局统计分析该模块的数据标准、码表、词根,包括看板统计、标准热度、标准目录分布、标准新增趋势、标准来源分布。图36数据标准统计看板元数据管理ROI健康情况和使用情况进行观察,帮助该公司识别并掌握真正有价值的资产。数据地图合、维护,提供快速查找数据的能力。图37数据地图看板元数据详情一是基本信息:支持查看表的技术属性、业务属性和表结构信息。图38元数据基本信息二是数据预览:支持快捷浏览表内部分数据。三是血缘关系:图谱化的方式进行展示当前表的血缘,便于快速定位问题,追踪数据流向。图39元数据血缘关系四是任务依赖:自动解析当前数据表的相关任务依赖关系。图40元数据任务依赖选择两个版本进行元数据比对,更好地定位问题、对比前后变更差异。图41元数据版本变更资产的沉淀反映实际的业务发展。元数据应用感知元数据变更。图42元数据应用元模型管理对元数据信息进行更规范管理。图43元模型管理元数据管理据信息,更规范地维护元数据信息,便于后续的元数据信息查询和利用。图44元数据管理元数据质量指标分析展示。一是完整度分析:统计每张表的业务属性(必填项)是否均已完成维护。图45元数据质量完整度分析BI图46元数据质量血缘分析数据质量任务查询、实时校验等。规则配置一是单表校验:单表校验规则主要包括完整性校验、准确性校验、规范性校验、唯一性校验、自定义SQL。图47数据质量单表校验AB;AB。图48数据质量多表校验任务管理任务列表展示规则每次执行的实例信息,包括实例的运行状态、运行时长等基本信息。单表任务图49数据质量规则报告二是表级报告:从多种维度自动统计表级的质量情况,包括校验记录情况、告警情况。图50数据质量表级报告多表任务自动统计两张表的差异总数和差异比例情况。图51数据质量多表任务实时校验Kafka时进行抽样校验。图52数据质量实时校验数据服务袋鼠云数据服务平台定位于统一的企业数据资源“纵向贯通”“横向互联”APIAPIAPI,OneServiceAPI/APIAPI图53数据服务API管理APIAPI,APIOracleSQLServerPostgreSQLDB2KingbaseES8GreenplumTrinoImpalaAnalyticDBRDSTiDBInceptorKylinMongoDBHBaseRedisPhoenixAPIAPIAPIAPIPOSTGETPUTDELETPATCHHTTP/HTTPSWebServiceSocketJSON、XMLAPI。同时,也可APIIPAPIAPIAPIAPIAPIAPIAPIAPIAPIAPIAPIAPIAPIAPI。图54数据服务API调用API有三种认证方式:API-TOKEN、USER-TOKEN和AK/SK签名。API-TOKEN(APIUSER-TOKEN(用户维度APIHeadersAPI-TOKEN/USER-TOKENAK/SKAPPSecretAPIAPIAPIURL调用。服务端对此参数进行解析,完成身份验证,适用于安全性较高的场景。APIAPIAPIAPI,APIAPIAPIAPIJSONJSONAPI图55数据服务API测试API产品在数据安全的设计上有以下保障:申请审批机制APIAPIAPIAPIAPIAPI调用限流APIAPI/API黑白名单限制APIIPIPIP三种认证方式API-TOKEN、USER-TOKENAPIAPI-TOKEN/USER-TOKENHeaderAPIAK/SKAPIAK/SKAPPSecretAPIAPIAPIAPPKeyAPIHeaderAPI行级权限支持建立行级权限标识,指定对应用户能访问的行级数据。传输加密:RSA+AES、SM2+AES用于传输加密,为请求/返回信息做加密处理,保障数据传输的安全性。1)RSA/SM2:RSA/SM2私钥加密、公钥解密”。RSA/SM2RSA/SM2公钥用途:对AES密钥进行加密处理。RSA/SM2RSAAESRSA/SM2API—API2)AES:需调用者通过程序手动生成AES密钥。AES密钥用途:对请求/返回信息进行加密/解密处理。七、数据治理行业实践(一)金融行业数据治理实践银行机构数据治理实践案例背景础,在推动银行数字化转型的过程中扮演了“承上启下”的关键角色。业务数字化转型。解决方案基于数据盘点构建全行级数据资源目录图56银行数据资源目录ETL准一般分为基础指标标准和计算指标(又称组合指标)标准。基础类数据标准和指标类数据标准通过分别建立基础类数据元和指标类数(数据类型和值域等属性(化(符合命名规则、约束规则、数据类型和值域的规定)。图57银行数据模型体系基于法律法规构建数据分级分类体系(JR/T0171-2020)C3、C2C2或明文下载,则必须有如下管控措施:需求提出部门必须限定最小用户使用范围,并经过本部门总经理(如果OA系统内应当做好相关角色权限的设置和管控。C2DRM行主要负责人。C2台页面查询。所有数据使用均遵循“谁使用谁负责”的原则。(包含相关业务需求的提出到业务验收测试环节予启动开发。权文档的存档,以备后续审查。图58银行数据分级分类体系交付内容数据治理咨询协助完善数据治理组织架构(涵盖数据治理决策层、管理层和执行层)及1010数据平台建设数据应用实施(200表2005建设成果数据治理成果数据治理相关的战略规划设计材料。定制相关的规章制度来保障治理落地。作的关键步骤并交付相关文件给某银行。四是治理考核及运营,结合某银行数字化考核目标制定数据治理考核方案,并提供数据治理支持运营及优化的方法论材料。各项属性元数据,构建全行级数据资产目录。标类数据两大标准体系,并完成历史数据落标工作。级体系,并完成历史数据的分级分类工作。工过程校验规则,构建全行级数据质量监控规则体系。平台实施成果ImpalaSQLETLEast4.0/5.0(1104(张表过行内现有数据进行模型验证。200个系统保监数据加密规范实现数据安全保障体系。五是数据分析场景服务,根据某银行应用需求提供不少于5个建模场景要求的数据支持和不少于5个应用场景的功能支持开展数据自主分析、开发报表和管理驾驶舱等。证券公司数据治理实践案例背景随着证券行业发展,2016立健全数据治理和质量控制机制。2018征求意见稿DCMM52022解决方案DataOpsDataOpsAIBIAPI经营分析等各类需求方。图59基于DataOps数据治理架构图SDOM产品、交易等数据模型。图60SDOM数据标准模型OLAP资讯数据作为券商主要数据源之一,应用广泛,涉及投资交易、资产管理、经纪与财富管理、资产托管等各个领域,往往会将资讯数据应用到资管投研一体Wind唯一性、一致性等方面进行多维度评估,保障券商数据质量。图61OLAP资讯数据校验基于数据模型的标签数据治理融部的营销运营、异常交易监控及用户生命周期管理等。图62证券标签数据治理OneService图63证券数据服务市场交付内容数据平台建设数据平台包含数据实时开发平台和数据应用平台,实现数据的“管、治、用”。一是构建大数据实时开发平台流程,并提供运维监控曲线和日志功能。具体功能如下:Hive进行数据落库。任务管理,平台应支持对实时同步任务的统一管理,支持FlinkSQLjar管理。函数管理,平台集成开发过程中的常用函数,同时平台支持通过本地资UDF、UDAF、UDTF二是构建数据应用平台RESTfulRESTful可获取数据内容,应用程序无需了解表结构、分库分表等细节信息。增长,通过增加服务处理节点支持高并发。SQL数据服务图64证券数据服务平台数据服务平台的建设,将带来以下效益:减少数据复制,降低成本。应用系统无需拷贝数据内容,通过服务调用降低备份、安全等管理成本。提升应用开发效率。应用程序无需考虑大数据的分库分表设计、无需了减少数据不一致的冲突。数据应用实施FlinkSQL建设成果海量业务数据汇聚,构建金融级数据平台未来的数据采集、存储和技术需求。统一数据开发,降低大数据开发门槛实时开发平台满足证券公司科技部门能统一在一个平台上进行集中开发和对内外各种租户数据加工,提供统一一体化数据开发平台,满足大数据、SQL建数据仓库。满足监管报送,实现一体化数据服务监管报送的数据服务方式和数据使用要求。数据分析场景服务根据某证券公司应用需求,袋鼠云为其设计了以下三种数据分析场景服务:一是客户办理的两融业务进行信用账户资产负债实时计算:实时获取柜台行情数据,并按照分钟级进行行情聚合。实时获取客户的股票持仓数据,并将客户持仓数据按照状态进行管理并仓资产。实时获取两融客户合约流数据,根据合约类型分类计算融资负债、融券更新客户融券负债。实时获取客户资金转入数据,并更新客户的总资金资产和可用资金。实时获取客户的融券卖出获得资金以及资金使用情况并动态更新客户资价证券持仓市值等指标输出客户资产负债表。实时获取客户两融授信申请、客户征信申请、客户征信审批等数据,实到下游系统。(能并推送到下游。FLink实时平台:当日股基交易量、当日理财交易量当日开户数和开户流水可转债提前赎回提醒中证易签私募回访:生成回访任务提醒、回访任务成功提醒基金公司数据治理实践案例背景建设治理之路。解决方案围绕监管规范打造基金行业数据治理体系的责任与职能,配套数据治理相关制度,推进数据治理工作落实。分类管理,实现数据可见、可用、可管理,全面量化数据价值。关规范,通过数据标准化的形式提升数据质量,提高数据可用性。据之间关联关系,通过分级、加密等手段进行全链路安全管理。础业务信息全范围内保持一致性、准确性、完整性、可控性。图65基金公司数据治理架构图基于资管全要素规范实现基金主数据管理(主数据个业务系统、业务流程和决策支持系统等。多监管要求提供了一道坚强的防线。图66基金主数据管理基于元数据打造企业级数据资产中心数据,汇总后提供元数据查询分析服务。影响链路,合理订阅并维护用户关注的数据。图67基金数据资产中心围绕基金业务构建全维度画像体系销能力也逐渐成为企业关键竞争力,但建设过程主要存在以下难点:理解能力比较有限,缺少对投资者需求变化和行为变化有效研究手段。业务结合起来,提出有意义的洞察和建议。和复用,可快速支持例行、临时或专题性的数据分析68建设成果数据管理方面设的推进组织,推进数据治理相关制度发布和治理落地。质量提升的长效机制。4095%以上。中台能力方面中台共享能力建设,沉淀业务及服务能力,将是未来的核心竞争力。3面赋能。一是业务中台:当前为百万+客户提供基金销售服务。为提升系统交付速度AITA(高效,以数据驱动运营提效,有效规避日常运营工作中的风险及问题。AINLPAI客服、协同办公平台等多个下游业务系统中。Hadoop(二)集团型企业数据治理实践某央企数据治理实践案例案例背景客商难管控等痛点。随着企业股份数字化转型不断深化,数据应用方面的需求不断扩展。但公数据标准不统一,数据质量不可控,数据共享不畅通等问题。标,科学化管理公司数据资产和挖掘数据价值。解决方案数据建模标准为目标进行建设。据进行数据治理,主要包括以下几个步骤架构设计ODS、DWD、DWS、ADS客商域:企业所服务的所有客户及供应商;商品域:企业自营或代理商品、SKU;等;风险域:企业发生诉讼、处罚等风险数据;仓储物流域:所有仓库出入库、在途等信息;公共域:系统码值、参数信息、组织架构、人员以及标准化映射信息。业发展阶段诉求。图69数据治理产品架构图及说明数据统一归集SAPMDMCRMOA得界面全量数据或为高度汇总报表数据等问题,使用数栈底层数据同步工具FlinkxPySparkAPI据的采集及简单清洗,接入数据中台。手工填报数据通过完成填报报表的初步设计后,回流手工填报平台(当前使用饭软),进行定期同步,定期填报,定期回流采集的形式来完成数据的收集。图70数据采集流程数据集中处理及标准设计指标体系的统计和收集。ODS一业务行为的各项信息,纵向可以进行上钻下钻,横向可以对比。SAP系设计方法论,统一定义指标体系的各信息(ID,指标名称,指标主开发负责人一。数据应用场景数据应用场景以集团供应链运营管理为核心,分别对运营管理、物流管理、信用管理数据进行统一归集,按照业务指标逻辑进行数据处理开发,满足业务人员数据报表填报和数据统计分析应用场景。SAPSAP填报]、[签约情况分析]、[重大事项填报]场景建设,有效减轻业务人员每周报表加工填报的工作压力,同时提高业务数据线上留存能力。看板,为业务人员发现潜在风险和日常业务数据便捷查询提供有利条件。结合业务逻辑指标进行数据开发,实现[授信额度跟踪]、[逾期数据分析]、[行明确当前各行业产品盈利情况提供有效支撑。建设成果751493ODS247DWD41DWS64DIM22ADS108某旅游投资集团数据治理实践案例案例背景140的基本数字化需要。解决方案业务实际数据需求的数据决策平台。段“做治理,立标准”;三阶段“建应用,启服务”。图71旅游投资集团数据治理架构图搭平台,汇数据180划分8个主题域,形成430G数据资产,包含2000多项指标和300多个标签。做治理,立标准规则,对数据质量进行预警,避免不合格的数据流入生产应用。建应用,启服务134共享利用。建设成果数据资产,让文旅产业在数据驱动的科学管理下,取得更高质量发展。1+N通过构建集团级数据中台,盘活集团现有数据,对数据进行充分的清洗、加1N图72旅游投资集团数据中台架构X性,实现数据从“层层上报”向“实时采集”转变。图73旅游投资集团产业大屏洞察多类消费者偏好特征,发现业务增长潜力3图74旅游投资集团消费者全生命周期某控股集团数据治理实践案例案例背景应链运营板块包含的贸易模式有大宗供应链贸易及服务、4S企业。集团的整体系统体系主要围绕核心ERPITERP的开发、运维人员,基于股份集团的业务管理,ERPERPERPERPERPERPERP平台工具建设三大层面,构建股份集团的数据资产体系。解决方案为了全局性、统筹性地进行数据资产规划,梳理数据资产管理模式,开展数据治理,项目整体分为以下三大阶段。第一阶段:咨询规划,选模式,定方向再逐步展开。调研诊断,全面盘点现有数据、业务现状,定位目前问题。一是现有源ERP是数据质量及管理情况盘点。10架构规划设计,集团整体升级大数据架构,打破数据孤岛,统一规划数据治理体系。架构规划整体采用中台的数据体系,即在全域原始数据的基础上,图75数据架构整体框架示意图大数据平台规划,搭建集团大数据平台体系,满足集团大数据汇集、存图76集团整体大数据平台雏形示意图第二阶段:架构规划,理框架,定目录这个阶段,主要基于数据治理模式,自下而上开展数据治理,整体规划数据架构,理清集团的数据资产框架,初步框定股份集团数据资产目录体系。调研诊断,全面调研方向系统使用现状及痛点、业务现状、业务流程、细梳理业务领域、数据内容,进一步明确架构设计思路。架构设计,以波特价值链分析模型为理论基础,全面梳理企业的业务领图所示。图77架构框架示意图数据资产目录建设,以架构框架为基础,在大数据平台中,采集数据,图78数据资产目录示意图第三阶段:实施落地,搭平台,建资产这个阶段,在整体框架下,明确应用场景,搭建大数据平台,开始数据资产建设。搭建平台,搭建大数据开发平台,补充大数据实时、离线计算能力,测试平台实现路径,迁移原有数据应用。场景建设,以价格场景为试点,展开数据资产建设。价格风险是大宗供数据资产建设,以满足价格场景需求为目标建立搭建数据模型,按照数根标准、字段标准。建设成果股份集团未来以自下而上的数据治理模式为主,逐渐纳入数据应用。三是搭建大数据平台。搭建实时计算、离线计算的大数据计算能力,搭建数据资产管理平台,纳入数据质量管理工具,逐步搭建数据治理能力。四是探索大数据分析场景。以价格场景为试点,打通数据需求分析、数据模型建设、数据开发的大数据交付路径,为未来更多大数据场景分析提供基础。五是构建数据标准体系。在数据资产建设过程中,梳理词根词缀,建立数据标准体系,梳理词根标准2300+,为数据标准体系建立,奠定了坚定的基础。(三)制造行业数据治理实践某汽车制造企业数据治理实践案例案例背景ITIT内部建立信心?到消费,消费后产生的数据再回流到生产流程的闭环过程。解决方案咨询服务实施计划制定。如字段的约束(例如控制不能为空的核查,以及具体的技术操作和编制定期的报告等。平台搭建服务中心和应用中心。图79某车企数据治理架构图项目实施等。一是数据资产门户量情况有直观的了解。包括不限于:数据指标的统计:数据源数量、表数量、存储量、使用量、质量评分。数据趋势的统计:数据分布情况、数据增长趋势、数据使用热度。数据使用排行:数据存储排行;元数据质量:规范趋势、规范排行。图80某车企数据资产门户二是数据地图平台内的所有数据表情况,同时可以进行全方位管理数据资产。表名搜索。等,同时可以进行预览,直观地查看表内数据情况。3某个节点上,数据开发者在寻找数据时可根据数据类目快速定位。数据审批授权:提供表级数据权限的管理,当用户需要跨项目访问表时(读/写/分区的数据更新时间,超出时间后自动删除数据,降低临时数据造成的存储压力。SQL便于快速排查指标问题,检查指标统计逻辑,依赖链路是否正常等。三是数据质量的监控规则定义、事中的数据生成监控、事后的数据质量分析。图81某车企数据质量分析示意对需要监控的数据配置监控规则。验数据质量。动生成监控报告,帮助用户复盘总结数据问题。四是数据安全数据权限控制:支持表级数据权限的管理,当用户需要跨项目访问表时(读/写/分区的数据更新时间,超出时间后自动删除数据,降低临时数据造成的存储压力。SQLSQL数据得到的过程。证、银行卡号、邮箱、手机号、IP识别,同时提供用户自定义规则。建设成果某车企通过数据治理平台项目,完成了数据规范、标准、质量、服务体系、治理组织架构等内容建设,基本能满足企业2—3年数据发展的使用诉求。结合数据中台+数据治理方案,在该阶段取得了阶段性的成果,概括如下几个方向:一是构建强大数据开发与治理平台体系BIAPI二是快速定位数据问题根本原因用户。某芯片制造企业数据治理实践案例案例背景3DNANDIDM3D产经营过程中面临大量的数据问题需要解决。低,需要自行实现可扩展性架构,容易形成单点故障。数据质量问题难以及时暴露和溯源。度,缺乏数据血缘关系,难以掌握数据流转情况。形成面向用户、面向管理、面向领导的全面数据管理视角。解决方案图82某芯片制造企业数据治理架构第一步建设离线平台采集数据30+LDAP第二步建设资产平台,管理数据中心,盘点数据资产,为数据价值挖掘提供“全、统、通”的元数据基础。300600040PB数据使用趋势;元数据质量:规范趋势、规范排行等等。图83某芯片制造企业数据资产门户示意图第三步建设数据质量平台,治理数据面进行多维度评估,保障企业数据服务,提高数据质量管理。图84某芯片制造企业数据质量管理示意图建设成果一站式内网访问,提升工作效率OSS降低数据开发难度,提升企业运营价值40000构建数据质量管理体系流入下游,提高企业数据质量。某半导体企业数据治理实践案例案例背景某半导体企业是一家为信息交互和人类健康提供智慧端口产品和专业服务案、MLED、智慧医工融合发展的“1+4+N+生态链”业务架构。ERP、MESOAHRDCSPLCCDH最终实现集团数据资产化的目标解决方案“数据资产化”“数据服务化”“数据安全化”来实现企业数字化转型。图85某半导体企业数据治理解决方案架构图数据标准化务系统及设备数据进行整理归类后,最终修订生成了数据标准。其中标准包含((度)、管理属性(归口工厂及管理部门)、代码拓展(代码值、代码描述)。数据质量化通过事先、事中、事后三个环节解决了数据质量监控的问题,具体如下:1)事先预防控制。设置数据质量规则,即针对不同的数据对象,配置相应源名称检查、数据格式是否正确、数据是否为空等进行事前的预防控制。式进行管理,保障数据在各个环节的质量进行有效控制。数据资产化以下几个方面进行:含元模型创建、元数据同步、元数据管理、订阅元数据等。数据地图。数据资产地图是对整个数据中台内的数据进行统一查询、管影响。数据服务化相应的资产数据:SQLAPIAPIAPIAPIAPIAPIAPIAPIAPIAPI/APIAPIAPIAPIAPIAPI称、APIAPI数据安全化控:数据平台的安全防护。用户实现认证访问和授权操作,所有操作记录都ACLpolicyprojectapp能够对数据访问进行多种颗粒度的权限访问。套敏感数据访问审批流程,做到专人专权。建设成果通过统一数据平台的建设,对“人”“机”“料”“法”“环”各个环节实现了真正意义上的数字化转型。为企业实现灯塔工厂奠定了坚实的基础。数据资产统一管理CDH统一登录及管理,又做到了租户和用户逻辑隔离。8198%(81%的突破。41PLC、DCS41(四)政务领域数据治理实践某市住建局数据治理实践案例案例背景以落地解决方案数据资源是某市住房租赁监管服务平台建设最重要的资源,具有以住房租赁信息为主数据的基本特征,并体现数据资源的关联性的特点。根据“基于数据,围绕数据,面向数据”的思路,进行数据治理。图86某市住建局数据治理架构数据治理建设思路项、业务数据来源、业务数据描述等。方式、联系人等。息传递、数据交换、数据归档等全过程。平台建设提供了坚实的数据基础。数据治理步骤一是形成汇聚库。利用共享交换平台以及大数据基础平台采集数据源数据,袋鼠云数据治理行业实践白皮书(2023袋鼠云数据治理行业实践白皮书(2023)第第100页(市细信息。逻辑关联等方式形成面向分析应用的主题数据库。的数据服务接口,从基础库或主题库中提供数据服务支撑。建设成果房屋信息“一点通”6大类领域相关的重点建筑、社区、地铁分布和交叉分析等实用信息均面向公众实现即时查询。图87某市住建局地产市场检测预警平台-房屋信息房屋安全“报警器”信小程序等途径,实名认证查询本人名下房屋的健康档案信息。88房屋物业“导览图”为广大业主参与物业管理、物业精细化管理提供更大便利。图89某市住建局地产市场检测预警平台-房产物业房屋交易“详情表”四个环节调整为“交易网签合同备案”一个环节办理,依托平台数据共享成果,图90某市住建局地产市场检测预警平台-房屋交易房屋租赁“监测器”房屋保障“新管家”某高铁枢纽站数据治理实践案例案例背景某高铁枢纽站总建筑面积达122万方,年到发客流1.37亿,东西跨度8201050解决方案联感知)+GIS(地理信息系统)+BIM(建筑信息模型)+协同治理。图91数字孪生V字模型561863图92某高铁枢纽站需求概览5200四是实现综合集成。重点打造“一图一库一网+N个子场景”。全局与精准对焦的有效协同。图93某高铁枢纽数字孪生全景运行图数据、名录数据、事件数据等,通过边、云、超计算,生成治理数据。体协同”。N个子场景:根据急用先行、成熟先行的原则,先期打造4个子场景。调度指挥可视、工作流程可溯、风险隐患可控。图94某高铁枢纽数字孪生出行安全场景图95某高铁枢纽数字孪生气象防灾场景8快速联动处置。图96某高铁枢纽数字孪生消防安全场景1300图97某高铁枢纽数字孪生治安防控场景建设成果突破,也可以为更大规模的数字孪生城市建设提供样板和经验积累。实现“分散管理”向“一网统管”的转变。二是再造了智能化的业务流程。以“一件事”视角设计数字孪生应用场景、图98某高铁枢纽数字孪生建设成果某市数据治理实践案例案例背景某省明确了一体化智能化公共数据平台是该省政府数字化转型的标志性成的拓展和延伸,是提升县(市、区)数据资源管理能力的基础,是赋能县域治理、解决方案6基础平台能力。数据目录体系IRSIRS图99某市一体化智能化公共数据平台示意图数据治理体系全域区级数据的统一治理。数据仓和特色专题库按需建设街道数据仓。建设成果提高运维效率,降低开发成本通过对各领域关键、核心数据元的标准化,使各关联部门在未来数据建设中(包括新增需求或者系统上线维护后提出修改等情况极大地提高建设开发效率。有效避免和减少重复投资,节约建设资金对数据局全局的信息系统建设进行统一规划,将可复用的管理能力、数据计算能力、数据分析能力、数据共享能力、数据处理能力等多方面进行统一整合,避免信息系统的重复建设。提升领导监管监控能力,切实保障各项权益数据说话,使政府的决策更有依据、更智能、更科学。(五)港口行业数据治理实践某大型港口数据治理实践案例案例背景改革开放四十年以来,某港口实现了由内河港、河口港、海港、亿吨大港、5211世界级港口集群作出积极贡献。解决方案根据某港口的目前的状况,围绕“一”规划“五”标准的方针,进行全面的数据治理。数据域规划决策等各种能力的大数据仓库。画各个分析对象所涉及的港口各项数据,以及数据之间的联系。时无影响地包含进来,保障良好的扩展性。图100某港口数据域规划图数据采集标准针对数据源类型、数据类型以及网络类型的不一致,设定了多种数据采集标准方案。网络互通数据采集标准方案数据库直连方案

图101数据库直连方案图102中转数据库方案API图103API接口方案Kafka图104Kafka中转方案网络不互通数据采集标准方案中转数据库方案图105中转数据库方案Kafka图106Kafka中转方案FTP图107 FTP方案数据开发标准离线数据处理流程4DWDDWSODSmergeDIMDWSODSADSDWDEXCEL图108某港口模型设计与数据流向实时数据处理流程图109实时数据处理流程第一层ODS数据贴源层同步至本地,形成原始数据。DWDjoin、流式数据与离线维度信息等的组合,将一些相同得到最终的实时明细数据。第三层DWS公共实时汇总层KafkaOLAPKuduKuduKafkaKVMySQLMySQL1)元数据管理再以人工的方式进一步完善缺漏的信息。完整度分析统计每张表的业务属性(必填项)是否均已完成维护。血缘分析

图110质量分析图发现血缘关系缺失的表,如数仓下游层级的表、BI报表等。用户可以通过添加数据库,系统自动得出解析结果,统计库中血缘孤立的表。图111血缘解析主数据管理需要一砖一瓦地打好基础,切勿急于求成,追求速成。数据完整性的中文注释都必须齐全且统一。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论