2023DataOps实践指南手册_第1页
2023DataOps实践指南手册_第2页
2023DataOps实践指南手册_第3页
2023DataOps实践指南手册_第4页
2023DataOps实践指南手册_第5页
已阅读5页,还剩11页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

20232023DataOps实践指南2目 录CONTENTS 目 录01发展背景 (一)数据开发能力不足阻碍数据驱动型企业建设/7(二)现有数据开发范式主要问题/7(三)DataOps概念的演化/8DataOps(一)DataOps概念定义/10(二)DataOps的作用/10目录1DataOps/102DataOps/目录3DataOps/4DataOps/17

DataOps(一)DataOps/14(二)DataOps/15(三)DataOps/16DataOps(一)/19(二)/19(三)/19(四)/19501发展背景(一)/7(二)/7(三)DataOps/8发展背景数据开发能力不足阻碍数据驱动型2014年大数据写入国家政府工作报告起,我国开始重视大数据产业的发展,陆续发布了《促进大数据发展行动纲要》《大数据产业发展规划(2016—2020年)》《“十四五”大数据产业发展规划》等多个国家级文件,建设数字中国、实施大数据战略成为了我国数字经济发展的核心主线。2019年中央将数据上升到要素层面,2022年“数据二十条”发布,提出建设数据要素市场体系,重点需要完善数据基础制度,加强数据要素、数据产品的供给能力。从企业侧来看,数字化转型的重点是构建数据驱动的能力NeanaePartners2022,97.0%的参与组织正在投资于数据计划,已有超过四分之一的企业建成为了数据驱动型的组织。麦肯锡全球研究院数据显示,数据驱动型组织在客户获取率、客户保留率和盈利机率方面分别实现了23619未来数据驱动型企业将在数据要素市场竞争中抢得先机。成为数据驱动型企业,需要具备三大基本能力,一是坚实的数据平台,二是完善的数据管理体10多年的发展,大部分企业构建了以数据仓库、数据湖为基础的大数据平台,实现了海量数据的汇聚、集成、存储与计算。数据管理方面,随着数据管理(2022每年都有上千家企业完成相关评估工作),推动数据管理的理念快速普及,企业内数据管理体系逐步完善。当前,企业数据能力建设的主要矛盾是旺盛

的数据需求与数据生产力不足之间的矛盾。据调研,头部运营商每月平均新产生200多个数据开发需求,平均响应时长为1.5至2周。展开来看,企业数据开发面临五大核心挑战,分别是数据需求的沟通不畅、数据产品交付的效率低下、数据开发与治理的割裂、数据工作协同差以及数据研发的投资收益比低,这些挑战是导致企业内数据生产力的低下的重要原因。(二)现有数据开发范式主要问题1.数据需求不畅通数据开发人员和业务人员之间的沟通不畅,业务人员往往不能准确表达自己的数据需求,缺少一定的数据思维。同时,数据开发人员也存在业务经验不足的问题,导致无法准确理解业务需求或者无法满足业务需求。数据需求在供需两端的沟通过程中存在歧义,产生信息差,并耗费了过长的时间,使得交付压力进一步增加。2.产品交付效率低随着企业经营与管理活动对数据的依赖程度越来越高,数据需求数量呈爆发式增长,一些大型企业平均每年要面临上千项的数据需求压力。但由于数据研发人员的补充和培养需要较长的周期,导致数据研发引擎需要在超负荷运转的情况下进行交付。确保数据在各个环节中畅通无阻是保障数据工作正常运转的基础。然而,数据工作所涉及的环节链路较长,但数据研发的过程和管理较为松散,标准化、流程化程度低。在这种模式下,当数据研发团队面临大量需求的时候,交付的效率明显不足。数据需求的交付需要一至两周的时间。73.开发治理两张皮数据研发工作早期重心侧重于数据的研发交付并产生影响。此时再进行治理已经较难并产生影响。此时再进行治理已经较难控Ops8artnerDataOps

(三)DataOps概念的演化2014(LennyLiebmann)是优化数据科学和运维之间协作的最佳实践”1。制,质量问题一直在源源不断地产生。加之企业内10个数据质量问题,其中90的问题都是被数据使用方发现。全链路监测与测试工作的缺失,直接降低了用数方对数据的信任程度。4.跨域协同难推进通常情况下,数据研发团队独立存在于软件研发、数据治理等团队,各自独立办公、独立考核。然而,良好数据的应用和产品开发需要明确的业务方向、可信与高效的数据支撑以及承载的软件共同支撑。当前这种职能上的割裂会导致跨团队间的协作和沟通成本极高。企业的组织管理机制阻碍了数据的丝滑流通与交付。5.开发成本难管控数据需求激增的背景下,企业投入大量的存算资源与时间去响应需求,但其中一部分的需求是相似或利用率较低的。粗犷式的需求响应模式的背后是大量的存算资源与时间成本的付出。据了解,某6230天内无人使用,每张3/面对目前数据开发范式遇到的瓶颈,企业需要一种现代化的数据研发、运营、管理实践理论来引导企业高效用数、放心用数,确保数据能够在企业内安全、高质量、高效率地运转,进而释放出更大的数据要素价值,DataOps理念应运而生。

管理技术成熟度曲线,定义DataOps为“一种协作性的数据管理实践,专注于改善整个组织的数据管理者和消费者之间的沟通、整合和数据流的自动化”2。DataOps的定义与当时组织的发展阶段及关注的重点问题有很大的关系。总体而言,DataOps的提出是建立在大数据发展相对稳定和成熟之后,提出方多是厂商或咨询机构,提出的出发点包括强化数据工程的敏捷度、打通数据分析的管道等。802DataOps概念及作用(一)DataOps/10(二)DataOps/10概念及作用(一)DataOps概念定义 二的作用基于对我国大数据产业发展特征的研究以及对企业发展情况的调研,为了更好地引导企业安全、高效、高质量释放数据要素价值,重构数据生产力,我们从打造高效用数流水线,构建灵活保障机制的角度提出如下定义:数据研发运营一体化(DataOps)是数据开发的新范式,将敏捷、精益等理念融入数据开发过程,通过对数据相关人员、工具和流程的重新组织,打破协作壁垒,构建集开发、治理、运营于一体的自动化数据流水线,不断提高数据产品交付效率与质量,实现高质量数字化发展。值得注意的是,DataOps解决的最核心问题是数据研发效能问题。其关注的是数据研发运营管理的全生命周期,而不仅仅是某一单独环节。在建设完善全局最优的研发流水线的过程中,要时刻注意与企业的业务战略对齐,配合相关的组织保障、安全保障和工具保障进行实践落地。图1DataOps概念示意图

DataOps作为一种新兴的数据管理方法,强调数据管理自动化,既能为数据工作者提供敏捷的数据开发支持,同时也简化了数据交付的周期,提升数据成产者与数据消费者的协同效率,成为企业数字化转型快速释放数据生产力的最佳方案。Gartner2025DataOps工具为指导的数据工程团队的工作效率将比不使用DataOps101.形成敏捷数据产品开发流程敏捷迭代,快速响应需求变化。基于敏捷开发方法,可以实现在整个数据处理流程中使用自动化工具和技术来实现快速、可靠和高效的数据交付。敏捷开发方法将数据处理流程划分为多个小部分,并在每个迭代周期中完成一部分数据处理任务,从而实现提速数据交付的目标。CI/CD流程可以实现快速的数据处理流程部署,从而达成连续交付和自动化测试等目标。自助服务,主动利用数据资产。随着企业内成员数据文化水平的提高,数据需求方可以主动利用自助分析平台进行数据指标、报表、驾驶舱等任务的开发,快速满足自身需求。同时要求自助分析平台能够提供完备的数据资产目录、低门槛的功能组件和严格的数据访问控制及数据安全管理。总之,企业在数据生产端通过敏捷开发、自动化工具等方法和技术提升交付效率,在数据消费端利用自助服务的形式支撑数据消费者自主地获取和处理数据,而不需要等待数据团队的支持和协助。在两端共同的作用下加速数据的交付。102.构建高效的跨域协同机制促进跨部门协作,打造协同型团队。根据业务需求,组建跨职能的复合型团队,通过与数据消费者和业务团队的合作,可以更好地了解他们的需求和痛点,为他们提供更好的数据服务和支持。通过IT栈,为数据处理和数据集成提供更好的支持。一些数据驱动型企业都设置了类似“数据BP”的岗位,数据人员下沉到一线的业务团队中,与业务伙伴合作满足业务的数据需求,共同为业务的增长负责。建立良好沟通机制,塑造协同文化。通过建立良好的沟通机制,数据团队可以更好地沟通和协作,及时发现和解决问题。利用邮件、即时通讯工具、项目管理等工具建立沟通渠道,通过每日站会等机制养成沟通习惯,借助内部wiki、共享文档等工具沉淀共享知识和经验。借助技术赋能,善用协同工具。通过采用团队协作工具,数据团队可以更好地协同工作,提高工作效率和沟通效率。包括但不限于现代化的项目管理工具、协同编辑工具、在线会议工具等。总之,企业可以通过组建协同型团队,建立协同保障机制并借助协同工具来共同保障数据团队开展协同工作。3.打造开发治理一体化流水线对数据研发运营管理全生命周期的各个工作环节进行梳理,厘清数据质量、数据标准、数据安全等工作在研发环节中的位置,将数据治理工作融入到研发运营管理的流水线中,形成“先设计、后开发、先标准、后建模”的模式,在研发阶段对数据的质量和安全等问题进行有效管控。某互联网企业将整个开发治理流程分为四个阶段,分别是需求阶段、

设计阶段、开发阶段以及交付阶段。明确各阶段中研发与治理的关系与责任,将数据治理的过程前置到数据开发环节,确保生产出来的数据是能够符合标准和规范的。打造自动化测试流水线,及时发现、处理质量问题。通过将测试用例自动化执行,使用测试工具进行自动化测试,来避免人工测试过程中的错误和疏漏,并加快测试速度。并将自动化测试融入持续集成和持续交付流程中,确保每次修改和更新都经过了测试,确保数据管道的稳定性和质量。最后,实时监控数据管道的运行状态,发现问题并及时反馈给研发团队,确保问题能够快速解决。与传统的先投产后治理的研发治理模式相比,企业基于数据研发治理一体化流程,能够在研发阶段便对数据治理问题进行管控和介入,结合自动化测试能力能够在投产前进行进一步检查。一方面提升了交付的数据质量,另一方面也提升了研发团队与治理团队的协同效率。4.建立精细化的数据运营体系减少人力成本。通过自动化工具、流程和自服务能力来降低企业的人力成本,减少了重复性和低效率的工作,让数据科学家能够专注于更高价值的工作。降低运营成本。通过自动化运维和数据全链路监控等流程,来及时发现并反馈效能、资源以及质量等方面的问题,降低企业的运营成本,提高运营运维效率和数据管道的可靠性。这样可以让企业更加聚焦于业务创新,提高企业竞争力和盈利能力。构造全局数据观测视图。数据可观测性是一种极其重要的数据管理手段,它不仅能够帮助组织充分了解其系统中数据的运行状况,而且可以在数据11出现故障时及时提醒团队并降低其影响范围。数据可观测性的实现需要通过对数据链路的全面分析和上下文的数据可见性,才能有效地监控和维护整个数据生态系统。通过建立高质量的数据管道和监控机制,数据团队可以实时监测和分析关键数据资产的健康状况,以便在出现问题时及时发理aOps实践指南 某科技集团基于工具平台支持企业全球数据平台智能化运营,利用智能化运营体系指标对开发质量、数据作业、平台稳定性、数据安全、数据资产以及平台资源进行自动化的监控、分析与提升,进而改善开发效率、避免合规风险、提升资源利用率。总体而言,企业通过精益化管理在不牺牲数据交付效率的情况下,将数据流水线中的浪费情况降至最低。1203DataOps能力框架(一)DataOps/14(二)DataOps/15(三)DataOps/16能力框架(一)DataOpsDaOps,Ops实践指(一)DataOps只有头部的机构(互联网、电信、金融、电力)在进行点状试点,业界缺少体系化的实践和基于最佳实践的理论框架,阻碍了DataOps理念的发展。2022年,中国通信标准化协会大数据技术标准推进委员会TC601)联合金融、通信、互联网行业头部企业以及各大服务厂商,共同成立了DataOps能力标准工作组,旨在凝聚共识,建立DataOps的理论框架和实践路径,搭建交流平台,培养DataOps生态,推动数据驱动型企业的能力建设。经过与十余个行业、百余家企业的几百位专家学者共同探讨,我们发现企业目前对DataOps的实践效果主要有两方面预期。一是关注用数赋能。一些非数字原生型企业,在数字化转型的过程中,逐渐认识到数据文化意识的重要性,并开始努力培养这方面的能力。然而,由于缺乏相关经验,这些企业较难提出能够促进业务发展的具体数据需求。这些企业希望借助DataOps的实践,提升用数据进行决策的能力,养成用数据分析的习惯,从而更好地应用数据赋能业务,同时搭建起一条敏捷高效的数据研发流水线来支撑业务的探索。二是关注研发效能。另外一些以互联网企业为代表的数字原生型企业更加关注数据的研发运营效能,这一类企业普遍有着较强的数据应用意识,能够提出具体的数据需求来赋能业务的发展。这类企业希望通过DataOps的实践来提升数据供给的效能,加速数据产品的研发,降低数据管理与维护的成本。

130集了大量的企业案例与实践,经过工作组的抽象和10多次的研讨,最终形成了一套DataOps图2DataOps能力模型框架DataOps“4+3434包括了数据的研发管理、交付管理、数据运维和价值运营,就像大工业化时代的流水线生产一样,让企业数据应用开发以非常高效的状态运转。在流水3全管控。DataOps能力模型框架的提出,旨在帮助企业建立对DataOps工作的宏观视图,了解DataOps能力建设的核心主线与保障体系,为企业的能力建设提供参考。随着标准的进一步的细化,能够为企业提供详细的建设依据,全面地评价企业在DataOps方面的能力状况,摸清当前的现状和问题,指明下一步发展的方向。14(二)DataOps核心环节价值运营数据研发管理量化驱动持续变革成本管理持续优化异常管理变更管理资源管理监控管理部署与发布管理配置管理测试管理自助分析开发管理设计管理需求管理为了实现不断提高数据产品交付效率与质量,实现高质量数字化发展的目标。DataOps工作组从数据工程化能力着手,结合DataOps维和价值运营四个环节。价值运营数据研发管理量化驱动持续变革成本管理持续优化异常管理变更管理资源管理监控管理部署与发布管理配置管理测试管理自助分析开发管理设计管理需求管理数据交付管理数据运维数据交付管理数据运维数据研发管理

图3DataOps数据流水线框架数据交付管理数据研发管理是指企业对数据开发过程的标准化管理,目的是构建研发治理一体化能力。企业在数据开发阶段,构建数据研发治理一体化流程,将作有机结合,能够加强数据治理与开发工作的协同在数据研发阶段加强对数据需求的约束,并利用自助分析能力来提前探查或解决部分数据需求,大大提升了数据需求的沟通效率,减少了部分研发工作压力。数据研发管理包括需求管理、设计管理、数据开发和自助分析四部分内容。需求管理:强化需求评价,明确数据需求内容,降低沟通成本。在建模环节做好数据标准、质量的设计。数据开发:构建离线、实时、数据挖掘的一体化开发能力,并在开发任务链中嵌入数据质量稽核能力,及时发现并解决数据质量问题。自助分析:为业务人员提供便捷的数据自服务空间,支持数据需求自助探查,缓解需求响应和交付压力。

数据交付管理是指通过对测试、配置、部署和发布等环节的自动化与标准化,提升交付效率和质量的管理过程。企业在数据的交付与部署阶段,通过构建自动化的测试和交付流水线,加强数据版本与代码质量的管理,帮助企业提升数据产品交付的自动化水平,加快交付速度,提高交付质量。数据交付管理包括测试管理、配置管理、部署与发布管理三部分内容。测试管理:建设自动化测试流水线,加强对量均进行测试,提前发现问题、处理问题。配置管理:加强版本控制与环境管理。对代码版本与数据版本均进行管理,保证各阶段数据的随时可用性和可验证性。部署与发布管理:建设自动化部署发布流水线,加快数据部署效率,降低人为操作风险。数据运维数据运维是指对数据研发运营管理全生命周期的效能、资源、质量、成本等方面进行系统性的管15情况情况,及时发现问题、反馈问题、处理而Ops实践指南

持续变革:打造反馈机制,及时收集数据研发各环节堵点问题,深挖问题源头并持续改进。量化驱动:构建完善的量化指标体系,对数据开发流水线交付效率、需求响应速度等进行定量评估,不断优化工作流程和资源分配策略。不断优化数据开发全流程。异常管理、持续优化五部分内容。监控管理:构建完整的监控体系,对开发流水线运行情况、质量情况等进行时刻监控预警。资源管理:对数据资源、计算资源、存储资源等进行的调度优化,合理分配相关资源,优化运维成本。变更管理:打造标准化、敏捷化变更流程,应对开发流水线的各类变更场景。异常管理:构建异常管理知识库,构建自动化运维能力,提升运维效率。持续优化:基于数据流水线运行情况,持续对流水线任务编排情况、平台配置情况进行调优,不断提升开发流水线性能。价值运营价值运营是指通过量化指标驱动数据运营,从而提升数据研发的质效,目的是构造精益数据运营管理能力。企业基于量化指标对数据开发工作的成本进行精细化管理,并驱动企业对经营管理、开发流程和工具平台持续优化,形成“以数治数,持续革新”的闭环运营。价值运营包括成本管理、持续变革、量化驱动三部分内容。成本管理:细化数据产品交付和维护成本核算,精细控制相关资源投入,识别并减少浪费。

(三)DataOps实践保障为了保证DataOps研发流水线能够持续高效运转和迭代完善,企业需要有力的保障措施。本指南提出了组织、工具和安全三个维度的保障要求。这些要求的目标是引导企业以全局最优为目标,保障数据研发流水线的平滑运作。系统工具系统工具是指围绕数据流水线构建的敏捷、自动化、一体化的工具平台。工具平台是企业实践DataOps理念的抓手,帮助企业内部工具研发团队或外部厂商搭建完整、成熟的DataOps工具链,为更好的保障企业形成一体化的数据研发治理能力提供技术支撑。系统工具包括研发管理、交付管理、运营运维、数据安全四部分内容。研发管理:支持代码线上流转,遵从“先设计,后开发”的建设原则。CCD能力,支撑自动化的测试流水线与部署流水线功能,能够对代码和数据进行版本控制。运营运维:支持对数据研发全链路的监测与质量等信息。数据安全:建立全链路数据安全监测与管控能力,在数据研发全生命周期中落实权限的管控、敏感数据脱敏加密、高危操作审计等功能。16系统工具 组织管理 安全管控系统工具组织管理安全管控安全测试风险管理安全风险策略协作协同岗位角色组织架构数据安全运营运维交付管理研发管理图4DataOps保障措施框架安全测试风险管理安全风险策略协作协同岗位角色组织架构数据安全运营运维交付管理研发管理组织管理组织管理是指对企业内部组织管理架构、角色的管理,目的是打造为敏捷、协同的数据驱动型组织。通过重构组织架构、岗位角色及协同机制支撑DataOps流水线运行,企业结合现状与发展需要,健全落实管理规范和要求,革新数据研发、管理、运营架构,完善岗位及晋升考核体系。为长期践行DataOps理念,优化数据开发流程提供组织保障。组织管理包括组织架构、岗位角色、协作协同三部分。组织架构:合理配置企业内部的数据技术架构、数据人员架构。岗位角色:设置相应的岗位角色,明确晋升路线与考核方式。协作协同:依托敏捷方法,着重关注团队、工具间的协同问题,并持续进行优化。

安全管控安全管控是指对数据研发全生命周期的安全管理。将安全管控嵌入到数据流水线中,通过在各环节设置安全屏障来分担交付端的安全责任,提高数据可信度。安全是保障企业正常生产运营的重中之以敏捷、全面的方式在数据研发的过程中嵌入安全属性,帮助企业减少安全事故。安全管控包括安全风险策略、风险管理、安全测试三部分内容。安全风险策略:加强对数据研发全生命周期中的风险识别,风险预测。提前制定风险预案,将风险的影响持续降低。风险管理:结合外部法律法规、监管要求与企业内部安全需求,健全风险管理策略并不断更新完善。安全测试:主动

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论