




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
DataOps成熟度框架与云原生数据中台的关系01
什么是DataOps?Q:现在越来越多的技术和厂商都在产品中会提到DataOps,但是可能目前大家对DataOps定义还没有很统一的定义。那么,到底什么是DataOps?为什么它现在会被很多企业青睐?A:DataOps是从DevOps借鉴的一个理念。可以理解为DataOps是把DevOps的一些理念映射到了数据开发上,它们的很多观点是可以一一对应的,如开发及运维、云原生、微服务化、CI/CD,这些都可以在DataOps里找到,如果你的DevOps里没有这些概念,就要考虑下你的开发流程是不是符合最佳实践。但DataOps与DevOps也有区别。DataOps是想处理数据,而在DevOps里是不需要处理数据的,它主要是做应用的开发,应用的CI/CD、发布及运维。但就像刚才说的,DataOps实际上属于一个比较早期的概念,大家对它的解读还是会有不一样。在DataOps里面有很重要的一点,就是要处理数据的各种不可预知性。数据语义是一个难题,它没办法在CI/CD里被容易定义,不是没有办法,但很困难。之前大部分原生大数据组件开发时并没有考虑到这个规范。DevOps也经过了很长一段时间的演变,像Git逐渐成为规范,微服务基本上都是标准的组件。大数据组件体系架构特别多、选择特别多,发展也特别快,现在的Spark、流数据,Flink,卡夫卡,底层基本上也是K8S、Hadoop和Hdefs,这些基本上可以形成标准化。那么,现在就是做DataOps一个比较好的时候。DataOps的工作主要有五个方向:第一个是任务调度。主要包括云原生调度、容器的调度,这跟DevOps是一样的。第二个是数据安全。数据安全以前基本不在DataOps的考虑范围,也不在数据开发的范围内,但现在数据安全很重要。第三个就是数据管理和数据门户。大家可能会说原数据管理不都好多年了,但以前的原数据管理主要是针对关系型数据库,关系型数据库对原数据的管理相对容易,只要到数据库里把原数据爬出来就可以。但现在有流数据、非结构化数据,还有TaiDB等,各种各样的原数据怎么样去管理?血缘管理更复杂了。之前是几个SQL之间的血缘管理,现在关系到各种各样的查询、各种各样的系统、数据门户跟MapDatas是一样的。第四是数据检测的可视化。DevOps里有很多可监测到的指标,数据层面也一样。用多少资源、花多少时间、创造了多少价值,之前都是一个黑盒子,但DataOps的整个数据都是端到端的,相关指标可观测、可管理。第五就是集成开发。所有的工具必须是可集成的,不可能做一个工具负责血缘管理,再做一个工具负责调度。我认为,DataOPS里面必须具备这五个工具体系,如果你的DataOps体系里面缺了任何一个,我都觉得是不完善的。Q:DataOps如何做持续测试?A:数据开发、数据程序的测试一直是老大难问题,甚至头部大厂整套流程做下来也是现在非常困难的。现在DevOps里有一个很有意思的观念,就是把集训资源的管理全部用Code来管理,大数据也一样。美国有一个很火的公司叫DTB,它是要把所有的ETL(数据仓储技术)流程做成代码管理,将SQL的所有转换变量化、代码化,将所有ETL程序间的关系、血缘全部用代码的形式来进行管理。可以说,不只SQL是代码,整个调度也都是代码。所以,DBT的整个ETL程序可以被放到Git里面。用户可以在指定的data
source的测试环境中可以测试,可以到Data生态环境中直接切换一个Data
source,将其变成生产环境,所以它允许支撑ETL流程的CI/CD。将所有ETL程序之间的依赖全部代码化,这就是DTB的一个思路。除了ETL之外,我们现在做的事就是把所有大数据组件里面的关系、程序全部代码化,这是未来的必然趋势。02
DataOps与云原生数据中台的关系Q:DataOps与云原生数据中台是什么样的关系?他们目前各自的发展情况如何?A:国内数据中台也提了两三年了,有成功的案例也有失败的。我们在这方面也做了很多探索。我们的观点是,数据中台绝对要做,但DataOps是实现数据中台的一个最好的方法论和工具体系。这跟DevOps是一样的。一个业务系统可以使用DevOps方法来做,也可以使用传统方法去做,两种方法最后做成的业务系统可能都差不多,但这只是开始的时候差不多,后面的持续迭代、持续运维的时候,就能看出来DevOOps的优势了。数据中台也是一样,它是给大家提供一个数据开发和运营的底座,开始你可以用各种各样的方法去做一个数据平台,但是后续迭代和不断发展的时候,DataOps就成为最合适的一种方法。DevOps提倡的是赋能和自助,通过CI/CD持续发布,开发工程师自己来做运维测试,DataOps也一样,也是提供工具让各个业务部门等数据使用者,能够在中台上拿到自己需要的功能。我们认为这是DataOps和数据中台的关系。Q:企业如何去做云原生数据平台的改造?整个过程可能会面临哪些问题?A:我觉得,现在云原生的数据中台还是一个比较有挑战性的课题,但也是个必然的趋势。很多企业的数据平台效率非常低,因为传统大数据平台使用的Hadoop、卡夫卡等都不是在云原生的方式下开发,资源使用效率低、管理复杂,但云原生会大大降低整个系统的管理复杂度,提高系统的使用效率和运营效率。这个过程中会面临的困难,主要是人才问题。这个技能的门槛比较高,需要研发既懂云原生又懂新技术,这样的人才缺口还是挺大的。但这也有个好处就是,云原生产品的标准化程度比较高,这样容易做出标准化的产品让大家使用。举个例子,以前装一个大数据平台需要直接面对底下的物理及虚拟机,但各种各样的配置,不同的操作系统、环境和网络,所有这些都得去管理。K8S的出现就让大家不必再考虑所有的底层组件,只要跟云原生这个体系对接就可以了。这是一个很好的机会,所有的企业一定会看到,但这个过程肯定是需要时间的。
Q:您之前多次提到过“数据中台方法论”,这个方法论具体都包含哪些内容?A:这个方法论的主要目的就是追求效率。我们国内很多客户的大数据平台的资源使用率大概都是15%-20%,但Twitter的自然使用率一般能达到50%-60%,而且还有各种各样的弹性扩展、自动容错等云原生功能。了解这个之后,需要做到以下四点:第一,选择合适的工具和平台。这个是基础,选不到合适的架构工具,也就不存在效率了,所以如何选择合适的平台工具很重要。第二,要有一个完善的顶层架构设计。因为数据平台要把大家的数据接进来,与业务系统对接起来才能产生效果。DevOps分布式的开发,集中式的管理,但这个集中式管理不是靠人,而是靠体系和工具。第三,业务驱动。为了大数据而大数据一般成功不了,一定是可以解决业务问题的才能走到最后,解决不了业务问题的数据平台是伪命题。解决业务痛点之后,还要赋能业务。要把业务部门引入进来,不断使用这个数据平台,获得业务部门认可后这个东西才能走。第四,要有价值衡量体系。如何量化产生的价值,很困难但是也很重要。我们一般要求决策方、业务方,技术方和数据平台等各方面职责明确,避免后面出现越来越多的问题。
03
DataOps应用Q:2018年,高德纳把DataOps纳入了技术管理成熟体系曲线里面,DataOps被正式接纳和推广。三年过去了,目前有什么成熟的应用案例出来吗?A:DataOps在云原生出来之前就有,但可能没有叫这个名字。头条、腾讯等大厂们都有自己的一套DataOps体系,Twitter等硅谷公司也有,那为什么现在才提出来?因为这个东西要产品化。虽然大厂都有DataOps体系,但是将近一百人的数据团队,eBay大概有三百多人,一般企业很难请得起这么多高薪的人才。现在DataOps火了是因为大家都需要,数据价值不是大厂独有的。但横梗在前的成本问题怎么解决?这就需要DataOps工具将数据价值开发平移化。为什么称为云原生的DataOps?因为只有云原生技术统一了各种各样的硬件环境、开发环境、发布环境、运维流程等等之后,DataOps才可以将聚焦在数据开发、数据监控、数据管理、原数据和数据安全上。Q:您在Twitter的时候,一个主要职责就是让公司所有的人避免重复开发数据组件。这个需求是在一个什么样的背景下产生的?A:这个就是很重要的不要重复造轮子的问题。重新造轮子会造成资源消耗,然后减慢开发速度。要避免不重新造轮子,那么就必须知道现在有什么“轮子”,但很多企业并不知道自己有什么“轮子”。DataOps很重要的一点就是原数据管理,它的原数据管理比原来的要更广泛,它可以知道整个企业有什么样的数据功能。更重要的是,企业重新造轮子,一旦两个轮子造得不一样,会把这个车开垮。我们原来做数据门户,就要求所有的业务部门和数据分析师必须做统一的接口,然后发现有两个部门就在重复造轮Q:DataOps会有开源生态吗?A:目前是逐渐成熟的过程中,还没有成熟到大家都可以使用的端到端产品。我们之前公众号有篇文章讲到,硅谷的大概十几家公司,每个公司都有自己的数据门户和产品,但是没有成熟的产品。今年6月份左右,Linking将自己的数据门户产品开源了,也有人在做血缘管理,但都是这两年才起来的公司。这个生态在逐渐形成,但是远远没有到达成熟的阶段。Q:现在,DataOps还解决不了哪些问题?A:我觉得,当前DataOps没办法解决业务价值的挖掘问题。DataOps实际是降低了数据使用门槛,让更多的业务人员可以直接开发他们需要的数据并将这个开发成果给大家使用,这在以前必须要依赖数据科学家或者数据工程师。但是,如何把这些数据与业务结合起来、用数据去促进业务,这不是DataOps能回答的问题。我们只是赋能,但是真正怎么样让你的数据去促进企业的业务发展,那一定需要企业懂自己的业务。04
DataOps成熟度框架在2022大数据产业峰会上,中国信通院正式发布了《DataOps成熟度框架》。自2014年大数据首次写入政府工作报告起,我国大数据产业飞速发展,需求旺盛、供给强劲。在国家大数据相关政策的护航下,我国的大数据产业已进入深化阶段。随着发展的不断深入,企业数智化转型逐渐到达了瓶颈,各类矛盾浮出水面。一是效率与管理之间的矛盾。数据项目寻求快速交付,那么管理就难以贯彻落实。在执行上往往就出现了管理和实施两张皮的现象,许多基础工作遭到了忽视,从而产生了诸多的质量问题;二是业务与技术之间的矛盾。以前我们技术水平落后,面对的是巧妇难为无米之炊的问题。现在技术发展迅猛,但在业务和技术的衔接上出现了问题,难以有的放矢。三是需求与供给之间的矛盾。现在的技术发展迅猛,面对企业提出的需求,供给侧能够给出各式各样的解决方案。需求方精力都用在识别和对比,缺乏对需求的深入思考,远离了问题的本质。在数智化转型的大背景下,企业逐步意识到数据的重要程度空前。各行各业加速建设企业内部信息系统,加快数据平台构建。但在朝数智化转型迈进的过程中,总是存在着一些问题,阻挡着企业完成数智化蜕变。从企业角度来看,在数据项目的开发、维护、管理的过程中,普遍会遇到一些典型的问题,例如数据项目的人工依赖度高、团队协作配合困难、需求响应时间低于预期、开发流程不够顺畅、管理要求难以贯彻等问题。已有研究数据报道:99%的企业数字化转型以失败告终,84%的数字化转型项目未能达预期。在数智化转型这一阶段,企业的业务正处于发展的关键时期,组织内的数据意识已经逐渐成熟,数据相关的需求在这一阶段激增。但是这一阶段,技术引擎的动力略显不足,数据项目的成本高、数据准备的时间长、数据需求的响应不及时。种种问题阻碍住了企业完成数智化蜕变。也是与此同时,DataOps以破局者的身份出现在大家的视野当中,为企业的数据引擎换挡。DataOps的概念最早在2014年由国外学者提出,随后业界逐步对其内涵进行补充。在2018年DataOps正式被纳入Gartner的数据管理技术成熟度曲线当中,由此进入了国际的视野当中。2022年中国信通院正式牵头启动了DataOps的标准建设工作,以此为基础推动我国大数据产业的多元化发展,助力企业完成数智化蜕变。从发展上看,自2018年被Gartner纳入到数据管理技术成熟度曲线以来,DataOps热度逐年上升,在21年处在一个从萌芽期到爆发期的关键过渡阶段,预示着未来2-5年内DataOps将得到广泛的实践应用。从定义上看,Gartner、IBM、Wikipedia争相对DataOps提出了自己的定义。普遍认同DataOps具有敏捷、协作、自动化等特点。并且也提到了人员、流程、技术三者融合协作的重要性。实践上看,欧美国家的一些公司在DataOps的探索和发展上要早于中国。现阶段,我国有更广阔的发展空间和挖掘潜力,在制度保障、人才培养、技术储备发展上都有着长期优势。在国外。有如Twitter、Google等公司使用面向未来的数据架构,有如IBM公司也在多年前就开始研发了诸如Knowledgecatalog、DataStage、CloudPakforData等符合DataOps理念的解决方案,也有像StreamSets公司这样以DataOps思想来引领开发的工具产品。在国内。也有很多的企业先驱者,通过敏锐的嗅觉和强大的管理执行力去探索DataOps的实践。如中国工商银行、农业银行、平安银行等多家银行机构,联通数科、广东移动、江苏移动、浙江移动等通信企业,阿里、腾讯、浩鲸、数造科技等科技公司,都在积极探索并尝试用DataOps的理念来推动我国数据文化的建设和发展。DataOps标准的建设意义在于在于三定:即确定Data
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 智能设备远程维护系统合作开发合同(2篇)
- 《餐饮服务与管理》课件-教学课件:中餐零点早餐服务
- 2025年上海市汽车租赁合同范本
- 2025届高三押题信息卷(一)生物及答案
- 新质生产力指导
- 职业技术学院2024级文化创意与策划专业人才培养方案
- 新质生产力基石
- 2025年人教版小学数学一年级上册期末考试卷(带答案)
- 动眼危象的临床护理
- 2025煤炭供应合同模板
- 项目六-解决温标转换问题认识程序和程序设计语言
- 印刷厂安全生产事故应急预案模版(3篇)
- 道路运输免责协议书(2篇)
- 个人借款单范本
- 江苏省南通市2024-2025学年高一上学期11月期中英语试题(无答案)
- 服务响应时间和服务保障方案
- 安全生产法律法规知识培训课件
- 《粮食机械原理与应用》 课件全套 阮竞兰 1-11筛分除杂设备-色选设备
- 七年级英语上册全册单元检测题(附听力材料及答案)
- 泰兴经济开发区国有企业招聘笔试题库2024
- DL∕T 5509-2015 架空输电线路覆冰勘测规程
评论
0/150
提交评论