版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
(2022年)CloudNativeIndustryAlliance,CNIA编制说明峰、杨哲、丁冉、张立群、前言促进数据基础设施、关键技术、应用治理等方面的健康有序发展。伴随着行业用户对于数据价值的深入挖掘,数据平台和产品正在发挥着不可替代的创新引领作用。本白皮书首先介绍了数据平台发展的三个重要阶段,通过对于发展历程的总结,引出了行业用户在进行数据分析和处理中面临的瓶颈难题,并且重点从主要架构、关键技术、方案特征、应用价值等方面代表厂商和代表解决方案的分析,力求反应现阶段国内湖仓生态现状。最后,从银行、保险、证券用户单位的不同角度出发,开展了较为详实的场景化应用分析,并进行了总结与展望。 (一)萌芽期:数据仓库初探数据价值 1(二)上升期:大数据平台挖掘数据价值 3(三)成熟期:湖仓一体全面展现数据价值 5 (一)行业用户数据处理五大难题 7(二)解决数据处理瓶颈的最佳方案 11(三)云原生湖仓一体主要技术路线 23(四)云原生湖仓一体方案应用价值 25 (一)国内湖仓生态版图 28(二)国际湖仓典型应用 29 34 在全球数据产业蓬勃发展的背景下,数据系统正在发挥关键的支撑赋能作用,对于数据价值挖掘和业务创新发展起到重要影响。为了应对各类用户需求,衍生出了聚焦联机事务处理、联机分析计算、事务分析混合等不同场景的数据平台。数据平台作为企业数字化转型的重要基础设施,决定了企业对数据这一新兴生产要素的应用能力,对企业数字化转型的成败起到了至关重要的作用,其发展经历了三个时期。1.发展背景上世纪50-60年代,数据管理工具以“数据库”的形式首次问世,先后基于网状模型、层次模型、关系模型等不同的数据结构,出现了er具代表性的传统关系型数据库,本质上是通过结构化查询语句,对数、查操作,以实现在OLTP联机事务处理场景下对于关系型表结构数据的存储和利用。业务数据库产生负载,导致业务系统运行速度降低。在日益激烈的市场竞争中,企业需要对积累的数据进行分析,获取更加准确的决策信息来完成市场推广、运营管理等工作。由此,提出将历史数据存储到1OLAP系统数据库性能的同时,可以更专注的提升数据分析效率,辅助企业决策。2.技术特性传统关系型数据库的技术架构,尤其是OLTP数据库在海量数据的存储、查阅以及分析方面出现了明显的性能瓶颈。随着分布式技术的产生和发展,出现了以Teradata为代表的MPP一体机数据库,以及Greenplum和Vertica等软硬件分离的MPP数据库,采用无共享架构(Share-nothing)以支持数据仓库的建设。这个阶段的主要任务是数据分析和决策支持类系统的建设,如数据仓库、ODS、数据集市、应用数据库、历史数据库以及报表、分析报告、数据挖掘、客户标签画像等。3.阶段特点该阶段早期,不少企业直接采用了共享存储(share-disk)架构的Oracle和DB2,或是采用MPP无共享(Share-nothing)架构的Teradata等产品,通常基于软硬一体的专有服务器和昂贵的存储,后虽然引入2点体现为:数据以结构化为主,集群的扩展能力有限。开始呈现出海量、异构、多源等特点,传统数据仓库扩容困难、处理数据类型单一的缺点开始逐渐暴露出来,也无法支撑越来越丰富的业务分析需求。1.发展背景展,数据规模呈几何倍数增长,数据种类也变得更加丰富。传统数据仓库侧重结构化据处理时效性的需求,由此带来了海量异构数据存储和处理等的诸多3大数据平台开始受到关注,尤其受互联网行业迅速发展的影响,大数据平台迎来快速发展期。2.技术特性Hadoop平台使用HDFS实现数据的分布式存储,有效解决海量数据的存储问题。与传统数据仓库相比,HDFS在支持存储结构化数据的同时还实现了非结构化数据的存储。HDFS不是一个单机文件系数据将分布在多个节点上。读取文件时,数据从多个节点读取。duceSpark且可以对存储的数据进行大规模并行处理。通过切片将大量复杂的任务分解成多个少量简单的任务进行处理,再对处理完成后的任务结果进行汇总分类。3.阶段特点apReduce量的不断增大以及对于数据处理时效性的需求不断升高。计算和存储组件也在不断的变化,以适应不同场景的数据存储与处理需求。大数据平台底层存储经过了十余年发展,一直是HDFS一枝独秀。大数据平台在计算方面发展迅速,由于最初的MapReduce大规模批处理无法满足海量数据处理的实时性,业界在计算方面设计了Spark快速批处理、Flink实时数据处理等计算框架。配合这些计算框4架的,还有像Sqoop这样的数据流转采集组件。在大数据分析和处理领域,Hadoop兼容体系已经成为一个非常成熟的生态圈。Hadoop的诞生改变了企业对数据的存储、处理和分析的过程,加速了大数据的发展,受到广泛的应用,给整个行业带来了变革。随着云计算时代的到来,企业开始对Hadoop的架构进行从基于物理集群到云原生化的改造。1.发展背景经过前两个阶段的尝试,更多的企业发现独立构建大数据平台与数据仓库平台的技术架构,已经无法满足某些场景下的业务需求。企ETL,完成湖仓独立部署,这就是业内常说的“Hadoop+MPP”模式,我们称之为湖仓分体模式。湖仓分体模式最大的问题就是数据孤岛和业务实时数据分析能力不足,因此面临着数据多集群冗余存储、集群规模受5限、业务的实时性不足、业务应用开发敏捷需求不足等问题,这些需求和痛点促进了湖仓一体技术的发展。2.技术特性湖仓一体方案应该在数据和查询层面形成一体化架构,彻底解决实时性和并发度,以及集群规模受限、非结构化数据无法整合、建模路径冗长、数据一致性弱、性能瓶颈等问题,有效降低IT运维成本和数据管理的技术门槛。所以,新时代需求的湖仓一体方案应具备实时处理、数据共享、高并发、云原生等特性。3.阶段特点云的普及让业务上云成为趋势,为了实现数据湖的灵活性和数仓的易用性、规范性、高性能结合起来的融合架构,并且保证存储和计算可以独立的弹性扩展和伸缩,数据平台的设计出现了一个崭新的架构,即存算分离架构。在此阶段,Snowflake、Amazon、阿里云、偶数等企业相继突破了传统MPP和Hadoop的局限性,实现了存算分,优势明显,缺点也同样突出,而更为先进的“湖仓原生一体”架构在未来将更加契合用户对于数据价值挖掘的诉求。6融行业的运营管理人员每天都会采用报表数据来指导决策,由于业务的不断增长,采集的数据复杂度越来越高,管理者希望能第一时间掌握市场动态,以便及时做出有利于业务发展的决策。为了满足业务应用发展要求,数据处理通常会遇到各种挑战。数据加工过程中,需要耗费大量时间,完成各种业务数据加工处故障,造成数据不一致,从而影响数据分析结果;数据应用过程中,都要通过各种条件限制,以控制查询的数据规模;数据系统升级过程段数据处理瓶颈的五大难题。1.数据处理面临数据孤岛的难题很多企业的数据平台都是经过多次系统迭代和技术升级后建设业的数据平台往往存在多个数据库集群,每个数据库就是一个数据孤7岛和烟囱,甚至因数据库产品的扩展性,还可能导致MPP和Hadoop集群建设多套的情况,形成更多的孤岛和烟囱。这些数据孤岛和烟囱的出现在存储、开发、运维、治理等多个方面带来了影响。数据存储方面,多个独立数据库集群中都放了同样的的资源成本的浪费。数杂,不同集群之间的时序、数据同步流程多。这种情况会导致数据库产品技术门槛多,对于技术人员的素质要求高;集群之间需要大量的据开发的总体工作量大约增加了1倍左右。从项目管理的角度看大约增加了1倍的成本;同时,作业的链路延长,大大降低了数据时效。比较多。数据治理方面,基于多份数据进行维护,可能会导致数据不一致,数据质量等问题,数据治理难度大,浪费的成本难以估量。82.数据处理面临性能瓶颈的难题传统数据平台的计算性能不能满足业务需求,大体上有两种情况:一方面因数据平台的数据处理、业务查询时间长,性能慢,无法满足业务需求,需要在业务流程和用户端进行规避,导致用户体验很差。另一方面部分企业为了提高性能,在数据平台之上架设一个或多个内存查询引擎,这种方式牺牲了ACID和兼容性。性能不足的问题影响运营、决策效率、无法支撑业务运行对时延语法兼容性;部分计算引擎只支持简单查询,缺少复杂关联分析能力。3.数据处理面临高并发复杂查询的难题随着移动互联网的发展,很多业务逐步开放至更多的人员参与,上市公司数据等各类场景。但是传统数仓、Hadoop仅支持几十并发,导致分库、分表,限制业务部门使用,限制查询,对很多新型的业务没有很好的支撑。为了保证各类查询同时进行,采用很多计算引擎分流的方式实现,如:实时计算、批处理、固定报表、即席查询等厂家分别由不同计算撑多业务场景。4.数据处理面临实时处理的难题9Gartner定义的实时数据处理的包括三个阶段:第一阶段,Real-TimeContinuousIntelligence:对事件做出实时处理响应,包括指标对比,告警,趋势分析,自动决策;第二阶段,Real-Time,On-DemandIntelligence:生成报告,支持即席查询,延伸数据探索,记录操作流程;查询,实时决策,建模及长期决策;对应的在实时分析处理中按照事件的发生时间长短可以总结为:事件发生同时的实时流处理、事件发生短时间内的实时按需分析、事件发生后较长时间的离线分析。传统数据处理平台不能完全满足实时数据分析需求,存在以下问题:实时数据与批量数据的关联查询,有实时数据与维表关联查询,有实时数据与事实数据关联查询,离线数据量大现有平台难以支撑;多库数据无法实时归集,按需查询需求无法满足;交易型数据库无法支持频繁、复杂的查询,为保证数据库的稳定,只能限制查询;现有基于Flink和Kafka的流处理平台,不支持数据血缘,不能支持即席按需查询分析等。5.数据处理面临资源弹性伸缩的难题传统数据平台因技术架构的局限性,对敏捷弹性资源管理支持度捷管理难题基本可以分为敏捷应用响应难题、如何实现资源弹性合理调配使用。敏捷应用响应难题主要体现为:传统MPP上线新应用的资源分配周期长,无法满足业务端快速试错、快速布局的诉求;超过集群规模上限时,性能不增反减,约减少50%以上;集群扩容耗时很长,停机维护影响业务等。要体现为:在非云环境,资源不能共享,资源以独占的方式使用,利用率很低;资源不够时无法弹性扩展,资源空闲时无法分配给需要的用户,无法做到削峰填谷,提高资源利用率。通过对于现阶段数据分析存在的瓶颈和难题进行深入分析,我们发现,为了解决数据孤岛、性能不足、高并发、实时处理和资源弹性问题,可以尝试以下的解决方案:要引入多主节点技术实现分析型数据平台上的高并发,将并发,无法同时处理实时和数据规模比较大的历史数据相结合的实时业务场景,需要引进支持海量数据下实现高性能高并发以及具备资源隔离的支持多租户各自独立扩展,同时,对于资源的使用无法实现根据业务需要同时考虑到以上计算存储分离、弹性可扩展架构、ACID特性、SQL标准支持、高性能并行执行等方面的能力,基于云原生技术架构的云原生湖仓一体产品,可以通过云平台构建、部署和交付的数据服务,提供可扩展的、高可靠的数据解决方案。1.云原生湖仓一体典型架构Gartner认为湖仓一体是将数据湖的灵活性和数仓的易用性、规范性、高性能结合起来的融合架构,无数据孤岛。云原生湖仓一体就数据湖和数据仓库两个平台合为一个平台,并依托云原生的特性,支持基于数据湖的普通存储硬件和存储引擎以及数据仓库的多功能高性能分析引擎,实现对海量原始数据(结构化、非结构化、流式数据、图数据)以及洁净数据(对原始数据进行治理和分析后的数据)统一存储、分析、管理,集群可在线扩容到几千节点。支持数据仓库ETL及数据资产动化机器学习,支持无代码/低代码数2.云原生湖仓一体关键技术(1)存算分离技术在云原生数据库出现之前,由于单机吞吐量和集群网络带宽限制等因素,数据库集群部署都是存储和计算在一起,让计算靠近数据,而不是将数据传输到计算节点,这种方式可以产生更少的数据迁移,降低机器间、机柜间的网络带宽消耗。随着数据量的增长,无论是计算还是存储先达到瓶颈,都必须同时对计算和扩展进行扩展,因此就会存在不少浪费,并且扩展需要大量数据移动,非常不方便。计算与存储的解耦,可以让我们更加方便的管理计算与存储资源。在大规模数据处理场景下,管理员可以快速的单独扩展计算或存储资了统一存储,可以被多种计算引擎所共享。因此,存算分离是湖仓一体平台必备的技术之一。算层与存储层的映射关系,节点异常处理、如何保证读写一致等问题。通常是云原生数据库的重要特性之一。(2)高性能计算引擎技术存算分离以后势必带来更多的网络开销,影响数据库集群的整体性能。因而需要通过其他方面的增强来弥补这一损耗。其中一个重要的途径就是通过优化计算引擎来增强性能。采用基于代价的优化器(CBO),通过算法来动态选择每个SQL的最优查询计划,弹性的执行引擎可以动态调整计算单元,使得资源使用更加合理和高效。在计算层通过使用向量化执行器可以大大提升SQL的执行速度,由于存算分离会带来额外的网络开销,因此计算层采用分布式的缓存服务,采用基于LRU协议的缓存管理机制,用户还可根据情况动态配置缓存空间的大小,缓存支持使用内存和计算节点的本地磁盘空间。节点之间的通讯协议,改为采用UDP的互联协议,可以大大提升通讯效率。性能的提升意味着在单位时间内云原生湖仓一体平台可以处理更多的数据。(3)多活主节点支持超高并发云原生湖仓一体平台的主节点采用多活主节点集群部署,主节点采用无状态设计,各主节点之间没有相互依赖关系,不存储任何元数据。用户可以非常方便的对主节点集群进行扩展,以处理更多的连接请求(JDBC/ODBC)。主节点可以在线增减,实现资源的动态调度。例如当用户请求越来越多时,用户可以根据情况随意增加一个或多个主节点,反之则可以减少一个或多个主节点。主节点的动态增减不会影响数据库的服务。当主节点集群中某个节点出现故障时,也不会影响整个集群的可用性。支持用户可视化的方式轻松完成扩容。(4)元数据集群高可用元数据集群架构采用P2P去中心化完全对等网络架构,集群内无固定主节点,通过一致性协议算法实现节点的数据同步,当某一节点保了元数据的安全。各个主节点将同时并发连接每个元数据节点,因此,元数据集群内不存在单点瓶颈,实现了元数据读写的负载均衡。(5)多虚拟计算集群支持混合负载在存算分离基础上,多虚拟计算集群支持对用户访问的CPU和内存资源的物理隔离。多虚拟计算集群(VirtualCluster)可以将一个超大规模计算节点根据负载情况划分为多个虚拟计算子集群。数据库管理员可通过配置,将用户与某个VC进行绑定。当用户发起执行请对应的VC资源来执行,当VC资源不速增加从其他VC中调度计算资源来给VC进行扩以大大提高资源利用率,从而减少硬件资源的投入。(6)可插拔存储框架可插拔存储框架实现计算资源可同时访问不同类型的存储,如:HDFS存储、基于S3协议的对象存储以及分布式表存储。通过可插通过配置,新增一套或多套存储系统,并且这种异构的存储对于用户访问是透明的,即用户无需知道数据存放在哪种存储上,而是直接通过表名读写数据。可插拔存储框架还可以支持二次开发,用户可通过二次开发使得计算引擎对接未来新出现的存储系统。平台可以对接多套HDFS,并且对用户无感。(7)多虚拟存储集群实现磁盘IO的隔离上述的可插拔存储框架实现了计算资源与存储的对接,但是在实际使用中,依然存在着存储中磁盘IO资源的竞争,因此多虚拟存储的功能实现类似于HDFS的联邦功能。多虚拟存储集群支持用户将多套HDFS集群或分布式表存储集群划分为一套虚拟存储集群(VirtualStorageCluster)。开发人员在进行数据建模时,可以根据磁盘IO的负载情况,将不同负载的表建在不同的VSC中,就可实现负载的隔绑定关系,可以被任意的计算资源访问,保证了数据的共享。同时,云原生湖仓一体平台根据使用量自动将不同的表分布到统一VSC中的不同HDFS集群或分布式表存储集群中,从而实现数据的均匀分布。基于这个特性,用户在进行存储扩容时就实现在线的秒级扩容而无须进行数据重分布。当某一VSC存储空间不够时,用户可以新部署一套HDFS集群加入到VSC中,即实现了存储空间的扩容,又无须进行人工干预。(8)高性能分布式表存储支持实时数据读写在实时场景中,数据往往是逐条进行插入、更新或删除,这种对HDFS或对象存储仅适合对景的业务需求。因此,云原生湖仓一体平台需要引入分布式表存储支持高并发、事务以及提供索引,并且原生支持数据更新和删除。在云湖仓一体平台的架构中,分布式表存储与HDFS、对象存储平行,是能够独立运行的存储系统,不依赖第三方组件。分布式表存储的主要特性有:⚫采用完全点对点(P2P)无中心分布式存储(相比主从架构更容易管理更容易扩展)⚫结构化数据定义存储(不是简单键值对形式存储)⚫支持数据的增删改查(提供真正的INSERTUPDATEDELETE⚫支持基于Raft协议数据复制实现数据存储和访问服务的高可用⚫支持基于多版本MVCC的分布式事务特性⚫目前提供针对分析型负载的高性能数据查询能力(行列混合存储格式)⚫支持数据索引功能(包括主键索引,非主键索引)⚫整合数据预处理技术提升数据查询性能(非纯粹的数据存储实现,具有内建计算能力)⚫便捷的集群动态扩展⚫自动集群容错和负载均衡能力从读写性能的角度比较,分布式表存储的性能优于HDFS,HDFS的性能优于对象存储。因此,在实际使用中通常会把T+0的实时数据写入分布式表存储,T+1的批量数据写入HDFS,而对象存储由于更据。从用户视角看,开发人员需要基于不同使用场景把不同的表建立到不同的存储中,在之后的使用中则不再感知异构的存储,也就是说用户直接通过表名即可查询各种类型存储中的数据,也可以把存储在不同类型存储中的数据进行关联查询、计算、比较等不同的操作。如下图所示:(9)Hadoop生态兼容能力云原生湖仓一体平台可以直接使用Hadoop生态普遍使用的HDFS来作为数据存储,同时存储格式使用开源社区比较通用的orc理的数据表也同样可以被Hive访问。程或结果数据,另一类是通过CDC工具采集的实时变化的数据。云原生湖仓一体平台支持这两类数据的同时读写。例如:Flink可直接使用SQL直接查询。此外,云原生湖仓一体平台支持使用Hudi、Iceberg开源数据湖格式,用户也可以选择将实时数据直接写为Hudi或Iceberg格式,这样可以将数据统一存储到HDFS中,实现数据的物理统一。3.云原生湖仓一体六大特性对于上述云原生湖仓一体的关键技术,我们从用户角度概括成六个代表字母的ANCHOR特性。A(AllDataTypes:支持多类型数据)、N(NativeonCloud:云原生)、C(Consistency:数据一致性)、H(HighConcurrency:超高并发)、O(OneCopyofData:一份数据)、R(Real-Time:实时T+0)。⚫支持多类型数据(AllDataTypes,Structured&Unstructured):支持关系表、文本、图像、视频等结构化数据和非结构化数⚫云原生(NativeonCloud):适合云环境,自由增减计算和存⚫数据一致性(Consistency):通过完善的事务机制,保障不同用户同时查询和更新同一份数据时的一致性。⚫超高并发(HighConcurrency):支持数十万用户使用复杂分析查询并发访问同一份数据。⚫一份数据(OneCopyofData):所有用户(BI用户、数据科学家等)可以共享同一份数据,避免数据孤岛。⚫实时T+0(Real-Time):通过全量数据T+0的流处理和实时据的事前预测、事中判断和事后分析。1.主要技术路线对比分析目前,常见的湖仓一体技术方案主要有两大类型:基于传统Hadoop架构的方案,以及基于云原生数据仓库架构的方案。基于传统Hadoop的方案主要从事务特性出发进行优化,基于HDFS或S3实现一个支持事务的存储层,其他方面与Hadoop区别不大。而云原生数据仓库,其存算分离特性更具有技术前瞻性,该架构将是未来的发展趋势。传统数据仓库传统数据湖平台 进性离高中低高低低事务ACID事务ACID支持差模>1000001001000L非引擎储:HDFSS/Magma储FSS格式Hudi等否否一体ushuDB否否一份数据低低高度低低高2.云原生湖仓一体的建设路径从云原生湖仓一体平台的建设方式上,企业可以结合业务情况、已有数据平台情况等方面出发进行建设路径的规划,主要有以下三种建设途径:⚫从数据仓库到云原生湖仓一体企业目前数据类应用主要集中在数据仓库,而且总体数据量也不生的湖仓一体平台建设。首先从数据仓库开始进行技术平台的升级,选择云原生的数据库产品进行数据仓库的迁移替换,将底层“仓”的存储和“湖”的存储现数据打通,建立统一的数据模型。⚫从数据湖到云原生湖仓一体采用从数据湖到湖仓一体的建设方式,最终实现云原生湖仓一体平台。在现有的数据湖上进行技术平台升级,在湖上增加具备数据仓库计算能力的组件并将新的业务应用部署到湖仓一体平台上,逐步将原有的数据仓库和集市的数据和应用都迁移到湖仓一体平台上。⚫数据湖和数据仓库融合建设仓融合为一个产品的解决方案,底层的数据产品均具备云原生特性、计算存储分离弹性可扩展架构、强ACID特性、强SQL标准支持、高性能并行执行能力。使用一个入口,并保证强事务一致性。一的数据模型进行管理,并只保留一份。工序,数据存储原则等。最终完成云原生湖仓一体平台的建设。1.用户体验的提升云原生湖仓一体平台能够大大提升用户的数据服务体验:管理人员:一个湖仓一体的平台可以统一运营企业内所有应用的数据,不需要单独考虑不同数据平台产品的部署、招标采购、扩容等问题,提升了管理决策的效率,降低了管理运营的成本。降低。而且湖仓一体平台存算分离的架构,支持计算资源与存储资源的单独横向扩容和缩容,给日常的升级维护带来极大的便利。业务人员:湖仓一体平台实现超高的并发,一个平台支撑所有数据存储、计算、分析的需求,并提供面向业务部门的自助数据分析服务,在实际工作中不需要切换平台进行业务实现;数据底层共用一份数据,用户之间可以很方便地共享数据。2.数据平台运营成本下降云原生湖仓一体平台支持资源物理隔离,按照业务需求分配资源,大大提升资源利用率、硬件资源池按需建设,采购规模下降、折旧减少。通过湖仓一体平台可以有效降低数据平台运营成本,主要体现在⚫湖仓一体平台完成了数据仓库、数据集市和数据湖的数据整省大约3倍-5倍存储空间和资源成本。⚫平台基于一份数据,避免了不同数据平台间的数据传输和拷贝,一般在数据处理任务中数据同步作业占到总作业量50%左右。开发工作量可以节省1倍左右、平台算力资源节省1⚫湖仓一体平台基于云平台进行部署,不再依赖底层单节点的计算和存储资源,由云平台统一进行合理的安排和管理。不同配置的服务器都可以通过云平台提供算力资源和存储资源。3.管理、开发和运维的效率提升和业务部门的协同工作效率,降低管理成本,具体体现在以下方面:⚫管理人员相比原来的平台可以近乎实时的了解企业业务现状,第一时间做出决策;⚫运维人员仅需维护和管理一个平台,极大地减少了运维压力⚫湖仓一体平台能够超高并发的处理多业务场景,不需要额外学习其他产品,有效地降低了技术开发门槛。⚫平台基于一份数据,还降低了数据治理难度。降低了数据治理类项目成本投入;避免了数据同步作业开发,开发工作量节省1倍左右、减少1倍左右的项目成本;同时,作业的链⚫云原生湖仓一体平台具备的实时特性支持业务创新,增强用户体验,可以让用户与金融行业的企业之间互动更加频繁,带来最佳用户体验,形成业务发展的新模式,带来新价值。覆盖银行、券商、保险等细分领域,可以帮助企业应对数字化转型过程中的创新难题。2020年,大数据DataBricks公司首次提出了湖仓一体(Data出就得到众多厂商的推崇。湖仓一体技术依托硬件层提供的计算、存储、网络能力,实现数据采集、汇聚、计算、分析,是整个“湖仓一体”的生态基石。湖仓一体通过基础软件层的技术创新,打破了数据湖与数据仓库在存储、计算、网络三个层面割裂的体系,并将数据湖的灵活性、生态丰富能力与数据仓库的企业级部署能力进行融合,构建了数据湖和数据仓库相融合的数据管理平台。“湖仓一体”继承了数据仓库的数据处理和管理优势,打通了数据湖和数据仓库两套体系,让数据和计算在湖和仓之间自由流动,既能面向业务实现高并发、精准化、高性能的数据实时查询服务,又能承载分析报表、批处理、数据挖掘等分析型业务。软件层面,企业在数据接入、数据存储、数据管理、数据分析等不同技术方向做出了新的尝试。在服务层面,根据不同行业场景的具体应用需求,各大厂商纷纷为用户提供行业定制化的解决方案,帮助企业解决数据孤岛、实时数据分析、高性能处理、高并发查询、资源弹性伸缩等难题。为企业提供安全可靠的“湖仓一体解决方案”,构建融合创新的新一代数据平1.Lambda数据框架Lambda数据处理框架由Storm的作者NathanMarz首次提出,目标是设计出一个能满足实时大数据系统关键特性的架构,整合离线计算和实时计算,读写分离和复杂性隔离等,可集成Hadoop,Kafka,Storm,Spark,Hbase等各类大数据组件。Lambda架构通过把数据分解为服务层(ServingLayer)、速度层(SpeedLayer,亦即流处理层)、批处理层(BatchLayer)三层来解决不同数据集的数据需求。在批处理层主要对离线数据进行处理,将接进行完整的计算,最后以批视图的形式提供给业务应用。由于服务层通常使用MySQL,HBase等实现,供业务应用查询图通常就是MySQL中的表信息,流处理作业在新数据到来后不停更户需求把批处理层和流处理层产生的数据合并到一起得到最终的数2.Kappa数据框架Kappa架构在Lambda架构的基础上移除了批处理层,利用流计a处理的对象是所有历史数据和当前数据,其产生的结果我们称之为实时批视图(Realtime_Batch_View)。ka (StreamJob_Version_N+1),该作业会从Kafka中读取所有历史数据和新增数据,直到追上旧版本作业(StreamJob_Version_N),旧的作业版本才会停止。Kappa架构通过这种方法升级流处理程序,架构的流处理系统通常使用SparkStreaming或者Flink等实现,服务层通常当前各行各业的云原生湖仓一体建设刚起步,本次白皮书重点介绍金融行业场景,选择了中国建设银行、中国人寿、中信建投等金融机构,分析最近3年在云原生湖仓一体技术上的研究成果和实践探索。当前,金融行业普遍存在数据仓库和大数据平台两套数据平台各司其职的情况。在湖仓一体建设思路上,由于历史包袱沉重,多数企业规划将两套数据平台体系通过统一的云平台以及软件工具实现一定程度的资源共享和数据互访。但是,数据平台的五大难题依然存在。从云原生湖仓一体建设的六大特性来看,企业选择转型为云原生湖仓一体可以为企业带来巨大的经济效益和社会效益。因此,我们建议企业可以将云原生湖仓一体平台的建设确定为企业数据平台建设平台的平稳过渡,可以考虑将业务部门的新业务、传统领域中的创新业务,以及传统业务中对性能要求高、对数据共享能力要求高的业务迁移到新建的云原生湖仓一体平台上,以实现企业云原生湖仓一体平台价值的最大化,并在后续的运营中形成符合企业独有特色的云原生湖仓一体平台。中国建设银行在多年的数据平台建设中,逐步汇聚了多种数据平台的技术栈,积累了PB级的海量数据,同时也带来了数据冗余、加工流程复杂、数据服务效率无法满足业务需求等一些亟待解决的问题。建行于2019年提出了关于“数据供应链的时效性和可用性”的要求,确定了加快推进“数据湖建设”的决议。同年,启动了数据湖建设技术路线的研究工作,并确定了云原生、高性能、稳定安全、自主可控的技术原则。开源的数据湖方案。经过多轮全面的测试和对比确定了以ApacheHAWQ作为建行未来湖仓一体建设的基础技术方案,打造建行自主可控的云原生数据库产品CHAWQ作为建行湖仓一体数据平台建设的整体解决方案。2020年随着CHAWQ产品在行内部署上线,建行启动将多个业务应用迁移到湖仓一体平台上,由此相比原来的业务运运营成本。由此,建行基于云原生数据库产品CHAWQ走出了一条适合建行发展的湖仓一体技术发展之路。截至2022年底,建行湖仓一体平台可供数据湖上数百个分析类应用场景使用,包括营销、风险管理等,支撑了万亿级别的交易明细业数量减少了近十万,大大降低了数据平台运营成本。中国人寿作为国家大型金融保险企业,2018年集团公司合并营业收入7684亿元,合并保费收入6463亿元,合并总资产近4万亿围全面涵盖寿险、财险、企业和职业年金、银行、基金、资产管理、财富管理、实业投资、海外业务等多个领域多家公司和机构。集团目前采用了SQLSERVER数据库采集各个省级分公司的数据,并建立了数据仓库平台用于报表的汇总统计分析。业务创新的需求驱动下,国寿推出用户权益视图的数据服务,对数据平台的实时采集能力、海量历史数据的流批一体实时计算能力,以及高并发高性能的秒级响应查询能力提出了更高的技术能力要求。经过充分的研究和必选,最终确定了云原生湖仓一体的技术方向,通过与相关厂商开展深入探索和测试,对未来云原生湖仓一体的平台建设进行了架构规划设计,并从业务角度进行创新设计,逐步发挥云原生湖仓一体平台在业务领域的巨大价值。中信建投证券在“科技赋能、运营升级,以数字化转型助推客户服务体系建设”的战略目标指引下,持续进行数据平台的升级和建设,逐步建设了基于GP的数据仓库、基于Hadoop的数据湖和基于Flink+kafka的实时数仓,支撑了公司从各业务线到管理的所有应用。,平台内存在多个数据孤岛,造成大量的数据冗余,从而不断推升了运营成本。同时分散的数据也给数据管理带来了巨大的挑战,为了维护数据的质量通常需要花费大量的人力和物力成本,并且收效甚微,数据质量难以保障。进入2022年,中信建投紧跟国家信创战略的发展方向,使用国产的云原生数据库替换现有数据仓库集群,实现数仓应用的平滑过渡,由于云原生数据库可直接访问并使用数据湖进行数据存储,从而实现存储,数据应用可根据业务需求选择使用SQL引擎、机器学习引擎或流处理引擎来加工处理所需要的数据,各引擎之间可共享一份业务数据,数据不再需要跨集群流动,从而大大增加了数据处理的效率,同时也减少了数据冗余。下一步,中信建投证券将继续探索数据仓库供给效率,从而加速数据这一生产要素在企业内部的应用和流动。国公有云IaaS市场规模达1614.7亿元,同比增长80.4%;PaaS市场比增
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 注射模具保养培训课件
- 向家长介绍区域活动
- 华为交换机培训详解
- 左肺癌病人护理查房
- 2.1大气的组成和垂直分层(教学设计)高一地理同步高效课堂(人教版2019必修一)
- 北京市大兴区2024-2025学年八年级上学期期中考试英语试题(含答案)
- 大单元视域下的单元整体教学与实施
- 信息技术(第2版)(拓展模块)教案4-模块3 3.4 大数据分析算法
- 2024年内蒙古包头市中考英语试题含解析
- 新版人教版一年级下册思想品德全册教案
- 少先队活动课:文明礼仪培训课件
- 惠民保用户洞察报告
- 05 02 第五章第二节 吸收借鉴优秀道德成果
- 茶道礼仪课件
- 同步电动机课件
- 动画场景镜头透视与应用课件
- 文献调研与分析课件
- 军团菌实验活动风险分析评估报告
- 社会治安综合治理信息系统建设方案
- 小学生卫生健康小常识-课件
- 中国算力服务发展研究报告
评论
0/150
提交评论