2023大数据湖仓一体技术规范_第1页
2023大数据湖仓一体技术规范_第2页
2023大数据湖仓一体技术规范_第3页
2023大数据湖仓一体技术规范_第4页
2023大数据湖仓一体技术规范_第5页
已阅读5页,还剩21页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大数据湖仓一体技术规范2023IIIIII前言数据是国家基础战略性资源和重要生产要素,数据要素是数字经济深化发展的核心引擎。协同推进技术、模式、业态和制度创新,切实用好数据要素,将为经济社会数字化发展带来强劲动力。随着企业数字化转型的深入,围绕数据,涌现出更大规模、更复杂的数据处理系统,现代商业智能、多模式数据处理、人工智能和机器学习等等用来构建新一代数据基础设施正在兴起。大数据平台架构通常是数据湖(hadoop)和数据仓库(MPP数据库)的混合架构,由于湖和仓之间的技术架构不一样,导致出现数据孤岛问题,在进行融合计算时需进行数据拷贝,会造成数据冗余存储。为打破数据湖与数据仓库割裂的体系,架构上融合数据湖的灵活性、生态丰富和数据仓库的企业级能力,推出《大数据湖仓一体技术标准》,打通数据仓库和数据湖两套体系,让数据和计算在湖和仓之间自由流动,从而构建一个完整的有机的大数据技术生态体系。PAGE\*ROMANPAGE\*ROMANIV目录版权声明 I编制说明 II前言 III一、范围 1二、缩略语 1三、参考标准 1四、湖仓一体技术架构 1(一)统一存储 2(二)统一元数据 3(三)统一计算 3(四)统一服务 3(五)统一运维 3(六)安全管理 3(七)湖仓一体架构演进 3五、统一存储能力要求 3(一)分布式文件系统 4基础能力 4数据接入 4数据格式 4数据访问接口 5存储分级 5数据可靠性 5文件操作 6(二)负载均衡功能 6(三)数据缓存加速 6(四)数据组织格式 7六、统一元数据能力要求 7(一)元数据注册 8(二)数据源管理 8(三)元数据采集 8(四)元数据稽核 8(五)元数据管理 9(六)元数据服务 9(七)元数据追溯和审计 9七、统一计算能力要求 9(一)批处理引擎 10(二)流处理引擎 10(三)交互式查询引擎 10(四)交互式分析引擎 10(五)机器学习引擎 11八、统一服务能力要求 11(一)统一开发能力 11通用开发能力要求 11湖仓一体开发能力要求 12开放对接要求 12(二)统一调度能力 12调度配置 13触发方式 13任务协同调度 13流程控制 13容错管理 13(三)统一运营能力 14数据资产化管理 14数据价值管理 14(四)统一开放能力 14数据服务开放管理 15服务目录管理 15数据开放形式 15(五)统一管理能力 15九、运维管理能力要求 15(一)配置管理 15(二)湖仓一体运维 16(三)在线升级 16(四)亚健康检测 16(五)故障自愈 16(六)日志管理 17(七)北向接口 17十、安全管理能力要求 17十一、湖仓一体架构平滑演进 17(一)数据湖向湖仓一体演进 18(二)数据仓库向湖仓一体演进 18PAGEPAGE10一、范围本文件定义了大数据湖仓一体的技术架构,以及统一存储、统一元数据、统一计算、统一服务、运维管理、安全管理、平滑演进相关能力要求。本文件适用于大数据湖仓一体架构设计,产品研发和测评,以及企业落地实施湖仓一体架构升级做参考。二、缩略语缩略语英文全名中文解释CDCChangeDataCapture变更数据捕获,可以记录数据源的增量变动,同步到一个或多个数据目的DeltaLakeApacheDeltaLake一种数据格式,为ApacheSpark和其他大数据引擎提供可伸缩的ACID事务FlinkApacheFlinkApacheFlink是一个框架和分布式处理引擎,用于在无边界和有边界数据流上进行有状态的计算HadoopApacheHadoop由Apache基金会所开发的分布式系统基础架构HDFSApacheHDFSHadoop分布式文件系统(HadoopDistributedFilesystem)HiveApacheHive基于Hadoop的一个数据仓库工具HudiApacheHudi一个开源Apache Spark库,用于在ApacheHadoop上执行诸如更新,插入和删除之类的操作IcebergApacheIceberg一种面向海量数据分析场景的开放表格式MRApacheMapReduce一种编程模型,用于大规模数据集(大于1TB)的并行运算TezApacheTezApache支持DAG作业的开源计算框架SparkApacheSpark基于内存计算的开源的集群计算系统三、参考标准GB/T37939-2019 信息安全技术网络存储安全技术要求YD/T4029-2022 计算存储分离架构的分布式存储技术要四、湖仓一体技术架构湖仓一体是一种新的大数据架构,融合数据湖与数据仓库的优势,实现数据湖和数据仓库的数据无缝打通,提升数据分析效率,同时还能减小数据冗余和搬迁,降低成本,支撑企业大数据系统高效运行。湖仓一体结合云原生技术,采用存算分离架构,提供统一开放的存储接口,对接多样的计算引擎,实现存储合和计算灵活规划和部署,资源弹性、按需伸缩,从而有效简化企业的数据基础设施架构。湖仓一体技术架构如下图所示:在该架构中,数据统一存储,提供统一元数据,将大数据、数据仓库、机器学习、等技术进行整合,形成一套数据服务系统,将数据仓库和数据湖的价值进行叠加,更好地分析、整合数据。该架构可以很好的克服数据重力,让数据湖和数据仓库的数据可以自由流动,用户可以便捷地调取数据。借助湖仓一体,企业可高效处理数仓内的热数据与数据湖中的历史数据,并生成丰富的数据集,无需做数据搬移。湖仓一体技术架构由以下七部分组成。(一)统一存储接入多种数据,提供多种数据存储格式,包括数据湖的数据格式和数据仓库的数据格式,可以存储任意规模的结构化、半结构化、非结构化数据。通过通用的数据组织格式,如Hudi、Iceberg、DeltLake等,实现数据的统一存储访问。(二)统一元数据通过采集、管理数据湖与数据仓库中的元数据,构建统一元数据目录和数据视图,实现数据湖与数据仓库数据共享,提供湖仓一体化的元数据服务。(三)统一计算集成批处理引擎、流处理引擎、交互式查询引擎、交互式分析引擎、机器学习引擎等通用数据处理引擎,覆盖数据处理全场景,通过统一元数据管理,实现与统一的存储的无缝对接。(四)统一服务为上层业务提供一体化的数据服务体验,无需关注底层异构环境,为数据开发者、数据使用者、数据运营管理者提供统湖仓一体化服务能力。(五)统一运维满足多样化运维需求,支撑平台管理员、各类运维人员或使用者及时发现、定位并处理问题,提高运维效率。(六)安全管理依据三法一条例,构建全面的安全保护解决方案,从系统层安全、数据层安全、应用层安全构筑完整的安全管理能力。(七)湖仓一体架构演进基于数据湖与数据仓库现有能力,对标湖仓一体的架构进行补充与完善,实现向湖仓一体架构的平滑演进。五、统一存储能力要求统一存储,提供高可靠、可扩展的存储能力,满足海量、多样化的结构化、非结构化数据存储。面向业务诉求,为原始数据、中间数据、业务数据、归档数据提供存储空间和数据管理能力,满足不同业务对数据访问诉求,实现热点数据高吞吐、低时延读写,温冷数据大容量、低成本读写。提供开放、统一的数据组织格式,实现数据湖、仓数据共享。(一)分布式文件系统基础能力应符合YD/T4029-2022中5.6章的要求基础上,符合如下要求:EB据存储。对外接口:与主流大数据、数据库、AI单文件系统应支持十亿以上海量文件,业务连续不中断。数据接入a)支持数据按多种方式接入:批量写入、实时写入、CDC写入。b)支持连接多种数据库、文件系统、消息队列。c)支持数据并行导入/导出。数据格式支持关系表、文本、图像、视频等结构化数据和非结构化数据存储;TXT、CSV、JSON、ApacheParquet、ApacheOrc、HadoopAPIJPEG、BMP、JPG,WAV、FLAC、MP3、AVI、MPEG、RMVB、PDF、TXT、WORD、DOCX等常见文档格式。压缩格式要求,根据不同的业务场景,支持采用不同的文件压缩格式,gzip、lzo、snappy、bzip2数据访问接口YD/T4029-20225.5a)S3SMB、NFS、POSIXApacheKAFK、ApachePlusa5.存储分级支持热、温、冷等不同层级数据存储需求。支持分级策略配置,指定整个存储系统内文件或者指定目录/件按照分级策略在不同存储层级之间迁移。支持按照文件在指定访问周期内的访问频次,自动转换文件的存储层级。数据可靠性支持采用多副本、EC支持数据纠删码方式保护,支持22+2、20+2、16+2、8+2、4+22应支持数据副本校验和巡检能力,支持故障副本快速恢复。硬盘故障,支持数据自动重构,无需人工干预;数据重构对业务性能影20。文件操作应支持文件上传、下载、创建、复制、删除、获取、批量删除对象操作。支持设置文件权限操作。对于超大型文件,支持通过分段的方式上传或者下载。a)支持追加写文件。支持使用为文件/对象添加对象标签以便分类管理。b)支持通过对象标签管理生命周期规则、跨地域复制规则、清单规则等。c)支持用户对于自己的文件系统空间和文件数量的查询。(二)负载均衡功能支持湖仓一体架构下,多业务并行访问数据。应符合YD/T4029-2022中5.3、5.7和5.8章的负载均衡相关要求。(三)数据缓存加速支持湖仓一体架构下,数据高性能访问。a)HDFS、S3、NFSb)支持数据、元数据缓存和加速。支持多种缓存设备:内存/SSD/HDD。支持计算侧算子下推到存储侧执行,在存储侧读取数据就近计算,优化大数据计算性能。支持多计算节点共享缓存数据,减少数据冗余存储。支持缓存数据高可用,计算节点故障迁移、扩容场景,数据免重建,RTO/RPO<1(四)数据组织格式Hudi、Iceberg、DeltaLake实现增量写入读取。a)支持事务ACID,可以对存储的数据进行插入/更新操作。b)支持快照查询,读取数据集的最新快照。支持增量查询,查询指定时间的最新数据集。commit/compacte)支持数据时间旅行,可基于时间/版本号访问归档的历史版本数据。支持访问性能优化,支持小文件合并、数据分布、排序、索引、统计信息、缓存的优化支持对接大数据计算引擎,对数据分析,如:ApacheSpark、FlinkPresto、Hive六、统一元数据能力要求基于元数据管理标准,对数据湖与数据仓库的的元数据进行统一采集、适配、拉通与管理,形成统一的元数据目录,实现数据湖与数据仓库的统一元数据管理,为统一服务、统一计算与统一存储提供湖仓一体的元数据服务。(一)元数据注册名称等。支持提供系统级数据架构定义,包括主题、层次、系统、数据库等。支持湖仓模型等元数据信息注册。(二)数据源管理a)支持数据湖与数据仓的所有数据源进行统一管理。b)支持数据源的增、删、改。(三)元数据采集支持通过对文件存储的目录/文件/护元数据。支持数据仓库技术元数据采集,抽取数据字典信息。MetaStore,支持技术元数据入湖识别与解析。任务测试功能。支持基于行业数据治理规范,具备元数据的适配转换能力。(四)元数据稽核支持数据湖元数据的稽核,包括一致性稽核、关键属性稽核等。支持数据仓库元数据的稽核,包括一致性稽核、关键属性稽核等。(五)元数据管理a)支持元数据的增删改、版本管理。支持元数据的分层管理。d)支持针对数据湖和数仓构建统一的元数据目录。e)支持基于不同角色和用户身份,进行功能和数据权限管理。(六)元数据服务存储位置等。c)支持记录元数据访问频次,标记数据热度。d)支持查询历史版本的元数据信息。(七)元数据追溯和审计a)b)支持记录元数据采集任务日志,展现任务完成情况。c)支持记录审计日志,对元数据操作行为追溯、审计。七、统一计算能力要求面向湖仓一体业务,提供多样化计算引擎,满足多种场景的数据处理和分析要求。用户可使用自助查询、报表、商业智能(BI)和数据探索等形式,驱动计算引擎对数据进行分析。提供与数据湖/数据仓库的交互工具,如JDBC/ODBC驱动,支持Java、C/C++、Go、Python、Perl和Php等语言客户端程序连接。(一)批处理引擎支持处理结构化数据、非结构化数据。提供SQL访问接口,兼容TPC-DS标准语法。支持MapReduce、Hive、Spark、Tez、MaxCompute等常用批处理引擎。(二)流处理引擎支持访问Hudi、Iceberg、DeltaLake等开放格式。支持Flink、SparkStreaming、Storm等常用流处理引擎。(三)交互式查询引擎低时延的数据查询和分析,如Greenplum、ClickHouse、GBase、Hologres等常用交互式查询引擎。支持SQL结构化查询语句,包括数据查询(DQL)、数据定义(DDL)据操纵(DML)、数据控制(DCL)。支持ANSISQL2003标准语法。(四)交互式分析引擎提供大数据实时查询和分析能力,高性能、高容错的分布式OLAP能快速处理大规模的数据,并能够实现快速查询和分析,如Presto、openLooKeng等。支持SQL结构化查询语句,支持ANSISQL2003标准语法。d)支持对接数据探索、BI分析、报表展示等工具。(五)机器学习引擎支持机器学习模型开发和部署,提供模型开发所需的工具,提供常用的机器学习算法,如决策树和支持向量机(SVM),神经网络(CNN),循环神经网络(RNN)等。支持TensorFlow、PyTorch和ApacheMXNet等深度学习框架。八、统一服务能力要求针对湖仓一体面对的数据开发者、数据使用者以及数据运营管理者,提供一体化的数据服务。(一)统一开发能力构建可视化的湖仓统一集成开发环境,基于租户作业运行隔离机制,提供一体化的开发模式,实现全流程的敏捷交付支撑,满足多样化开发需求。1.通用开发能力要求a)支持数据目录查看,方便数据开发者了解数据模型情况。b)支持模型开发、审核、发布与上下线。c)支持模型发布后,元数据的自动采集与注册。d)支持数据任务开发,包括流处理、批处理、流批一体、交互查询等任务开发。e)支持数据任务开发、测试、发布、运维一套标准的线上开发流程。支持可视化开发与脚本开发。的抽象与配置。2.湖仓一体开发能力要求a)支持基于统一元数据的湖仓一体任务开发,实现任务的跨湖跨仓。b)支持基于统一元数据的统一模型开发,实现湖仓模型的统一。3.开放对接要求模型开发,实现元数据注册。支持统一计算层所有计算引擎的适配,如Flink、Spark、Presto等。支持统一存储下的存储引擎适配,包括Hudi、Iceberg、DeltaLake布式存储、对象存储等。(二)统一调度能力开发业务模型所形成的数据加工任务,需要按时间、事件、或业务要求进行任务的启停控制。调度配置a)支持提供图形化任务配置管理,通过配置任务的基础信息,支持不同的周期类型任务。b)支持模版任务配置,一键生成批量调度任务。触发方式方式进行任务启停控制。3.任务协同调度支持按任务的优先级调度。支持设置定时任务;多个子任务并行执行;支持按任务先后顺序执行。c)数据仓库运行。4.流程控制支持设置任务间的依赖关系。等。d)支持用户自定义表达式,设置和控制任务触发条件。5.容错管理具备平台级调度恢复保障(状态记忆)、调度健壮性(重跑重试)、数据完整性保障(历史补算)、简化运维难度(失败告警)等能力。(三)统一运营能力统一运营通过数据资产化管理与数据价值化管理,提升湖仓数据质量与价值,加速数据到资产与资本的转变。1.数据资产化管理与分类,形成数据资产目录。支持不同角色、不同场景的数据资产目录展示。支持可视化的数据资产从数据接入、生产、使用、消亡的全过程监控。d)支持持续的数据运营分析与治理,发现问题与改进问题,提升数据质量。2.数据价值管理数据价值分析能力。c)支持通过数据资产价值评估,对数据分级管理。d)支持通过数据服务组合管理提升数据变现能力。(四)统一开放能力构建湖仓数据服务的全流程管理,通过数据服务目录展示可对外提供的湖仓数据服务,提供多种数据开放形式,满足各种场景的需求。数据服务开放管理a)b)支持数据安全管理,如数据加密、脱敏等。c)支持数据服务计量和流控。服务目录管理等。c)支持服务目录更新、维护和发布。3.数据开放形式支持数据服务使用方提供数据授权、数据复制、数据API息订阅等数据开放方式。支持同步、异步、订阅、消息等多种服务订购方式。(五)统一管理能力遵循行业数据治理规范的具体要求,具备与数据治理模块对接能力,实现湖、仓数据的统一管理。九、运维管理能力要求(一)配置管理支持图形管理界面,提供管理员配置存储系统所需的图形化流程。应支持存储池管理、HDFSNameSpace理、硬盘管理、拓扑管理、权限管理、运维管理。c)支持统一监控页面,对平台运行湖仓任务进行监控,包括任务状态、任务依赖关系,前置任务运行情况等,对于异常的任务进行告警。态展示。统计信息;排队计算是对排队中任务,计算排队数量。(二)湖仓一体运维据压缩等。支持用户手动对存储数据布局优化,提升数据访问性能,如小文件合并。(三)在线升级应支持存储、计算引擎,软件、硬件驱动的在线升级和补丁。(四)亚健康检测报告。支持亚健康检测告警,并自动隔离该节点。(五)故障自愈a)支持故障自动识别,定位定界;设置故障处理预案。b)支持根据预案,故障任务自动重做。c)支持调度节点异常情况下,同组其他调

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论