湖仓一体大数据平台解决方案_第1页
湖仓一体大数据平台解决方案_第2页
湖仓一体大数据平台解决方案_第3页
湖仓一体大数据平台解决方案_第4页
湖仓一体大数据平台解决方案_第5页
已阅读5页,还剩71页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

湖仓一体大数据平台湖仓一体大数据平台解决方案工作空间管理数据地图数据订阅常规运维资产盘点数据源管理华为云腾讯云京东云项目管理规范建表S-EMR数据探查工作空间管理数据地图数据订阅常规运维资产盘点数据源管理华为云腾讯云京东云项目管理规范建表S-EMR数据探查子账号管理角色权限管理阿里云-EMR数据同步数据标准AccessKey管理AWS-EMRAzureAWS平台安全设置华为云-MRS本地IDC星环-TDH控制台基础设施数据集成数据规划数据研发控制台基础设施数据集成数据规划常规开发常规开发数据工厂数据工厂APIAPI工厂标签工厂标签工厂算法工厂算法工厂指标运维指标运维APIAPI运维标签运维标签运维算法运维算法运维APIAPI中心API授权API调用标签中心标签中心数据安全数据安全生命周期生命周期全链血缘全链血缘2.湖仓一体数仓建设思路开发效率实时指标烟囱式开发效率低门槛高技术架构实时离线架构不统一依赖离线T+1导出报表平台管理缺少实时元数据管理未打通实时离线数据的联系批流统一统一数仓标准与元数据基于SQL统一开发流程宽表建设基于FlinkSQL构建实时数仓平台治理数仓平台化建设数据统一接入开发元数据管理命名规范模型规范开发规范流程规范命名规范模型规范开发规范流程规范设计规范设计规范数仓规范数仓规范存储规范存储规范…………规范定义模型设计一致性维度数据域/主题域维度属性原子指标(业务过程+度量)统计周期(时间维)统计粒度(维度组合)派生指标一致性维度数据域/主题域维度属性原子指标(业务过程+度量)统计周期(时间维)统计粒度(维度组合)派生指标修饰词业务过程业务过程数据应用表关联关系影响分析全链分析字段关系依赖分析关联度分析血缘分析属性差异分析变更查询变更订阅表关联关系影响分析全链分析字段关系依赖分析关联度分析血缘分析属性差异分析变更查询变更订阅价值主张:理清数据字典,了解数据来龙去脉特点:丰富的采集适配器、智能识别关系、丰富的元数据分析和检核元数据采集元数据分析数据地图适配器管理适配器管理采集日志采集源入库审核采集源入库审核采集任务配置采集任务配置元数据变更元数据核检一致性核检数据处理关系一致性核检数据处理关系名称重复率组合关系组合关系属性填充率实时流处理afha实时流处理afha批处理TableTable查询批处理数据流预处理结果批处理视图增量处理视图即席查询实时计算数据流增量处理结果批处理数据流预处理结果批处理视图增量处理视图即席查询实时计算数据流增量处理结果Lambda架构的主要思想:将大数据系统架构分为三层:批处理层(BatchLayer)、实时计算层(SpeedLayer)、服务层(ServingLayer)输入数据流输入数据流缺点:双重计算+双重服务,且要求查询得到的是两个系统批处理层批处理服务层APIAPI服务实时计算层流处理OLAPOLAPADSSSQLLETLSQLSQLSQLCDCETLRDS/RDS/binlogMessaeQueue解析层数据源层分布式消息队列结果数据层数据接口层应用层报表应用大数据平台预警解析层数据源层分布式消息队列结果数据层数据接口层应用层报表应用大数据平台预警流计算平台流计算平台输入数据流服务DB应用输入数据流服务DB应用缺点1)适用场景的通用性不高(2)大数据量回溯成本高,生产压力大(3)流式计算结果不准确,和实时计算结果逐渐形成差LLOLAPQLSQLSQLSQLCDCRDS/binlogQLSQLSourceMessaeQueueSourcedatadatabasesbasesFullDataDorisDBDorisDBclickhouseincrementdata增量实时更新增量实时更新时间漫游时间漫游Hudi数据湖关键特性数据应用智能推荐人脸识别数据大屏即席查询数据应用智能推荐人脸识别数据大屏即席查询数据源数据源结构化数据半结构化数据非结构化数据PostgreSQLJSON音频视频文档XML数据集成APIAPI接口文件直传文件直传大数据平台湖仓一体平台计算计算/分析引擎计算引擎分析引擎API服务Spark机器学习训练元数据管理消息订阅数据湖-存储存储对象机器学习推理数据服务OLAPSourceOLAPSourceADSSSQLLLCMessaeQueueETLSQLLETLRDS/binlog通常通过API捕获或提取数据,适用于处理不同数据结构以及需要高可靠性和复杂转换的场景通常通过API捕获或提取数据,适用于处理不同数据结构以及需要高可靠性和复杂转换的场景适用于需要进行复杂数据清理和转换、数据量适用于需要高可用性和对数据源影响小的场景。较大的场景使用基于日志的CDC捕获数据变更,实时获取数据结构化数据的发现与更新,在数据湖创建数据库、表及分区半结构化数据发现,在数据湖中存储非结构化数据发现,在数据湖中存储通过机器学习、深度学习等智能算法对半结构化、非结构化数据进行学习,训练加工成结构化数据,供数据研发和分析使用大规模数据周期性批量计算根据业务需求进行数据实时研发与分析WriteProcessGeneratorcheckpointCommitSinkWriteProcessGeneratorcheckpointCommitSinkWriteProcessWriteProcessWriteProcessWriteProcess元数据管理数据接入元数据管理数据接入数据开发数据开发 实时数仓33.湖仓一体大数据平台产品接入配置获取接入配置获取选择数据源选择数据源发布至运维设置启停与告警设置告警规则设置监控范围发布至运维设置启停与告警设置告警规则设置监控范围 配置来源表信息 配置目标表Kafka信息通道控制设置 源表中配置Kafka信息 维表信息结果表中配置Kafka写入的CheckpointAVROCheckpointAVROReportReportTransformTransform压测场景:Oracle数据源数据实时计算写到MySQL目标数据库,内含Oracle数据源到Kafka、Kafka消费、写入MySQ压测场景单条数据量压测数据量压测链路压测结果Kafka生产与消费40WMySQL数据源到Kafka实时计算Oracle-MySQL40WOracle数据源数据新增到新增数据写到目标数据库MySQL(3进40W*5实时计算MySQL-Kudu40W时计算写到Kudu表中结论:实时计算支持主流数据库1500万/小时的数据处理能力,且资源占用较低更多语法与特性支持更多数据源支持任务自动调优FlinkonK8s传统数仓面临的问题与挑战传统数据仓库解决方案中,常用Hive来构建T+1级别的数据仓库,通过HDFS存储实现海量数据的存储与水平扩容,通过Hive实现元数据的管理以及数据操作的SQL化。虽然能够在海量批处理场景中取得不错的效果,但依然存在如下现状问题:问题不支持事务由于传统大数据方案不支持事务,有可能会读到未写完成的数据,造成数据统计错误。数据更新效率低业务系统库的数据,除流水表类的数据都是新增数据外,还有很多状态类数据表需要更新操作(例如:账户余额表,客户状态表,设备状态表等而传统大数据方案无法满足增量更新,常采用拉链方式,先进行join操作再进行insertoverwrite操作,通过覆盖写的方式完成更新操作,该操作往往需要T+1的批处理模式,从而导致端到端数据时延T+1,存在效率低、成本高等问题。无法及时应对业务表变化上游业务系统对数据schema发生变更后,会导致数据无法入仓,需要数据仓库的表schema进行同步调整。从技术实现上采用数据表重建的方式来满足该场景,导致数据仓库的数据表的管理与维护方案复杂,实现成本高。历史快照表数据冗余传统数据仓库方案需要对历史的快照表进行存储,采用全量历史存储的方式实现,例如:天级历史快照表,每天都会全量存储全表数据。这样就造成了大量的数据存储冗余,占用大量的存储资源。小批量增量数据处理成本高传统数据仓库为了实现增量ETL,通常将增量数据按照分区的方式进行存储,若为了实现T+0的数据处理,增量数据需要按照小时级或者分钟级的分区粒度。该种实现形式会导致小文件问题,大量分区也会导致元数据服务压力增大。flinksqlHudi数据湖典型应用场景①:传统CDC基于Flink-SQL入湖(1/2)PostgreSQL场景说明场景说明方案介绍方案介绍Hudi数据湖典型应用场景①:传统CDC基于Flink-SQL入湖(2/2)Hudi数据湖典型应用场景②:基于Flink-CDC入湖(1/2)PostgreSQL场景说明场景说明方案收益Hudi数据湖典型应用场景②:基于Flink-CDC入湖(2/2)开源CDC对比集市层ADS汇总层贴源层Hudi数据湖典型应用场景③:湖内数据快速ETLPostgreSQL方案介绍方案介绍方案收益快照查询增量查询集市层ADS汇总层贴源层读优化查询Presto/Trino引擎交互式分析快照查询增量查询集市层ADS汇总层贴源层读优化查询Presto/Trino引擎交互式分析Hudi数据湖典型应用场景④:交互式分析场景PostgreSQL场景说明场景说明方案收益第三方数据集市结果库快照查询增量查询读优化查询第三方数据集市结果库快照查询增量查询读优化查询集市层ADS汇总层贴源层流任务批任务API服务Hudi数据湖典型应用场景⑤:Hudi构建批流一体PostgreSQL场景说明场景说明方案介绍方案介绍方案收益SQLServer库粒度FlinkStreamSQLServer库粒度FlinkStreamHudi数据湖典型应用场景⑥:数据库实时化(实时捕获/更新schema)元数据元数据表信息元数据信息表信息 表粒度初始化:FlinkBatch初始化:FlinkBatchHudi数据湖典型应用场景⑦:数仓实时化SQLServer SQLServer 增量更新:FlinkStream(hive)离线抽数实时BinLog(hive)(hive)离线抽数实时BinLog(hive)2.外键主键映射Hudi数据湖典型应用场景⑧:宽表构建实时化SQLServerSQLServer(kafka)(kafka)(hive)(kafka)CDM/ADS层高并发多维查询CDM/ADS层高并发多维查询在

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论