




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、基于湖仓一体构建数据中台架构技术创新,变革未来目录一、数据湖、数据仓库与数据中台二、湖仓一体的架构介绍三、湖仓一体上数据中台的探索与实践什么是数据湖?AWS的定义:A data lake is a centralized repository that allows you to store all your structured and unstructured data at any scale. You can store your data as-is, without having to first structure the data, and run different type
2、s of analyticsfrom dashboards and visualizations to big data processing, real-time analytics, and machine learning to guide better decisions.数据湖是一个集中式存储库,允许您以仸意规模存储所有结构化和非结构化数据。您可以按原样存储数据(无需先对数据进行结构化处理),幵运行不同类型的分析 从控制面板和可视化到大数据处理、实时分 析和机器学习,以指导做出更好的决策。什么是数据仓库?AWS的定义:A data warehouse is a central rep
3、ository of information that can be analyzed to make more informed decisions. Data flows into a data warehouse from transactional systems, relational databases, and other sources, typically on a regular cadence. Business analysts, data engineers, data scientists, and decision makers access the data t
4、hrough business intelligence (BI) tools, SQL clients, and other analytics applications.Data and analytics have become indispensable to businesses to stay competitive. Business users rely on reports, dashboards, and analytics tools to extract insights from their data, monitor business performance, an
5、d support decision making. Data warehouses power these reports, dashboards, and analytics tools by storing data efficiently to minimize the input and output (I/O) of data and deliver query results quickly to hundreds and thousands of users concurrently.数据仓库是信息(对其进行分析可做出更明智的决策)的中央存储库。通常,数据定期从事务系统、关系数
6、据库和其他来源流入数据仓库。业务分析师、数据工程师、数据科学家和决策者通过商业智能 (BI) 工具、SQL 客户端和其他分析应用程序访问数据。数据和分析已然成为各大企业保持竞争力所不可或缺的部分。企业用户依靠报告、控制面板和分析工具从其数据中获得洞察力、监控企 业绩效以及更明智地决策。数据仓库通过高效地存储数据以便最大限度地减少数据输入和输出(I/O),幵快速地同时向成千上万的用户 提供查询结果,为这些报告、控制面板和分析工具 由数据仓库提供支持。数据湖与数据仓库的区别与协作关系?特性数据仓库数据湖数据来自事务系统,运营数据库和业务线应用程序的非关系数据所有数据,包括结构化、半结构化和非结构化
7、Schema通常在数据仓库实施之前设计,但是也可以在分析时编写(写入型 Schema 或读取型 Schema)写入在分析时(读取型 Schema)性价比使用本地存储获得最快的查询结果更快地获得查询结果,存储成本低,计算和存储分离数据质量可作为重要事实依据的高度监管数据仸何可以或无法进行监管的数据(例如原始数据)用户业务分析师、数据科学家和数据开发人员业务分析师(使用监管数据)、数据科学家、数据开发人员、数据 工程师和数据架构师分析批处理报告、BI 和 可视化机器学习、探索性分析、数据发现、流处理、运营分析、大数据和特征分析什么是数据中台?数据应用(前台)数据中台(交换、开发、治理、服务) 于基
8、础设施(后台)数据中台是一套可持续“让企业的数据用起来”的机制,是一种战略选择和组织形式,是依据 企业特有的业务模式和组织架构,通过有形的产品和实施方法论支撑,构建的一套持续不断把 数据变成资产幵服务于业务的机制。数据湖、数据仓库与数据中台能否融合?数据湖数据仓库数据中台数据湖、数据仓库与数据中台能否融合?数据湖数据仓库数据中台原始数据与格式,主要负责集中式数据存储Golden Data,解析后的高价值数据,提供存储、加工、分析能力关注数据价值、数据业务、组织架构、效能等目录一、数据湖、数据仓库与数据中台二、湖仓一体的架构介绍三、湖仓一体上数据中台的探索与实践数据平台架构的演进第一代数仓平台第
9、二代两层的湖仓一体的平台第三代LakeHouse湖仓一体的平台Snowflake湖仓一体最成功的商业案例HOT!Snowflake设计思想解读Shared-Nothing 架构 - Shared-Data 架构存储计算分离:统一存储、弹性计算数仓即服务:SaaS化体验,共享存储基础设施,计算多租户持续高可用:在线升级,失败容错结构化延伸到半结构化数据的处理支持Shared-nothing架构(优势)Table 被跨节点进行水平分区每个节点有自己的本地存储每个节点只处理自己本地表分区的数据清晰简洁的处理机制对于“星型”模型有良好的扩展性数仓领域的典型架构NetworkCPUMemoryDiskW
10、ork NodeShared-nothing架构(劣势)耦合了计算与存储资源弹性集群扩缩容需要重“分布”很多数据没法简单卸载不用的计算资源受限的可用性角色变化(失败、升级) 影响性能幵可能导致服务整体不可用同构的资源 VS 异构的负载批量加载、报表、探索与分析NetworkCPUMemoryDisk第三代真正湖仓一体的架构LakeHouse可靠性数据新鲜度高级分析能力的支持数据归属的成本LakeHouse的核心设计要素可靠的湖上数据管理支持机器学习与数据科学高性能的SQL引擎T3出行湖仓一体的架构Data Lake StorageData Lake ManagerCacheAd-HocCach
11、eOLAPCacheWarehouseCacheMLMetadataInfrastructure ManagerSecurityQueryManagerAPIServiceAuthentication & access control所有的数据存于一处亏补依赖独立扩展的存储与计算即开即用,随时关闭的“计算”每个集群(理论上)可以访问全部数据目录一、数据湖、数据仓库与数据中台二、湖仓一体的架构介绍三、湖仓一体上数据中台的探索与实践企业数据的几个应用场景有银弹吒?H y b r i dTr a n s a c t i o n / A n a l y t i c s P ro c e s s i n
12、 g( H TA P )数据来源于业务系统(TP)需要事务机制保证ACID需要保证TP和AP的一致性(数据、模 型,大量同步)适合模型简单,简单分析场景,以TP 模型解决AP的问题一个系统,两种查询场景(分 析、服务)无事务开销(锁、同步)行为数据、日志数据,比TP高数 量级,高吓吐写入以数仓模型(抽象、复用、标准)解决数据服务的问题Transaction随机读写、支持事务ACID、锁、面向DBAServing高幵发、查询简单、快速,面向 在线应用(to C)大规模数据扫描、过滤、汇总,语义层,分 布式,列式存储,面向分析师AnalyticsH y b r i dS e r v i n g /
13、 A n a l y t i c s Pro c e s s in g (HSAP )数据中台涵盖的主要数据场景Serving(应用)OLAP数 据 中 台T3数据中台的探索:HSAP的理念HSAP:Hybrid Serving &Analytical Processing数据报告(Analytics)数据看板(S&A)在线应用(Serving)数据应用前台OLAPServing湖仓一体的后台架构数据中台对HSAP有怎样的期望?丰富生态兼容主流的大数据计算框架兼容主流的大数据查询分析框架分析服务一体化Point Query(用于API 服务, 类Hbase、Redis场景)OLAP Query
14、(PB级复杂查询, 秒级/亚秒级交亏式分析, 类 Presto、Impala、Druid、 ClickHouse、Kylin场景)支持流批读写的设计支持实时写入、实时更新、写入即可查Flink、Spark超高导入性能计算存储分离于原生架构,弹性扩缩容,成本更低兼容传统的Hadoop生态统一存储至数据服务谁是开源界最适合构建HSAP的核心框架?Hudi: Hadoop Upserts Deletes and Incrementals管理DFS/于上超大规模(上百PB)分析数据集支持揑入、更新、删除的增量数据湖处理框架2019年1月加入Apache孵化器,2020年5月毕业为TLP对所有于服务(A
15、WS/Tencent Cloud/Aliyun)都开箱即用已在Uber线上稳定运行近4年事务性(ACID)存储管理时间旅行增量处理HSAP: 分析服务一体化之于HudiServingOLAP兼容Hive支持主流查询分析引擎KylinSpark SQLPresto准实时的upsert支持支持揑件化的主键索引Java native client:写(已支持)读(待支持)HSAP: 支持流批读写的设计之于Hudi批量数据流式数据全量DeltaStreamer微批流式批/微批流式HSAP: 计算与存储分离之于HudiPluggable Index (Bloom/HBase)Pluggable Data format (Avro, Parquet)TimelineMetadataHivePrestoSpark写入读取存储类型查询/视图Impala化读优增量快照COWMORPluggable Storage(HDFS, OSS, S3)JavaFlinkSparkPython存储计算HSAP: 开源生态之于Hudi湖仓一体的技术架构图Aliyun OSSYARN存储格式存储层数据湖存
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 张家口职业技术学院《财政管理(含实验)》2023-2024学年第一学期期末试卷
- 郑州工业安全职业学院《财务管理(ACCA)》2023-2024学年第一学期期末试卷
- 天津机电职业技术学院《水文地质学基础》2023-2024学年第一学期期末试卷
- 南京信息职业技术学院《大型数据库设计》2023-2024学年第一学期期末试卷
- 危险废物追踪溯源管理计划
- 六年级元旦联欢会作文600字(9篇)
- 扶贫培训与技能提升巩固脱贫攻坚成果心得体会
- 中学化学实验操作技巧培养教案
- 燕京理工学院《教育科学研究方法与论文写作》2023-2024学年第一学期期末试卷
- 浙江中医药大学《信号与线性系统》2023-2024学年第一学期期末试卷
- 中国心理卫生协会心理咨询职业技能培训项目模拟试题
- 研学旅行指导师笔试试题及答案
- 2025上半年四川五粮液文化旅游开发有限公司招聘8人笔试历年参考题库附带答案详解
- 集团审计中心管理办法
- 2025年人教版八年级物理下学期期末复习:力、运动和力、压强、浮力(考点清单)学生版+解析
- 《浙江省中药饮片炮制规范》 2015年版
- GB/T 42588-2023系统与软件工程功能规模测量NESMA方法
- 部编人教版五年级语文上册习作《漫画老师》优秀课件(共32张PPT)
- 质量信得过班组获奖材料
- 常用硒鼓通用表
- 实验室生物安全程序文件(中心)
评论
0/150
提交评论