大数据中台之结构化大大数据存储设计_第1页
大数据中台之结构化大大数据存储设计_第2页
大数据中台之结构化大大数据存储设计_第3页
已阅读5页,还剩5页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、wordword PAGE PAGE 3 / 10数据中台之结构化大数据存储设计一. 前言任何应用系统都离不开对数据的处理的熟悉你。数据系统的开展驱动了业务系统的开展,从业务化到规模化,再到智能化。业务化:完成最根本的业务交互逻辑。规模化:分布式和大数据技术的应用,满足业务规模增长的需求以与数据的积累。智能化:人工智能技术的应用,挖掘数据的价值,驱动业务的创新。Lambda 架构, 仍然具备很高的技术门槛。而不同模块的选择和组合是架构师面临的最大的挑战。本篇文章主要面向数据系统的研发工程师和架构师Tablestore 选择哪种设计理念来更好的满足数据系统中对结构化数据存储的需求。二. 数据系统

2、架构核心组件存储。高速缓存:对复杂或操作代价昂贵的结果进展缓存,加速访问。搜索引擎:提供复杂条件查询和全文检索。据对接。也用于数据的实时提取,在线存储到离线存储的实时归档。查询或离线计算的数据访问需求。离线分析的实时写入数据。批量计算:对非结构化数据和结构化数据进展数据分析,批量计算中又分为交互式分析和离线计算两类,离线计算需要满足对大规模数据集进展复杂分析的能力,交互式分析需要满足对中等规模数据集实时分析的能力。流计算:对非结构化数据和结构化数据进展流式数据分析,低延迟产出实时视图。对于数据存储组件我们再进一步分析们来看下下面这X 详细比照表:wordword PAGE PAGE 5 / 1

3、0派生数据体系ACID 性可能是强需求,提供在线应用所需的低延迟业务数据查询。常面向数据查询、检索和分析做优化。为何会有主存储和辅存储的存在?能不能统一存储统一读写,满足所有场景的需求呢? B+tree 还是 APHTAP 方向走,但实现方式仍然是底层存储分为行存和列存。BI 分析。下,最大的技术挑战是数据如何在主与辅之间进展同步与复制。上图我们可以看到几个常见的数据复制方式:应用层多写异步队列复制wordword PAGE PAGE 10 / 10的话,也会遇到和上一种应用层多写方案类似的问题,应用层也是多写,只不过是写主存储与队列,队列来解决多个辅存储的写入和扩展性问题。CDCChange

4、 Data 技术CDC 技术。一个典MySQL+Elasticsearch MySQL binlog 来同步,binlog MySQL CDC 技术。CDC 技术是更好的驱动数据流动的关键手段。具备 CDC 技术的存储组件,才能更好的支撑数据派生体系,从而能让整个数据系统架构更加灵活CDC 技术,例如Tablestore具备非常成熟CDC 技术,CDC 技术的应用也推动了架构的创新,这个在下面的章节会详细介绍。或 HBase+Solr CDC 技术来实时复制数据后, 如何解决数据一致性问题?如何追踪数据同步延迟?如何保证辅存储与主存储具备一样的 数据写入能力?存储组件的选型Spark Flin

5、kSQL NoSQL 下又根据各类数据模型细分为多类抽象,如果场景能匹配到具象模型,那选择X 围能缩小点。在下一节介绍速迭代能力比应对未知需求的扩展性更重要。另外关于数据存储架构,我认为最终的趋势是:数据一定需要分层OSS会由一个统一的分析引擎来统一分析的入口,并提供统一的查询语言结构化大数据存储结构化大数据存储在数据系统中是一个非常关键的组件派生。根据这样的定位,我们总结下对结构化大数据存储的几个关键需求。关键需求大规模数据存储结构化大数据存储的定位是集中式的存储,作为在线数据库的汇总大宽表模式者是离线计算的输入和输出,必须要能支撑PB 级规模数据存储。高吞吐写入能力数据从在线存储到离线存储

6、的转换,通常是通过ETL 式的同步或者是实时同化的存储引擎。丰富的数据查询能力B+tree 的二级索引,面R-tree 或 BKD-tree 的空间索引或者是面向多条件组合查询和全文检索的倒排索引。存储和计算本钱别离存储计算别离是目前一个比拟热的架构实现来说比拟固定,是按需的。数据派生能力CDC 技术。计算生态Flink 等,作为输入或者是统;三是自身提供交互式分析能力,更快挖掘数据价值。满足第一个条件是最根本要求,满足第二和第三个条件才是加分项。开源产品目前开源界比拟知名的结构化大数据存储是 HBase 和 CassandraCassandra 是WideColumn NoSQL Top-1

7、 的产品,在国外应用比拟广泛。但这里我们重点Cassandra 会更流行一点。HBase HDFS WideColumn 模型数据库,拥有非常好的扩展性,能支撑大规模数据存储,它的优点为:存储计算别离架构:底层基于 Spark 可共享计算资源,降低本钱。LSM 存储引擎:为写入优化设计,能提供高吞吐的数据写入。多的应用,开发者社区很成熟,对接几大主流的计算引擎。HBase 有其突出的优点,但也有几大不可无视的缺陷:查询能力弱提供高效的单行随机查询以与X Scan+Filter 的方HBase 的 Phoenix 提供了二级索引来优化查询,但和 MySQL 询条件非常有限。数据派生能力弱前面章节

8、提到C 技术是支撑数据派生体系的核心技术e 不具备C Replication CDC HBase Replication HBase 的 CDC Solr 同步的 Lily CDC 据保序、最终一致性保证等核心需求。本钱高的本钱取决于计算所需 CPU 核数本钱以与磁盘的存储本钱CPU Serverless 服务模式才能做到。运维复杂HBase 是标准的 Hadoop 组件,最核心依赖是Zookeeper 和 HDFS,没有专业的运维团队几乎无法运维。热点处理能力差HBase Range Partition Hash Partition 的模式最大的缺陷就是HBase 提供了大量的最优实践文档来

9、指引开发者在做表的 Rowkey hash salted-table Region Split Move 等负载均衡的自动化机制。国内的高级玩家大多会基于 HBase 做二次开发,根本都是在做各种方案来弥补 HBase 对接r做全文索引或者是针对区分度小的数据集的p是一个优秀的开源产品,有很多优秀的设计思路值得借鉴。TablestoreTablestore 是阿里云自研的结构化大数据存储产品,具体产品介绍可以参考官网以与权Tablestore 的设计理念很大程度上顾与了数据系统内对结构化大数据存储的需求, 并且基于派生数据体系这个设计理念专门设计和实现了一些特色的功能。设计理念Tablesto

10、re 的设计理念一方面吸收了优秀开源产品的设计思路,另一方面也是结合实际业务需求演化出了一些特色设计方向,简单概括下Tablestore 的技术理念:实现存储计算本钱别离的根底。LSM B+tree LSM 专为高吞吐数据写入优化,也能更好的支持数据冷热分层。Serverless Serverless Serverless 服务才能做到存储计算本钱别离。大数据系统下,结构化大数据存Tablestore 提供多元化的索引来满足不同类型场景下的数据查询需求。CDC CDC Tunnel Flink 流计算引擎来实现表内数据的实时流计算。拥抱开源计算生态:除了比拟好的支持阿里云自研计算引擎如 Max

11、pute 和 Data Lake Analytics Flink 和 Spark 这两个主流计算引擎的计算需求,无需数据搬迁。流批计算一体:能支持 Spark 对表内全量数据进展批计算,也能通过 CDC 技术对接 Flink来对表内新增数据进展流计算,真正实现批流计算结合。多元化索引Tablestore 提供多种索引类型可选择,包含全局二级索引和多元索引。全局二级索引类X 种索引的比照和选型可参考这篇文章。通道服务Tablestore CDC 流计算场景。目前在云上Tablestore Blink 能无缝对接,也是唯一一个能直接作为Blink 的stream source 的结构化大数据存储。大数据处理架构Lambda Lambda 架构比拟根底,有一些缺陷, Lambda 架构中存在的一Tablestore CDC 技术来与计算引擎相结合,Lambda Lambda plus 架构。Lambda plus 架构Lambda 随后将一样的计算逻辑分别在流和批系统中实现Tablestore CDC Tablestore Blink 进展了完整对接,可作为Blink 的 stream source、dim 和 sink,推出了 Lambda plus 架构:Lambda plus API 直读表

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论