并行数据库技术分析及未来展望_第1页
并行数据库技术分析及未来展望_第2页
并行数据库技术分析及未来展望_第3页
并行数据库技术分析及未来展望_第4页
并行数据库技术分析及未来展望_第5页
已阅读5页,还剩31页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、并行数据库技术分析及未来展望 Agenda 并行数据库 技术要点分析 未来展望 Parallel database system seeks to improve performance through parallelization of various operations such as loading data ,building indexes, and evaluating queries by using multiple CPUs and Disks in Parallel.1 Motivation Parallel machines are becoming quite co

2、mmon and affordable Prices of microprocessors, memory and disks have dropped sharply Databases are growing increasingly large large volumes of transaction data are collected and stored for later analysis. multimedia objects like images are increasingly stored in databases 并行数据库 J Improves Response T

3、ime. INTERQUERY PARALLELISM It is possible to process a number of transactions in parallel with each other. J Improves Throughput. INTRAQUERY PARALLELISM It is possible to process sub-tasks of a transaction in parallel with each other. 并行数据库 目标(1) v Speed-Up Adding more resources results in proporti

4、onally less running time for a fixed amount of data. 10 seconds to scan a DB of 10,000 records using 1 CPU 1 second to scan a DB of 10,000 records using 10 CPUs v Scale-Up (transaction/data) vIf resources are increased in proportion to an increase in data/problem size, the overall time should remain

5、 constant 1 second to scan a DB of 1,000 records using 1 CPU 1 second to scan a DB of 10,000 records using 10 CPUs 并行数据库 目标(2) nShared-Memory and Shared-Disk Architectures nShared-Memory: all processors share a common main memory and secondary memory nLoad balancing is relatively easy to achieve, bu

6、t suffer from memory and bus contention nShared-Disk: all processors, each of which has its own local main memory, share the disks 并行数据库 - 体系结构(1) nShared-Nothing Architecture nEach processor has its own local main memory and disks nLoad balancing becomes difficult 并行数据库 - 体系结构(2) nShared-Something

7、Architecture nA mixture of shared-memory and shared-nothing architectures nEach node is a shared-memory architecture connected to an interconnection network ala shared-nothing architecture 并行数据库 - 体系结构(3) n元数据管理 n查询分析和执行器 n分布式事务 n分布式锁 n并发控制 n副本数据同步 并行数据库 功能模块 Agenda 架构特点 技术要点分析 未来展望 技术要点 层次结构 Master

8、 Server: 1.外部App访问入口 2.集群元数据管理 3.SQL Parser 4.生成执行计划和任务调度 Range Hash Round Robin A.E F.J K.N O.S T.ZA.E F.JK.N O.S T.ZA.E F.J K.N O.S T.Z Good for equijoins, exact-match queries, and range queries Good for equijoins, exact match queries Good to spread load 技术要点 数据分区 技术要点 存储和索引(1) 列存储列存储(column store

9、) 数据数据按列存储按列存储 ,每一列单独存放每一列单独存放 只访问查询涉及的列,大量降低只访问查询涉及的列,大量降低I/O 数据类型一致,方便压缩数据类型一致,方便压缩 数据包建索引,数据即索引数据包建索引,数据即索引 行存储行存储(row store) 数据数据是按行存储的是按行存储的 没有索引的查询使用大量没有索引的查询使用大量I/O 建立索引和物化视图需要花费大量时间和资源建立索引和物化视图需要花费大量时间和资源 面对查询的需求,数据库必须被大量膨胀才能面对查询的需求,数据库必须被大量膨胀才能 满足性能要求。满足性能要求。 技术要点 存储和索引(2) 混合混合存储存储(hybrid s

10、tore) 在大尺度上数据在大尺度上数据是按行是按行存储,在小尺度上数据存储,在小尺度上数据 是按列存储是按列存储 在大尺度上以行作为任务切分,在小尺度上以在大尺度上以行作为任务切分,在小尺度上以 列进行列进行I/O优化优化 技术要点 存储和索引(3) 1. 模糊索引 2. 精确索引 B+树 LSM COLA 3. 列存索引(Projection) 技术要点 查询引擎 技术要点 分布式事务(1) 技术要点 分布式事务(2) 技术要点 任务调度与资源管理 技术要点 高可用 技术要点 集群扩展 数据库对一致性的天然要求 数据库元数据管理 数据分布的再平衡 技术要点 备份和灾难恢复 在线增量备份。

11、支持HDFS作为备份存储介质,HDFS上的备份数据可通过 Hadoop平台直接进行分析。 以异地灾备替代常规备份操作。异地数据中心之间实现同步/异 步操作。 备份和恢复两个过程,以及异地灾备中的主从集群可实现异构 恢复。 技术要点 SSD 应用场景 数据量大,热点数据无法全部在缓存中。 用户访问I/O量大,造成系统响应慢 系统整体压力低,QPS值无法提高 系统切换后,预热时间长等于故障 Agenda 并行数据库 技术要点分析 未来展望 未来展望 并行数据库在大数据基础设置中的定位(1) 适应已有的数据库生态, 平滑替代无法跟上快速增 长的数据量的传统EDW, 连接BI工具。 EDW工具的复杂性

12、和对复 杂SQL的支持程度,超过了 目前Hadoop的能力。 Ingest Landing and Analytics Sandbox Zone Indexes, facets Hive/HBase Col Stores Documents In Variety of Formats Analytics MapReduce Ingestion and Real-time Analytic Zone Data Sinks Filter, Transform Ingest Correlate, Classify Extract, Annotate Warehousing Zone Enterpri

13、se Warehouse Data Marts Query Engines Cubes Descriptive, Predictive Models Models Widgets Discovery, Visualizer Search Analytics and Reporting Zone Metadata and Governance Zone Connectors 未来展望 并行数据库与Hadoop 未来展望 并行数据库与Hadoop集成 (SQL-on-Hadoop Google, Mega,Spanner和F1向我们展现 了跨数据中心数据库的可能。 Cloudera开源了大数据查询

14、分析引擎。 ImpalaHortonworks开源了Stinger Fackbook开源了Presto 类似Pregel,UC Berkeley AMPLAB实验室 开发了Spark图计算框架,并以Spark为核 心开源了大数据查询分析引擎Shark。 EMC的Pivotal HAWQ Hadapt的Hybrid Storage Engine 未来展望 并行数据库与Hadoop集成 (Connector) 未来展望 并行数据库与Hadoop集成 (Hybrid) 未来展望 IT基础设施的变化 新的IT基础设置,如企业云环境,一体机,存储平台 SDS(Software Define Storag

15、e)都解决了传统MPP数据库中的存 储高可用问题。 新一代的MPP数据库,将不再需要在MPP内部进行存储层副 本的管理和高可用机制,这将极大简化MPP实现的复杂度。 MPP数据库将更倾向于具有事务能力的SQL SuperComputer, 以及通过对存储层的适配,达到最高性能。 Figure 5. Tenant-related factors and how they affect “ isolated versus shared data architecture decisions 未来展望 IT基础设施的变化(多租户) 未来展望 并行数据库技术的发展 实现跨不同地理位置数据中心数据库。例如, Google的Mega 加强数据库内部的资源管理机制和 任务的优先级调用 实现完整的事务和并发控制能力。 扩展支持应用类型的范围,逐渐模糊NOSQL与SQL的不同。例 如,Vertica中的Flex Engine支持类似Mongo DB 可动态调整的基于非循环有向图的具有容错能力的SQL执行 引擎 支持

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论