Greenplum技术架构介绍_第1页
Greenplum技术架构介绍_第2页
Greenplum技术架构介绍_第3页
Greenplum技术架构介绍_第4页
Greenplum技术架构介绍_第5页
已阅读5页,还剩46页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、Greenplum 6技术架构介绍混合负载的理想数据平台全球领先的开源MPP大数据平台可扩展性ACID事务VS分布式简单易用VS结构化半结构非结构化VS事务型分析型VSMPPmassively parallel processing大规模并行处理masterstandbyprimary segmentmirror segment6数据分布: 并行化的根基最重要的策略和目标是均匀分布数据到各个数据节点。CREATE TABLE orders (id serial, order_date timestamp)Distributed by (id);7SELECT customer,amountFR

2、OM JOINorders customerUSING (cust_id) WHEREdate=2008;生成并行查询计划8执行并行计划Standby MasterMaster HostInterconnectSegment HostNode1Segment HostNode2Segment HostNode3Segment HostNodeNGreenplum (MPP)Oracle (SMP)OLAPOnline Analytical Processing联机分析处理Gartner 2019数据分析行业报告Pivotal Greenplum scored highly this year

3、in all four use cases, positioning among the top vendors in all bar thecontext-independent data warehouse use cases. This reects one of the major trends in the DMSA market this year: rediscovery. End users are turning to traditional technologies in order to meet their DMSA requirements, and Pivotal

4、Greenplums strong capabilities here as an MPP relational database are well-showcased卓越的OLAP特性列式存储分区、压缩高级特性递归查询、窗口函数集成分析多格式、多语言Madlib: 机器学习数据库内并行模型训练和预测、分类ORCA复杂查询优化器成熟稳定完备生态、支撑核心生产系统13列式存储更适合压缩查询部分列时速度快不同列可以使用不同压缩方式amountcust_id表 orders141ASSegmentegment 1BSegment 1CSegment 1DSegment 2ASegment 2BSeg

5、ment 2CSegment 2DSegment 3ASegment 3BSegment 3CSegment 3D分区SELECTCOUNT(*)FROMordersWHEREorder_date= Oct 1 2007ANDorder_date $3 and (extract(epoch from tran_date) - extract(epoch from now()/3600 $4and st_distance_sphere(st_makepoint($5, $6),st_makepoint(c.lng, c.lat)/1000.0 $3 and (extract(epoch from

6、 tran_date) - extract(epoch from now()/3600 $4 and st_distance_sphere(st_makepoint($5, $6),st_makepoint(c.lng, c.lat)/1000.0 $200232018.PROD Space usage (compressed)24 个生产集群2个选项: 20个节点或 40个节点3.600+ 服务器, 13k+ 核, 81PB存储(增长中)4.2.5PB 或 25PB 原始数据按10 x压缩率234Greenplum在摩根士丹利1OLTPOnline transaction processin

7、g联机事务处理出色的OLTP特性天生的优势行式存储索引直接分发完整的增删改Greenplum 6 增强并发修改、删除系统性的优化事务和锁26行式存储更适合OLTP负载高效更改和删除适合需要全部或者多数列的查询表 orders索引Greenplum支持以下索引:BtreeBitmapGistGINBRIN (开发中)10ms的访问 时间,即使是 上亿条记录 100 不同值B-TreeBitmap地理空间 区域Gist文本倒排 索引GIN28Segment 1ASegment 1BSegment 1CSegment 1DSegment 2ASegment 2BSegment 2CSegment 2

8、DSegment 3ASegment 3BSegment 3CSegment 3D直接分发SELECT *FROM orders WHERE id = 1;Segment 1ASegment 1BSegment 1CSegment 1DSegment 2ASegment 2BSegment 2CSegment 2DSegment 3ASegment 3BSegment 3CSegment 3DUPDATE orders SET cust_id = 2 WHERE id = 2;29完整的增删改查读和写不阻塞支持更改删除、删除支持更改分布键、主键(将数据从一个节点移到另一个节点)30Greenp

9、lum 6:并发改删和分布式死锁检测全局死锁检测gpconfig -c gp_enable_global_deadlock_detector -v on31Greenplum 6:锁和事务的优化大幅减少事务开始和结束时的锁冲突消除隐式只读操作(单条SELECT)的锁冲突避免显式只读事务(BEGIN-SELECT-END)的两阶段提交 (开发中)fastpath锁(PostgreSQL合并)32TPC-B基准测试:环境基于谷歌云平台(Google Cloud Platform,简称GCP),为5个虚拟主机的集群,包含一 个master主机和四个segment主机,master和segment虚拟

10、主机的配置信息如下mastersegment虚拟机类型n1-standard-16n1-standard-8CPU核数168内存大小( GB)6030CPU平台Intel Haswell存储类型SSD persistent disk存储大小(GB)512Linux发行版Ubuntu Linux 18.04Linux内核版本4.15.0GCC版本7.3.033TPC-B基准测试:SELECT3.5倍的TPS提升master CPU使用率大幅提高TPS随着master CPU核数增加同 步提高22万 TPS (192核单机部署,master+18 segments)34TPC-B基准测试:UPDA

11、TE得益于并发更改特性70倍的TPS提升35TPC-B基准测试:INSERT峰值TPS提升3.6倍36TPC-B基准测试:多语句峰值TPS提升60倍BEGIN;UPDATE pgbench_accounts SET abalance = abalance + :delta WHERE aid = :aid;SELECT abalance FROM pgbench_accounts WHERE aid = :aid;UPDATE pgbench_tellers SET tbalance = tbalance + :delta WHERE tid = :tid;UPDATE pgbench_bra

12、nches SET bbalance = bbalance + :delta WHERE bid = :bid;INSERT INTO pgbench_history (tid, bid, aid, delta, mtime) VALUES (:tid, :bid, :aid,:delta, CURRENT_TIMESTAMP);END;HTAPHybrid transactional/analytical processing混合事务/分析处理Gartner技术成熟度曲线OLTP-OLAP独立部署OLTP数据库OLAP数据仓库实时性数据同步复杂性应用复杂性HTAPHTAP = ?卓越的OLA

13、P特性出色的OLTP特性多态存储有效的并发和资源管理OLTP-OLAP独立部署OLTP数据库OLAP数据仓库实时性数据同步复杂性应用复杂性43多态存储访问多列时速度快支持高效更新和删除AO 主要为插入而优化11月列存储列存储更适合压缩查询列子集时速度快不同列可以使用不同压缩方式: zstd, gzip (1-9), quicklz, delta, RLE行存储表SALES7月一年前二年前外部表历史数据和不常访问的数 据存储在 HDFS 或者其他 外部系统中无缝查询所有数据Text, CSV, Binary, Avro,Parquet 格式6月5月10月9月8月用户自定义数据存储格式并发管理pg

14、bouncer资源组(resource group)create resource group rg1 (cpu_rate_limit=20, memory_limit=10, concurrency=5)资源管理:CPU使用受限和超限资源管理:CPU,短查询延迟更稳定延迟,CPUSET特性:create resource group rg1 (cpu_set=4,5, memory_limit=10, concurrency=5)资源管理:内存隔离segment级资源组查询共享全局segment级资源组内资源管理:磁盘配额SELCTdiskquota.set_schema_quota (s1, 1 MB);SELECTdiskquota.set_role

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论