Greenplum技术深入介绍及产品规划_第1页
Greenplum技术深入介绍及产品规划_第2页
Greenplum技术深入介绍及产品规划_第3页
Greenplum技术深入介绍及产品规划_第4页
Greenplum技术深入介绍及产品规划_第5页
已阅读5页,还剩38页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、Greenplum技术深入介绍及产品规划日程Greenplum简介Greenplum 6.0Greenplum未来规划Greenplum简介O LT P 的开源答案和O L A PMPP无共享静态拓扑数据分布:并行化处理的根基最重要的策略和目标是均匀分布数据到各个数据节点并行执行计划Greenplum可以跑在不同的环境数据类型可以是多样的结构实时 数据时间自然序列语言数据数据事件 数据化数非结据构化 数据网络地理数据数据数据类型关联 数据Greenplum集成化分析Greenplum数据转换传统 BI机器学习深度学习图地理信息文本Greenplum概况产品特性客户端访问和工具多级容错机制无共享

2、大规模并行处理 先进的查询优化器多态存储系统客户端访问ODBC, JDBC, OLEDB, etc.核心MPP 架构并行数据流引擎 高速软数据交换机制MPP Scatter/Gather 流处理在线系统扩展资源管理服务加载 & 数据联邦 高速数据加载近实时数据加载 任意系统数据访问 数据联邦存储 & 数据访问混合存储引擎(行存&列存) 多种压缩,多级分区表 索引(B树,位图,GiST) 安全性语言支持标准SQL支持,SQL 2003 OLAP扩展 扩展编程语言GreenplumR Extension & Hook第三方工具BI 工具, ETL 工具 文本分析,机器学习等管理工具GP Comma

3、nd CenterGreenplum在最新的Gartner报告名列前茅传统数仓领域全 球排名第三实时分析领域全 球并列第四前十中唯一的开 源产品Greenplum 6.0 简介Postgres升级6个Postgres大版本升级v8.4-2314 commitsv9.0-1859 commitsv9.1-2035 commitsv9.2-1945 commitsv9.3-1603 commitsv9.4-1964 commitsGP6-4705 commits总共16425 commits,超过100万行代码更新OLTP性能大幅提升Greenplum 6中的OLTP优化锁的优化(如tmLock)

4、两阶段事物优化(如特殊情况退化为一阶段)更精细化的资源组管理升级内核带来的优化(如fast path lock, lwlock, cache有效性)结果:基准测试性能提升高达70+倍GP6中Update的TPS 24,448GP6中Insert的TPS 46,570GP6中Select的TPS 140,000精细化资源管理目标多租户资源隔离更好地支持混合工作负载更好地支持高并发特征指定每个用户组的最大CPU指定每个用户组和每个查询的最大内存指定每个用户组的最大并发数利用Linux Cgroup实现磁盘配额多租户的场景下,磁盘配额是SLA的 一部分支持Schema和用户级别的磁盘配额 创建和管理

5、当磁盘使用量达到限额时,阻止用 户继续占用磁盘空间基于Greenplum Extension框架构建最小化IO性能的影响近似实时的响应更快的集群扩容10倍以上性能提升新的一致性哈希算法不需要重新分布集群所有数据,仅移动少量数据不需要重新启动集群预写日志(Write-AheadLogging)降低网络开销适应高负载CPU重新平衡更快兼容Postgres复制表explain select count(*) from table_fact f inner join table_replicated d on f.a = d.a;QUERY PLAN-Aggregate (cost=0.00.874.

6、73 rows=1 width=8)- Gather Motion 2:1 (slice1; segments: 2) (cost=0.00.874.73 rows=1 width=8)- Aggregate (cost=0.00.874.73 rows=1 width=8)- Hash Join (cost=0.00.874.73 rows=50000 width=1) Hash Cond: (table_fact.a = table_replicated.a)- Seq Scan on table_fact (cost=0.00.432.15 rows=50000 width=4)- Ha

7、sh (cost=431.23.431.23 rows=10000 width=4)- Seq Scan on table_replicated (cost=0.00.431.23 rows=10000 width=4) Optimizer: PQO version 3.29.0explain select count(*) from table_fact f inner join table_non_replicated d on f.a = d.a;QUERY PLAN-Aggregate (cost=0.00.874.31 rows=1 width=8)- Gather Motion 2

8、:1 (slice3; segments: 2) (cost=0.00.874.31 rows=1 width=8)- Aggregate (cost=0.00.874.31 rows=1 width=8)- Hash Join (cost=0.00.874.31 rows=50000 width=1) Hash Cond: (table_fact.a = table_non_replicated.a)- Redistribute Motion 2:2 (slice1; segments: 2) (cost=0.00.433.15 rows=50000 width=4) Hash Key: t

9、able_fact.a- Seq Scan on table_fact (cost=0.00.432.15 rows=50000 width=4)- Hash (cost=431.22.431.22 rows=5000 width=4)- Redistribute Motion 2:2 (slice2; segments: 2) (cost=0.00.431.22 rows=5000 width=4) Hash Key: table_non_replicated.a- Seq Scan on table_non_replicated (cost=0.00.431.12 rows=5000 wi

10、dth=4)Optimizer: PQO version 3.29.0非复制表1 slice vs 3 slices不需要数据重分布复制表zStandard压缩源于Facebook,Greenplum 6.0发布更快的压缩和解压缩速度更高的压缩率,节省存储空间压缩比增加的情况下压缩速率损耗小解压缩速率在不同压缩比下表现稳定CREATE TABLE加上WITH (compresstype = zstd)列级安全管理SELECT name, address FROM people;SELECT ssn FROM people; SELECT * from people;可更新CTE和递归CTE利用

11、可更新CTE在一个语句中实现数 据的查询和更新利用递归CTE实现复杂处理逻辑Unlogged表写入Unlog ged表的数据不会写入预写(WAL)日志,这使它们比普通 表要快得多。不像临时表,Unlog ged在当前会话/事务结束时不会删除保持数据原子性,一致性和完整性,但是如果发生崩溃,数据可能会 丢失create unlog ged tableGPKafkaM i n i b atc h 模式的流加载和计算引擎端到端不重不丢, 高速, 可靠, 低延迟C o nf l u e nt 认证丰富的数据格式支持( Av ro, J s o n , Tex t , B i n a r y 及自定义类

12、型)支持并行Tra n sfo r m跟机器学习, 文本分析, 地理信息等分析工具无缝衔接, 并通过U D F 扩展GPCC6.0横向扩展算法计算,包括深度学习两全其美:CPU执行和GPU执行线性可伸缩性:添加更多节点以处理更多数据支持各种数据科学工作负载:数据准备,特征生成,机器学习, 地理空间,图计算,深度学习等/简单易用的算法接口训练模型模型预测深度学习,人工智能,神经网络GPU集群集成支持非对称GPU部署-提高经济效益智能打包和分发数据到各个节点模型跳变可在不移动大数据集的情 况下移动经过训练的神经网络状态执行并行训练,以缩短在最佳模型 和参数上收敛的时间方便地访问GPDB中的数据库数

13、据和 训练历史记录GreenplumRR开发者在本地编写代码R函数推送到GP服务器在Docker容器中并行执行R函数R函数在GP处理数据结果存储在数据库中或者返回 给客户端数据无需离开GP将代码推送到GP# run fn.inc in Greenplum in parallel# fn.inc will be transferred to Greenplum and runin paralleldb.gpApply(data, =,FUN=fn.inc, )# a normal R functionfn.inc - function(x)x$iD - x$iD + 100return (x)更

14、易于安装的开源Greenplum社区站点预编译的二进制文件每个版本自动构建RedHat , CentOS , Debian , and UbuntuGreenplum 未来路线Postgres9.5升级完成将会包含在Greenplum 7.0里Upsert (Insert on Conflict)行级安全管理Block Range Indices排序性能大幅提升Postgres9.6升级完成将会包含在Greenplum 7.0里并行执行顺序扫描,Join和聚合避免在Vacuum操作期间不必要地扫描存储页全文检索具备搜索短语能力(多个相邻单词)postgres_fdw支持远程Join,排序,更新和删除大幅提升性能,尤其是在多CPU插槽服务器上的可扩展性方面多数据中心复制将会包含在Greenplum 7.0里利用GPDB 6中实现的预写日志支持故障

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论