Greenplum开源数据仓库介绍_第1页
Greenplum开源数据仓库介绍_第2页
Greenplum开源数据仓库介绍_第3页
Greenplum开源数据仓库介绍_第4页
Greenplum开源数据仓库介绍_第5页
已阅读5页,还剩18页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、Greenplum开源数据仓库介绍实现100亿监控数据的秒级分析Greenplum开源数据仓库 APM监控行业应用 Greenplum重返开源的10个月 100亿级监控数据秒级分析PostGIS结合地理信息监控数据数学函数及MADlib实现SQL复杂分析 结合OSS云存储扩展海量级数据Greenplum重返开源的10个月2005 Bizgres基于PostgreSQL结合BI特性的开源数据库2005 推出Greenplum商业版本的MPP分布式数据仓库2010 被EMC收购2013 成为EMC旗下Pivotal公司核心产品2015年10月正式重回开源,基于Apache协议Greenplum重返

2、开源的10个月在GitHub中Fork出432个新版本共有28607次commit吸引了全球90位contributor代码贡献者已经解决的request 820个,解决中的问题33个在阿里云于2016年7月11日正式对外公测 云数据库Greenplum版 以上数据截止至2016年8月14日Greenplum开源数据仓库 APM监控行业应用Greenplum重返开源的10个月 100亿级监控数据秒级分析 PostGIS结合地理信息监控数据数学函数及MADlib实现SQL复杂分析结合OSS云存储扩展海量级数据100亿级监控数据秒级分析- 1年有525600分钟,如果每台设备有25个要监控的指标-

3、 100亿/ 525600 / 25,约761台设备每分钟采样分布式分库分表P2主P1id mod 3 = 1id mod 3 = 2id mod 3 = 0P3100亿级监控数据秒级分析数据倾斜:每个设备活跃度不同,如关机、无信号不同用户查询频率不同导致问题:服务器压力倾斜 / 用户性能倾斜P2主P1id mod 3 = 1id mod 3 = 2id mod 3 = 0P3100亿级监控数据秒级分析- Greenplum中的分片处理图片来源:/wp-content/uploads/2011/2-/greenplum-system-configuration.png100亿级监控数据秒级分析

4、- Greenplum中的CREATE TABLE语法CREATE GLOBAL | LOCAL TEMPORARY | TEMP TABLEtable_name ( column_name data_type DEFAULT default_expr column_constraint . ENCODING ( storage_directive ,. ) | table_constraint| LIKE other_table INCLUDING | EXCLUDINGDEFAULTS | CONSTRAINTS ., . ) INHERITS ( parent_table , . ) W

5、ITH ( storage_parameter=value , . ) PARTITION BY partition_type (column) SUBPARTITION BY partition_type (column) SUBPARTITION TEMPLATE ( template_spec ) .( partition_spec )| SUBPARTITION BY partition_type (column) .( partition_spec ( subpartition_spec (.) ) ON COMMIT PRESERVE ROWS | DELETE ROWS | DR

6、OP TABLESPACE tablespace DISTRIBUTED BY (column, . ) | DISTRIBUTED RANDOMLY 让分析计算时,每台服务器计算量趋于平衡100亿级监控数据秒级分析- Greenplum中的行列混存储合支持图片来源:http:/blog.pivotal.io/wp-content/uploads/2014/10/Polymorphic.png100亿级监控数据秒级分析- Greenplum中的CREATE TABLE语法CREATE GLOBAL | LOCAL TEMPORARY | TEMP TABLE table_name ( colu

7、mn_name data_type DEFAULT default_expr column_constraint . ENCODING ( storage_directive ,. ) | table_constraint| LIKE other_table INCLUDING | EXCLUDINGDEFAULTS | CONSTRAINTS ., . ) INHERITS ( parent_table , . ) WITH ( storage_parameter=value , . ) ON COMMIT PRESERVE ROWS | DELETE ROWS | DROP TABLESP

8、ACE tablespace DISTRIBUTED BY (column, . ) | DISTRIBUTED RANDOMLY 100亿级监控数据秒级分析Greenplum中的表分区针对Where条件查询按条件减少查询范围降低磁盘IO提高性能图片来源:/gpdb-sandbox-tutorials/100亿级监控数据秒级分析- Greenplum中的CREATE TABLE语法CREATE GLOBAL | LOCAL TEMPORARY | TEMPTABLE table_name ( column_name data_type DEFAULT default_expr column_c

9、onstraint . ENCODING ( storage_directive ,. ) | table_constraint| LIKE other_table INCLUDING | EXCLUDINGDEFAULTS | CONSTRAINTS ., . ) INHERITS ( parent_table , . ) WITH ( storage_parameter=value , . ) ON COMMIT PRESERVE ROWS | DELETE ROWS | DROP TABLESPACE tablespace DISTRIBUTED BY (column, . ) | DI

10、STRIBUTED RANDOMLY PARTITION BY partition_type (column) SUBPARTITION BY partition_type (column) SUBPARTITION TEMPLATE ( template_spec ) .( partition_spec )| SUBPARTITION BY partition_type (column) .( partition_spec ( subpartition_spec (.) )Greenplum开源数据仓库 APM监控行业应用Greenplum重返开源的10个月100亿级监控数据秒级分析 Pos

11、tGIS结合地理信息监控数据 数学函数及MADlib实现SQL复杂分析 结合OSS云存储扩展海量级数据PostGIS结合地理信息监控数据用户在不同区域(公园、商场、地铁)的App使用频率各个区域用户的App组合使用习惯区域化精准用户App推荐图片来源:/2015/04/24/postgis-o-arcgis-comparando-rendimientos/PostGIS结合地理信息监控数据SELECT ST_AsText(ST_Intersection( ST_Buffer(POINT(0 0), 2),ST_Buffer(POINT(3 0), 2);SELECT b.the_geom As

12、 bgeom, p.the_geom As pgeom,ST_Intersection(b.the_geom, p.the_geom) As intersect_bpFROM buildings b INNER JOIN parcels p ON ST_Intersection(b,p)WHEREST_Overlaps(b.the_geom, p.the_geom)LIMIT 1;图片来源:/questions/25797/select-bounding-box-using-postgisGreenplum开源数据仓库 APM监控行业应用Greenplum重返开源的10个月100亿级监控数据秒

13、级分析PostGIS结合地理信息监控数据 数学函数及MADlib实现SQL复杂分析 结合OSS云存储扩展海量级数据数学函数及MADlib实现SQL复杂分析- 求方差(一), Variance求总体方差:postgres=# select var_pop(c1) from (values(1),(2),(3),(4),(5) as t(c1); var_pop-2.0000000000000000(1 row)postgres=# select var_pop(c1) from (values(1),(2),(3),(4),(5),(1000) as t(c1); var_pop-138058.

14、472222222222(1 row)数学函数及MADlib实现SQL复杂分析- 求方差(二), Variance求样本方差:postgres=# select var_samp(c1) from (values(1),(2),(3),(4),(5) as t(c1); var_samp-2.5000000000000000(1 row)postgres=# select var_samp(c1) from (values(1),(2),(3),(4),(5),(1000) as t(c1); var_samp-165670.166666666667数学函数及MADlib实现SQL复杂分析-

15、相关性, 线性相关性, Correlation表示两组数据的相关性, 相关值从0到1取值 趋向1表示完全相关, 趋向0 表示完全不相关postgres=# select corr(c1,c2) from (values(1,2),(2,3),(3,4),(4,5),(5,6),(1000,1001) as t(c1,c2); corr- 1(1 row)postgres=# select corr(c1,c2) from (values(1,2),(2,3),(3,4),(4,5),(5,6),(1000,1) as t(c1,c2); corr-0.652023240836194(1 row)Greenplum开源数据仓库 APM监控行业应用Greenplum重返开源的10个月100亿级监控数据秒级分析 PostGIS结合地理信息监控数据数学函数及MADlib实现SQL复杂分析 结合OSS云存储扩展海量数据 在阿里云中Greenplum的扩展传统环境打通阿

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论