版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、Tanzu Greenplum 数据平台产品介绍Greenplum is the platform that can power your analytics needs now and, in the future.2The Greenplum Analytics Platform2003年Greenplum由Scott Yara和Luke Lonergan成立2005年Greenplum数据库第一个版本发布2010年Greenplum数据库被EMC收购, 同年 借助EMC研发团队建立中国研发中心,负责Greenplum产品研发,社区推 广工作。截止2020年,国内研发人数 达150+201
2、5年Greenplum正式开源,成为世界上第 一款成熟的开源MPP数据库2013年Pivotal 成 立 独 立 实 体 公 司 , Greenplum数据库从EMC公司独立出 来成为Pivotal公司大数据产品目前,Greenplum社区发展活跃,全球已有来自美国、中国、俄罗斯、日本、英国、德国、芬兰、瑞士等国家的大批贡献者,其中Greenplum中文社区尤为活跃,目前约有半数贡献来自中国。全球首个开源、多云部署的大数据平台专为高级分析而打造Gartner全球Top 10 经典和实时数据分析产品中 唯一开源数据库Tanzu Greenplum产品发展历程5BI and ReportingBi
3、g DataFlexible Deployment灵活性使用方便可扩展性与云战略保持一致开源软件各种数据类型可扩展性投资可控基于SQL企业就绪高并发可扩展性Greenplum演进过程从传统的数据仓库到多云分析平台随着各行业大 数据及使用的 不 断 发 展 , Greenplum的 功能得到了丰 富,可以满足 客户需求并提 供企业级开源 分析平台客户需求2015 - nowAppliancesCommodity HWCloud and Virtualisation2011 - 2015till 2010GreenplumGreenplum从Pivotal时期在国内推广到广为人知大致经历了三个大的
4、版本: Greenplum4.x4.3Postgres8.2 Greenplum5.x,Postgres8.3 Greenplum6.x,Postgres9.4+ 数据分析平台建设三个阶段: 面向描述型分析平台 面向预测型分析平台 面向运营型分析平台数据均匀分布是MPP数据库并行 处理实现高性能的充分条件Greenplum数据库提供了Hash算法、Random、复制的数据分布 机制确保:数据均匀分布在每一块磁盘上面发挥每一块磁盘性能,从根本上 解决I/O瓶颈实例1实例2实例3实例4实例5实例6少数字段查询,大 幅节省I/O操作大数据量频繁访问,性能提升30%以上Column1Column2Co
5、lumn3Row 1Row 2Row 3更新速度快大多数字段频繁查询随机行访问较多行式存储列式存储TABLE SALESJun列式存储行式存储Year - 1Year - 2外部HDFS或AWS S3存储NovDecJulAugSepOctGreenplum 多 态存储特性按照应用类型设计存储 模式。最细粒度到分区,实现同一张表多种存 储模式达到最优化访问性能传统数据库SQL标准的关系型数据库,支持ANSI SQL标准SQL-92, SQL-99, SQL-2003,SQL-2008,SQL-2011全面集成PostgreSQL 9.x 功能支持JSON、支持XML支持递归查询Raster P
6、ostGIS(栅格)支持范围、列表等类型的分区,而且相比传统的数据分区增加以下特 点:支持多层次数据分区功能,范围-范围、范围-列表、列表-列表、列表-范 围等各种组合在分区一级指定存储模式,目前支持行式、列式、Hadoop、云存储等多种形式在分区一级指定压缩方式支持BTree、Bitmap、地理信息索引(GiST)等多种类型的索引集成PostgreSQL 功能内置分区、索引特性2011遵循 ANSI SQL 标准Greenplum 压缩算法:Zlib1-9,压缩比高,占用CPU资源较 多,适用于CPU计算能力较强的场景QuickLZ,压缩比低,占用CPU资源较 少,适用于CPU计算能力相对较
7、弱的场 景Greenplum 6以后支持zstd压缩算法,提供更快的压缩解压性能 压缩比依赖于压缩算法和数据内容,针对移动信令、话单、点击流数据压缩比可以达到20倍以上 无论哪种存储模式,均支持压缩,一张 表的不同列支持不同的压缩算法Scatter-Gather Streaming提供性能线性扩张支持大批量数据加载和持续化的数据加载支持GBK/UTF8/ISO8859等字符集间的自动转换支持文本文件、JSON、XML、HDFS、数据库等多种 格式数据加载,支持Zip等压缩数据文件加载每个Rack(16节点),每小时16TB加载性能Greenplum Scatter-Gather Streami
8、ngXX 银行数据加载测试结果GreenplumMADlib是2011年开始,UC伯克利大学产研结合项目Greenplum 集成的基于机器学习及 人工智能分析的算法包集成大量的基于传统数学分析统计的 算法、图计算的算法以及一些常见的 机器学习的算法。机器学习方面:监督学习算法,比如支持向量机回归类的算法,比如逻辑回归、线性回 归、聚类树型模型,比如随机森林、决策树等Graph 处理方面,比如最短路径, 图形直径等算法此外还库内集成一些效用函数、线 性求解,或传统的统计分析类的汇 总函数、统计分析函数、交叉验证 选型函数等Generalized Linear Models(广义 线性模型)Lin
9、ear RegressionLogistic RegressionMultinomial Logistic RegressionOrdinal RegressionCox-Proportional HazardsRegressionElastic Net RegularizationRobust Variance (Huber-White), Clustered Variance, Marginal EffectsOther Machine Learning Algorithms(其他ML算法)Principal Component Analysis (PCA)Association Rule
10、s (Apriori)Topic Modeling (Parallel LDA)Decision TreesRandom ForestConditional Random Field (CRF)Clustering (K-means)Cross ValidationNave BayesSupport Vector Machines(SVM)Prediction MetricsK-Nearest NeighborsDescriptive Statistics(描述统计) Sketch-Based EstimatorsCountMin (Cormode-Muth)FM (Flajolet-Mart
11、in)MFV (Most Frequent Values) Correlation and CovarianceSummaryTime Series(时间序列)ARIMAGraph(图计算)All pairs shortest pathBreadth first traversalConnected componentsMultiple graph measuresPageRankSingle source shortest pathUtility Modules(实用模块)Array and Matrix OperationsSparse VectorsRandom SamplingProb
12、ability FunctionsData PreparationPMML ExportConjugate GradientStemmingSessionizationPivotPath FunctionsEncoding Categorical VariablesLinear Systems(线性系统)Sparse and Dense SolversLinear AlgebraMatrix Factorization(矩阵分解)Singular Value Decomposition(SVD)Low RankInferential Statistics(推论统计)Hypothesis Tes
13、tsConnection 级控制同时有多少用户可以接入在多个集群间实现负载均 衡Session 级定义Resource Group实现资源量化控制每个用户绑定Resource Group,控制查询并发及 查询资源成本占比Query(SQL) 级在SQL语句执行前,动态 设置所属资源组,实现资 源的灵活调配用于优待特定查询,从而 缩短其运行时间Connection PoolingWorkload Manager(Rule)Resource Group输出 结果SQL请求传统仓库架构传统的数据库产品停机时间长数据重分布无法根据系统负载自主安排GreenplumGreenplum 数据仓库增加节点可
14、线性增加存储、查询和加载性能在线扩容,对外数据服务不中断数据自动在数据节点上重新分布数据重分布可根据系统负载自主安排XX 银行在线线性扩展测试结果结论:1.本次测试展示了4节点-8节点-16节点-32节点的扩展过程,扩容后数据充分不是完全在线的2.从16节点-32节点时,30TB压缩数 据扩容+数据重分布3小时全部完成,GP扩展比其它类型数据库更快捷PXF通过REST API将查询信息发送到PXF服务器 数据返回给Greenplum并呈现给用户从异构数据源向Greenplum加载或卸载数据从Greenplum中通过标准SQL查询数据而不需要将它们在集群中物化支持多种数据格式,可以从 S3,HD
15、FS,MySQL,Oracle,DB2, FLATFILE,HBASE、HDFS、HIVE等等PXF技术特性支持利用谓词下推实现数据过滤支持Greenplum查询优化器利用PXF外部表的信息生成优化的查询 计划可扩展的API框架让用户可以开发自己的数据连接器以访问他们 自己的数据源和数据格式PXF是Greenplum实现数据联邦的关键接口Greenplum集群用户可以通过外部表功能,查询外部表:GreenplumX86服务器服务器硬盘Raid 5保护更换新盘后Raid 5 data 自动重 建硬件组件冗余保护(Fan, PSU)网络交换机部署2台网络交换机正常情况下,2台交换机同时工作,负载均衡异常情况下,如1台交换机故障,另外1台将进行冗 余保护Greenplum数据库控制节点部署2台控制节点服务器,以Active-Standby方式 构成Linux HA集群Active服务器和 Standby服务器自动数据同步Active服务器失败时切换到Standby服务器Greenplum 6中将增加Master auto failover功能Greenplum数据库数据节点采用镜像技术支持节点两两互备(部署简单)和实例交叉互 备(性能影响最小)两种模式17Tanzu Greenplum全面的业务交付能力Where to Start客户可选择的虚拟化平台部署在Gr
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 小学体育教研组学期工作总结
- 厨艺大赛活动方案
- 门式钢架课程设计纸
- 课程设计飞剪机构简图
- 软件测试课程设计题
- 2024至2030年电信工安全带项目投资价值分析报告
- 2024至2030年双立柱堆垛起重机项目投资价值分析报告
- 2024年男西装架项目可行性研究报告
- 2024年平板琉璃瓦项目可行性研究报告
- 2024至2030年中国激光腰线水平仪数据监测研究报告
- 浅析专利法第26条第3款和第4款的关联关系
- 动力触探与标准贯入试验实施细则
- 提升机事故案例分析及提升机电控技术PPT课件
- 100以内退位减法经典实用
- 校本课程开发方案家乡景区文化避暑山庄
- 抢救病人登记表
- 投标函及投标函附录范本(完整版)
- 牙合畸形的早期矫治PPT参考课件
- 施工组织设计(横道图+平面图)
- 隐患分类分级管理台帐(完整版)
- 门式钢架钢结构施工方案(精华版)
评论
0/150
提交评论