tdwi ebook shaping the future of data通过开源软件创造数据仓库的未来_第1页
tdwi ebook shaping the future of data通过开源软件创造数据仓库的未来_第2页
tdwi ebook shaping the future of data通过开源软件创造数据仓库的未来_第3页
tdwi ebook shaping the future of data通过开源软件创造数据仓库的未来_第4页
tdwi ebook shaping the future of data通过开源软件创造数据仓库的未来_第5页
已阅读5页,还剩6页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

使用开源数据仓库有哪些优势和风险?它们又是为什么直到现在才进入市场?与PivotalSoftware,Inc.的数据市场策略师JeffKelly一起来了解一下开源数据仓库

JeffKelly:开源数据仓库是一种完全基于开源软件代码构建的数据库,支持企业级和生产级数据分析及报成本(TCO)。对于开源数据仓库来说,是这样吗?是的,开源数据仓库可以大大降低TCO。采用开源数据仓库无需支付软件费用,也不必昂贵的专有硬换和加载(ETL)的工作负载),开源数据仓库对于这些 商的支持,此外,从业者也不启用当时寥寥无几且测试的开源选项。时至今日,随着业务发展日可以为体系中的其他开源技术(如Hadoop)提供极好有可能,但大多数供应商都面对着一个:他们的业开源则会对他们的业务模式造成。这是因为开源数于从业者随时可以停止向供应商硬件,而仍能继续

一个拥有十分活跃且在不断壮大的社区的开源数据仓 MPP数据仓库是支持动态、混合工作负载的理想解决方案,它们可以针对海量数据进行信息、管理和数据仓库在大规模数据的信息、管理和处理中起到了关键作用。这听起来可能不合常理,尤其是现在市场上相继推出了代替数据仓库的Hadoop、Cassandra、MongoDB和其他NoSQL平台。的确,所有这些平台都有一个或多个SQL查询引擎,但是SQL查询引擎并不“如果你只需要获取某些平面文件并对其执行SQL查询,其实并不需要数据库,而是需要一个介乎SQL与执行间的翻译器。要设计和构建大规模并行处理(MPP)数式群集上运行的庞大数据库的一致性,同时并行这些数据。”PivotalSoftware,Inc.产品经理IvanNovick说市场上符合ACID(原子性、一致性、性和持久性)标准的MPP分析数据仓库非常之少。但这并不代表MPP的价格一定高不可攀。至少现在不是了。得益于MPP软MPP系统的价格变得非常低廉,性价比也变得非常高。

MPPMPP当然,NoSQL系统也能提供很高的性价比。但从查询处理方面来看,NoSQL就失去了性价比优势。NoSQL查询引擎无法像MPP数据库一样高效、全面且可靠地处理首先,现有的SQL引擎无一能够完全符合现今的ANSISQL标准。(即使有也只有极少数全面了ANSISQL-92标准;大多数仅实现了ANSISQL-1999及之后版本的部分标准。)其次,SQL查询引擎的表现受限于所查询Hadoop、Cassandra和MongoDB都不是关系型数据库系统。它们缺乏必要的保障(如支持ACID事务和丰富的MPP分析平台。它们同样无法高效处理多个用户同时发出的并行SQL查询。“从根本上说,构建一个数据仓库比仅仅构建一个SQL引擎要得多,”Novick解释道。“数据仓库与SQL引擎的区别发。而这些NoSQL引擎无论是在并发性、ACID上还是SQL表达式的丰富性上的表现都不尽如人意。”15MPP系统。在技术创MPP系统的价格已经可承受多了。(推出了SQLServer并行数据仓库)、Amazon(推出了云端MPP数据仓库Redshift)Pivotal(GreenplumMPP数据仓库的版)提供的产品的价格仅为传统MPP数据库的几分之一。MPP硬件的价格也变得更低且可扩展性更高。过去,MPP数据库采用的是软硬件的销售模式。这意味着,一个配备、最强大的InPentiumProXeonMPP服务器节点的成本将高于(有时甚至远远高于)戴尔、HP或IBM等制造商提供的同这个缺点在某种程度上是无法避免的。一个MPP数据向群集中的所有节点分发数据;这会大量数据移动。此外,MPP还依靠一种被称为“消息传递”的技术来协调各个节点之间的通信。因此,过去的MPP数如今,市场上的高吞吐量、低延迟技术(如10千兆位以太网)的价位已经低得多。Novick认为:综上所述,是采用标准硬件的最佳配置。In基本上就是世界的标准硬件。一般而言,一台服务器配备有两个In处理器就是最佳配置。如果一台计算机配备了四个In处10台、50台、100台、500台甚MPP的过程并不是那么复杂和昂贵,Novick继续说道。将现有的数据仓库迁移到MPP数据仓库,跟从12个或3个业务关键型应用为基“如果你运行的是Netezza数据仓库,或以

完成迁移,但是如果你运行的是支持200种不同使用情形的data系统,则需要采用渐进法,先从将数据和MPP数据库系统设计架构也不是很复杂。Novick建议时间进行垂直分区。如果我有500天的数据,那么我可集内的所有节点上),”Novick说。对你说,‘给我这一天的量’,然后全部的100台是按时间独立分区的,与没有分区时需要处理500天的他还高度评价了一种被Pitl和另外一些供应商称为“双EL”(ulE)的技术。该技术是数据或变更数据捕获CC)技术的一种替代方案,它可以将数据从“活动”的主系统到“待机”的备用系统。双ELEL流程,采用相同,vick说。MPPETL本身还算经济实惠,Novick说。“从本质上讲,你构建了两个你需要建立两个群集,并且需要在本地将零售店的能让数据库管理员(DBA)更有效地提升并发性能。通过采用双ETL拓扑,组织能够实现双倍的并发速率,支持当然,双EL并不是万能的。MPP系统也使用工作负载管理工具来管理并发性能。“经多家供应商证明,管理并发性能的关键是建立一个良好的工作负载管理系统,自主定义和执行动态规则。也就是一个基于规则的工作负载管理系统,可以设置不同的阈值和条件,并基于这些阈值和条件,让不同优先级的查询在不同时间运行,”vick说。他还并不是所有用户的查询都是的:有的用户发起的查询更可靠。“如果你了解到另外,可将不经常的数据分流到非MPP中以简化数据归档,提高性能,而将经常的数据在MPP环境中。这样,群源可以分配给最需要的工作负载。对于不经常的数据,可以将其保存到外部系统上,使用外部表从内部数据所在的SQL界面上传统的关系型数据库采用行的形式数据,这意味着扫描每一列的每项内容。这将增加输入/输出(I/O),限度降低I/O争用,并能显著降低磁盘寻道时间。出于包括优越压缩系数在内的,列式架构通常在分“有些数据库系统,例如PivotalGreenplum,就可以同

时定义格式,并且格式可同时包含行、列客户必须先将数据从本地位置迁移到云中。”Novick指 和一些专业供应商束缚。客户不能过于高估云平台即服务(PaaS)产一供应商的云平台。应该使用基础架构即服务( 要使用类似AmazonWebServices或 Azure的服务,并且一定要使用可移动的数据仓库软件”,Novick说。在Pivotal的系列产品中,Greenplum数据库既可以在传统本地环境中运行,也可以在云环境中运行。Pivotal也有自己非常成功的PaaS云服务,CloudFoundry。在 Novick强调:“使用Pivotal的系列产品时,用户不但AmazonS3等形式的超便宜解决方案。这些价格低廉的云解决方案还可用于数据归档,比如说当用户卸载不经常的数据时。”在大数据时代,MPP数据库系统是处理分析工作负载也能支持新型的高级NoSQL分析。有的MPP平台可以在数据库引擎环境中并行运行不同类型的算法。例如在Greenplum数据库引擎环境中运行的ApacheMADlib(incubating)机器学习库,就能从Greenplum的并行处理这仅仅只是一个例子而已,NovickMPP数据仓库已在使用服务器群集来和处理数据。你可以运行机器学习算法,利用相应群集中所有服务器的CPUHadoop和其他NoSQL平台在大数据架构中发挥着积极而独特的作用。NoSQL平台非常适合和管理多元结构数据,以及储海量关系数据。相比之下,MPP数据仓好数据仓库的原因。如果客户想认真经营企业,我们绝对可以帮上忙”Novick表示。MPPMPP开源软件了传统的软件开发、交付和模式。它开源还了企业用于评估战略IT投资并做出决策时的难,对于机器学习、数据挖掘、统计分析、MPP数据仓商束缚到难以忍受。”PivotalSoftware,IncGreenplum开源数据仓库产品总监CesarRojas表示,“专有平PivotalGreenplumMPP数据仓库。Greenplum本身基于PostgreSQL数据库构建而成的,而PostgreSQL数据库拥有丰富的开源技术支持。但Greenplum一开始并非开源产品,而是到2015年10月

ApacheLicenseVersion2下发布才开源的。Rojas说:“Pivotal之所以开源了Greenplum和其他所有的Pivotal数据产品,是出于Pivotal对客户应尽的责任”。术以转向Greenplum开源平台。因为Greenplum平台可以帮助企业摆脱一切的供应商束缚。”Rojas解释道。客户希望在能够大规模扩展的开源环境中运行报告、分析、数据科学等各种各样的用例。在某种程度上,Pivotal的自我定位可以是独一无二的,因为目前除了我MPP23GNU-Linux操作系统为例。25年前,盛极一时的UNIX操作系统还是专有的,在成本高昂的RISC硬件上运行。从技术上来讲,GNU-Linux并不是UNIX,但它和UNIX很相似,并且它如今的市场份额已经打败了它的专有市场竞争对手UNIX。另一个例子,关于开源R统计编程环境。统计学和数据挖掘是最具专业化的领域,SAS和SPSS等专有供应商却在这两个领域称霸了数十年。R对SAS和SPSS的主导地工程、社会科学和统计学专业的大学毕业生都是在R上市场上并不缺乏开源数据库产品。PostgreSQL和MySQL只是其中两个较为突出的开源数据库平台。非MPP平台使用一种“对称多处理”(即SMP)的技术来实现纵向扩展(也称为“垂直扩展”)。MySQL或标准SQLServer数据库专为在单个服务器节点上运行而设计,并可以在该节点上的所有范围内进行扩展。理想情况下,SMP数据库可以实现线性扩展。但在实践中,这是绝对无法实现的,因为当增加时,数据库使用这MPP数据库可以在一个服务器节点中的所有可用范MPP数据库分布在一个SMP节点上,它也可以实现水平扩展。当MPP数据库处理查询时,群集中的各个节点将分别处理该查询的一部分。因此,不止24个,一个MPP数据库可以支持192个、384个、768个甚至个。Rojas说,在现在市面上的MPP数据仓库平台中,Greenplum是唯一的一个开源MPP数据库。除此之外,再也没有其他可靠的的开源替代方案了。Greenplum自身的发展过程说明了从零开始开发一项开源MPP数据库技术是非常的。与Linux和R不同的是,Greenplum原本就是一款一流的数据库。它的设计PostgreSQL10Greenplum作为专与非MPP开源数据库的替代方案不同,Greenplum可以同时支持行式和列式。“Greenplum与SQL完全兼容。我们提供列和行两种方式,并称之为‘多态’”,Rojas解释道。“虽然我们明显提供的是MPP数据库,但作为这项技术的一部分,我们还开发出名为GPORCA的开源产品,采用了模块化设计,并且独立于Greenplum引擎之外。”开发一款针对大数据的查询优化器意味着什么?“当Greenplum利用GPORCA优化查询时,考虑的替代方案比其他查询优化器多得多。它可以优化更广泛的查询。”Rojas说。

在其他方面,Pivotal计划为Greenplum提供基础架构即服务( )云部署选项。虽然市面上并不缺乏云数据库,但云MPP数据仓库的数量却屈指可数。“我们目前是在Amzoneberices上运行,但与此同PitlCldundry服务“今年,我们有多项云创新项目正在酝酿中。近期将推出的一项是针对在AmaonS3上运行的外部数据库表的写入功能。我们所有的云举措都将帮助我们更快地向托管服务类型的环境,使我们的技术更具弹性。”去年秋天,Pivotal将其MADlib机器学习框架提供给了Apache软件。Rojas说:“ApacheMADlib是一个30多种机器学习算法的集合。它集合了机器学习、预测分析、数据挖掘与统计算法,可以在Greenplum数“Mlib我们还运行各种其他数据库内分析。”他以tGIS为例继续说道,“Geenplm还提供包含一切PL/、PL/R、PL/el、PL/Pythn语言在内的数据库内编程。这些代码不仅能在数据库内运行,也能在MPP环境中运行。换GeenplmMPP群集中实现并行处理机器学习、处理、和网络资源,它们的执行速度与单一系统SMP数据库相比更快,有时甚至快好几个数量级。MPP可以实现极快的迭代。“假设你正在研究R语言,已经构建了一个R模型,并RMPP基础架构MADlib不仅让MPPSQL界面。这样一来,那些不太精通Java或Python的分析师就可以通过写入SQL代码来使用MADlib算法。“借助MADlib,你可以在MPP数据库中执行结构化和MADlib还提供完整的SQL执行,以及同样作为SQL运行的嵌入函数。”他解释道。“对于那些不熟悉Java开发的而言,MADlib能够为熟练使用SQL的分析师Pivotal对为社区发展付出了大量努力。除了提供在去年年底正式成为ASF孵化计划的MADlib,Pivotal还提供了专有产品HAWQ。HAWQ是Greenplum在Hadoop中进行本机运行的端口,它拥有完整的SQP支持,类似于RDBMS的事务一致性保证及类似于MPP数据中心的并Rojas说:“我们与开源社区的合作收获了不可思议的 的pull请求或评论。人都想跟他们合作。我们与Pos

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论