DataStage企业版产品白皮书之二说课讲解_第1页
DataStage企业版产品白皮书之二说课讲解_第2页
DataStage企业版产品白皮书之二说课讲解_第3页
DataStage企业版产品白皮书之二说课讲解_第4页
DataStage企业版产品白皮书之二说课讲解_第5页
已阅读5页,还剩16页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、Good is good, but better carries it.精益求精,善益求善。DataStage企业版产品白皮书之二DataStage企业版白皮书之二并行架构的五种关键要素目录TOCo1-3hzuHYPERLINKl_Toc861285161.并行情况PAGEREF_Toc86128516h5HYPERLINKl_Toc861285172.数据流架构PAGEREF_Toc86128517h8HYPERLINKl_Toc861285183.可伸缩硬件环境支持PAGEREF_Toc86128518h15HYPERLINKl_Toc861285193.1.1并行数据库连接PAGEREF

2、_Toc86128519h20HYPERLINKl_Toc861285203.1.2超越ETL能够整合原厂软件和第三方软件的可扩展框架PAGEREF_Toc86128520h23HYPERLINKl_Toc861285213.1.3参考文献PAGEREF_Toc86128521h25HYPERLINKl_Toc861285223.1.4关于AscentialPAGEREF_Toc86128522h26经营综述如今的竞争环境和市场压力迫使各个公司不断提高产量和效率。尤其是当一个企业能够在整个企业范围内利用其公司信息时,情况更是如此。但数据量一直快速增长,并将持续如此。IDC预测,全部数据仓库中将

3、有68%在未来三年内至少会翻翻。已经大于6TB的数据仓库中将有73%在未来三年内至少会翻翻。为了满足企业整合和保持竞争力的商业需要,公司必须努力改善从前所未有的扩展来源涌入其系统的新数据的种类、数量和速度。它们需要将其所有公司数据集成在一起,尽快提交给最终用户,以实现其价值最大化。同时它们还要更精细地集成数据,在单笔交易级别进行处理,而不是单于处理总的概括性数据。随着数据量不断增长和性能要求不断提高,架构必须能够与组织一道成长。最重要的是,这种架构不应存在上限,并且应该能够与硬件环境成线性增长。为解决这些困难,公司需要一种可伸缩的数据集成架构,它应该具有下列特性:1.一种数据流架构,允许数据从

4、输入到输出进行处理,无需存储到硬盘,批量并实时处理2.动态数据分割和未定数据重新分割3.可扩展硬件环境,可以跨SMP移植,簇环境,MPP平台,无需更改下层应用程序代码4.支持主要的并行数据库,包括IBMDB2UDB、Oracle和并行和分割的配置下的Teradata5.一种可整合原厂商软件和第三方软件的可扩展框架应当和向硬件环境中添加处理器或节点一样简单。实际上,这些硬件升级可以在不更改下层应用的情况下进行。测试基准的实际情况将证实这一点。对CRM、运行和销售的优势采用并行基础结构,一家电信公司将能够把其在长途业务市场的营销活动从每月4个增加到40个,从而提前18个月获利。一家运输公司开发了一

5、种收益管理应用程序,这个程序允许其在一天内最多对业务重新定价四次,每年总计创收1亿美元。一家银行只能从其数据仓库中获取概括性数据,但是概括级别的数据却无法执行高价值分析。通过采用一种允许其分析更精细的客户交易数据并使SAS并行运行的并行基础结构,预计每年将额外创造盈利1亿美元。据WinterGroup预测,规模在100到200兆兆字节原始数据的数据仓库将于2004年底前实用化,届时将可并发执行2,000个查询操作,占用磁盘空间将达到约一千兆兆字节(1,000兆兆字节)。并行情况本文是为那些负责设计、构造、支持和使用可伸缩数据处理系统的商业和技术决策人士而准备的。数据量在增长。因此需要能够更快地

6、访问最新的交易数据。数据仓库规模图1.数据仓库的规模和百分比来源:IDC100GB-999GB数据仓库三倍以上两倍以上100%成长率51%-99%成长率25%-50%成长率6TB三倍以上两倍以上100%成长率51%-99%成长率25%-50%成长率1TB三倍以上两倍以上100%成长率51%-99%成长率25%-50%成长率25%成长率所有数据仓库三倍以上两倍以上100%成长率51%-99%成长率25%-50%成长率25%成长率是什么在推动这种成长?因素是多方面的。为具有竞争力,企业需要获得更精细的单笔交易详细数据,而不只是总计数据。同时它们还需要能够更快地获得这些数据,以便应对快速变化的市场和

7、竞争压力。请考虑一下下面这些示例,每个示例具有下述特点:为了能够更快地做出商业决策,一家在北美地区拥有将近2000家店铺的大型零售企业希望每隔15分钟汇集一次发生在每个店铺物的交易数据,这些店铺每小时可能会发生数百次交易,因此数据量和性能要求都非常高。货币交易是一种24小时全天候业务;经纪行需要实时向交易人提供数据,以应对市场变化。一家美国电信公司打算一年内将其提供长途业务的地区从2个州扩展到14个州,这期间用于公司市场营销活动的数据量和处理要求以及数据仓库将会出现极大增长。据Gartner估计,虽然只有10%的企业每天收集数据,但在未来几年内将有超过30%的企业过渡到每天或以更高的频率更新数

8、据。为支持这种日益增长的数据量、种类和速度,以及从每月或每周批量执行到每日甚至到分钟数据的过渡,企业数据仓库的构造者和用户需要有一种高性能且可伸缩的架构。但是请注意,并不是所有“高性能”架构都一样。“并行处理”和“可伸缩性”之类的术语对于不同的厂商、分析家和业界专家来说具有不同的涵义。本文论述了五种关键要素,IT企业在评估一个高性能和可伸缩的数据基础结构解决方案时必须考虑到这些要素。并行架构的这五种关键要素为:1一种数据流架构,允许数据从输入到输出进行处理,无需存储到硬盘,批量并实时处理2.动态数据分割和未定数据重新分割3.可伸缩硬件环境,可以跨SMP移植,簇环境,MPP平台,无需更改下层应用

9、程序代码4并行RDBMS支持,包括IBMDB2UDB、Oracle和并行和分割配置下的Teradata5一种可整合原厂软件和第三方软件的可扩展框架数据流架构在涉及与全局性的、具有高度伸缩能力的数据仓库应用有关的关键问题时,IT和数据管理人员一般希望在一个流程中完成许多步骤从源机器拾取数据,对数据进行转换、增补,最后将其传送到企业数据仓库中或其他系统如数据集市或OLAP工具中,同时还要尽量减小甚至彻底消除步骤之间访问磁盘存储的需要。IT开发企业将需要一种建立在应用程序编程和执行的数据流模型基础上的数据集成平台和并行处理框架,这种模型允许开发人员以可视方式创建顺序数据流。数据可来自多种数据源,例如

10、平面文件、数据库或应用程序(SAP、JDEdwards等)。如果是实时数据提供的情况,源数据可能是消息,这时数据流将“一直有”,而不是在预定的应用程序/数据库才有。但这是仅有的区别。两种情况下,基于数据流架构而出现的高吞吐量仍然十分重要。数据仓库加载增补转换源数据源目标图3.数据流架构传统的数据集成应用程序通常在一个步骤内处理所有数据,并且一般要在开始应用程序中的下一个步骤之前将数据写入磁盘。这样就会存在一个“开始停止开始”序列,使应用程序产生停顿,从而严重降低性能。同时这种处理方式还会造成不稳定的磁盘使用量,一个简单作业的一次执行会轻易占用原始源数据占用磁盘空间的4到7倍,使磁盘管理如同噩梦

11、。这种处理方式很快就变得不适合大数据量应用磁盘I/O占用了大量处理,并且还需要兆兆字节的磁盘容量用于临时存储。存档数据磁盘磁盘磁盘加载增补转换操作数据源目标图4.传统的批处理方式数据流水线技术消除了不断读写磁盘的需要,它通过共享存储器和流水线,甚至可以在上游处理还没有完成的时候,一旦数据可用就立即将其从上游处理传送到下游处理。记录数量9,001每段1000个记录到100,000,000第8段第7段第6段第5段第4段第3段第2段第1段数据仓库加载增补转换操作数据归档数据源目标图5.数据流水线为了更加精确,数据将被(或可以被)缓冲形成批量,以避免在执行一个组件或下一个组件时每个处理对系统性能造成重

12、大影响。这有效避免了死锁的发生,并通过允许上游和下游处理并发执行而极大地提高了性能。如果不采用支持数据流水线的数据流架构,将意味着:必须在每个处理之间将数据存储到磁盘,使性能严重下降,存储要求大大提高,并使磁盘管理如同噩梦开发人员必须对每个组件之间的I/O处理进行管理对大数据量应用无法适用。由于磁盘的使用、管理和设计复杂性增加,因此这种应用程序的速度将会比较慢。并行:(名词)将一个问题分解成很多较小的问题,以并行的方式加以解决。2虽然流水线改善了性能并消除了中间数据分段处理,但由于只有一个数据流在执行,因此可伸缩性仍然存在限制。为实现多处理器系统,必须采用数据分割,允许对分离的数据分割并行执行

13、应用程序逻辑的多个实例。数据分割非常适合许多商业数据处理应用程序使用,因为数据记录通常只按照一个变量划分(例如客户帐户号码、邮政编码或交易日期),因而能够通过应用程序逻辑的并行执行而受益。图6显示了以A-F开头的客户姓名划为一组(处理器)执行,以G-M开头的客户姓名划为另一组执行,等等。处理器4处理器3处理器2处理器1转换转换转换转换U-ZN-TG-MA-F源数据图6.数据分割图7显示了通过对分割的数据执行应用程序逻辑的多个实例实现的并行机制。分割流水线数据仓库加载增补转换源数据目标图7.数据分割和并行执行2参考:韦伯斯特辞典可伸缩架构应当支持许多数据分割类型,包括:键(数据)值范围循环随机整

14、体模数数据库分割(例如DB2)缺少这种能力的典型工具套件要求开发人员采用“硬连接”方式实现数据分割,只要管理员想使用更多硬件容量,就需要对应用程序或数据分割进行重写,成本高昂,费时费力。这一过程有时需要长达数周或数月的开发和生产前测试。请记住,开发人员应当不必关心将要执行的分割的数量、增加分割数的能力,以及更重要的,数据的重新分割。在上例中,根据客户的姓氏对数据进行了分割,并在整个流程中维持这一数据分割。在很多应用中,这是不实际的。请考虑这样一种变换,该变换基于客户姓氏,但出于家务目的,增补处理需要发生在邮政编码部分,随后需要基于客户的帐户号码加载到数据仓库中(下面有更多并行数据库接口)。采用

15、未定或动态数据重新分割技术时,将基于传输过程中所需的下游处理数据分割在处理器之间对数据进行重新分割,从而不需要将数据存储到磁盘。就是说这将在存储器中完成。请记住,当数据可用时也会通过流水线将其向下游处理传递。流水线重新分割分割数据仓库加载增补转换源数据目标客户姓氏客户邮政编码信用卡号码图8.未定数据重新分割典型数据工具不能动态重新分割数据;它们需要对每个处理单独手动“映射”,强迫数据在步骤之间多次写入磁盘,以完成每个数据流程。根据处理和数据大小的情况,这些I/O的延迟将使处理时间增加2到10倍甚至更高。不采用分割和未定数据重新分割技术,意味着开发人员必须:基于当前硬件配置,为每个数据分割创建单

16、独的流程在处理之间将数据存储到磁盘通过手动方式对数据进行重新分割启动下一个处理。结果,将导致磁盘的使用、管理和设计复杂性大大增加,因而应用程序的速度将会比较慢。可伸缩硬件环境支持硬件厂商在10多年前就已开始提供可伸缩并行计算机了。计算架构包括小型单处理机、多CPU系统、群集式巨型机和拥有专用存储器和磁盘的系统。首先,介绍一下有关定义。单处理器单处理机为其单个CPU配备了专门的存储器和磁盘。范例包括PC机、工作站以及单处理器服务器等。对称多处理器机(SMP)对称多处理器机(SMP)系统是一种在多个CPU之间共享所有资源的多处理器环境存储器和磁盘。范例包括IBMpSeries690、SunFire

17、15K、HPSuperdome和HP-CompaqAlphaServerGS3202-64+处理器系统。群集式和大规模并行处理机(MPP)群集环境和大规模并行处理机系统不共享任何环境。每个CPU或节点(单个CPU或SMP)拥有专用存储器和磁盘。群集和MPP环境可拥有2到几百个处理器。范例包括大型IBMSP、NCRWorldMark、以及SunFireBladePlatform系统。网格计算网格计算拥有硬件计算的强大能力,正在成为大型企业的强有力的选择。网格计算能够使公司对给定任务拥有比以往任何时候更强大的处理能力。专用磁盘共享磁盘无共享共享存储器存储器CPUCPUCPUCPUCPU磁盘磁盘SM

18、P系统(对称多处理机)MPP系统(大规则并行处理)单处理器图9.硬件环境网格计算可以充分利用网络上可用的一切分布式计算资源处理器和存储器创建一个单一的系统镜像。网格计算软件提供了一组可用计算资源和一组任务。当一个机器可用时,它就会根据适当的规则为其分配新任务。网格上可用的机器甚至可以达到几千台。网格计算软件最擅长的,就是通过让用户指定执行其作业的CPU和存储器要求,来平衡IT供给与需求,然后在网络上找到可用的能够满足这些要求的机器。但是这种功能对于如管理原料和制成品在供应链和中的流动或通过电子商务网站销售产品之类的商业计算任务来说,却不一定是什么优点。网格计算提供了一组横向整合功能,可有效解决

19、跨企业、跨功能IT资源整合的难题,甚至可将该解决方案扩展到多个组织之间。这意味着网格不大可能取代那些运行与串行逻辑和大型数据库有关的应用程序的大型对称多处理系统,如SiebelSystemsInc.和SAP的产品。企业数据仓库必须不仅能够支持硬件架构的范围,更重要的是还必须能够应对随着数据量和复杂性的增加而出现的成长。为了充分利用开发资源,优化硬件的使用,同时避免性能损失,IT组织应当要求在一台工作站上开发的数据集成应用程序无需修改就能够在另一台工作站上、在一台SMP服务器上、或在一个大型可伸缩MPP系统上运行。其关键就是要清楚定义顺序应用程序逻辑的表达式(应用程序开发人员的责任)和该逻辑到下

20、层并行硬件平台的映射(数据集成软件的责任)之间的划分。存储器磁盘CPUCPUCPUCPU磁盘128路并行4路并行顺序单处理器共享存储器MPP系统(大规则并行处理)SMP系统(对称多处理机)应用程序执行:顺序或并行应用程序汇编:使用DataStageGUI创建的一个数据流程图构造可伸缩软件:运行时执行图10.一起显示:数据流到分割与动态重新分割到硬件实现有些数据集成厂商声称其产品能够在SMP和MPP上运行。但是,数据集成平台真的能够渗透到群集/网格中的MPP框或系统的所有节点吗?同样重要的还有让数据集成基础结构优化所有可用资源的使用的问题。例如,如果一个用户想在白天在4个处理器上并行运行一个项目

21、,在晚上可用资源多的时候采用20路并行模式,事实上这将需要对程序进行大量地重新编写。如果数据集成软件不能无缝地应对这种情况,那么就必须通过开发以手动方式来完成。这意味着您将无法达到可用硬件和备用计算能力的最大化,您也无法轻松地实现伸缩。不采用可伸缩硬件环境意味着:较慢的执行速度,因为所有可用硬件资源都没有最大化应用程序设计与硬件配件之间没有脱勾机制,因而必须对每次硬件更改进行手动干预无法按需要进行伸缩。并行数据库连接拥有并行硬件和并行关系数据库的企业常常无法实现点到点并行机制的全部优势,这是因为其数据集成软件不允许用户并行从数据库中提取或加载数据。这种情况将形成瓶颈,削弱真正的伸缩能力,使IT

22、组织仅能处理关系数据和应用程序之间的一种简单连接。这种低效性常常造成批处理窗口激增。许多关系数据库管理系统,如DB2UDB,支持在一个服务器内或一个服务器群集之间分割数据库。这一功能具有多种优点,包括支持超大型数据库或复杂工作负荷和为实现管理任务而增加的并行机制等能力的伸缩性。真正的并行处理基础结构应能够自动支持对IBMDB2UDB、Oracle、Informix和NCRTeradata等主流数据库的并行访问。按产品分类的数据库接口应当支持多个数据流全部以并行方式进出数据库和运行交易逻辑,以避免任何顺序处理瓶颈。此外,数据分割还应当与数据库对数据的分割(在节点之间)一致。图11显示了在调用加载

23、操作之前被重新分割的数据。加载处理,采用并行方式,将使用数据库加载接口或实用工具将数据库加载到数据库分割中。这些分割可以跨群集或节点分布。相反操作同样应当如此,即基于数据库分割以并行方式卸载或提取。基于数据库分割的重新分割加载被分割的数据库图11.基于数据库分割和并行数据库加载的重新分割甚至文件也应当能够并行读取。每个分割应当能够从输入数据文件中读一定的相邻范围的记录。其他分割应当知道其分割应读哪些记录。最后的数据集中将包含每个文件读操作实例一个分割。但是许多数据集成工具却不支持并行加载,也不支持基于源或目标数据库分割自动对数据进行重新分割。拥有这种无缝的并行提取和加载功能,开发人员将能够更容

24、易地专注于数据集成任务和避免应对数据库的复杂性。不采用支持并行数据库接口和数据库分割的机制,意味着:提取或加载操作将形成单个、顺序处理瓶颈,大大降低性能,减小采用并行数据库所带来的优势这将迫使数据写入磁盘,以便在加载处理之前重新分割数据,使流程减慢开发者将不得不应对并行数据库连接和重新分割所具有的复杂性。总之,将导致磁盘的使用、管理和设计复杂性大大增加,因而应用程序的速度将会比较慢。超越ETL能够整合原厂软件和第三方软件的可扩展框架据AMRResearch调查,去年大公司在集成方面的投入为300万美元。可伸缩的基础结构应可提供内在的、高性能并行组件,特别是排序、聚集、联合等等。但由于任何大型企

25、业都具有特殊且个性化的需求,因此可伸缩基础结构应当可以扩展,以整合现有程序和第三方工具作为数据集成处理的一部分。这些程序最初是为顺序执行而编写的,它们应当能够在一个数据分割上并行执行,无论使用的是什么编程语言(C、C+、COBOL等)。整合现有软件代码所需的一个关键要求是,能够只对每个记录的数据(列/域)进行操作,基础结构应当能够将未使用(接触/更改)的剩余数据部分简单地通过组件传递到数据流程中的下一个下游组件。这被称为列传播或模式传播。这对于不经过更改而整合现有应用程序,使之更具移植性和使用性,非常关键。有了这一能力,软件就可以实现集成和并行处理了。包括SAS在内的第三方工具同样应当能够被整

26、合和并行执行。许多厂商声称能够整合现有工具和第三方工具。它们通常采用将数据存储到磁盘然后再调用“外部”程序的方式来实现。这通常通过手动编写脚本程序来完成,而非集成解决方案,并且显然没有使它们并行执行。高性能排序简介在任何大型数据集成工作中排序数据通常都是一个关键且费时的任务,因此IT组织应确保并行基础结构软件中具有内置的高性能排序功能,以便排序数据集的记录。如果没有这一功能,排序操作可能会导致无法接受的延时和处理瓶颈。为适应高数据量,这种排序操作应能够在单个处理器上执行对整个数据集的排序,或在多个处理器上执行对一个数据集中每个分割的记录的排序。同时所有这些操作应无需向磁盘存储数据而引起关联I/O性能下降。当与适当的范围分割程序配合使用时,一次分割排序操作将生成一个完全有序的数据集,其中每个分割内的记录有序排列,分割本身也有序也排列。请记住,真正的可伸缩架构应当充分利用数据分割、动态重新分割以及流水线等所有技术而非在任何硬件环境下在操作之间将数据存储到磁盘上,来整合这些非内在的组件和工具。如果不采用能够整合现有程序和第

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论