Datastage控件使用指南_第1页
Datastage控件使用指南_第2页
Datastage控件使用指南_第3页
Datastage控件使用指南_第4页
Datastage控件使用指南_第5页
已阅读5页,还剩68页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Datastage控件使用指南MACROBUTTONAcceptChangesSelected目录Datastage 11.引言 12.常用Stage使用阐明 12.1.SequentialFileStage 12.2.Annotation 52.3.ColumnExportStage 72.4.ChangeCaptureStage 92.5.CopyStage 122.6.FilterStage 132.7.FunnelStage 142.8.TansformerStage 152.9.SortStage 172.10.LookUpStage 182.11.JoinStage 192.12.MergeStage 212.13.ModifyStage 222.14.DataSetStage 232.15.FileSetStage 252.16.LookupFileSetStage 272.17.OracleEnterpriseStage 302.18.AggregatorStage 332.19.RemoveDuplicatesStage 352.20.CompressStage 362.21.ExpandStage 382.22.DifferenceStage 402.23.CompareStage 432.24.SwitchStage 442.25.ColumnImportStage 463.DataStageManager使用 493.1.导入导出Job及其他组件 493.2.管理配置文献 504.DataStageAdministrator常用配置 514.1.设置TimeOut时间 514.2.设置Project的属性 524.3.更新DataStageServer的License和当地Client的License 535.DataStageDirector使用 545.1.察看Job的状态,运行已经编译好的Job 545.2.将编译好的Job加入计划任务 575.3.监控Job的运行状况 58引言DataStageEE的开发重要由DataStageDesigner完毕。现对常用部分加以阐明,详细使用措施请查阅在线协助文档。常用Stage使用阐明DataStage的基本逻辑处理单位是Job,每个Job由许多Stage构成;由Stage来完毕对数据的抽取,转换,加载等,现对常用的Stage做阐明SequentialFileStage功能特点:合用于一般次序文献(定长或不定长),可识别文本文献或IBM大机ebcdic文献。使用要点:按照命名规范命名点住文献,双击鼠标,在general阐明此文献内容,格式,存储目录等修改文献属性,文献名称,reject方式等到修改文献格式,例如记录结束符是什么,字段分隔符,字符串是用什么区别等输入此文献字段内容Annotation功能特点:一般用于注释,可运用其背景颜色在job中分颜色区别不一样功能块使用要点:ColumnExportStageStage类型:RestructureStage功能阐明:与ColumnImportStage相反,将多种类型不一样的字段合并成一种string或者binary类型的字段。详细使用方法:StagePage:关键是properties的配置,选择将哪些字段合并,合并后的新字段在Output下的column中直接定义。InputsPage:对输入数据字段的描述,这里关键是Format的配置,决定合并后的字段的格式OupputsPage:对最终合并后的输出数据字段的描述通过stage的前后数据的对比合并字段后:ChangeCaptureStage功能特点:ChangeCaptureStage有两个输入,分别标识为beforelink及afterlink。输出的数据表达beforelink和afterlink的区别,我们称作changeset。ChangeCaptureStage可以和ChangeApplyStage配合使用来计算afterset。key及value的阐明key值是比较的关键值,value是当key值相似是作深入比较用的。changemode选项阐明:Allkeys,ExplicitValues需要指定value,其他字段为keyExplicitKeys&Valueskey及value都需要指定ExplicitKeys,AllValues需要指定key,其他的字段为value输出方略阐明DropOutputForCopyFalse:保留before及aftelink中key值相似的行True:删除before及aftelink中key值相似的行DropOutputForDeleteFalse:保留beforelink中有不过afterlink中没有的key值所在的行True:删除beforelink中有不过aftelink中没有的key值所在的行DropOutputForEditFalse:保留key值相似,value不一样的行True:删除key值相似,value不一样的行DropOutputForInsertFalse:保留beforelink中没有但aftelink中有的key值所在的行True:删除beforelink中没有但aftelink中有的key值所在的行CopyStage功能阐明:CopyStage可以有一种输入,多种输出。它可以在输出时变化字段的次序,不过不能变化字段类型。注意:当只有一种输入及一种输出时最佳将Force设置为True,这样可以在Designer里看到运行结束,否则将无法标识运行结束,但不会影响运行成果数据。FilterStage功能阐明:FilterStage只有一种输入,可以有多种输出。根据不一样的筛选条件,可以将数据输出到不一样的outputlink。FunnelStage功能阐明:将多种字段相似的数据文献合并为一种单独的文献输出合并方略阐明ContinuousFunnel:从每一种inputlink中循环取一条记录SortFunnel:按照Key值排序合并输出Sequence:先输出第一种inputlink的数据,输出完毕后再输出第二个inputlink的数据,依此类推,直到结束。(此时可以通过调整linkOrdering调整输出次序)TansformerStage功能阐明:一种功能极为强大的Stage。有一种inputlink,多种outputlink,可以将字段进行转换,也可以通过条件来指定数据输出到那个outputlink。在开发过程中可以使用拖拽。Constraint及Derivation的区别Constraint通过限定条件使符合条件的数据输出到这个outputlink。Derivation通过定义体现式来转换字段值。在Constraint及Derivation中可以使用Jobparameters及StageVariables。注意:TransformerStage功能强大,但在运行过程中是以牺牲速度为代价的。在只有简朴的变换,拷贝等操作时,最佳用ModifyStage,CopyStage,FilterStage等来替代TransformerStage。SortStage功能阐明:只能有一种输入及一种输出,按照指定的Key值进行排列。可以选择升序还是降序,与否清除反复的数据等等。Option详细阐明AllowDuplicates:与否清除反复数据。为False时,只选用一条数据,当StableSort为True时,选用第一条数据。当SortUnility为UNIX时此选项无效。SortUtility:选择排序时执行应用程序,可以选择DataStage内建的命令或者Unix的Sort命令OutputStatistics:与否输出排序记录信息到job日志StableSort:与否对数据进行二次整顿CreateClusterKeyChangeColumn:与否为每条记录创立一种新的字段:clusterKeyChange。当SortKeyMode为Don’tSort(PreviouslySorted)或Don’tSort(PreviouslyGrouped)时,对于第一条记录该字段被设置为1,其他的记录设置为0。CreateKeyChangeColumn:与否为每一条记录创立一种新的字段KeyChange。LookUpStage功能阐明:LookUpStage把数据读入内存执行查询操作,将匹配的字段输出,或者在在符合条件的记录中修改或加入新的字段。JoinStage功能阐明:将多种表连接后输出LookUpStage和JoinStage的区别LookUpStage将数据读入到内存中,因此效率很高,不过占用了较多的物理内存。因此当referencedata比较小的时候,我们推荐用LookUpStage;当referencedata比较大的时候,我们推荐用JoinStage。MergeStage功能阐明:将MergeKey值相似的记录合并。将其中的一种输入设定为Master,其他的为Update。把Update中MergeKey相似的记录合并入Master。ModifyStage功能阐明:Modifystage只能有一种输入及一种输出,它可以修改表构造:删除,保留一种字段;给字段更名;修改字段的数据类型。Specification的详细使用方法:删除一种字段:DROPcolumnname[,columnname]保留一种字段: KEEPcolumnname[,columnname]变化字段:new_columnname[:new_type]=[explicit_conversion_function]old_columnname可用的explicit_conversion_function请参看《ParallelJobDeveloper’sGuide》7DataSetStageStage类型:Filestage功能阐明:从dataset文献中读取数据或者写数据到dataset文献中,一种DateSetStage只能有一种输入连接(inputlink)或者一种输出连接(outputlink)。详细使用方法:包括StagePage,InputsPage,OutputsPageStagePage一般描述了stage的一般信息,诸如名称等;InputsPage描述了即要写入信息的dataset文献的详细信息;重要是Properties和Column的定义Properties中配置了文献的寄存途径和更新方略Column详细定义文献中的各个字段OutputsPage描述了读取信息的dataset文献的详细信息;操作过程与InputsPage类似。FileSetStageStage类型:Filestage功能阐明:从fileset文献中读取数据或者写数据到fileset文献中,一种FileSetStage只能有一种输入连接(inputlink)、一种输出连接(outputlink)和一种拒绝连接(rejectslink)。并且只能在并行模式下执行。详细使用方法:StagePage:对Stage的基本定义InputsPage:重要是Properties和Format的配置Properties的配置:定义文献的存取途径及其他读写的有关的参数。尤其要阐明的是Options下的RejectMode的选择,当stage有rejectlink的时候,必须选择Output;没有rejectlink时,可选择其他两个选项。Format的配置:定义了数据写到文献中的格式OutputsPage:对stage输出的数据字段的描述,此外,rejectlink的输出系统将默认,不需要顾客自己定义字段。LookupFileSetStageStage类型:Filestage功能阐明:为执行查找操作而创立的参照文献。作为查找的参照数据,一般在参照数据比较大量或者反复使用率较高的状况下,将参照数据生成专门的LookupFileSet文献,以便提高查找的效率详细使用方法:StagePageInputsPage:重要定义了查找关键字和寄存途径等重要信息创立一种LookupFileSet文献:OutputsPage:当作为参照数据进行查找操作时,由于文献是已经生成好的,因此在这里不需要再做详细的定义,只要引入即可。OracleEnterpriseStageStage类型:DatabaseStage功能阐明:从Oracle数据库中读取数据或者写数据到Oracle数据库中。一般完毕的操作:使用INSERT或UPDATWE命令更新数据库表装入数据库表读取数据库表从数据库表中删除行在库表中直接执行查询操作将库表装入内存,然后执行查询操作详细使用方法:InputsPage向数据库中写数据,关键是对Properties的配置OutputsPage:与InputsPage类似,只是完毕的是从数据库中读取数据。AggregatorStageStage类型:ProcessingStage功能阐明:将输入的数据分组,计算各组数据的总和或者按组进行其他的操作,最终将成果数据输出到其他的stage。详细使用方法:StagePage:描述stage的一般信息以及字段的分组信息和选择分组计算函数InputsPage:详细描述输入数据信息,一般直接反应输入数据字段信息OupputsPage:详细描述输出数据信息,即通过度组计算后的数据字段信息RemoveDuplicatesStageStage类型:ProcessingStage功能阐明:输入根据关键字分好类的有序数据,清除所有记录中关键字反复的记录,一般与sortstage配合使用详细使用方法:StagePage:Properties中的key值与之前sortstage的分类key值相似InputsPage:对输入数据字段的描述OupputsPage:对输出数据字段的描述CompressStageStage类型:ProcessingStage功能阐明:将dataset文献压缩成二进制文献(与expenddatastage相对应)详细使用方法:StagePage运行成果InputsPage:对输入数据字段的描述OupputsPage:对输出数据字段的描述ExpandStageStage类型:ProcessingStage功能阐明:将压缩的二进制文献解压缩(解压缩compressstage生成的压缩文献)详细使用方法:StagePage运行成果:InputsPage:对输入数据字段的描述OupputsPage:对输出数据字段的描述DifferenceStageStage类型:ProcessingStage功能阐明:按字段比较两个文献,找出不一样的记录。(两个文献before和after,以before为准,与after文献中的记录进行比较,找出before在after文献中没有或者有的记录)详细使用方法:StagePage比较方略阐明DropOutputForCopyFalse:保留before及aftelink中key值相似的行True:删除before及aftelink中key值相似的行DropOutputForDeleteFalse:保留beforelink中有不过aftelink中没有的key值所在的行True:删除beforelink中有不过aftelink中没有的key值所在的行DropOutputForEditFalse:保留key值相似,value不一样的行True:删除key值相似,value不一样的行DropOutputForInsertFalse:保留beforelink中没有但aftelink中有的key值所在的行True:删除beforelink中没有但aftelink中有的key值所在的行调整before和after的次序:InputsPage:对输入数据字段的描述OupputsPage:对输出数据字段的描述CompareStageStage类型:ProcessingStage功能阐明:按字段对比两个已经分类的有序的文献详细使用方法:StagePageInputsPage:对输入数据字段的描述OupputsPage:对输出数据字段的描述SwitchStageStage类型:ProcessingStage功能阐明:将文献按照一定的条件(一般为字段的值)分割成多种子文献。详细是将输入的每一条记录按照各自符合的条件(关键字的值)分派到不一样的输出(SwitchStage有一种inputlink和多种outputlink,一种rejectlink,outputlink最多可达128个;此功能很类似与C函数中的switch函数)。详细使用方法:StagePage定义分派记录的关键字及其值InputsPage:对输入数据字段的描述OupputsPage:对输出数据字段

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论