版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、 Datastage产品开发使用指南 MACROBUTTON AcceptChangesSelected 北京先进数通信息技术有限公司商业智能应用部 Datastage产品开发使用指南 - PAGE 44 -文档信息标题Datastage产品开发使用指南创建日期2005-12-22打印日期文件名PMA-003-Datastage产品开发使用指南-V1.0.doc存放目录DIPMA所有者北京先进数通信息技术有限公司作者何应龙修订记录日期作者描述文档审核/审批姓名职务/职称审核批准文档分发此文档将分发至如下各人姓名职务/职称目 录 TOC o 1-3 h z u HYPERLINK l _Toc1
2、23361103 目 录 PAGEREF _Toc123361103 h ii HYPERLINK l _Toc123361104 1. 引言 PAGEREF _Toc123361104 h 1 HYPERLINK l _Toc123361105 2. 常用Stage使用说明 PAGEREF _Toc123361105 h 1 HYPERLINK l _Toc123361106 2.1. Sequential File Stage PAGEREF _Toc123361106 h 1 HYPERLINK l _Toc123361107 2.2. Annotation PAGEREF _Toc12
3、3361107 h 4 HYPERLINK l _Toc123361108 2.3. Change Capture Stage PAGEREF _Toc123361108 h 5 HYPERLINK l _Toc123361109 2.4. Copy Stage PAGEREF _Toc123361109 h 7 HYPERLINK l _Toc123361110 2.5. Filter Stage PAGEREF _Toc123361110 h 8 HYPERLINK l _Toc123361111 2.6. Funnel Stage PAGEREF _Toc123361111 h 9 HY
4、PERLINK l _Toc123361112 2.7. Tansformer Stage PAGEREF _Toc123361112 h 10 HYPERLINK l _Toc123361113 2.8. Sort Stage PAGEREF _Toc123361113 h 11 HYPERLINK l _Toc123361114 2.9. LookUp Stage PAGEREF _Toc123361114 h 12 HYPERLINK l _Toc123361115 2.10. Join Stage PAGEREF _Toc123361115 h 12 HYPERLINK l _Toc1
5、23361116 2.11. Merge Stage PAGEREF _Toc123361116 h 14 HYPERLINK l _Toc123361117 2.12. Modify Stage PAGEREF _Toc123361117 h 15 HYPERLINK l _Toc123361118 2.13. Data Set Stage PAGEREF _Toc123361118 h 16 HYPERLINK l _Toc123361119 2.14. File Set Stage PAGEREF _Toc123361119 h 17 HYPERLINK l _Toc123361120
6、2.15. Lookup File Set Stage PAGEREF _Toc123361120 h 19 HYPERLINK l _Toc123361121 2.16. Oracle Enterprise Stage PAGEREF _Toc123361121 h 21 HYPERLINK l _Toc123361122 2.17. Aggregator Stage PAGEREF _Toc123361122 h 22 HYPERLINK l _Toc123361123 2.18. Remove Duplicates Stage PAGEREF _Toc123361123 h 24 HYP
7、ERLINK l _Toc123361124 2.19. Compress Stage PAGEREF _Toc123361124 h 25 HYPERLINK l _Toc123361125 2.20. Expand Stage PAGEREF _Toc123361125 h 26 HYPERLINK l _Toc123361126 2.21. Difference Stage PAGEREF _Toc123361126 h 27 HYPERLINK l _Toc123361127 2.22. Compare Stage PAGEREF _Toc123361127 h 29 HYPERLIN
8、K l _Toc123361128 2.23. Switch Stage PAGEREF _Toc123361128 h 30 HYPERLINK l _Toc123361129 2.24. Column Import Stage PAGEREF _Toc123361129 h 31 HYPERLINK l _Toc123361130 2.25. Column Export Stage PAGEREF _Toc123361130 h 33 HYPERLINK l _Toc123361131 3. DataStage Administrator常用配置 PAGEREF _Toc123361131
9、 h 35 HYPERLINK l _Toc123361132 3.1. 设置TimeOut时间 PAGEREF _Toc123361132 h 35 HYPERLINK l _Toc123361133 3.2. 设置Project的属性 PAGEREF _Toc123361133 h 36 HYPERLINK l _Toc123361134 3.3. 更新DataStage Server的License和本地Client的License PAGEREF _Toc123361134 h 37 HYPERLINK l _Toc123361135 4. DataStage Manager使用 PA
10、GEREF _Toc123361135 h 37 HYPERLINK l _Toc123361136 4.1. 导入导出Job及其它组件 PAGEREF _Toc123361136 h 37 HYPERLINK l _Toc123361137 4.2. 管理配置文件 PAGEREF _Toc123361137 h 39 HYPERLINK l _Toc123361138 5. DataStage Director使用 PAGEREF _Toc123361138 h 41 HYPERLINK l _Toc123361139 5.1. 察看Job的状态,运行已经编译好的Job PAGEREF _T
11、oc123361139 h 41 HYPERLINK l _Toc123361140 5.2. 将编译好的Job加入计划任务 PAGEREF _Toc123361140 h 42 HYPERLINK l _Toc123361141 5.3. 监控Job的运行情况 PAGEREF _Toc123361141 h 43引言DataStage EE的开发主要由DataStage Designer完成。现对常用部分加以说明,详细使用方法请查阅在线帮助文档。常用Stage使用说明DataStage的基本逻辑处理单位是Job,每个Job由许多Stage组成;由Stage来完成对数据的抽取,转换,加载等,现
12、对常用的Stage做说明Sequential File Stage功能特点:适用于一般顺序文件(定长或不定长),可识别文本文件或IBM大机ebcdic文件。使用要点:按照命名规范命名点住文件,双击鼠标,在general说明此文件内容,格式,存储目录等 修改文件属性,文件名称,reject方式等到 修改文件格式,比如记录结束符是什么,字段分隔符,字符串是用什么区别等 输入此文件字段内容 Annotation功能特点:一般用于注释,可利用其背景颜色在job中分颜色区别不同功能块使用要点: Change Capture Stage功能特点:Change Capture Stage有两个输入,分别标记
13、为before link 及 after link。输出的数据表示before link和after link的区别,我们称作change set。Change Capture Stage可以和Change Apply Stage配合使用来计算after set。key及value的说明key值是比较的关键值,value是当key值相同是作进一步比较用的。change mode选项说明:All keys,Explicit Values 需要指定value,其余字段为keyExplicit Keys&Values key及value都需要指定Explicit Keys,All Values 需要
14、指定key,其余的字段为value输出策略说明Drop Output For Copy False:保留before及after link中key值相同的行 True:删除before及after link中key值相同的行Drop Output For Delete False:保留before link中有但是after link中没有的key值所在的行 True:删除before link中有但是after link中没有的key值所在的行Drop Output For Edit False:保留key值相同,value不同的行 True:删除key值相同,value不同的行Drop O
15、utput For Insert False:保留before link中没有但after link中有的key值所在的行 True:删除before link中没有但after link中有的key值所在的行Copy Stage功能说明:Copy Stage可以有一个输入,多个输出。它可以在输出时改变字段的顺序,但是不能改变字段类型。注意:当只有一个输入及一个输出时最好将Force设置为True,这样可以在Designer里看到运行结束,否则将无法标识运行结束,但不会影响运行结果数据。Filter Stage功能说明:Filter Stage只有一个输入,可以有多个输出。根据不同的筛选条件,
16、可以将数据输出到不同的output link。 Funnel Stage功能说明:将多个字段相同的数据文件合并为一个单独的文件输出合并策略说明Continuous Funnel:从每一个input link中循环取一条记录Sort Funnel:按照Key值排序合并输出Sequence:先输出第一个input link的数据,输出完毕后再输出第二个input link的数据,依此类推,直到结束。(此时可以通过调整link Ordering调整输出顺序)Tansformer Stage功能说明:一个功能极为强大的Stage。有一个input link,多个output link,可以将字段进行转
17、换,也可以通过条件来指定数据输出到那个output link。在开发过程中可以使用拖拽。Constraint及Derivation的区别Constraint通过限定条件使符合条件的数据输出到这个output link。Derivation通过定义表达式来转换字段值。在Constraint及Derivation中可以使用Job parameters及Stage Variables。注意:Transformer Stage功能强大,但在运行过程中是以牺牲速度为代价的。在只有简单的变换,拷贝等操作时,最好用Modify Stage,Copy Stage,Filter Stage等来替换Transfo
18、rmer Stage。Sort Stage功能说明:只能有一个输入及一个输出,按照指定的Key值进行排列。可以选择升序还是降序,是否去除重复的数据等等。Option具体说明 Allow Duplicates: 是否去除重复数据。为False时,只选取一条数据,当Stable Sort为True时,选取第一条数据。当Sort Unility为UNIX时此选项无效。 Sort Utility: 选择排序时执行应用程序,可以选择DataStage内建的命令或者Unix的Sort命令 Output Statistics: 是否输出排序统计信息到job日志 Stable Sort: 是否对数据进行二次整
19、理 Create Cluster Key Change Column:是否为每条记录创建一个新的字段:clusterKeyChange。当Sort Key Mode为Dont Sort(Previously Sorted) 或 Dont Sort (Previously Grouped)时,对于第一条记录该字段被设置为1,其余的记录设置为0。Create Key Change Column:是否为每一条记录创建一个新的字段KeyChange。LookUp Stage功能说明:LookUp Stage把数据读入内存执行查询操作,将匹配的字段输出,或者在在符 合条件的记录中修改或加入新的字段。Jo
20、in Stage功能说明:将多个表连接后输出 LookUp Stage 和 Join Stage的区别LookUp Stage将数据读入到内存中,所以效率很高,但是占用了较多的物理内存。所以当reference data比较小的时候,我们推荐用LookUp Stage;当reference data比较大的时候,我们推荐用Join Stage。Merge Stage功能说明:将Merge Key值相同的记录合并。将其中的一个输入设定为Master,其余的为Update。把Update中Merge Key相同的记录合并入Master。Modify Stage功能说明:Modify stage 只
21、能有一个输入及一个输出,它可以修改表结构:删除,保留一个字段;给字段改名;修改字段的数据类型。Specification的具体用法:删除一个字段: DROP columnname , columnname保留一个字段: KEEP columnname , columnname改变字段: new_columnname :new_type = explicit_conversion_functionold_columnname可用的explicit_conversion_function请参看Parallel Job Developers Guide7Data Set StageStage类型:F
22、ile stage功能说明:从data set文件中读取数据或者写数据到data set文件中,一个Data Set Stage只能有一个输入连接(input link)或者一个输出连接(output link)。具体用法:包括Stage Page,Inputs Page,Outputs PageStage Page通常描述了stage的一般信息,诸如名称等;Inputs Page描述了即要写入信息的data set文件的详细信息;主要是Properties和Column的定义Properties中配置了文件的存放路径和更新策略Column详细定义文件中的各个字段Outputs Page描述了
23、读取信息的data set文件的详细信息;操作过程与Inputs Page类似。File Set StageStage类型:File stage功能说明:从file set文件中读取数据或者写数据到file set文件中,一个File Set Stage只能有一个输入连接(input link)、一个输出连接(output link)和一个拒绝连接(rejects link)。并且只能在并行模式下执行。具体用法:Stage Page:对Stage的基本定义Inputs Page:主要是Properties和Format的配置Properties的配置:定义文件的存取路径及其他读写的相关的参数。
24、特别要说明的是Options下的Reject Mode的选择,当stage有reject link的时候,必须选择Output;没有reject link时,可选择其他两个选项。Format的配置:定义了数据写到文件中的格式Outputs Page:对stage输出的数据字段的描述,另外,reject link的输出系统将默认,不需要用户自己定义字段。Lookup File Set StageStage类型:File stage功能说明: 为执行查找操作而创建的参照文件。作为查找的参照数据,通常在参照数据比较大量或者重复使用率较高的情况下,将参照数据生成专门的Lookup File Set文件
25、,以便提高查找的效率具体用法:Stage PageInputs Page:主要定义了查找关键字和存放路径等主要信息创建一个Lookup File Set文件:Outputs Page:当作为参照数据进行查找操作时,因为文件是已经生成好的,所以在这里不需要再做详细的定义,只要引入即可。Oracle Enterprise StageStage类型:Database Stage功能说明:从Oracle数据库中读取数据或者写数据到Oracle数据库中。通常完成的操作:使用INSERT或UPDATWE命令更新数据库表装入数据库表读取数据库表从数据库表中删除行在库表中直接执行查询操作将库表装入内存,然后执
26、行查询操作具体用法:Inputs Page向数据库中写数据,关键是对Properties的配置Outputs Page:与Inputs Page类似,只是完成的是从数据库中读取数据。Aggregator StageStage类型:Processing Stage功能说明: 将输入的数据分组,计算各组数据的总和或者按组进行其他的操作,最后将结果数据输出到其他的stage。具体用法:Stage Page:描述stage的一般信息以及字段的分组信息和选择分组计算函数Inputs Page:详细描述输入数据信息,一般直接反映输入数据字段信息Oupputs Page:详细描述输出数据信息,即经过分组计算
27、后的数据字段信息Remove Duplicates StageStage类型:Processing Stage功能说明: 输入根据关键字分好类的有序数据,去除所有记录中关键字重复的记录,通常与sort stage配合使用具体用法:Stage Page:Properties中的key值与之前sort stage的分类key值相同Inputs Page:对输入数据字段的描述Oupputs Page:对输出数据字段的描述Compress StageStage类型:Processing Stage功能说明: 将data set文件压缩成二进制文件(与expend datastage相对应)具体用法:S
28、tage Page运行结果Inputs Page:对输入数据字段的描述Outputs Page:对输出数据字段的描述Expand StageStage类型:Processing Stage功能说明:将压缩的二进制文件解压缩(解压缩compress stage生成的压缩文件)具体用法:Stage Page运行结果:Inputs Page:对输入数据字段的描述Outputs Page:对输出数据字段的描述Difference StageStage类型:Processing Stage功能说明: 按字段比较两个文件,找出不同的记录。(两个文件before和after,以before为准,与after
29、文件中的记录进行比较,找出before在after文件中没有或者有的记录)具体用法:Stage Page比较策略说明Drop Output For Copy False:保留before及after link中key值相同的行 True:删除before及after link中key值相同的行Drop Output For Delete False:保留before link中有但是after link中没有的key值所在的行 True:删除before link中有但是after link中没有的key值所在的行Drop Output For Edit False:保留key值相同,valu
30、e不同的行 True:删除key值相同,value不同的行Drop Output For Insert False:保留before link中没有但after link中有的key值所在的行 True:删除before link中没有但after link中有的key值所在的行调整before和after的顺序:Inputs Page:对输入数据字段的描述Outputs Page:对输出数据字段的描述Compare StageStage类型:Processing Stage功能说明:按字段对比两个已经分类的有序的文件 具体用法:Stage PageInputs Page:对输入数据字段的描述
31、Outputs Page:对输出数据字段的描述Switch StageStage类型:Processing Stage功能说明:将文件按照一定的条件(一般为字段的值)分割成多个子文件。具体是将输入的每一条记录按照各自符合的条件(关键字的值)分配到不同的输出(Switch Stage 有一个input link 和多个output link,一个 reject link,output link最多可达128个;此功能很类似与C函数中的switch函数)。具体用法:Stage Page定义分配记录的关键字及其值Inputs Page:对输入数据字段的描述Outputs Page:对输出数据字段的描述,通过Mapping自定义各个输出文件中的字段Column Import StageStage类型:Restructure Stage功能说明: 将一个字段中的数据输出到多个字段中。(也可以用这个stage完成分割单个字段数
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- “安全月”趣味竞赛活动方案
- 还建房买卖协议书
- 网络课程录制合同
- 玻璃钢防腐工程施工方案
- 2023年玉溪市红塔山自然保护区管护局招聘森林草原火灾预防专业队队员考试真题
- 2023年伊春市第一中学赴外招聘教师笔试真题
- 2023年台州教师招聘台州市教育局直属学校教师招聘笔试真题
- 矿山开采项目开发利用方案
- 建筑工程基坑支护方案
- 素土挤密桩专项施工方案
- 2025届陕西省西工大附中高三冲刺模拟物理试卷含解析
- 品牌授权收费合同模板
- DB41-T 2689-2024 水利工程施工图设计文件编制规范
- 2024年刑法知识考试题库及答案(全优)
- 四年级上册信息技术人教版第10课设动作与超链接(教案)
- 空气动力学数值方法:有限体积法(FVM):离散化技术与数值通量
- 北师大版九年级物理全一册电子课本教材
- 合作安全责任协议书范本
- 2024-2030年中国船舶电子导航系统行业市场发展趋势与前景展望战略分析报告
- 生产管理培训课件
- 2024秋八年级数学上册 第十四章 整式的乘法与因式分解14.1 整式的乘法 4整式的乘法-单项式与单项式相乘教学设计(新版)新人教版
评论
0/150
提交评论