kettle公司内部培训手册_第1页
kettle公司内部培训手册_第2页
kettle公司内部培训手册_第3页
kettle公司内部培训手册_第4页
kettle公司内部培训手册_第5页
已阅读5页,还剩16页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、Kettle 培训手册Etl 介绍ETL(Extract-Transform-Load的缩写,即数据抽取、转换、装载的过程),对于金融ITT 来说说,经常常会遇到到大数据据量的处处理,转转换,迁迁移,所所以了解解并掌握握一种etl工工具的使使用,必必不可少少。Ketttle是是一款国国外开源源的ettl工具具,纯jjavaa编写,绿色无无需安装装,数据据抽取高高效稳定。Ketttlee中有两两种脚本本文件,traansfformmatiion和和jobb,traansfformmatiion完完成针对数据的的基础转转换,jjob则则完成整整个工作作流的控控制。ketttle 部署运运行将ket

2、ttlee2.55.1文文件夹拷拷贝到本本地路径径,例如如D 盘根根目录。双击运行行ketttlee文件夹夹下的sspooon.bbat文文件,出出现keettlle欢迎迎界面:稍等几秒秒选择没有有资源库库,打开开ketttlee主界面面创建trranssforrmattionn,jobb点击页面面左上角角的创建建一个新新的trranssforrmattionn,点击击保存到到本地路路径,例如如保存到到D:/etlltesst下,保存文文件名为为EtlltesstTrranss,ketttlee默认trranssforrmattionn文件保存存后后缀缀名为kktr点击页面面左上角角的创建建一

3、个新新的joob,点点击保存存到本地地路径,例如保保存到D:/ettlteest下下,保存存文件名名为EttlteestJJob,ketttlee默认joob文件件保存后后后缀名名为kjb创建数据据库连接接在traansfformmatiion页页面下,点击左左边的【Maiin TTreee】,双双击【DDB连接接】,进进行数据库连连接配置置。connnecttionn naame自自命名连连接名称称Connnecttionn tyype选选择需要要连接的的数据库库Methhod of acccesss选择连连接类型型Servver hosst nnamee写入数数据库服服务器的的ip地址址D

4、ataabasse nnamee写入数数据库名名Portt nuumbeer写入入端口号号Userrnamme写入入用户名名Passsworrd写入入密码例如如下下配置:点击【ttestt】,如如果出现现如下提提示则说说明配置置成功点击关闭闭,再点点击确定定保存数数据库连连接。一个简单单的kttr 例例子目的:将一个数数据库导导入到另另一个数数据库中中。操作步骤骤:创建一个个traansfformmatiion,命名为为etlTesttTraans.ktrr,创建建数据库库连接ods,点击【Inpput】,选中中【表输输入】,拖到主主窗口,释放鼠鼠标,双双击打开如下图点击【TTrannsfoo

5、rm】,选选中【字字段选择择】,拖拖到主窗窗口,释释放鼠标标点击【OOutpput】,选中中【表输输出】,拖到主主窗口,释放鼠鼠标建立【文文本文件件输入】和【字字段选择择】与【字段选选择】和和【表输输出】的的连接双击【表表输出】,目标标表中写写入ZTT_TEEST_KETTTLEE,确确定保存存双击【字字段选择择】,点点击获取取选择的的字段,再点击击Edllt MMapppingg,点击击OK确定,编编辑所有有字段对对应关系系,点确确定。点击运行行这个转转换。,则将上上一个kktr中中生成的的文本,导入到到数据库库当中。一个简单单的kjjb例子子目的:将上一个个traansfformmatii

6、on在在一个jjob里里面调用用执行。操作步骤骤:在etllTesstJoob页面面,点击击【Coore Objjectts】,点击【Jobb enntriies】,选中中【STTARTT】拖动到主主窗口释释放鼠标标,再选选中【TTrannsfoormaatioon】,拖动到到主窗口口释放鼠鼠标,建立【SSTARRT】和和【Trranssforrmattionn】之间间的连接接。双击【TTrannsfoormaatioon 】,在Traansfformmatiion fillenaame 中写入入E:kketttleWWorkkspaaceetllTesstTrranss.kttr,确确定保存

7、存。点击保存存创建好好的joob。点击运行行这个转转换。待所有任任务都显显示成功功,则为为jobb调用trranssforrmattionn运行成成功。一个增量量的例子子增量更新新按照数数据种类类的不同同大概可可以分成成:1.只增增加,不不更新,2.只更新新,不增增加3.即增增加也更更新4.有删删除,有有增加,有更新新下面针对对前三种种做一个个增量的的ETLL抽取。过程如如下:根据前面面讲解的的例子一一样,首首先建立立源表(finna_ttestt1)和和目标表表(fiina_tesst2),整个个设计流流程如下下:其中第一一个步骤骤(输入入-目标标表)的的sqll 大概概如下模模式:sele

8、ect ifnnulll(maax(ddatee_seeal),119000-011-011 000:000:000) froom ffinaa_teest22你会注意意到第二二个步骤骤和第一一个步骤骤的连接接是黄色色的线,这是因因为第二二个taablee innputt(输入入-源表表)步骤骤把前面面一个步步骤的输输出当作作一个参参数来用用,所有有Ketttlee用黄色色的线来来表示,第二个个tabble inpput(输入-源表) 的ssql 模式大大概如下下:SEELECCT * FFROMM fiina_tesst1wwherre ddatee_seeal?后面的一一个问号号就是表表示

9、它需需要接受受一个参参数,你你在这个个tabble inpput(输入-源表)下面需需要指定定repplacce vvariiablle iin sscriipt 选项和和 执行行每一行行 为选选中状态态,这样样,Keettlle就会会循环执执行这个个sqll , 执行的的次数为为前面参参数步骤骤传入的的数据集集的大小小。关于第三三个步骤骤执行插插入/更更新步骤骤需要特特别解释释一下,Ketttle执执行这个个步骤是是需要两两个数据据流对比比,其中中一个是是目标数数据库,你在目目标表 里面指指定的,它放在在用来查查询的关关键字左左边的表字段段里面的的,另外外一个数数据流就就是你在在前一个个步骤

10、传传进来的的,它放放在用来来查询的的关键字字 的右右边,KKetttle首首先用你你传进来来的keey 在在数据库库中查询询这些记记录,如如果没有有找到,它就插插入一条条记录,所有的的值都跟跟你原来来的值相相同,如如果根据据这个kkey找找到了这这条记录录,keettlle会比比较这两两条记录录,根据据你指定定upddatee fiieldd 来比比较,如如果数据据完全一一样,kketttle就就什么都都不做,如果记记录不完完全一样样,keettlle就执执行一个个upddatee 步骤骤。备注:主主键被修修改得数数据认为为是新记记录 删删除的数数据由在在仓库中中需要保保留无需需考虑然后点击击

11、新建-jobb,然后后jobb的核心心对象jjob enttriees拉出出组建,进行执执行抽取取。创建keettlle资料料库资源库是是用来保保存转换换任务的的,用户户通过图图形界面面创建的的的转换换任务可可以保存存在资源源库中。资源库库可以是是各种常常见的数数据库,用户通通过用户户名/密码来来访问资资源库中中的资源源,默认认的用户户名/密码是是admmin/admmin资源库并并不是必必须的,如果没没有资源源库,用用户还可可以把转转换任务务保存在在 xmml 文文件中。如果用户户需要创创建一个个资源库库,在资资源库的的登录窗窗口(PPDI 启动时时的第一一个窗口口)中有【新新建】按按钮,点

12、点击该按按钮弹出出新建资资源库窗窗口,在该窗口口中选择择一个数数据库连连接,如如果没有有事先定定义的数数据库连连接,则则还要点点击【新新建】按按钮,来来创建一一个数据据库连接接。选择择数据库库连接后后,要为为该资源源库命名名,作为为这个资资源库的的唯一标标志,最后选择择【创建建或更新新】按钮钮来创建建这个资资源库。资源库可可以使多多用户共共享转换换任务,转换任任务在资资源库中中是以文文件夹形形式分组组管理的的,用户户可以自自定义文文件夹名名称。如何使用用ketttlee读取包包含多行行表的EExceel文件件如果 EExceel 工工作表的的表头只只有一行行,使用用 Keettlle 读读取这

13、样样的文件件是很容容易的.如果 Exccel 工作表表的表头头是多行行的, 或者是是分级的的就需要要在内容容标签下下正确设设置列名名所占行行数才可可以读取取.考虑这样样的一个个工作表表如果想把把里面的的 122列数据据都读出出来, 就要考考虑如何何处理多多级表头头.步骤设置置的详细细描述:步骤一 选择文文件名,现在文文件或目目录里到到所要添添加的eexceel文档档,然后后点击,确定后后,点击击,步骤二 选择要要读取的的工作表表名称和和要读取取的内容容在工作作表里的的起始位位置, 也就是是表头开开始的行行号和列列号 (这里行行号和列列号是以以 0 开始的的)步骤三 设置要要读取的的内容的的一些

14、属属性, 这里要要设置表表头的所所占行数数是 44行.步骤四 错误处处理, 选择如如果有错错误终止止还是继继续, 错误信信息保存存的文件件等.(图略)步骤五 选择字字段, 如果前前面的三三个步骤骤(不包包括错误误处理步步骤)都都设置正正确, 在这个个页面选选择 获取字字段 字段按按钮, 就会获获得所有有的列名名称和数数据类型型.这里里我们可可以看到到: 多多级表头头中各级级表头的的名称被被叠加起起来, 形成了了唯一的的列名.点击 预览 按钮钮可以预预览到数数据对于表头头跨连续续的多行行, 但但不分级级的情况况也可以以使用上上述方式式处理.ketttle注注释:ketttle的的控制流流可以设设

15、置一些些简单的的时间,并且可可以实现现隔断天天、周、月(三三个只能能选一个个,不能能选那个个月的那那周那日日),但但是keettlle工具具不能关关,如果果关了,必须重重新启动动。ketttle里里面缺少少一个编编辑的字字段的插插件,导导致字段段编辑很很麻烦,这只能能先sqql中进进行手写写,这个个对写sqll的要求很很高。一个keettlle字段段转换(截取)的例子子大致的流流程是:表输入还还是正常常的sqql查询询,没有有添加参参数。字段转换换(截取取)是在在进行修修改。具具体样式式如下:具体的用用法:trannsfoorm Funnctiionss 里面面包括了了字符、数字的的一些函函数方法法,这些些函数方方法可以以解决一一些字段段需要转转化的问问题。Inpuut ff

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论