ETL利器Kettle实战应用解析系列一Kettle使用介绍_第1页
ETL利器Kettle实战应用解析系列一Kettle使用介绍_第2页
ETL利器Kettle实战应用解析系列一Kettle使用介绍_第3页
ETL利器Kettle实战应用解析系列一Kettle使用介绍_第4页
ETL利器Kettle实战应用解析系列一Kettle使用介绍_第5页
已阅读5页,还剩10页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、ETL利器Kettle实战应用解析 系列一【Kettle使用介绍】基础转换,job则完成整个工作流的控制。2、下载和部署ETL(Extract-Transform-Load的缩写,即数据抽取、转换、装载的过程),对于企业或行业应用来说,我们经常会遇到各种数据的处理,转换,迁移,所以了解并掌握一种etl工具的使用,必不可少,这里我介绍一个我在工作中使用了3年左右的ETL工具Kettle,本着好东西不独享的想法,跟大家分享碰撞交流一下!在使用中我感觉这个工具真的很强大,支持图形化的GUI设计界面,然后可以以工作流的形式流转,在做一些简单或复杂的数据抽取、质量检测、数据清洗、数据转换、数据过滤等方面

2、有着比较稳定的表现,其中最主要的我们通过熟练的应用它,减少了非常多的研发工作量,提高了我们的工作效率,不过对于我这个.net研发者来说唯一的遗憾就是这个工具是Java编写的。1、Kettle概念Kettle是一款国外开源的ETL工具,纯java编写,可以在Window、Linux、Unix上运行,绿色无需安装,数据抽取高效稳定。Kettle中文名称叫水壶, 该项目的主程序员MATT希望把各种数据放到一个壶里,然后以一种指定的格式流岀。Kettle这个ETL工具集,它允许你管理来自不同数据库的数据,通过提供一个图形化的用户环境来描述你想做什么,而不是你想怎么做。Kettle中有两种脚本文件,tr

3、an sformation禾n job,transformation完成针对数据的?Kettle可以在/?下载kettle压缩包,因kettle为绿色软件,3、Kettle环境配置(有Java环境的直接忽略此章节) 3、1安装java JDK1)首先到官网上下载对应JDK包,JDK1.5或以上版本就行;2)安装JDK;3)配置环境变量,附配置方式:网站下载解压缩到任意本地路径即可安装完成后,还要对它进行相关的配置才可以使用,先来设置一些环境变量,对于高级”标签,进入“高级”选项卡,再单击“环境变量”按钮,进入 环境变量”对话框,如图所示:+Jg

4、VS打幵坏s芸a对话框的用户变量”列表框中,选择变量PATH,待其所在行变高亮后,单击 编辑”按钮,如图所示。(3)在弹岀的 编辑系统变量”对话框中,将JDK安装路径下的bin目录路径设置到Path变量中,如图所示。最需要设置的环境变量是系统路径变量path。(1)要打开环境变量的设置窗口。右击我的电脑”,在弹岀的快捷菜单中选择属性”选项,肿MlMl阳ICt.fICt.f雄e e站J JW 畑事啊刼ftftMU ISIs s_irir *Th*Th一冷夕*rZtcswTTrZtcswTT迈辩轉:TUF匸AflMUMtLllAflMUMtLll tiltil S S毗UA(_1*UUA(_1*U

5、油*i i b.b.IEIECMCM e4mie4mi tMStMS輯UA|UA|“J J出MMMMSQSQ _离inKB%OfinKB%Of尹 轄mihmih rMKKTrMKKTJgag) I am) |片u u wiwi回匚Tiiuns,Tiiuns, -ooi-ooi CECE B#TB#TananmJava来说,进入 系统属性”对话框,如图所示。选择(2)在 “Administrator运行Kettle- -AfeLUBll-LtirAfeLUBll-Ltir SgSg崩1 1户砂.m.m - -|z二二匕U U声FLFL ai.4nLnCai.4nLnC *i*i1S.1S. 04

6、.04.laec I a I畴+J+J图心打开Pariisa的骗gs口编辑完后,单击确定”按钮,进行保存,环境变量Path的设置就正式完成。注意:设置Path变量的路径,必须是JDK安装目录中的bin目录,有时候在JDK安装目录的同一层会有JRE的安装目录,因此请谨慎选取相关路径,避免将路径设置成JRE目录下的bin目录。3、2测试JDK配置是否成功设置好环境变量后,就可以对刚设置好的变量进行测试,并检测Java是否可以运行。(1)单击 开始”按钮,选择 运行”选项,在 运行”对话框中输入cmd命令。(2)之后单击确定”按钮,打开命令行窗口。(3)在光标处输入:javac命令,按下En ter

7、键执行,即可看到测试结果Kettle部署在win dows环境下,双击运行spoon .bat或Kettle.exe文件,岀现如下界面:?进入到Kettle目录,如果Pentnho Darn Integirattom 也iiii =w叫險欢迎便用Kettle -a:a:消这样配置环境这一块基本上就完成了。4、Kettle使用及组件介绍Kettle提供了资源库方式的方式来整合所有的工作,但是因为资源库移植不方便,所以我们选 择没有资源库;,点击 保存到本地路径,例如保存到D:/etltest下,保存文件名为EtltestTrans,kettle默认transformation2)创建一个新的jo

8、b,点击 保存到本地路径,例如保存到D:/etltest下,保存文件名为EtltestJob,kettle默认job文件保存后后缀名为kjb;4.2组件树介绍?4.1 Kettle使用1)创建一个新的tran sformati on文件保存后后缀名为ktr;?并可通过shift+鼠标拖动,实现环节之间的连接。4 4 X X MyTestMyTest4 4已DRT ) ) ModhDBModhDB1 INciahdb丄二StepsSteps ( (注蠢J JG 插入/更新承承政圖4 4询O O商1 1录Jt_,t_, HopHop书庶匡接】4 数垢5 5査运- 过錨记烹enabled)enabl

9、ed)过淖记录插入/更新更新(enabled)(enabled) (er(er flfl b b I I e e d)d)A 过淹记录- 更黔fenabled)fenabled)_ _h h k|1hk|1h l4l4g.t/yg-g.t/yg-*话TfiTfi扎萨亚爭城 空吨 4 魚wghwghigA A 4 4 LA.LA.-*t-*t KIlWAKIlWA血ropirtropirtFri-iFri-i rifeiiirifeiii i.i. PEMCGgPEMCGg PRCmATIOPRCmATIO GAPGAP rkwMiPftfwrkwMiPftfw立SliwllbSliwllb只口

10、ddEH-ddEH-I IIrwinIrwinScrititiiTioScrititiiTioppmppmJbbJbbI I * *dl0lldl0ll4.3 Tran sformatio n转换介绍Main Tree菜单列岀的是一个tran sformatio n各个节点来查看。DB连接:显示当前数据库连接,每一个中基本的属性,可以通过tran sformatio ntran sformatio n据库连接都需要单独配置。Steps: 一个tran sformatio n中的的数中应用到的环节列表Hops:个tran sformatio n中应用到的节点连接列表Core Objects菜单列

11、岀的是tran sformatio n中可以调用的环节列表,可以通过鼠标拖动的方式对环节进行添加。InputOut putLookup:输入环节:输岀环节:查询环节Transform:转化环节Joins:连接环节Scri pting:脚本环节?每一个环节可以通过鼠标拖动来将环节添加到主窗口中。?并可通过shift+鼠标拖动,实现环节之间的连接。u u山MainMain I I recrec耳 下IririIr inputinput文式文件鹫入V V艮墩系烦信卓 A 主尿记兼5 5铝HC?C?為fLuLu bebe赫A.A.XBasXBas曲入E E XU*XU* ftSiftSi入XMLtti

12、XXMLttiXStreaniinqStreaniinq JSMLJSML VlVl piitpiitG*tG*t FlFl ItIt riaiiKSriaiiKSAcAc c c f f ( ( DipDip litlitFTOfeAPCUPMNFTOfeAPCUPMN - - IKUKAIIKUKAI lOlO SAISAIfcSR.1fcSR.1 Sh3t00l0Sh3t00l0 RDClorRDClorirfirf?转换常用环节介绍类别InputOut put文本文件输入从本地文本文件输入数据表输入从数据库表中输入数据获取系统信息读取系统信息输入数据文本文件输岀将处理结果输岀到文本文件

13、表输岀将处理结果输岀到数据库表插入/更新根据处理结果对数据库表机型插入更新,如果数据库中不存在相关记录则插入,否则为更新。会根据查询条件中字段进行判断更新根据处理结果对数据库进行更新,若需要更新的数据在数据库表中无记录,则会报错停止删除根据处理结果对数据库记录进行删除,若需要删除的数据在环节名称功能说明u u山MainMain I I recrec耳 下IririIr OlOl l|B*Cl|B*C 1 1e- . H - - . - - . . -R-H - - - V VIVIVaaWlWlFTPFTP- -H HI IP PI I -4-4- - 4 4- - 7474 4.4. a a

14、I I J4SW*P|J4SW*P*i*t*L*i*t* tir*tir*SfErt*SfErt* FarFarIIM M4 4鼻“#g g tltl 莎t t ii f f枕 44a44 1 1 Ij-Vy-Ij-Vy- -R-plR-pl Ll9-tl-a-yLl9-tl-a-y t-1t-1 9-ll-O9-ll-O ? ? J|-irhJ|-ir事OviOviAHAHcjFqfcjFqf AHAH4 4 审f*op-f*op- RiifeORiifeO山ll-a-LCll-a-LCJt?常用环节介绍类别环节名称Joben triesMain Tree菜单列岀的是一个Job中基本的属性,可以通过各个节点来查看。DB连接:显示当前Job中的数据库连接,每一个Job的数据库连接都需要单独配置。Job entries:一个Job中引用的环节列表Job entries菜单列岀的是Job中可以调用的环节列表,可以通过鼠标拖动的方式对环节进行添加。每一个环节可以通过鼠标拖动来将环节添加到主窗口中。并可通过shift+鼠标拖动,实现环节之间的连接。功能说明START开始DUMMY结束Tra nsformatio n弓用Transformation流程Job引用Job流程Shell调用She

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论