




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
Kettle基础培训
(一)KETTLE基础培训资料全文共46页,当前为第1页。目录一、Kettle介绍二、Kettle的要求环境(JDK版本)、安装、基本操作。三、Kettle的组件的类型基本说明(作业与转换)四、基于表对表的同步五、基于文件到表的同步六、基于表到文件的同步七、JAVASCRIPT的基本应用八、文件FTP下载、上传。九、作业调用作业、转换。十、启动脚本说明。十一、JAVA调用作业、转换十二、使用原则KETTLE基础培训资料全文共46页,当前为第2页。简介ETLETL(Extract-Transform-Load的缩写,即数据抽取、转换、装载的过程)作为BI/DW(BusinessIntelligence)的核心和灵魂,能够按照统一的规则集成并提高数据的价值,是负责完成数据从数据源向目标数据仓库转化的过程,是实施数据仓库的重要步骤。如果说数据仓库的模型设计是一座大厦的设计蓝图,数据是砖瓦的话,那么ETL就是建设大厦的过程。在整个项目中最难部分是用户需求分析和模型设计,而ETL规则设计和实施则是工作量最大的,约占整个项目的60%~80%,这是国内外从众多实践中得到的普遍共识。ETL是数据抽取(Extract)、清洗(Cleaning)、转换(Transform)、装载(Load)的过程。是构建数据仓库的重要一环,用户从数据源抽取出所需的数据,经过数据清洗,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。KETTLE基础培训资料全文共46页,当前为第3页。简介KettleKettle是一款国外开源的ETL工具,纯java编写,可以在Window、Linux、Unix上运行,绿色无需安装,数据抽取高效稳定。Kettle中文名称叫水壶,该项目的主程序员MATT希望把各种数据放到一个壶里,然后以一种指定的格式流出。Kettle这个ETL工具集,它允许你管理来自不同数据库的数据,通过提供一个图形化的用户环境来描述你想做什么,而不是你想怎么做。Kettle中有两种脚本文件,transformation和job,transformation工作流的控制。完成针对数据的基础转换,job则完成整个KETTLE基础培训资料全文共46页,当前为第4页。KETTLE的要求环境(JDK版本)、安装、基本操作KETTLE要求先安装JDK1.5版本或以上无需安装下载后直接运行spoon.bat即可5KETTLE基础培训资料全文共46页,当前为第5页。KETTLE的组件的类型基本说明(作业与转换)Kettle中有两种脚本文件,transformation(转换,后缀为.ktr)和job(作业,后缀为.kjb),transformation完成针对数据的基础转换,好比工厂里的生产流水线,每个组件相当于一个员工;job则完成整个工作流的控制,好比工厂里的管理。如果用记事本打开文件可发现转换和作业都是xml类型文件。6KETTLE基础培训资料全文共46页,当前为第6页。KETTLE的组件的类型基本说明(作业与转换)7作业:分串行执行和并行执行,串行执行是先执行完其中一条线再执行另一条线,并行是两条线同时执行,同一条线上的两个步聚会先执行前面的再执行后面的,每个步骤执行结果分两种:true(成功)/false(失败),根据返回结果可以控制流程走向。KETTLE基础培训资料全文共46页,当前为第7页。KETTLE的组件的类型基本说明(作业与转换)8作业流程图说明KETTLE基础培训资料全文共46页,当前为第8页。KETTLE的组件的类型基本说明(作业与转换)9转换:一传递分复制和分发两种模式。开始所有步骤同时运行,记录会从最前端的步骤向后传递,传递到相应步骤则该记录被该步骤作相应处理,处理完成再把记录往后传递,记录KETTLE基础培训资料全文共46页,当前为第9页。KETTLE的组件的类型基本说明(作业与转换)10复制:把一份数据复制成多份,后面步骤各占一份。分发:把一份数据平均分配给后面步骤。KETTLE基础培训资料全文共46页,当前为第10页。基于表对表的同步11表对表同步是最基本的同步方式之一实现步骤:一、建立源库连接和目标库连接二、使用表输入组件进行源表数据读取三、对记录进行适配整理四、使用表输出组件输出到目标表KETTLE基础培训资料全文共46页,当前为第11页。KETTLE的组件的类型基本说明(作业与转换)12新建一个转换:文件->新建->转换KETTLE基础培训资料全文共46页,当前为第12页。基于表对表的同步13KETTLE基础培训资料全文共46页,当前为第13页。基于表对表的同步14KETTLE基础培训资料全文共46页,当前为第14页。基于表对表的同步15KETTLE基础培训资料全文共46页,当前为第15页。基于表对表的同步16KETTLE基础培训资料全文共46页,当前为第16页。基于文件到表的同步17新建一个转换流程:从文件读取记录插入到数据库中KETTLE基础培训资料全文共46页,当前为第17页。基于文件到表的同步18KETTLE基础培训资料全文共46页,当前为第18页。基于文件到表的同步19KETTLE基础培训资料全文共46页,当前为第19页。基于文件到表的同步20KETTLE基础培训资料全文共46页,当前为第20页。基于表到文件的同步21新建一个转换实现从表里读取记录生成文件KETTLE基础培训资料全文共46页,当前为第21页。基于表到文件的同步22KETTLE基础培训资料全文共46页,当前为第22页。基于表到文件的同步23KETTLE基础培训资料全文共46页,当前为第23页。基于表到文件的同步24KETTLE基础培训资料全文共46页,当前为第24页。JAVASCRIPT的基本应用25KETTLE基础培训资料全文共46页,当前为第25页。文件FTP下载、上传26作业:FTP下载从FTP上下载相应文件到指定目录下KETTLE基础培训资料全文共46页,当前为第26页。文件FTP下载、上传27KETTLE基础培训资料全文共46页,当前为第27页。文件FTP下载、上传28KETTLE基础培训资料全文共46页,当前为第28页。文件FTP下载、上传29作业:FTP上传上传本地文件到相应FTP指定目录上KETTLE基础培训资料全文共46页,当前为第29页。文件FTP下载、上传30KETTLE基础培训资料全文共46页,当前为第30页。作业调用作业、转换31文件->新建->作业作业可以调用作业,这样方便流程控制。KETTLE基础培训资料全文共46页,当前为第31页。作业调用作业、转换32KETTLE基础培训资料全文共46页,当前为第32页。作业调用作业、转换33作业也可以调用转换KETTLE基础培训资料全文共46页,当前为第33页。作业调用作业、转换34KETTLE基础培训资料全文共46页,当前为第34页。启动脚本说明35KETTLE程序启动分两种,一种是作业、一种是转换。作业调用启动脚本:kitchen.sh(kitchen.bat)转换调用启动脚本:pan.sh(pan.bat)KETTLE基础培训资料全文共46页,当前为第35页。启动脚本说明36kitchen.sh(span.sh)说明KETTLE基础培训资料全文共46页,当前为第36页。启动脚本说明37Kitchen.bat(span.bat)说明KETTLE基础培训资料全文共46页,当前为第37页。启动脚本说明38WINDOWS系统下的作业启动脚本写法/file作业入口路径/level日志输出等级/logfile日志输出文件KETTLE基础培训资料全文共46页,当前为第38页。启动脚本说明39LINUX系统下的启动脚本写法KETTLE基础培训资料全文共46页,当前为第39页。启动脚本说明40转换调动脚本写法WINDOWS和LINUX系统的启动脚本的写法基本一样,就是pan.sh/pan.bat的区别KETTLE基础培训资料全文共46页,当前为第40页。Java调用引用Kettlejar包KETTLE基础培训资料全文共46页,当前为第41页。Java调用JOB传入变量JOB文件设置变量:变量传递:Variablesubstitution选中KETTLE基础培训资料全文共46页,当前为第42页。Java调用JOB调用JOBJobMetajobMeta=
newJobMeta(jobPath,null);JVM设置变量:System.getProperties().setProperty(key,value);Jobjob=newJob(null,jobMeta);job.start();job.waitUntilFinished();KETTLE基础培训资料全文共46页,当前为第43页。Java调用KTR传入变量KETTLE基础培训资料全文共46页,当前为第44页。Java调用KTR调用ktrTransMetalocalTransMeta=localTransMeta=newTransMeta(ktrPath);设置变量localTransMeta.setVariable(key,value)Transtran=newTrans(localTransMeta)tran.execute(null);tran.waitUntilFinished();KETTLE基础培训资料全文共46页,当前为第45页。使用原则可以使用sql来做的一些操作尽量用sql;
Group,merge,streamlookup,splitfield这些操作都是比较慢的,想办法避免它们.能用sql就用sql尽量避免使用update,delete操作,尤其是update,如果可以把update变成先delete,
后insert.尽量不要用kettle的calculate计算步骤,能用数据库本身的sql就用sql,不能用sql就尽量想办法用proce
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 围护钢管栏杆施工方案
- 自制混凝土公路施工方案
- 基础钢筋的施工方案
- 内墙砖施工方案
- 宁海三室二厅装修施工方案
- 呼叫中心活动方案
- 竞选发言稿五年级400字
- 肥城实验小学阳光体育运动实施方案
- 支援回归发言稿
- 矿井通风管道安装施工方案
- 2024-2030年中国专业市场建设市场发展前景与投资战略规划研究报告
- 2024-2030年中国ORC低温余热发电系统行业商业模式创新规划分析报告
- 【MOOC】三维设计与表达-北京林业大学 中国大学慕课MOOC答案
- 妇幼健康信息平台共享数据集应用规范第1部分孕产妇保健
- 输液港的输液与维护
- 非洲猪瘟病毒基因IⅡ型重组毒株、基因I型弱毒株和基因Ⅱ型毒株鉴别三重荧光PCR检测方法
- 2024解析:第十四章内能的利用-讲核心(解析版)
- 各类应急风险预案的防范
- 基于义务教育质量监测结果的德育改进对策研究
- 开展我为同学办实事活动
- 幼儿园大班健康《硬硬的壳香香的肉》课件
评论
0/150
提交评论