版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
Kettle培训手册Etl介绍ETL(Extract-Transform-Load的缩写,即数据抽取、转换、装载的过程),对于金融IT来说,经常会遇到大数据量的处理,转换,迁移,所以了解并掌握一种etl工具的使用,必不可少。Kettle是一款国外开源的etl工具,纯java编写,绿色无需安装,数据抽取高效稳定。Kettle中有两种脚本文件,transformation和job,transformation完成针对数据的基础转换,job则完成整个工作流的控制。kettle部署运行将kettle文件夹拷贝到本地路径,例如D盘根目录。双击运行kettle文件夹下的spoon.bat文件,出现kettle欢迎界面:稍等几秒鸦选择没有资蠢源库,打开昏kettl疲e联主界面缺创建餐trans呼forma棵tion廊,童job我点击页面左沙上角的创建像一个新的矩trans耳forma窜tion脂,点击保存疗到本地路尸径,例如保要存到材D:/et咱ltest吹下,保存文妻件名为筹Etlte戒stTra尊ns墨,骡kettl悼e睁默认勉trans骑forma兼tion介文件保存后健后缀名为启ktr忽点击页面左寺上角的创建率一个新的虾job俯,点击保存羞到本地路径奥,例如保嚼存到胜D:/et斗ltest离下,保存文端件名为余Etlte状stJob糊,嫌kettl樱e慈默认坟job许文件保存后夹后缀名为忧k茄jb满创建数据库送连接不在特trans殃forma裙tion雷页面下,点焰击左边的【馋Main兆Tree分】,双击【亚DB船连接】,进门行揪数据库连接间配置。卫c萄onnec谅tion牺name昂自命名连接株名称佛Conne哲ction灵type革选择需要连诸接的数据库纸Metho燥dof澡acces固s渗选择连接类闯型吉Serve沙rhos皂tnam底e欲写入数据库莲服务器的用ip兼地址诊Datab峡asen火am些e忠写入数据库纺名齿Port竿numbe攀r赛写入端口号愉Usern拾ame弃写入用户名李Passw胖ord妙写入密码承例如如下配耕置:舅点击【眨test旧】,如果出霜现如下提示植则说明配置除成功敲点击关闭,箭再点击确定迁保存数据库填连接。池一个简单的从ktr匙例子目的:彼将一个数据诵库导入到另势一个数据库乎中。操作步骤:雨创建一个盼trans祖forma袭tion千,命名为帐e守tl拘T亩estTr筛ans.k夜tr纽,创建数据烫库连接求ods匠,点击【盾Input圈】,选中【薄表输入】,价拖到主窗口态,释放鼠标校,双击打开如下图伪点击【荐Trans快for川m枝】,选中【取字段选择】她,拖到主窗面口,释放鼠舅标合点击【弊Outpu魂t舞】,选中【快表输出】,扛拖到主窗口忙,释放鼠标池建立【文本面文件输入】猾和【字段选喇择】与【字柱段选择】和迎【表输出】造的连接命双击【表输抄出】,目标辞表中写入昂ZT_TE垄ST_KE候TTLE掉,,确定保忍存谣双击【字段幅选择】,点漠击武翠获取选择的炭字段,再点迅击嫂Edlt插Mappi吓ng性,点击惩OK房确定,编辑闭所有字段对陕应关系,点狱确定。录点击泻运行这个转杰换。,则将介上一个玻ktr呢中生成的文翻本,导入到承数据库当中痕。料一个简单的痰kjb亩例子目的:落将上一个跪trans层for锁matio聪n素在一个敲job容里面调用执犁行。操作步骤:腐在秤etlTe买stJob俘页面,点击错【娘Core俯Objec夫ts煤】,点击【早Jobe英ntrie共s醒】,选中【厉START申】局拖动到主窗起口释放鼠标轮,再选中【鹿Trans灭forma期tion慧】,拖动到塌主窗口释放腰鼠标,共建立【悬START意】和【丽Trans颜forma涉tion苍】之间的连慌接。广双击【哨Trans喂forma朋tion城】,滥宁在更Trans乡forma虎tion浩filen座ame妙中写入喘E:\ke差ttleW献orksp用ace\e通tlTes籍tTran风s.ktr狡,确定保存团。沈点击屑保存创建好鬼的减job反。疑点击适运行这个转头换。督待所有任务恶都显示成功墨,则为素job迅调用谋trans额forma欲tion棕运行成功。割一个增量的倘例子盾增量更新哨按照数据种谢类的不同大蛛概可以分成给:潜1.
只增蚊加,不更新符,萝2.
只更没新,不增加遵3.
即增诱加也更新转4.
有删恋除,有增加暗,有更新趣下面针对前顷三种做一个骗增量的ET弊L抽取。过原程如下:开根据前面讲畏解的例子一铸样,首先建宜立源表仪(fina慧_test樱1)体和目标表逢(fina东_test晕2)勉,整个设计泊流程如下于:监其中第一个乳步骤洗(输入-目灯标表)梯的sql会大概如下模烦式:轻s愉elect弱ifnu闻ll(ma馅x(dat手e_sea嘴l),'1菌900-0则1-01场00:00锻:00')声from箱fina遥_test朋2阶你会注意到银第二个步骤蔬和第一个步仅骤的连接是妄黄色的线,问这是因为第帽二个tab冶lein掠put方(输入-源燕表)作步骤把前面写一个步骤的食输出当作一岂个参数来用迫,所有Ke诱ttle用度黄色的线来积表示,第二斩个tabl僻einp规ut盗(输入-源粮表)析的sql震模式大概番如下:势SELEC敢T眉*狮FROM搜fina_盖test1匹柜where尝date液_seal扫>?穷后面的一个煮问号就是表效示它需要接亲受一个参数冒,你在这个碍table相inpu蜓t思(输入-源蜡表)阔下面需要指拐定repl刮acev热ariab聪lein却scri抱pt选项绑和怪执行每一改行归为选中状态味,这样,K阶ettle阿就会循环执晃行这个sq背l,执泥行的次数为彼前面参数步笋骤传入的数勤据集的大小旺。躁关于第三个看步骤执行氧插入/更新丝步骤需要特天别解释一下撕,览Kettl暮e执行这个逐步骤是需要攻两个数据流决对比,其中出一个是目标刘数据库,你惭在胸目标表凯里面指定馋的,它放在恢用来查询的掉关键字币左边惊的顿表字段野里面的,另缝外一个数据都流就是你在义前一个步骤航传进来的,插它放在栏用来查询的项关键字剩的右边,严Kettl渴e首先用你聪传进来的k社ey在数库据库中查询有这些记录,书如果没有找降到,它就插朗入一条记录目,所有的值警都跟你原来冠的值相同,嗽如果根据这筝个key找征到了这条记组录,ket刮tle会比饰较这两条记晋录,根据你殃指定upd杏atef踏ield蚁来比较,如盘果数据完全肠一样,ke惨ttle就腿什么都不做谨,如果记录缠不完全一样欢,kett屋le就执行静一个upd列ate步夹骤。婚备注:主键裕被修改得数咱据认为是新恰记录脸畜删除的数搅据由在仓库蹄中需要保留盼无需考虑牛然后点击新时建-job增,然后攻job嫁的核心对象赔jobe房ntrie淋s拉出组建臭,扣进行执行不抽取居。堤创建两kettl傻e糕资料库小资源库是用山来保存转换吴任务的,用跑户通过图形对界面创建的暴的转换任务废可以保存在篮资源库中。倍资源库可以极是各种常见屿的数据库,凑用户通过用洒户名叹/尾密码来访问冠资源库中的粥资源,默认顾的用户名公/盘密码是插admin祝/admi烛n顾资源库并不柔是必须的,织如果没有资弱源库,用户畜还可以把转三换任务保存条在劲xml续文件中。阔如果用户需捧要创建一个裳资源库,在才资源库的登姐录窗口(P禽DI燥启动时的第贿一个窗口)懒中有隆左【新建】签涨按钮,点击顶该按钮弹出热新建资源库决窗口,炼在该窗口中碌选择一个数睛据库连接,羽如果没有事殊先定义的数搅据库连接,宝则还要点击个【新建】按觉钮,来创建剖一个数据库送连接。选择玻数据库连接煮后,要为该五资源库命名效,作为这个近资源库的唯披一标志,设最后选择【泥创建或更新伏】按钮来创场建这个资源熔库。弯资源库可以束使多用户共跨享转换任务到,转换任务掠在资源库中袖是以文件夹倾形式分组管泛理的,用户饭可以自定义趴文件夹名称嘴。浇如何使用k敞ettle泪读取包含多规行表的Ex女cel文件仿如果Ex宋cel工页作表的表头捏只有一行,眠使用Ke趣ttle撤读取这样的芝文件是很容荣易的.眼如果Ex磨cel工求作表的表头殿是多行的,叙或者是分警级的就需要鼠在内容标签决下正确设置面列名所占行企数才可以读番取.炭考虑这样的惕一个工作表挽如果想把里估面的衣12存列数据都读讲出来,就踏要考虑如何幕处理多级表储头.砍步骤设置的筹详细描述:刮步骤一选燕择文件名辩,现在文件妖或目录里劳到所要添加械的exce踏l文档,然孕后点击,确耀定后,点击轧,葵步骤二选胳择要读取的对工作表名称妄和要读取的垫内容在工作模表里的起始沉位置,也鼻就是表头开坊始的行号和杜列号(这黎里行号和列疲号是以0文开始的)悟步骤三设兼置要读取的拦内容的一些蓬属性,这梯里要设置表声头的所占行罢数是叔4构行.枣步骤四错福误处理,糟选择如果有湖错误终止还西是继续,征错误信息保旱存的文件等乎.(图略)寺步骤五选铅择字段,万如果前面的仗三个步骤(贿不包括错误惹处理步骤)坝都设置正确垫,在这个转页面选择常"获取字段再"字段按雨钮,就会腹获得所有的驰列名称和数懂据类型.鸽这里我们可漠以看到:交多级表头中细各级表头的命名称被叠加农起来,形纷成了唯一的善列名.祖点击[预享览]按钮偏可以预览到羞数据汁对于表头跨及连续的多行即,但不分用级的情况也仙可以使用上填述方式处理偷.铺kettl肾e注释:受kettl订e的控制流蔑可以设置一遮些简单的时解间,并且可鱼以实现隔断前天、周、月妙(三个只能绍选一个,不涂能选那个月脖的那周那日俭),但是k悬ettle创工具不能关殿,如果关了刻,必须重新毒启动。太kettl茂e里面缺少原一个编辑的民字段的插件嗓,导致字段睛编辑很麻烦交,这只能先饿sql中进午行手写,这宽个对误写讲sql投的板要求很高筋。筝一个ket千tle字段穿转换(截取叔)的例子奏大致的流程鉴是:坛表输入还是残正常的sq锤l查询,没剑有添加参数贪。磁字段转换(装截取)是在迁进行修改。碰具体样式如定下:升具体的用法名:嫂trans爱form类Funct浑ions雷里面包括了盖字符、数字腰的一些函数秘方法,这些有函数方法可越以解决一些异字段需要转蔑化的问题。撤Input关fiel务
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- JJF(陕) 033-2020 超声波水浸探伤系统校准规范
- 提升学生兴趣的工作措施计划
- 《计算机的日常维护》课件
- 2024-2025学年年七年级数学人教版下册专题整合复习卷28.2 解直角三角形(3)(含答案)
- 《保护支持与运动》课件
- 《保险学引言》课件
- 前台工作环境的美化建议计划
- 组织年度人事工作总结大会计划
- 小型工程机械相关行业投资规划报告
- 井下波速测量仪相关项目投资计划书
- 廉政文化进社区活动方案(6篇)
- 2024工贸企业重大事故隐患判定标准解读
- 2024年上海高一数学试题分类汇编:三角(解析版)
- 大单品战略规划
- 2023年北京语言大学新编长聘人员招聘考试真题
- 管道保温施工方案
- 工艺工程师招聘笔试题与参考答案(某大型集团公司)
- 商务礼仪(通识课)学习通超星期末考试答案章节答案2024年
- 手术分级目录(2023年修订)
- 2024年人事科工作总结(五篇)
- 论文岩棉用酚醛树脂体系
评论
0/150
提交评论