ch02Kettle工具的初步使用_第1页
ch02Kettle工具的初步使用_第2页
ch02Kettle工具的初步使用_第3页
ch02Kettle工具的初步使用_第4页
ch02Kettle工具的初步使用_第5页
已阅读5页,还剩30页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Kettle工具的初步使用新工科建设之路·数据科学与大数据系列样本数据处理第二章01Kettle的安装Kettle是一个Java程序,因此运行此工具前,必须安装Sun公司(已被Oracle公司收购)的Java运行环境1.4或者更高版本。Kettle的安装登录Java的官网后,进入下载页面,选择当前最新的Java版本下载。安装完毕后,需要对表2-1的环境变量进行配置。Java的安装Java的安装对表2-1中的环境变量进行配置的操作步骤如下。(1)在“我的电脑”上单击鼠标右键,在弹出的快捷菜单中选择“属性”命令,如图2-1所示。Java的安装(2)在打开的窗口中单击“高级系统设置”选项,如图2-2所示。Java的安装(3)在打开的“系统属性”对话框中单击“环境变量”按钮,如图2-3所示。Java的安装(4)在打开的“环境变量”对话框中单击“系统变量”列表框下的“新建”按钮,如图2-4所示。Java的安装(5)在打开的“新建系统变量”对话框(见图2-5)中以新建的方式配置JAVA_HOME环境变量。Java的安装填写完毕后,单击“确定”按钮,完成新建环境变量JAVA_HOME的配置,如图2-6所示。Java的安装配置完成后,“环境变量”对话框的“系统变量”列表框会显示该变量,如图2-7所示。Java的安装(7)CLASSPATH环境变量的值为“;%JAVA_HOME%lib\dtjar;%JAVAHOME%lib\tools.jar",如图2-8所示。填写完毕后,单击“确定”按钮,完成新建环境变量CLASSPATH的配置。此时,界面返回到如图2-9所示的“环境变量”对话框。Java的安装(8)如图2-9所示,在“系统变量”列表框中单击“Path",接着单击“编辑”按钮,以追加的方式开始配置Path环境变量。Java的安装(9)在“编辑环境变量”对话框中单击“编辑文本”按钮,如图2-10所示,打开“编辑系统变量”对话框。Java的安装(10)在“编辑系统变量”对话框中“变量值”文本框中文本的最后面增添“%JAVAHOME%\bin;%JAVA_HOME%\jre\bin”,如图2-11所示,单击“确定”按钮,完成环境变量Path的配置。Java的安装(11)配置完毕后,单击所有对话框的“确定”按钮,关闭所有对话框,返回桌面。(12)在Windows的桌面按“Win+R”组合键,在打开的“运行”对话框的“打开”文本框中输入“cmd",如图2-12所示,单击“确定”按钮,调出命令窗口。Java的安装(13)在命令窗口中输入“java-version”和“javac”命令,若出现类似图2-13的输出提示,则表明Java的环境变量配置正确。Kettle的下载安装与Spoon的启动ettle是作为一个独立的压缩包被发布的,我们可以从官网选择最新的版本下载。下载完毕后,解压下载的文件,双击spoon.bat即可使用。为了方便使用,可以为spoon.bat创建一个Windows桌面快捷方式。创建快捷方式后,在新创建的快捷方式上单击鼠标右键,在弹出的快捷菜单中选择“属性”命令,就会在系统打开的属性对话框中显示“快捷方式”选项卡。在这个选项卡下单击“更改图标”按钮,可以为这个快捷方式选中一个容易识别的图标,一般选择Kettle目录下的spoon.ico文件。02Kettle的使用1.步骤步骤是转换中的基本组成部分。它是一个图形化的组件,我们可以通过配置步骤的参数,使它完成相应的功能。一个步骤有如下几个关键特性(1)步骤需要有一个唯一的名字。(2)每个步骤都会读/写数据行。(3)步骤之间通过跳进行数据行的单向传输。(4)大多数的步骤都可以有多个输出跳。(5)在运行转换时,一个线程运行一个步骤,所有步骤的线程几乎同时运行。Kettle的使用2.转换的跳就是步骤之间带箭头的连线,跳定义了步骤之间进行数据传输的单向通道。注意:因为在转换里每个步骤都依赖前一个步骤获取字段值,所以当创建新跳时,跳的方向是单向的,而不能是双向循环的。一方面,数据沿着转换里的步骤移动而形成一条从头到尾的数据通路;另一方面,转换里的步骤几乎是同时启动的,所以不可能判断出哪个步骤是第一个启动的步骤。Kettle的使用3.数据行数据以数据行的形式沿着步骤移动。一个数据行是零到多个字段的集合。字段包括下面几种数据类型。(1)String:字符类型数据。(2)Number:双精度浮点数。(3)Integer:带符号长整型(64位)。(4)Bignumber:任意精度数值。(5)Date:带毫秒精度的日期时间值。(6)Boolean:取值为true和false的布尔值。(7)Binary:为二进制字段,可以包括图形、声音、视频及其他类型的二进制数据。Kettle的使用第一个转换案例1.创建转换运行Spoon.bat后,Kettle将启动Spoon,进入可视化编程界面。启动完毕后的Spoon可视化编程界面如图2-15所示。第一个转换案例在Spoon界面的快捷工具栏中单击囚按钮,在下拉菜单中选择“转换”命令,如图2-16所示,这样就创建了一个转换文件。第一个转换案例单击按钮(见图2-17),在打开的对话框中重命名该转换文件,设置保存路径,单击“保存”按钮,如图2-18所示,可以保存该转换文件。第一个转换案例如图2-19所示,窗口中空白的地方被称为空画布。可以在这个空画布上进行可视化编程。2.核心对象在“核心对象”选项卡中,以文件夹的方式存放了各种类型的步骤,单击某个文件夹即可展开该文件夹里面所有的步骤。也可在左上角的“步骤”搜索框中,输入步骤的大体名称,进行模糊查找。查找的结果中将显示符合查找条件的步骤位于哪个文件夹下。注意:在核心对象中的步骤上双击,该步骤将出现在右边的画布中,并自动连接上一个步骤。第一个转换案例第一个转换案例如图2-20所示,“核心对象”选项卡位于Spoon界面的左上角,在“主对象树”选项卡的右边。配置“表输入”步骤3.可视化编程配置“MicrosoftExcel输出”步骤创建步骤创建转换的跳,连接步骤运行转换第一个转换案例第一个转换案例4.执行结果执行完毕后,输出的文件被保存在“MicrosoftExcel输出”步骤设置的路径下。该转换的输出路径为C:\Users\45812\Desktop\etlktr\outfile.xlsx,如图2-37所示。5.状态栏如图2-42所示,状态栏显示一系列调试运行程序的按钮。第一个转换案例第一个转换案例6.主对象树在进行可视化编程的过程中,在画布上每增添一个步骤、一个跳等,系统都会在主对象树中记录并呈现出来,如图2-44所示。7.参数配置Kettle的参数配置分为环境变量配置和命名参数配置两类。环境变量的配置路径为C:\Users45812kettle\perties(45812表示此Windows下的用户)。命名参数配置:在当前转换画布上空白的地方单击鼠标右键,在弹出的快捷菜单中选择“转换设置CTRLL”命

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论