大数据预处理技术-第5章-Kettle作业设计_第1页
大数据预处理技术-第5章-Kettle作业设计_第2页
大数据预处理技术-第5章-Kettle作业设计_第3页
大数据预处理技术-第5章-Kettle作业设计_第4页
大数据预处理技术-第5章-Kettle作业设计_第5页
已阅读5页,还剩80页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、数据预处理-第五章作业设计目录01020304作业的概念和组成作业的运行方式作业的设计变量目录050607监控命令行启动实验01作业的概念及组成作业的概念及组成阶段1:作业的概念阶段2:作业的组成作业的概念一个作业包括一个或多个作业项,这些作业项以某种顺序来执行。作业执行顺序由作业项之间的跳(Hop)和每个作业项的执行结果来决定。什么是作业?作业的组成作业项作业跳注释作业流程图作业项作业的基本组成部分以图标的方式图形化展示作业项 作业项可以有影子拷贝 作业项之间传递一个结果对象 可以并行执行作业项与转换步骤的区别作业项作业项执行返回一个结果对象结果对象包含的信息一组数据行一组文件名读、写、输入

2、、输出、更新、删除、拒绝的行数和转换里的错误数脚本作业项的退出状态作业项结果决定作业执行路径向下一个作业项传递一个结果对象作业流程图作业项结果的作用:作业跳概念作业项之间的连接线定义作业的执行路径作业跳3种判断方式无条件的当结果为真的时候继续下一步 当结果为假的时候继续下一步 小结本课程知识点:作业的概念作业的组成02作业的执行方式作业的执行方式阶段1:回溯算法阶段2:多路径和回溯阶段3:并行执行作业的执行方式Kettle是使用一种回溯算法来执行作业里的所有作业项的,而且作业项运行结果(真或假)决定执行路径。 回溯算法概念 假设执行到了一条路径的某个节点,要依次执行这个节点的所有子路径,直到没

3、有再可以执行的子路径就返回上一个节点,再反复这个过程。 回溯算法示例执行顺序: START A B 结束搜索步骤: START A B A START 结束多路径和回溯执行顺序:除了ABC,还可以是CAB作业执行的两个重要特征作业的执行结果不是唯一的。作业项的多次运行结果会保存在内存里,便于以后使用。并行执行作业项A和C几乎同时启动各自单独执行 数据来源如果A和C是顺序执行的多个作业项,那么这两组作业项也是并行执行的。 数据来源并行执行作为另一个作业的作业项小结本课程知识点:回溯算法多路径和回溯并行执行03作业设计作业设计阶段1:作业的创建阶段2:START的使用阶段3:“作业”作业项功能特殊

4、性作用配置阶段4:“转换”作业项作用配置作业创建新建保存名称 路径文件格式*.kjb“START”作业项作用:一个 作业的起点特殊性:一个作业必须且只能有一个。图标:“START”作业项功能:作业定时调度类型:不需要定时时间间隔天周月“转换”作业项图标:作用:调用预定义的转换目的: 功能模块化易于管理重复使用“转换”作业项主属性 :作业项名称:设置作业项的名称Transformation: 设置的是预定义的转换,可通过浏览按钮查找 。“转换”作业项Options:设置引擎和执行方式 “转换”作业项设置日志:可自定义日志“转换”作业项Arguments:可设置位置参数。“转换”作业项命名参数:设

5、置命名参数并传递参数。“作业”作业项图标:作用:调用预定义的作业目的: 功能模块化易于管理重复使用“作业”作业项主属性 :作业项名称:设置作业项的名称Job: 设置的是预定义的作业,可通过浏览按钮查找 。“作业”作业项Options:设置运行环境和执行方式 小结本课程知识点:创建作业“START”作业项“转换”和“作业”作业项04变量变量阶段1:定义变量阶段2:使用变量概念和作用定义变量的方式变量重要性 变量可以使作业变得更加可维护 概念 代表一个任意长度的字符串值 它有自己的作用范围变量初始化变量的两种方式:系统内置用户自定义 变量系统内置:Java虚拟机的变量如 java.io.tmpdi

6、rKettle内部定义的变量如 Internal.Entry.Current.Directory变量用户自定义: perties 命名参数“设置变量”作业项在转换中设置设置变量perties 位于$KETTLE_HOME/.kettle文件夹下 键值对形式:key=value“key”代表变量的名称“value”代表变量的值“=”是赋值设置变量列表形式命名参数:变量名称默认值:变量的值描述:描述变量命名参数 作业属性中设置变量设置变量属性获取属性文件设置变量“变量设置”作业项作业属性中设置变量在转换中设置变量在作业中调用转换转换设置变量注:转换中设置的变

7、量在其自身是无法使用的使用变量格式:$变量名或者%变量名%文本输入框后有菱形的符号标记使用“Ctrl+Alt+空格”组合键来显示 变量的使用方法使用变量示例图小结本课程知识点:定义变量使用变量05监控监控阶段1:日志阶段2:邮件监控监控方式日志邮件 日志日志是针对执行过程的信息反馈 日志日志是针对执行过程的信息反馈 示例1日志示例2日志日志级别 从高到低依次是:Nothing:不显示任何输出,基本不用。Error:只显示错误,一般在生产环境中使用,要求作业或转换在非常短时间内运行。Minimal:只使用最少的记录Basic:基本日志输出,一般也用于生产环境中,对于时间要求不太严格。如定期输出已

8、处理的行数。Detailed:详细的日志输出。Debug:以调试为目的,非常详细的输出。Rowlevel:使用行级记录,会产生大量的数据,一般用于开发和测试阶段使用。日志日志的优缺点优点:便于程序监控和调试缺点:消耗系统性能日志的设置作业项中设置日志的输出Spoon启动作业日志的输出命令行启动作业使用参数设置level:设置日志的级别logfile:设置日志的存放路径和文件名日志的输出命令行启动作业示例:Windows:kitchen /file:D:/demo/demo.kjb /level:BasicD:/demo/demo.log类unix:sh kitchen.sh /file:/ho

9、me/job/demo.kjb /level:Basic /home/job/log/demo.log邮件邮件通知通过发送邮件的方式通知管理员作业的执行情况邮件通知示例邮件通知设置步骤:添加发送邮件作业项设置作业项属性邮件通知发送邮件步骤:添加发送邮件作业项设置作业项属性邮件通知1. 添加发送邮件作业项邮件通知2. 设置作业项属性地址收件人地址:收件人邮箱地址;抄送:选填项暗送:选填项回复名称:发件人地址:发件人邮箱地址联系人:选填联系电话:选填 邮件通知2. 设置作业项属性服务器SMTP服务器:发送邮件的服务器地址;端口:服务器端口号用户验证?:勾选用户名:邮箱帐号密码:邮箱密码使用安全验证

10、:选填 安全连接类型:选择类型邮件通知2. 设置作业项属性邮件消息消息设置项:设置邮件的内容格式、邮件编码和优先等级消息项:填写邮件的主题和注释内容 邮件通知2. 设置作业项属性附件带附件?:勾选则带附件文件类型:选择日志级别压缩成统一文件格式?:压缩文件压缩文件名称:设置压缩文件名称内嵌图片项:设置附件的图片 小结本课程知识点:监控方式日志邮件06命令行启动命令行启动阶段1:工具和命令阶段2:命令参数命令行启动启动作业的工具:kitchenWindows:kitchen.bat 格式:kitchen.bat /file d: 或者-file=D: 或者/file:D:类Unix:kitche

11、n.sh 格式:sh kitchen.sh /file d: 或者-file=D: 或者/file:D:命令行启动作业在文件中的示例:Windows:kitchen /file:D:/demo/demo.kjb /level:BasicD:/demo/demo.log类unix:sh kitchen.sh /file:/home/job/demo.kjb /level:Basic /home/job/log/demo.log命令行启动作业在资源库中的示例:Windows:kitchen /rep etl /user admin /pass admin /dir demo /job demo /level Basic /logfile D:/d

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论