H3C+DataEngine+DI用户手册完整_第1页
H3C+DataEngine+DI用户手册完整_第2页
H3C+DataEngine+DI用户手册完整_第3页
H3C+DataEngine+DI用户手册完整_第4页
H3C+DataEngine+DI用户手册完整_第5页
已阅读5页,还剩63页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1概 1 简 框 3 7 12 附 是英文DataIntegration的缩写,即数据集成,数据集成是把不同来源、格式、特点Extract-Transform-LoadrpmRPM是RedHatPackageManager(RedHat软件包管理工具)类似Windows里面的“添加/删除程序”。rpm软件安装包分为二进制包(Binary)以及源代码包Sqoop是一个用来将Haoop(Hie)与传统的数据库(msqlposgreql...)间进行数据的传递,可以将一个关系型数据库(SL,racle,Potgrs等)中的数据导进到Hadoop的HF中,也可以将HFS表1-1H3CDataEngineDIH3CETL过程为核用户借助该系统可以通过流程图式的图形化工具快速、灵活地设计ETL过程,并能方便的进行部H3CDataEngineDI的图形化设计器是一个WebETL任务设计流程图式ETL设计:可以通过拖拉拽,轻松构建ETLH3CDataEngineDI中与用户交互最多的模块。它是一个MVC架构的Web应用2路×8E5-2路×8E5-2×600GB10krpm6×1.2TB10krpm2×600GB10krpm6×1.2TB10krpmIP地址,机器能够正常访问。DI集群不需要节点在同一网段,节点之JDKCentOS6.5(64位Chrome图2-1DigWebrpmDigExecutorrpm软件安表2-1图2-2rpmrpm共有两个rpm软件安装包需要进行安装配置,分别为DigWeb软件包与DigExecutorDigWebunzippostgresql数据库。如果安装6.1安装准备。rpm-ivhrpm-ivhDigWeb-0.4.0-图2-3安装DigWeb-0.4.0-1.noarch.rpmdig-webdig-web图2-4webhtp::8181关闭防火墙命令:serviceiptablesdig-webdig-webrpmrpm-erpm-ivhrpm-ivhDigExecutor-0.4.0-图2-5安装DigExecutor-0.4.0-1.noarch.rpm图2-6perties将红框内的ip修改为DigWebip图2-7executor.configCID26DigWeb下,dig-executordig-executordig-executorstartexc1dig-executorstopdig-executordig-executorstartexc1dig-executorstopdig-executorrpmrpm-e图3-15,监控功能在作业管理列表中以时间轴的形式进行展示。图3-2操作,同时元数据可以跨资源库拷贝。未来不同的用户将可以通过资源库发布分享自己设计的ETL图3-30.43ETL任务、sqoop任务及shell任务。图3-4ETLETLMySqL、PostgreSQL、MPP、Oracle、SQLServer数据库源中对数据进行MySqL、PostgreSQL、MPP、Oracle、SQLServer目标数据库。FTP从远端文件直接抽取及加载。普通ETLSqoop支持的数据库有MySqL、PostgreSQL、MPP、Oracle、SQLServerShell图3-5图3-6图3-7图4-1图4-2图4-3图4-4图4-5图4-6图4-7图4-8图4-9图4-10图4-11点击<初始化公共资源库>postgresql6.1.4Postgresql数据库安装。图4-12图4-13图4-14图4-15图4-16图4-17针对每一个资源库连接,都可以在标签块右侧找到<转换元数据浏览>4-17中红框中按ETL转换任务保存的元数据转换浏览界面。图4-18图4-19ETLETL转换任务元数据可以进行ETL转换任务元数据的拷贝,ETL转换任务元数据拷贝到当前或其他资源库中。ETL转换任务元数据的删除功能:单选或多选ETL图4-20针对每一个资源库连接,都可以在标签块右侧找到<数据库连接管理>4-20中红框中按图4-21图4-223种,分别为普通ETL任务,SqoopShell任务。图4-23普通ETL图4-24跳转普通ETL图4-25ETLETL任务设计器分为四部分ETL任务。ETL简单ETL图4-26简单ETL图4-27跳转Sqoop图4-28Sqoop图4-29Sqoop图4-30Sqoop图4-31Sqoop图4-32跳转Shell点击<跳转任务设计>Shell任务。执行主机字段填入任意一台能与本机网络互通的可用ShellIP。图4-33Shell图4-34ShellSqoop任务的编辑。图4-35图4-36任务编辑Shell图4-37图4-38图4-39图4-40图4-41图4-42图4-43Cron表达式(一种可以用来定义时间规则的字符串10,20,30分各执行一次。图4-44配置Cron图4-45图4-46图4-47图4-48图4-49图4-50图4-51图4-52图4-53图4-54图4-55图4-56图4-57图4-58图4-59本章主要介绍普通ETL图5-1图5-2图5-3图5-4图5-5字段选择组件"移除"图5-6字段选择组件"元数据"图5-7JavaScriptJavaScriptjavascripjavascript图5-8JavaScript图5-9图5-10图5-11图5-12加载至文本文件组件"内容"图5-13chkconfigchkconfigiptablesyum利用iso镜像做本地yum创建isomkdir/mnt/isomkdirmkdir/mnt/isomkdir/mnt/cdrommountmount-oloop/mnt/iso/CentOS-6.5-x86_64-bin-DVD1.isodfdf-cdmkdirmv*.repo/etc/yum.repos.d/bakvilocal.repo如果/etc/yum.repos/下面有其它的cdmkdirmv*.repo/etc/yum.repos.d/bakvilocal.repoyum-installyum-installyumlistall|grep在配置完本地yum源后,安装yumlistall|grepyum-yinstallyum-yinstallpostgresql-postgresqlMPP一张同结构的表中。解决方案:创建普通ETL过程,通过作业定时调度实现增量的抽取。12出城图7-1图7-2ETLETLidid字段的最大数值,id比传入参数大的数据传给加载至数据库步骤。1:数据表抽取kkk_1000000sqlkkk_1000000表中id作为参数传输至下一字段。图7-3图7-42postgreskk_1000的表。在“从步骤插入数据”字段选择步骤一数据表抽取,sqlsqlsql脚本中的”?”。图7-5将最终的增量数据加载至MPP库中kkk_1000000图7-6图7-7图7-8图7-9对于Cron00分钟,每小时执行,日,周,年,月都配置为默认的每天,每周,每月,每年即可将Cron表达式定义为每个小时执行。图7-10Cron图7-11Cron图7-12Cron图7-13Cron图7-14Cron图7-15Cron图7-16Cron12出城1图7-17图7-18ETL图7-19ETLETL任务设计方案:使用数据表抽取步骤进行数据抽取,通过过滤记录步骤中使用正则表达式将

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论