大数据ETL技术介绍_第1页
大数据ETL技术介绍_第2页
大数据ETL技术介绍_第3页
大数据ETL技术介绍_第4页
大数据ETL技术介绍_第5页
已阅读5页,还剩8页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、大数据ETL技术介绍ETL工具数据抽取方法介绍掌握ETL工具的部署学习完本课程,您应该能够:21. ETL工具数据抽取方法介绍2. ETL工具部署目录3大数据平台DataEngine技术架构ETL介绍ETL工具数据源数据抽取DataEngine MPP数据导入Hbase结构化数据ORA、SQL、Mysql 非结构化数据文本数据、图片、LOG、音视频、压缩文件DataEngineSqoopKettleFlumeDataEngine HDPHDFSHiveKafkaES 结构化数据导入MPP方法ETL工具结构化数据数据抽取dispatch数据加载工具MPP方法一:数据导入方法二:数据导出Oracl

2、eSql ServerMysqlOracle数据库可以通过oratompp导出为TXT文件OratomppKettleKettle结构化数据导入MPP注意事项数据源OracleSql ServerMysql生产系统前置机MPP数据源访问方式Kettle直连生产库增加前置机谁实施?提供只读用户数据信息调研数据量数据增量表结构表数量访问安全数据是否需要脱敏数据是否需要清洗Oratompp工具使用运行oratompp命令的机器需要安装oracle客户端和访问oracle服务器权限ETL工具OratomppKettle表对表迁移步骤?结构化数据导入MPP数据类型区别数据源OracleMPP将ORACL

3、E的表迁移到MPP的表过程中涉及到的ORACLE标准数据类型如何映射到MPP数据库表中共包含四大类数据类型:二进制数据类型BFILE、BLOB、RAW(size)、LONGRAW字符数据类型CLOB、LONG、NCHAR、NCLOB、CHAR、varchar2、NVARCHAR2数字数据类型BINARY_DOUBLE、BINARY_FLOAT、NUMBER(p,s)、DECIMAL(p,s)、INT、 INTEGER日期时间数据类型TIMESTAMP、DATEH3C DataEngine MPP SQL参考手册表对标迁移结构化数据导入HDPETL工具结构化数据数据抽取数据导入OracleSql

4、 ServerMysqlDataEngine HDPHbaseHDFSHiveKettleSqoop不需要清洗需要清洗非结构化数据导入HDPETL工具非结构化数据数据抽取数据导入文本数据、图片、LOG、音视频、压缩文件DataEngine HDPHbaseHDFSHiveFlumeKettleftpHUEKafkaES图片、视频等二进制文件日志文件1. ETL工具数据抽取方法介绍2. ETL工具部署目录11ETL工具部署在何处?数据分发服务器IRF业务交换机HDP集群MPP集群管理网交换机数据源OracleSql ServerMysql生产系统前置机操作台H3C DataEngineFlume部署在何处?IRF业务交换机HDP集群管理网交换机数据源文本数据、图片、LOG、音视频、压缩文件数据前置机操作台H3C DataEngin

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论