




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
朱佳目录0102Sqoop简介Sqoop架构Sqoop简介1Sqoop简介Sqoop是“SQLtoHadoop”的缩写,其是常用于将批量数据移入和移出关系型数据库的强大工具。通常,你会发现,当将企业分析数据库和数据仓库结合使用时,大数据的价值得到彰显。Sqoop是将大数据与传统企业数据存储相结合的重要工具。在许多情况下,我们希望将关系型数据库管理系统(RDBMS)数据直接导入HDFS,或将Hadoop处理的输出直接发送到外部数据库或数据仓库。Sqoop负责在hadoop和数据库之间移动数据。Sqoop简介Sqoop提供了一种简单的方法将驻留在数据库中的外部数据导入HDFS。可以使用Pig(用于查询和操作数据的高级数据管道系统)和Hive(帮助编写类似SQL的查询,其被转换为MapReduce)作业处理数据,然后将这些作业的输出导出到相同或不同的数据库。Sqoop简介Sqoop可以向或从关系型数据库、数据仓库和NoSQL系统导入或导出数据。Sqoop提供数据和增量更新的双向复制。Sqoop支持多种常用的数据格式,如Avro和SequenceFiles,并且可与Hive和Oozie(Hadoop的流行作业调度程序)等工具集成在一起。Sqoop架构2Sqoop架构Sqoop利用Hadoop的MapReduce框架来完成所有的繁重工作。这意味着,当使用Sqoop移动数据时,可以充分利用MapReduce框架的所有优点,例如MapReduce的并行处理能力,以及其出色的容错能力。Sqoop架构Sqoop架构是非常简单的,它主要由三个部分组成:Sqoopclient、HDFS/HBase/Hive、Database。需要指出的是,虽然Sqoop可以直接从RDBMS导入数据到HDFS、Hive和HBase,但不能直接从Hive和HBase导出数据到RDBMS。(这就是下图中Hive和Hbase的箭头不是双向的,而到HDFS的箭头是双向的原因)所有导出都是从HDFS完成的。将Hive表从Hadoop集群导出到RDBMS时,可以通过指向存储Hive表的HDFS目录(默认情况下为/user/hive/warehouse)来执行此操作。Sqo
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年大数据分析师职业技能测试卷:大数据分析与商业智能实践试题
- 2025年小学英语毕业考试模拟卷(英语翻译技巧训练)实战演练试题
- 2025年帆船教练职业规划与自我提升模拟试卷
- 2025年中学教师资格考试《综合素质》教育研究方法论述题(含答案)试卷
- 2025年滑雪教学环境创设与教学效果评价试卷
- 2025年ACCA国际注册会计师考试真题卷-财务会计基础试题
- 2025年安全生产应急管理应急指挥中心试题卷
- 2025年小学语文毕业升学考试全真模拟卷(语文综合素养拓展试题详解及答案)
- 2025年安全生产考试题库(行业安全规范)-安全检查与隐患排查试题
- 污泥运输施工方案
- 内科学肺炎(课件)
- 左拉精选课件
- 国际外贸模板:装箱单
- LY/T 1831-2009人造板饰面专用装饰纸
- 检验科标本采集手册(新版)
- 人力资源开发与管理-自考课件
- 第7课《大雁归来》课件(共41张PPT) 部编版语文八年级下册
- 农业面源污染进展课件
- DB44-T 2267-2021《公共机构能源资源消耗限额》-(高清现行)
- 广东省韶关市各县区乡镇行政村村庄村名明细
- 挖掘机使用台班记录表
评论
0/150
提交评论