Hive数据仓库技术与应用_第1页
Hive数据仓库技术与应用_第2页
Hive数据仓库技术与应用_第3页
Hive数据仓库技术与应用_第4页
Hive数据仓库技术与应用_第5页
已阅读5页,还剩234页未读 继续免费阅读

付费阅读全文

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

高等职业教育校企合作系列教材·大数据技术与应用专业

Hive数据仓库技术与应用

朱晓彦方明清李强主编

内容简介

本书是大数据技术与应用专业校企合作系列教材之一采用模块化的编写思路内容包括

,,

概述环境准备搭建和配置安装的基础操作的数据定义

Hive、、Hadoop、Hive、HiveQL、HiveQL

语句综合应用个单元和个教学任务每个单元通过学习目标引出单元的教学核心内

、Hive725。

容明确教学任务每个任务的编写分为任务目标知识学习任务实施同步训练个环节最

,。、、、4。

后通过单元小结回顾每个单元的学习重点

本书适合作为高职院校软件技术大数据技术及应用专业以及计算机类相关专业的教材也

、,,

可以作为爱好者的参考用书

Hive。

图书在版编目(CIP)数据

数据仓库技术与应用朱晓彦方明清李强主编北京

Hive/,,.—:

中国铁道出版社有限公司

,2020.9

高等职业教育校企合作系列教材大数据技术与应用专业

.

ISBN978-7-113-27194-7

朱方李数据库系统

Ⅰ.①H…Ⅱ.①…②…③…Ⅲ.①-

高等职业教育教材

-Ⅳ.①TP311.13

中国版本图书馆数据核字第号

CIP(2020)156616

书名:Hive数据仓库技术与应用

作者:朱晓彦方明清李强

策划:翟玉峰编辑部电话:

(010)83517321

责任编辑:翟玉峰李学敏

封面设计:郑春鹏

责任校对:张玉华

责任印制:樊启鹏

出版发行:中国铁道出版社北京市西城区右安门西街号

(100054,8)

网址:

/51eds/

印刷:三河市航远印刷有限公司

版次:年月第版年月第次印刷

202091202091

开本:印张:字数:千

787mm×1092mm1/1614.75348

书号:

ISBN978-7-113-27194-7

定价:元

45.00

版权所有侵权必究

凡购买铁道版图书如有印制质量问题请与本社教材图书营销部联系调换电话

,,。:(010)63550836

打击盗版举报电话

:(010)63549461

基于环境进行存储目前只能依托于系统进行搭建因为编译

HiveHadoop,HadoopLinux。

时会调用本身不支持的调用还需要和数据库的支

HiveShell,WindowsShell;HiveJDKMySQL

持是基于的一个数据仓库工具它不提供数据存储功能也不进行分布式计算框架

,HiveHadoop,

和资源调度系统使用做数据存储并且将语句翻译成程序来调

。HiveHDFS,SQLMapReduce

用本身不进行资源调度系统而是通过集群进行的将数据的结构化映射成一张数

;Hive,YARN,

据库表和的查询功能

HiveSQL。

中需要数据库的支持本书对数据库中的增减删改基本命令进行详细介绍包括表

Hive,、、、,

的调用整改权限管理正则表达式字符串及一些简单的命令符号在讲述

、、、、GROUPBY、。Hive

的同时还对环境变量环境搭建数据库进行简单描述

JDK、Hadoop、HBase、MySQL。

本书采用模块化的编写思路内容包括概述环境准备搭建与配置安装

,Hive、、Hadoop、Hive

的基础操作的数据定义语句与企业接轨这个方面共计个教学任

、HiveQL、HiveQL、Hive7,25

务每个单元通过学习目标引出单元的教学核心内容明确教学任务每个任务的编写分为任

。,。

务目标知识学习任务实施同步训练个环节

、、、4。

任务目标简述本任务将要达到的效果提高学生学习兴趣

●:,。

知识学习详细讲解知识点通过系列实例实践边学边做

●:,,。

任务实施通过任务综合应用所学知识提高学生系统运用知识的能力

●:,。

同步训练在任务实施的基础上通过学仿做达到理论与实践的统一知识内化的教

●:“”“”“”、

学目的

最后通过单元小结总结本单元的教学重点与难点

,。

本教材建议授课学时教学单元与学时安排如下表所示

49,。

教学单元与学时安排

序号单元名称学时安排

单元概述

11Hive3

单元环境准备

226

单元搭建和配置

33Hadoop4

单元安装的基础操作

44Hive14

单元的数据定义

55HiveQL6

单元语句

66HiveQL10

单元综合应用

77Hive6

学时总计

49

本书是大数据技术与应用专业校企合作系列教材开发了丰富的数字化教学资源可使用的

,,

教学资源如下表所示

课程教学资源一览表

序号资源名称表现形式与内涵

文档包括对课程内容简单介绍和对课时适用对象等项目的介绍

课程简介Word,、,

1让学生对有简单的认识

Hive

文档包括课程定位课程目标要求以及课程内容与要求可供教师

课程标准Word,、,

2备课时使用

授课视频视频文件可帮助教师教好这门课

3MP4,Hive

微课视频文件帮助学习理解学习内容

4MP4,,

电子课件文件也可根据教师实际需要加以修改后使用

5PPT,

案例包包括单元项目案例和综合案例综合运用所学的知识

6Tar,,

文档习题包括理论习题和操作习题试卷包括单元测试和课程测

习题库试卷库Word,,

7、试通过练习和测试加深学生对知识的掌握程度

。,

附书源码包包括本书中所有例题和任务的源代码

8Tar,

本书配套的资源包运行脚本教学课件等可登录下载相关

、、,。

软件的安装文件配置文件的源代码文件相关程序的源代码文件及课件也可以从

、、http://www.

网址下载

/51eds/。

本书由朱晓彦方明清李强任主编王庆宇周连兵李自臣任副主编并联合江苏一道云科

、、,、、,

技发展有限公司共同编写而成由于编者水平有限不足之处在所难免恳请各位读者给予批

。,,

评指正编者将不胜感激

、,。

编者

年月

20206

单元1Hive概述……1

的简介……

任务的产生背景…………1.JDK37

1.1Hive1

的版本……

2.JDK37

上传的介质……………

的产生背景………………3.JDK37

1.Hive2

的解压与压缩……………

的发展历史和现状………4.tar37

2.Hive4

与………………任务免密登录…

3.HiveHadoop42.341

任务的概念………………

1.2Hive9

免密登录用户…

1.41

的系统与部署架构………免密登录的优点………………

1.Hive92.42

与对比…………单元小结……………

2.HiveRDBM1246

数据仓库的理解………………

单元3Hadoop搭建和配置………47

3.12

的数据模型……………

4.Hive15任务搭建……………

3.1Hadoo47

与数据存储…………p

5.HiveQL16

任务生态与……上传的介质…………

1.3HadoopHive201.Hadoop47

解压压缩包…………

2.Hadoop48

……………配置的环境变量……

1.Pig203.Hadoop48

…………配置环境变量………

2.HBase214.Hadoop48

修改的配置文件……

单元小结……………5.Hadoop49

25启动服务……………

单元2环境准备……266.Hadoop51

检查的成功…………

任务与7.Hadoop52

2.1VMwareSecureCRT

…任务配置……………

Portable263.2Hadoop57

简介…简介…

1.VMware261.Hadoop57

的虚拟化……………综述………………

2.VMware272.MapReduce61

任务的配置………………单元小结……………

2.2JDK3770

单元4安装Hive的基础操作……71任务权限管理…………

4.6Hive125

任务的模式……………

4.1Hive71

开启权限……

1.126

本地模式………权限操作……

1.722.128

远程模式………任务常用优化方法……

2.724.7Hive137

内嵌模式………

3.73

控制数量…………

任务安装实验…………1.Reducer137

4.2Hive88

使用………………

2.MapJoin138

简介……使用

1.Hive883.distinct+unionall

的定义…代替…

2.Hive88union139

设计特征………解决数据倾斜的通用方法…

3.884.140

数据存储………

4.89单元小结……………

141

任务命令………………单元5HiveQL的数据定义……143

4.3Hive95

任务的数据定义……

5.1HiveQL143

创建表语句……

1.95

加载数据………

2.96的数据定义………

1.HiveQL143

改变表…………

3.98和的区别……

2.HiveQLSQL146

替换…………

4.101任务数据库……………

删除表………5.2Hive150

5.102

分区…………

6.103的数据库………………

1.Hive150

任务命令行界面

………修改数据库属性……………

4.4Hive1072.151

任务修改表…

选项……5.3157

1.CLI107

变量和属性…

2.111增加、修改和删除表分区……

在内使用的1.157

3.HiveHadoop表重命名……

命令……2.157

DFS112增加列………

3.157

任务数据类型和文件格式…删除或者替换列……………

4.51144.157

修改表属性…

5.158

基本数据类型………………修改存储属性………………

1.1146.158

文件格式

……修改表语句…

2.1167.158

压缩编码……

3.119

单元小结……………

集合数据类型………………162

4.121

单元6HiveQL语句………………163

优化……

任务、语句的1.JOIN185

6.1SELECTFROM………

概念……2.LEFTOUTERJOIN186

163………………

使用正则表达式来指3.INNERJOIN187

1.………

4.FULLOUTERJOIN189

定列……

1635.LEFTSEMI-JOIN189

使用列值进行计算………………

2.1656.RIGHTOUTERJOIN190

算术运算符…………………

3.1657.OUTERJOIN190

使用函数……笛卡儿积……………

4.1688.JOIN191

语句…………………

5.LIMIT1699.map-side-join192

列的别名……

6.169单元小结……………

194

、、句式……

7.CASEWHENTHEN单元7Hive综合应用……………195

…………………

169任务和亚马逊网络服务

嵌套语句…………7.1Hive

8.SELECT172系统……………

(AWS)195

任务……………

6.2GROUPBY178弹性的优点……

任务抽样查询………………1.MapReduce196

6.3180注意事项……

2.196

数据块抽样…上的实例………………

1.1803.EMR196

分桶表的输入裁剪…………任务综合案例…………

2.1807.2Hive199

任务语句…………

6.4WHERE181

操作演示………………

1.Hive199

交易数据演示………………

谓语操作符…2.207

1.182

浮点数比较…单元小结……………

2.183227

任务语句………………参考文献……………228

6.5JOIN184

微课

学习目标

【知识目标】

掌握的产生背景发展历史现状和概念

●Hive、、。

掌握的发展过程

●Hive。单元

1

●掌握的基本概念使用的原因概述

Hadoop、Hive。Hive

掌握的结构与部署架构

●Hive。

掌握与的区别

●HiveHadoop。

【能力目标】

学会的基本操作

●Hive。

掌握基本知识的学习方法

●Hive。

了解生态和的研究

●HiveHive。

了解发展过程的方法

●Hive。

学习情境

某公司在载入了亿行经度维度时间数据值高度数据集到后系统崩溃了

60(、、、、)MySQL,,

并且数据丢失给公司带来了难题公司研发部分析表示这其中有部分原因可能是最初的策略

,。:

将所有的数据都存储到单一的一张表中后来公司调整了策略对数据集和参数进行分表这

。,,,

虽然有所帮助但也因此引入了额外的消耗显然这并非是完美的解决方法公司研发部工程师

,,。

小张提出是否可以尝试应用技术经过一系列的讨论最后公司安排工程师小张对

ApacheHive。,

技术进行调研分析和安装测试

Hive。

任务1.1Hive的产生背景

任务目标

了解的产生背景发展历史和现状

①Hive、。

理解的基本概念

②Hadoop。

理解与的区别

③HiveHadoop。

1

知识学习

1.Hive的产生背景

是构建在之上的数据仓库

(1)HiveHadoop

定义了一种类查询语言类似但不完全相同通常用于进行离线数据

HiveSQL:HQL(SQL),

处理采用并且的底层支持多种不同的执行引擎

(MapReduce)。Hive(HiveonMapReduce、Hive

onTez、HiveonSpark)。

支持多种不同的压缩格式存储格式以及自定义函数压缩格式

Hive、(:GZIP、LZO、Snappy、

等存储格式自定义函数

BZIP2;:TextFile、SequenceFile、RCFILE、ORC、Parquet;:UDF)。

是基于的一个数据仓库工具

(2)HiveHadoop

工具意味着并不是一个成型的数据仓库系统它只是一个工具来帮助实现数据仓库

“”Hive,,。

一般人们平时听说的使用的都是数据库一般意义上说的数据库都是面向事物存储实时

、,,、

在线系统的数据是为了捕获数据而设计例如电商类的天猫淘宝京东商城使用的都是一般

,。,、、

来说的数据库这样的数据要求精确绝对不能出现错误尽量避免冗余一般采用符合范式的规

,,,,

则来设计如三范式运营商的计费系统客户关系管理系统也是如此例如运营商的终端库

()。、。,

存系统管理着运营商自己给合作渠道的库存销售情况库存状态表销售表都是实时更新的终端

,、,

的某个属性不会存在多个表出现为了保持属性准确不会有冗余数据一般都是使用关联查询

。,,。

的实现

(3)Hive

实现一个数据仓库有三个关键的部分数据获取数据存储

:(DataAcquisition)、(Data

数据访问

Storage)、(DataAccess)。

对于这个三个部分的实现都提供了相应的支持

Hive:

数据获取可以像操作关系型数据库那样直接向中插入数据不过大部分情况下是

①:Hive,,

使用类似于这样的数据迁移工具从其他数据库中将数据导入到中

Sqoop、datax,Hive。

数据存储可以帮助数据存储在上

②:HiveHDFS。

数据访问可以将结构化的数据文件映射为一张数据库表定义了简单的类查

③:Hive,SQL

询语言称为它允许熟悉的用户查询数据

,HQL,SQL。

的结构

(4)Hive

如图所示的组件图描绘了的结构该组件图包含不同的组件描述如表所示

1-1-1Hive,,1-1-1。

图1-1-1Hive的结构

2

表1-1-1不同组件的描述

单元名称操作

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论