版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
高等职业教育校企合作系列教材·大数据技术与应用专业
Hive数据仓库技术与应用
朱晓彦方明清李强主编
内容简介
本书是大数据技术与应用专业校企合作系列教材之一采用模块化的编写思路内容包括
,,
概述环境准备搭建和配置安装的基础操作的数据定义
Hive、、Hadoop、Hive、HiveQL、HiveQL
语句综合应用个单元和个教学任务每个单元通过学习目标引出单元的教学核心内
、Hive725。
容明确教学任务每个任务的编写分为任务目标知识学习任务实施同步训练个环节最
,。、、、4。
后通过单元小结回顾每个单元的学习重点
。
本书适合作为高职院校软件技术大数据技术及应用专业以及计算机类相关专业的教材也
、,,
可以作为爱好者的参考用书
Hive。
图书在版编目(CIP)数据
数据仓库技术与应用朱晓彦方明清李强主编北京
Hive/,,.—:
中国铁道出版社有限公司
,2020.9
高等职业教育校企合作系列教材大数据技术与应用专业
.
ISBN978-7-113-27194-7
朱方李数据库系统
Ⅰ.①H…Ⅱ.①…②…③…Ⅲ.①-
高等职业教育教材
-Ⅳ.①TP311.13
中国版本图书馆数据核字第号
CIP(2020)156616
书名:Hive数据仓库技术与应用
作者:朱晓彦方明清李强
策划:翟玉峰编辑部电话:
(010)83517321
责任编辑:翟玉峰李学敏
封面设计:郑春鹏
责任校对:张玉华
责任印制:樊启鹏
出版发行:中国铁道出版社北京市西城区右安门西街号
(100054,8)
网址:
/51eds/
印刷:三河市航远印刷有限公司
版次:年月第版年月第次印刷
202091202091
开本:印张:字数:千
787mm×1092mm1/1614.75348
书号:
ISBN978-7-113-27194-7
定价:元
45.00
版权所有侵权必究
凡购买铁道版图书如有印制质量问题请与本社教材图书营销部联系调换电话
,,。:(010)63550836
打击盗版举报电话
:(010)63549461
基于环境进行存储目前只能依托于系统进行搭建因为编译
HiveHadoop,HadoopLinux。
时会调用本身不支持的调用还需要和数据库的支
HiveShell,WindowsShell;HiveJDKMySQL
持是基于的一个数据仓库工具它不提供数据存储功能也不进行分布式计算框架
,HiveHadoop,
和资源调度系统使用做数据存储并且将语句翻译成程序来调
。HiveHDFS,SQLMapReduce
用本身不进行资源调度系统而是通过集群进行的将数据的结构化映射成一张数
;Hive,YARN,
据库表和的查询功能
HiveSQL。
中需要数据库的支持本书对数据库中的增减删改基本命令进行详细介绍包括表
Hive,、、、,
的调用整改权限管理正则表达式字符串及一些简单的命令符号在讲述
、、、、GROUPBY、。Hive
的同时还对环境变量环境搭建数据库进行简单描述
JDK、Hadoop、HBase、MySQL。
本书采用模块化的编写思路内容包括概述环境准备搭建与配置安装
,Hive、、Hadoop、Hive
的基础操作的数据定义语句与企业接轨这个方面共计个教学任
、HiveQL、HiveQL、Hive7,25
务每个单元通过学习目标引出单元的教学核心内容明确教学任务每个任务的编写分为任
。,。
务目标知识学习任务实施同步训练个环节
、、、4。
任务目标简述本任务将要达到的效果提高学生学习兴趣
●:,。
知识学习详细讲解知识点通过系列实例实践边学边做
●:,,。
任务实施通过任务综合应用所学知识提高学生系统运用知识的能力
●:,。
同步训练在任务实施的基础上通过学仿做达到理论与实践的统一知识内化的教
●:“”“”“”、
学目的
。
最后通过单元小结总结本单元的教学重点与难点
,。
本教材建议授课学时教学单元与学时安排如下表所示
49,。
教学单元与学时安排
序号单元名称学时安排
单元概述
11Hive3
单元环境准备
226
单元搭建和配置
33Hadoop4
单元安装的基础操作
44Hive14
单元的数据定义
55HiveQL6
单元语句
66HiveQL10
单元综合应用
77Hive6
学时总计
49
Ⅰ
本书是大数据技术与应用专业校企合作系列教材开发了丰富的数字化教学资源可使用的
,,
教学资源如下表所示
。
课程教学资源一览表
序号资源名称表现形式与内涵
文档包括对课程内容简单介绍和对课时适用对象等项目的介绍
课程简介Word,、,
1让学生对有简单的认识
Hive
文档包括课程定位课程目标要求以及课程内容与要求可供教师
课程标准Word,、,
2备课时使用
授课视频视频文件可帮助教师教好这门课
3MP4,Hive
微课视频文件帮助学习理解学习内容
4MP4,,
电子课件文件也可根据教师实际需要加以修改后使用
5PPT,
案例包包括单元项目案例和综合案例综合运用所学的知识
6Tar,,
文档习题包括理论习题和操作习题试卷包括单元测试和课程测
习题库试卷库Word,,
7、试通过练习和测试加深学生对知识的掌握程度
。,
附书源码包包括本书中所有例题和任务的源代码
8Tar,
本书配套的资源包运行脚本教学课件等可登录下载相关
、、,。
软件的安装文件配置文件的源代码文件相关程序的源代码文件及课件也可以从
、、http://www.
网址下载
/51eds/。
本书由朱晓彦方明清李强任主编王庆宇周连兵李自臣任副主编并联合江苏一道云科
、、,、、,
技发展有限公司共同编写而成由于编者水平有限不足之处在所难免恳请各位读者给予批
。,,
评指正编者将不胜感激
、,。
编者
年月
20206
Ⅱ
单元1Hive概述……1
的简介……
任务的产生背景…………1.JDK37
1.1Hive1
的版本……
2.JDK37
上传的介质……………
的产生背景………………3.JDK37
1.Hive2
的解压与压缩……………
的发展历史和现状………4.tar37
2.Hive4
与………………任务免密登录…
3.HiveHadoop42.341
任务的概念………………
1.2Hive9
免密登录用户…
1.41
的系统与部署架构………免密登录的优点………………
1.Hive92.42
与对比…………单元小结……………
2.HiveRDBM1246
数据仓库的理解………………
单元3Hadoop搭建和配置………47
3.12
的数据模型……………
4.Hive15任务搭建……………
3.1Hadoo47
与数据存储…………p
5.HiveQL16
任务生态与……上传的介质…………
1.3HadoopHive201.Hadoop47
解压压缩包…………
2.Hadoop48
……………配置的环境变量……
1.Pig203.Hadoop48
…………配置环境变量………
2.HBase214.Hadoop48
修改的配置文件……
单元小结……………5.Hadoop49
25启动服务……………
单元2环境准备……266.Hadoop51
检查的成功…………
任务与7.Hadoop52
2.1VMwareSecureCRT
…任务配置……………
Portable263.2Hadoop57
简介…简介…
1.VMware261.Hadoop57
的虚拟化……………综述………………
2.VMware272.MapReduce61
任务的配置………………单元小结……………
2.2JDK3770
Ⅰ
单元4安装Hive的基础操作……71任务权限管理…………
4.6Hive125
任务的模式……………
4.1Hive71
开启权限……
1.126
本地模式………权限操作……
1.722.128
远程模式………任务常用优化方法……
2.724.7Hive137
内嵌模式………
3.73
控制数量…………
任务安装实验…………1.Reducer137
4.2Hive88
使用………………
2.MapJoin138
简介……使用
1.Hive883.distinct+unionall
的定义…代替…
2.Hive88union139
设计特征………解决数据倾斜的通用方法…
3.884.140
数据存储………
4.89单元小结……………
141
任务命令………………单元5HiveQL的数据定义……143
4.3Hive95
任务的数据定义……
5.1HiveQL143
创建表语句……
1.95
加载数据………
2.96的数据定义………
1.HiveQL143
改变表…………
3.98和的区别……
2.HiveQLSQL146
替换…………
4.101任务数据库……………
删除表………5.2Hive150
5.102
分区…………
6.103的数据库………………
1.Hive150
任务命令行界面
………修改数据库属性……………
4.4Hive1072.151
任务修改表…
选项……5.3157
1.CLI107
变量和属性…
2.111增加、修改和删除表分区……
在内使用的1.157
3.HiveHadoop表重命名……
命令……2.157
DFS112增加列………
3.157
任务数据类型和文件格式…删除或者替换列……………
4.51144.157
修改表属性…
5.158
基本数据类型………………修改存储属性………………
1.1146.158
文件格式
……修改表语句…
2.1167.158
压缩编码……
3.119
单元小结……………
集合数据类型………………162
4.121
Ⅱ
单元6HiveQL语句………………163
优化……
任务、语句的1.JOIN185
6.1SELECTFROM………
概念……2.LEFTOUTERJOIN186
163………………
使用正则表达式来指3.INNERJOIN187
1.………
4.FULLOUTERJOIN189
定列……
1635.LEFTSEMI-JOIN189
使用列值进行计算………………
2.1656.RIGHTOUTERJOIN190
算术运算符…………………
3.1657.OUTERJOIN190
使用函数……笛卡儿积……………
4.1688.JOIN191
语句…………………
5.LIMIT1699.map-side-join192
列的别名……
6.169单元小结……………
194
、、句式……
7.CASEWHENTHEN单元7Hive综合应用……………195
…………………
169任务和亚马逊网络服务
嵌套语句…………7.1Hive
8.SELECT172系统……………
(AWS)195
任务……………
6.2GROUPBY178弹性的优点……
任务抽样查询………………1.MapReduce196
6.3180注意事项……
2.196
数据块抽样…上的实例………………
1.1803.EMR196
分桶表的输入裁剪…………任务综合案例…………
2.1807.2Hive199
任务语句…………
6.4WHERE181
操作演示………………
1.Hive199
交易数据演示………………
谓语操作符…2.207
1.182
浮点数比较…单元小结……………
2.183227
任务语句………………参考文献……………228
6.5JOIN184
Ⅲ
微课
学习目标
【知识目标】
掌握的产生背景发展历史现状和概念
●Hive、、。
掌握的发展过程
●Hive。单元
1
●掌握的基本概念使用的原因概述
Hadoop、Hive。Hive
掌握的结构与部署架构
●Hive。
掌握与的区别
●HiveHadoop。
【能力目标】
学会的基本操作
●Hive。
掌握基本知识的学习方法
●Hive。
了解生态和的研究
●HiveHive。
了解发展过程的方法
●Hive。
学习情境
某公司在载入了亿行经度维度时间数据值高度数据集到后系统崩溃了
60(、、、、)MySQL,,
并且数据丢失给公司带来了难题公司研发部分析表示这其中有部分原因可能是最初的策略
,。:
将所有的数据都存储到单一的一张表中后来公司调整了策略对数据集和参数进行分表这
。,,,
虽然有所帮助但也因此引入了额外的消耗显然这并非是完美的解决方法公司研发部工程师
,,。
小张提出是否可以尝试应用技术经过一系列的讨论最后公司安排工程师小张对
ApacheHive。,
技术进行调研分析和安装测试
Hive。
任务1.1Hive的产生背景
任务目标
了解的产生背景发展历史和现状
①Hive、。
理解的基本概念
②Hadoop。
理解与的区别
③HiveHadoop。
1
知识学习
1.Hive的产生背景
是构建在之上的数据仓库
(1)HiveHadoop
定义了一种类查询语言类似但不完全相同通常用于进行离线数据
HiveSQL:HQL(SQL),
处理采用并且的底层支持多种不同的执行引擎
(MapReduce)。Hive(HiveonMapReduce、Hive
onTez、HiveonSpark)。
支持多种不同的压缩格式存储格式以及自定义函数压缩格式
Hive、(:GZIP、LZO、Snappy、
等存储格式自定义函数
BZIP2;:TextFile、SequenceFile、RCFILE、ORC、Parquet;:UDF)。
是基于的一个数据仓库工具
(2)HiveHadoop
工具意味着并不是一个成型的数据仓库系统它只是一个工具来帮助实现数据仓库
“”Hive,,。
一般人们平时听说的使用的都是数据库一般意义上说的数据库都是面向事物存储实时
、,,、
在线系统的数据是为了捕获数据而设计例如电商类的天猫淘宝京东商城使用的都是一般
,。,、、
来说的数据库这样的数据要求精确绝对不能出现错误尽量避免冗余一般采用符合范式的规
,,,,
则来设计如三范式运营商的计费系统客户关系管理系统也是如此例如运营商的终端库
()。、。,
存系统管理着运营商自己给合作渠道的库存销售情况库存状态表销售表都是实时更新的终端
,、,
的某个属性不会存在多个表出现为了保持属性准确不会有冗余数据一般都是使用关联查询
。,,。
的实现
(3)Hive
实现一个数据仓库有三个关键的部分数据获取数据存储
:(DataAcquisition)、(Data
数据访问
Storage)、(DataAccess)。
对于这个三个部分的实现都提供了相应的支持
Hive:
数据获取可以像操作关系型数据库那样直接向中插入数据不过大部分情况下是
①:Hive,,
使用类似于这样的数据迁移工具从其他数据库中将数据导入到中
Sqoop、datax,Hive。
数据存储可以帮助数据存储在上
②:HiveHDFS。
数据访问可以将结构化的数据文件映射为一张数据库表定义了简单的类查
③:Hive,SQL
询语言称为它允许熟悉的用户查询数据
,HQL,SQL。
的结构
(4)Hive
如图所示的组件图描绘了的结构该组件图包含不同的组件描述如表所示
1-1-1Hive,,1-1-1。
图1-1-1Hive的结构
2
表1-1-1不同组件的描述
单元名称操作
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 《淋巴系统wxl》课件
- 暴发性一型糖尿病
- 防水技术研发合同
- 广州二手住宅买卖合同2024版
- 《浅谈装修隐患》课件
- 艾滋病的危害备课教案
- 统编版语文七年级上册18《鸟》公开课一等奖创新教学设计
- 年产xxx连接带项目可行性研究报告(项目申请)
- 年产xxx植草砖模具项目可行性研究报告(项目规划)
- 年产xx玻璃用型模具项目建议书
- 盆腔肿物的个案护理
- 注册的安全工程师考试题库
- 第5课-动荡变化中的春秋时期【课件】5
- 医院火灾应急预案
- 七年级语文上册18-我的白鸽课件
- 空气源热泵与燃气设备耦合供热系统技术规范
- 期中模拟检测(1-3单元)2024-2025学年度第一学期苏教版一年级数学
- 湘教版区域地理 课件 第二讲《地图》
- 2024年中国中煤能源集团限公司江苏分公司公开招聘【82人】高频难、易错点500题模拟试题附带答案详解
- 四川省食品生产企业食品安全员理论考试题库(含答案)
- 2024中国电子科技集团限公司在招企业校招+社招高频难、易错点500题模拟试题附带答案详解
评论
0/150
提交评论