版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
《Hive大数据存储与处理》教学大纲课程名称:Hive大数据存储与处理课程类别:必修适用专业:大数据技术类相关专业总学时:64学时(其中理论36学时,实验28学时)总学分:4.0学分课程的性质随着5G技术、云计算、人工智能等新一代技术的发展,大数据与行业的融合全面展开,融合生态加速构建,新技术、新业态、新模式不断涌现。党的二十大以来,国家要求加快实施创新驱动发展战略,加快实现高水平科技自立自强,以国家战略需求为导向,增强企业自主创新能力。在发展的过程中,各企业积累了大量的业务数据,企业将不断增长的业务数据进行存储并从中挖掘具有潜在商业价值的信息,为企业发展提供有力支撑,从而创造更大的价值。目前,离线数据分析框架主要有MapReduce和Spark,然而使用MapReduce和Spark,需要开发人员具备Java等开发基础,这对于熟悉SQL的传统数据分析人员来说并不友好,且MapReduce和Spark不具备数据存储的功能,因此支持SQL且能实现数据存储的分布式处理框架的需求日益增长。在这样的背景下,既支持SQL又能存储数据的数据仓库Hive逐渐成为主流的离线数据分析框架。目前开设大数据专业的高校越来越多,然而有关Hive开发的课程较少。为了推动我国大数据,云计算,人工智能行业的发展,满足日益增长的数据分析人才需求,特开设Hive大数据存储与处理课程。课程的任务通过本课程的学习,使学生学会使用Hive进行广电大数据用户数据分析,包括广电大数据用户画像需求分析、部署Hive开发环境、了解广电用户数据存储方法、学习广电用户基本数据简单查询、广电用户账单与订单数据查询、广电用户收视行为数据查询优化、广电用户数据清洗及数据,最终学会广电用户数据存储与处理的程序的开发。通过分阶段分步骤完成多个广电大数据数据实际案例,将理论与实践相结合,为将来从事大数据分析挖掘研究、工作奠定基础。课程学时分配序号教学内容理论学时实验学时其它1第1章广电大数据用户画像需求分析202第2章部署开发环境443第3章广电用户数据存储444第4章广电用户基本数据简单查询445第5章广电用户账单与订单数据查询进阶446第6章广电用户收视行为数据查询优化647第7章广电用户数据清洗及数据导出648第8章广电用户数据存储与处理的程序开发64总计3628教学内容及学时安排理论教学序号章节名称主要内容教学目标学时1广电大数据用户画像需求分析需求分析与架构认识Hive了解广电大数据用户画像需求分析的背景了解目前常见的几种大数据存储产品了解Hive原理架构和Hive的主要特点了解Hive和传统数据库的主要区别22部署开发环境安装部署Hadoop集群安装部署Hive使用HiveCLI掌握Hadoop集群的安装部署方法掌握MySQL数据库的安装配置方法掌握Hive的安装配置及启动方法掌握HiveCLI的使用方法43广电用户数据存储创建业务数据表将数据导入Hive表掌握在Hive中创建与管理数据库的操作了解Hive的基础数据类型和复杂数据类型掌握在Hive中创建与管理表的常用操作掌握装载数据至Hive表的操作44广电用户基本数据简单查询查询广电用户的用户编号及开户时间查询指定用户状态的用户基本数据统计用户基本数据表中品牌名称的种类个数统计不同用户等级名称的记录数统计不同用户状态的
记录数统计指定用户数量范围的用户等级统计用户数最多的3种用户状态查询用户发生状态变更的时间及开户时间了解SELECT语句基本的语法掌握使用WHERE关键字实现条件查询的方法。掌握表别名、列别名的使用方法掌握聚合函数的使用方法掌握分组查询的实现方法了解不同排序关键字之间的区别掌握使用通配符、正则表达式实现模糊查询的方法45广电用户账单与订单数据查询进阶统计订单的消费类型统计用户每年消费应付总额统计用户每月消费应付总额统计用户每月实际账单金额查询用户宽带订单的地址数据抽样统计用户订购产品情况了解常见的Hive内置函数掌握条件函数、字符函数、日期函数及数学函数的使用方法掌握各类JOIN语句的使用方法掌握JOIN语句与UNIONALL关键字的区别掌握桶表中抽样查询的使用方法46广电用户收视行为数据查询优化使用视图统计不同节目的用户观看人数优化统计直播频道数使用子查询统计节目类型为直播的频道Top10掌握Hive查询优化的方法掌握Hive视图的使用方法了解配置Fetch抓取的方法掌握Hive设置map和reduce任务数的方法掌握Hive配置并行执行的方法掌握子查询的使用方法掌握GROUPBY语句的优化配置方法掌握LIMIT语句的优化配置方法67广电用户数据清洗及数据导出清洗无效用户数据清洗无效收视行为数据清洗无效账单和订单数据导出处理结果至Linux本地和HDFS掌握Hive内置函数的使用方法掌握Hive中对数据进行清洗与统计分析的操作掌握Hive表中数据导出至Linux本地与HDFS的方法68广电用户数据存储与处理的程序开发配置Hive远程服务搭建Hive远程连接环境编写程序实现广电数据的存储掌握Hive远程服务的配置过程掌握HiveServer2的使用方法和使用第三方语言(Java)开发的配置过程掌握在IDEA编程软件中进行程序运行与调试的过程和方法6学时合计36实验教学序号实验项目名称实验要求学时1部署开发环境安装部署Hadoop集群VMware虚拟机安装和网络设置部署CentOSHadoop集群部署前准备Hadoop集群部署安装部署Hive安装配置MySQL安装配置Hive使用HiveCLI启动HiveCLI 56在Hive中执行BashShell和Hadoopdfs命令在Shell中执行Hive查询安装42广电用户数据存储创建与管理Hive表创建业务数据表装载数据至Hive表中将广电用户数据导入Hive表中43广电用户基本数据简单查询SELECT语句查询广电用户的用户编号及开户时间使用WHERE关键字添加查询条件使用WHERE关键字添加常见查询条件查询指定用户状态的用户基本数据使用DISTINCT关键字去重查询使用聚合函数统计用户基本数据表中品牌名称的种类个数设置列别名统计不同用户等级名称的记录数统计不同用户状态的记录数使用GROUPBY关键字分组查询统计不同用户状态的记录数统计指定用户数量范围的用户等级使用HAVING关键字对分组结果进行筛选统计指定用户数量范围的用户等级使用LIMIT关键字设置查询结果展示使用排序关键字对查询结果排序统计用户数最多的3种用户状态使用正则表达式查询数据查询用户发生状态变更的时间及开户时间44广电用户账单与订单数据查询进阶介绍Hive内置函数使用条件函数使用类型转换函数统计订单的消费类型使用字符函数统计用户每年消费应付总额使用日期函数统计用户每月消费应付总额使用数学函数统计用户每月实际账单金额使用JOIN语句介绍UNIONALL关键字查询用户宽带订单的地址数据使用桶表抽样查询创建视图抽样统计用户订购产品情况45广电用户收视行为数据查询优化创建视图查看与删除视图使用视图统计不同节目的用户观看人数配置Fetch抓取合理设置map和reduce任务数配置并行执行优化统计直播频道数使用子查询优化查询语句优化配置GROUPBY语句使用GROUPBY代替COUNT(DISTINCT)去重统计优化配置LIMIT语句使用子查询统计节目类型为直播的频道Top1046广电用户数据清洗及数据导出探索无效用户数据删除无效用户数据探索无效收视行为数据删除无效收视行为数据探索无效账单数据探索无效订单数据删除无效账单和无效订单数据使用INSERTOVERWRITE语句将数据导出至文件系统保存处理结果至Linux本地和HDFS47广电用户数据存储与处理的程序开发配置Hive远程服务搭建Hive远程连接环境创建IDEA开发项目添加依赖手动加载MySQL驱动JDBC及其主要接口创建连接测试程序编写程序实现广电数据的存储创建开发项目创建HiveHelper类和连接Hive创建测试类创建Hive数据库创建Hive表装载数据程序运行与调试编写程序实现广电数据的查询与处理查询数据删除无效用户数据删除无效收视行为数据删除无效账单和无效订单数据4学时合计28考核方式突出学生解决实际问题的能力,加强过程性考核。课程考核的成绩构成=平时作业(10%)+课堂参与(20%)+期末考核(70%),期末考试建议采用开卷形式,试题应包括基本概念、绘图、分组聚合、数据合并、数据清洗、数据变
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024锅炉维修工程协议格式
- 2024年度汽车租赁协议格式
- 2024商业秘密保护竞业限制协议样本
- 2024年仓库转租协议条款
- 动产资产抵押协议范例2024年
- 2024年度煤炭洗选加工服务协议模板
- 2024年简化常规采购协议样式
- 2024单位设施局部维修合作协议样本
- 山东省聊城市东阿县姜楼中学2024-2025学年八年级上学期11月月考生物学试题(含答案)
- 2024年工程款支付协议范例
- 一年级上册全册道德与法治教案全
- 中班健康《身体上的洞洞》课件
- GB/T 9452-2023热处理炉有效加热区测定方法
- 停车场施工方案及技术措施范本
- 高考地理一轮复习课件【知识精讲+高效课堂】美食与地理环境关系
- 分居声明告知书范本
- 2023年04月山东济南市槐荫区残联公开招聘残疾人工作“一专两员”公开招聘笔试参考题库+答案解析
- 消失的13级台阶
- 营销管理知识点
- 船体强度与结构设计课程设计
- 不宁腿综合征诊断与治疗
评论
0/150
提交评论