




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、大数据综合应用实践教学大纲(Comprehensive Application Practice of Big Data)一、课程概况课程代码:0808606学分:3 学时:3周先修课程:计算机语言(Python);数据结构;大数据采集与预处理。适用专业:数据科学与大数据技术建议教材:大数据技术与应用基础,陈志德主编,人民邮电出版社课程归口:理学院课程的性质与任务:本课程是数据科学与大数据技术专业的一门专业实验课程,讲授利用大数据技术处理数据的方法和应用。通过本课程的学习教育引导学生树牢“四个意识”,坚定“四个自信”,坚决做到“两个维护”,立志肩负起民族复兴的时代重任。通过本课程的学习和实验使
2、学生了解大数据系统的起源及系统特征,学会大数据系统的架构设计及功能目标设计,初步掌握大数据系统程序的开发流程,能对给定的大数据案例进行分析,初步具备大数据的应用、开发能力,为从事大数据分析、建模、可视化奠定基础。二、课程目标目标1.掌握大数据基本概念,理解大数据的处理流程,了解大数据在行业中的应用和未来趋势。目标2.能分析大数据集群,阐明其基本原理;在虚拟化计算机系统中安装CentOS 7操作系统,通过SecureCRT/Xshell访问CentOS 7操作系统,学会搭建大数据集群环境。目标3.在理解Hadoop工作原理的基础上学会配置和运行Hadoop。目标4.掌握HDFS的基本原理,掌握H
3、DFS相关的操作命令,并能够应用Java 对HDFS 进行编程。目标5.掌握MapReduce的基本原理、架构以及工作机制,掌握MapReduce的编程操作。目标6.了解Hbase的构建与组件,掌握Hbase的安装部署、综合操作。目标7.掌握YARN的基本原理、基本架构以及应用场景。目标8.了解Spark的基本原理、架构以及相关应用,掌握Spark的核心RDD的相关编程原理及其操作。目标9.掌握Spark MLlib的数据类型和常用API,以及几个机器学习分类算法及编程应用实例。目标10.掌握Hive集群的安装与部署,掌握Hive语句的操作及对数据的处理。目标11.了解ZooKeeper架构,
4、掌握ZooKeeper集群的安装与部署,熟悉ZooKeeper的特性。本课程实验支撑专业人才培养方案中毕业要求4-1(占该指标点达成度的5%)、毕业要求4-2(占该指标点达成度的12.5%)、毕业要求4-3(占该指标点达成度的16.7%)、毕业要求5-2(占该指标点达成度的25%)、毕业要求5-3(占该指标点达成度的4.5%)、毕业要求6-1(占该指标点达成度的8.3%)、毕业要求6-2(占该指标点达成度的7.7%)、毕业要求6-3(占该指标点达成度的16.7%)、毕业要求7-1(占该指标点达成度的8.3%)、毕业要求7-2(占该指标点达成度的14.3%)、毕业要求7-3(占该指标点达成度的1
5、2.5%)、毕业要求8-1(占该指标点达成度的20%)、毕业要求10-1(占该指标点达成度的25%)、毕业要求10-2(占该指标点达成度的12.5%)对应关系如表所示。毕业要求指标点课程目标目标1目标2目标3目标4目标5目标6目标7目标8目标9目标10目标11毕业要求4-1毕业要求4-2毕业要求4-3毕业要求5-2毕业要求5-3毕业要求6-1毕业要求6-2毕业要求6-3毕业要求7-1毕业要求7-2毕业要求7-3毕业要求8-1毕业要求10-1毕业要求10-2三、课程内容与要求(一)大数据概述1.教学内容(1)大数据分析的过程、技术及工具(2)大数据的处理流程(3)大数据技术的发展前景2.基本要求
6、(1)了解大数据的采集、存储方式、分析技术、展示及应用。(2)掌握大数据处理流程的4个阶段数据采集、数据处理与集成、数据分析和数据解释。(3)了解大数据技术的发展前景(二)大数据集群系统基础1.教学内容(1)大数据集群系统概述(2)Linux操作系统(3)虚拟化技术(4)CentOS大数据集群系统的组成(5)大数据集群技术的架构(6)大数据集群的部署2.基本要求(1)了解大数据集群的概念、分类和目的。(2)掌握Linux系统的概念、特点和基本使用操作。(3)掌握虚拟化技术的概念、原理,会使用常用软件并了解它们的优缺点。(4)了解大数据集群系统CentOS及CentOS集群系统的拓扑图。(5)掌
7、握大数据集群的构架组成硬件资源层、OS层、基础设施管理层、文件系统层、资源管理和大数据集群层、大数据应用层。(6)掌握大数据集群的规划、网络配置、安全配置、时间同步、SSH登录。(三)Hadoop分布式系统1.教学内容(1)Hadoop概述(2)Hadoop相关技术及生态系统(3)操作实践:Hadoop安装与配置2.基本要求(1)了解Hadoop的概念和发展,掌握其原理及运行机制。(2)掌握构成Hadoop生态系统的相关技术。(3)掌握JDK与Hadoop的安装,学会Hadoop的运行,会浏览Hadoop的界面。(四)HDFS分布式文件系统1.教学内容(1)分布式文件系统的概念(2)分布式文件
8、系统的操作2.基本要求(1)了解文件系统HDFS的设计前提和设计目标、文件系统的名字空间、数据复制、HDFS读写流程。(2)掌握HDFSShell、HDFS JavaAPI、Eclipse开发环境、综合实例。(五)分布式计算系统MapReduce及其应用1.教学内容(1)MapReduce简介(2)MapReduce操作实践2.基本要求(1)掌握MapReduce架构、原理、工作机制。(2)理解MapReduceWordCount编程实例、MapReduce倒排索引编程实例。(六)HBase分布式数据库应用1.教学内容(1)HBase简介(2)HBase集群部署(3)HBase Shell操作
9、命令(4)HBase过滤器(5)HBase编程2.基本要求(1)理解HBase原理、构架与组件、存储。(2)掌握HBase的参数配置、运行与测试。掌握常用命令,如创建表,对表的内容进行删除、插入内容等处理。(3)掌握general操作、namespace操作、DDL操作、DML操作、授权。(4)学会用过滤器筛选数据。(5)学会HBase表操作编程、HBase过滤查询编程。(七)YARN资源分配1.教学内容(1)资源管理和调度平台(2) YARN Shell操作实践2.基本要求(1)了解资源管理和调度平台YARN的作用、架构、工作流程、和优势。(2)学会统一资源管理和调度平台的操作。(八)Spa
10、rk集群计算1.教学内容(1)Spark简介(2)Spark RDD(3)Spark集群部署及应用案例2.基本要求(1)了解Spark生态系统、架构。(2)学会RDDs依赖关系、作业调度、内存管理、检查点支持。(3)掌握Spark集群安装,特别是相关参数的部署和设置等,理解经典的Spark算法。(九)Spark机器学习1.教学内容(1)机器学习概述(2)SparkMLlib概述(3)Spark机器学习实例2.基本要求(1)了解机器学习发展、步骤。(2)掌握数据类型和基本统计API的使用。(3)掌握经典的Spark分类算法。(十)Hive数据仓库应用1.教学内容(1) Hive简介(2)Hive
11、集群安装与配置(3)数据类型和文件格式(4)Hive数据定义与数据操作(5)Hive数据查询(6)Hive编程2.基本要求(1)了解Hive的工作原理与构架。(2)掌握Hive的集群安装与部署。(3)掌握Hive的数据类型及文件存储格式。(4)理解Hive的定义,学会操作Hive数据、管理数据表等。(5)掌握Hive数据查询(6)掌握Hive JDBC函数与实例编程(十一)ZooKeeper协调服务教学内容(1) ZooKeeper简介(2) ZooKeeper集群部署(3)ZooKeeper基本命令(4)ZooKeeper应用(5)ZooKeeper编程基本要求(1)了解ZooKeeper的
12、工作原理。(2)学会ZooKeeper集群的安装配置。(3)掌握ZooKeeper的基本操作。(4)学会ZooKeeper在Hadoop、Spark、Hive等开源系统中的应用。(5)学会ZooKeeper的读写操作、集群状态监控。四、教学内容与课程目标的对应关系及学时分配本课程实验时间为3周(15天),安排在第七学期。教学内容与课程目标的对应关系及建议时间分配如表所示。序号教学内容支撑的课程目标支撑的毕业要求指标点时间分配/天教学形式1大数据概述目标18-2、10-1、10-21授课指导2大数据集群系统基础目标24-1、4-2、4-31指导3Hadoop分布式系统目标35-2、5-32指导4
13、HDFS分布式文件系统目标46-1、6-2、6-32指导5分布式计算系统MapReduce及其应用目标57-1、7-2、7-32指导6HBase分布式数据库目标64-1、4-2、4-32指导7YARN资源分配目标75-2、5-31指导8Spark集群计算目标86-1、6-2、6-31指导9Spark机器学习目标97-1、7-2、7-31指导10Hive数据仓库应用目标106-1、6-2、6-31指导11ZooKeeper协调服务目标114-1、4-2、4-31指导合计15四、课程实施(一)根据软件的特点,遵循循序渐进的原则,引导学生熟悉变量、函数、命令、程序的特点,完整记录实验过程,写出实验报
14、告。(二)针对课程的特点,建立课程讨论QQ群,让教学双方可以不受时间、空间的限制,自由讨论问题。(三)加强科学精神和工匠精神教育,在教育过程中强调价值观的同频共振,使课程教学的过程成为引导学生学习知识、锤炼心志和养成品行的过程。教育学生养成良好的学习风气,认真独立完成实验报告。对每次实验报告使用专门软件进行查重,彻底杜绝学生的抄袭行为。(四)主要教学环节的质量要求如表所示。主要教学环节质量要求1.大数据概述学会大数据的分析处理流程,并将实验过程写成实验报告一。2.大数据集群系统基础学会部署大数据集群,并将实验过程写成实验报告二。3.Hadoop分布式系统学会配置和运行Hadoop,并将实验过程
15、写成实验报告三。4.HDFS分布式文件系统学会用Java 对HDFS 进行编程,并将实验过程写成实验报告四。5.分布式计算系统及其应用学会MapReduce的编程操作,并将实验过程写成实验报告五。6.HBase分布式数据库学会Hbase的安装部署、综合操作,并将实验过程写成实验报告六。7.YARN资源分配学会YARN的基本架构以及应用场景,并将实验过程写成实验报告七。8.Spark集群计算学会掌握Spark的核心RDD的相关编程原理及其操作,并将实验过程写成实验报告八。9.Spark机器学习学会Spark MLlib的机器学习分类算法并将编程应用实例写成实验报告九。10.Hive数据仓库应用学
16、会Hive集群的安装与部署,掌握Hive语句的操作及对数据的处理并将实验过程写成实验报告十。11.ZooKeeper协调服务学会ZooKeeper集群的安装与部署,并将实验过程写成实验报告十一。五、课程考核考核资料要求1.实验报告(电子版实验报告必须按规定时间提交)。2.实验讨论过程(课程QQ群讨论记录)。3.考勤记录。(二)成绩评定要求本课程实验成绩分优、良、中、及格和不及格五个档次。课程实验考核方式:采用平时表现、课程讨论、课程实验报告。课程总评成绩=平时成绩20% +实验成绩80%。具体内容和比例如表所示。成绩组成考核/评价环节权重考核/评价细则对应的毕业要求指标点平时成绩学生出勤情况及实验态度,与教师和同学的交流讨论情况等。10%重点考核:学生的出勤情况,以及遇到问题是能否与同学与老师讨论交流。9-1、10-2实验成绩实验报告的格式,内容等。90%重点考核:学生能够根据实验任务要求完成实验,写出实验报告。对实验报告做相似度检验,相似度超过30%的实验报告记0分。4-2、4-3、6-3、7-1、7-2、7-3、10-2所有课程目标均需大于等于0.6,否则总评成绩不及格,需要重修。每个课程目标达成度计算方法
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 六下信息技术《多任务程序》教学设计
- 如何合理规划每月预算计划
- 在线销售策略计划
- 学生学习目标与评价体系计划
- 节水宣传与教育活动计划
- 2025年单、双长链烷基甲基叔胺项目合作计划书
- 制定有效的危机应对预案计划
- 土地转包协议(2025年版)
- 2025年试验机械相关检测仪器项目发展计划
- 幼儿园动植物观察教育方案计划
- 导热油使用操作规程
- 感受态细胞的制备(DH5α大肠杆菌)
- 园林绿化工程项目建议书范文
- Reach REX录播服务器CF系列技术白皮书V
- 玄灵玉皇宝经
- 弧长及扇形的面积说课稿
- 乙二醇储运过程紫外透光率衰减的探索
- 十几减9、8、7、6的口算
- 购房合同[标准版]
- 基于PLC的煤矿水泵控制系统设计设计
- 金光修持法(含咒诀指印、步骤、利益说明)
评论
0/150
提交评论