《Spark大数据处理》课程教学大纲_第1页
《Spark大数据处理》课程教学大纲_第2页
《Spark大数据处理》课程教学大纲_第3页
《Spark大数据处理》课程教学大纲_第4页
《Spark大数据处理》课程教学大纲_第5页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、Spark大数据处理课程教学大纲一、课程基本信息课程编号:12154课程名称:Spark大数据处理英文名称:Spark Big Data Processing课程类型:专业课课程要求:必修学时/学分:48/3(讲课学时:34 实验学时:14)先修课程:数据库系统原理、分布式计算框架基础、分布式计算框架组件技术后续课程:大数据项目综合实践适用专业:数据科学与大数据技术二、课程描述Spark是基于内存计算的并行计算框架,适合于数据挖掘与机器学习中的并行计算。学习Spark大数据处理技术是进入大数据应用开发领域必不可少的一步。课程以任务为导向,旨在引导学生掌握Spark大数据技术的相关知识,具备Sp

2、ark的开发能力。课程内容涉及Scala基础、Spark编程、Spark SQL结构化数据文件处理、Spark Streaming实时计算框架、Spark GraphX 图计算框架,以及Spark MLlib算法库。通过课程学习,使学生能够深刻理解Spark基本原理与架构,掌握集群安装配置、Scala与Spark编程、Spark代表性组件的使用,能够基于Spark解决大数据领域复杂工程问题,能够分析、设计、实现满足特定需求的分布式系统。三、课程教学目标1了解主流的大数据处理框架及其之间的差异;了解Spark生态环境;掌握Spark编程及核心组件;能够根据实际应用合理选择大数据处理框架,具备解决

3、大数据领域复杂工程问题的基本知识和能力。(支持毕业能力要求1)2能够安装和配置Spark集群环境;了解Spark SQL的基本原理,能够进行结构化数据文件的处理;理解Spark Streaming的运行原理,能够基于Spark DStream模型进行实时计算;利用Spark GraphX进行图计算;具备Spark的开发能力,能够分析、设计、实现满足特定需求的大数据分布式处理系统,增强学生的创新意识。(支持毕业能力要求3)四、教学内容、安排及与教学目标的对应关系序号教学内容教学要求学时教学方式对应课程教学目标1一、Spark概述1.1 Spark基本概念1.2 Spark发展和应用1.3Spar

4、k环境配置方法Spark架构及原理(1)了解Spark的发展历史及特点;(2)能够搭建Spark分布式环境;(3)了解Spark的架构,能够阐述Spark作业的运行流程;(4)了解Spark的核心数据集RDD。4讲授12 Scala基础2.1 Scala简介2.2 Scala特性2.3 Scala的环境设置及安装方法2.4 Scala类的定义和运行方法2.5 Scala数据类型、函数、表达式的应用2.6 Scala if判断和for循环2.7Scala集合应用(1)了解Scala基本特性并学会安装Scala;(2)能够正确定义Scala的常量、变量及函数;(3)能够正确使用Scala的if判断

5、和for循环;(4)能够正确进行Scala的Collections(集合)操作;(5)了解Scala类及读取文件。6讲授讨论13实验1:Scala安装与编程(1)能够正确安装Scala;(2)完成文本过滤和杨辉三角形程序设计。2实验14三、Spark编程3.1从内存中已有数据创建RDD3.2从外部存储创建RDD3.3 RDD转化操作和行动操作方法3.4 RDD键值对操作3.5文件读取与存储(1)能够创建RDD;(2)能够进行RDD的转化操作和行动操作;(3)掌握键值对RDD的操作;(4)能够正确进行文本文件的读取和存储。4讲授讨论15实验2:Spark编程初步(1)学会创建RDD;(2)掌握S

6、park的操作方法以及Spark Shell命令行的使用;(3)完成学生成绩统计和单词计数程序设计。2实验16四、Spark编程进阶4.1下载与安装IntelliJ IDEA4.2 Scala插件安装与使用4.3配置Spark运行环境的方法4.4运行Spark程序的方法4.5持久化方法数据分区方法(1)能够在IDEA中配置Spark编程环境;(2)掌握如何新建工程和运行工程;(3)掌握运行Spark程序的方法;(4)了解数据分区与持久化的方法。4讲授讨论练习17实验3:复杂Spark编程(1) 能够在IntelliJ IDEA中搭建Spark开发环境,以及编程和运行程序;(2)完成竞赛网站访问

7、日志分析。4实验18五、Spark SQL:结构化数据文件处理5.1 Spark SQL简介5.2 Spark SQL CLI配置5.3 Spark SQL与Shell交互5.4 DataFrame基础操作方法(1)了解Spark SQL的基本概念;(2)能够配置Spark SQL CLI;(3)掌握Spark SQL与Shell交互;(4)能够创建DataFrame对象;(5)能够利用DataFrame查看数据;(6)能够利用DataFrame查询数据并输出。4讲授讨论1、29实验4:Spark SQL 编程(1)能够配置 Spark SQL CLI;(2)完成法律服务网站数据和航空公司客户

8、数据的统计分析程序设计。2实验1、210六、Spark Streaming:实时计算框架6.1 Spark Streaming运行原理6.2 Spark Streaming使用方法6.3 DStream编程模型基本方法(1)了解Spark Streaming的基本概念及运行原理;(2)掌握Spark Streaming使用方法;(3)能够进行Dstream的转换操作、窗口操作、输出操作。4讲授讨论应用1、211实验5:Spark DStream编程(1)进一步理解 Spark DStream编程模型;(2)完善实时更新热门博文案例;(3)完成实时过滤歌曲播放次数程序设计。2实验1、212七、S

9、park GraphX:图计算框架7.1图的基本概念7.2图计算的应用7.3GraphX的基础概念7.4图的创建与存储7.5数据查询与数据转换7.6结构转换与关联聚合(1)了解图与图计算的基本概念;(2)能够进行GraphX图的创建;(3)能够进行GraphX的基本操作;(4)能够利用GraphX进行关联聚合操作。4讲授讨论应用1、213实验6:Spark GraphX操作与应用(1)掌握Spark GraphX的基本操作命令; (2)完善构建信任网络并找出目标用户案例。2实验1、214八、Spark MLlib:功能强大的算法库8.1机器学习8.2 MLlib简介和应用(1)了解MLlib的

10、概念以及算法;(2)能够进行MLlib算法的基本调用;(3)能够利用MLlib实现逻辑回归算法;(4)了解MLlib模型评价方法。4讲授1、2五、其他教学环节(课外教学环节、要求、目标)六、教学方法本课程采用理论与实践相结合的教学方法。在理论上,通过典型案例引入概念、原理和方法。在实践上,由教师讲解案例背景,提供简单思路。引导学生对案例进行针对性的分析,审理和讨论,扩展学生的思维,增加学生的兴趣。通过学生的讨论、自主实践和练习,提高学生的判断能力,专业能力和综合素质。要求学生自主搭建Spark集群、完成章节任务、掌握基本理论和提升专业能力。在每章的任务教学中,可适当布置练习、组织讨论、引导提出

11、扩展的解决方案,充分调动学生的主观能动性,锤炼学生的专业精神并提升动手能力,以达到本课程的培养目的。七、学习评量学习成绩由平时成绩(含作业成绩、实验成绩)和期末考试成绩组成。各部分所占比例和评价内容、方法如下:1. 平时成绩(40%)(1)作业成绩:20%。主要考核对课堂学习的知识点的复习、理解和掌握程度;以答题数量和正确率为评价标准。(2)实验成绩:20%。主要考核学生的课内实践项目的完成情况。共4次实验,提交实验报告并计分,每次实验报告5分。2. 期末考试成绩(60%)主要考核Spark大数据处理的基本原理和应用。书面考试形式,题型包括:选择题、填空题、简答题、设计题、综合题等,按正确性评分。3. 说明(1)作业、实验报告有雷同时,所有雷同回答均不得分。(2)可利用指定“八、教学资源”中指定的MOOC的合格证书+评价作为课程学习成绩,参加其他MOOC并计划代替学习成绩者须在课前向任课教师提出申请,由课程组教师讨论决定。八、教学资源1教材1 肖芳,张良均Spark大数据技术与应用人民邮电出版社20182参考书目1 夏俊鸾.Spark大数据处理技术电子工业出版社,20152 高

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论