《Spark大数据开发技术》教学大纲_第1页
《Spark大数据开发技术》教学大纲_第2页
《Spark大数据开发技术》教学大纲_第3页
《Spark大数据开发技术》教学大纲_第4页
《Spark大数据开发技术》教学大纲_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

《Spark大数据开发技术》教学大纲适用范围:202X版本科人才培养方案课程代码:08150491课程性质:专业选修课学分:4学分学时:64学时(理论48学时,实验16学时)先修课程:Linux操作系统、Java程序设计、Python程序设计后续课程:无适用专业:数据科学与大数据技术开课单位:计算机科学与技术学院一、课程说明《Spark大数据开发技术》课程是数据科学与大数据技术专业专业的一门专业选修课。通过对本课程的学习,让学生在对大数据技术有一定了解的基础上,进一步学习大数据技术、Spark的设计与运行原理、环境搭建及使用等内容,通过入门级编程实践操作来提升学生学习和掌握大数据处理的实践能力。二、课程目标课程目标1:掌握和理解Spark基本设计与运行原理、环境搭建及使用等基本知识,理解Spark编程思想,能够使用Spark解决相关工程问题。课程目标2:掌握Spark编程实践进行项目开发的方法和技术,能够根据大数据技术领域的实际问题进行方案设计和程序实现。课程目标3:能进行融会贯通,能正确评价大数据处理架构对环境、社会可持续发展的影响,树立正确的审美观念和劳动观念。三、课程目标与毕业要求《Spark大数据开发技术》课程教学目标对数据科学与大数据技术专业毕业要求的支撑见表1。表1课程教学目标与毕业要求关系毕业要求指标点课程目标支撑强度3.设计/开发解决方案3.3在解决方案设计中,具有综合考虑社会、健康、安全、法律、文化及环境等因素的意识和创新意识。课程目标2:掌握Spark编程实践进行项目开发的方法和技术,能够根据大数据技术领域的实际问题进行方案设计和程序实现。课程目标3:能进行融会贯通,能正确评价大数据处理架构对环境、社会可持续发展的影响,树立正确的审美观念和劳动观念。H4.研究4.3能够根据实验方案选用或搭建实验环境开展实验,能够对已获得的实验数据进行整理、分析,并能通过信息综合得出有效结论。课程目标1:掌握和理解Spark基本设计与运行原理、环境搭建及使用等基本知识,理解Spark编程思想,能够使用Spark解决相关工程问题。课程目标2:掌握Spark编程实践进行项目开发的方法和技术,能够根据大数据技术领域的实际问题进行方案设计和程序实现。H5.使用现代工具5.3能够针对大数据应用开发需要选择和使用合适的平台和开发工具,并能够理解其局限性课程目标1:掌握和理解Spark基本设计与运行原理、环境搭建及使用等基本知识,理解Spark编程思想,能够使用Spark解决相关工程问题。课程目标2:掌握Spark编程实践进行项目开发的方法和技术,能够根据大数据技术领域的实际问题进行方案设计和程序实现。课程目标3:能进行融会贯通,能正确评价大数据处理架构对环境、社会可持续发展的影响,树立正确的审美观念和劳动观念。H注:表中“H(高)、M(中)”表示课程与相关毕业要求的关联度。四、教学内容、基本要求与学时分配1.理论部分理论部分的教学内容、基本要求与学时分配见表2。表2教学内容、基本要求与学时分配教学内容教学要求,教学重点难点理论学时实验学时对应的课程目标1.大数据技术概论1.1大数据概念与关键技术1.2代表性大数据技术1.3编程语言的选择1.4在线资源教学要求:了解基础的大数据关键技术以及具有代表性的大数据计算框架。重点:有代表性的大数据技术,包括Hadoop、Spark、Flink、Beam等。难点:掌握在线资源的学习方式。221、2、32.Spark的设计与运行原理2.1概述2.2Spark生态系统2.3Spark运行架构2.4Spark部署方式教学要求:了解Spark生态系统;掌握Spark运行架构和部署方式。重点:Spark运行架构。难点:Spark部署方式。61、2、33.Spark环境搭建和使用3.1安装Spark3.2在pyspark中运行代码3.3开发Spark独立应用程序3.4Spark集群环境搭建3.5在集群上运行Spark应用程序教学要求:掌握Spark的安装;掌握如何在pyspark中运行代码及应用程序开发。重点:在pyspark中运行代码。难点:Spark应用程序开发和集群搭建。841、2、34.RDD编程4.1RDD编程基础4.2键值对RDD4.3数据读写教学要求:了解RDD;理解并掌握RDD编程。重点:RDD编程基础。难点:数据读写841、2、35.SparkSQL5.1SparkSQL简介5.2DataFrame的概述、创建保存及操作5.3从RDD转换到DataFrame5.4使用SparkSQL读写数据库教学要求:了解SparkSQL架构;理解并掌握DataFrame的创建保存及操作;理解并掌握使用SparkSQL读写数据。重点:DataFrame的创建保存及操作。难点:使用SparkSQL读写数据。821、2、36.SparkStreaming6.1流计算概述6.2SparkStreaming6.3SparkStreaming工作机制6.4基本输入源及高级输入源6.5转换操作和输出操作教学要求:了解流计算;掌握SparkStreaming程序编写。重点:SparkStreaming基本知识。难点:SparkStreaming程序编写。821、2、37.StructuredStreaming7.1概述7.2编写StructuredStreaming程序的基本步骤7.3输入源7.4输出操作7.5容错处理7.6迟到数据处理7.7查询的管理和监控教学要求:理解概述并掌握StructuredStreaming程序编写。重点:编写StructuredStreaming程序的基本步骤。难点:编写StructuredStreaming程序的基本步骤。421、2、38.SparkMLIib8.1基于大数据的机器学习8.2机器学习库MLIib概述8.3基本数据类型8.4机器学习流水线8.5特征提取、转换和选择8.6分类算法8.7聚类算法8.8协同过滤算法8.9模型选择和超参数调整教学要求:了解机器学习的概念;理解并掌握MLIib的基本原理和算法。重点:理解并掌握MLIib的基本原理和算法。难点:理解并掌握MLIib的基本原理和算法。41、2、3合计48162.实验部分实验部分的教学内容、基本要求与学时分配见表3。表3实验项目、实验内容与学时实验项目实验内容和要求实验学时对应的课程目标1.Linux实验实验内容:掌握Linux虚拟机的安装方法并熟悉其使用方法。实验要求:安装Linux虚拟机并使用Linux常用命令。21、2、32.Spark环境搭建与使用实验内容:掌握Spark环境搭建和使用方法。实验要求:正确安装Hadoop和Spark;使用Hadoop进行常用操作;Spark读取文件系统操作。41、2、33.RDD编程实验内容:熟悉RDD基本操作及键值对操作并解决实际问题。实验要求:pyspark交互式编程;独立编写应用程序实现数据去重和求平均值。41、2、34.SparkSQL和Streaming与StructuredStreaming实验实验内容:掌握Ubuntu16.04中SparkSQL、Streaming与StructuredStreamingHive的安装及使用。实验要求:能在Ubuntu16.04中正确安装SparkSQL、Streaming与StructuredStreaming并能掌握其基本编程方法。61、2、3合计16五、教学方法及手段本课程以课堂讲授并结合实验进行学习,结合课程讨论、案例、视频资源共享、实验等教学手段完成课程教学任务和相关能力的培养。让学生在对大数据技术有一定了解的基础上,进一步学习大数据技术、Spark的设计与运行原理、环境搭建及使用等内容,通过入门级编程实践操作来提升学生学习和掌握大数据处理的实践能力。在实验教学环节中,通过启发式教学培养学生在了解和掌握大数据相关基本知识和基本技能基础上进行编程实践。培养学生自主学习能力、实际动手能力,激发学生的创新思维。六、课程资源1.推荐教材(1)林子雨.Spark编程基础(Python版)[M].北京:人民邮电出版社,2020.2.参考书(1)鸟哥.鸟哥的Linux私房菜基础学习篇(第三版)[M].北京:人民邮电出版社,2016.(2)张伟洋.Hadoop3.x大数据开发实战(视频教学版)[M].北京:清华大学出版社,2022.(3)迟殿委,陈鹏程.Hadoop大数据分析技术[M].北京:清华大学出版社,2022.(4)唐世伟,田岚.大数据采集与预处理技术[M].北京:清华大学出版社,2022.3.期刊(1)QuinlanJR.Inductionofdecisiontrees[J].Machinelearning,2021,(10):81-106.(2)魏亮,林子雨,赖永炫.DFTS:面向大数据集的Top-kSkyline查询算法[J].计算机科学,2019,46(05):150-156.(3)WangN,YangY,FengL,etal.SVM-BasedIncrementalLearningAlgorithmforLarge-ScaleDataStreaminCloudComputing[J].KSIITransactionsonInternetandInformationSystems,2014,8(10):3378-3393.(4)郑冬花,叶丽珠,隋栋等.云计算环境中面向大数据的改进密度峰值聚类算法[J].济南大学学报(自然科学版),2022,36(05):592-596+602.(5)夏立斌等.Spark任务间消息传递方法研究[I].计算机工程与应用,2022,58(21):91-97.4.网络资源(1)林子雨.厦门大学大数据实验室.(2020.01.08)./post/spark/.(2)林子雨.Spark编程基础.中国大学MOOC.2022./course/XMU-1205811805.七、课程考核对课程目标的支撑课程成绩由过程性考核成绩和期末大作业成绩两部分构成,具体考核/评价细则及对课程目标的支撑关系见表4。表4课程考核对课程目标的支撑考核环节占比考核/评价细则课程目标123过程性考核课堂表现10(1)根据课堂出勤情况和课堂回答问题情况进行考核,满分100分。(2)以平时考核成绩乘以其在总评成绩中所占的比例计入课程总评成绩。√√√442作业10(1)主要考核学生对各章节知识点的复习、理解和掌握程度,满分100分。(2)每次作业单独评分,取各次成绩的平均值作为此环节的最终成绩。(3)以作业成绩乘以其在总评成绩中所占的比例计入课程总评成绩。√√√442阶段测试10(1)主要考核学生对阶段知识点的复习、理解和掌握程度,满分100分。(2)每次测试单独评分,取各次成绩的平均值作为此环节的最终成绩。(3)以测试成绩乘以其在总评成绩中所占的比例计入课程总评成绩。√√√442实验10(1)根据每个实验的实验操作完成情况和实验报告质量单独评分,满分100分。(2)每次实验单独评分,取各次实验成绩的平均值作为此环节的最终成绩。(3)以实验成绩乘以其在总评成绩中所占的比例计入课程总评成绩。√√√442期末大作业60(1)期末大作业满分100分,以期末成绩乘以其在总评成绩中所占的比例计入课程总评成绩。(2)主要考核:期末大作业。√√√252510合计:100分414118八、考核与成绩评定1.考核方式及成绩评定考核方式:本课程主要以课堂表现、作业、阶段测试、实验、期末大作业等方式对学生进行考核评价。考核基本要求:考核总成绩由期末大作业成绩和过程性考核成绩组成。其中:期末大作业成绩为100分(权重60%),主要针对程序关键点进行个性化开发测试;课堂表现、作业、阶段测试、实验等过程性考核成绩为100分(权重40%);过程性考核和期末大作业分值分配分别与教学大纲各章节的学时基本成比例。2.过程性考核成绩的标准过程性考核方式重点考核内容、评价标准、所占比重见表5。表5过程性考核方式评价标准考核方式所占比重(%)100>x≥9090>x≥8080>x≥7070>x≥60x<60课堂表现25笔记完整,积极参与教学活动,踊跃回答问题,准确率大于90%。笔记完整,认真参与教学活动,回答问题准确率大于80%。笔记不完整,偶尔参与教学活动,回答问题准确率大于70%。上课不认真,上课不记笔记,偶尔参与教学活动。上课不认真,上课不记笔记,不参与教学活动。作业25作业完整,思路清晰,准确率大于90%。作业完整,准确率大于80%。不交作业2次以内,准确率大于70%。不交作业3次以内,准确率大于60%。不交作业4次以上,准确率小于60%。阶段测试25教学内容掌握较好,测试成绩准确率大于90%。教学内容掌握较好,测试成绩准确率大于80%。教学内容掌握一般,测试成绩准确率大于70

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论