版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
《Spark大数据分析》课程教学大纲[课程编号]:[英文名称]:SparkBigDataAnalysis[课程性质]:专业必修课(专业核心课)[先修课程]:Linux基础、Python程序设计、大数据技术导论、数据库技术[适用专业]:数据科学与大数据技术[学分数]:2[总学时]:36[理论学时]:24[实践学时]:12教材:Spark大数据分析技术曹洁清华大学出版社一、课程简介Spark是立足于内存计算,是大数据系统领域的全栈式数据计算与分析平台,在大数据分析与处理中被广泛应用。本课程主要介绍Spark大数据处理框架、SparkRDD编程、SparkSQL结构化数据处理、HBase分布式数据库、SparkStreaming流计算、SparkMLlib机器学习和数据可视化等。通过本课程的学习,学生能够深入理解Spark大数据处理技术框架的运行机制、针对不同类型数据的处理技巧和分析方法,提高大数据分析与处理能力。二、课程目标1.通过学习本课程,达到以下目标:(1)知识目标:掌握扎实的大数据基础知识和大数据开发技术方法、工具和环境。(2)能力目标:具备一定的大数据处理技术开发能力,培养独立思考和判断、分析问题和解决问题以及较强的实践动手能力。(3)素质目标:培养学生勤奋踏实,适应大数据行业快速发展的素质,具备良好的大数据处理技术职业道德。2.课程目标与毕业要求关系课程目标毕业要求观测点(1)(2)(3)4.1能够融合软件工程专业知识,应用科学原理、采用科学方法,根据工程需要选择研究路线,设计实验方案。√12.1了解软件行业的发展趋势,能够认识到自主学习和终身学习的重要性。√12.2能够通过各种途径收集、分析、归纳软件工程相关信息,获取新知识、新技术,能够根据软件技术和行业的发展需求进行不断学习。√三、课程内容(一)理论课课程内容课程章节知识点、重点、难点及课程思点教学组织形式1大数据技术概述2知识大数据的基本概念代表性大数据技术,大数据编程语言。重点:大数据的定义,大数据的特征,大数据思维,代表性大数据技术。难点:大数据的特征,大数据思维。课程思政点:三次信息化浪潮的启示,信息化是当今时代发展的大趋势。课前线上预习、课堂讲授、互动讨论2Spark框架及部署4知识Spark运行机制,Spark的安装及配置,在VirtualBox上安装Linux集群,Hadoop的安装与配置,Spark的安装及配置,使用PySpark编写Python代码,安装pip工具和一些常用的数据分析库,使用PySparkShell编写Python代码,安装Anaconda和配置JupyterNotebook。重点:Hadoop的安装与配置,Spark的安装及配置,安装Anaconda和配置JupyterNotebook难点:Hadoop的安装与配置,Spark的安装及配置,安装Anaconda和配置JupyterNotebook课程思政点:Spark诞生的启示,人无完人,取人之长、补己之短。课前线上预习、课堂讲授、互动讨论、课后作业、单元测试3Spark的RDD4知识点:RDD创建的方式,RDD转换操作,RDD行动操作,RDD之间的依赖关系,RDD的持久化,案例实战SparkRDD实现词频统计。重点:RDD创建的方式,RDD转换操作,RDD行动操作。难点RDD创建的方式,RDD转换操作,RDD行动操作。课程思政点:中国芯片之殇,如果一味依赖外国的产品,不能在芯片上实现独立自主,国家安全和发展必将时刻处于威胁之下。课前线上预习、课堂讲授、课堂演示、课后作业、单元测试。4SparkSQL3知识点:创建DataFrame对象的方式,将DataFrame保存为不同格式文件的方式,DataFrame的常用操作,使用SparkSQL读写MySQL数据库重点:DataFrame创建;DataFrame常用操作难点:DataFrame创建;DataFrame常用操作课程思政点:通过DataFrame的常用操作方法的讲解,引导学生保持严谨的工匠精神,永攀科学高峰!课前线上预习、课堂讲授、课堂演示、课后作业、单元测试。5HBase分布式数据库3知识点:HBase系统架构和数据访问流程,HBase数据表,HBase安装与配置,HBase的Shell操作,HBase的JavaAPI操作,HBase案例实战和Python操作HBase。重点:HBase数据表,HBase的Shell操作,HBase的JavaAPI操作。难点:HBase数据表,HBase的Shell操作,HBase的JavaAPI操作。课程思政点:命令行模式中,一个空格的位置不正确就会导致结果不正确,引导学生养成严谨认真的良好习惯。6SparkStreaming流计算2知识点:SparkStreaming工作原理,SparkStreaming编程模型,DStream创建和DStream操作。重点:Streaming编程模型,DStream创建和DStream操作。难点:DStream创建和DStream操作。课程思政点:引入“科技改变生活,创新引领未来”,逐步建立学生勇于创新与挑战的意识。课前线上预习、课堂讲授、课堂演示、课后作业、单元测试。7SparkMLlib机器学习4知识点:MLLib基本数据类型,机器学习流水线,基本统计,特征提取、转换和选择,分类算法,回归算法,聚类算法和协同过滤推荐算法。重点:MLLib基本数据类型,机器学习流水线,基本统计,特征提取、转换和选择。难点机器学习流水线,基本统计,特征提取、转换和选择。课程思政点:分布式迭代中的大局观课前线上预习、课堂讲授、课堂演示、课后作业、单元测试。8数据可视化2知识点:WordCloud绘制词云图库,PyeCharts数据可视化库和Plotly数据可视化库。重点:WordCloud绘制词云图库,PyeCharts数据可视化库和Plotly数据可视化库。难点WordCloud绘制词云图库,PyeCharts数据可视化库和Plotly数据可视化库。课程思政点:通过优秀诗词的可视化,引入文化自信。课前线上预习、课堂讲授、课堂演示、课后作业(二)实验课课程内容实验名称实验内容教学组织形式1Hadoop的安装与配置2验证性JDK,配置SSH免密码登装Haoo前习堂讲授、案例教学2Spark的安装与配置2验证性Spark应用开发环境配置,Spark程序调试。3RDD编程实战2验证性Sprk
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024微电影演员合同模板
- 专业人才选拔服务协议细则版B版
- 专业技术人员管理合同书(2024)版
- 2024手绘合同协议书艺术风格定制与合同履行保障范本3篇
- 2024水泥地坪施工合同范本
- 企业战略规划服务合同
- 个人信用担保抵押贷款合同(2024年)3篇
- IT运维服务合同模板
- 专业足浴连锁加盟合作协议版B版
- 2024甲丁双方关于共享充电设备投放与运营的协议
- 系统工程教案
- 限期交货保证书模板
- 中心静脉压的测量方法及临床意义
- 07MS101 市政给水管道工程及附属设施
- 2024年纪委监委招聘笔试必背试题库500题(含答案)
- 2025年高考语文备考之名著阅读《乡土中国》重要概念解释一览表
- 兽药生产质量管理规范教材教学课件
- 变、配电室门禁管理制度
- T-SDEPI 043-2024 土壤有机污染物来源解析主成分分析法技术指南
- 小学体育期末检测方案
- 手术室交接班制度
评论
0/150
提交评论