版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
PAGE6PAGE6PAGE5PAGE5
课题数据处理与分析(三)课时2课时(90min)教学目标知识技能目标:(1) 了解Spark的概念和主要组件。(2) 理解Spark的运行架构和工作流程。思政育人目标:自觉履行国家科技自立自强的使命担当,面向世界科技前沿和国家重大需求,大胆创新,追求卓越,勇攀科技高峰。教学重难点教学重点:Spark的运行架构和工作流程教学难点:使用SparkJavaAPI编写简单的应用程序教学方法案例分析法、问答法、讨论法、讲授法教学用具电脑、投影仪、多媒体课件、教材教学设计第1节课:→→传授新知(23min)→课堂讨论(15min)第2节课:→传授新知(20min)→课堂互动(15min)→课堂小结(3min)→作业布置(2min)教学过程主要教学内容及步骤设计意图第一节课考勤
(2min)【教师】使用文旌课堂APP【学生】按照老师要求签到培养学生的组织纪律性,掌握学生的出勤情况问题导入(5min)【教师】提出以下活动:基于内存的大数据处理引擎Spark有什么优点?【学生】聆听、思考、举手回答通过问题导入的方法,引导学生主动思考,激发学生的学习兴趣传授新知
(23min)【教师】通过学生的回答引入要讲的知识,介绍Spark的相关知识一、什么是Spark数据是用来记录客观事物或事件的符号,具体来说,是对客观事物或事件的性质、状态及相互关系等信息进行记录的物理符号。它是可识别的、抽象的符号(详见教材)✈【教师】提出问题:什么是Spark?✈【学生】思考、举手回答✈【教师】对学生的回答进行总结Spark是一个针对超大数据集合的、低延迟的集群分布式计算系统,它同时支持批处理和流计算。其最初由加州大学伯克利分校的AMPLab研发,现已成为Apache软件基金会的顶级项目之一。Spark不仅提供了可扩展、高容错、高性能的分布式数据处理,还提供了内存级的数据处理。(详见教材)✈【教师】利用多媒体辅助讲解Spark的主要组件Spark由4个主要组件组成,包括提供交互式数据查询的SparkSQL、实时计算的SparkStreaming、机器学习的MLlib和图处理的GraphX。(1)SparkSQL提供了类SQL的结构化数据交互式操作。它由Shark(HiveonSpark)演化而来,Shark严重依赖于Hive,并对Hive进行了改造。······(详见教材)✈【教师】提出以下学习任务:阅读“提示”部分,进一步了解Spark组成。✈【学生】自主学习,理解,总结二、Spark与Hadoop对比分析✈【教师】利用多媒体辅助讲解Spark与Hadoop对比分析Spark与Hadoop主要在抽象层次上有所不同。Hadoop被创建为处理大量现有数据的引擎,它具有较低的抽象级别,允许执行复杂的操作,但可能导致学习和管理困难。Spark更容易,更快捷,具有许多方便的高级工具和功能,可以简化工作。Spark在Hadoop之上运行,并且拥有许多优秀的库,如SparkSQL、MLlib等,它的出现促使Hadoop生态圈发生演变,以便更好地为大数据分析服务。(详见教材)✈【教师】提出以下问题:根据Spark生态系统图片,说一说Spark与Hadoop对比分析✈【学生】自主学习,理解,总结✈【教师】对学生的回答进行总结Hadoop与Spark都是并行计算,且都是用MapReduce原理模型进行计算。与Hadoop开发语言不同的是,Spark是由Scala语言编写而成。Scala是一种函数式编写语言,是运行在JVM(Java虚拟机)上的高级静态语言。(详见教材)三、Spark的运行架构和工作流程✈【教师】利用多媒体辅助讲解与Spark的运行架构相关的重要概念(1)RDD:弹性分布式数据集(resilientdistributeddataset)的简称,是分布式内存的一个抽象概念,它提供了一种高度受限的共享内存模型。(2)DAG:有向无环图(directedacyclicgraph)的简称,反映RDD之间的依赖关系。(详见教材)✈【教师】提出问题:Spark的运行架构包含哪些部分?✈【学生】思考、举手回答✈【教师】对学生的回答进行总结Spark的运行架构包括集群管理器(ClusterManager)、运行作业任务的工作节点(WorkerNode)、每个应用的任务控制节点(DriverProgram)和每个工作节点上负责具体任务的执行进程(Executor)。✈【教师】提出以下学习任务:阅读“知识库”部分,进一步了解什么是RDD。✈【学生】自主学习,理解,总结✈【教师】利用多媒体辅助讲解Spark的工作流程(1)当一个Spark应用被提交时,首先需要为这个应用构建起基本的运行环境,即由任务控制节点(DriverProgram)创建一个SparkContext,由SparkContext负责和集群资源管理器(ClusterManager)的通信,以及进行资源的申请、任务的分配和监控等。SparkContext会向资源管理器注册并申请运行Executor的资源。(2)资源管理器为Executor分配资源,并启动Executor进程,Executor运行情况将随着“心跳”发送到资源管理器上。(详见教材)✈【教师】提出以下学习任务:观察图片Spark的工作流程,根据图片流程再次理解和学习Spark的工作流程。✈【学生】自主学习,理解,总结【学生】聆听、记录、理解通过教师的讲解和演示,互动以及案例,使学生了解Spark的相关知识课堂讨论(15min)【教师】组织学生阅读“高手点拨”部分(详见教材),然后组织学生以小组为单位讨论以下问题:Spark的运行架构与Executor有什么必然联系?【学生】聆听、思考、小组讨论,由小组代表上台发表讨论结果【教师】与学生一起评价各组的讨论结果通过课堂讨论,加深学生对Spark的了解第二节课实战演练(20min)【教师】演示安装Spark并编写单词统计程序,然后组织学生上机操作一、安装Scala✈【教师】提出学习任务:阅读课本“提示”部分,理解什么是Scala?✈【学生】自主学习,理解✈【教师】演示实际操作步骤:以hadoop0虚拟机为例,在CentOS7系统中安装Scala的方法(1)下载Scala安装包scala-2.11.8.tgz。(2)使用WinSCP软件将下载的Scala安装包scala-2.11.8.tgz上传到hadoop0虚拟机的“/opt/packages”目录下,然后执行以下命令进入该目录:#cd/opt/packages……(详见教材)✈【学生】观察,记录,思考✈【学生】教师演示完成后,由学生自主操作✈【教师】巡视课堂记录,对个别学习进行指导二、安装Spark✈【教师】提出学习任务:阅读课本“提示”部分,了解Spark的安装模式。✈【学生】自主学习,理解✈【教师】演示实际操作步骤:(1)通过页面下载Spark安装包spark-2.3.3-bin-hadoop2.7.tgz。(2)使用WinSCP软件将下载的Spark安装包spark-2.3.3-bin-hadoop2.7.tgz上传到hadoop0虚拟机的“/opt/packages”目录下,然后执行以下命令进入该目录:#cd/opt/packages……(详见教材)✈【学生】观察,记录,思考✈【学生】教师演示完成后,由学生自主操作✈【教师】巡视课堂记录,对个别学习进行指导✈【教师】提出学习任务:阅读课本“提示”部分,了解Spark的启动和停止。✈【学生】自主学习,理解三、单词统计程序✈【教师】演示实际操作步骤:SparkAPI支持Scala、Java、Python和R多种编程语言,这里介绍如何使用SparkJavaAPI编写单词统计程序。(1)在Eclipse开发主界面选择“File”→“New”→“Other...”选项(或按“Ctrl+N”组合键),打开“New”对话框,选择“Maven”→“MavenProject”选项,然后单击“Next”按钮。(2)弹出“NewMavenProject”对话框,保持默认设置,单击“Next”按钮。……(详见教材)✈【学生】观察,记录,思考✈【学生】教师演示完成后,由学生自主操作✈【教师】巡视课堂记录,对个别学习进行指导✈【教师】提出学习任务:阅读课本“小技巧”部分,了解Spark的使用技巧。✈【学生】自主学习,理解【学生】、记录、理解通过实战演练,让学生了解如何安装Spark并编写单词统计程序小组互助(20min)【教师】组织学生以小组为单位,使用Spark编写简单应用程序观看、聆听、思考、上机操作,由先完成的小组成员帮助其他成员完成操作【教师】巡堂指导,及时解决学生遇到的问题通过小组互助,使学生熟悉Spark软件相关代码,为解决实际问题打好基础课堂小结
(3min)【教师】简要总结本节课的要点本节课学习了基于内存的大数据处理引擎Spark软件,并且通过实战演练学习安装Spark软件及编写程序。希望大家在课下多加练习,巩固所学知识【学生】总结回顾知识点总结知识点,巩固学生对Spark相关知识的印象作业布置
(2min)【教师】布置课后作业(1)
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- GB/T 8231-2024高粱
- 2024年度租赁合同违约责任条款
- 酒店营销策划与管理课件
- 2024年度房地产技术咨询服务合同
- 2024年度物联网项目开发分包合同2篇
- 安全用电施工协议书模板3
- 2024年度港口马拉松赛事承办承包合同
- 2024年度桥架工程设计与施工合同3篇
- 《华诞国寿金箔保单》课件
- 上海财经大学经济学课件m
- 全包装修合同(2024版)
- DL∕T 5210.6-2019 电力建设施工质量验收规程 第6部分:调整试验
- 《电力系统继电保护》课程标准(含课程思政)
- 节能验收报告模板(参考固定资产投资项目节能审查系列工作指南2018年本)
- 网络安全技能竞赛(CTF)考试题库-下(多选、判断题)
- 使用单位特种设备日管控、周排查、月调度记录
- JGJT397-2016 公墓和骨灰寄存建筑设计规范
- 劳务派遣人员薪资管理办法
- 2024商业承兑汇票质押协议书
- 医疗设备清单-2
- 《陆上风力发电机组钢混塔架施工与质量验收规范》
评论
0/150
提交评论