




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
MapReduce教学单元名称MapReduce工作原理教学目标能力目标具有自主学习、分析问题的能力知识目标MapReduce概述MapReduce体系结构MapReduce工作流程素质目标探索新知识、自主学习、查阅资料的能力教学重点MapReduce概述MapReduce体系结构MapReduce工作流程教学难点MapReduce工作流程教学方法提问法、讨论法、讲授法教学时数2学时教学过程设计教学环节教学内容教师活动学生活动新课引入HDFS讲解听讲记录任务描述提出本次学习的任务——MapReduce讲解听讲记录课程要点讲解1.MapReduce概述重点介绍了分布式并行编程、MapReduce模型简介和Map和Reduce函数讲解提问搜集资料、交流2.MapReduce体系结构重点介绍Client、JobTracker、TaskTracker以及Task讲解听讲记录3.MapReduce工作流程重点介绍MapReduce各个执行阶段
讲解提问搜集资料、交流详细讲解MapReduce概述分布式并行编程分布式程序运行在大规模计算机集群上,可以并行执行大规模数据处理任务,从而获得海量的计算能力2)MapReduce模型简介MapReduce将复杂的、运行于大规模集群上的并行计算过程高度地抽象到了两个函数:Map和Reduce3)Map和Reduce函数讲解分组讨论2.MapReduce体系结构讲解听讲记录、交流3.MapReduce工作流程1)工作流程概述不同的Map任务之间不会进行通信不同的Reduce任务之间也不会发生任何信息交换用户不能显式地从一台机器向另一台机器发送消息所有的数据交换都是通过MapReduce框架自身去实现的MapReduce各个执行阶段Shuffle讲解分组讨论、交流教学小结根据课堂教学情况,之处学生对本堂课中知识点难以理解的地方,结合教学重点和难点,对所学知识进一步强化。讲解学生记录布置作业1、阐述MapReduce和Hadoo之间的关?2、MapReduce的工作流程?3、分别描述Map端和Reduce端的Shuffle过程?MapReduce教学单元名称MapReduce编程教学目标能力目标具有自主学习、分析问题的能力知识目标掌握MapReduce配置文件的修改。使用MapReduce模型独立完成二十大报告内容的分析。能够独立完成YARN的部署。掌握使用MapReduce编写的jar包提交给YARN集群运行。素质目标通过对二十大报告的分析,了解二十大报告内容。通过对汉字的引入,了解中国汉字的由来,体会中国的文化自信。养成事前调研、做好准备工作的习惯。贯彻互助共享的精神。教学重点修改MapReduce配置文件的修改。使用MapReduce模型独立完成单词统计分析。能够独立完成YARN的部署。使用MapReduce编写的jar包提交给YARN集群运行。教学难点使用MapReduce模型独立完成单词统计分析使用MapReduce编写的jar包提交给YARN集群运行教学方法提问法、讨论法、讲授法教学时数10学时教学过程设计教学环节教学内容教师活动学生活动新课引入MapReduce编程模型,分布式存储工作原理、分布式并行计算工作原理讲解听讲记录任务描述提出本次学习的任务——MapReduce编程讲解听讲记录课程要点讲解1、使用MapReduce模型独立完成单词统计分析假设有两个文本文件,分别为words1.txt和words2.txt,现在需要计算出这两个文件中单词出现的次数。在统计单词数量任务中,可以将大的数据集切分成小的数据集,且各数据集之间相互独立,方便并行处理。此外,各个单词之间的频数不具有相关性,可以将不同的单词分发到不同的节点上处理。由此可以看出,单词统计任务的解决思路完全贴合MapReduce的编程思想。统计单词出现次数的流程如图所示:讲解提问搜集资料、交流2、MapReduce程序提交给YARN运行讲解搜集资料、交流、分组讨论详细讲解1、MapReduce单词统计分析在该任务中,程序的执行过程如下:(1)输入分片及其格式化案例中的输入文件为两个很小文本文件,单个文件的数据没有达到需要切分的程度,所以可将每个文件作为独立的分片。此外,还需要对输入分片进行格式化操作,形成<key1,value1>形式的数据流。单词统计的输入分片及其格式化如图所示:key1为偏移量,从0开始,每读取一个字符(包括空格、换行符等)就增加1,单词占2个字符;value1为每行文本内容,文本内容为字符串形式。(2)Map过程map()函数将接收到的<key1,value1>形式的输入数据流,按空格进行拆分,输出结果为<key2,value2>形式的数据。单词统计的Map过程如图所示:key2为字符串形式的单词;value2的值为1,表示单词数为1。(3)Shuffle过程由于Reduce要求输入数据有序,所以map()函数的计算结果需要经过处理(如分区、排序、归并),才可以作为reduce()函数的输入。于是,将多个Map任务的<key2,value2>形式的输出,处理成<key2,list(value2)>形式的中间结果,单词统计的Shuffle过程如图所示:(4)Reduce过程reduce()函数接收<key2,list(value2)>形式的数据流,对相同单词的值集合进行计算,汇总出单词出现的总次数。单词统计的Reduce过程如图所示:讲解分组讨论2、MapReduce程序提交给YARN运行①将编写的源代码打包,需要修改数据输入路径和数据输出路径,其余内容不改变,代码如下所示:FileInputFormat.setInputPaths(job,newPath("/wordcount/input"));FileOutputFormat.setOutputPath(job,newPath("/wordcount/output"));②使用Xshell软件的传输功能,将已经生成的wordcount.jar包传到master节点上的/usr/local/src目录下。③执行jar包,命令如下所示:hadoopjar/usr/local/src/wordcount.jarorg.mapreduce.wordcount.JobSubmitterhadoopjar是执行jar包命令,/usr/local/src/wordcount.jar是生成jar包名称,org.tzx.mapreduce.JobSubmitter是源代码中包含main方法的完整类名。hadoopjar会把本台节点上Hadoop安装目录里面的所有jar包和配置文件都加载到本次运行时的classpath中。讲解听讲记录、交流分组讨论、交流教学小结根据课堂教学情况,之处学生对本堂课中知识点难以理解的地方,结合教学重点和难点,对所学知识进一步强化。讲解学生记录布置作业数据来源于资料中的age_train.csv文件,包含用户手机设备ID(device_id)、性别(gender)、年龄(age)、年龄段(group)四个字段数据,对数据源中的数据进行如下操作:1.创建HDFS文件系统下目录文件useranaysis,其路径为“/useranaysis”,并上传数据。2.用户年龄分析,统计不同年龄的用户分布情况,结果写入“/useranaysis/userage”,按照年龄分组聚合,求取用户数;统计结果格式:“agevalues”,并且csv表头的内容不在统计范围之内;3.年龄与性别联合分析,统计不同年龄下男女用户分布情况,结果写入“/useranaysis/agegender”,结果格式为“age:gende
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2023-2024学年川教版(2019)小学信息技术五年级下册 第二单元第1节初识人工智能(教学设计)
- 5《鲁滨逊漂流记(节选)》教学设计-2023-2024学年统编版语文六年级下册
- 《走一步,再走一步》教学设计
- 人教版小学数学六年级上册《数与形》教学设计
- 12 慧眼看交通 教学设计-2023-2024学年道德与法治三年级下册统编版
- 2024年秋九年级历史上册 第三单元 封建时代的欧洲 第10课 拜占庭帝国和《查士丁尼法典》教学实录 新人教版
- 10青山处处埋忠骨教学设计-2024-2025学年五年级下册语文统编版
- 湘教版《香甜的杏儿》教学设计
- 12 富起来到强起来 第1课时 教学设计-2023-2024学年道德与法治五年级下册统编版
- 2《我学习我快乐》 (教学设计)统编版道德与法治三年级上册
- 厨房设备购销合同范本(一)与厨房设备采购合同8篇
- 2025年中储粮吉林分公司招聘(74人)笔试参考题库附带答案详解
- 2024-2025学年九年级化学人教版教科书解读
- 2024年上海烟草集团有限责任公司招聘笔试真题
- 2025年长春医学高等专科学校单招职业技能测试题库及完整答案1套
- 2025年中国大唐集团有限公司重庆分公司高校毕业生招聘笔试参考题库附带答案详解
- 游戏账号购买协议书范本
- 北京工装合同范本
- 建筑工地道路养护的进度与措施
- 加油站合作经营协议书范本
- 《苗圃生产与管理》教案-第二章 园林苗木的种实生产
评论
0/150
提交评论