




下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
课程名称Spark大数据分析选用教材Spark大数据分析与实战(第2版)出版社西安电子科技大学出版社章节项目1搭建Spark开发环境教学内容基于Ubuntu系统,搭建Spark开发环境(含Hadoop伪分布)授课学时4授课班级****专业*****班授课日期授课地点教学目标初步了解大数据的相关知识,了解Hadoop、Spark平台的产生背景与功能;能够在本地环境(Ubuntu系统)中,独立搭建Hadoop伪分布基础平台;能够在本地环境(Ubuntu系统)中,独立搭建Spark计算平台。重点难点Spark的原理、运行的基本逻辑;在Ubuntu系统中,完成Hadoop的安装;在Ubuntu系统中,完成Spark的安装;教学方法R讲授£讨论或座谈£问题导向学习£分组合作学习£案例教学£任务驱动R项目教学£情景教学£演示汇报£实践教学£参观访问£引导文教学£其他(--)教学准备(教师)教材:《Spark大数据分析与实战(第2版)》硬件设备:内存8G(或以上)的计算机(2)教学资源:课件PPT、教学日历、相关软件等教学准备(学生)教材:《Spark大数据分析与实战(第2版)》硬件设备:内存8G(或以上)的计算机(3)教学资源:课件PPT、相关软件等教学环节教学内容与过程(教学内容、教学方法、组织形式、教学手段)课前组织教师通过课程教学平台或班级群发布学习预习任务及课程资源;学生提前预习相关内容,并完成课前自测等。课程内容描述情境导入随着Hadoop等大数据平台的日渐成熟,大数据应用不断落地,社会已然进入大数据时代;但Hadoop本身存在的缺陷也不断暴露,MapReduce计算模型因其先天不足,已经无法适应实时计算需求。在借鉴MapReduce优点基础上,新一代大数据计算引擎Spark应运而。学习Spark技术,首先要了解大数据、Hadoop、Spark等热点的背景,进而着手搭建一个Spark运行环境。任务1.1拥抱大数据时代1.大数据时代已然到来2025年全球数据总量将增长到175ZB(约合200万亿GB),10年增长10余倍,复合增长率为26%。从资源的角度,数据被视为“未来的石油”,被作为战略性资产进行管理。大数据是指无法在有限时间内用常规软件工具对其进行获取、存储、管理和处理的数据集合。大数据具备Volume、Velocity、Variety和Value四个特征(简称“4V”,即体量巨大、速度快、类型繁多和价值密度低)。2.大数据来自哪里?(1)运营式系统阶段(2)用户原创内容阶段(3)感知式系统阶段如何处理大数据?(1)数据收集:通过Web爬虫、数据库接口、服务器日志等手段采集数据;(2)数据预处理:包括数据清理、数据集成、数据归约与数据转换等内容,可以极大提升数据的总体质量(3)数据处理与分析:综合应用IT技术、统计学、机器学习、人工智能等知识,分析现有数据(分布式统计分析),然后挖掘数据背后隐含的有价值信息(通过聚类与分类、推荐、关联分析、深度学习等算法,对未知数据进行分布式挖掘)(4)数据可视化与应用
:可视化图表形式展示;分析处理后的结果应用于管理决策、战略规划等。任务1.2搭建Hadoop基础平台Hadoop是一个由Apache基金会开发的大数据分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,轻松地在Hadoop上开发、运行分布式程序,充分利用集群的优势,进行高效运算和存储。Hadoop运行模式包括单机模式、伪分布模式及分布式模式。准备工作:(1)VirtualBox工具安装Ubuntu,创建hadoop用户;(2)设置SSH免密登录(3)安装JDK使用如下命令完成Hadoop包的解压、重命名等工作。sudotar-zxvfhadoop-3.3.5.tar.gz-C/usr/local#Hadoop包解压到/usr/localsudomv/usr/local/hadoop-3.3.5//usr/local/hadoop#目录改名,便于后续操作sudochown-Rhadoop:hadoop/usr/local/hadoop#目录拥有者改为hadoop用户修改Hadoop的两个配置文件core-site.xml和hdfs-site.xml(位于目录/usr/local/hadoop/etc/hadoop/下);使用命令“/usr/local/hadoop/bin/hdfsnamenode-format”,完成NameNode的格式化处理HadoopNameNode、DataNode启动成功后,浏览器中输入http://localhost:9870,可以访问HadoopWeb界面。任务1.3部署Spark大数据平台ApacheSpark是用于大规模数据处理的统一分析引擎,它能够在内存中进行计算,因此Spark比MapReduce更加高效。Spark的特点:高效性、易用性、通用性、兼容性。Spark基于内存计算,把中间结果放到内存中,带来了更高的迭代运算效率;Spark提供了一个全面、统一的框架,用于满足各种有着不同性质数据集(结构化、非结构化)和数据源(批数据、流数据)的大数据处理需求。Spark提供的数据集操作类型更加丰富,从而可以支持更多类型的应用。Spark基于DAG的任务调度执行机制比HadoopMapReduce的迭代执行机制更优越。Spark的安装过程准备工作:(1)完成JDK、Hadoop等部署与配置(已完成);(2)下载Spark安装包(官网下载或教材资源中下载),spark-3.4.2-bin-without-hadoop.tgz;解压安装包:sudotar-zxfspark-3.4.2-bin-without-hadoop.tgz-C/usr/local/#解压sudomv/usr/local/spark-3.4.2-bin-without-hadoop//usr/local/spark#重命名sudochown-Rhadoop:hadoop/usr/local/spark#授权给hadoop用户进入/usr/local/spark/conf目录下,复制一份文件spark-env.shcd/usr/local/spark/confcp./spark-env.sh.template./spark-env.sh#复制一份配置文件gedit命令打开./spark-env.sh,文件头部添加下面一行:exportSPARK_DIST_CLASSPATH=$(/usr/local/hadoop/bin/hadoopclasspath);/usr/local/spark/bin/spark-shell#启动spark-shell总结评价当前,Spark已经成为主流的大数据计算引擎;学习Spark大数据开发,首先要了大数据概念、特征以及处理过程,建立大数据基本认识。Spark与Hadoop密不可分,可
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 文创空间管理办法
- 2024年四川省长宁县普通外科学(副高)考试题含答案
- 建设批后管理办法
- 林权评估管理办法
- 建立队籍管理办法
- 律所收费管理办法
- 律师登记管理办法
- 2024年陕西省大荔县普通外科学(副高)考试题含答案
- 林业苗木管理办法
- 征信认证管理办法
- 2025年安徽省网络和数据安全职业技能大赛(数据安全管理员)备赛试题库(含答案)
- “临床营养科建设与管理指南”实施细则-I级标准化临床营养科建设示范基地
- 普查数据保密协议书
- 上海中考英语试卷单选题100道及答案
- 科研单位安全生产管理目标计划
- 面膜代加工合同协议
- 2025至2030全球及中国董事会管理软件行业发展形势与前景规划研究报告
- 【高中数学竞赛真题•强基计划真题考前适应性训练】 专题07 解析几何 真题专项训练(全国竞赛+强基计划专用)原卷版
- 2025年高考历史总复习中外历史纲要阶段特征(上下)
- 2025年安全仪表系统(SIS)市场分析报告
- GB/T 15180-2025重交通道路石油沥青
评论
0/150
提交评论