信息技术基础(拓展模块) 课件 学习单元5大数据 5.5_第1页
信息技术基础(拓展模块) 课件 学习单元5大数据 5.5_第2页
信息技术基础(拓展模块) 课件 学习单元5大数据 5.5_第3页
信息技术基础(拓展模块) 课件 学习单元5大数据 5.5_第4页
信息技术基础(拓展模块) 课件 学习单元5大数据 5.5_第5页
已阅读5页,还剩20页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

学习单元五

大数据5.5搭建大数据环境线上课前导学课前自测推课前学习资源包头脑风暴任务调研Hadoop是一个开源的、分布式的数据处理框架,旨在解决海量数据的存储和处理问题。它最初由Apache开发,目前已成为最流行的分布式数据处理平台之一。Hadoop包括两个核心组件:HadoopDistributedFileSystem(HDFS)和HadoopMapReduce。HDFS是一个分布式文件系统,能够存储海量数据,并在不同的计算机节点之间进行数据分发和备份。

MapReduce则是一种分布式数据处理模型,能够对海量数据进行分布式计算。Hadoop支持Java、Python、Scala等多种编程语言,同时也提供了众多工具和生态系统,包括Hive、Pig、Spark等,使得数据处理和分析更加高效和灵活。小思考

Hadoop为什么能够成为最流行的分布式数据处理平台之一?它有哪些优势和特点?线上课前导学头脑风暴任务调研课前自测参考网站:极客时间:/开源中国:/大数据文摘:/参考书籍:《Hadoop权威指南》《Spark快速大数据分析》《大数据架构模式》《数据仓库工具包》《大数据平台架构:原理、方法与案例》线上课前导学任务调研课前自测头脑风暴1Hadoop是什么?2Hadoop有哪两个核心组件?3Hadoop支持哪些编程语言?线下课中演练前情回顾任务驱动演示讲解巩固小结巩固小结经过线上课前预习,我们应该了解到,搭建大数据环境是实现大数据技术的重要一环,对于企业和社会的数据处理和分析都有着重要的意义。

学习如何搭建大数据环境,需要先了解大数据的基本架构和技术原理,包括分布式文件系统、分布式计算模型、数据存储和管理、数据处理和分析等。

在搭建大数据环境的过程中,我们还需要关注大数据的安全问题,学习大数据安全的基本概念和防护措施,了解大数据隐私保护的方法和标准。线下课中演练前情回顾任务驱动演示讲解巩固小结巩固小结1.了解Hadoop安装部署模式;2.

Hadoop搭建前的环境准备;3.

Hadoop伪分布搭建与应用。目前来说,Hadoop的安装部署的模式一共有三种,单机模式、伪分布模式、全分布模式。考虑到硬件条件限制,我们将安装第二种伪分布模式并将Namenode、Datanode和、SecondaryNamenode配置到同一节点。单机模式单机模式所需要的系统资源是最少的,也是默认的安装模式。伪分布模式伪分布也就是单节点集成模式,其所有守护进程都运行在同一台机器上Namenode是整个文件系统的管理节点。全分布模式完全分布模式是比本地模式与伪分布模式更加复杂的模式,真正利用多台Linux主机来进行部署Hadoop,对集群进行规划,使得Hadoop各个模块分别部署在不同的多台机器上。线下课中演练前情回顾任务驱动演示讲解巩固小结巩固小结典型工作环节1Hadoop安装部署我们选择CentOS7作为安装对象,通过Vmwareworkstation虚拟机运行系统。本教程默认已经完成系统安装。1.设置服务器的主机名称线下课中演练前情回顾任务驱动演示讲解巩固小结巩固小结典型工作环节2

Hadoop搭建前的环境准备重启服务器或注销root重新登录后生效。2.关闭防火墙并查看防火墙状态[root@localhost~]#hostnamectlset-hostnamemaster[root@master~]#cat/etc/hostnamemaster[root@master~]#systemctlstopfirewalld[root@master~]#systemctlstatusfirewalld●firewalld.service-firewalld-dynamicfirewalldaemonLoaded:loaded(/usr/lib/systemd/system/firewalld.service;enabled;vendorpreset:enabled)Active:inactive(dead)since三2022-08-3122:29:41CST;12sagoDocs:man:firewalld(1)Process:826ExecStart=/usr/sbin/firewalld--nofork--nopid$FIREWALLD_ARGS(code=exited,status=0/SUCCESS)MainPID:826(code=exited,status=0/SUCCESS)线下课中演练前情回顾任务驱动演示讲解巩固小结巩固小结典型工作环节2

Hadoop搭建前的环境准备4.安装java环境(1)创建文件夹/opt/software,用于存放安装软件包。3.创建Hadoop用户使用root安装Hadoop的运行环境,hadoop用户运行Hadoop,添加hadoop用户,并为该用户设置密码为:hadoop(2)创建/usr/local/src目录,作为软件安装目录。[root@master~]#useraddhadoop[root@master~]#passwdhadoop更改用户hadoop的密码。新的密码:重新输入新的密码:passwd:所有的身份验证令牌已经成功更新。[root@master~]#mkdir/opt/software[root@master~]#mkdir-p/usr/local/src线下课中演练前情回顾任务驱动演示讲解巩固小结巩固小结典型工作环节2

Hadoop搭建前的环境准备(3)查询两个目录的属性,目录所有者为root用户。[root@master~]#ll/opt/总用量0drwxr-xr-x.2rootroot610月312018rhdrwxr-xr-x.2rootroot68月3122:46software[root@master~]#ll/usr/local/总用量0drwxr-xr-x.2rootroot64月112018bindrwxr-xr-x.2rootroot64月112018etcdrwxr-xr-x.2rootroot64月112018gamesdrwxr-xr-x.2rootroot64月112018includedrwxr-xr-x.2rootroot64月112018libdrwxr-xr-x.2rootroot64月112018lib64drwxr-xr-x.2rootroot64月112018libexecdrwxr-xr-x.2rootroot64月112018sbindrwxr-xr-x.5rootroot497月520:28sharedrwxr-xr-x.2rootroot64月112018src[root@master~]#线下课中演练前情回顾任务驱动演示讲解巩固小结巩固小结典型工作环节2

Hadoop搭建前的环境准备(4)上传jdk安装包将jdk安装包,Hadoop安装包上传至linux服务器。安装包下载地址:/s/17OlEl73envfKt6ch9tmMcg?pwd=chpi提取码chpi。这里默认已经上传完成。(5)卸载自带的OpenJDK查询:[root@mastersoftware]#lshadoop-2.7.1.tar.gzjdk-8u231-linux-x64.tar.gz[root@mastersoftware]#rpm-qa|grepjavajava-1.7.0-openjdk-headless-61-.el7_8.x86_64python-javapackages-3.4.1-11.el7.noarchtzdata-java-2020a-1.el7.noarchjava-1.8.0-openjdk-headless-62.b10-1.el7.x86_64java-1.8.0-openjdk-62.b10-1.el7.x86_64javapackages-tools-3.4.1-11.el7.noarchjava-1.7.0-openjdk-61-.el7_8.x86_64线下课中演练前情回顾任务驱动演示讲解巩固小结巩固小结典型工作环节2

Hadoop搭建前的环境准备删除文件:(6)安装jdk至服务器软件安装目录/usr/local/src[root@mastersoftware]#rpm-e--nodepsjava-1.8.0-openjdk-62.b10-1.el7.x86_64[root@mastersoftware]#rpm-e--nodepsjava-1.8.0-openjdk-headless-62.b10-1.el7.x86_64[root@mastersoftware]#rpm-e--nodepsjava-1.7.0-openjdk-headless-61-.el7_8.x86_64[root@mastersoftware]#rpm-e–nodepsjava-1.7.0-openjdk-61-.el7_8.x86_64[root@mastersoftware]#tar-zxvfjdk-8u231-linux-x64.tar.gz-C/usr/local/src/线下课中演练前情回顾任务驱动演示讲解巩固小结巩固小结典型工作环节2

Hadoop搭建前的环境准备(7)设置java环境变量修改/etc/pofile配置文件,在文件最后增加如下两行:使设置生效:检查java是否可用:[root@master~]#vim/etc/profileexportJAVA_HOME=/usr/local/src/jdk1.8.0_231#JAVA_HOME指向JAVA安装目录exportPATH=$PATH:$JAVA_HOME/bin#将JAVA安装目录加入PATH路径[root@master~]#source/etc/profile[root@master~]#echo$JAVA_HOME/usr/local/src/jdk1.8.0_231线下课中演练前情回顾任务驱动演示讲解巩固小结巩固小结典型工作环节2

Hadoop搭建前的环境准备5.安装Hadoop(1)将Hadoop安装到/usr/local/src(2)配置环境变量修改/etc/pofile配置文件,在文件最后增加如下两行:(3)使设置生效并检查[root@mastersoftware]#tar-zxvfhadoop-2.7.1.tar.gz-C/usr/local/src/[root@mastersoftware]#vim/etc/profileexportHADOOP_HOME=/usr/local/src/hadoop-2.7.1/exportPATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin[root@mastersoftware]#source/etc/profile[root@mastersoftware]#hadoop线下课中演练前情回顾任务驱动演示讲解巩固小结巩固小结典型工作环节2

Hadoop搭建前的环境准备(4)修改目录所有者和所属组[root@mastersoftware]#chown-Rhadoop:hadoop/usr/local/src/[root@mastersoftware]#ll/usr/local/src/总用量0drwxr-xr-x.9hadoophadoop1496月292015hadoop-2.7.1drwxr-xr-x.7hadoophadoop24510月52019jdk1.8.0_231线下课中演练前情回顾任务驱动演示讲解巩固小结巩固小结典型工作环节2

Hadoop搭建前的环境准备6.SSH免密码登入(1)在master主机上生成密钥对(2)Hadoop用户在master节点免密登录本机[hadoop@mastersoftware]$ssh-keygen-trsa-P''Generatingpublic/privatersakeypair.Enterfileinwhichtosavethekey(/home/hadoop/.ssh/id_rsa):Createddirectory'/home/hadoop/.ssh'.Youridentificationhasbeensavedin/home/hadoop/.ssh/id_rsa.Yourpublickeyhasbeensavedin/home/hadoop/.ssh/id_rsa.pub.Thekeyfingerprintis:SHA256:6eh4jjG8/oZTeZQnva1xsEyxrfTBbde/eX+IGL2llI4hadoop@masterThekey'srandomartimageis:+---[RSA2048]----+|||.||o=..|[hadoop@mastersoftware]$ssh-copy-idhadoop@master1.伪分布系统设置(1)基础环境配置伪分布式环境是指:在一台服务器上模拟Hadoop集群工作的一种模式。这里,我们在master节点进行伪分布式系统的配置。

基础配置包括:安装JAVA,安装Hadoop,配置JAVA,HADOOP环境变量,修改Hadoop配置文件,设置SSH免密码登录等,我们已经在前面的操作中完成,下面直接进行伪分布式集群配置。线下课中演练前情回顾任务驱动演示讲解巩固小结巩固小结典型工作环节3Hadoop伪分布搭建与应用(2)进入Hadoop配置文件目录线下课中演练前情回顾任务驱动演示讲解巩固小结巩固小结典型工作环节3Hadoop伪分布搭建与应用(3)修改core-site.xml配置文件fs.defaultFS设置的是HDFS的地址,设置运行在本地的9000端口上。[hadoop@mastersoftware]$cd/usr/local/src/hadoop-2.7.1/etc/hadoop/[hadoop@masterhadoop]$vimcore-site.xml<configuration><property><name>fs.defaultFS</name><value>hdfs://master:9000</value></property></configuration>(4)修改hdfs-site.xml配置文件

dfs.replication设置的是HDFS存储的临时备份数量,因为伪分布模式中只有一个节点,所以设置为1。线下课中演练前情回顾任务驱动演示讲解巩固小结巩固小结典型工作环节3Hadoop伪分布搭建与应用(5)修改hadoop-env.sh配置文件将原本的JAVA_HOME替换为绝对路径:[hadoop@masterhadoop]$vimhdfs-site.xml<configuration><property><name>dfs.replication</name><value>1</value></property></configuration>[hadoop@masterhadoop]$vimhadoop-env.sh#Thejavaimplementationtouse.exportJAVA_HOME=/usr/local/src/jdk1.8.0_231(6)格式化NameNode格式化是对HDFS中的DataNode进行分块,统计所有分块后的初始元数据,存储在NameNode中。线下课中演练前情回顾任务驱动演示讲解巩固小结巩固小结典型工作环节3Hadoop伪分布搭建与应用(7)启动HDFS(8)使用jps命令监视进程运行状态[hadoop@masterhadoop]$hdfsnamenode-format[hadoop@masterhadoop]$start-dfs.sh[hadoop@masterhadoop]$jps18691DataNode18548NameNode18842SecondaryNameNode18991Jps(9)使用浏览器查询节点状态线下课中演练前情回顾任务驱动演示讲解巩固小结巩固小结典型工作环节3Hadoop伪分布搭建与应用2.伪分布式集群测试(1)在集群上创建目录/wcinput线下课中演练前情回顾任务驱动演示讲解巩固小结巩固小结典型工作环节3Hadoop伪分布搭建与应用(3)向集群目录/wcinput上传一个文件创建一个本地data.txt文件上传至集群/wcinput

目录,文件内容如下:(2)通过命令查看[hadoop@masterhadoop]$hdfsdfs

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论