大数据技术导论(第二版)课件:大数据生态_第1页
大数据技术导论(第二版)课件:大数据生态_第2页
大数据技术导论(第二版)课件:大数据生态_第3页
大数据技术导论(第二版)课件:大数据生态_第4页
大数据技术导论(第二版)课件:大数据生态_第5页
已阅读5页,还剩44页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大数据技术导论

大数据生态谷歌三驾马车01020304认识Hadoop部署HadoopHDFSMapReduce05ZooKeeper01PARTONE认识Hadoop从应用谈起小数据时代上网过程从应用谈起大数据时代上网过程从应用谈起大数据技术生态从应用谈起Hadoop组件Hadoop特点Hadoop设计理念是如下。1)低成本:兼容廉价的硬件设备。2)处理大规模数据:典型文件大小为GB~TB级别;关注横向扩展。3)批量数据访问:批量读而非随机读;关注吞吐量而非响应时间。4)高容错:副本冗余机制。5)适应场景:大文件访问;静态数据访问。02PARTTWO部署HadoopHadoop安装模式

(1)独立模式(本地模式,standalone)

(2)伪分布模式

(3)完全分布模式单节点伪分布模式安装1.创建一个用户,名为zhangyu,并为此用户创建home目录

sudouseradd-d/home/zhangyu-mzhangyu2.首先来配置SSH免密码登陆ssh-keygen-trsa3.下面在~/.ssh目录下,创建一个空文本,名为authorized_keystouch~/.ssh/authorized_keys4.将存储公钥文件的id_rsa.pub里的内容,追加到authorized_keys中cat~/.ssh/id_rsa.pub>>~/.ssh/authorized_keys5.执行sshlocalhost测试ssh配置是否正确6.进行基本的linux操作

多节点伪分布模式安装1.基础环境准备第1步:使用SecureCRT远程登录三台Linux虚拟机。第2步:分别配置三台虚拟机的主机名,参考下面hadoop1虚拟机的配置。#hostnamehadoop1#vi/etc/sysconfig/networkHOSTNAME=hadoop1第3步:重启主节点。#reboot#hostname多节点伪分布模式安装第4步:配置hosts文件如下,填入三个虚拟机的主机记录。#vi/etc/hosts

4hadoop16hadoop25hadoop3第5步:配置ssh免密码登录。Hadoop在执行配置过程中,master需要对salves进行操作,所以需要在hadoop1节点配置ssh免密码登录hadoop2、hadoop3。在hadoop1执行以下的命令。#cd~#ssh-keygen-trsa#cd~/.ssh#pwd#ssh-copy-idhadoop2#ssh-copy-idhadoop3#cat~/.ssh/id_rsa.pub>~/.ssh/authorized_keys多节点伪分布模式安装2.安装JDK三个节点都需要按照下面的步骤安装JDK环境。第1步:执行java-version查看JDK是否已经安装,如果看到以下内容则表示已经安装了,可以跳过这一步骤,进入环境部署环节。#java-versionjavaversion"1.8.0_131"Java(TM)SERuntimeEnvironment(build1.8.0_131-b11)JavaHotSpot(TM)64-BitServerVM(build25.131-b11,mixedmode)第2步:将JDK安装包复制到/usr/lib/。#cd/opt/hadoop-package/#cpjdk-8u131-linux-x64.tar.gz/usr/lib多节点伪分布模式安装第3步:进入/usr/lib目录并解压jdk-8u131-linux-x64.tar.gz。#cd/usr/lib#tar-zxvfjdk-8u131-linux-x64.tar.gz第4步:修改环境变量。#vi/etc/profile第5步:环境变量生效。#source/etc/profile第6步:查看是否安装成功(见第1步)。多节点伪分布模式安装3.安装HadoopHadoop安装包已经在yum服务器中提供,可以通过wget进行下载。第1步:安装Hadoop。在hadoop1安装Hadoop,然后配置相应的配置文件,最后将Hadooop所有文件同步到其他Hadooop节点(hadoop2、hadoop3)。Hadoop路径配置为/opt/hadoop。在hadoop1执行以下操作。#tar-zxvfhadoop-3.1.0.tar.gz#mvhadoop-3.1.0/opt/hadoop#ls/opt/hadoop多节点伪分布模式安装第2步:配置主节点环境。(1)配置core-site.xml文件(2)配置hdfs-site.xml文件(3)配置workers文件(4)配置mapred-site.xml文件(5)配置yarn-site.xml(6)配置hadoop-env.sh(7)配置./start-yarn.sh(8)配置./stop-yarn.sh(9)配置./start-dfs.sh(10)配置./stop-dfs.sh多节点伪分布模式安装第3步:配置从节点环境。将以上配置好的Hadoop文件包打包并同步到其他Hadoop节点。#cd/home#tar-czvfhadoop.tar.gz/opt/hadoop#scphadoop.tar.gzroot@hadoop2:/opt#scphadoop.tar.gzroot@hadoop3:/opt多节点伪分布模式安装第4步:在hadoop1配置profile文件。#vi/etc/profileexportHADOOP_HOME=/opt/hadoop-3.1.0exportPATH=$PATH:$HADOOP_HOME/bin#source/etc/profile多节点伪分布模式安装第6步:格式化(仅一次)。在hadoop1节点格式化NameNode。#hdfsnamenode–format格式化成功截图如图2.8所示多节点伪分布模式安装第7步:启动集群。#cd/opt/hadoop-3.1.0/sbin/#./start-all.sh#jps03PARTTHREEHDFSHDFS体系结构

HDFS(HadoopDistributedFileSystem)是一个Hadoop分布式文件存储系统,简称分布式文件系统。HDFS本身也是个集群,由一个namenode,多个datanode,一个secondarynamenode组成,适合需要处理海量数据集的应用程序。HDFS体系结构(1)namenode职责:①维护HDFS集群的元数据;②维护HDFS集群的所有数据块的分布、副本数和负载均衡;③响应客户端的所有读写数据请求。(2)元数据:①文件、块与DataNode之间的映射;②操作日志元数据保存在内存;HDFS体系结构(3)DataNode(从节点)

①存储保存客户端上传的数据;

②文件内容保存在磁盘;

③维护BlockID到本DataNode本地文件的映射关系;

④向名称节点定期发送自己所存储的块的列表(心跳)。(4)数据块

数据块是HDFS的文件存储处理单元,在Hadoop2.0中默认大小为128MB,可根据业务情况进行配置。数据块的存在,使得HDFS可以保存比存储节点单一磁盘大的文件,而且简化了存储管理,方便容错,有利于数据复制。HDFS体系结构(5)SecondaryNameNode职责:冷启动

HDFS存储原理(1)写数据策略第一个副本放置在上传文件的数据节点;如果是集群外提交,则随机挑选一台磁盘不太满、CPU较为空闲的节点。第二个副本放置在与第一个副本不同机架的节点上。第三个副本放置在与第一个副本相同机架的其他节点上。更多副本放置在随机节点上(2)读数据过程HDFS存储原理HDFS实战

1)启动Hadoop。#cd/apps/hadoop/sbin#./start-all.sh2)执行jps,检查Hadoop守护进程是否启动3)在HDFS根目录创建一个test1文件夹。#hadoopfs-mkdir/test14)在/test1文件夹中创建一个file.txt文件。#hadoopfs-touchz/test1/file.txt5)查看HDFS根目录下所有文件。#hadoopfs-ls/还可以使用hadoopfs-ls-R/的方式递归查看根目录下所有文件。6)在HDFS,将根目录下test1文件file.txt重命名为file2.txt。#hadoopfs-mv/test1/file.txt/file2.txt7)将HDFS根目录下的file2.txt文件复制到HDFS根目录的test1目录下。#hadoopfs-cp/file2.txt/test18)在Linux本地/data目录下创建一个data.txt文件,并向其中写入hellohadoop!#cd/data#touchdata.txt#echohellohadoop!>>data.txt9)将Linux本地/data目录下的data.txt文件,上传到HDFS中的/test1目录下。#hadoopfs-put/data/data.txt/test110)查看HDFS中/test1目录下的data.txt文件。#hadoopfs-cat/test1/data.txtHDFS实战11)将HDFS中/test1目录下的data.txt文件,下载到Linux本地/apps目录中。#hadoopfs-get/test1/data.txt/apps12)查看/apps目录下是否存在data.txt文件。#ls/apps13)删除HDFS根下的file2.txt文件。#hadoopfs-rm/file2.txt14)删除HDFS根目录下的test1目录。hadoopfs-rm-r/test1。HDFS实战HDFS常用操作使用usage或help查看帮助hdfsdfs-usagehdfsdfs-help显示文件系统统计信息hdfsdfs-df创建目录&删除空目录hdfsdfs-mkdir上传文件,下载文件hdfsdfs-puthdfsdfs-get列出目录和文件hdfsdfs–ls校验和信息hdfsdfs-checksum追加写文件hdfsdfs-appendToFile拷贝文件hdfsdfs-cphdfsdfs-scp文件权限管理hdfsdfs-chmod777文件hdfsdfs-chwon查看文件内容hdfs

dfs

-cat移动和删除文件hdfsdfs-mvhdfsdfs-rm04PARTFOURMapReduceMapReduce逻辑结构MapReduce逻辑结构1)MapReduce的输入和输出都是HDFS。2)MapReduce由两个阶段构成,即Map和Reduce。3)Map负责数据划分,是计算的最小单位。4)Reduce负责统计汇总,个数比Map少。5)Map阶段至少有一个,Reduce阶段可以没有。6)Map和Reduce的输入/输出都是键值对,共有四组键值对。7)Map和Reduce不能直接通信,需要经过Shuffle。8)Shuffle负责组内、组间归并排序。MapReduce执行过程根据下列三个文档统计词频,画出MapReduce执行过程(见图2.19)。文件1:abcbca。文件2:abca。文件3:abbb。MapReduce实战1.任务内容1)在Linux编辑文件,输入单词。2)在HDFS创建目录。3)将Linux单词文件上传到HDFS。4)执行jar包,统计单词频数。MapReduce实战2.任务步骤1)在/data目录下,使用vim编辑一个data.txt文件,内容为helloworldhellohadoophelloipieuvre。#cd/data#vidata.txt2)在HDFS的根下创建in目录,并将/data下的data.txt文件上传到HDFS中的in目录。#hadoopfs-put/data/data.txt/in3)执行hadoopjar命令。在Hadoop的/apps/hadoop/share/hadoop/mapreduce路径下存在hadoop-mapreduce-examples-2.6.0-cdh5.4.5.jar包,执行其中的wordcount类,数据来源为HDFS的/in目录,数据输出到HDFS的/out目录。#hadoopjar/apps/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.0-cdh5.4.5.jarwordcount/in/outMapReduce实战2.任务步骤4)查看单词统计结果。#hadoopfs-ls/out#hadoopfs-cat/out/*结果如图2.22所示05PARTONEZooKeeperZooKeeper集群ZooKeeper是一个集群管理工具,提供配置维护、域名服务、分布式同步和组服务等。图2.23显示了ZooKeeper体系架构。ZooKeeper集群1.集群三种角色(1)Leader事务请求的唯一调度和处理者,保证集群事务处理的顺序性;Leader将请求包装为Proposal信息,发送给Follower。(2)Follower处理客户端的非事务请求,转发事务请求给Leader服务器;参与事务请求Proposal的投票;参与Leader选举投票。(3)ObserverZooKeeper3.0版本以后引入的一个服务器角色,在不影响集群事务处理能力的基础上提升集群的非事务处理能力;处理客户端的非事务请求,转发事务请求给Leader服务器;不参与任何形式的投票。2.半数机制集群中只要有半数以上节点存活,集群就能够正常工作,所以一般集群中的服务器个数都为奇数,最少为3个部署ZooKeeper第1步:下载并解压ZooKeeper安装包。#wgeth

/zookeeper/zookeeper-3.4.10.tar.gz/data/zookeeper#tar-zxvfzookeeper-3.4.10.tar.gz–C/apps第2步:修改安装文件名。#cd/apps#mvzookeeper-3.4.10zookeeper第3步:配置ZooKeeper配置文件。将zoo_sample.cfg重命名为zoo.cfg,并配置zoo.cfg。#cd/apps/zookeeper-3.4.10/conf/#mvzoo_sample.cfgzoo.cfg部署ZooKeeper4步:配置环境变量。在文件~/.bashrc最后增加以下两行。exportZOOKEEPER_HOME=/apps/zookeeper-3.4.10exportPATH=$PATH:$ZOOKEEPER_HOME/bin第5步:系统环境变量生效。#source~/.bashr

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论