Hadoop平台搭建与应用（米洪第2版）（微课版）-教案全套项目1-8 认识大数据 -Hadoop平台应用综合案例

上传人：h*** IP属地：山东上传时间：2024-07-31 格式：DOC 页数：59 大小：744.98KB 积分：70 举报 版权申诉

Hadoop平台搭建与应用（米洪第2版）（微课版）-教案全套项目1-8 认识大数据 -Hadoop平台应用综合案例_第2页

Hadoop平台搭建与应用（米洪第2版）（微课版）-教案全套项目1-8 认识大数据 -Hadoop平台应用综合案例_第3页

Hadoop平台搭建与应用（米洪第2版）（微课版）-教案全套项目1-8 认识大数据 -Hadoop平台应用综合案例_第4页

Hadoop平台搭建与应用（米洪第2版）（微课版）-教案全套项目1-8 认识大数据 -Hadoop平台应用综合案例_第5页

已阅读5页，还剩54页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

第④执行命令“ambari-serverstart”,启动ambari-server。访问“http://宿主机IP:8080”，在打开的页面中输入正确的用户名和密码，默认都是‘admin’。执行命令“ambari-serverstop”，停止ambari-server服务，执行命令“ambari-serverstatus”，查看ambari-server的状态。2.部署管理Hadoop集群登录页面hpP8080在“用户名”文本框中输入“admin”，在“密码”文本框中输入“admin”启动安装向、创集群安服务。Ambari管理界面。单击“启动安装向导”开始部署，安装向导提示为集群起名称，此处名称设置为‘hdpCluster’，然后单击“next”按钮。单击“RegisterandConfirm”按钮，打开“ConfirmHosts”界面，在该界面中单击“Check”按钮进行主机认证操作，此处经常会出现认证失败，此时可以单击“Failed”链接，打开查看失败原因。下面给出错误的解决方案。（1）修改权限。（2）编辑ambari-agent.ini文件。（3）更新openssl版本。最后单击“check”按钮，直到“Status”项为“Success”为止，需要注意的是该处必须全部检查通过，才能保证后续操作的顺利实现。在检查成功后，单击“Next”按钮，选择要安装的软件，操作演示中，我们选择安装“HDFS”、“Zookeeper”和“AmbariMetrics”3个组件。安装软件选择后，单击“Next”按钮，将会打开“AssignMasters”界面。单击“Next”按钮,打开“AssignSlavesandClient”界面，对Master节点的角色进行设置后，单击“Next”按钮。在打开的“CustomizeServices”页面中，可以看到有2处红色的提示，该提示表明需要进一步进行设置操作。单击“AmbariMetrics”链接，在打开页面中的红色提示框中输入默认密码，“admin”。单击“SmartSense”链接，在页面的右边部分输入默认密码“admin”。在两个红色提示处理完成后，单击“Next”按钮，进入“Review”页面。再次确认安装软件正确后，单击“Deploy”按钮，开始全自动化的部署安装，部署操作完成。单击“Next”按钮，打开“Summary”页面，查看软件安装进程的情况，并单击“Complete”按钮，完成软件的安装和部署操作。单击页面导航栏中的“Dashboard”按钮，在主页面中可以查看集群状态和监控信息。2．利用Ambari扩展集群利用Ambari搭建好的集群可以通过Ambari来扩展。（1）进入“Hosts”界面，单击左上角的“Actions”下拉按钮，在弹出的下拉列表中选择“AddNewHosts”选项。（2）进入“AddHostWizard”界面，需要输入新增的机器名（包含完整域名）及AmbariService机器上生成的私钥。(3)在“ConfirmHosts”页面，若出现failed，重复master节点的修改操作，并重新部署，直到“Status”显示“Success”。（4）分配Slaves和Client，为slave1节点分配角色。完成后，即可安装AmbariAgent，并安装选择的组件。（5）随后后的“Configurations”和“Review”页面，Ambari为用户选择了默认的配置。单机“Next”按钮即可，转到“Install,StartandTest”后，等待部署完成。当AddHostWizard设置完成时，可以从“Hosts”界面中看到新的机器，以及安装的模块。任务7.2使用Ambari管理Hadoop集群Ambari的用户图形界面有助于平台管理员去管理、维护和监控Hadoop集群，下面将介绍如何使用Ambari来进行集群管理。在Hadoop集群部署完成后，打开部署AmbariServer主机的8080端口。默认的管理员用户名为admin，密码为admin。登录后进入的是Ambari管理Hadoop集群的主界面，该界面形象化地展示了集群服务的运行状态、资源使用状况、配置参数及错误告警等。集群管理包含服务管理、主机管理、进程管理和配置管理。1．服务管理。选择“概要”选项卡，可以看到HDFS运行的进程信息，包括运行状态、资源使用情况及监控信息。单击页面导航栏中的“服务”按钮，单击导航栏下方的“服务操作”下拉按钮，在弹出的下拉列表中看到很多服务的控制进项，如“启动”“停止”“重启”等，通过这些控制进项，可以对服务进行管理。Hadoop的集群部署完成后，并不知道这个集群是否可用。此时可以借助“运行服务检查”选项来确保集群服务正常运行。选择此选项后，会在弹出的对话框中显示的HDFS服务操作进度。其实，这里就是通过向HDFS文件系统/tmp目录中上传一个临时文件来检测系统运行是否正常。当进度条执行完毕后，全绿代表服务运行正常，全红代表服务运行失败，黄色代表出现告警信息。“服务操作”下拉列表中的“启动”“停止”“重启”3个选项的含义分别是指启动、停止、重启集群中所有该服务的进程。当进入HDFS服务重启界面时，可以查看每个主机进程的操作进度和运行日志。在“服务操作”下拉列表中有“打开维护模式”进项，该选项用于在用户调试或者维护过程中抑制不必要的告警信息，以及避免批量操作的影响（启动所有服务、停止所有服务、重启所有服务等）。维护模式中有不同的级别设置，分别是服务级别、主机级别及进程级别。3种级别之间存在着覆盖关系。例如，由于HDFS部署在多台主机中，当它的维护模式功能启用后，HDFS便不会产生任何新的告警。当用户重启集群所有服务时，该服务会忽略这个批量操作。当用户重启一个机器的所有进程时，该服务的进程也会被忽略。在主界面左侧的服务列表的最下方有一个“动作”按钮，单击该按钮，可以弹出对服务进行操作的下拉列表，其中包含“增加服务”“启动所有服务”“停止所有服务”等进项。2．主机管理单击导航栏中的“主机”按钮，可以打开Ambari所管理的主机列表。单击导航栏左下方的“动作”下拉按钮，在弹出的下拉列表中列出了与主机相关的动作的选项，其效果和“服务操作”是类似的，只是执行的范围不一样。当用户在“动作”下拉列表中选择“显示主机”→“主机”→“启动所有组件”选项时，Ambari会启动主机中的所有服务。当用户在“动作”下拉列表中选择“所有主机”→“DataNodes”→“停止所有组件”选项时，Ambari会关闭所有机器关于DataNode的进程。当集群不能够满足生产环境所需的资源时，可以通过“动作”下拉列表中“添加新的主机”进项来扩展集群。新的主机节点在加入集群之前，需要完成任务6.1中基本环境的配置及AmbariAgent服务的安装配置。进入其中的一台主机，如Master，可以看到该主机中所有进程的运行状态、主机资源使用情况、主机的IP地址、资源栈等信息。在导航栏右下方有“主机动作”下拉按钮，通过单击该下拉按钮可以进行一系列操作。在“主机动作”下拉列表中有“打开维护模式”选项，对于主机级别的维护模式来说，就是打开了该主机所有进程的维护模式。如果该主机已经有告警信息，一旦维护模式被打开，告警信息就会被屏蔽，并抑制新告警信息的产生，所有的批量操作都会忽略该机器。3．进程管理每个服务都由相应的进程组成，如HDFS服务包含了NameNode、SecondaryNameNode、DateNode等进程。每台主机中都安装了相应的服务进程，如Master节点中包含HDFS的NameNode进程，Slave1节点中包含SecondaryNameNode、DateNode进程。进入Master节点，找到需要进行管理的进程，如NameNode，该进程后面有“Started”按钮，表示该进程正在运行中，单击该按钮可以改变进程的运行状态，如“重启”“停止”“移动”“打开维护模式”“均衡HDFS”等。其中，打开进程级别的维护模式后会有以下两个影响。①该进程不再受批量操作的控制。②抑制该进程告警信息的产生。例如，打开主机Master节点的DataNode的维护模式，那么当用户在“服务操作”下拉列表中选择“停止”选项时，将会停止所有HDFS服务，但该主机的DataNode不会被关闭，这是因为停止HDFS服务的批量操作后，会直接忽略Master节点中的DataNode。4．配置管理Ambari管理工具可以很方便地修改配置文件，并应用到集群的每一台主机中，尤其是在集群中的主机数量非常多的情况下。例如，需要修改集群HDFSBlock复制因子（BlockReplication）为2，在手动部署集群的情况下，要修改每一台主机的hdfs-site.xml配置文件。如果一个集群中有几十台或者几百台主机，则工作量是非常大的。而Ambari集群管理工具可以很好地应对这种情况，由集群中的AmbariServer向每台主机中的AmbariAgent发送相关的心跳信息，由此更新每台主机中的配置文件。具体操作步骤如下。在页面导航栏中选择“服务”→“HDFS”选项，在其服务列表右侧选择“配置”→“Advanced”→“General”→“BlockReplication”选项，将“Blockreplication”修改为2，单击“保存”按钮。保存成功后，可以看到相应的版本信息，单击“重启”按钮，重启所有标记重启的组件。在Ambari图形界面中，可以查看某一台主机的配置文件。单击页面导航栏中的“主机”按钮，在进入的界面中选择相应的主机，选择“配置”选项卡，便可以查看相应服务的配置信息。为了保证整个集群配置信息的统一，这里要禁止单独修改某一台主机的配置文件。Hadoop平台搭建与应用教案NO.8教师姓名授课班级授课形式理实一体化授课时间年月日第周授课时数4授课章节名称项目8Hadoop平台应用综合案例教学目的（1）熟悉HDFS、Hive、MySQL、HBase的数据互导。（2）了解Hive与传统关系型数据库的区别。（3）学会HDFS、Hive、MySQL、HBase的数据互导操作。（4）学会使用Hive进行简单的数据分析操作。（5）使用Flume、Kafka、Flink进行简单的模拟流数据处理教材分析教学重点HDFS、Hive、MySQL、HBase的数据互导操作教学难点使用Flume、Kafka、Flink进行简单的模拟流数据处理更新、补充、删节内容课外作业熟练HDFS、Hive、MySQL、HBase的数据互导操作教学过程教学提示项目8Hadoop平台应用综合案例任务8.1本地数据集上传到数据仓库Hive中下面把test.txt中的数据导入到数据仓库Hive中。为了完成这个操作，需要先把test.txt上传到HDFS中，再在Hive中创建一个外部表，完成数据的导入。1．启动HDFSHDFS是Hadoop的核心组件，因此，要想使用HDFS，必须先安装Hadoop。这里已经安装了Hadoop，打开一个终端，执行命令“start-all.sh”，启动Hadoop服务。执行命令“jps”，查看当前运行的进程。2．将本地文件上传到HDFS中将本地文件test.txt上传到HDFS中，并存储在HDFS的/bigdatacase/dataset目录中。在HDFS的根目录中创建一个新的目录bigdatacase，并在其中创建一个子目录dataset。执行命令“hadoopdfs-put/usr/local/bigdatacase/dataset/test.txt/bigdatacase/dataset”，将text.txt文件上传到HDFS的/bigdatacase/dataset目录中。执行命令“hadoopdfs-cat/bigdatacase/dataset/test.txt|head-10”，查看HDFS中的test.txt的前10条记录。3．在Hive中创建数据库（1）创建数据库和数据表执行命令“servicemysqlstart”，启动MySQL数据库。Hive是基于Hadoop的数据仓库，使用HiveQL语言编写的查询语句，最终都会被Hive自动解析为MapReduce任务，并由Hadoop具体执行。因此，需要先启动Hadoop服务，再启动Hive服务，可通过执行命令“hive”来启动Hive服务。启动Hive服务后，执行命令“createdatabasedblab”，在Hive中创建一个数据库dblab。创建外部表。（2）查询数据在Hive命令行模式下，执行命令“showcreatetablebigdata_user”，查看表的各种属性。执行命令“descbigdata_user”，查看表的简单结构。执行命令“select*frombigdata_userlimit10”，查看表的前10条数据。任务8.2使用Hive进行简单的数据分析1．简单查询分析执行命令“selectipfrombigdata_userlimit10”，查询前10条记录的ip。2．查询前20条记录的ip和time执行命令“selectip,timefrombigdata_userlimit20”，查询前20条记录的ip和time。3．使用聚合函数count()统计表中的数据执行命令“selectcount(*)frombigdata_user”，统计表中的数据。任务8.3Hive、MySQL、HBase数据的互导1．Hive预操作创建临时表user_action。创建完成后，Hive会自动在HDFS中创建对应的数据文件/user/hive/warehouse/dbalb.db/user_action。执行命令“hadoopdfs-ls/user/hive/warehouse/dblab.db/user_action”，在HDFS中查看创建的user_action表。2．数据导入操作在HiveShell模式下执行命令“insertoverwritetabledblab.user_actionselect*fromdblab.bigdata_user”，将bigdata_user表中的数据导入到user_action表中。执行命令“select*fromuser_actionlimit10”，查询表的前10条记录。3．使用Sqoop将数据从Hive导入到MySQL中登录MySQL，在dblab数据库中创建与Hive对应的user_action表，并设置其编码格式为UTF-8。退出MySQL，进入Sqoop的bin目录，导入数据。使用root用户登录MySQL，查看已经从Hive导入到MySQL中的数据。4．使用Sqoop将数据从MySQL导入到HBase中启动Hadoop集群和HBase服务，并查看集群节点进程。master1节点的进程如下。[root@master1bin]#jps1714SecondaryNameNode4437Jps3207HMaster1514NameNode1883ResourceManager3358HRegionServer3039QuorumPeerMainslave1节点的进程如下。[root@slave1bin]#jps577NodeManager786QuorumPeerMain1811Jps854HRegionServer473DataNodeslave2节点的进程如下。[root@slave2bin]#jps578NodeManager3154Jps1028QuorumPeerMain474DataNode1102HRegionServer进入HBaseShell。在HBase中创建user_action表。新建一个终端，导入数据。再次切换到HBaseShell运行的终端窗口，执行命令“scan'user_action'”，查询插入的数据。5．利用HBase-thrift库将数据导入到HBase中首先，使用“pip”命令安装最新版的HBase-thrift库。其次，在hbase/bin目录下启动thrift相关命令，开启9095端口。查看9095端口。执行“jps”命令，查看进程运行情况。在HBase中创建student表，其属性有name、course，并查看创建的表。使用Python编程将本地数据导入到HBase中。切换到HBaseShell运行窗口，查询ip_info中插入的3条数据。任务8.4流数据处理的简单应用学会使用Flume监听端口数据，存入kafka主题，再使用Flink编程消费Kafka主题内容，进行简单的流数据处理，将结果存入Kafka的另一个主题中。在进行操作前，需确保Hadoop、Zookeeper和Kafka集群已启动。1、Telnet工具的安装与使用(1)通过yum命令安装Telnet和Netcat工具。(2)Netcat工具的使用测试，开启一个本地7777的TCP协议端口，等待客户端发起连接。新打开一个终端窗口，执行“telnet”命令，进入telnet客户端命令模式在telnet客户端命令模式下输入如下信息，向目标服务器发送“test”和“txt”信息，若要退出命令发送模式，直接按'^]'即可，然后执行quit退出telnet客户端。在“nc”监听窗口监听到打印数据代表测试成功。如果Netcat顺利监听到数据，即可终止上述两个命令完成测试。2、Kafka主题的创建与查看(1)创建wordcount主题，分区数设为4，副本数为1。(2)使用"--list"命令查看已经创建好的主题列表。(3)通过“--describe--topicwordcount”，可以查看wor

人人文库> 全部分类> 教育资料 > 备课教案

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

Hadoop平台搭建与应用（米洪第2版）（微课版）-教案全套项目1-8 认识大数据 -Hadoop平台应用综合案例

文档简介

温馨提示

最新文档

评论

Hadoop平台搭建与应用（米洪 第2版）（微课版）-教案全套 项目1-8 认识大数据 -Hadoop平台应用综合案例

文档简介

温馨提示

最新文档

评论

相关文档

Hadoop平台搭建与应用（米洪第2版）（微课版）-教案全套项目1-8 认识大数据 -Hadoop平台应用综合案例