版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
电子工业出版社《云计算(第二版)》配套课件解放军理工大学教授主编华东交通大学制作第6章Hadoop:Google云计算的开源实现
《云计算(第二版)》购买网址:当当网
京东商城姊妹力作《实战Hadoop》购买网址:当当网
京东商城提纲Hadoop简介Hadoop分布式文件系统HDFS分布式数据处理MapReduce分布式结构化数据表HBaseHadoop安装HDFS使用HBase安装使用
MapReduce编程
HDFS常用命令
HDFS集群由一个NameNode和多个DataNode组成:NameNode负责管理文件系统的元数据;DataNode负责存储实际的数据(其中censtos254为namenode)1.HDFS管理DFSAdmin命令支持一些和HDFS管理相关的操作2.安全模式NameNode在启动时会自动进入安全模式。安全模式的目的是在系统启动时检查各个DataNode上数据块的有效性,同时根据策略对数据块进行必要的复制或删除关闭安全模式$bin/hadoopdfsadmin-safemodeleave把HDFS置于安全模式$bin/hadoopdfsadmin–safemodeenter3.添加节点加入新加节点主机名,再建立到新加节点无密码的SSH连接实验中复制因子为3,部分数据块未达到最小副本数。等待一段时间之后,数据块自动进行了必要的复制
HDFS常用命令
4.节点故障心跳信号
5.负载均衡重新平衡DataNode上的数据块的分布
$bin/start-balancer.sh
命令执行前,DataNode节点上数据的分布情况
负载均衡完毕后,DataNode节点上数据的分布情况
HDFS基准测试
TestDFSIO用来测试HDFS的I/O性能bin/hadoopjar$HADOOP_HOME/hadoop-0.20.2-test.jarTestDFSIO–write–nrFile20–filesize200如果eclipse已经安装了hadoop-0.20.2-eclipse-plugin.jar插件包,那么可以在eclipse下查看结果基准测试后,删除所有生成的文件%bin/hadoopjar$HADOOP_HOME/hadoop-0.20.2-test.jarTestDFSIO–clean提纲Hadoop简介Hadoop分布式文件系统HDFS分布式数据处理MapReduce分布式结构化数据表HBaseHadoop安装HDFS使用HBase安装使用
MapReduce编程
HBase的安装配置
(1)安装HBase$tar–zxvfhbase-0.19.2.tar.gz(2)编辑{HBASE_HOME}/conf/hbase-env.sh,把JAVA_HOME变量设置为JAVA安装的根目录,把HBASE_CLASSPATH设置为HADOOP_CONF_DIR(3)编辑{HBASE_HOME}/conf/hbase-site.xml(4)复制${HADOOP_HOME}/conf/hadoop-site.xml(5)编辑${HBASE_HOME}/conf/regionservers(6)把HBase复制到其他机器上:$scp–r~/hbase-0.19.2/ubuntu2:/home/grid/$scp–r~/hbase-0.19.2/ubuntu3:/home/grid/(7)复制${HBASE_HOME}/hbase-0.19.2.jar$cp~/hbase-0.19.2/hbase-0.19.2.jar~/hadoop-0.19.1/lib/HBase的执行
(1)启动Hadoop$cd~/hadoop-0.19.1$bin/start-all.sh(2)启动Hbase$cd~/hbase-0.19.2/$bin/start-hbase.sh(3)进入shell模式进行HBase数据操作$bin/hbaseshell(4)停止HBase$bin/stop-hbase.sh(5)停止Hadoop$cd~/hadoop-0.19.1$bin/stop-all.shHbase编程实例启动Eclipse,新建Map/ReduceProject,命名为Proj,在此工程中新建类test,加入代码在RunConfigurations选项中选择工作路径为HBASE_HOME
运行后,可以从控制台看到运行结果通过地址http://ubuntu1:60010可以看到HBase运行的相关信息,表“stu”添加成功提纲Hadoop简介Hadoop分布式文件系统HDFS分布式数据处理MapReduce分布式结构化数据表HBaseHadoop安装HDFS使用HBase安装使用
MapReduce编程
矩阵相乘算法设计MapReduce程序设计过程1)<key,value>对2)数据输入3)Mapper阶段4)Reducer阶段5)数据输出2.矩阵相乘(整数矩阵)左矩阵的一行和右矩阵的一列组成一个InputSplit,其存储b个<key,value>对,key存储积矩阵元素位置,value为生成一个积矩阵元素的b个数据对中的一个;Map方法计算一个<key,value>对的value中数据对的积;而Reduce方法计算key值相同的所有积的和编程实现
1.程序中的类(1)matrix类用于存储矩阵(2)IntPair类实现WritableComparable接口用于存储整数对(3)matrixInputSplit类继承了InputSplit接口,每个matrixInputSplit包括b个<key,value>对,用来生成一个积矩阵元素。key和value都为IntPair类型,key存储的是积矩阵元素的位置,value为计算生成一个积矩阵元素的b个数据对中的一个(4)继承InputFormat的matrixInputFormat类,用来数据输入(5)matrixRecordReader类继承了RecordReader接口,MapReduce框架调用此类生成<key,value>对赋给map方法(6)主类matrixMulti,其内置类MatrixMapper继承了Mapper重写覆盖了Map方法,类似地,FirstPartitioner、MatrixReducer也是如此。在main函数中,需要设置一系列的类,详细内容参考源码(7)MultipleOutputFormat类用于向文件输出结果(8)LineRecordWriter类被MultipleOutputFormat中的方法调用,向文件输出一个结果<key,value>对编程实现
2.部分代码片段matrixInputFormatmatrixMulti3.程序的运行过程(1)程序从文件中读出数据到内存,生成matrix实例,通过组合左矩阵的行与右矩阵的列生成a×c个matrixInputSplit(2)一个Mapper任务对一个matrixInputSplit中的每个<key1,value1>对调用一次Map方法对value1中的两个整数相乘。输入的<key1,value1>对中key1和value1的类型均为IntPair,其输出为<key1,value2>对,key1不变,value2为IntWritable类型,值为value1中的两个整数的乘积(3)MapReduce框架调用FirstPartitioner类的getPartition方法将Map的输出<key1,value2>对分配给指定的Reducer任务(任务个数可以在配置文件中设置)编程实现
3.程序的运行过程(4)Reducer任务对key1值相同的所有value2求和,得出积矩阵中的元素k的值。其输入为<key1,list(value2)>对,输出为<key1,value3>对,key1不变,value3为IntWritable类型,值为key1值相同的所有value2的和。(5)MapReduce框架实例化一个MultipleOutputFormat类,将结果输出到文件4.程序执行过程程序需要两个参数:输入目录和输出目录1.分析比较Hadoop的优缺点。2.Hadoop里有哪些机制?解决了哪些问题?3.HDFS有哪些保障可靠
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024标准木材厂承包合同范本
- 2024库房场地租赁合同范本
- 中班科学活动弹性
- 2024至2030年中国高承载型聚合物多元醇行业投资前景及策略咨询研究报告
- 2024至2030年中国通讯礼盒数据监测研究报告
- 2024年蝇蚴病防治药项目评估分析报告
- 2024年紫外线灯管项目评估分析报告
- 2024年甲基六氢苯酐项目评估分析报告
- 2024至2030年中国磁性表架数据监测研究报告
- 2024至2030年中国甘露火腿数据监测研究报告
- fikusvisualcam线切割编程中文教程
- 《雪地里的小画家》课件
- IATF16949中文Word版
- 潜泵加油机紧急切断阀安装
- 全国主要水文站点及雨量观测分布和代码
- 人教版六年级下册《反比例的量》导学案
- DNA甲基化与肿瘤分子标志
- 《甲方认质认价确认单》
- 《中小学班主任专业能力发展策略的研究》结题报告
- 各种烟气焓温、密度、比热计算表
- FLUKE-17B型万用表使用说明
评论
0/150
提交评论