Hadoop集群测试报告_第1页
Hadoop集群测试报告_第2页
Hadoop集群测试报告_第3页
Hadoop集群测试报告_第4页
免费预览已结束,剩余1页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、测试报告集群设置1. 服务器配置CPU24内存128G带宽1024M磁盘44T磁盘吞吐预计100M/S2. Hadoop服务部署HADOOP-12-151NameNode Balancer、Hive Gateway、Spark Gateway> ResourceManager、Zk ServerHADOOP-12-152DataNode、SNN HFS Hive Gateway、WebHCat Hue> Impala Deamon CMServerMonitor、CM Activity Monitor 、CM Host Monitor、CM Event Server、CM Aler

2、tPublisher、Oozie Server、Spark History Server、Spark Gateway> NodeManagenJobHistory Server 、Zk ServerHADOOP-12-153DataNode、Hive Gateway、HiveMetastore、HiveServer2、Impala Catalog、ImpalaStateStore 、Impala Deamon、Spark Gateway > NodeManagen Zk ServerHADOOP-12-154DataNode、Hive Gateway、Impala Deamon S

3、park Gateway、NodeManagec Sqoop2HADOOP-12-155DataNode、Hive Gateway、Impala Deamon Spark Gateway、NodeManager、Zk ServerHADOOP-12-156DataNode、Hive Gateway、Impala Deamon Spark Gateway、NodeManager、Zk Server3. hadoop参数设置yarn-mb108544-allocation-mb4096-allocation-mb32768-allocation-mb4096-vcores24-pmem-ratio

4、mapreduce40968192307261441536100151555dfs3534096二、基准测试1. HDFSW写的吞吐性能连续10次执行如下写操作,其性能见图示:cd /opt/clouderahdfsadmin hadoopTestDFSIO -write -nrFiles 10 -fileSize 1000 -resFile /tmp/其具体数据见表格:123456789 10均值HDFS写文件吞吐均值:/ S平均执行时间:占用带宽:/ S结论:HDFSf,其磁盘吞吐基本上处于理想状态,且在此吞吐水平上其网络带宽占用较少,没有造成明显的带宽负载。连续10次执行如下读操作,其性

5、能见图示:hdfsadmin hadoopTestDFSIO -read -nrFiles 10 -fileSize 1000 -resFile /tmp/Map Task平均吞吐:S 。文件的平均IO速度:S,基本符合理想状态。附:I.带宽计算过程:10000/=6, 10个文件则10个进程并发,复本数为 2,则有1份网络彳输,10个进程并发在5台机器上,基本上每台机器有2个写进程,则网络流量大约为:S* 1*2=,远远低于千兆网络的带宽。II.清除测试数据:dfsadmin hadoopTestDFSIO - clean208192写性能:基本上与之前相当。读性能:Map Task平均吞吐

6、:S 。文件的平均IO速度:So2. mrbench基准测试重复执行小作业50次,检查平均执行时间hdfsadmin hadoopmrbench -numRuns 50基本情况,上述操作完全来自默认值:inputlines : 1mapper: 2reducer : 1完成时间:17986ms,即17秒。修改上述各参数的设置,inputlines : 100000mapper: 1000reducer : 200 hdfsadmin hadoopmrbench -numRuns 10 -inputLines 100000 -maps 1000 -reduces 200 完成时间:190131m

7、s,即190秒。在此参数设置下,集群负载很重,mapper&reducer总数明显超过了集群一般可以承受的水平继续调整参数设置,inputlines : 100000mapper: 100reducer : 5 hdfsadmin hadoopmrbench -numRuns 10 -inputLines 100000 -maps 100 -reduces 5完成时间:28682ms,即28秒。在此参数设置下,基本上符合集群负载的一般水平,mapper&reducer数设置较为合理,完成时间比较理想,即数据量越大,Hadoop越能够体现其优势。208192hdfsadmin h

8、adoopmrbench -numRuns 5015996ms,16shdfsadmin hadoopmrbench -numRuns 10 -inputLines 100000 -maps 100 -reduces 528975ms,29s3. 利用全局排序Terasort测试MapReduce行性能cd /opt/cloudera生成10G数据:hdfsadmin hadoop jar teragen -=100 /home/songuanglei/gen10G排序:hdfsadmin hadoop jar terasort -=100/60/10/5 /home/songuanglei/

9、gen10G /home/songuanglei/output10Gmap数目为2,不断调整reducer数目为100、60、10、5,其执行时间趋势如下图:结论:reducer数越接近集群节点数目,其执行速度越快。生成100G数据:hdfsadmin hadoop jar teragen -=100 /home/songuanglei/gen100G排序:hdfsadmin hadoop jar terasort -=100/6010/5 /home/songuanglei/gen100G /home/songuanglei/output100Gmap数目为800,不断调整reducer数目

10、为100、60、10、5,其执行时间趋势如下图:结论:随着处理数据的增大,map阶段耗时显着增加,成为整个 Job执行的重点,reducer数越接近集群节点数目,其执行速度越快。附:I.验证是否有序hdfsadmin hadoop jar teravalidate /home/songuanglei/output100G /home/songuanglei/validate100G4. 利用wordcount测试MR执行性能wordcount是CPU资源消耗型的 操作如下:hdfsadmin hadoop jar wordcount -=10 /user/songguanglei/ /user/songguanglei/output基本情况:输入文件:622MB默认 mapper数:5分别设置 reducer 数据为 60、10、5,分别得出 CPU time spent (ms)值:218340、130900

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论