Hadoop集群测试报告

上传人：r*** IP属地：贵州上传时间：2020-10-08 格式：DOCX 页数：8 大小：29.77KB 积分：20 举报 版权申诉

已阅读5页，还剩3页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、测试报告一、集群设置1. 服务器配置CPU24内存128G带宽1024M磁盘44T磁盘吞吐预计100M/s2. Hadoop服务部署HADOOP-12-151NameNode、Balancer、Hive Gateway、Spark Gateway、ResourceManager、Zk ServerHADOOP-12-152DataNode、SNN、HFS、Hive Gateway、WebHCat、Hue、Impala Deamon、CM Server Monitor、CM Activity Monitor、CM Host Monitor、CM Event Server、CM Alert Pu

2、blisher、Oozie Server、Spark History Server、Spark Gateway、NodeManager、JobHistory Server、Zk ServerHADOOP-12-153DataNode、Hive Gateway、HiveMetastore、HiveServer2、Impala Catalog、Impala StateStore、Impala Deamon、Spark Gateway、NodeManager、Zk ServerHADOOP-12-154DataNode、Hive Gateway、Impala Deamon、Spark Gateway

3、、NodeManager、Sqoop2HADOOP-12-155DataNode、Hive Gateway、Impala Deamon、Spark Gateway、NodeManager、Zk ServerHADOOP-12-156DataNode、Hive Gateway、Impala Deamon、Spark Gateway、NodeManager、Zk Server3. hadoop参数设置yarnyarn.nodemanager.resource.memory-mbyarn.scheduler.minimum-allocation-mb4096yarn.scheduler.maximu

4、m-allocation-mb32768yarn.scheduler.increment-allocation-mb4096yarn.nodemanager.resource.cpu-vcores24yarn.nodemanager.vmem-pmem-ratio3.1mapreducemapreduce.map.memory.mb4096mapreduce.reduce.memory.mb8192mapreduce.map.java.opts3072mapreduce.reduce.java.opts6144mapreduce.task.io.sort.mb1536mapreduce.tas

5、node.handler.count35dfs.da

6、tanode.handler.count3dfs.datanode.max.transfer.threads4096二、基准测试1. HDFS读写的吞吐性能1.1 连续10次执行如下写操作，其性能见图示：cd /opt/cloudera/parcels/CDH-5.4.9-1.cdh5.4.9.p0.19/jarshdfsadmin hadoop jar hadoop-test-2.6.0-mr1-cdh5.4.9.jar TestDFSIO -write -nrFiles 10 -fileSize 1000 -resFile /tmp/TestDFSIO_results.log其具体数据见

7、表格： No.Throughput mb/secAverage IO rate mb/secTest exec time sec77573974825416197698179781063均值4HDFS写文件吞吐均值：26.76MS平均执行时间：61.54S占用带宽：53.52MS结论：HDFS写，其磁盘吞吐基本上处于理想状态，且在此吞吐水平上其网络带宽占用较少，没有造成明显

8、的带宽负载。1.2连续10次执行如下读操作，其性能见图示：hdfsadmin hadoop jar hadoop-test-2.6.0-mr1-cdh5.4.9.jar TestDFSIO -read -nrFiles 10 -fileSize 1000 -resFile /tmp/TestDFSIO_results.logMap Task平均吞吐：67.5M/S 。文件的平均IO速度：288.5M/S，基本符合理想状态。附：I. 带宽计算过程：10000/61.54/26.76=6，10个文件则10个进程并发，复本数为2，则有1份网络传输，10个进程并发在5台机器上，基本上每台机器有2个写进

9、程，则网络流量大约为：26.76M/S1*2=53.52M，远远低于千兆网络的带宽。II. 清除测试数据：dfsadmin hadoop jar hadoop-test-2.6.0-mr1-cdh5.4.9.jar TestDFSIO cleandfs.datanode.handler.count20dfs.datanode.max.transfer.threads8192写性能：基本上与之前相当。读性能：Map Task平均吞吐：65.1M/S 。文件的平均IO速度：198.5M/S。2. mrbench基准测试重复执行小作业50次，检查平均执行时间hdfsadmin hadoop jar

10、hadoop-test-2.6.0-mr1-cdh5.4.9.jar mrbench -numRuns 50基本情况，上述操作完全来自默认值：inputlines：1mapper：2reducer：1完成时间：17986ms，即17秒。修改上述各参数的设置，inputlines：mapper：1000reducer：200hdfsadmin hadoop jar hadoop-test-2.6.0-mr1-cdh5.4.9.jar mrbench -numRuns 10 -inputLines -maps 1000 -reduces 200完成时间：ms，即190秒。在此参数设置下，集群负载很

11、重，mapper&reducer总数明显超过了集群一般可以承受的水平。继续调整参数设置，inputlines：mapper：100reducer：5hdfsadmin hadoop jar hadoop-test-2.6.0-mr1-cdh5.4.9.jar mrbench -numRuns 10 -inputLines -maps 100 -reduces 5完成时间：28682ms，即28秒。在此参数设置下，基本上符合集群负载的一般水平，mapper&reducer数设置较为合理，完成时间比较理想，即数据量越大，Hadoop越能够体现其优势。dfs.datanode.handler.cou

12、nt20dfs.datanode.max.transfer.threads8192hdfsadmin hadoop jar hadoop-test-2.6.0-mr1-cdh5.4.9.jar mrbench -numRuns 5015996ms,16shdfsadmin hadoop jar hadoop-test-2.6.0-mr1-cdh5.4.9.jar mrbench -numRuns 10 -inputLines -maps 100 -reduces 528975ms,29s3. 利用全局排序Terasort测试MapReduce执行性能cd /opt/cloudera/parce

13、ls/CDH-5.4.9-1.cdh5.4.9.p0.19/jars生成10G数据：hdfsadmin hadoop jar hadoop-examples.jar teragen -Dmapred.map.tasks=100 /home/songuanglei/gen10G排序：hdfsadmin hadoop jar hadoop-examples.jar terasort -Dmapred.reduce.tasks=100/60/10/5 /home/songuanglei/gen10G /home/songuanglei/output10Gmap数目为2，不断调整reducer数目为1

14、00、60、10、5，其执行时间趋势如下图：结论：reducer数越接近集群节点数目，其执行速度越快。生成100G数据：hdfsadmin hadoop jar hadoop-examples.jar teragen -Dmapred.map.tasks=100 0 /home/songuanglei/gen100G排序：hdfsadmin hadoop jar hadoop-examples.jar terasort -Dmapred.reduce.tasks=100/6010/5 /home/songuanglei/gen100G /home/songuanglei/output100Gm

15、ap数目为800，不断调整reducer数目为100、60、10、5，其执行时间趋势如下图：结论：随着处理数据的增大，map阶段耗时显著增加，成为整个Job执行的重点，reducer数越接近集群节点数目，其执行速度越快。附：I. 验证是否有序hdfsadmin hadoop jar hadoop-examples.jar teravalidate /home/songuanglei/output100G /home/songuanglei/validate100G4. 利用wordcount测试MR执行性能wordcount是CPU资源消耗型的操作如下：hdfsadmin hadoop jar hadoop-examples.jar wordcount -Dmapred.reduce.tasks=10 /user/songguanglei/_status_data.csv /user/songguanglei/output基本情况：输入文件：622MB默认mapper数：

人人文库> 全部分类> 教育资料 > 辅导培训

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

Hadoop集群测试报告

文档简介

温馨提示

最新文档

评论

Hadoop集群测试报告

文档简介

温馨提示

最新文档

评论

相关文档