




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、测试报告一、 集群设置1. 服务器配置CPU24内存128G带宽1024M磁盘44T磁盘吞吐预计100M/s2. Hadoop服务部署HADOOP-12-151NameNode、Balancer、Hive Gateway、Spark Gateway、ResourceManager、Zk ServerHADOOP-12-152DataNode、SNN、HFS、Hive Gateway、WebHCat、Hue、Impala Deamon、CM Server Monitor、CM Activity Monitor、CM Host Monitor、CM Event Server、CM Alert Pu
2、blisher、Oozie Server、Spark History Server、Spark Gateway、NodeManager、JobHistory Server、Zk ServerHADOOP-12-153DataNode、Hive Gateway、HiveMetastore、HiveServer2、Impala Catalog、Impala StateStore、Impala Deamon、Spark Gateway、NodeManager、Zk ServerHADOOP-12-154DataNode、Hive Gateway、Impala Deamon、Spark Gateway
3、、NodeManager、Sqoop2HADOOP-12-155DataNode、Hive Gateway、Impala Deamon、Spark Gateway、NodeManager、Zk ServerHADOOP-12-156DataNode、Hive Gateway、Impala Deamon、Spark Gateway、NodeManager、Zk Server3. hadoop参数设置yarnyarn.nodemanager.resource.memory-mbyarn.scheduler.minimum-allocation-mb4096yarn.scheduler.maximu
4、m-allocation-mb32768yarn.scheduler.increment-allocation-mb4096yarn.nodemanager.resource.cpu-vcores24yarn.nodemanager.vmem-pmem-ratio3.1mapreducemapreduce.map.memory.mb4096mapreduce.reduce.memory.mb8192mapreduce.map.java.opts3072mapreduce.reduce.java.opts6144mapreduce.task.io.sort.mb1536mapreduce.tas
5、node.handler.count35dfs.da
6、tanode.handler.count3dfs.datanode.max.transfer.threads4096二、 基准测试1. HDFS读写的吞吐性能1.1 连续10次执行如下写操作,其性能见图示:cd /opt/cloudera/parcels/CDH-5.4.9-1.cdh5.4.9.p0.19/jarshdfsadmin hadoop jar hadoop-test-2.6.0-mr1-cdh5.4.9.jar TestDFSIO -write -nrFiles 10 -fileSize 1000 -resFile /tmp/TestDFSIO_results.log其具体数据见
7、表格: No.Throughput mb/secAverage IO rate mb/secTest exec time sec77573974825416197698179781063均值4HDFS写文件吞吐均值:26.76MS平均执行时间:61.54S占用带宽:53.52MS结论:HDFS写,其磁盘吞吐基本上处于理想状态,且在此吞吐水平上其网络带宽占用较少,没有造成明显
8、的带宽负载。1.2连续10次执行如下读操作,其性能见图示:hdfsadmin hadoop jar hadoop-test-2.6.0-mr1-cdh5.4.9.jar TestDFSIO -read -nrFiles 10 -fileSize 1000 -resFile /tmp/TestDFSIO_results.logMap Task平均吞吐:67.5M/S 。文件的平均IO速度:288.5M/S,基本符合理想状态。附:I. 带宽计算过程:10000/61.54/26.76=6,10个文件则10个进程并发,复本数为2,则有1份网络传输,10个进程并发在5台机器上,基本上每台机器有2个写进
9、程,则网络流量大约为:26.76M/S1*2=53.52M,远远低于千兆网络的带宽。II. 清除测试数据:dfsadmin hadoop jar hadoop-test-2.6.0-mr1-cdh5.4.9.jar TestDFSIO cleandfs.datanode.handler.count20dfs.datanode.max.transfer.threads8192写性能:基本上与之前相当。读性能:Map Task平均吞吐:65.1M/S 。文件的平均IO速度:198.5M/S。2. mrbench基准测试重复执行小作业50次,检查平均执行时间hdfsadmin hadoop jar
10、hadoop-test-2.6.0-mr1-cdh5.4.9.jar mrbench -numRuns 50基本情况,上述操作完全来自默认值:inputlines:1mapper:2reducer:1完成时间:17986ms,即17秒。修改上述各参数的设置,inputlines:mapper:1000reducer:200hdfsadmin hadoop jar hadoop-test-2.6.0-mr1-cdh5.4.9.jar mrbench -numRuns 10 -inputLines -maps 1000 -reduces 200完成时间:ms,即190秒。在此参数设置下,集群负载很
11、重,mapper&reducer总数明显超过了集群一般可以承受的水平。继续调整参数设置,inputlines:mapper:100reducer:5hdfsadmin hadoop jar hadoop-test-2.6.0-mr1-cdh5.4.9.jar mrbench -numRuns 10 -inputLines -maps 100 -reduces 5完成时间:28682ms,即28秒。在此参数设置下,基本上符合集群负载的一般水平,mapper&reducer数设置较为合理,完成时间比较理想,即数据量越大,Hadoop越能够体现其优势。dfs.datanode.handler.cou
12、nt20dfs.datanode.max.transfer.threads8192hdfsadmin hadoop jar hadoop-test-2.6.0-mr1-cdh5.4.9.jar mrbench -numRuns 5015996ms,16shdfsadmin hadoop jar hadoop-test-2.6.0-mr1-cdh5.4.9.jar mrbench -numRuns 10 -inputLines -maps 100 -reduces 528975ms,29s3. 利用全局排序Terasort测试MapReduce执行性能cd /opt/cloudera/parce
13、ls/CDH-5.4.9-1.cdh5.4.9.p0.19/jars生成10G数据:hdfsadmin hadoop jar hadoop-examples.jar teragen -Dmapred.map.tasks=100 /home/songuanglei/gen10G排序:hdfsadmin hadoop jar hadoop-examples.jar terasort -Dmapred.reduce.tasks=100/60/10/5 /home/songuanglei/gen10G /home/songuanglei/output10Gmap数目为2,不断调整reducer数目为1
14、00、60、10、5,其执行时间趋势如下图:结论:reducer数越接近集群节点数目,其执行速度越快。生成100G数据:hdfsadmin hadoop jar hadoop-examples.jar teragen -Dmapred.map.tasks=100 0 /home/songuanglei/gen100G排序:hdfsadmin hadoop jar hadoop-examples.jar terasort -Dmapred.reduce.tasks=100/6010/5 /home/songuanglei/gen100G /home/songuanglei/output100Gm
15、ap数目为800,不断调整reducer数目为100、60、10、5,其执行时间趋势如下图:结论:随着处理数据的增大,map阶段耗时显著增加,成为整个Job执行的重点,reducer数越接近集群节点数目,其执行速度越快。附:I. 验证是否有序hdfsadmin hadoop jar hadoop-examples.jar teravalidate /home/songuanglei/output100G /home/songuanglei/validate100G4. 利用wordcount测试MR执行性能wordcount是CPU资源消耗型的操作如下:hdfsadmin hadoop jar hadoop-examples.jar wordcount -Dmapred.reduce.tasks=10 /user/songguanglei/_status_data.csv /user/songguanglei/output基本情况:输入文件:622MB默认mapper数:
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 玻璃材料的生物相容性考核试卷
- 核电工程现场施工安全防护设备使用考核试卷
- 木材加工企业的客户关系管理系统考核试卷
- 批发行业互联网转型之路考核试卷
- 康复辅具在康复医学研究方法的革新考核试卷
- 煤炭行业投资风险评价考核试卷
- 文化用化学品在声音记录材料的技术发展考核试卷
- 2025届安徽省界首市下学期高三数学试题二模考试试卷
- 医疗数据要素市场交易权限管理
- 美国发动“对等关税战”的影响
- 铝材切割机操作规程
- 浙江大学《普通化学》(第6版)笔记和课后习题(含考研真题)详解
- 电磁学知到章节答案智慧树2023年天津大学
- EIM Book 1 Unit 10 Don't give up单元知识要点
- 《塑造打胜仗的团队系列 8册 》读书笔记思维导图
- 新乡县恒新热力有限公司集中供热项目二期工程变更项目环境影响报告
- A3报告解析课件
- “越……越……”“越来越……”课件
- 小学生必背古诗75首+80首(精排+目录)
- 马工程《刑法学(下册)》教学课件 第16章 刑法各论概述
- 2023年新改版教科版四年级下册科学活动手册答案
评论
0/150
提交评论