版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、测试报告一、 集群设置1. 服务器配置CPU24内存128G带宽1024M磁盘44T磁盘吞吐预计100M/s2. Hadoop服务部署HADOOP-12-151NameNode、Balancer、Hive Gateway、Spark Gateway、ResourceManager、Zk ServerHADOOP-12-152DataNode、SNN、HFS、Hive Gateway、WebHCat、Hue、Impala Deamon、CM Server Monitor、CM Activity Monitor、CM Host Monitor、CM Event Server、CM Alert Pu
2、blisher、Oozie Server、Spark History Server、Spark Gateway、NodeManager、JobHistory Server、Zk ServerHADOOP-12-153DataNode、Hive Gateway、HiveMetastore、HiveServer2、Impala Catalog、Impala StateStore、Impala Deamon、Spark Gateway、NodeManager、Zk ServerHADOOP-12-154DataNode、Hive Gateway、Impala Deamon、Spark Gateway
3、、NodeManager、Sqoop2HADOOP-12-155DataNode、Hive Gateway、Impala Deamon、Spark Gateway、NodeManager、Zk ServerHADOOP-12-156DataNode、Hive Gateway、Impala Deamon、Spark Gateway、NodeManager、Zk Server3. hadoop参数设置yarnyarn.nodemanager.resource.memory-mbyarn.scheduler.minimum-allocation-mb4096yarn.scheduler.maximu
4、m-allocation-mb32768yarn.scheduler.increment-allocation-mb4096yarn.nodemanager.resource.cpu-vcores24yarn.nodemanager.vmem-pmem-ratio3.1mapreducemapreduce.map.memory.mb4096mapreduce.reduce.memory.mb8192mapreduce.map.java.opts3072mapreduce.reduce.java.opts6144mapreduce.task.io.sort.mb1536mapreduce.tas
5、node.handler.count35dfs.da
6、tanode.handler.count3dfs.datanode.max.transfer.threads4096二、 基准测试1. HDFS读写的吞吐性能1.1 连续10次执行如下写操作,其性能见图示:cd /opt/cloudera/parcels/CDH-5.4.9-1.cdh5.4.9.p0.19/jarshdfsadmin hadoop jar hadoop-test-2.6.0-mr1-cdh5.4.9.jar TestDFSIO -write -nrFiles 10 -fileSize 1000 -resFile /tmp/TestDFSIO_results.log其具体数据见
7、表格: No.Throughput mb/secAverage IO rate mb/secTest exec time sec77573974825416197698179781063均值4HDFS写文件吞吐均值:26.76MS平均执行时间:61.54S占用带宽:53.52MS结论:HDFS写,其磁盘吞吐基本上处于理想状态,且在此吞吐水平上其网络带宽占用较少,没有造成明显
8、的带宽负载。1.2连续10次执行如下读操作,其性能见图示:hdfsadmin hadoop jar hadoop-test-2.6.0-mr1-cdh5.4.9.jar TestDFSIO -read -nrFiles 10 -fileSize 1000 -resFile /tmp/TestDFSIO_results.logMap Task平均吞吐:67.5M/S 。文件的平均IO速度:288.5M/S,基本符合理想状态。附:I. 带宽计算过程:10000/61.54/26.76=6,10个文件则10个进程并发,复本数为2,则有1份网络传输,10个进程并发在5台机器上,基本上每台机器有2个写进
9、程,则网络流量大约为:26.76M/S1*2=53.52M,远远低于千兆网络的带宽。II. 清除测试数据:dfsadmin hadoop jar hadoop-test-2.6.0-mr1-cdh5.4.9.jar TestDFSIO cleandfs.datanode.handler.count20dfs.datanode.max.transfer.threads8192写性能:基本上与之前相当。读性能:Map Task平均吞吐:65.1M/S 。文件的平均IO速度:198.5M/S。2. mrbench基准测试重复执行小作业50次,检查平均执行时间hdfsadmin hadoop jar
10、hadoop-test-2.6.0-mr1-cdh5.4.9.jar mrbench -numRuns 50基本情况,上述操作完全来自默认值:inputlines:1mapper:2reducer:1完成时间:17986ms,即17秒。修改上述各参数的设置,inputlines:mapper:1000reducer:200hdfsadmin hadoop jar hadoop-test-2.6.0-mr1-cdh5.4.9.jar mrbench -numRuns 10 -inputLines -maps 1000 -reduces 200完成时间:ms,即190秒。在此参数设置下,集群负载很
11、重,mapper&reducer总数明显超过了集群一般可以承受的水平。继续调整参数设置,inputlines:mapper:100reducer:5hdfsadmin hadoop jar hadoop-test-2.6.0-mr1-cdh5.4.9.jar mrbench -numRuns 10 -inputLines -maps 100 -reduces 5完成时间:28682ms,即28秒。在此参数设置下,基本上符合集群负载的一般水平,mapper&reducer数设置较为合理,完成时间比较理想,即数据量越大,Hadoop越能够体现其优势。dfs.datanode.handler.cou
12、nt20dfs.datanode.max.transfer.threads8192hdfsadmin hadoop jar hadoop-test-2.6.0-mr1-cdh5.4.9.jar mrbench -numRuns 5015996ms,16shdfsadmin hadoop jar hadoop-test-2.6.0-mr1-cdh5.4.9.jar mrbench -numRuns 10 -inputLines -maps 100 -reduces 528975ms,29s3. 利用全局排序Terasort测试MapReduce执行性能cd /opt/cloudera/parce
13、ls/CDH-5.4.9-1.cdh5.4.9.p0.19/jars生成10G数据:hdfsadmin hadoop jar hadoop-examples.jar teragen -Dmapred.map.tasks=100 /home/songuanglei/gen10G排序:hdfsadmin hadoop jar hadoop-examples.jar terasort -Dmapred.reduce.tasks=100/60/10/5 /home/songuanglei/gen10G /home/songuanglei/output10Gmap数目为2,不断调整reducer数目为1
14、00、60、10、5,其执行时间趋势如下图:结论:reducer数越接近集群节点数目,其执行速度越快。生成100G数据:hdfsadmin hadoop jar hadoop-examples.jar teragen -Dmapred.map.tasks=100 0 /home/songuanglei/gen100G排序:hdfsadmin hadoop jar hadoop-examples.jar terasort -Dmapred.reduce.tasks=100/6010/5 /home/songuanglei/gen100G /home/songuanglei/output100Gm
15、ap数目为800,不断调整reducer数目为100、60、10、5,其执行时间趋势如下图:结论:随着处理数据的增大,map阶段耗时显著增加,成为整个Job执行的重点,reducer数越接近集群节点数目,其执行速度越快。附:I. 验证是否有序hdfsadmin hadoop jar hadoop-examples.jar teravalidate /home/songuanglei/output100G /home/songuanglei/validate100G4. 利用wordcount测试MR执行性能wordcount是CPU资源消耗型的操作如下:hdfsadmin hadoop jar hadoop-examples.jar wordcount -Dmapred.reduce.tasks=10 /user/songguanglei/_status_data.csv /user/songguanglei/output基本情况:输入文件:622MB默认mapper数:
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 河道治理雨季施工方案
- 修补屋顶漏水协议合同(2篇)
- 公园绿化修复合同(2篇)
- 充电桩维保安全合同范本(2篇)
- 大数据技术在水产养殖中的应用优化方案设计
- 基于物联网技术的农业现代化设备集成方案
- 新能源自燃保密协议书范文范本
- 住家保姆照顾老年人合同协议书范文
- 家庭车辆挂别人名下协议书范文
- 摩托车牌照协议书范文范本
- 钢结构防腐防火涂装工程施工方案
- 飞机仪电与飞控系统原理智慧树知到期末考试答案章节答案2024年中国人民解放军海军航空大学
- 酒店数字化运营概论 课件 1.2 网络营销与电子商务
- 钢结构工程施工(第五版) 课件 2项目二 焊接
- 电信营业厅运营方案策划书(2篇)
- 2024届高考语文复习:教考衔接背景下的诗歌比较阅读+课件
- 小儿推拿的课件
- (高清版)WST 359-2024 血栓与止血检验常用项目的标本采集与处理
- -人教版数学九年级上册第二十三章《-中心对称图形》课件
- 护理敏感质量指标的管理和运用(最终版)
- 肠梗阻的业务查房
评论
0/150
提交评论