思科UCS业务高性能测试报告_第1页
思科UCS业务高性能测试报告_第2页
思科UCS业务高性能测试报告_第3页
思科UCS业务高性能测试报告_第4页
思科UCS业务高性能测试报告_第5页
已阅读5页,还剩62页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、思科UCS usNIC低时延I/O技术网络性能LinpackFluent应用性能测试报告 第 PAGE 66 页 共 NUMPAGES 67 页目 录 TOC o 1-3 h z HYPERLINK l _Toc394391043 1、绪论: PAGEREF _Toc394391043 h 3 HYPERLINK l _Toc394391044 2、测试环境准备 PAGEREF _Toc394391044 h 4 HYPERLINK l _Toc394391045 2.1测试目的 PAGEREF _Toc394391045 h 4 HYPERLINK l _Toc394391046 2.2测试

2、人员 PAGEREF _Toc394391046 h 4 HYPERLINK l _Toc394391047 2.3测试设备配置 PAGEREF _Toc394391047 h 4 HYPERLINK l _Toc394391048 2.4测试组网拓扑 PAGEREF _Toc394391048 h 5 HYPERLINK l _Toc394391049 2.5准备工作注意事项 PAGEREF _Toc394391049 h 9 HYPERLINK l _Toc394391050 2.5.1关于网卡驱动 PAGEREF _Toc394391050 h 9 HYPERLINK l _Toc394

3、391051 2.5.2关于MTU PAGEREF _Toc394391051 h 9 HYPERLINK l _Toc394391052 2.5.3Linux性能测试调优 PAGEREF _Toc394391052 h 12 HYPERLINK l _Toc394391053 2.5.4时延调优方法 PAGEREF _Toc394391053 h 13 HYPERLINK l _Toc394391054 2.5.5关于usNIC配置向导 PAGEREF _Toc394391054 h 16 HYPERLINK l _Toc394391055 2.5.6关于Fabric A/B双路径 PAGE

4、REF _Toc394391055 h 16 HYPERLINK l _Toc394391056 2.5.7关于Linux防火墙 PAGEREF _Toc394391056 h 17 HYPERLINK l _Toc394391057 2.5.8关于组网设备选型 PAGEREF _Toc394391057 h 17 HYPERLINK l _Toc394391058 2.5.9关于OpenMPI PAGEREF _Toc394391058 h 18 HYPERLINK l _Toc394391059 3、网络性能测试 PAGEREF _Toc394391059 h 19 HYPERLINK l

5、 _Toc394391060 3.1使用NetPerf工具测试 PAGEREF _Toc394391060 h 19 HYPERLINK l _Toc394391061 3.1.1安装 PAGEREF _Toc394391061 h 19 HYPERLINK l _Toc394391062 3.1.2测试网络带宽 PAGEREF _Toc394391062 h 19 HYPERLINK l _Toc394391063 3.1.3测试网络时延 PAGEREF _Toc394391063 h 21 HYPERLINK l _Toc394391064 3.2使用Iperf工具测试 PAGEREF _

6、Toc394391064 h 21 HYPERLINK l _Toc394391065 3.2.1安装 PAGEREF _Toc394391065 h 22 HYPERLINK l _Toc394391066 3.2.2测试网络带宽 PAGEREF _Toc394391066 h 22 HYPERLINK l _Toc394391067 3.2.3测试时延抖动和丢包率: PAGEREF _Toc394391067 h 24 HYPERLINK l _Toc394391068 3.3使用Qperf工具测试 PAGEREF _Toc394391068 h 25 HYPERLINK l _Toc39

7、4391069 3.3.1安装 PAGEREF _Toc394391069 h 25 HYPERLINK l _Toc394391070 3.3.2测试网络带宽和时延 PAGEREF _Toc394391070 h 26 HYPERLINK l _Toc394391071 4、usNIC低时延I/O技术测试 PAGEREF _Toc394391071 h 27 HYPERLINK l _Toc394391072 4.1usNIC安装 PAGEREF _Toc394391072 h 29 HYPERLINK l _Toc394391073 4.1.1软硬件要求 PAGEREF _Toc39439

8、1073 h 29 HYPERLINK l _Toc394391074 4.1.2在UCSM上配置usNIC属性和BIOS设置 PAGEREF _Toc394391074 h 30 HYPERLINK l _Toc394391075 4.1.3激活Intel IOMMU驱动 PAGEREF _Toc394391075 h 36 HYPERLINK l _Toc394391076 4.1.4安装usNIC Linux驱动程序 PAGEREF _Toc394391076 h 37 HYPERLINK l _Toc394391077 4.1.5校验usNIC安装成功 PAGEREF _Toc3943

9、91077 h 38 HYPERLINK l _Toc394391078 4.2usNIC时延测试 PAGEREF _Toc394391078 h 40 HYPERLINK l _Toc394391079 4.3UCS产品部提供的usNIC时延测试 PAGEREF _Toc394391079 h 41 HYPERLINK l _Toc394391080 5、网络性能测试结果汇总 PAGEREF _Toc394391080 h 43 HYPERLINK l _Toc394391081 5.1.1吞吐性能测试结果 PAGEREF _Toc394391081 h 43 HYPERLINK l _To

10、c394391082 5.1.2时延性能测试结果 PAGEREF _Toc394391082 h 43 HYPERLINK l _Toc394391083 6、linpack测试 PAGEREF _Toc394391083 h 45 HYPERLINK l _Toc394391084 6.1一个计算节点的Linpack系统效率 PAGEREF _Toc394391084 h 48 HYPERLINK l _Toc394391085 6.2两个计算节点的Linpack系统效率 PAGEREF _Toc394391085 h 50 HYPERLINK l _Toc394391086 6.3三个计算

11、节点的Linpack系统效率 PAGEREF _Toc394391086 h 51 HYPERLINK l _Toc394391087 6.4四个计算节点的Linpack系统效率 PAGEREF _Toc394391087 h 53 HYPERLINK l _Toc394391088 6.5usNIC优化后的四节点Linpack系统效率 PAGEREF _Toc394391088 h 55 HYPERLINK l _Toc394391089 6.6usNIC优化+OpenMPi的四节点Linpack系统效率 PAGEREF _Toc394391089 h 56 HYPERLINK l _Toc

12、394391090 6.7Linpack系统效率测试汇总 PAGEREF _Toc394391090 h 56 HYPERLINK l _Toc394391091 6.8UCS产品部提供的参考测试数据 PAGEREF _Toc394391091 h 57 HYPERLINK l _Toc394391092 7、Fluent测试 PAGEREF _Toc394391092 h 59 HYPERLINK l _Toc394391093 7.1Fluent测试组网拓扑 PAGEREF _Toc394391093 h 59 HYPERLINK l _Toc394391094 7.2Fluent测试结果

13、 PAGEREF _Toc394391094 h 60 HYPERLINK l _Toc394391095 附件:统一计算系统产品简介 PAGEREF _Toc394391095 h 62绪论:近几年来,数据中心网络融合发展趋势已被用户所认同,采用融合以太网基础架构构建数据中心网络已经成为主流,它给用户带来很多价值,节省投资,可以简化网络管理,提高资源利用率,降低能耗等。在以思科为首的众多网络和存储厂商的推动下,数据中心LAN以太网和SAN存储网络融合已被用户所认可,并得到规模部署。面对数据中心最后一块异构网络:HPC高性能网络,几年来,众多厂商一直在推动以太网技术的发展和创新,期望通过高性能

14、以太网融合HPC领域所广泛采用的Infiniband网络,真正实现数据中心LAN/SAN/IB三网合一。去年,思科创新地推出了在思科UCS服务器上实现的低时延I/O技术:usNIC技术,它在思科VIC 1200系列CNA网卡上,通过增强型Firmware结合一系列OS软件库实现旁路操作系统内核直接读写应用程序数据,从而实现低时延和高I/O吞吐,usNIC技术不仅可实现类似IB的性能,同时保持以太网的通用性、运营/可管理性、低成本的优势。以下为usNIC协议栈。测试环境准备测试目的测试思科UCS刀片系统基础网络性能,包括吞吐、时延、抖动和丢包率等测试usNIC低时延I/O技术对网络时延的优化能力

15、测试usNIC低时延I/O技术对Linpack计算效能比、行业常用并行应用运行等方面的提升能力。测试ISV合作伙伴景行公司软件产品在思科UCS硬件上面的运行测试以及效率测试。测试人员测试设备配置硬件配置:部件型号数量每台配置矩阵互联交换机Cisco UCS FI 6248UP232口Unified Port(通用型接口,可灵活定义为千兆/万兆/FCOE/FC)服务器机箱Cisco UCS Chassis 51082UCS服务器机箱,冗余电源、风扇,8个服务器刀片槽位,两个2208XP IOM模块刀片服务器(计算节点)Cisco UCS B200 M3 4两棵E5-2680 CPU、16*8=1

16、28G内存、2块300G SAS 15K硬盘、1块VIC1240网卡(4口万兆网卡)刀片服务器(I/O节点)Cisco UCS B22 M3 2两棵E5-2450 CPU、12*8=96G内存、2块300G SAS 15K硬盘、1块VIC1240网卡(4口万兆网卡)机架服务器(FC存储阵列)Cisco UCS C240 1两棵E5-2665 CPU、64G内存、12块2T 希捷硬盘、1块9266-8i RAID卡、1块Emulex 双口8G FC HBA、1块INTEL 双口10G网卡,满配光模块Nexenta光纤通道FC存储软件以太网交换机Cisco Catalyst 3750X-24124

17、口千兆以太网交换机,用于连接FI 6248UP与办公网软件配置项目名称说明管理软件UCS Manager 2.2(1c)Cisco UCS统一计算系统管理软件,内置于UCS 6248UP矩阵互联交换机,用于对所有UCS系统组件进行统一管理监控。服务器操作系统Red Hat Enterprise Linux Server release 6.5 (Santiago)Nexenta存储软件NexentaStor Enterprise Edition4.0.2支持FC/NAS/iSCSI并行文件系统Lustre测试组网拓扑 本次测试环境的组网拓扑图如下所示:UCSM管理系统上所看到主拓扑图:计算节点

18、和I/O节点机箱位置及vNIC/vHBA网卡划分情况如下:FI 6248交换机工作模式说明:两台 FI6248交换机分别通过E1/17端口以千兆链路连接至上级交换机Catalyst 3750X上,以实现网络互通。两台 FI6248交换机分别通过FC 1/31端口以8G FC链路连接至C240存储阵列上A/B端口上。由于Linux操作系统缺省没有安装FC Multi-Path多路径软件,当连接至FC 存储阵列有两条路径A/B时,会造成存储在逻辑卷中的数据损坏,因此为简单起见,将A路径人为断开。登录地址:设备名称访问地址用户名/口令备注FI 6248-UCSMVIP: 02 FI-A: 03FI-

19、B: 04admin/ciscoMASK:GW:3750交换机侧接入接口G1/0/13、G1/0/24, Trunk计算节点主机1root/jhadminOS安装在本地硬盘Node01Eth0GW:54/24Eth1GW:54/24计算节点主机2root/jhadminOS安装在本地硬盘Node02Eth0GW:54/24Eth1GW:54/24计算节点主机3root/jhadminOS安装在本地硬盘Node03Eth0GW:54/24Eth1GW:54/24计算节点主机4root/jhadminOS安装在本地硬盘Node04Eth0GW:54/24Eth1GW:54/24I/O节点主机1ro

20、ot/jhadminOS安装在本地硬盘IO1Eth0GW:54/24Eth134GW:54/24I/O节点主机2root/jhadminOS安装在本地硬盘IO2Eth0GW:54/24Eth134GW:54/24FC存储阵列CIMC 带外管理IP:01admin/cisco注:采用C240机架服务器+Emulex 8G FC HBA卡+Nexenta公司的FC存储软件实现Nexenta存储软件WEB: 05:2000root/root1234 console Login:admin/nexenta准备工作注意事项关于网卡驱动目前Red Hat 6.5版本在安装过程中可以识别出思科VIC 124

21、0网卡并自动加载Eth/HBA驱动,最初我们并没有刻意安装思科网站下载的UCS驱动程序包。在网卡吞吐性能测试时,出现了前后测试结果巨幅波动的情况。如下所示,万兆端口吞吐连续三次的测试结果从9342Mbps8741.61199.48Mbps。rootnode04 # netperf -H node02 -l 60 MIGRATED TCP STREAM TEST from () port 0 AF_INET to node02 () port 0 AF_INETRecv Send Send Socket Socket Message Elapsed Size Size Size Time Thr

22、oughput bytes bytes bytes secs. 106bits/sec 87380 16384 16384 60.00 9342.70rootnode03 # netperf -H node01 -l 60MIGRATED TCP STREAM TEST from () port 0 AF_INET to node01 () port 0 AF_INETRecv Send Send Socket Socket Message Elapsed Size Size Size Time Throughput bytes bytes bytes secs. 106bits/sec 87

23、380 16384 16384 60.00 8741.61 rootnode04 # netperf -H node03 -l 60MIGRATED TCP STREAM TEST from () port 0 AF_INET to node03 () port 0 AF_INETRecv Send Send Socket Socket Message Elapsed Size Size Size Time Throughput bytes bytes bytes secs. 106bits/sec 87380 16384 16384 60.48 199.48安装思科网站下载的UCS驱动程序包

24、,对应OS版本的网卡驱动程序目录地址为:ucs-bxxx-drivers.2.2.1a.isoLinuxNetworkCiscoMLOMRHELRHEL6.5enic-2-rhel6u5-dd.iso。安装结束后,再次测试,问题解决,吞吐稳定在9300Mbps左右。因此建议在做大流量大压力的网络性能测试时,包括吞吐、时延等,一定要事先打好驱动。备注:检查驱动是否安装的Linux命令:rpm -qa|grep enic。在安装usNIC的过程中,会自动打上eNIC网卡驱动。关于MTU调整网卡的MTU至最大值,以获得最大的吞吐。原理是通过大帧传输,尽量减少头部开销。如下所示:UCS VIC网卡MT

25、U设置步骤如下:-Login to the UCSM, Click on the LAN Tab.-Expand LANs, & LAN Cloud.-Click on the QoS System Class, Change the “Best-Effort” MTU to 9216.-Expand the Policies section on the LAN Tab. Right-Click on the QoS Polices and click “Create new QoS Policy”. Call it “Jumbo-Frames” or something similar.-

26、On the vNIC Template or actual vNIC on the Service Profile, set the “QoS Policy” to the new Policy.经过实际配置,发现vNIC 的MTU值最大只能设为9000。配置步骤截图如下所示:在Linux系统上查看MTU配置是否生效:rootnode03 # ifconfigeth0 Link encap:Ethernet HWaddr 00:25:B5:00:00:3E inet addr:32 Bcast:55 Mask: inet6 addr: fe80:225:b5ff:fe00:3e/64 Sco

27、pe:Link UP BROADCAST RUNNING MULTICAST MTU:9000 Metric:1 RX packets:7299030 errors:0 dropped:0 overruns:0 frame:0 TX packets:8041002 errors:0 dropped:0 overruns:0 carrier:0 collisions:0 txqueuelen:1000 RX bytes:10236473462 (9.5 GiB) TX bytes:10911048183 (10.1 GiB)eth1 Link encap:Ethernet HWaddr 00:2

28、5:B5:00:00:2E inet addr:32 Bcast:55 Mask: inet6 addr: fe80:225:b5ff:fe00:2e/64 Scope:Link UP BROADCAST RUNNING MULTICAST MTU:9000 Metric:1 RX packets:31383608 errors:6041 dropped:2008 overruns:0 frame:6041 TX packets:33525619 errors:0 dropped:0 overruns:0 carrier:0 collisions:0 txqueuelen:1000 RX by

29、tes:61283771525 (57.0 GiB) TX bytes:110823332628 (103.2 GiB)MTU调整前和MTU调整后,吞吐率的对比如下,从9342.70提升至9835.32Mbps:rootnode04 # netperf -H node02 -l 60 MIGRATED TCP STREAM TEST from () port 0 AF_INET to node02 () port 0 AF_INETRecv Send Send Socket Socket Message Elapsed Size Size Size Time Throughput bytes

30、bytes bytes secs. 106bits/sec 87380 16384 16384 60.00 9342.70rootnode03 # netperf -H node04 -l 60MIGRATED TCP STREAM TEST from () port 0 AF_INET to node04 () port 0 AF_INETRecv Send Send Socket Socket Message Elapsed Size Size Size Time Throughput bytes bytes bytes secs. 106bits/sec 87380 16384 1638

31、4 60.00 9835.32 Linux性能测试调优关于Linux环境下的UCS VIC网络性能测试,产品部门提供了参考文档,PDF文件名为:Networking Performance on RHEL with Cisco UCS 1240 & 1280 Virtual Interface Card (VIC)涉及MTU、BIOS及Adapter策略等 时延调优方法思科UCS刀片服务器/VIC网络适配器的出厂默认设置为虚拟化应用做了大量定制化设置,用户在测试时或生产使用时可以根据实际的应用场景对有关设置进行调整,以便发挥UCS最佳的性能。在没有调优之前,两计算节点间往返平均时延在124us

32、至130us左右,并不理想。rootnode03 # netperf -H node04 -t omni - -d rr -O THROUGHPUT, THROUGHPUT_UNITS, MIN_LATENCY, MAX_LATENCY, MEAN_LATENCY OMNI Send|Recv TEST from () port 0 AF_INET to node04 () port 0 AF_INETThroughput Throughput Minimum Maximum Mean Units Latency Latency Latency Microseconds Microsecond

33、s Microseconds 7670.76 Trans/s 42 40317 130.20rootnode04 # netperf -H node03 -t omni - -d rr -O THROUGHPUT, THROUGHPUT_UNITS, MIN_LATENCY, MAX_LATENCY, MEAN_LATENCYOMNI Send|Recv TEST from () port 0 AF_INET to node03 () port 0 AF_INETThroughput Throughput Minimum Maximum Mean Units Latency Latency L

34、atency Microseconds Microseconds Microseconds 8024.33 Trans/s 29 446 124.46rootnode03 # netperf -H node04 -t omni - -d rr -O THROUGHPUT, THROUGHPUT_UNITS, MIN_LATENCY, MAX_LATENCY, MEAN_LATENCYOMNI Send|Recv TEST from () port 0 AF_INET to node04 () port 0 AF_INETThroughput Throughput Minimum Maximum

35、 Mean Units Latency Latency Latency Microseconds Microseconds Microseconds 8024.43 Trans/s 91 284 124.46时延优化参数设置方法,主要涉及两个参数调整:UCS BIOS内的CPU设置Enhanced Intel SpeedStepUCS采用Intel的CPU,支持Enhanced Intel SpeedStep Technology(EIST),可以实现实时地动态切换CPU频率和电压,达到节能和保证处理器可长时间稳定工作。若将此项功能关闭,处理器将全速运作。服务器网卡延时发送和接收数据包UCS

36、B服务器配的是VIC网卡,该款网卡出厂默认配置rx-usecs的值为125微秒(CPU在收到中断请求至少等待125微秒才响应)。这样的设置主要是考虑到VIC网卡多用于虚拟化环境,需要对CPU的负载进行优化。若将此参数设为0,也就是说,不进行数据包收发的延时处理,让CPU马上响应数据包的转发。具体修改方法为:修改vNIC的Adapter policy,将“interrupt timer”设成“0”,OS 重启后rx-usecs默认值应该会变成“0”,可使用rootnode04 # ethtool -c eth0在重启后检查。设置方法如下图所示:修改前:rootnode04 # ethtool -

37、c eth0Coalesce parameters for eth0:Adaptive RX: off TX: offstats-block-usecs: 0sample-interval: 0pkt-rate-low: 0pkt-rate-high: 0rx-usecs: 125rx-frames: 0rx-usecs-irq: 0rx-frames-irq: 0tx-usecs: 125tx-frames: 0tx-usecs-irq: 0tx-frames-irq: 0rx-usecs-low: 0rx-frame-low: 0tx-usecs-low: 0tx-frame-low: 0

38、rx-usecs-high: 0rx-frame-high: 0tx-usecs-high: 0tx-frame-high: 0修改后:rootnode03 # ethtool -c eth0Coalesce parameters for eth0:Adaptive RX: off TX: offstats-block-usecs: 0sample-interval: 0pkt-rate-low: 0pkt-rate-high: 0rx-usecs: 0rx-frames: 0rx-usecs-irq: 0rx-frames-irq: 0tx-usecs: 0tx-frames: 0tx-us

39、ecs-irq: 0tx-frames-irq: 0rx-usecs-low: 0rx-frame-low: 0tx-usecs-low: 0tx-frame-low: 0rx-usecs-high: 0rx-frame-high: 0tx-usecs-high: 0tx-frame-high: 0参数优化后的测试结果,节点间往返平均时延从130us缩短至27us左右,提升明显,如下所示:rootnode04 # netperf -H node03 -t omni - -d rr -O THROUGHPUT, THROUGHPUT_UNITS, MIN_LATENCY, MAX_LATENCY

40、, MEAN_LATENCYOMNI Send|Recv TEST from () port 0 AF_INET to node03 () port 0 AF_INETThroughput Throughput Minimum Maximum Mean Units Latency Latency Latency Microseconds Microseconds Microseconds 36122.10 Trans/s 25 121 27.53 rootnode04 #rootnode03 # netperf -H node04 -t omni - -d rr -O THROUGHPUT,

41、THROUGHPUT_UNITS, MIN_LATENCY, MAX_LATENCY, MEAN_LATENCYOMNI Send|Recv TEST from () port 0 AF_INET to node04 () port 0 AF_INETThroughput Throughput Minimum Maximum Mean Units Latency Latency Latency Microseconds Microseconds Microseconds 36145.50 Trans/s 25 71 27.51 关于usNIC配置向导UCS产品部门提供了详实的Config Gu

42、ide,PDF文件名为:b_Cisco_usNIC_Deployment_Guide_For_B-Series_Blade_Servers(适用刀片)b_Cisco_usNIC_Deployment_Guide_For_Standalone_C-SeriesServers(适用机架)在这个文档里将UCSM的GUI和CLI配置方法都罗列出,可根据各人喜好选择一种方法配置就可以了。我用的是GUI图形界面,比较好理解。有一点要特别注意,在安装步骤上,文档并没有明确要求安装Linux infiniband程序包(Infiniband-related packages are not installed

43、 by default),但在安装过程中会出现以下报错,从而造成usNIC配置不成功:ibv_devinfo,系统提示无此命令/opt/cisco/usnic/bin/usnic_verbs_check出现2个warnings命令行输出截图如下: ibv_devinfo-bash: ibv_devinfo: command not foundopt/cisco/usnic/bin/usnic_verbs_checkenic RPM version 2-rhel6u5.el6 installedusnic_verbs RPM version 16-1 installedlibusnic_verb

44、s RPM version 16-1 installedOpen MPI RPM version 1.6.5cisco20-1 installedWARNING: No usnic verbs devices foundWARNING: No usnic verbs devices found2 warnings解决的办法是安装Linux infiniband程序包,具体命令如下: #yum groupinstall “Infiniband Support” 大小写区别的关于Fabric A/B双路径如果担心某些流量可能跨FI进行通信,从而影响到性能测试,可将vNIC0/vNIC1均定义为A/

45、B,而不是通常的A/B和B/A,不分担至两台FI上,以减少可能的故障环节。缺省时Linux不会自动安装multi-path存储多路径软件,测试时可考虑断掉一侧FI至存储阵列的FC链路,否则可能会因为双路径同时写故障,造成文件损坏。关于Linux防火墙一定要先停止Linux防火墙服务 ,否则可能会对测试工具的正常运行造成影响,如会造成测试工具netperf无法执行rootnode03 # service iptables stopiptables:将链设置为政策 ACCEPT:nat mangle filter 确定iptables:清除防火墙规则:确定iptables:正在卸载模块:确定关于组

46、网设备选型关于万兆组网设备选型建议:2008年,思科推出超低时延万兆以太网交换机Nexus3548交换机,端口到端口时延仅为250ns,网络性能最佳。关于40G组网设备选型建议:Nexus6000系列,端口到端口时延仅为1000ns,即1us。关于CPU选型:衡量计算机性能的一个重要指标就是计算峰值或者浮点计算峰值,它是指计算机每秒钟能完成的浮点计算最大次数,它主要是由CPU的主频决定的,尽可能选择高主频的CPU进行测试,并行应用性能会表现的更好,如E5-2690 CPU。关于内存选型:建议选择最高频率的CPU,频率越高内存运算速度越快,如目前主流的1866MHZ、1600 MHZ和1333

47、MHZ。关于OpenMPIusNIC技术目前支持OpenMPI消息传递接口进行调用,因此要求并行应用进程使用OpenMPI接口进行通信。目前市场主流的并行应用大多支持OpenMPI接口,如下所示:Commercial ISV MPI applications: FEA/CAE/CDF Manufacturing, Seismic & Reservoir simulations, automotive & crash simulationDassaults Simulia (aka. Abaqus), Ansys Fluent, CD-Adapcos Star-CCM+。并行应用程序修改MPI调

48、用类也很简单,仅需修改运行脚本文件即可。usNIC是不是重写了OpenMPI?如果是的话,就意味着对其他MPI或者其他版本的OpenMPI不支持?很多商业应用不是用的OpenMPI,也就意味着这些商业应用不能使用usNIC带来的性能提升?没有重新写openmpi,usNIC 驱动里的openmpi就是标准的,只不过思科认证了这个版本而已,并将他打包入驱动中。根据思科研发部门和一些linux发行版,就是红帽啦的roadmap,今后会在发行版里直接加入usNIC。Intel的MPI在某些并行应用上也能很好的工作,刚开始在linpack基准测试时,使用的就是集成的Intel MPI,效果非常不错。同

49、时在几篇BU提供的ppt里的测试数据也使用的是intel的mpi,如:32节点89%就是用intel mpi测试的。intel的全套东东:包括数学库,mpi,编译器等确实方便,但要不少钱。而OpenMPI是开源的,且思科是主要贡献者。总之:我们用标准的openmpi能发挥最大性能。网络性能测试主要测试两计算节点间端到端网络性能,包括吞吐、时延和抖动等指标。端到端网络路径为:刀片服务器VIC1240万兆网卡刀片机箱IOM模块FI 6248互联交换机刀片机箱IOM模块刀片服务器VIC1240万兆网卡。使用NetPerf工具测试Netperf是测试不同类型的网络性能的benchmark工具,大多数网

50、络类型TCP/UDP端对端的性能,得到网络上不同类型流量的性能参数。Netperf根据应用的不同可以进行不同模式的网络性能测试,即:批量数据传输模式和请求/应答模式。Netperf测试结果所反映的是一个系统能够以多快的速度向另外一个系统发送数据,以及另外一个系统能够以多快的速度接收数据。安装下载netperf的安装包:/netperf/netperf-2.4.5.tar.gz解压tar -zxvf netperf-2.4.5.tar.gz,进入安装目录并且执行:./configuer & make & makeinstallC/S结构,当netserver在server端启动后,就可在clie

51、nt端运行netperf来测试网络的性能。启动netperf的服务:/usr/local/bin/netserver start Starting netserver at port 12865Starting netserver at hostname port 12865 and family AF_UNSPEC停止防火墙服务 (一定要关闭,否则有时netperf无法执行)service iptables stop测试网络带宽netperf语法格式为:Netperf global options -test-specific optionsglobal options 可选参数,其中可选的

52、参数有如下几个:参数说明-H host指定远端运行netserver的server IP地址-l testlen指定测试的时间长度(秒)-t testname指定进行的测试类型(TCP_STREAM,UDP_STREAM,TCP_RR,TCP_CRR,UDP_RR)根据使用传输协议的不同,批量数据传输分为TCP批量传输和UDP批量传输。Netperf缺省情况下进行TCP批量传输,即-t TCP_STREAM。测试过程中,netperf向netserver发送批量的TCP数据分组,以确定数据传输过程中的吞吐量:TCP批量传输具体测试命令:1、60秒采样,MTU为1500字节时Node02节点做为

53、server端:/usr/local/bin/netserver startNode04节点做为Client端:netperf -H node02 -l 60rootnode04 # netperf -H node02 -l 60 MIGRATED TCP STREAM TEST from () port 0 AF_INET to node02 () port 0 AF_INETRecv Send Send Socket Socket Message Elapsed Size Size Size Time Throughput bytes bytes bytes secs. 106bits/s

54、ec 87380 16384 16384 60.00 9342.702、60秒采样,MTU为9000字节时Node03节点做为server端:/usr/local/bin/netserver startNode04节点做为Client端:netperf -H node03 -l 60测试结果:3、300秒采样,MTU为9000字节时Node03节点做为server端:/usr/local/bin/netserver startNode04节点做为Client端:netperf -H node03 -l 300结果:测试结论:根据执行结果可以看出:MTU取值对吞吐影响比较明显,通过调整MTU,节

55、点间网络吞吐量可达 9876.90M,其中有1.2%左右的损耗,传输效率达98.8%;性能优秀。测试网络时延Node03节点做为server端:/usr/local/bin/netserver startNode04节点做为Client端:netperf -H node04 -t omni - -d rr -O THROUGHPUT, THROUGHPUT_UNITS, MIN_LATENCY, MAX_LATENCY, MEAN_LATENCY结果1:结果2:根据测试结果可以得到:节点间网络往返的平均延迟在26.02微秒。最小的为24微秒,最大达到191微秒。节点间网络单程的平均延迟在13.

56、01微秒。最小的为12微秒,最大达到95.5微秒。使用Iperf工具测试Iperf 是一个 TCP/IP 和 UDP/IP 的性能测量工具,能够提供网络吞吐率信息,以及震动、丢包率、最大段和最大传输单元大小等统计信息;测试网络性能,定位网络瓶颈。具体说来,Iperf是美国伊利诺斯大学(University of Illinois)开发的一种开源的网络 HYPERLINK /?uid-255511-action-viewspace-itemid-805117 t _self 性能测试工具。可以用来测试网络节点间(也包括回环)TCP或UDP连接的性能,包括带宽、抖动以及丢包率,其中抖动和丢包率适应

57、于UDP测试,而带宽测试适应于TCP和UDP。iperf是开源的,源代码可以从 HYPERLINK /projects/iperf/ /projects/iperf/下载安装下载并安装iperf的工具,解压安装:./configure &make & make instll 测试网络带宽iperf语法格式为:iperf global options 参数说明C/S结构-s 以server模式启动,eg:iperf -s-c 以client模式启动,host是server端地址,eg:iperf -c 通用参数-f k|m|K|M 分别表示以Kbits, Mbits, KBytes, MByte

58、s显示报告,默认以Mbits为单位,eg:iperf -c -f K-i sec 以秒为单位显示报告间隔,eg:iperf -c -i 1iperf是client端向server端发送数据server端显示的是接收速率,最好加i参数,进行速率跟踪client 显示的是发送速率-l 缓冲区大小,默认是8KB,eg:iperf -c -l 16可以使用不同的包长,进行测试-M 显示tcp最大mtu值-t 测试时间,默认10秒-b 指定发送带宽,默认是1Mbit/s-u参数进行UDP测试(iperf默认为TCP)使用-u 参数进行UDP测试会得到关于jitter和数据包丢失的重要信息。Jperf是i

59、perf的GUI版本TCP批量传输具体测试命令:1秒间隔输出、MTU取值4096:Node03做为server 端运行iperf -s -i 1Node04做为client端发送数据:iperf -c node03 -M 4096 -t 3 -i 11秒间隔输出、MTU取值9000:Node03做为server 端运行iperf -s -i 1Node04做为client端发送数据:iperf -c node03 -M 9000 -t 3 -i 1结论:网络吞吐量可以达到9.89Gbits/sec,和netperf工具测试的效果基本一样,其中有1.1%左右的损耗,传输效率达98.9%;性能优秀

60、。同时我们也注意到不同的MTU取值对吞吐的影响比较大。 测试时延抖动和丢包率:测试没做时延优化时的抖动指标。Node03做为server 端运行iperf -s -m -i 1 -u ID Interval Transfer Bandwidth Jitter Lost/Total DatagramsNode04做为client端发送数据:iperf -c node03 -i 1 -t 10 -u -b结论:在UDP传输协议下,网络抖动为16us,丢包率为0,表现优异!使用Qperf工具测试qperf,是RHEL 6发行版里面自带的,所以使用起来很方便,主要用于测试TCP协议的吞吐和时延,由于是

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论