NAMD GPU及MIC加速部件下性能分析_第1页
NAMD GPU及MIC加速部件下性能分析_第2页
NAMD GPU及MIC加速部件下性能分析_第3页
NAMD GPU及MIC加速部件下性能分析_第4页
NAMD GPU及MIC加速部件下性能分析_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、NAMDGPU及MIC加速部件下性能测试及分析张丹丹上海超级计算中心201203摘要文中对分子动力学计算软件NAMD在加速部件NVIDIAGPGPU和IntelXeonPhi上的性能进行了测试及分析,并与IntelSandyBridge处理器下性能进行了对比。结果发现,在混合加速部件模式下,NAMD可获得2倍以上加速;CPU+K20m混合架构相比CPU+MICs能获得更好性能;XeonPhi集群模式下每节点8个进程可获得更好性能。关键字加速部件,GPU,XeonPhi,NAMD1.引言加速部件计算是HPC的革新,混合加速部件的系统,能提供更好性能和更高能效比。加速部件系统也是目前大规模HPC系

2、统和领先高性能计算的主要形式。NAMD1为分子化学领域的科研人员提供各类规模的分子模拟。NAMD采用经验力场,通过数值求解运动方程计算原子轨迹,预测生物分子的动力学行为和重要性质。同时,NAMD加载charm+并行软件中的运行库,利用分子之间相对独立的微粒特性,将任务并行分配到集群中。分子动力学计算包括了计算每个时间步所有原子间力、演化及迁移,利用这个力更新原子的位置和速度。这个迁移过程相对力的计算来说花的时间较少,而且是局部的计算。分子间力的计算可广泛地分成2类:成键作用力和非成键作用力计算,非成键作用力的计算时间占据整个计算时间的80%95%2。NAMD已可运行于大规模计算集群系统,随着加

3、速部件技术在大规模计算集群中的应用,NAMD也相继提供了支持NVIDIAGPGPU及IntelXeonPhi的版本,将计算密集部分-原子间非成键作用力计算移植到加速部件上完成。文中选取当前最新的加速部件,测试NAMD的性能表现。后续章节安排如下,第二部分介绍测试环境及测试方法;第三部分介绍测试的结果及结果分析;第四部分为本文结论。2.测试环境及测试方法2.1测试环境测试采用的NAMD版本为NAMD_CVS-2013-08-26_Source.tar.gz3该版本支持GPUCUDA架构及IntelMIC架构的加速部件。该版本对MIC支持的正式版本尚未发布,还存在着一些已知的问题,如2个进程运行时

4、提示负载不均衡导致程序中断而退出。测试对比CPU平台为2路IntelXeonE5-26702.7GHz处理器。测试硬件对比平台特征见表1,服务器配置见表2。服务器名称分别为LCNodeOl及KNC-01、KNC-02,前者安装的操作系统为SLES11x86_64SP2,后面的2台服务器安装的操作系统为RHEL6.2x86_64。KNC-01和KNC-02两台服务器支持Infiniband网,采用QLogic4XQDR。NAMD测试中还用到其他并行库及数学库软件,相关软件版本为charm-6.5.1.tar,fftw-linux-x86_64.tar.gz;其他软件包tcl8.5.9-linux

5、-x86_64.tar.gz,tcl8.5.9-linux-x86_64-threaded.tar.gz。测试使用的实验分子为血脂蛋白(ApoA1),具体蛋白质结构参数配置为原子数92,224个,分子键数量为70,660个,键角个数为74,136个,OutEnergys设置为600。表1用于测试的硬件平台特征IntelXeonE5-2670IntelXeonPhi(KnightsCorner7110P)IntelXeonPhi(KnightsCorner3115A)NvidiaTeslaK20mCores/Multi-processors8615713LogicCoresCount162442

6、28=2496SIMDWidth(32-Bit)4(SSE),8(AVX)1616ClockFrequency2.6GHz1.1GHz1.1GHz0.71GHzCardMemorySize8GB(ECCon)6GB(ECCon)5GB(ECCon)MemoryBandwidth51.2GB/S320GB/s320GB/s208GB/sPowerConsumption130w225W225W225W表2服务器配置LCNode01/KNC-01/KNC-02ComponentsNum.HostCPUIntelXeonE5-26702.6GHz,20MBL3Cache2Memory8GBDDR316

7、00MHz8AcceleratorNVIDIATeslaK20m/2KnightsCorner3115A/KnightsCorner7110PInterConnectQLogic4XQDR表3测试软件环境BIOSLCNodeO1:version:NF5280M3.107,Revision:4.6,HToffKNC-01/KNC-02:SE5C600.86B.01.08.0003.022620131521OSSLES11SP2,Linuxkernel3.0.13-0.27MPSSLCNode01:KNC_gold_update_2-2.1.5889-16-suse-11.2.tarKNC-01/

8、KNC-02:mpssgoldupdate3-2.1.6720-13-rhel-6.2.tarCompilerIntelC+CompilerXE13.1Update3forLinux*IntelFortranCompilerXE13.0Update1forLinux*CUDAToolkitcuda5.5.22linux64.runMPIIntelMPI36FFTWfftw-2.1.52.2测试方法测试基于IntelC+编译器,编译charm+多核版本,而后修改相应配置文件构建NAMD2可执行程序。除CPU版本测试之外,CPU+MIC及CPU+GPU版本均为混合架构,GPU版本可以通过+devi

9、ces指定进程与GPU卡的映射;MIC版本可以通过设定环境变量OFFLOAD_DEVICES确定使用的MIC设备,默认情况下使用节点上所有可用的MIC卡,这里为2。3.测试结果及分析测试所使用的版本支持MICoffload模式,要使得程序能在MIC上执行,需要IntelC+13.5及以上版本的支持。测试单节点下随着进程数增加NAMD的性能加速情况,如图1。纵坐标为days/ns,为每纳秒的物理问题要跑几天,值越小越好。横轴为运行时启动的charmrun进程数,从1个进程到16个进程。suSAepCPUonly-CPUsGllSAs-W-CPUsd20ms12481216No.ofprocess

10、es图1NAMD纯CPU与混合架构平台下性能对比随着进程数的增加,NAMD的性能越来越好,在单进程/单核心计算时,单CPU计算核心+块K20m获得更好性能,单CPU+3115A其次,在4个进程之后,两种混合架构下的NAMD性能相差比例逐渐缩小。CPUsdAep#MPIProcessesdnpaQJds765432102,51150o.图47110P集群下每节点单卡NAMD性能r/DCviCCS1r/DCviCCS28876543210dnpaQJds1216243264#MPIProcesses图5节点使用不同数量的MIC卡时NAMD加速性能(以1Core+1MIC卡为基准)KNC7110P单

11、节点MPI模式与多节点MPI模式运行,多节点集群模式下呈现较好可扩展性,在8进程及以下单节点可获得最佳性能。结果见表4。表4KNC7110P单节点单MIC卡多核模式与MPI集群模式下NAMD比#ProcessesSingleNodeCluster(TwoNode)11143.092.6485.694.42125.736.23165.666.66324.815.824.结论加速卡在科学计算领域的应用带来了新的机遇和挑战,文中以分子动力学常用软件NAMD为测试对象,选择基于两种不同类型的加速部件VIDIATeslaK20m及IntelXeonPhi的混合架构的平台,测试对比算例血脂蛋白ApoAl)

12、的性能及加速情况。测试结果表明,两种加速平台均能获得2X以上加速,CPU+K20m获得得性能较CPU+3115A优,16核满载情况下高出约70%;KNC7110P相比KNC3115A获得16%的性能提升;集群模式下8个进程及以下双卡获得最佳性能,集群模式相比单节点模式能获得更好的可扩展性。目前测试所用的版本属MIC的非正式版本,存在着一些已知的问题,测试及分析还有待进一步的深入。参考文献JamesPhilipsGengbinZheng,LaxmikantKale,NAMD:BiomolecularSimulationonThousandsofProcessors,Supercomputing,A

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论