高性能集群评价it168文库

上传人：汤*** IP属地：北京上传时间：2023-05-25 格式：DOCX 页数：88 大小：2.32MB 积分：15 举报 版权申诉

已阅读5页，还剩83页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

22.1计算性能测试2.2NPB（NASParallel 35高性能计算架构变高性能计算网络发高性能集群操作系统份高性能计算作业的工作流路由

千兆交

本地控本地

登陆/以太交换

算例作业

并系数以太以太KVM管理系统管理与用户管刀刀片集000000

控制GPGPUSMP作业运GPGPUSMP

机房环高性能计算机系统PC端PC端脑

高性能计算机中的关键技统一的文件印对于普通用户来，所有节点看到

统一的系统印通过NIS或同步用信息来实

配网络全rsh或ssh 问配高性能计算在国内的六大应用领学材料

泛应用于工业生

究以及科研工作

物理材石油勘

用领图像渲

生命气象海

研动画、图像的其它图其它图像处理、金融计算主流高性能应用介主流高性能应用介气象预报海洋科学应用类别典型应用CPU内存容量内存带宽网络扩展性计算化学gaussian应用类别典型应用CPU内存容量内存带宽网络扩展性计算化学gaussian、ADF554543计算物理材料科学vasp，cpmd525254药物设计dock,autodock522225生物信息MPIBLAST、BWA544525分子动力学namd，gromacs522255环境科学WRF，Grapes533355流体力学Fluent、CFX544255结构力学Ansys，Abaques544532电磁仿真FeckoComsol554453资料处理omega，cgg544525高性能应用软件的编程模无法实现海量计

现多节点大规模并

PVM并行程任务级并行程衡量高性能系统性能的评价指理论峰值FLOPS（浮点运算每秒1、如何计算理论峰峰值＝主频(GHz)* 数*4(4代表每个时钟周期做4次浮点运算例如：10个AMD双路12核刀片（CPU6174，主频数峰值＝2.2×240×4＝2112GFLOPS＝2.1TFLOPS=2.1万亿次GPU峰值每C2050卡双精度峰值＝0.515TFLOPS单精度峰值双精度峰值＝0.515*GPGPU卡数目单精度峰值＝1.03*GPGPU卡数目衡量高性能系统性能的评价指实测峰值HPL(Linpach)测对系统进行整体计算能力的评Linpck方（flops）HPL：针对大规模并行计算系统的测试，其名称为HighPerformanceLinpack(HPL)，是第一个标准的公开版本并行Linpack测试软件包，用于TOP500与国内TOP100 依据使用者可以改变问题规有相当大的优化空衡量高性能系统性能的评价指系统效加速比定描述，Gusta定律适用于可扩展问题。Amdahl定S=(WS+WP)/(WS+WP/p)=1/(1/p+f(1-显然，当p→∞时，S=1/f，即对于固定规模的问定=p-f（p-1）=f+p（1-加速比与处理器数成斜率为（1-f）的线性关这样串行比例f就不再是程序扩展性的瓶当然，f越低，斜率会越大，加速性能越高性能集群性能评测的目综合性指1Linpack测2NPB测3SPEC测4可靠性测试HPCCLinpack测HPL(Linpach)测试---对系统进行整体计算能Linapck测试：采用主元消去法求解双精度稠密线性代数方秳组，结果按每秒浮点运算次数（flops）表示。HPL：针对大觃模幵行计算系统的测试，其名称为HighPerformanceLinpack(HPL)，是第一个标准的公开版本幵行Linpack测试软件包，用于TOP500与国内TOP100 依据使用者可以改变问题觃模有相当大的优化空基于CPU的Linpack测试步1 a)tar-zxfhpl-b)cdhpl-c) 基于CPU的Linpack测试步d)编辑修改第64行为ARCH=gcc_openmpi 修改第84行为=（或者注释此行修改第85行为=（或者注释此行修改第86行为=修改第84行为=（或者注释此行修改第85行为=（或者注释此行修改第86行为=（或者注释此行= link-line- 基于CPU的Linpack测试步修改第97行为LAlib=-Wl,--start- group-lpthread如果选用gotoblas修改第97行为LAlib=修改第169行为CC=mpicc（如果选用in 基于CPU的Linpack测试步编译器修改第171行为CCFLAGSO3xHostipgnu译器修改第171行为CCFLAGSpipeO3fomit-pgi编译器修改第171行为CCFLAGSBstaticVfastsse修改第174行为LINKER= mpi修改为e)载入环境变量，确认自己使用的编译器环境以及source/public/software/mpi/openmpi-1.4.3-f)makeg)cd 中的xhpl为编译成功的可执行程序,HPL.dat为数据文运行1.问题规模的组数及大小，一般为1 #ofproblemssizes Byte=12800000000Byte=11.92GB #of128 运行组144

#ofprocessgrids(Px运行HPL.dat #ofpanel01 #ofrecursive 42 NBMINs(>= #ofpanelsin #ofrecursivepanel0 这些值对最终的结果影响较小，但是也有少量的影响，但是这些果对测试的时间（数据组）有较大运行source/public/software/mpi/openmpi1.4.3-考虑到可能测试时间比较长，使用nohup mpirun-np16-machinefilenode1node2

./xhpl>&out.log out.log附录：如何编译版本tarzxvfopenmpi-cdopenmpi-./configure--prefix=/public/software/mpi/openmpi1.4.3-gnu-make-jmakemakeexportexportexport附录:如何编译gotoblas版本GotoLS2为优化的LS库GooblaLStarxvzfGotoBLAS2-cplapack-3.1.1.tgzcd修改Makefile.rule文件第17行 CC=

20 FC=27 34 USE_THREAD=mkdir-pcplibgoto2*.a基于GPU的Linpack测1）NvidiaCUDA搭建NvidiaCUDA运行环境，需要安装以下两个包： 2） 3）基于GPU的Linpack测编译cuda CPU版本HPL，CUDAHPL主要是把HPL秳序中主dgemm(double-precisiongenericmatrix-matrix修改Make.CUDA_pinned文修改基于GPU的Linpack在DAPafil“a.Dinnd”,通过修改a.Dinnlinpac。主要修改的变量必须与文件名Make.<arch>中的<arch>一MPdir：指明MPI所MPinc：指明MPI头文

指明MPI库文BLAS库所在LAinc、LAlib：BLAS库头文件、库文CUDAinc：CUDA头文CUDAlib：CUDA库文基于GPU的Linpack测2）MPInc指定mpiMPICC指定…MPInc=/public/software/ompi142- …编在CUDA 下执行make /基于GPU的Linpack测试-运修改基于GPU的Linpack测试-运在cudalinpack秳序中每个GPUdevice对应一个CPU迚秳，所以在每个节点的迚秳数应该不GPUdevice相等， /bin/mpirun-mcabtltcp,self,sm-np2-machinefile./run_linpack基于GPU的Linpack测试-运基于GPU的linpack秳序为一个杂化秳整个测试过秳中为了完全的利用CPU的GPU资源，降MPI秳序计，多线秳秳序设计、及GPU秳序设计三种编秳方式融合。每个GPUCPU迚秳起多个线秳。56506核处理器，共12 对于此系统，需要启劢4个MPI迚秳，每个迚秳对应一个device，由于系统共，故每迚秳启劢3个OMP线秳基于GPU的Linpack测试-运修改#NumberofCPUcores(perGPUused=perMPIprocessesexport#FORexport#FORexport#FORexportexport基于GPU的Linpack测试-运#hint:try350/(350+frequencyinexport#hint:tryCUDA_DGEMM_SPLIT-export 如何计算Linpack效峰值＝主频(GHz)* 数*4(4代表每个时钟周期做4次浮点运算例如：10个AMD双路12核刀片（CPU6174，主频数峰值＝2.2×240×4＝2112GFLOPS＝2.1TFLOPS=2.1万亿次每C2050卡双精度峰值＝0.515TFLOPS单精度峰值双精度峰值＝0.515*GPGPU卡数目单精度峰值＝1.03*GPGPU卡数目如何计算Linpack效2直接从Linpack的输出结果获Xxxxd033系统效率=实测峰值/理论想要获得高的系统效率，Infiniband网络是必须的目前CPU系统的效率一般在80GPU系统根据卡得数量，一般在30%-60%之间综合性指1Linpack测2NPB测3SPEC测4可靠性测试HPCCLinpack测试的问1Linpack简单、直观、能収挥系统的整个计算能力，能2但是高性能计算系统的计算类型丰富多样，仅仅通过衡NASParallel NPB套件由八个秳序组成、以每秒百万次运算为单位输出整数排序快速Fourier变换多栅格基准测试共轭梯度(CG基准测秲疏矩阵分解五对角方秳（SP）和块状三角(BT)求密集幵行(EP)每个基准测试有五类：A、B、C、D、 (工作站)，（sample）。A最小，DNPB测试程序编NPB源码tarxvzfcdNPB3.3/NPB3.3-NPB测试程cpconfig/suite.def.tem SS1S1S1S1S1S1S1S1NPB测试程cp te修改MPIF77FMPI_LIBMPICC=CMPI_INCmakebinMpirun-np16–machinefilema综合性指3SPEC测4可靠性测试HPCC(StandardPerformanceEvaluationCorporation (StandardPerformanceEvaluationCorporation 该组织成立于1988年，是由斯坦福大学、成的第测试组织。SPEC绊过多年的収展积累，该测SPEC测试 ark种 MailNetworkFileSIP(SessionInitiationSOA（ServiceOrientedArchitectureWeb目前的版本为SpecCPU2006，在这之前还収布了•SPECCPUv6、SPECCPU2000、SPECCPU95、SPECSpecCPU的ben Rates和CFP2006、CFP2006Rates。CINT2006衡量处运行串行秳序的整形计算能力，CINT2006Rates衡量整个节点运行不的整形计算能力。CFP2006衡量处理器单个行秳序的浮点计算能力，CFP2006Rates衡量整个节点 BasePeakpBaseBasepeakPeakM1spec测试的 specCPU的评测结果较为，被各个厂商业界广泛承3尤其SPECCFP2006rates的测试，较为全面的评价了 4SpecCFP共设计17种浮点计算应用，其中涉及C，综合性指3SPEC测4可靠性测试HPCCHPCC（HPCChallenge） HPCC ark7HPL-theLinpackTPPben arkwhichmeasuresthefloatingpointrateofexecutionforsolvingalinearsystemofequations.DGEMM-measuresthefloatingpointrateofexecutiondoubleprecisionrealmatrix-matrixSTREAM-asimplesyntheticben arkprogramthatmeasuressustainablememorybandwidth(inGB/s)andthecorrespondingcomputationrateforsimplevectorkernel.HPCC PTRANS(parallelmatrixtranspose)-exercisesthecommunicationswherepairsofprocessorscommunicatewitheachothersimultaneously.Itisausefultestofthetotalcommunicationscapacityofthenetwork.RandomAccess-measurestherateofintegerrandomupdatesofmemory(GUPS).FFT-measuresthefloatingpointrateofexecutionofdoubleprecisioncomplexone-dimensionalDiscreteFourierTransform(DFT).Communicationbandwidthandlatency-asetofteststomeasurelatencyandbandwidthofanumberofsimultaneouscommunicationpatterns;basedonbeff(effectivebandwidthben IMB测 MPI a）tarzxftarzxfb)cdc)cpd辑修改第3CCe)make-fIMP测试 Pong测测IMB运mpirun–np8–hostfilemaIMB-MPI1[-multi[-time<max_runtimeper[-mem<max.memusageper[-map[-input ark1 ark2(wherethe11major[]mayappearinany-mpirun-np8IMB-mpirun–np10IMB- 点的互信性能，从而能够快速排除整个系统的网络故编译a)tarzxfmpigraph-b)cdmpigraph-c d)运行MPI-mpirun-np4-hostfilemaMPIgraph的测试中一般一个节点仅仅启MPIgraph Iperftarxvzfiperf-./configure–-make/public/software/iperf/bin/iperf为编译好的可执行秳Iperf/public/software/iperf/bin/iperf connectingtonode210,TCPportTCPwindowsize:64.0KByte[3]local0port57558connectedwithport[ID] [3]0.0-10.0sec1.12 958IOZONE性能评价工a)tarxfb)cdc)cddmakeLinux-AMD64(目前测试平台为linuxe)cpiozone../../;cdIOZONE的运执行命令iozone-s4gr1mIi0i1i2i5t12f-s试用的文件大小k,m,g分别代表Kb,Mb,Gb，这里-s标示（单个迚秳文件大小*迚秳数）大于内存的2-r测试文件文件传输的块大小,k,m,g分别代表-I指定写文件的时候丌写3=Read-backwards,4=Re-w

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

高性能集群评价it168文库

文档简介

温馨提示

最新文档

评论

高性能集群评价it168文库

文档简介

温馨提示

最新文档

评论

相关文档