




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
高性能计算及应用任课教师王云岚EMAIL:wangyl@
赵天海EMAIL:zhaoth@nwpu.高性能计算研究与发展中心办公室:勇字楼3楼 电话:88493434(O)2课程目标掌握高性能计算编程工具,解决相关问题课程主要内容:介绍高性能计算系统体系结构、高性能并行程序程序设计方法及高性能计算技术最新方向。主要包括:高性能处理机、多处理机系统;集群计算系统、Linux集群系统配置方法,集群资源管理与作业调度,多线程编程及性能优化等;并行编程程序工具:OpenMP、MPI、CUDA、MapReduce等。交流平台2013年高性能计算课程qq群:158463721作业高性能计算相关研究热点的技术报告云计算CPU/GPU技术虚拟化…实验报告集群环境构建并行应用编程:MPI,openMP,Cuda…高性能计算及应用课程1:高性能计算发展概述课程内容提纲应用需求计算机体系结构的发展高性能计算的核心技术:并行计算并行编程的重要性应用需求
Highperformancecomputing高性能计算与科研,产业…——需求与意义基础科研领域的计算需求物理化学生物材料工业领域的需求银行辅助设计医药石油气象在线服务信息安全传统的科学研究difficult,例如建造大型风洞expensive,例如建造样机slow,例如等待气候的变化,天体的演化dangerous,例如武器开发,药品,大气试验,电力系统分析基于计算科学的科学研究物理原理和数值方法理论分析设计试验富有挑战性的计算问题遍及科学与工程的各个领域ScienceGlobalclimatemodelingAstrophysicalmodelingBiology:genomics;proteinfolding;drugdesignComputationalChemistryComputationalMaterialSciencesandNanosciencesEngineeringCrashsimulationSemiconductordesignEarthquakeandstructuralmodelingComputationfluiddynamics(airplanedesign)Combustion(enginedesign)OilfieldapplicationsBusinessFinancialandeconomicmodelingTransactionprocessing,webservicesandsearchenginesDefenseNuclearweapons--testbysimulationsCryptographyUnitsofHighPerformanceComputing计算能力存储能力全球气候模拟计算问题:f(经度,纬度,海拔,时间)
温度,气压,适度,风速做法:域的离散化分解,10公里解析度(Discretizethedomain,e.g.,ameasurementpointevery10km)给定时间t设计算法预测t+dt的天气(Deviseanalgorithmtopredictweatherattimet+dtgivent)应用:主要事件预测(Predictmajorevents,e.g.,ElNino)用于确定大气散射标准(Useinsettingairemissionsstandards)大气环流模拟需求解Navier-Stokes方程1分钟时间间隔100个浮点运算/网格点对计算的需求为确保时效需1分钟执行5x1011flops= 8Gflop/s以天为单位的7天天气预报需要
56Gflop/s以月为单位的50年气候预测需要 4.8Tflop/s以12小时为单位的50年预测 288Tflop/s如果提高网格解析度则计算复杂性将呈8x,16x增加更高的精确预测模型则需要综合考虑大气,海洋,冰川,陆地,加上地球化学等因素千年气候模型分析目前无法对此进行有效计算全球气候模拟高性能计算已经成为复杂系统工程的必备手段航空高性能计算领域高端需求主要集中在CAE领域气动力计算结构计算气动弹性分析多学科设计优化飞行载荷计算隐身设计计算稳定性和操纵计算需求飞行仿真其他高性能计算需求数字化装配数字样机主要特点计算能力vs计算规模先导性研究vs工程应用超音速巡航大攻角机动武器系统内埋式发射CFD终极目标:虚拟飞行试验虚拟风洞(CFD)设计经验风洞试验虚拟飞行试验计算设备/用户/内容Today2015Source:IDF2012大数据现象“Dataarebecomingthenewrawmaterialofbusiness:aneconomicinputalmostonaparwithcapitalandlabor”
—TheEconomist,2010“Informationwillbethe‘oilofthe21stcentury”
—Gartner,2010Source:IDF20122015CloudVisionCoexistenceofOpportunitiesandChallengesSource:IDF2012TrendstoExascalePerformanceRoughly10xperformanceevery4years,predictsthatwe’llhitExascaleperformancein2018-19Source:IDF2012计算机体系结构的发展计算机体系结构的发展趋势体系结构的改进将技术创新转变为计算机的处理性能计算机体系结构历史:电子管、晶体管、集成电路、大规模集成电路超大规模集成电路(VeryLargeScaleIntegration)的发展阶段可以看做为并行处理的探索过程并行处理是提高计算机处理性能的核心技术体系结构的发展:并行方法的探索GreatesttrendinVLSIgenerationisincreaseinparallelism1970-1985:位级并行(bitlevelparallelism)
4-bit->8bit->16-bitslowsafter32bitadoptionof64-bitnowunderway,128-bitfar(notperformanceissue)80年代中期to90年代中期:指令级别并行(instructionlevelparallelism)pipeliningandsimpleinstructionsets,+compileradvances(RISC)on-chipcachesandfunctionalunits=>superscalarexecutiongreatersophistication:outoforderexecution,speculation,predictiontodealwithcontroltransferandlatencyproblemsNow:线程级并行(threadlevelparallelism)VLSI三个阶段Threephases:Bit-levelInstruction-levelThread-levelVLSITechnologyTrendsIntelannouncedthattheyhavereach1.7billionwithItaniumprocessorGigascaleIntegration(GSI)=1billiontransistorsperchip/~jeff/ece4420/technology.pdf单处理器的性能增长变化VAX:25%/year1978to1986RISC+x86:52%/year1986to2002RISC+x86:??%/year2002topresent处理器功耗发展的趋势不在提供时钟频率,而转变为每个芯片的CPU数量风冷芯片最大功耗的瓶颈RecentIntelProcessors“Wearededicatingallofourfutureproductdevelopmenttomulticoredesigns.Webelievethisisakeyinflectionpointfortheindustry.”IntelPresidentPaulOtellini,IDF2005ProcessorsYearFabrication(nm)Clock(GHz)Power(W)Pentium420001801.80-4.0035-115PentiumM200390/1301.00-2.265-27Core2Duo2006652.60-2.9010-65Core2Quad2006652.60-2.9045-105Corei7(Quad)2008452.93-3.6095-130Corei5(Quad)2009453.20-3.6073-95PentiumDual-Core2010452.80-3.3365-130Corei3(Duo)2010322.93-3.3318-732ndGeni3(Duo)2011322.50-3.4035-652ndGeni5(Quad)2011323.10-3.8045-952ndGeni7(Quad/Hexa)2011323.80-3.9065-1303rdGeni3(Duo)201222/322.80-3.4035-553rdGeni5(Quad)201222/323.20-3.8035-773rdGeni7(Quad/Hexa)201222/323.70-3.9045-77XeonE5(8-cores)2013221.80-2.9060-130XeonPhi(60-cores)2013221.10300Intel'sManyCoreandMulti-coreIntel80-coreTeraScaleProcessor(Vangaletal.2008)亿级处理器developedasolver(singleprecision)forthischipthatranat1TFLOPwithonly97WattsSource:TimMattson,IntelLabsTrendsareputtingallontoonechipThefuturebelongstoheterogeneous,manycoreSOCasthestandardbuildingblockofcomputingSOC=systemonachipSource:TimMattson,IntelLabs集群系统的发展趋势Large-ScaleComputingSystems大规模集群计算系统Franklin(NERSC-5):CrayXT49,532computenodes;38,128coresEachnodehasanAMDquadcoreprocessor and8GBofmemory~25Tflop/sonapplications;352Tflop/speakHPSSArchivalStorage40PBcapacity4TapelibrariesNERSCGlobalFilesystem(NGF)UsesIBM’sGPFS1.5PB;5.5GB/sClusters105TflopstotalCarverIBMiDataplexclusterPDSF(HEP/NP)Linuxcluster(~1Kcores)MagellanCloudtestbedIBMiDataplexclusterAnalyticsEuclid(512GBsharedmemory)DiracGPUtestbed(48nodes)Hopper(NERSC-6):CrayXE6Phase1:CrayXT5,668nodes,5344coresPhase2:>1Pflop/speak(2sockets/node,12cores/socket)Tianhe-I(A)6,144computenodes;24576cores2560AMDRadeonHD4870*2GPU98TBmemoryintotalRpeak:4.700pflops;Rmax:2.566pflopsJaguar:(CrayXT5)224,256x86-basedAMDOpteronprocessorcoresRpeak:2.331pflops;Rmax:1.759pflops西工大高性能计算中心高性能集群设备浪潮天梭TS10000NX5440刀片计算节点浪潮TS10KClusters计算能力:73Tflopstotal153计算刀片3MIC加速节点4GPU加速节点并行存储179TB光纤存储系统40TBLinux操作系统集群的基本组成光纤存储系统管理、登录、IO节点计算节点并行存储Top10listinJune2012RankSiteComputer1DOE/NNSA/LLNL
UnitedStatesSequoia-BlueGene/Q,PowerBQC16C1.60GHz,Custom
IBM2RIKENAdvancedInstituteforComputationalScience(AICS)
JapanKcomputer,SPARC64VIIIfx2.0GHz,Tofuinterconnect
Fujitsu3DOE/SC/ArgonneNationalLaboratory
UnitedStatesMira-BlueGene/Q,PowerBQC16C1.60GHz,Custom
IBM4LeibnizRechenzentrum
GermanySuperMUC-iDataPlexDX360M4,XeonE5-26808C2.70GHz,InfinibandFDR
IBM5NationalSupercomputingCenterinTianjin
ChinaTianhe-1A-NUDTYHMPP,XeonX56706C2.93GHz,NVIDIA2050
NUDT6DOE/SC/OakRidgeNationalLaboratory
UnitedStatesJaguar-CrayXK6,Opteron627416C2.200GHz,CrayGeminiinterconnect,NVIDIA2090
CrayInc.7CINECA
ItalyFermi-BlueGene/Q,PowerBQC16C1.60GHz,Custom
IBM8ForschungszentrumJuelich(FZJ)
GermanyJuQUEEN-BlueGene/Q,PowerBQC16C1.60GHz,Custom
IBM9CEA/TGCC-GENCI
FranceCuriethinnodes-BullxB510,XeonE5-26808C2.700GHz,InfinibandQDR
Bull10NationalSupercomputingCentreinShenzhen(NSCS)
ChinaNebulae-DawningTC3600BladeSystem,XeonX56506C2.66GHz,InfinibandQDR,NVIDIA2050
Dawning2011年6月,我国进入Top500的高性能计算机2NationalSupercomputingCenterinTianjinNUDTProprietaryProprietary4NationalSupercomputingCentreinShenzhen(NSCS)DawningInfinibandInfinibandQDR33InstituteofProcessEngineering,ChineseAcademyofSciencesIPE,Nvidia,TyanInfinibandInfinibandQDR40ShanghaiSupercomputerCenterDawningInfinibandInfinibandDDR82ComputerNetworkInformationCenter,ChineseAcademyofScienceLenovoInfinibandInfiniband97TsinghuaUniversityInspurInfinibandInfinibandQDR143NetworkCompanyIBMGigabitEthernetGigabitEthernet164InternetServiceIBMGigabitEthernetGigabitEthernet199WebCompany(C)Hewlett-PackardGigabitEthernetGigabitEthernet201InternetServiceIBMGigabitEthernetGigabitEthernet202InternetServiceIBMGigabitEthernetGigabitEthernetIPE:中国科学院过程工程研究所(原化工冶金研究所)RankSiteSystemCoresRmax(TFlop/s)Rpeak(TFlop/s)Power(kW)10NationalSupercomputingCentreinShenzhen(NSCS)
ChinaNebulae-DawningTC3600BladeSystem,XeonX56506C2.66GHz,InfinibandQDR,NVIDIA2050
Dawning1206401271.02984.3258026NationalSupercomputingCenterinJinan
ChinaSunwayBlueLight-SunwayBlueLightMPP,ShenWeiprocessorSW1600975.00MHz,InfinibandQDR
NationalResearchCenterofParallelComputerEngineering&Technology137200795.91070.2107437InstituteofProcessEngineering,ChineseAcademyofSciences
ChinaMole-8.5-Mole-8.5Cluster,XeonX55204C2.27GHz,InfinibandQDR,NVIDIA2050
IPE,Nvidia,Tyan29440496.51012.654094ShanghaiSupercomputerCenter
ChinaMagicCube-Dawning5000A,QCOpteron1.9Ghz,Infiniband,WindowsHPC2008
Dawning30720180.6233.5122Government
ChinaSunway4000HCluster,XeonX56xx(Westmere-EP)2.93GHz,InfinibandQDR
NationalResearchCenterofParallelComputerEngineering&Technology14280145.6167.4127ResearchCenter
ChinaClusterPlatformSL250sGen8,XeonE5-26608C2.200GHz,InfinibandFDR,NVIDIA2090
Hewlett-Packard8064135.4270.7132InternetService
ChinaxSeriesx3650Cluster,XeonE56496C2.530GHz,GigabitEthernet
IBM23316131.4236.0707.32012年6月,我国进入TOP500的部分超级计算机/sublistTOP500(2011年6月)中的集群
星群系统(Constellations)包含了一个超大容量交换系统,可以同时管理数千个计算引擎之间的高速数据传输;大规模并行机(MPP):由许多松耦合的处理单元组成,每个单元内的CPU都有自己私有的资源,如总线,内存,硬盘等,每个处理单位只有一个微内核;集群(Cluster):每个节点有完整的操作系统。2012年6月数据,TOP500中有407套系统为ClusterArchitectureCountShare%RmaxSum(GF)RpeakSum(GF)ProcessorSumConstellations20.40%9497011294717648MPP8717.40%19293725255504292984630Cluster41182.20%39541331595165734777646Totals500100%58930025.5985179949.007779924Top500国家分布TOP500过去19年体系结构演化TOP500过去19年体系结构演化2013年6月,cluster
417,MPP
83
从TOP500看集群系统在高性能计算领域,集群系统已经成为主流的系统结构,并将进一步扩大其所占份额在Top500中,集群结构占了绝对大多数,说明在构建超大规模计算系统的时候,集群是主要的系统构成方式集群系统的发展趋势64位系统逐渐成为主流多种商业化的高速互连网络SAN系统作为集群的存储设备64位:突破2GB的系统内存瓶颈科学计算大规模模拟应用三维网格模拟应用所需的内存可以轻易突破2GB生物信息学基因拼接等应用需要大量的内存,实际应用中内存不足是主要问题之一素数运算需要用到大量64位整数运算和大内存商业应用海量数据处理DBinmemory媒体播放服务器大内存高内存带宽减少访问磁盘次数,可将性能提高近一个数量级64位:突破2GB的系统内存瓶颈64位:新的设计理念引发新的设计理念现有的很多算法是基于内存不足设计的,因此很多精力花费在用时间换取空间上64位系统提供了访问更大内存的机会,因此很多应用可能要基于新的理念进行设计,以获得64位所带来的好处64位:不是万能灵药并非所有用户都需要现在就转向64位代码膨胀,性能反而可能会下降需要根据自己的应用特性来分析是否需要2GB以上的内存是否有大量64位整数运算如果上述问题的答案都是否,那么不一定能够从64位系统中得到预期的好处某些应用可以从特定的64位处理器获得很大的性能提高,但这不是64位本身的特性,而是依赖于特定处理器,需要具体分析实际情况集群系统的互连网络评价互连网络的指标延迟带宽功能支持价格集群系统的互连网络InterconnectInterfaceMPILatency(us)Uni-directionalBandwidth(MB/s)说明GBEtherPCI~30-50100最便宜MyrinetPCI-X6248SCIPCI1.4326延迟最小QuadricsIIIPCI5340InfiniBand4xPCI-X7.5805带宽最高集群系统的互连网络功能支持都支持MPI,除GBEthernet外都实现了高效率的通信协议SCI和Quadrics还提供了共享内存的支持,但是其远程通信延迟仍然在us数量级,对于细粒度的共享内存程序,仍然无法很好地支持(对比SGIAltrix系列的远程访问延迟在200ns以下)集群系统所面临的挑战能耗问题不仅仅是集群系统的问题从芯片,单机和集群系统等多个层次来共同解决这个问题管理性监控自我修复管理信息的过滤与提取分区ExecutionisnotjustabouthardwareModernprogrammerdoesnotseeassemblylanguageManydonotevensee“low-level”languageslike“C”什么是并行编程?WhyparallelprogrammingWhatisParallelComputing?Traditionally,softwarehasbeenwrittenforserialcomputationToberunonasinglecomputerhavingasingleCentralProcessingUnit(CPU)AproblemisbrokenintoadiscreteseriesofinstructionsInstructionsareexecutedoneafteranotherOnlyoneinstructionmayexecuteatanymomentintimeForexample:发工资程序ParallelComputing同时使用多个计算资源来处理一个计算任务ToberunusingmultipleCPUsAproblemisbrokenintodiscretepartsthatcanbesolvedconcurrentlyEachpartisfurtherbrokendowntoaseriesofinstructionsInstructionsfromeachpartexecutesimultaneouslyondifferentCPUsExampleExampleThecomputeresourcesmightbeAsinglecomputerwithmultipleprocessorsAnarbitrarynumberofcomputersconnectedbyanetworkAcombinationofbothThecomputationalproblemshouldbeabletoBebrokenapartintodiscretepiecesofworkthatcanbesolvedsimultaneouslyExecutemultipleprograminstructionsatanymomentintimeBesolvedinlesstimewithmultiplecomputeresourcesthanwithasinglecomputeresource加速比Goalofapplicationsinusingparallelmachines:SpeedupForafixedproblemsize(inputdataset),performance=1/time并行编程的重要性WhyparallelprogrammingNowwecanget:single-sourceapproachtomulti-andmany-coreSource:IDF2012However,the
ParallelizingCompilersAfter30yearsofintensiveresearchonlylimitedsuccessi
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025-2030年中国除草剂市场运营状况发展趋势分析报告
- 2025-2030年中国锆英砂行业供需现状及投资发展规划研究报告
- 2025-2030年中国连接器制造市场发展动态及前景趋势预测报告
- 2025-2030年中国轮滑鞋行业发展现状及前景趋势分析报告
- 2025-2030年中国血浆增容剂行业运行动态与发展风险评估报告
- 2025-2030年中国葵花油市场运行态势及发展盈利分析报告
- 2025-2030年中国艺术玻璃行业市场运行态势及投资战略研究报告
- 2025-2030年中国管道检测行业供需现状及投资发展规划研究报告
- 2025-2030年中国空冷器市场运行现状及发展策略分析报告
- 2025-2030年中国种衣剂市场运营状况及发展趋势研究报告
- 《篮球规则》课件
- 中医24节气课件
- 《化工安全技术》教学设计(教学教案)
- 环卫应急预案8篇
- 《与顾客沟通的技巧》课件
- DB14-T2980-2024低品位铝土矿资源综合利用技术规范
- 2024小学语文新教材培训:一年级语文教材的修订思路和主要变化
- 上消化道异物的内镜处理
- 健康教育学全套课件完整版
- 2024年辽宁省中考语文真题含解析
- 农产品食品检验员二级技师技能理论考试题含答案
评论
0/150
提交评论