计算机组成与体系结构课件 13多处理机系统、14计算机性能量化评价方法

上传人：y*** IP属地：山东上传时间：2024-05-20 格式：PPTX 页数：89 大小：2.78MB 积分：20 举报 版权申诉

已阅读5页，还剩84页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

多处理机系统计算机组成与体系结构进程并行减少进程间的资源共享可不共享的资源CPU存储器I/O必须共享的资源（进程间通信）互连结构多处理机系统(multiprocessorsystem)，多处理器系统、多处理机多处理机系统分类多处理机系统SIMD单指令多数据流机SIMD(SingleInstructionMultipleData)MIMD并行向量处理机PVP(ParallelVectorProcessor)对称多处理机SMP(SymmetricMultiprocessor)大规模并行处理机MPP(MassivelyParallelProcessor)工作站集群COW(ClusterofWorkstation)分布式共享存储DSM(DistributedSharedMemory)多处理机SIMD体系结构控制器指令流运算器存储运算器存储…………数据流数据流从前端机装入的数据从前端机装入的程序MIMD的优势MIMD灵活性强。在必要的软件和硬件支持下，MIMD既能作为单用户多处理器为单一应用程序提供高性能（向量处理器除外，且目前使用向量处理器的MIMD很少），又可作为同时运行多个任务的多道程序多处理器系统使用，甚至可以提供这两种任务相结合的应用MIMD能够充分利用现有微处理器的性价比优势。实际上，当今几乎所有的商用多处理器系统所使用的微处理器与工作站及单处理器服务器所使用的微处理器都是相同的。此外，多核芯片通过复制方式可以有效降低单处理器内核的设计成本并行向量处理机PVP对于处理特定的向量计算有很高的速度，但其通用性较差Cray系列、NECSX4、银河-I型（峰值速度1亿次/秒）银河-II型（峰值速度10亿次/秒）对称多处理机SMPIBMR50、SGIPowerChallenge、DECAlpha服务器8400、曙光1号大规模并行处理机MPPIntelParagon、IBMSP2、IntelTFLOPS、曙光-1000主要应用是科学计算、工程模拟和信号处理等以计算为主的领域分布式共享存储多处理机DSMStanfordDASH、CrayT3D和SGI/GrayOrigin2000等工作站集群COWBerkeleyNOW、AlphaFarm、DigitalTruCluster等公用结构五种结构特性一览表属性PVPSMPMPPDSMCOW结构类型MIMDMIMDMIMDMIMDMIMD处理器类型专用定制商用商用商用商用互连网络定制交叉开关总线、交叉开关定制网络定制网络商用网络（以太ATM）通信机制共享变量共享变量消息传递共享变量消息传递地址空间单地址空间单地址空间多地址空间单地址空间多地址空间系统存储器集中共享集中共享分布非共享分布共享分布非共享访存模型UMAUMANORMANUMANORMA代表机器CrayC-90，CrayT-90，银河1号IBMR50，SGIPowerChallenge，曙光1号IntelParagon，

IBMSP2，曙光1000/2000StanfordDASH，CrayT3DBerkeleyNOW，AlphaFarm并行计算机访存模型UMA(UniformMemoryAccess)

NUMA(NonuniformMemoryAccess)COMA(Cache-OnlyMemoryAccess)CC-NUMA(Coherent-CacheNonuniformMemoryAccess)

NORMA(No-RemoteMemoryAccess)

UMA均匀存储访问模型物理存储器被所有处理器均匀共享；所有处理器访问任何存储字取相同的时间；每台处理器可带私有高速缓存；外围设备也可以一定形式共享。UMA多处理机模型NUMA非均匀存储访问模型被共享的存储器在物理上是分布在所有的处理器中的，其所有本地存储器的集合就组成了全局地址空间；处理器访问存储器的时间是不一样的；访问本地存储器LM或群内共享存储器CSM较快，而访问外地的存储器或全局共享存储器GSM较慢（此即非均匀存储访问名称的由来）；每台处理器照例可带私有高速缓存，外设也可以某种形式共享。NUMA多处理机模型LM1P1LM2P2LMnPn互连网络(a)共享本地存储模型全局互连网络(b)层次式集群模型GSMGSMGSM…………PCINCSMPPCSMCSM群1……PCINCSM群NPPCSMCSM……COMA全高速缓存存储访问各处理器节点中没有存储层次结构，全部高速缓存组成了全局地址空间；利用分布的高速缓存目录D进行远程高速缓存的访问;COMA中的高速缓存容量一般都大于2级高速缓存容量；使用COMA时，数据开始时可任意分配，因为在运行时它最终会被迁移到要用到它们的地方。COMA多处理机模型CC-NUMA高速缓存一致性非均匀存储访问大多数使用基于目录的高速缓存一致性协议保留SMP结构易于编程的优点，也改善常规SMP的可扩展性CC-NUMA实际上是一个分布共享存储的DSM多处理机系统它最显著的优点是程序员无需明确地在节点上分配数据，系统的硬件和软件开始时自动在各节点分配数据，在运行期间，高速缓存一致性硬件会自动地将数据迁移至要用到它的地方CC-NUMA多处理机模型NORMA非远程存储访问所有存储器是私有的；绝大数NORMA都不支持远程存储器的访问；在DSM中，NORMA就消失了。消息传递多处理机一般模型并行机访存模型总结物理上分布的存储器从编程的观点看可以是共享的或非共享的共享结构（多处理器）可以同时支持共享存储和消息传递编程模型共享存储的编程模型可同时执行于共享存储结构和分布式存储结构（多计算机）上并行机系统的不同存储结构主流并行计算机系统SMPMPPClusterSMP特性(1)SMP：通常采用商用微处理器，通常有片上和片外Cache，基于总线连接，集中式共享存储，UMA结构。SMP特性(2)优点对称性单地址空间，易编程性，动态负载平衡，无需显示数据分配高速缓存及其一致性，数据局部性，硬件维持一致性低通信延迟，Load/Store完成问题欠可靠，易产生单点失效，如BUS、OS、SM通信延迟，单次通信延迟要低，但总线竞争加剧慢速增加的带宽（MBdouble/3年，IOB则更慢）不可扩展性，限制了SMP最大的处理器数。为了增大系统的规模，可改用交叉开关连接，或改用CC-NUMA或集群结构典型SMP系统系统特性DECAlphaserver84005/440HP9000/T600IBMRS600/R40SunUltraEnterprise6000SGIPowerChallengeXL处理器数目121283036处理器类型437MHzAlpha21164180MHzPA8000112MHzPowerPC604167MHzUltraSPARCI195MHzMIPSR10000处理器片外Cache容量4MB8MB1MB512MB4MB最大主存容量28GB16GB2GB30GB16GB互连网络及带宽BUS2.1GB/sBUS960MB/sBUS+Crossbar1.8GB/sBUS+Crossbar2.6GB/sBUS1.2GB/s外存容量192GB168GB38GB63GB144GBI/O通道12PCI，每个133MB/sN/A2MCA，每个160MB/s30Sbus，每个200MB/s6PowerChannel-2HIO，每个320MB/sI/O槽144PCI槽112HP-PB槽15MCA45Sbus槽12HIO槽I/O带宽1.2GB/s1GB/s320MB/s2.6GB/s每个HIO槽320MB/sMPP系统MPP并没有一个明确的定义，典型的MPP系统中包含成百上千乃至上万个处理器，并用专用的高速互联网络把大量的计算结点连接在一起，组成的大型计算机系统，进行并行处理“计算结点”并不只是处理器，计算结点内包含除了CPU外的其他私有的资源，如总线，内存等MPP系统包含的计算结点数很多，故其可以达到很高的峰值速度典型的MPP体系结构P/CP/CMEM局部总线或互联网络NICI/OP/CP/CMEM局部总线或互联网络NICI/O高性能互联网络I/OMPP的特征由数百个乃至数千个计算结点和I/O结点组成，这些结点由局部网卡（NIC）通过高性能互联网络相互联接每个结点相对独立，并拥有一个或多个微处理器（P/C）MPP的各个结点均拥有不同的操作系统映像各个结点间的内存模块相互独立，且不存在全局内存单元的统一硬件编址MPP分类DM-MPP。每个结点仅包含一个微处理器，早期的MPP均属于这一类。例如CRAYT3D、CRAYT3E、IntelParagon、IBMSP-2、YH-3等。SMP-MPP。每个结点是一台SMP并行机，例如当前位于Top500排名前列的多台MPP并行机均属于这一类，其中包括IBMASCIWhite、IntelASCIRed、IBMBluePacific等；DSM-MPP。每个结点是一台DSM并行机，其典型代表为包含6144台处理器的ASCIBlueMountainMPP并行机，它由48台Origin2000构成，其中每台含128个微处理器。MPP的固有问题通信效率问题。在处理器数目很多的情况下，通信开销是影响系统加速比的重要因素可靠性问题。MPP包含有大量的处理器等硬件，这使得系统发生故障的概率大大提高成本问题。大量的计算结点，专用的高带宽、低延迟互连网络，使得MPP的成本很容易就达到几千万美元。MPP项目的研发往往耗资巨大，主要由各国政府资助，很少有商业公司涉足，MPP系统也主要用于专业领域，也很少有商用MPP系统出现。典型MPP系统MPP模型Intel/SandiaASCIOptionRedIBMSP2SGI/CrayOrigin2000一个大型样机的配置9072个处理器，1.8Tflop/s(NSL)400个处理器，100Gflop/s(MHPCC)128个处理器，51Gflop/s(NCSA)问世日期1996年12月1994年9月1996年10月处理器类型200MHz,200Mflop/sPentiumPro67MHz，267Mflop/sPOWER2200MHz，400Mflop/sMIPSR10000节点体系结构和数据存储器2个处理器，32到256MB主存，共享磁盘1个处理器，64MB到2GB本地主存，1GB到14.5GB本地磁盘2个处理器，64MB到256MB分布共享主存和共享磁盘互连网络和主存模型分离两维网孔，NORMA多级网络，NORMA胖超立方体网络，CC-NUMA节点操作系统轻量级内核（LWK）完全AIX（IBMUNIX）微内核CellularIRIX自然编程机制基于PUMAPortals的MPIMPI和PVMPowerC，PowerFortran其他编程模型Nx，PVM，HPFHPF，LindaMPI，PVMCluster(1)分类：大规模并行处理系统MPP集群工作站集群COW（ClusterofWorkstations）MPP集群设计策略：集群体系结构标准环境标准编程模型系统可用性精选的单一系统映像Cluster(2)COW特征：分布式存储，MIMD，工作站+商用互连网络，每个节点是一个完整的计算机，有自己的磁盘和操作系统，使用SPMD（SingleProgramMultipleData）编程方式。COW优点：投资风险小编程方便系统结构灵活性能/价格比高能充分利用分散的计算资源可扩展性好COW需解决的问题通信性能。尽管使用商品网络可以降低集群系统的造价，使其获得很高的性能/价格比，但商品网络的通信性能有限，往往满足不了一些对通信性能要求高的领域。并行应用性能的提升。集群系统可以通过增加结点来达到更高的峰值运算速度，但运行在其上的并行应用并不能不加修改的获得更佳的性能。造成这种现象的主要原因是，用于集群的并行编程环境还不能实现自动的数据分配和负载均衡。典型的集群系统典型的集群系统特点一览表名称系统特点Princeton:SHRIMPPC商用组件，通过专用网络接口达到共享虚拟存储，支持有效通信Karsruhe:Parastation用于分布并行处理的有效通信网络和软件开发Rice:TreadMarks软件实现分布共享存储的工作站集群Wisconsin:WindTunnel在经由商用网络互连的工作站集群上实现分布共享存储Chica、Maryl、Penns:NSCP国家可扩放集群计划：在通过因特网互连的3个本地集群系统上进行元计算Argonne:Globus在由ATM连接的北美17个站点的WAN上开发元计算平台和软件Syracuse:WWVM使用因特网和HPCC技术，在世界范围的虚拟机上进行高性能计算HKU:PearlCluster研究集群在分布式多媒体和金融数字库方面的应用Virgina:Legion在国家虚拟计算机设施上开发元计算软件SMP/MPP/集群比较系统特征SMPMPP集群节点数量(N)

O(10)O(100)-O(1000)

O(100)节点复杂度中粒度或细粒度细粒度或中粒度中粒度或粗粒度节点间通信

共享存储器消息传递或共享变量（有DSM时）消息传递节点操作系统1N(微内核)和1个主机OS(单一)N(希望为同构)支持单一系统映像永远部分希望地址空间单一多或单一（有DSM时）多个作业调度单一运行队列主机上单一运行队列协作多队列网络协议非标准非标准标准或非标准可用性通常较低低到中高可用或容错性能/价格比一般一般高互连网络总线/交叉开关定制商用计算机性能量化评价方法计算机组成与体系结构性能指标、模型及定律如何评价计算机的性能？计算机用户程序运行时间响应时间管理员吞吐量（throughput）单位时间内所能完成的工作量宏观评价指标响应时间服务时间等待时间传输时间吞吐量：单位时间内完成事务/任务的数量功耗动态功耗Consumedbyactivityinacircuit静态功耗ConsumedwhenpoweredonbutidleActivePower

Capacitance~chipareaVoltagefrequencyActivityfactorStaticPowerVoltageLeakage基本性能指标机器字长存储容量内存外存处理器评价指标MIPS(MillionInstructionPerSecond)FLOPS(FloatingPointOperationPerSecond)CPI(CyclePerInstruction)TOPS(TeraOperationsperSecond)MIPS程序的执行时间为：MIPS的缺陷MIPS依赖于指令集，所以用MIPS来比较指令集不同的机器的性能的好坏是很不准确的在同一台机器上，MIPS因程序而异，有时变化是很大的MIPS可能与性能相反MFLOPSMillionFloatingPointOperationsPerSecond基于操作而不是基于指令的，所以它可以用来比较两种不同的机器MFLOPS的局限性MFLOPS取决于机器和程序两个方面只能用来衡量机器浮点运算操作的性能，而不能体现机器的整体性能不同机器上浮点运算集不同，另外MFLOPS还依赖于操作类型CPI和CPU执行时间每条计算机指令执行所需的时钟周期，有时简称为指令的平均周期数。主频，即CPU内核工作的时钟频率（CPUClockSpeed）CPU执行时间：表示CPU执行一段程序所占用的CPU时间

加速比&效率加速比S(n)：由单处理器求解一个给定任务实例所需时间与由n个处理器组成的并行系统求解同一实例所需时间的比值。效率E(n)

：加速比与处理器数n的比值，即E(n)=S(n)/n。效率是对每个处理器可获得加速的度量，可用来衡量多个处理器的利用率。E(n)的取值在0与1之间。理想性能模型E(n)=1不考虑通信开销，全部程序都可通过并行执行加速考虑通信开销的模型若tc

<<ts，则加速比近似等于n；若tc

>>ts，则加速比近似等于ts/tc<<1；若tc

=ts，则加速比为

，当n>>1时，近似为1。具有串行部分的模型-无通信开销具有串行部分的模型-有通信开销Amdahl定律突破Amdahl定律GrowthinprocessorperformanceGrowthinclockrateRulesofThumbAmdahl/CaseRule:Abalancedcomputersystemneedsabout1MBofmainmemorycapacityand1megabitpersecondofI/ObandwidthperMIPSofCPUperformance.90/10LocalityRule:Aprogramexecutesabout90%ofitsinstructionsin10%ofitscode.BandwidthRule:Bandwidthgrowsbyatleastthesquareoftheimprovementinlatency.2:1CacheRule:Themissrateofadirect-mappedcacheofsizeNisaboutthesameasatwo-waysetassociativecacheofsizeN/2.DependabilityRule:Designwithnosinglepointoffailure.Watt-YearRule:ThefullyburdenedcostofaWattperyearinaWarehouseScaleComputerinNorthAmericain2011,includingthecostofamortizingthepowerandcoolinginfrastructure,isabout$2.ComputerArchitectureFormulasComputerArchitectureFormulas基准性能测试基准测试程序基准测试程序（benchmark）集是指使用一组专门设计的整数或浮点数程序，去测试待测计算机系统性能的不同方面四种来源实际的应用程序核心程序：实际程序中抽取少量关键循环程序段玩具基准测试程序：通常只有10-100行而且运行结果是可以预知的综合基准测试程序：它类似于核心程序，但它考虑了各种操作和各种程序的比例常用的基准测试程序Linpack(Linearsystempackage)：用IEEE754双精度64位字长的子程序求解100阶线性方程组的速度，测试结果以Mflops或Gflops为单位给出LAPACK(LinearAlgebraPACKage)ScaLAPACK(ScalableLAPACK)Linpack(1)Linpack是线性系统软件包（Linearsystempackage）的缩写20世纪70年代中期开始，国际上曾开发过一批基于FORTRAN语言的求解线性代数方程组的子程序，并于1979年正式发布了Linpack包Linpack测试的基准是用IEEE754双精度64位字长的子程序求解100阶线性方程组的速度，测试结果以Mflops或Gflops为单位给出Linpack也被广泛的应用于实际计算中，用来分析和求解线性方程组和线性最小二乘法问题Linpack测试包括三类，Linpack100、Linpack1000和HPL(HighPerformanceLinpack)Linpack(2)目前，TOP500仍以执行Linpack测试的峰值运算速度作为排名依据使用Linpack基准测试一般需要和收集的信息包括：Rpeak：它是系统的最大理论峰值性能，按Gflops表示；Nmax：给出有最高Gflops值的矩阵规模或问题规模；Rmax：在Nmax规定的问题规模下，达到的最大Gflops。综合基准测试集——SPECStandardPerformanceEvaluationCorporation是一个非营利性组织，于1988年成立SPEC的基准测试程序全部选自实际的应用程序，提供标准、公正并可在各种硬件结构间进行高强度计算性能比较的方法它所发布的测试结果已经成为世界公认的计算机性能评价标准之一与Linpack有所不同，SPEC是一个合成（综合）的基准测试程序集，既包括浮点数运算测试，也包括整数运算测试/SPEC92SPEC92由两套测试程序组成：CINT92和CFP92CINT92由6个测试整数性能的C程序组成，而CFP92则由14个测试浮点性能的C和FORTRAN程序组成在SPEC92中，SPECratio代表实际执行指定程序时间和预先确定的参照时间（通常取VAX11/780的执行时间）两者的比值SPEC92整数程序(CINT92)程序描述compress压缩/解压缩工具espresso化简布尔函数的程序gccGNU编译器eqntott逻辑设计程序sc电子表格程序liLisp解释器SPEC92浮点程序(CFP92)程序描述/领域alvinn神经网络/机器人doduce核反应堆模拟/物理学ear耳朵模拟/医学fpppp电子积分/化学hydro2d喷气计算/天体物理mdljdp2运动方程/化学（双精度）mdljsp2运动方程/化学（单精度）nasa7浮点内核ora光线跟踪/光学spice电路模拟器/电路设计su2cor粒子质量/量子物理学swm256水方程求解器/模拟tomcatv网格生成程序wave5麦克斯韦方程式求解器SPECbenchmarks高性能计算术语高性能计算（HPC/HEC）：没有一个严格的定义HPC：HighPerformanceComputing，高性能计算HEC：HighEndComputing，高端计算并行计算：ParallelComputing彼此关系高性能计算=并行计算高性能计算机=并行计算机不很严格，但得到了广泛的认可需要高性能计算技术？时间复杂度n=10n=30n=60n0.01毫秒0.03毫秒0.06毫秒n20.1毫秒0.9毫秒3.6毫秒n50.1秒24.3秒13.0分钟2n1.0毫秒17.9分钟366.0世纪3n0.06毫秒6.5年1.3×1013世纪人类对计算能力的需求永无止境时间代价表（每秒处理1,000,000次基本操作的PC机）高性能计算的三类需求计算密集(computeintensive)如大型科学工程计算、数值模拟等数据密集(dataintensive)数字图书馆、数据仓库、数据挖掘等网络密集(networkintensive)协同工作、遥控、远程医疗等高性能计算技术的重要性许多高精尖应用领域对计算能力的极大需求，使高性能计算技术成为了决定军事、经济和科技领先地位的关键因素构造高性能计算机就成为该技术的核心内容高性能计算机更是国家综合国力的象征各国政府都不惜投入巨资开发自己的高性能计算机研究背景高性能计算机的开发具有极为浓厚的政治军事背景美国政府担心其它核武器拥有国对美国国防形成核威胁，试图全面限制核试验，但禁止核试验和限制核武器的发展，使美国把核技术作为决定性武器来发展的传统战略陷入困境美国能源部推出了ASCI计划，以摆脱核武器发展面临的困境ASCI计划的目的，是利用高技术创造核武器试验的虚拟空间，并在这个空间中开展虚拟试验（VirtualTesting），高性能计算机的研制是ASCI计划的重要组成部分美国ASCI计划(1)全称为AcceleratedStrategicComputingInitiative，加速战略计算创新1996年6月由美国能源部联合三大核武器实验室（圣地亚哥、洛斯·阿拉莫斯、劳伦斯·利弗莫尔国家实验室）共同提出ASCI计划的目的在2010年之前开发出高性能、全系统、全物理现象的预测程序以支持核武器的性能评定、更新过程分析、偶发事件的分析及确认刺激美国计算机工业的发展。

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

计算机组成与体系结构课件 13多处理机系统、14计算机性能量化评价方法

文档简介

温馨提示

最新文档

评论

计算机组成与体系结构 课件 13多处理机系统、14计算机性能量化评价方法

文档简介

温馨提示

最新文档

评论

相关文档

计算机组成与体系结构课件 13多处理机系统、14计算机性能量化评价方法