计算机组成与体系结构 课件 13多处理机系统_第1页
计算机组成与体系结构 课件 13多处理机系统_第2页
计算机组成与体系结构 课件 13多处理机系统_第3页
计算机组成与体系结构 课件 13多处理机系统_第4页
计算机组成与体系结构 课件 13多处理机系统_第5页
已阅读5页,还剩35页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

多处理机系统计算机组成与体系结构进程并行减少进程间的资源共享可不共享的资源CPU存储器I/O必须共享的资源(进程间通信)互连结构多处理机系统(multiprocessorsystem),多处理器系统、多处理机多处理机系统分类多处理机系统SIMD单指令多数据流机SIMD(SingleInstructionMultipleData)MIMD并行向量处理机PVP(ParallelVectorProcessor)对称多处理机SMP(SymmetricMultiprocessor)大规模并行处理机MPP(MassivelyParallelProcessor)工作站集群COW(ClusterofWorkstation)分布式共享存储DSM(DistributedSharedMemory)多处理机SIMD体系结构控制器指令流运算器存储运算器存储…………数据流数据流从前端机装入的数据从前端机装入的程序MIMD的优势MIMD灵活性强。在必要的软件和硬件支持下,MIMD既能作为单用户多处理器为单一应用程序提供高性能(向量处理器除外,且目前使用向量处理器的MIMD很少),又可作为同时运行多个任务的多道程序多处理器系统使用,甚至可以提供这两种任务相结合的应用MIMD能够充分利用现有微处理器的性价比优势。实际上,当今几乎所有的商用多处理器系统所使用的微处理器与工作站及单处理器服务器所使用的微处理器都是相同的。此外,多核芯片通过复制方式可以有效降低单处理器内核的设计成本并行向量处理机PVP对于处理特定的向量计算有很高的速度,但其通用性较差Cray系列、NECSX4、银河-I型(峰值速度1亿次/秒)银河-II型(峰值速度10亿次/秒)对称多处理机SMPIBMR50、SGIPowerChallenge、DECAlpha服务器8400、曙光1号大规模并行处理机MPPIntelParagon、IBMSP2、IntelTFLOPS、曙光-1000主要应用是科学计算、工程模拟和信号处理等以计算为主的领域分布式共享存储多处理机DSMStanfordDASH、CrayT3D和SGI/GrayOrigin2000等工作站集群COWBerkeleyNOW、AlphaFarm、DigitalTruCluster等公用结构五种结构特性一览表属性PVPSMPMPPDSMCOW结构类型MIMDMIMDMIMDMIMDMIMD处理器类型专用定制商用商用商用商用互连网络定制交叉开关总线、交叉开关定制网络定制网络商用网络(以太ATM)通信机制共享变量共享变量消息传递共享变量消息传递地址空间单地址空间单地址空间多地址空间单地址空间多地址空间系统存储器集中共享集中共享分布非共享分布共享分布非共享访存模型UMAUMANORMANUMANORMA代表机器CrayC-90,CrayT-90,银河1号IBMR50,SGIPowerChallenge,曙光1号IntelParagon,

IBMSP2,曙光1000/2000StanfordDASH,CrayT3DBerkeleyNOW,AlphaFarm并行计算机访存模型UMA(UniformMemoryAccess)

NUMA(NonuniformMemoryAccess)COMA(Cache-OnlyMemoryAccess)CC-NUMA(Coherent-CacheNonuniformMemoryAccess)

NORMA(No-RemoteMemoryAccess)

UMA均匀存储访问模型物理存储器被所有处理器均匀共享;所有处理器访问任何存储字取相同的时间;每台处理器可带私有高速缓存;外围设备也可以一定形式共享。UMA多处理机模型NUMA非均匀存储访问模型被共享的存储器在物理上是分布在所有的处理器中的,其所有本地存储器的集合就组成了全局地址空间;处理器访问存储器的时间是不一样的;访问本地存储器LM或群内共享存储器CSM较快,而访问外地的存储器或全局共享存储器GSM较慢(此即非均匀存储访问名称的由来);每台处理器照例可带私有高速缓存,外设也可以某种形式共享。NUMA多处理机模型LM1P1LM2P2LMnPn互连网络(a)共享本地存储模型全局互连网络(b)层次式集群模型GSMGSMGSM…………PCINCSMPPCSMCSM群1……PCINCSM群NPPCSMCSM……COMA全高速缓存存储访问各处理器节点中没有存储层次结构,全部高速缓存组成了全局地址空间;利用分布的高速缓存目录D进行远程高速缓存的访问;COMA中的高速缓存容量一般都大于2级高速缓存容量;使用COMA时,数据开始时可任意分配,因为在运行时它最终会被迁移到要用到它们的地方。COMA多处理机模型CC-NUMA高速缓存一致性非均匀存储访问大多数使用基于目录的高速缓存一致性协议保留SMP结构易于编程的优点,也改善常规SMP的可扩展性CC-NUMA实际上是一个分布共享存储的DSM多处理机系统它最显著的优点是程序员无需明确地在节点上分配数据,系统的硬件和软件开始时自动在各节点分配数据,在运行期间,高速缓存一致性硬件会自动地将数据迁移至要用到它的地方CC-NUMA多处理机模型NORMA非远程存储访问所有存储器是私有的;绝大数NORMA都不支持远程存储器的访问;在DSM中,NORMA就消失了。消息传递多处理机一般模型并行机访存模型总结物理上分布的存储器从编程的观点看可以是共享的或非共享的共享结构(多处理器)可以同时支持共享存储和消息传递编程模型共享存储的编程模型可同时执行于共享存储结构和分布式存储结构(多计算机)上并行机系统的不同存储结构主流并行计算机系统SMPMPPClusterSMP特性(1)SMP:通常采用商用微处理器,通常有片上和片外Cache,基于总线连接,集中式共享存储,UMA结构。SMP特性(2)优点对称性单地址空间,易编程性,动态负载平衡,无需显示数据分配高速缓存及其一致性,数据局部性,硬件维持一致性低通信延迟,Load/Store完成问题欠可靠,易产生单点失效,如BUS、OS、SM通信延迟,单次通信延迟要低,但总线竞争加剧慢速增加的带宽(MBdouble/3年,IOB则更慢)不可扩展性,限制了SMP最大的处理器数。为了增大系统的规模,可改用交叉开关连接,或改用CC-NUMA或集群结构典型SMP系统系统特性DECAlphaserver84005/440HP9000/T600IBMRS600/R40SunUltraEnterprise6000SGIPowerChallengeXL处理器数目121283036处理器类型437MHzAlpha21164180MHzPA8000112MHzPowerPC604167MHzUltraSPARCI195MHzMIPSR10000处理器片外Cache容量4MB8MB1MB512MB4MB最大主存容量28GB16GB2GB30GB16GB互连网络及带宽BUS2.1GB/sBUS960MB/sBUS+Crossbar1.8GB/sBUS+Crossbar2.6GB/sBUS1.2GB/s外存容量192GB168GB38GB63GB144GBI/O通道12PCI,每个133MB/sN/A2MCA,每个160MB/s30Sbus,每个200MB/s6PowerChannel-2HIO,每个320MB/sI/O槽144PCI槽112HP-PB槽15MCA45Sbus槽12HIO槽I/O带宽1.2GB/s1GB/s320MB/s2.6GB/s每个HIO槽320MB/sMPP系统MPP并没有一个明确的定义,典型的MPP系统中包含成百上千乃至上万个处理器,并用专用的高速互联网络把大量的计算结点连接在一起,组成的大型计算机系统,进行并行处理“计算结点”并不只是处理器,计算结点内包含除了CPU外的其他私有的资源,如总线,内存等MPP系统包含的计算结点数很多,故其可以达到很高的峰值速度典型的MPP体系结构P/CP/CMEM局部总线或互联网络NICI/OP/CP/CMEM局部总线或互联网络NICI/O高性能互联网络I/OMPP的特征由数百个乃至数千个计算结点和I/O结点组成,这些结点由局部网卡(NIC)通过高性能互联网络相互联接每个结点相对独立,并拥有一个或多个微处理器(P/C)MPP的各个结点均拥有不同的操作系统映像各个结点间的内存模块相互独立,且不存在全局内存单元的统一硬件编址MPP分类DM-MPP。每个结点仅包含一个微处理器,早期的MPP均属于这一类。例如CRAYT3D、CRAYT3E、IntelParagon、IBMSP-2、YH-3等。SMP-MPP。每个结点是一台SMP并行机,例如当前位于Top500排名前列的多台MPP并行机均属于这一类,其中包括IBMASCIWhite、IntelASCIRed、IBMBluePacific等;DSM-MPP。每个结点是一台DSM并行机,其典型代表为包含6144台处理器的ASCIBlueMountainMPP并行机,它由48台Origin2000构成,其中每台含128个微处理器。MPP的固有问题通信效率问题。在处理器数目很多的情况下,通信开销是影响系统加速比的重要因素可靠性问题。MPP包含有大量的处理器等硬件,这使得系统发生故障的概率大大提高成本问题。大量的计算结点,专用的高带宽、低延迟互连网络,使得MPP的成本很容易就达到几千万美元。MPP项目的研发往往耗资巨大,主要由各国政府资助,很少有商业公司涉足,MPP系统也主要用于专业领域,也很少有商用MPP系统出现。典型MPP系统MPP模型Intel/SandiaASCIOptionRedIBMSP2SGI/CrayOrigin2000一个大型样机的配置9072个处理器,1.8Tflop/s(NSL)400个处理器,100Gflop/s(MHPCC)128个处理器,51Gflop/s(NCSA)问世日期1996年12月1994年9月1996年10月处理器类型200MHz,200Mflop/sPentiumPro67MHz,267Mflop/sPOWER2200MHz,400Mflop/sMIPSR10000节点体系结构和数据存储器2个处理器,32到256MB主存,共享磁盘1个处理器,64MB到2GB本地主存,1GB到14.5GB本地磁盘2个处理器,64MB到256MB分布共享主存和共享磁盘互连网络和主存模型分离两维网孔,NORMA多级网络,NORMA胖超立方体网络,CC-NUMA节点操作系统轻量级内核(LWK)完全AIX(IBMUNIX)微内核CellularIRIX自然编程机制基于PUMAPortals的MPIMPI和PVMPowerC,PowerFortran其他编程模型Nx,PVM,HPFHPF,LindaMPI,PVMCluster(1)分类:大规模并行处理系统MPP集群工作站集群COW(ClusterofWorkstations)MPP集群设计策略:集群体系结构标准环境标准编程模型系统可用性精选的单一系统映像Cluster(2)COW特征:分布式存储,MIMD,工作站+商用互连网络,每个节点是一个完整的计算机,有自己的磁盘和操作系统,使用SPMD(SingleProgramMultipleData)编程方式。COW优点:投资风险小编程方便系统结构灵活性能/价格比高能充分利用分散的计算资源可扩展性好COW需解决的问题通信性能。尽管使用商品网络可以降低集群系统的造价,使其获得很高的性能/价格比,但商品网络的通信性能有限,往往满足不了一些对通信性能要求高的领域。并行应用性能的提升。集群系统可以通过增加结点来达到更高的峰值运算速度,但运行在其上的并行应用并不能不加修改的获得更佳的性能。造成这种现象的主要原因是,用于集群的并行编程环境还不能实现自动的数据分配和负载均衡。典型的集群系统典型的集群系统特点一览表名称系统特点Princeton:SHRIMPPC商用组件,通过专用网络接口达到共享虚拟存储,支持有效通信Karsruhe:Parastation用于分布并行处理的有效通信网络和软件开

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论