版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、并行计算机系统与结构模型- 并行计算实践 并行计算机系统与结构模型-并行计算实践 2 2021-4-26 第一章 并行计算机系统与结构模型 1.1 典型并行计算机系统简介 1.1.1 阵列处理机 1.1.2 向量处理机 1.1.3 共享存储多处理机 1.1.4 分布存储多计算机 1.1.5 分布共享存储多处理机 1.2 当代并行计算机体系结构 1.2.1 并行计算机体系结构模型 1.2.2 并行计算机存储结构模型 1.2.3 分布式高速缓存与主存体系结构 1.3 小结 并行计算机系统与结构模型-并行计算实践 3 2021-4-26 阵列处理机 向量处理机 共享存储多处理机 分布存储多计算机 典
2、型并行计算机系统 并行计算机系统与结构模型-并行计算实践 4 2021-4-26 阵列处理机的两种基本结构 CU P0 M0 Pn-1 Mn-1 IN PEn-1 CU PE1PE0PEn-1 M1M0Mm-1 IN (a)分布存储阵列机(b)共享存储阵列机 并行计算机系统与结构模型-并行计算实践 5 2021-4-26 阵列处理机的特点 SIMD单指令多数据流机 利用资源重复开拓计算空间的并行 同步计算所有PE执行相同操作 适于特定问题(如有限差分、矩阵运算等) 求解 并行计算机系统与结构模型-并行计算实践 6 2021-4-26 Cray-1的向量处理的向量处理 数“1”/计数3-4 移位
3、4 整数加3 逻辑2 浮点乘7 浮点加6 浮点倒数14 逻辑1 整数加3 移位2-3整数加2 整数乘6 8个向量寄存器,每 个64字,每字64位 8个标量寄存器8个地址寄存器 主存储器 指令处理器 向量部件浮点部件 标量部件 地址运算部件 I/O 说明:12个功能流水部件 中后面的数字,表示流 水线延迟的时钟周期数 并行计算机系统与结构模型-并行计算实践 7 2021-4-26 共享存储的多处理机 MIMD多指令多数据流机 单一的共享地址空间 易于编程、难于扩展 存储访问可成为性能瓶颈 紧耦合与同构对称方式 并行计算机系统与结构模型-并行计算实践 8 2021-4-26 典型的紧耦合多处理机系
4、统 P P I N P I O I N P p P 1 C M p C M 1 P M 1 D d D 1 P M p M m M 1 P M I N I / O 通 道 P M : 局 存 C M : 高 速 缓 存 P : 处 理 器 D : 外 部 设 备 并行计算机系统与结构模型-并行计算实践 9 2021-4-26 Balance同构对称多处理机系统 80386CPU Weitek1167FPU 64KB 高速缓存 80386CPU Weitek1167FPU 64KB 高速缓存 存储器 8MB 存储控制器 存储器 8MB 存储控制器 I/O x.25远程网 系统总线 总线适配器 S
5、CSI 以太局域网 磁盘控制器 磁盘磁盘 总线适配器 总线适配器 多总线 并行计算机系统与结构模型-并行计算实践 10 2021-4-26 分布存储多计算机 松散耦合多机系统 节点独立(可有局存、IO设备等) 易于扩展 多地址空间 消息传递通信界面 难于编程 并行计算机系统与结构模型-并行计算实践 11 2021-4-26 Intel Paragon系统框图 计算 节点 计算 节点 计算 节点 计算 节点 计算 节点 计算 节点 计算 节点 计算 节点 计算 节点 HIPPI 节点 HIPPI 节点 SCSI 节点 服务 节点 服务 节点 服务 节点 VME 节点 SCSI 节点 SCSI 节
6、点 SCSI 节点以太网 FDDI 用户I/O 磁带 I/O部分计算部分 服务部分I/O部分 并行计算机系统与结构模型-并行计算实践 12 2021-4-26 分布共享存储多处理机 分布共享存储DSMDistributed Shared Memory 将物理上分布的存储系统,通过硬件和软 件的办法,向用户提供一个单一的全局地 址空间 易于编程 易于扩展 并行计算机系统与结构模型-并行计算实践 13 2021-4-26 并行计算机体系结构 单指令多数据流机单指令多数据流机SIMD(Single-Instruction Multiple-Data); 并行向量处理机并行向量处理机PVP(Paral
7、lel Vector Processor); 对称多处理机对称多处理机SMP(Symmetric Multiprocessor); 大规模并行处理机大规模并行处理机MPP(Massively Parallel Processor); 工作站机群工作站机群COW(Cluster of Workstation) 分布式共享存储分布式共享存储DSM(Distributed Shared Memory)多处理机多处理机。 并行计算机系统与结构模型-并行计算实践 14 2021-4-26 并行计算机体系结构模型 P/C LM NIC 定制网络 (c)MPP P/C LM NIC MBMB VP SM 交
8、叉开关 (a)PVP VPVP SMSM P/C SMSMI/O 总线或交叉开关 (b)SMP P/CP/C P/C LM NIC DIR MB 定制网络 (d)DSM P/C LM NIC DIR MB LD P/C M MB IOB (e)COW LD P/C M MB IOB 商品网络(以太网,ATM,etc.) Bridge NICNIC Bridge 并行计算机系统与结构模型-并行计算实践 15 2021-4-26 对称多处理机SMP(1) SMP: 采用商用微处理器,通常有片上和片外Cache,基于总线连接, 集中式共享存储,UMA结构 例子:SGI Power Challenge
9、, DEC Alpha Server,Dawning 1 P / C S MS MI / O 总线或交叉开关 P / CP / C 并行计算机系统与结构模型-并行计算实践 16 2021-4-26 对称多处理机SMP(2) 优点 对称性 单地址空间,易编程性,动态负载平衡,无需显示数据分配 高速缓存及其一致性,数据局部性,硬件维持一致性 低通信延迟,Load/Store完成 问题 欠可靠,BUS,OS,SM 通信延迟(相对于CPU),竞争加剧 慢速增加的带宽(MB double/3年,IOB更慢) 不可扩放性-CC-NUMA 并行计算机系统与结构模型-并行计算实践 17 2021-4-26 大
10、规模并行机MPP 成百上千个处理器组成的大规模计算机系统,规模是变化的。 NORMA结构,高带宽低延迟定制互连。 可扩放性:Mem, I/O,平衡设计 系统成本:商用处理器,相对稳定的结构,SMP,分布 通用性和可用性:不同的应用,PVM,MPI,交互,批处理,互连对用户 透明,单一系统映象,故障 通信要求 存储器和I/O能力 例子:Intel Option Red IBM SP2 Dawning 1000 P/C LM NIC 定 制 网 络 P/C LM NIC MBMB 并行计算机系统与结构模型-并行计算实践 18 2021-4-26 典型MPP系统特性比较 MPP模型Intel/San
11、dia ASCI Option Red IBM SP2SGI/Cray Origin2000 一个大型样机的配置9072个处理器, 1.8Tflop/s(NSL) 400个处理器, 100Gflop/s(MHPC C) 128个处理器, 51Gflop/s(NCSA) 问世日期1996年12月1994年9月1996年10月 处理器类型200MHz, 200Mflop/s Pentium Pro 67MHz, 267Mflop/s POWER2 200MHz, 400Mflop/s MIPS R10000 节点体系结构 和数据存储器 2个处理器,32到 256MB主存,共 享磁盘 1个处理器,6
12、4MB 到2GB本地主存, 1GB到14.5GB本地 磁盘 2个处理器,64MB 到256MB分布共享 主存和共享磁盘 互连网络和主存模型分离两维网孔, NORMA 多级网络, NORMA 胖超立方体网络, CC-NUMA 节点操作系统轻量级内核( LWK) 完全AIX(IBM UNIX) 微内核Cellular IRIX 自然编程机制基于PUMA Portals的MPI MPI和PVMPower C, Power Fortran 其他编程模型Nx,PVM,HPFHPF,LindaMPI,PVM 并行计算机系统与结构模型-并行计算实践 19 2021-4-26 机群型大规模并行机SP2 设计策
13、略: 机群体系结构 标准环境 标准编程模型 系统可用性 精选的单一系统映像 系统结构: 高性能开关 HPS 多级网络 宽节点、窄节点和窄节点2 NIC D E 节 点 1 NIC D E 节 点 S 以 太 网 P MCCMCC P P P N 高 性 能Omega,网 络开 关 I/O总 线 I/O总 线 并行计算机系统与结构模型-并行计算实践 20 2021-4-26 工作站机群COW 分布式存储,MIMD,工作站+商用互连网络,每个节点是一个完整的计算机, 有自己的磁盘和操作系统,而MPP中只有微内核 优点: 投资风险小 系统结构灵活 性能/价格比高 能充分利用分散的计算资源 可扩放性好
14、 问题 通信性能 并行编程环境 例子:Berkeley NOW,Alpha Farm, FXCOW P/C M MIOMIO M P/C NICNIC DDLAN 并行计算机系统与结构模型-并行计算实践 21 2021-4-26 典型的机群系统 典型的机群系统特点一览表 名称系统特点 Princeton:SHRIMPPC商用组件,通过专用网络接口达到共享虚拟存储,支持 有效通信 Karsruhe:Parastation用于分布并行处理的有效通信网络和软件开发 Rice:TreadMarks软件实现分布共享存储的工作站机群 Wisconsin:Wind Tunnel在经由商用网络互连的工作站机群
15、上实现分布共享存储 C h i c a 、 M a r y l 、 Penns:NSCP 国家可扩放机群计划:在通过因特网互连的3个本地机群系 统上进行元计算 Argonne:Globus在由ATM连接的北美17个站点的WAN上开发元计算平台和 软件 Syracuse:WWVM使用因特网和HPCC技术,在世界范围的虚拟机上进行高性 能计算 HKU:Pearl Cluster研究机群在分布式多媒体和金融数字库方面的应用 Virgina:Legion在国家虚拟计算机设施上开发元计算软件 并行计算机系统与结构模型-并行计算实践 22 2021-4-26 SMPMPP机群比较 系统特征SMPMPP机群
16、 节点数量(N)O(10)O(100)-O(1000)O(100) 节点复杂度中粒度或细粒度细粒度或中粒度中粒度或粗粒度 节点间通信 共享存储器消息传递 或共享变量(有DSM时) 消息传递 节点操作系统1N(微内核) 和1个主机OS(单一) N (希望为同构) 支持单一系统映像永远部分希望 地址空间单一多或单一(有DSM时)多个 作业调度单一运行队列主机上单一运行队列协作多队列 网络协议非标准非标准标准或非标准 可用性通常较低低到中高可用或容错 性能/价格比一般一般高 互连网络总线/交叉开关定制商用 并行计算机系统与结构模型-并行计算实践 23 2021-4-26 五种结构特性一览表 属性PV
17、PSMPMPPDSMCOW 结构类型MIMDMIMDMIMDMIMDMIMD 处理器类型专用定制商用商用商用商用 互连网络定制交叉 开关 总线、交叉 开关 定制网络定制网络商用网络 以太,ATM 通信机制共享变量共享变量消息传递共享变量消息传递 地址空间单地址空间单地址空间多地址空间单地址空间多地址空间 系统存储器集中共享集中共享分布非共享分布共享分布非共享 访存模型UMAUMANORMANUMANORMA 代表机器 Cray C-90, Cray T-90, 银河1号 I B M R 5 0 , S G I P o w e r C h a l l e n g e , 曙光1号 Intel P
18、aragon, IBMSP2,曙光 1000/2000 Stanford DASH, Cray T 3D Berkeley NOW, Alpha Farm 并行计算机系统与结构模型-并行计算实践 24 2021-4-26 并行计算机访存模型 均匀存储访问模型 UMA 非均匀存储访问模型 NUMA 全高速缓存访问模型COMA 高速缓存一致性非均匀存储访问模型CC- NUMA 非远程存储访问模型NORMA 并行计算机系统与结构模型-并行计算实践 25 2021-4-26 UMA访存模型 P1P2Pn I/OSM1SMm 共享存储器 处理器 () 系统互连 总线交叉开关多级,网络 UMA(Unifo
19、rm Memory Access)模型是 均匀存储访问模型的简称。其特点是: 物理存储器被所有处理器均匀共享; 所有处理器访问任何存储字取相同的时间; 每台处理器可带私有高速缓存; 外围设备也可以一定形式共享。 并行计算机系统与结构模型-并行计算实践 26 2021-4-26 NUMA访存模型 NUMA(Nonuniform Memory Access)模型 是非均匀存储访问非均匀存储访问模型的简称。特点是: 被共享的存储器在物理上是分布在所有的处 理器中的,其所有本地存储器的集合就组成 了全局地址空间; 处理器访问存储器的时间是不一样的;访问 本地存储器LM或群内共享存储器CSM较快, 而访
20、问外地的存储器或全局共享存储器GSM 较慢(此即非均匀存储访问名称的由来); 每台处理器照例可带私有高速缓存,外设也 可以某种形式共享。 LM1P1 LM2P2 LMnPn 互 连 网 络 (a)共享本地存储模型 全局互连网络 (b)层次式机群模型 GSMGSMGSM P C I N CSM P P CSM CSM 群1 P C I N CSM 群N P P CSM CSM 并行计算机系统与结构模型-并行计算实践 27 2021-4-26 COMA访存模型 COMA(Cache-Only Memory Access)模型 是全高速缓存存储访问全高速缓存存储访问的简称。其特点 是: 各处理器节点
21、中没有存储层次结构,全部高 速缓存组成了全局地址空间; 利用分布的高速缓存目录D进行远程高速缓 存的访问; COMA中的高速缓存容量一般都大于2 级高 速缓存容量; 使用COMA时,数据开始时可任意分配,因 为在运行时它最终会被迁移到要用到它们的 地方。 互 连 网 络 D C P D C P D C P 并行计算机系统与结构模型-并行计算实践 28 2021-4-26 CC-NUMA访存模型 CC-NUMA(Coherent-Cache Nonuniform Memory Access)模型是高速缓存一致性高速缓存一致性 非均匀存储访问非均匀存储访问模型的简称。其特点是: 大多数使用基于目录
22、的高速缓存一致性协议; 保留SMP结构易于编程的优点,也改善常规 SMP的可扩放性; CC-NUMA实际上是一个分布共享存储的 DSM多处理机系统; 它最显著的优点是程序员无需明确地在节点 上分配数据,系统的硬件和软件开始时自动 在各节点分配数据,在运行期间,高速缓存 一致性硬件会自动地将数据迁移至要用到它 的地方。 I/ONIC,DIR,RC 系统互连网路 MemP/CP/C I/ONIC,DIR,RC MemP/CP/C 节点N节点1 总线或交叉开关总线或交叉 开关 并行计算机系统与结构模型-并行计算实践 29 2021-4-26 NORMA访存模型 消 息 传 递 互 连 网 络 ( 网
23、 络 , 环 网 , 超 立 方 , 立 方 环 等 ) PM PM MP MP M P M P M P P M P M P M . . . . . . . . 并行计算机系统与结构模型-并行计算实践 30 2021-4-26 构筑并行机系统的不同存储结构 M MI IM MD D 多计算机 (多地址空间非共享存储器) (IBM SP2,DEC TruCluster Tandem Hymalaya,HP, Microsoft Wolfpack,etc) N NO OR RM MA A U UM MA A N NU UM MA A C Cl lu us st te er r M MP PP P(Intel TFLOPS) 紧耦合 P PV VP P(Cray T90) S SM MP P (Intel SHV,SunF
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 委托拍摄合同模板2篇
- 会计报告准确性承诺书尊享版3篇
- 转让旅行社合同范例
- 养鸡场经营合同范例
- 硅藻泥修补合同范例
- 冷冻机合同范例
- 喷护合同范例
- 车库门加工合同范例
- 武汉轻工大学《商业摄影》2023-2024学年第一学期期末试卷
- 卡座出租合同范例
- 电商平台产品质量保障服务合同
- 小学生人际交往篇-做一个受欢迎的人
- 2024年建筑业三类人员(安管人员、安全员、施工员)等知识考试题库与答案
- 电气工程预算课程设计
- 法律意见书(适用于股权投资)
- 新苏教版五年级科学上册活动手册答案
- 教官协作服务合同
- 第八单元测试卷-2024-2025学年统编版语文三年级上册
- 第11讲 海水性质和海水运动(练习)(教师版) 2025年高考地理一轮复习讲练测(新教材新高考)
- 专题9.9 解析几何(2021-2023年)真题训练(解析版)
- GB/T 16439-2024交流伺服系统通用技术规范
评论
0/150
提交评论