Chapter 7 多核、多处理器和集群_第1页
Chapter 7 多核、多处理器和集群_第2页
Chapter 7 多核、多处理器和集群_第3页
Chapter 7 多核、多处理器和集群_第4页
Chapter 7 多核、多处理器和集群_第5页
已阅读5页,还剩28页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、电子科技大学计算机科学与工程学院电子科技大学计算机科学与工程学院 计算机组成与设计计算机组成与设计硬件硬件/ /软件接口软件接口第第7章章多核、多处理器和集群多核、多处理器和集群Computer Organization and DesignThe Hardware/Software InterfaceDavid A. Patterson John L. Hennessy电子科技大学计算机科学与工程学院电子科技大学计算机科学与工程学院 7.1 引言引言n 目标目标:将多台计算机连接起以期获得更高的性能。 计算机集群 多处理器 多核处理器电子科技大学计算机科学与工程学院电子科技大学计算机科学与工

2、程学院 n 作业作业(Job)/进程进程(Process)级的并行级的并行 并行性高,因为作业相对独立n 并行处理程序并行处理程序 单个程序运行在多个处理器上n 多核处理器多核处理器 在一个芯片上有多个处理器(核核)7.1 引言引言电子科技大学计算机科学与工程学院电子科技大学计算机科学与工程学院 n 串行串行/并行程序都可以在串行并行程序都可以在串行/并行处理器上运行并行处理器上运行 挑战:如何更加有效地使用并行处理器n 并行编程并行编程 应显著提高程序的执行性(否则还不如用一个快一点的单处理器,因为这样更容易) 面临的困难:调度、负载均衡、同步和通信开销7.2 创建并行处理程序的难点创建并行

3、处理程序的难点电子科技大学计算机科学与工程学院电子科技大学计算机科学与工程学院 程序执行的串行部分限制了程序执行的串行部分限制了加速比的提升。加速比的提升。Amdahl定理定理Example:要在要在100个处理器上获得加速比个处理器上获得加速比90,试,试计算顺序执行部分应是多少?计算顺序执行部分应是多少?电子科技大学计算机科学与工程学院电子科技大学计算机科学与工程学院 Amdahl定理定理90/100F)F(11pp加速比 Fp = 0.999顺序执行部分不能超过0.1%。电子科技大学计算机科学与工程学院电子科技大学计算机科学与工程学院 问题规模问题规模n 工作负载:工作负载: 单处理器:

4、单处理器: 10个个标量标量求和求和1010二维二维矩阵求和矩阵求和 10个处理器:个处理器: 达到潜能的达到潜能的55%电子科技大学计算机科学与工程学院电子科技大学计算机科学与工程学院 问题规模问题规模 100个处理器:个处理器: 达到潜能的达到潜能的10%n 工作负载:工作负载:10个个标量标量求和求和100100二二维矩阵求和维矩阵求和电子科技大学计算机科学与工程学院电子科技大学计算机科学与工程学院 问题规模问题规模 单处理器:单处理器: 10个处理器:个处理器: 达到潜能的达到潜能的99% 100个处理器:个处理器: 达到潜能的达到潜能的91%电子科技大学计算机科学与工程学院电子科技大

5、学计算机科学与工程学院 强比例与弱比例缩放强比例与弱比例缩放n 强比例缩放:问题规模不变。强比例缩放:问题规模不变。 如前面的例子所示 n 弱弱比例比例缩放:问题缩放:问题规模随处理器数量比例变化。规模随处理器数量比例变化。 10个处理器,1010二维矩阵求和 T = 20tadd 100个处理器,3232二维矩阵求和 T = 10tadd + (3232 /100)tadd= 20tadd电子科技大学计算机科学与工程学院电子科技大学计算机科学与工程学院 思考题:思考题:排队排队5 5分钟分钟1 1分钟分钟电子科技大学计算机科学与工程学院电子科技大学计算机科学与工程学院 7.3 7.3 共享存

6、储多处理器共享存储多处理器n 共享存储多处理器共享存储多处理器 SMP - Shared Memory Multiprocessor 由硬件为所有的处理器提供单一的物理地址空间 以块为单位同步共享变量 存储器访问时间 统一存储访问(UMA):访存时间大致相同 非统一存储访问(NUMA):某些存储访问更快电子科技大学计算机科学与工程学院电子科技大学计算机科学与工程学院 共享存储多处理器的典型组成共享存储多处理器的典型组成互连网络互连网络存储器存储器I/O处理器处理器Cache处理器处理器Cache处理器处理器Cache电子科技大学计算机科学与工程学院电子科技大学计算机科学与工程学院 处理器间的消

7、息传递机制处理器间的消息传递机制n 每个处理器都有自己的私有物理地址空间每个处理器都有自己的私有物理地址空间n 由硬件负责在处理器间的通信由硬件负责在处理器间的通信互连网络互连网络处理器处理器Cache处理器处理器处理器处理器Cache处理器处理器处理器处理器Cache处理器处理器affordable电子科技大学计算机科学与工程学院电子科技大学计算机科学与工程学院 松散耦合松散耦合n 独立的计算机通过网络连接独立的计算机通过网络连接 每个计算机都有自己的内存和OS 通过I/O系统连接(域局网、交换机、互联网)n 适合具有独立任务的应用适合具有独立任务的应用 Web服务器、数据库、仿真n 具有高

8、适应性、扩展性、成本具有高适应性、扩展性、成本低低电子科技大学计算机科学与工程学院电子科技大学计算机科学与工程学院 松散耦合松散耦合n 主要问题主要问题 管理开销(主要是虚拟机) 连接带宽低电子科技大学计算机科学与工程学院电子科技大学计算机科学与工程学院 指令和数据流指令和数据流n 分类方式分类方式数据流数据流一个一个多个多个指令流指令流一个一个SISD:Intel Pentium 4SIMD: SSE instr. of x86多个多个MISD:目前无实例目前无实例MIMD:Intel Xeon e5345n SPMD:单程序多数据:单程序多数据 一个并行程序运行在MIMD计算机上 条件语句

9、控制在不同处理器执行不同代码电子科技大学计算机科学与工程学院电子科技大学计算机科学与工程学院 SIMD SIMD 单指令流多数据流单指令流多数据流n 所有的处理器在同一时间执行相同指令所有的处理器在同一时间执行相同指令 每个处理器访问的数据不同n 同步机制简单同步机制简单n 简化指令控制简化指令控制硬件硬件n 最适于高数据并行应用最适于高数据并行应用电子科技大学计算机科学与工程学院电子科技大学计算机科学与工程学院 向量处理器向量处理器n 高度流水线的功能单元高度流水线的功能单元n 数据流数据流向量寄存器向量寄存器处理单元处理单元 数据数据寄存器寄存器存储器存储器 结果寄存器寄存器存储器存储器n

10、 例如:例如:MIPS指令集体系结构向量扩展指令集体系结构向量扩展 增加向量指令和向量寄存器增加向量指令和向量寄存器n 可减少取指带宽的要求可减少取指带宽的要求电子科技大学计算机科学与工程学院电子科技大学计算机科学与工程学院 向量与标量的对比向量与标量的对比n 向量体系结构和编译器向量体系结构和编译器 简单的数据并行编程简单的数据并行编程 明确的无循环间相关明确的无循环间相关减少了硬件的检测 通过避免循环,从而控制上的冒险通过避免循环,从而控制上的冒险n 比自媒体扩展比自媒体扩展(如:如:MMX、SSE)更通用更通用 与编译技术配合更好与编译技术配合更好电子科技大学计算机科学与工程学院电子科技

11、大学计算机科学与工程学院 GPUGPU的历史的历史n 早期的视频卡早期的视频卡 以帧为单位的显示缓存以帧为单位的显示缓存n 3D图形处理图形处理 最初用在高端计算机上最初用在高端计算机上 摩尔定律摩尔定律 低费用、低费用、高密度高密度 3D3D图形卡用于普通图形卡用于普通PCPC机和机和游戏终端游戏终端电子科技大学计算机科学与工程学院电子科技大学计算机科学与工程学院 GPUGPU的历史的历史n 图形处理单元图形处理单元 面向面向3D3D图形处理的处理器图形处理的处理器 顶点顶点/ /像素的处理、渲染、纹理映射、光栅像素的处理、渲染、纹理映射、光栅化处理等化处理等电子科技大学计算机科学与工程学院

12、电子科技大学计算机科学与工程学院 计算机中的图形系统计算机中的图形系统电子科技大学计算机科学与工程学院电子科技大学计算机科学与工程学院 计算机中的图形系统计算机中的图形系统电子科技大学计算机科学与工程学院电子科技大学计算机科学与工程学院 计算机中的图形系统计算机中的图形系统电子科技大学计算机科学与工程学院电子科技大学计算机科学与工程学院 GPUGPU的体系结构的体系结构n 高度数据并行处理高度数据并行处理 GPUGPU是高度多线程结构是高度多线程结构 使用线程开关来隐藏存储器的延时使用线程开关来隐藏存储器的延时 显示缓存数据宽度大、传输速率高显示缓存数据宽度大、传输速率高n 发展趋势:通用发展

13、趋势:通用GPU 多种多种型型式的式的CPUCPU/GPU/GPU系统系统 CPUCPU于用于顺序代码的执行,于用于顺序代码的执行,GPUGPU用于用于并行代并行代码的执行码的执行电子科技大学计算机科学与工程学院电子科技大学计算机科学与工程学院 GPUGPU的体系结构的体系结构n 编程语言编程语言/API DirectX、OpenGL C For Graphics(Cg)、HLSL CUDA(Compute Unified Device Architecture)电子科技大学计算机科学与工程学院电子科技大学计算机科学与工程学院 NVIDIA NVIDIA TeslaTesla8 流处理器流处理器电子科技大学计算机科学与工程学院电子科技大学计算机科学与工程学院 NVIDIA NVIDIA TeslaTeslan 流处理器流处理器SP 单精度浮点运算和整数运算单精度浮点运算和整数运算 每个每个SPSP都是细粒度多线程都是细粒度多线程n Warp:32个线程一组个线程一组 以以SIMDSIMD型式并行执行:型式并行执行:8(SP)8(SP)4 4时钟周期时钟周期 硬件支持硬件支持2424个个Warp电子科技大学计算机科学

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论