Chapter 7 多核、多处理器和集群_第1页
Chapter 7 多核、多处理器和集群_第2页
Chapter 7 多核、多处理器和集群_第3页
Chapter 7 多核、多处理器和集群_第4页
Chapter 7 多核、多处理器和集群_第5页
已阅读5页,还剩28页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

计算机组成与设计硬件/软件接口第7章多核、多处理器和集群ComputerOrganizationandDesignTheHardware/SoftwareInterfaceDavidA.PattersonJohnL.Hennessy7.1引言目标:将多台计算机连接起以期获得更高的性能。

计算机集群多处理器多核处理器作业(Job)/进程(Process)级的并行并行性高,因为作业相对独立并行处理程序单个程序运行在多个处理器上多核处理器在一个芯片上有多个处理器(核)7.1引言串行/并行程序都可以在串行/并行处理器上运行挑战:如何更加有效地使用并行处理器并行编程应显著提高程序的执行性(否则还不如用一个快一点的单处理器,因为这样更容易)面临的困难:调度、负载均衡、同步和通信开销7.2创建并行处理程序的难点程序执行的串行部分限制了加速比的提升。Amdahl定理Example:要在100个处理器上获得加速比90,试计算顺序执行部分应是多少?Amdahl定理Fp

=0.999∴顺序执行部分不能超过0.1%。问题规模工作负载:单处理器:

10个标量求和10×10二维矩阵求和10个处理器:

达到潜能的55%问题规模100个处理器:

达到潜能的10%工作负载:10个标量求和100×100二维矩阵求和问题规模单处理器:

10个处理器:

达到潜能的99%100个处理器:

达到潜能的91%强比例与弱比例缩放强比例缩放:问题规模不变。如前面的例子所示

弱比例缩放:问题规模随处理器数量比例变化。10个处理器,10×10二维矩阵求和

T=20tadd100个处理器,32×32二维矩阵求和T=10tadd+(32×32/100)tadd=20tadd思考题:排队5分钟1分钟7.3共享存储多处理器共享存储多处理器

SMP-SharedMemoryMultiprocessor由硬件为所有的处理器提供单一的物理地址空间以块为单位同步共享变量存储器访问时间统一存储访问(UMA):访存时间大致相同非统一存储访问(NUMA):某些存储访问更快共享存储多处理器的典型组成互连网络存储器I/O处理器Cache处理器Cache处理器Cache……处理器间的消息传递机制每个处理器都有自己的私有物理地址空间由硬件负责在处理器间的通信互连网络……处理器Cache处理器处理器Cache处理器…处理器Cache处理器affordable松散耦合独立的计算机通过网络连接每个计算机都有自己的内存和OS通过I/O系统连接(域局网、交换机、互联网)适合具有独立任务的应用Web服务器、数据库、仿真具有高适应性、扩展性、成本低松散耦合主要问题管理开销(主要是虚拟机)连接带宽低指令和数据流分类方式数据流一个多个指令流一个SISD:IntelPentium4SIMD:SSEinstr.ofx86多个MISD:目前无实例MIMD:IntelXeone5345SPMD:单程序多数据一个并行程序运行在MIMD计算机上条件语句控制在不同处理器执行不同代码SIMD–单指令流多数据流所有的处理器在同一时间执行相同指令每个处理器访问的数据不同同步机制简单简化指令控制硬件最适于高数据并行应用向量处理器高度流水线的功能单元数据流←→向量寄存器→处理单元数据←寄存器←存储器结果→寄存器→存储器例如:MIPS指令集体系结构向量扩展增加向量指令和向量寄存器可减少取指带宽的要求向量与标量的对比向量体系结构和编译器简单的数据并行编程明确的无循环间相关减少了硬件的检测通过避免循环,从而控制上的冒险比自媒体扩展(如:MMX、SSE)更通用与编译技术配合更好GPU的历史早期的视频卡以帧为单位的显示缓存3D图形处理最初用在高端计算机上摩尔定律

低费用、高密度3D图形卡用于普通PC机和游戏终端GPU的历史图形处理单元面向3D图形处理的处理器顶点/像素的处理、渲染、纹理映射、光栅化处理等计算机中的图形系统计算机中的图形系统计算机中的图形系统GPU的体系结构高度数据并行处理GPU是高度多线程结构使用线程开关来隐藏存储器的延时显示缓存数据宽度大、传输速率高发展趋势:通用GPU多种型式的CPU/GPU系统CPU于用于顺序代码的执行,GPU用于并行代码的执行GPU的体系结构编程语言/APIDirectX、OpenGLCForGraphics(Cg)、HLSLCUDA(ComputeUnifiedDeviceArchitecture)NVIDIATesla8×流处理器NVIDIATesla流处理器SP单精度浮点运算和整数运算每个SP都是细粒度多线程Warp:32个线程一组以SIMD型式并行

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论