




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、tiger September 20161计算机系统结构n第一章 基本概念n第二章 指令系统n第三章 存储系统n第四章 输入输出系统*n第五章 标量处理机n第六章 向量处理机*n第七章 互连网络n第八章 并行处理机n第九章 多处理机tiger September 201620,1-TFlops(1000TFlops,千万亿次)nz060809.ppt0,1开关/高低电平,传送=线,存=晶体管,处理=门计组- 冯诺依曼计算机指令周期计组- 并行流水线,超标量,超流水线 系统结构1-5章- TFlops(1000TFlops, 千万亿次)向量处理机,并行处理机,多处理机系统结构6-9章- .tig
2、er September 20163第八章 SIMD计算机(并行处理机)n8.1 SIMD计算机模型n8.2 SIMD计算机基本结构n8.3 SIMD计算机实例n8.4 SIMD计算机的应用*n8.5 连续模型的结构向何处发展*tiger September 20164第八章 SIMD计算机(并行处理机)n两种并行性概念n同时性并行Simultaneity: 两个或两个以上事件在同一时刻发生n并发性并行Concurrency: 两个或两个以上事件在同一时间间隔内发生n三条技术途径n资源重复(空间并行性,同时性并行): 重复设置多个处理部件来提高速度n时间重叠(时间并行性,并发性并行): 流水线
3、n资源共享: 分时系统,分布式系统n时间-空间关系n资源重复(空间并行性,同时性并行): 增加空间以多个空间容纳多条指令n时间重叠(时间并行性,并发性并行): 细分空间以多个子空间容纳多条指令tiger September 201658.1 并行处理机模型n并行处理机定义n多个PE按照一定方式互连,在同一个CU控制下,对各自的数据完成同一条指令规定的操作n从CU看,指令串行执行,从PE看,数据并行处理n并行处理机也称为阵列处理机n以单一控制部件控制下的多个处理单元构成的阵列n按照Flynn分类法,属于SIMD计算机n主要应用领域-高速向量或矩阵运算tiger September 20166P0
4、M0PE0P1M1PE1P2M2PE2Pn-1Mn-1PEn-1互连网络CUHJSiegel提出的并行处理机模型并行处理机的操作模型tiger September 20167并行处理机的操作模型n并行处理机的操作模型可用五元组来表示M=(N,C,I,M,R)nN为PE个数n如Illiac IV有64个PEnC为由控制部件CU直接执行的指令集n包括标量指令和程序控制指令nI为所有PE并行执行的指令集n包括算术运算、逻辑运算、数据寻径、屏蔽及其它每个活动的PE对它的数据所执行的局部操作nM为屏蔽操作集n每种屏蔽将PE划分为允许操作和禁止操作两个子集nR是数据寻径集n互连网络中PE间通信所需要的各种
5、设置模式tiger September 20168MasPar MP-1的操作特性n(1)是一台具体的SIMD机器, N=1024至16384。实际PE数目与机器配置有关n(2)CU执行标量指令,译码后的向量指令广播到PE阵列,并控制PE间的通信n(3)每个PE都是基于Load/Store结构的RISC处理机,PE从CU接受指令,能执行整数运算和标准浮点运算n(4)屏蔽指令设在每个PE中,并由CU连续监控。它能在运行时动态地使每个PE处于置位或复位状态n(5)有一个X-Net网格网络和一个全局多级交叉开关寻径器,实现CU和PE之间、X-Net的8个近邻之间和全局寻经器的通信tiger Sept
6、ember 201693种SIMD计算机nMP-1n每个PE装有1位逻辑单元、4位整数ALU、64位尾数部件和16位指数部件nMP-1是中粒度并行处理机n每个PE比较简单,可将几个PE 做在一个芯片nMP-1的每个芯片有32个PE,每个PE有40个32位寄存器n32个PE用X-Net网络互相连接,是一种对角线双级链路扩展的4-邻网nCM-2n在一个芯片上将16个PE连成网格网络n每个16-PE网的芯片安置在12维超立方体的顶角n16212=216=65536个PE组成了整个SIMD阵列nDAP 610n在一个芯片上实现一个64-PE的网格网络n再由这些芯片上小网格互相连接组成一个大网格(646
7、4)tiger September 2016103种SIMD计算机nPE数从DAP 610的4096到MasPar MP-1的16384和CM-2的65536nPE都带有浮点加速器nPE有细粒度和中粒度之分nCM-2与DAP610都是细粒度、位片式SIMD计算机nMP-1是中粒度SIMD机tiger September 201611表8.1 3种SIMD计算机Active Memory Technology DAP600系列1K位/PE方形网格互连成4096PE的细粒度、位片SIMD阵列,正交4-邻位链接,20GIPS和560Mflops峰值性能由主机VAX/VMS或UNIX Fortran-
8、plus 或DAP上APAL提供,主机的Fortran77或C; 与Fortran90标准有关的Fortran-plusThinking Machines公司CM-265536个PE排成12维超立方体, 每个PE可有1M位存储器, 32个PE共享FPU选件, 峰值速度28Gflops和持续速度5.6Gflops由VAX, Sun或Symbolics 360主机驱动, PARIS支持的Lisp编译器、Fortran90、C*和*Lisp系统型号SIMD计算系统结构和性能语言、编译器和软件支持MasParMP-1系列102416384个PE, 26GIPS或1.3Gflops; 每个PE带16KB
9、本地存储器, X-Net网格加一个多级交叉开关互连网Fortran77, MasPar Fortran (MPF)和MasPar并行应用语言; X窗口UNIX/OS, 符号调试程序, 可视化和动画制作程序tiger September 2016128.2 并行处理机的基本结构n并行处理机有两种典型结构n分布式存储器结构n共享存储器结构n一台并行处理机由五个部分组成n多个处理单元PEn多个存储器模块Mn一个控制器CUn一个互连网络ICNn一台输入输出处理机IOPtiger September 2016138.2.1 分布式存储器结构n目前的大部分并行处理机基于分布式存储器模型n比较容易构成MPP
10、(Massively Parallel Processor,大规模并行处理机),几十万个PEn必须依靠并行算法来提高PE的利用率, 应用领域很有限nCU是控制部件,执行标量指令,并把向量指令广播到各个PEnCU中通常有一个较大容量的存储器nIOP是输入输出处理机,或称为主机n在IOP上安装操作系统,负担输入输出工作,还负责程序的编辑、编译和调试等工作n数据在局部存储器LM中的分布是一个很关键的问题n标量指令与向量指令可并发执行tiger September 201614LM0互连网络PE0CULM1PE1LMn-1PEn-1IOP图8.2 分布式存储器的SIMD计算机tiger Septemb
11、er 201615分布式存储器的SIMD计算机n包含重复设置的多个同样的处理单元PEn通过数据寻径网络以一定方式互相连接n每个PE有各自的本地存储器LMn在统一的阵列控制部件CU作用下,实现并行操作n程序和数据通过主机装入控制存储器n通过控制部件的是单指令流,指令的执行顺序与单处理机一样,基本上是串行执行n指令送到控制部件进行译码n标量操作或控制操作,直接由与控制部件相连的标量处理机执行n向量操作,广播到所有PE并行执行tiger September 201616分布式存储器的SIMD计算机n数据分布存放在所有PE的本地存储器nPE通过数据寻径网络互连n数据寻径网络执行PE间的通信n如移数、置
12、换和其它寻径操作n控制部件通过执行程序来控制数据寻径网络nPE的同步由控制部件的硬件实现n所有PE在同一个周期执行同一条指令n用屏蔽逻辑来决定任何一个PE在给定的指令周期执行或不执行指令nSIMD机器的主要差别在于PE间互相通信的数据寻径网络不同n4-邻连接网格结构在过去最受欢迎nIlliac IV由64个有本地存储器的PE组成、PE间通过88环绕连接网格实现互连nGoodyear MPP和AMT DAP610用两维网格实现nCM-2实现的嵌在网格中的超立方体和MasPar MP-1实现的X-Net加多级交叉开关的寻径器都由网格演变而来tiger September 2016178.2.2 共
13、享存储器结构n共享的多体并行存储器SM通过互连网络与各处理单元PE相连n存储模块的数目等于或略大于处理单元的数目n灵活、高速的互连网络在存储器与处理单元间传送数据n存储模块之间合理分配数据n大多数向量运算能以存储器的最高频率进行,少受存储冲突的影响n共享存储器并行处理机模型在处理单元数目不太大的情况下很理想nBurroughs Scientific Processor (BSP)采用了这种结构n16个PE通过一个1617的对准互连网络(ch03p146,ch07)访问17个共享存储器模块n存储器模块数与PE数互质可实现无冲突并行访问存储器tiger September 201618PE0互连网
14、络CUPE1PEn-1IOPSM0SM1SMk-1图8.3 共享存储器的SIMD计算机tiger September 201619不同存储方案的比较n互连网络的存在是必要的n共享存储器方案中,是存储器与处理单元之间的必由之路n分布存储器方案中,处理单元所需数据在大多数情况下都由本地存储器提供,处理单元间的数据传送必不可少n图8.2中,各处理单元PE之间可经两条途径相互联系n一条直接通过数据寻径网络n另一条是数据从LM读至阵列控制部件,然后通过公共数据总线广播到全部PEn处理单元数目很多的并行处理机中,PE之间的直接数据通路很有限,这决定了系统的固定结构和专用处理机的性质。这种局限性需要从互连网
15、络的研究中得到解决tiger September 201620与向量处理机的比较n与第六章的向量处理机相比,共同之处是都执行向量指令nSIMD计算机对向量的分量进行算术、逻辑、数据寻径和屏蔽操作n位片SIMD计算机中的向量是二进制向量。在字并行SIMD计算机中向量的分量是4字节或8字节的数nSIMD处理机的指令须使用长度为n的向量操作数,其中n是PE的个数nSIMD指令与流水线向量处理机的指令类似,不同之处是多PE的空间并行性代替了流水线的时间并行性n数据寻径指令包括置换、广播、选播以及循环和移数操作n在任何指令周期,屏蔽操作可允许或禁止某些PE参加运算nSIMD结构的所有I/O动作都由主机承
16、担n主机和阵列控制部件间有一个专用的控制存储器,是一个存放程序和数据的中间存储器n启动程序之前,把划分好的数据集合分布到本地存储器或共享存储器模块n主机管理大容量存储器或计算结果的图形显示n在控制部件的协调下,标量处理机与PE阵列并发地运算tiger September 2016218.2.3 并行处理机的特点n并行处理机的主要特点n速度快,而且潜力大n模块性好,生产和维护方便n可靠性高,容易实现容错和重构n效率低(与流水线处理机、向量处理机等比较)n通常作为专用计算机,很大程度上依赖于并行算法n依靠的是资源重复,而不是时间重叠,每个处理单元要担负多种处理功能,效率要低一些n依靠增加PE个数,
17、与流水线处理机主要依靠缩短时钟周期相比,提高速度的潜力要大得多n依赖于互连网络和并行算法n互连网络决定了PE之间的连接模式,也决定了并行处理机能够适应的算法n需要有一台高性能的标量处理机n如果一台机器的向量处理速度极高,但标量处理速度只是每秒一百万次,那么对于标量运算占10%的应用来说,总的有效速度就不过是每秒一千万次tiger September 2016221 高速数值计算nSIMD计算机与流水线向量处理机一样,特别适于高速数值计算n以有限差分、矩阵、信号处理、线性规划等计算问题为背景而发展起来n这些问题的共同特点是能够通过各种途径归结为数组和向量处理nSIMD计算机效率取决于计算程序向量
18、化的程度n与按多指令流多数据流方式工作的多处理机相比,具有较固定的结构,直接与一定的算法相联系n通过改进系统结构和制定并行算法,使可能适应的计算问题类型尽量广一些、多一些n应该把系统结构的研究和算法的研究结合起来tiger September 2016232 利用大量处理单元对向量各个分量同时进行运算nSIMD计算机利用大量处理单元对向量所包含的各个分量同时进行运算,是它获得很高处理速度的主要原因n与同样擅长于向量处理的流水线向量处理机相比,SIMD计算机依靠的并行措施是资源重复,而不是时间重叠n每个处理单元要担负多种处理功能,相当于流水线向量处理机的多功能流水线部件(如在TI ASC机中),
19、效率比多个单功能流水线部件(如在Cray-1机中)要低一些n在硬件价格大幅度下降,系统结构的不断改进,SIMD计算机才具有较好的性能价格比nSIMD计算机主要依靠增多处理单元的个数提高运算速度,与流水线处理机主要依靠缩短时钟周期相比,其提高速度的潜力要大得多n如果有很好的互连网络相配合,则多处理单元的功能和灵活性将会更强一些n如时钟周期为160ns、包含16个处理单元的BSP SIMD计算机取得的运算速度,能与时钟周期为12.5ns、包含12条单功能流水线的Cray-1流水线向量处理机相当tiger September 2016243 SIMD计算机的互连网络nSIMD计算机机与流水线向量处理
20、机的另一区别是互连网络n是由多处理单元这一特点所决定n目前的SIMD计算机采用的互连网络还比较简单,但它是SIMD计算机最有特色的一个组成部分n互连网络规定处理单元的连接模式, 决定SIMD计算机能适应的算法类别,对整个系统的各项性能指标产生重要的影响n是SIMD计算机结构的研究重点,是多处理机的重要组成部分tiger September 2016254 实际有效速度的其他决定因素n以向量处理为主的SIMD计算机除向量运算速度以外,整个系统的实际有效速度的另外两个决定因素n一是标量运算速度n二是编译过程的开销n提高SIMD计算机处理标量和短向量的能力很重要n流水线的向量处理机处理短向量时,流水
21、线建立和排空时间的比例加大nSIMD计算机中短向量对速度影响较小,但降低了处理效率n如果某一台机器的向量处理速度极高,甚至是不受限制的,但标量处理速度只是每秒一百万次浮点运算,那么对于标量运算占10%的题目来说,总的有效速度就不过是每秒一千万次浮点运算n编译时间,与系统结构,与机器语言有密切的关系n要提高SIMD计算机的通用性,建立一个具有向量化功能的高级语言编译程序十分必要tiger September 2016265 SIMD计算机基本上是一台向量处理专用计算机nSIMD计算机基本上是一台向量处理专用计算机n有一个功能很强的控制部件起着标量处理机的作用n仍须有一台高性能单处理机担负系统的全
22、部管理功能n根据功能专用化的原则组成一个异构型多计算机系统n向量处理部件是系统的主体n高性能单处理机可视为它的前端机,用来分担部分功能,以便充分发挥主体的向量处理效率n流水线向量处理机则有一些不同n有些向量处理机接到主机上执行主机的一些有关操作或子程序,分担主机的部分功能,提高主机的有效运算速度, 起着后端处理机的作用,不能被认为是系统的主体n在流水线向量处理机中,CDC STAR100、和Cray-1等巨型计算机本身被认为是完整的通用计算机系统nAP120B、IBM3838等专用浮点数组处理机是后端处理机tiger September 2016278.3 并行处理机实例nIlliac IV
23、是最先采用SIMD结构的并行处理机n采用阵列结构分布存储器n一个方向是用位片PE制造的SIMD计算机nGoodyear MPP、AMT/DAP 610和TMC/CM-2nCM-5是以SIMD模式运行的同步MIMD计算机n另一方向是用字宽运算PE的中粒度SIMD计算机nBSP是16台处理机和17个存储模块同步工作的共享存储器SIMD计算机nGF-11是IBM Watson实验室研制、作科学模拟研究nMasPar MP-1是中粒度SIMD计算机tiger September 201628并行处理机的两个发展方向n保留阵列结构,但每个处理单元的规模减小,如1bitnCM-2n去掉阵列结构和分布存储器
24、nBurroughs公司的BSP是典型代表Illiac IV1968Goodyear MPP1980BSP1982DAP 6101987CM21990CM51991IBM GF-111991MasPar MP-11991tiger September 2016298.3.1 Illiac IV 并行处理机n1963年,美国西屋电器公司提出“Slotnick,The SOLOMON Computer,Simultaneous Operation linked Ordinal Modular Network”n1966年美国国防远景研究规划局ARPR与伊利诺依大学签定合同n原计划:256个PE,每
25、个PE每240ns处理一个64位的浮点数,每个局部存储器PEM为2Kx64位,总的运算速度为1GFLOPSn美国Burroughs公司和伊利诺依大学于1972年共同设计和生产,1975年实际投入运行。用了4倍的经费,只达到1/20的速度。只实现了8x8=64个PE,只达到50MFLOPSnIlliac IV系统的影响非常大n是并行处理机、分布存储器并行处理机的典型代表tiger September 201630Illiac IV系统组成nIlliac IV系统由三大部分组成,是3种类型处理机联合组成的多机系统 nIlliac IV处理机阵列(processing element array)n
26、8x8,包括PE、PEM和互连网络n阵列控制器CU(array control unit)n处理单元阵列的控制部分,又可视为一台相对独立的小型标量处理机 n一台标准的Burroughs B6700计算机n输入输出处理机和操作系统管理功能tiger September 201631图8.5 Illiac IV系统总框图tiger September 201632PEM63PEM0PEM1CUCDCBIOMB6700CPUB6700内存B6700多路开关B6700外围设备IOS激光存储器6464 X 8CU总线控制线模式位线APPA网接口1282561024I/O 总线CDBPE63PE01024
27、 实 时 装 置48484848256PE0PE1PE63.DFS图8.5 Illiac IV系统总框图tiger September 2016331 Illiac IV阵列nIlliac IV处理阵列由8x8=64个PU组成。每个PU由处理部件PE和它的局部存储器PEM组成n每一个PUi只和它的东、西、南、北四个近邻直接连接PUi+1 mod 64,PUi-1 mod 64,PUi+8 mod 64,PUi-8 mod 64n南北方向上同一列的PU连成一个环,东西方向上构成一个闭合螺线n闭合螺线最短距离不超过7步。普通网格最短距离不超过8步nnn个单元组成的阵列,任意两个单元之间的最短距离不
28、超过n-1步nPU0到PU36的距离:采用普通网格必须8步nPU0 PU1 PU2 PU3 PU4 PU12 PU20 PU28 PU36n或PU0PU8PU16PU24PU32PU33PU34PU35PU36n或 .(等于8步的很多,大于8步的更多)n采用闭合螺旋线,只需要7步nPU0PU63PU62PU61PU60PU52PU44PU36n或PU0PU63PU55PU47PU39PU38PU37PU36n或. PU56 PU57 PU63 PU63 2 3 4 5 6 PU8 PU8 10 11 12 13 14 PU16 16 17 18 19 20 21 22 23 24 25 26
29、27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 PU55 58 59 60 61 62 PU0 PU0 PU1 PU7PU0PU1PU8PU9PU56PU57PU7PU15PU63图8.6 Illiac IV处理部件的连接tiger September 201635图8.7 Illiac IV处理单元原理框图tiger September 201636数组处理的运算部分n处理单元可以对64位、32 位和8位操作数进行多种算术和逻辑操作,也包括48位、24位或8位定点运算
30、n将64个64位处理单元的硬件当作64个64位、128个32位或512个8位的处理单元发挥作用n并行加法的速度为每秒1010次8位定点加法,或每秒150 x106次64位浮点加法tiger September 201637处理单元n有6个可编程序寄存器RGA、RGB、RGR、RGS、RGX和RGM,以及加/乘算术单元AU、逻辑单元LU、移位单元SU和地址加法器ADAnRGA是累加寄存器,存放第一操作数和操作结果nRGB是操作数寄存器,存放加、减、乘、除等二元操作的第2操作数nRGR是被乘数寄存器兼互连寄存器,经过东、西、南、北4个互连路径之一完成处理单元之间的数据直接传送nRGS是通用寄存器,
31、可被程序用来暂存中间结果n4个寄存器都是64位n操作数来自4个方面:PU本身的寄存器;阵列存储器;CU的公共数据总线;PE的4个近邻n16位的RGX是变址寄存器,它利用地址加法器ADA修改指令地址,并将形成的有效地址经过存储器地址寄存器MAR输往存储器逻辑部件MLUtiger September 2016388位模式寄存器RGMnE和E1位是活动标志位n控制RGA、RGS和阵列存储器的工作,E还控制RGXnPE以32位字长运算时,E和E1是互相独立的n64个处理单元中的每一个处理单元都可以进行单独控制。只有那些处于活动状态的处理单元才执行单指令流规定的共同操作nF和F1位保存运算结果出错(上溢
32、、下溢)标志nG、H、I、J位保存测试结果nRGM处于CU的监督之下,一旦出错,就发出CU陷阱中断nRGM处于程序员的控制之下,可根据其它几个寄存器的内容置为活动或不活动状态n有一种指令能在RGR的内容大于RGA的内容时置该处理单元为不活动状态。n模式寄存器在阵列处理机中是必不可少的,它对增强阵列处理机的功能和结构灵活性发挥着很大的作用tiger September 201639处理单元存储器PEMn处理单元存储器PEM分属每一个处理单元,各有204864位的存储容量和不大于350ns的取数时间n64个PEM联合组成阵列存储器,存放数据和指令n整个阵列存储器可以接受控制器的访问,读出8个字的信
33、息块到它的缓冲器中,也可经过1024位的总线与I/O开关相连n每一个处理单元只能访问自己的存储器n分布在各个处理单元存储器中的公共数据,读至控制器后,经公共数据总线广播到64个处理单元n节省存储空间,且允许公共数据的存取与其它操作在时间上重叠n阵列存储器就如同一个二维访问存储器n把64个PEM看成列,把每一个PEM本身看成行nCU对它是按列访问,PE对它是按行访问tiger September 201640阵列存储器n阵列存储器的另一个特点是它的双重变址机构n控制器实现所有处理单元的公共变址n每一个处理单元内部还可以单独变址n最终的操作数有效地址对PEi来说由下式决定nai=a+(b)+(ci
34、) na是指令地址n(b)是CU中央变址寄存器内容n(ci)是局部变址寄存器内容n这种安排增加了各处理单元存储器之间数据分配的灵活性,对于分别处理矩阵的行和列及其它维数结构很有效nPE和PEM之间经过存储器逻辑部件MLU相连,它包含存储器信息寄存器和有关控制逻辑线路,实现PEM分别和PE、CU以及I/O之间的信息传送tiger September 2016412 阵列控制器n阵列控制器CU实际上是一台小型控制计算机n对阵列处理单元实行控制和完成标量操作n标量操作与各PE的数组操作可以重叠执行n控制器的功能n(1)对指令进行译码,并执行标量指令n(2)向各处理单元发出执行数组操作指令所需的控制信
35、号n(3)产生和向所有处理单元广播公共的地址n(4)产生和向所有处理单元广播公共的数据n(5)接收和处理PE、I/O操作及B6700产生的陷阱中断信号tiger September 2016424条信息通路n(1) CU总线n处理单元存储器PEM经过CU总线把指令和数据送往阵列控制器,以8个64位字为一信息块n指令是指分布存放在阵列存储器中用户程序的指令n数据可以是处理所需的公共数据,先将它们送到CU,再利用CU的广播功能送到各处理单元n(2) 公共数据总线CDB (Common Data Bus)nIBM 360 p311图5.64n64位总线,用作向64个处理单元同时广播公共数据的通路n作
36、为公共乘数的常数不必在64个PEM重复存放,可由CU的某个寄存器送往各处理单元n指令的操作数和地址部分也经过CDB送来tiger September 2016434条信息通路n(3) 模式位线(mode bit line)n每一个单元都可经模式位线把它的模式寄存器(mode register)状态送到CU,送来的信息中包括该处理单元的活动状态位n只有那些处于活动状态的处理单元才执行单指令流所规定的公共操作n从64个处理单元送往CU的模式位在CU的累加寄存器中拼成一个模式字n在CU内部执行一定的测试指令,对模式字进行测试n根据测试结果控制要求的程序转移动作n(4) 指令控制线n处理单元微操作控制
37、信号和处理单元存储器地址、读/写控制信号n经约200根指令控制线由CU送到阵列处理单元PE和存储器逻辑部件MLUtiger September 2016443 输入输出系统nIlliac IV的输入输出系统的组成n磁盘文件系统DFSnI/O分系统n一台B6700处理机tiger September 201645磁盘文件系统DFSn两套大容量并行读写磁盘系统及其相应的控制器n每套有13台磁盘机,总容量为109位(=1Gb)n每台磁盘机有128道,每道一个磁头,并行读写,数据宽度为256位n最大传输率为502x106位/秒(=502Mb/s)n平均等待时间为19.6msn两个通道同时发送或接收数据
38、时,数据宽度为512位,最大传输率可达109位/秒(=1Gb/s)tiger September 201646I/O分系统n包括三部分n输入/输出开关IOSn控制描述字控制器CDCn输入/输出缓冲存储器BIOMnIOS的功能n作为名副其实的开关,把DFS或可能连上的实时装置转接到阵列存储器,进行大批数据的I/O传送n作为DFS和PEM之间的缓冲,以平衡两边不同的数据宽度nCDC对阵列控制器的I/O请求进行管理nCDC使B6700管理计算机中断,由它响应I/O请求,并通过CDC给CU送回响应代码,在CU中设置控制状态字n然后,CDC使B6700启动PEM的加载过程,DFS向PEM送入程序和数据n
39、PEM加载完毕后,由CDC向CU传送控制信号,使它开始执行Illiac IV的程序tiger September 201647I/O分系统nBIOM处在DFS和B6700之间,匹配二者之间的传送频带n把B6700的48位字变换为Illiac IV的64位字,以两个字共128位的数据宽度输送给DFSnBIOM用4个PE存储器做成,总容量为8192x64位nB6700存储器经CPU输送数据的频带是80 x106位/秒 ,DFS输送数据的频带是500 x106位/秒,二者相比超过6倍nBIOM作为B6700和DFS间的缓冲tiger September 201648B6700nB6700管理计算机的
40、基本组成部分n单中央处理器(另一CPU可选)n32K字内存(可扩充至512K字)n经过多路开关控制的一大批外围设备n一台容量为1012位(=1Tb)的激光外存储器nARPA网络接口nB6700的作用是管理全部系统资源n完成用户程序的编译或汇编n为Illiac IV 进行作业调度、存储分配、产生入/出控制描述字送至CDC、处理中断n提供操作系统所具备的其它服务tiger September 2016498.3.2 BSP计算机nBurroughs Scientific Processor (BSP)计算机由美国宝来公司和伊利诺依大学于1979年制造n共享存储器结构的SIMD计算机的典型代表nBS
41、P不是一台独立运行的计算机,是附属于系统管理机的一台后端处理机nBSP承担算术运算,系统管理机提供分时服务、数据和程序文件编辑、与远程作业站终端、网络的数据通信、BSP程序的向量化编译和连接、数据长期存储以及数据库管理等功能nBSP由控制处理机、并行处理机、文件存储器、并行存储器模块以及对准网络等组成 tiger September 201650图8.9 BSP的功能结构与流水线处理tiger September 201651图8.9 BSP的功能结构与流水线处理16算术单元(AE5)输 出对准输 入对准17并行存储器模块(5-8兆字)(PPS) 并行处理机控制控制维护单元标量处理机控制存储器
42、 (256K字)系统管理机B 7700/B 7800文件存储 器 系统(FM)并行处理机(50MFLOPS)BSP外围设备与终端75兆字节/秒控制通信(PMs)tiger September 2016521 并行处理机n并行处理机以160ns的时钟周期进行向量计算n所有16个算术单元AE对不同的数据组(从并行处理机控制器广播来)进行同一种指令操作n大部分的算术运算能在2个时钟周期(320ns)内完成nBSP的执行速度最高可达50MFLOPSn进行向量运算的数据存在17个并行存储器模块中,每个模块的容量可达512K字,周期时间为160nsn数据在存储器模块和AE间以每秒100M字的速率进行传输n
43、17个存储器模块的组织形成一个无冲突访问存储器,它容许对任意长度以及跳距不是17倍数的向量实现无冲突存取n16个AE是以SIMD方式在单一微序列控制下同步工作n每个AE中,只有最原始的操作才采用硬连线方式n控制字的宽度为100位。除实现浮点操作以外,AE还有较强的非数值处理能力tiger September 201653PE性能提高,数量降低n浮点加、减和乘都能在两个时钟周期内完成n采用两个时钟周期可使存储器频宽与AE进行三元操作时的频宽相平衡n浮点除要用1200ns,用Newton-Raphson迭代算法产生倒数来实现n每个AE设有只读存储器,给出除法和平方根迭代的第一次近似值n浮点字长为4
44、8位,尾数为36位有效值,阶码为10位,以2为底。数的精度可达到十进制11位nAE在关键部位设置了双字长累加器和双字长寄存器,使双精度运算直接用硬件实现nAE还可用软件方法来实现三倍精度的算术运算n可估算出,BSP用Fortran来表达的很大范围的计算问题中,速度可达20到40MFLOPStiger September 2016542 控制处理机n用以控制并行处理机n提供与系统管理机相连的接口n标量处理机处理存储在控制存储器中的全部操作系统和用户程序的指令n以12MHz的时钟频率执行用户程序的串行或标量部分,最高速度可达1.5MFLOPSn全部的向量指令以及某些成组的标量指令被送给并行处理机控
45、制器。在经过合格性检查之后,控制器将它们转换为微序列,去控制16个AE操作n双极型控制存储器的容量为256K字,周期时间为160ns,每个字长48位另加8位奇偶校验位,提供单错校正双错检测(SECDED)n控制维护单元是系统管理机与控制处理机其余部分之间的接口,用来进行初始化、监控命令通信和维护tiger September 2016553 文件存储器n是一个半导体辅助存储器nBSP的计算任务文件从系统管理机加载到它上面。然后对这些任务进行排队,由控制处理机加以执行nBSP程序执行过程中所产生的暂存文件和输出文件,在将它们送给系统管理机输出给用户之前存在文件存储器n数据传输率较高,大大地缓解了
46、I/O受限问题n是BSP唯一直接控制的外围设备,其它外围设备由系统管理机控制tiger September 2016564 对准网络n对准网络包含n完全交叉开关n实现数据从一个源广播至几个目的地以及当几个源寻找一个目的地时能分解冲突的硬件n在算术单元阵列和存储器模块间具备通用的互连特性n存储器模块和对准网络的组合功能提供了并行存储器的无冲突访问能力n算术单元也利用输出对准网络来实现一些诸如数据压缩和扩展操作以及快速傅里叶变换算法等专用功能tiger September 201657存储器-存储器型的浮点运算流水进行nBSP的流水线由5个功能级组成n16个操作数从存储器模块取出,通过输入对准网络
47、送给AE,再将结果经输出对准网络送存储器模块n这几级的操作重叠进行n利用时间并行性进一步获得性能n物理上输入对准和输出对准都在一个实际对准网络进行n除16个AE中的空间并行性以及读取、对准和存储的流水线操作外,AE中的向量运算可同标量处理机的标量处理重叠nBSP既适于处理长向量和短向量,也能处理单独的标量tiger September 2016585 质数存储系统nBSP并行存储器由17个周期时间为160ns的存储模块组成n每个周期存取16个字,每个字的最大有效存储周期为10nsn与算术单元完成浮点加和乘的速率很好地平衡n每次运算需要两个变量,算术单元中设有中间寄存器其运算速度为320ns/1
48、6次=20ns/次n程序和标量都存放在控制存储器中,只有数组存取(包括I/O)才用到并行存储器n三元向量两次算术运算中需要用到3个变量,产生一个结果,共访问存储器4次,在并行存储器和浮点运算之间的频带保持完全平衡n长向量中间结果都存在寄存器中,每次运算只需1个操作数n并行存储器有足够的频宽留给输入和输出信息tiger September 2016595 质数存储系统nBSP并行存储器的主要革新是采用了17个存储模块n之前的巨型机普遍用多个并行存储器模块,易因访问冲突而使频带严重变窄nBSP的一个独特的性能就是它的存储系统可无冲突访问,每个存储周期送给每个PE一个有用的操作数n存储器中向量元素的
49、间距不一定为1。因而DO循环可以有非单位增量,或者程序可以访问矩阵的行、列和对角线而无需付出额外的代价n巨型机的设计者或对使用存储器作严格的访问限制,或采用昂贵的快速存储器件,用很宽的存储器频带来获得一定程度无冲突访问的功能tiger September 2016605 质数存储系统n在BSP中保证无冲突访问的硬件技术n质数个存储器端口n存储器端口和AE间的完全交叉开关n特殊的存储器地址生成机构,为具体的地址模式计算出合适的地址n地址模式是指正统的串行计算机所用的那一种模式n并行存储器采用这种模式能与当前程序设计语言的所有结构完全兼容。特别是Fortran的EQUIVALENCE、COMMON
50、以及数组参数传送都可用常规计算机上一样的方法来实现n数组元素的地址相隔是存储器模块数的整数倍时,冲突一定发生n这时所有要访问的值处于同一个存储器模块nBSP应避免跳距为17、34、51等情况n51是有问题的跳距。正好是列长度为50的数组的正向对角线元素存储地址的跳距tiger September 2016615 质数存储系统n在BSP中发生冲突,运算仍可正确进行,但速度下降到正常速度的1/16n系统记录冲突以及它们对总的运行时间影响的情况,以便在这种影响太大时使程序员采取一定的改进措施nBSP可对下列4类操作进行并行计算n(1)16个算术单元实现并行运算n(2)存储器的读取和存储及存储器和算术
51、单元间的数据传输n(3)并行处理机控制器的变址值、向量长度和循环控制计算n(4)线性向量操作描述字在标量处理机中的生成tiger September 201662nIlliac IV 重叠-重复,通过SIMD实现高性能nBSP 优化nCM-2 性能的飞跃tiger September 2016638.3.3 CM-2计算机nThinking Machines的Connection Machine CM-2是细粒度SIMD计算机, 1990年n由数千个位片PE组成n峰值处理速度超过10Gflopsn程序从前端开始执行,需要并行数据操作时,发送微指令到后端处理阵列n定序器(sequencer)分解
52、这些微指令并且把它们广播给阵列中的所有数据处理器(data processor)n前端机和处理阵列间有3条交换数据计算结果的通路n广播总线(broadcasting)n全局组合总线(global combining)n标量存储器总线(scalar memory bus)n通过广播总线把数据或指令同时传送到所有数据处理器n前端机通过全局组合总线对来自各处理器的数据进行求和、最大值、逻辑或等运算-从二进制向量还原、重构二进制数据n前端机每次通过标量总线从与数据处理器相连的存储器读取32位数据、或每次将32位数据写入与数据处理器相连的存储器nVAX和Symbolics机都可用作前端机和主机tiger
53、 September 201664图8.11 CM-2的系统结构tiger September 2016651 处理阵列nCM-2是一台数据并行计算的后端机n处理阵列包含4K到64K个位片数据处理器(或PE)n数据处理器由定序器控制n定序器对来自前端机的微指令进行译码,然后把毫微指令广播到阵列中各个处理器n前端机 定序器 处理器n指令 微指令 毫微指令n所有处理器可同时访问它们的存储器,以锁步方式执行广播来的指令n处理器之间通过寻径、NEWS网格(NEWS gird)或扫描机构(scanning mechanism) 相互交换数据n这些网络也与I/O接口相连n称为数据穹(data vault)
54、的大容量存储器子系统与I/O相连n数据穹是基于磁盘的海量存储系统,用来存放程序文件和大数据库。可存储多达60G字节的数据tiger September 2016661 处理阵列n每个处理器结点包括32个位片数据处理器、一个可选的浮点加速器和处理器之间通信的接口n每个数据处理器用3个输入和2个输出的位片ALU、锁存器和存储器接口实现nALU可执行位串全加操作和布尔逻辑操作n每个结点有一对处理器芯片,共享一组存储器芯片n每个处理芯片有16个处理器n称为Pairs的并行指令系统包括许多毫微指令n用于存储器的装入和存储、算术和逻辑运算、寻径器控制、NEWS网格控制、超立方体接口控制、浮点运算、I/O和诊断操作n每个存储器芯片由一对处理器芯片的32个处理器共享-不划分到位n存储器数据路径宽度22位(16位数据-16P每个1位和6位ECC)n18位存储器地址允许32个处理器共享218=256K个存储器字(512K字节数据)n浮点芯片一次执行32位的操作-对应两个芯片的32个P(32位)。中间计算结果可存入存储器供后续运算使用n整数算术运算直接由32个处理器以位串方式执行tiger September 201667两个处理器芯片、一组存储器和浮点芯片组成的CM-2处理结点tiger Sep
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 氢能装备施工方案
- 惠州市汇科源科技有限公司电源适配器的生产建设项目环评报告表
- 昌江县公益性公墓及殡仪馆建设工程(一期)项目环评报告表
- 甘肃巨化新材料有限公司股东全部权益价值项目资产评估报告
- 玻璃更换施工方案施工方案
- 2024-2025学年下学期高一语文第一单元A卷
- 东江大坝隧道施工方案
- 《雷雨》教案-高一下学期语文统编版
- 2025年中国碑石行业供需态势、市场现状及发展前景预测报告
- 提高女性、老年人及残疾人就业率的策略及实施路径
- 《基础和声学》试习题库(6套答案)
- 马克思主义政治经济学课程讲义
- 四年级道德与法治从中国制造到中国创造
- SolidWorks、CAD三维建模练习习题图
- HONEYWELLDCS操作手册
- 2021-2022新教科版四年级科学下册全一册全部课件(共24课)
- 方正飞腾使用教程详解
- 3 弃渣场施工方案
- 国外客户来访行程安排表
- 八路抢答器PLC控制系统设计
- 《车辆解压委托书 》
评论
0/150
提交评论