版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、3 向量的流水处置与向量流水处置机 n将向量数据表示和流水线技术结合起来,构成向量流水处置机,简称向量处置机Vector Processor n向量的流水处置 n向量流水处置机 向量的流水处置n提高流水性能方法:n添加流水线段数,以减少tn每个时钟同时启动多条指令n减少相关,减少功能变换次数,添加处置指令条数。向量的流水处置续n向量操作特点n向量元素间操作相互独立,且为一样操作n相当于标量循环,对指令带宽的访问要求不高n可采用多体交叉存储器,减少访存延迟。n向量操作很适宜于流水处置或并行处置。向量的流水处置续n向量处置过程n置VL、VM、An取向量到Vn运算。n向量的分量间采取的是流水方式。n
2、并行处置机(SIMD)处置向量时采取的是并行方式。向量的流水处置续n向量处置任务方式n 如:D=A(B+C)n横向加工:bi+ci-k, k*ai-din产生N次相关,2N次功能切换,适宜标量循环n纵向加工:bi+ci-ki, ki*ai-din产生1次相关,1次功能切换,可流水处置n纵横处置:对向量分组,组内纵向、组间横向处置向量流水处置机n向量流水处置机的指令系统n向量流水处置机的构造n超级向量流水处置机举例向量流水处置机的指令系统n包含有向量型和标量型两类指令n向量型运算类指令n向量V1运算得向量V2,如V2=SIN(V1)n向量V运算得标量S,如n向量V1与向量V2运算得向量V3,V3
3、=V1V2n向量V1与标量S运算得向量V2,V2=S*V1n特殊操作指令n向量比较指令n向量紧缩指令n归并指令n向量传送指令niiVS1向量流水处置机的构造n1972年初次交付运用CRAY-1向量流水处置机n分布异构型多处置机系统,由中央处置机、诊断维护控制处置机、大容量磁盘存储子系统、前端处置机组成n6个流水线单功能部件:整数加、逻辑运算、移位、浮点加、浮点乘和浮点迭代求倒数n向量存放器由512个64位存放器组成,分成8组主 存V0V7 向量存放器组向量存放器组(864个个)加加向量向量功能功能部件部件标量存放器标量存放器 S0S7加加浮点浮点功能功能部件部件VM向量控制向量控制 移位逻辑运
4、算相乘相乘迭代求倒数迭代求倒数向量控制向量控制向量长度存放器向量长度存放器 VLBTR/W地址存放器地址存放器 A超级向量流水处置机举例n1972年成立CRAY公司,至今消费了400台以上的超级计算机n1979年CRAY-1S,CRAY-1改良型,有10条流水线n1983年CRAY X-MP,用4台CRAY-1n1985年CRAY-2Sn1988年CRAY Y-MP,8台处置机n1991年CRAY Y-MP C-90n2019年12月,克雷研讨公司也被SGI公司以7.5亿美圆收买 n目前产品:MTA、SV1、SX_6、T3En2019年Cray X1。运算速度最高为每秒52万亿次,支持65.5
5、TB存储器。n宣布了在2019年以前实现可以延续地处置每秒1000万亿次ncray超级向量流水处置机举例续nCDC公司1973年推出第一台超级计算机STAR-100n1964年CDC-6600 RISC特征n1982年 CYBER 205nETA10:8个CPU几种超级计算机的向量性能和标量性能机器型号Fujitsu VP400Cray ISCray 2SCray X-MPCray Y-MPHitachi S820NEC SX2向量性能Mflops标量性能Mflops向量平衡点85.09.80.90151.511.20.93143.313.10.92201.617.00.92737.317.8
6、0.98424.29.50.98207.16.60.97向量平衡点vector balance point)定义为:为了使向量硬件设备和标量硬件设备的利用率相等,一个程序中向量代码所占的百分比。4 指令级高度并行的超级计算机 n超标量处置机n n超长指令字处置机 n超流水线处置机 超标量处置机n采用多指令流水线度=mn配置多套功能部件、指令译码电路和多组总线,并且存放器也备有多个端口和多组总线。n适宜于求解稀疏向量、矩阵nIBM RS/6000、DEC 21064、Intel i960CA、Tandem Cyclone飓风等超标量处置机续取指译码执行存结果部件时间度m=3的超标量处置机时空图超
7、标量处置机根本构造n普通流水线处置机:n一条指令流水线n一个多功能操作部件,每个时钟周期平均执行指令的条数小于1。n多操作部件处置机:n一条指令流水线n多个独立的操作部件,操作部件可以采用流水线,也可以不流水n多操作部件处置机的指令级并行度小于1n超标量处置机典型构造:n多条指令流水线n进的超标量处置机有:定点处置部件CPU,浮点处置部件FPU,图形加速部件GPUn大量的通用存放器,两个一级高速Cachen超标量处置机的指令级并行度大于1举例: Motorola公司的MC88110n10个操作部件n两个存放器堆:整数部件通用存放器堆,32个32位存放器;浮点部件扩展存放器堆,32个80位存放器
8、。每个存放器堆有8个端口,分别与8条内部总线相衔接,有一个缓冲深度为4的先行读数栈和一个缓冲深度为3的后行写数栈。n两个独立的高速Cache中,各为8KB,采用两路组相联方式。n转移目的指令Cache,在有两路分支时,存放其中一路分支上的指令超标量处置机MC88110的构造整数部件整数部件位操作浮点加乘法部件除法部件图形部件图形部件内部总线读数存数部件通用寄存器堆扩展寄存器堆目的指令指令分配转移部件数据Cache (8KB)指令Cache (8KB)系统总线32位地址总线32位数据总线单发射与多发射n单发射处置机:n每个周期只取一条指令、只译码一条指令,只执行一条指令,只写回一运算结果n取指部
9、件和译码部件各设置一套n可以只设置一个多功能操作部件,也可以设置多个独立的操作部件n操作部件中可以采用流水线构造,也可以不采用流水线构造n 设计目的是每个时钟周期平均执行一条指令,ILP的期望值1单发射处置机的指令流水线时空图IF时钟周期指令I1I2I3IDEXWRIFIDEXWRIFIDEXWR123456IFIDFA1 FA2 FA3MD1 MD2 MD3ALLS浮点加法部件乘除法部件定点ALU部件取数存数部件WR来自指令Cache通用存放器后行写数栈单发射与多发射续n多发射处置机:n每个周期同时取多条指令、同时译码多条指令,同时执行多条指令,同时写回多个运算结果n需求多个取指令部件,多个
10、指令译码部件和多个写结果部件n设置多个指令执行部件,复杂的指令执行部件普通采用流水线构造n设计目的是每个时钟周期平均执行多条指令,ILP的期望值大于1多发射处置机的指令流水线时空图IF时钟周期指令I1I2I3IDEXWR123456I4I5I6IFIDEXWRI7I8I9IFIDEXWRIFIDEXWRIFIDEXWRIFIDEXWRIFIDEXWRIFIDEXWRIFIDEXWRIFIDFA1 FA2 FA3MD1 MD2 MD3ALLS浮点加法部件乘除法部件定点ALU部件取数存数部件WRIFIDWRn超标量处置机:n一个时钟周期内可以同时发射多条指令的处置机称为超标量处置机n必需有两条或两
11、条以上可以同时任务的指令流水线n先行指令窗口:n可以从指令Cache中预取多条指令n可以对窗口内的指令进展数据相关性分析和功能部件冲突的检测n窗口的大小:普通为2至8条指令n采用目前的指令调度技术,每个周期发射2至4条指令比较合理举例nIntel公司的i860、i960、Pentium处置机, Motolora公司的MC88110处置机,IBM公司的Power 6000处置机等每个周期都发射两条指令nTI公司消费的SuperSPARC处置机以及Intel的Pentium III处置机等每个周期发射三条指令n操作部件的个数多于每个周期发射的指令条数。4个至16个操作部件n超标量处置机的指令级并行
12、度:1ILPm;m为每个周期发射的指令条数。IFIDFA1 FA2 FA3MD1 MD2 MD3ALLS浮点加法部件乘除法部件定点ALU部件取数存数部件WRIFIDWRIFID先行指令窗口超流水线处置机n两种定义:n一个周期内可以分时发射多条指令的处置机称为 超流水线处置机。n指令流水线有8个或更多功能段的流水线处置机称为超流水线处置机。n提高处置机性能的不同方法:n超标量处置机是经过添加硬件资源为代价来换取处置机性能的。n超流水线处置机那么经过各硬件部件充分重叠任务来提高处置机性能。n两种不同并行性:n超标量处置机采用的是空间并行性n超流水线处置机采用的是时间并行性指令执行时序n每隔1/n个
13、时钟周期发射一条指令,流水线周期为1/n个时钟周期n在超标量处置机中,流水线的有些功能段还可以进一步细分n例如:ID功能段可以再细分为译码、读第一操作数和读第二操作数三个流水段。也有些功能段不能再细分,如WR功能段普通不再细分。n因此有超流水线的另外一种定义:有8个或8个以上流水段的处置机称为超流水线处置机超流水线处置机续147102581136912147102581136912147102581136912147102581136912取指译码执行存结果每个时钟周期分时发送3条指令的超流水线举例: MIPS R4000nMIPS R4000处置机每个时钟周期包含两个流水段,是一种很规范的超
14、流水线处置机构造。指令流水线有8个流水段n有两个Cache,指令Cache和数据Cache的容量各8KB,每个时钟周期可以访问Cache两次,因此在一个时钟周期内可以从指令Cache中读出两条指令,从数据Cache中读出或写入两个数据。n主要运算部件有整数部件和浮点部件译译 码码数数 据据C C a a c c h h e e标标 志志标标 志志指指 令令C C a a c c h h e e译译 码码存存 入入缓缓 冲冲 对对 准准 器器IB U S写写 入入 缓缓 冲冲 器器数数 据据标标 志志地地 址址D B U S 系系 统统 控控 制制浮浮 点点存存 储储 管管 理理 部部 件件寄寄
15、 存存 器器 堆堆指指 令令 快快 表表浮浮 点点 流流 水水 线线 专专 用用 通通 路路指指 令令 C ach e控控 制制快快 表表 TL B浮浮 点点 控控 制制 寄寄 存存 器器 D V A浮浮 点点 乘乘 法法 部部 件件地地 址址 部部 件件浮浮 点点 除除 法法 部部 件件数数 据据 C ach e控控 制制程程 序序 计计 数数 器器浮浮 点点 加加 法法 部部 件件流流 水水 线线通通 用用 寄寄 存存 器器 堆堆转转 换换 部部 件件控控 制制算算 术术 逻逻 辑辑 部部 件件 A L U求求 平平 方方 根根 部部 件件装装 入入 对对 准准 器器 / / 存存 入入
16、驱驱 动动 器器整整 数数 乘乘 法法 除除 法法 部部 件件M M I I P P S S R R 4 4 0 0 0 0 0 0 超超 流流 水水 线线 处处 理理 机机 结结 构构MIPS R4000处置机的流水线操作指令CacheIF:取第一条指令IS:取第二条指令RF:读存放器堆,指令译码EX:执行指令DF:取第一个数据DS:取第二个数据TC:数据标志校验;WB:写回结果指令译码读寄存器堆ALU数据Cache标志检验存放器堆IFISRFEXDF DSWBTCMIPS R4000正常指令流水线任务时序IF流水线周期当前CPU周期IS RF EX DF DS TC WBIFIS RF E
17、X DF DS TC WBIFIS RF EX DF DS TC WBIFIS RF EX DF DS TC WBIFIS RF EX DF DS TC WBIFIS RF EX DF DS TC WBIFIS RF EX DF DS TC WBIFIS RF EX DF DS TC WB主时钟周期超标量超流水线处置机n把超标量与超流水线技术结合在一同,就成为超标量超流水线处置机n指令执行时序n超标量超流水线处置机在一个时钟周期内分时发射指令n次,每次同时发射指令m条,每个时钟周期总共发射指令m n条。每时钟周期发射3次,每次3条指令IF时钟周期指令I1I2I3IDEXWR12345I4I5I
18、6I7I8I9IFIDEXWRIFIDEXWRIFIDEXWRIFIDEXWRIFIDEXWRIFIDEXWRIFIDEXWRIFIDEXWRIFIDEXWRIFIDEXWRIFIDEXWRI10I11I12举例: DEC公司的AlphanDEC公司的Alpha处置机采用超标量超流水线构造。主要由四个功能部件和两个Cache组成:整数部件EBOX、浮点部件FBOX、地址部件ABOX和中央控制部件IBOX。n中央控制部件IBOX可以同时从指令Cache中读入两条指令,同时对读入的两条指令进展译码,并且对这两条指令作资源冲突检测,进展数据相关性和控制相关性分析。假设资源和相关性允许,IBOX就把两
19、条指令同时发射给EBOX、ABOX和FBOX三个指令执行部件中的两个。n指令流水线采用顺序发射乱序完成的控制方式。在指令Cache中有一个转移历史表,实现条件转移的动态预测。在EBOX内还有多条公用数据通路,可以把运算结果直接送到执行部件。举例: DEC公司的AlphanAlpha 21064处置机共有三条指令流水线整数操作流水线和访问存储器流水线分为7个流水段,其中,取指令和分析指令为4个流水段,运算2个流水段,写结果1个流水段。浮点操作流水线分为10个流水段,其中,浮点执行部件FBOX的延迟时间为6个流水段。n一切指令执行部件EBOX、IBOX、ABOX和FBOX中都设置由公用数据通路。析
20、指令为4个流水段,运算2个流水段,写结果1个流水段。浮点操作流水线分为10个流水段,其中,浮点执行部件FBOX的延迟时间为6个流水段。n一切指令执行部件EBOX、IBOX、ABOX和FBOX中都设置由公用数据通路。nAlpha 21064处置机的三条指令流水线的平均段数为8段,每个时钟周期发射两条指令。因此,Alpha 21064处置机是超标量超流水线处置机。指指 令令 Cache( 8KB)转转 移移 历历 史史区区 号号指指 令令 地地 址址 总总 线线EBOXIBOXFBOX 3 3 4 4 位位乘乘 法法 器器预预 取取 器器乘乘 法法 器器 / /加加 法法 器器资资源源冲冲突突检检
21、测测加加 法法 器器移移 位位 器器P P C C 计计 算算 数数 据据 总总 线线逻逻 辑辑 单单 元元指指 令令 快快 表表除除 法法 器器 1 1 2 2 8 8 位位流流 水水 线线控控 制制定定 点点 寄寄 存存 器器 堆堆( 3 3 2 2 6 6 4 4 )浮浮 点点 寄寄 存存 器器 堆堆( 3 3 2 2 6 6 4 4 )ABOX总总线线接接口口部部外外 部部 Cache写写 数数 缓缓 冲冲 器器地地 址址 发发 生生 器器数数 据据 快快 表表读读 数数 缓缓 冲冲 器器 控控 制制件件数数 据据 Cache( 8KB)区区 号号数数 据据A A l l p p h
22、h a a 2 2 1 1 0 0 6 6 4 4 处处 理理 机机 结结 构构除 法 器三种指令级并行处置机性能比较n超标量处置机、超流水线处置机和超标量超流水线处置机相对于单流水线普通标量处置机的性能曲线。0.00.51.01.52.02.512345678相对性能超标量超流水线超标量超流水线指令级并行度结论n三种处置机的性能关系超标量处置机的相对性能最高,其次是超标量超流水线处置机,超流水线处置机的相对性能最低,主要缘由如下:n超标量处置机在每个时钟周期的一开场就同时发射多条指令,而超流水线处置机那么要把一个时钟周期平均分成多个流水线周期,每个流水线周期发射一条指令;因此,超流水线处置机
23、的启动延迟比超标量处置机大。结论续n条件转移呵斥的损失,超流水线处置机要比超标量处置机大。n在指令执行过程中的每一个功能段,超标量处置机都反复设置有多个一样的指令执行部件,而超流水线处置机只是把同一个指令执行部件分解为多个流水级;因此,超标量处置机指令执行部件的冲突要比超流水线处置机小。结论续n实践指令级并行度与实际指令级并行度的关系n当横坐标给出的实际指令级并行度比较低时,处置机的实践指令级并行度的提高比较快。n当实际指令级并行度进一步添加时,处置机实践指令级并行度提高的速度越来越慢。n在实践设计超标量、超流水线、超标量超流水线处置机的指令级并行度时要适当,否那么,有能够呵斥破费了大量的硬件
24、,但实践上处置机所能到达的指令级并行度并不高。n目前,普通以为,m 和 n 都不要超越4。 结论续n最大指令级并行度n一个特定程序由于遭到本身的数据相关和控制相关的限制,它的指令级并行度的最大值是有限的,是有个确定的值。这个最大值主要由程序本身的语义来决议,与这个程序运转在那一种处置机上无关。对于某一个特定的程序,图中的三条曲线最终都要收拢到同一个点上。当然,对于各个不同程序,这个收拢点的位置也是不同的。n超标量处置机:nIntel公司的i860, i960, Pentium处置机nMotolora公司的MC88110nIBM公司的Power 6000nSUN公司的SuperSPARC等n超流
25、水线处置机:nSGI公司的MIPS R4000, R5000, R10000等n超标量超流水线处置机:nDEC公司的Alpha等超标量、超流水、超标量超流水处置机的主要性能k段流水线基准标量处置机m度超标量n度超流水线(m,n)度超标量超流水机器类型机器流水线周期同时发射指令条数指令发射等待时间指令级并行度ILP1个时钟周期1条1个时钟周期11m1m1/n11/nn1/nm1/nmn超长指令字处置机(VLIW)nVLIW (Very Long Instruction Word)n是将程度型微码和超标量处置两者结合的构造n指令字长可达数百位,多个功能部件并发任务,共享大容量存放器堆。n是一种单指
26、令多操作码多数据的系统构造SIMOMD超长指令字处置机续存/取浮点加浮点乘定点算逻转移主存存放器堆存/取部件浮点加法部件定点算逻部件转移部件典型的VLIW处置机组成和指令格式超长指令字处置机续取指译码执行存结果部件时间度m=3的执行时空图EPICExplicitly Parallel Instruction Computingn显性并行指令计算n1994年,Intel和HP决议结合开发新一代微处置器基于IA-64架构的Merced,并共同定义了显性并行指令计算技术EPIC.nIA-64指令系统的统称。n集成RISC和VLIW各自的优势技术,指令字长为128位,包含三个40位的指令和一个8位的模
27、版代码。n每个指令分为多个独立的操作字段,每个字段可分别控制各个功能部件并行任务,而模版中包含各指令间并行处置的信息,根据模版代码信息,可同时在不同的执行单元中执行三条没有相关性的指令,控制并行处置关系,提高并行处置才干EPICnEPIC是一种超越超标量的新方式,它抑制了VLIW处置器的缺陷,实现下面的3步:n由编译器先分析指令间的依赖关系;n编译器将没有依赖关系的指令,按最多是3个指令为一组,组合成多个“组;n由内置的执行单元将分成组的指令群并行执行。 n 因每条指令终究分给哪一个执行单元是由软件决议的,因此利用简单的硬件就可以提高指令的并行度,降低了处置器的制造本钱。RVIP技术和CRVIP技术nRVIP(RISC-VLIW Processor)技术和CRVIPCISC-RISC-VLIW Processor技术
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年芜湖办理客运从业资格证版试题
- 2024年山西客运驾驶员考试试卷及答案详解
- 2024年哈尔滨客运资格证考试题库答案
- 2024年广东客运从业资格证
- 人教部编版二年级语文上册第7课《妈妈睡了》精美课件
- 吉首大学《功能材料》2021-2022学年第一学期期末试卷
- 吉首大学《散打格斗运动5》2021-2022学年第一学期期末试卷
- 吉林艺术学院《素描实训II》2021-2022学年第一学期期末试卷
- 2024年供应货品合作合同范本
- 吉林师范大学《中小学书法课程与教学论》2021-2022学年第一学期期末试卷
- 小儿胃肠功能紊乱护理查房课件
- 大学生职业生涯规划书铁道工程
- 2024年中国铁路国际有限公司招聘笔试参考题库含答案解析
- 小学教育课件教案雪雕和冰雕的历史与传统
- 医学生临床技能培训
- 2023年度高级会计实务真题及答案解析
- 师德师风应急反应制度预案
- DL∕T 547-2020 电力系统光纤通信运行管理规程
- 2022年火力发电建设工程启动试运及验收规程
- 妇产科病史采集临床思维
- 资产评估的应急措施
评论
0/150
提交评论