版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、会计学1研究生入学考试四川大学研究生入学考试四川大学(s chun d xu)计算机系统结构计算机系统结构第一页,共177页。2. 让前后连续的指令让前后连续的指令(zhlng)在处理机内在处理机内以重叠的方式执行以重叠的方式执行.取指取指分析分析执行执行取指取指分析分析执行执行k+ 1k第1页/共177页第二页,共177页。 二次重叠执行二次重叠执行(zhxng)方式方式:取指取指分析分析执行执行取指取指分析分析执行执行取指取指分析分析执行执行第第k条指令条指令第第k + 1条指条指令令第第k + 2条指条指令令取指取指分析分析执行执行取指取指分析分析执行执行取指取指分析分析执行执行第第k条
2、指令条指令第第k + 1条指条指令令第第k + 2条指条指令令如果三个阶段所需时间如果三个阶段所需时间t相等,相等,N条指令顺序执行的时条指令顺序执行的时间为间为 :T=3Nt。 一次重叠执行的时间:一次重叠执行的时间:T=(1+2N)t。二次重叠执行的时间为:二次重叠执行的时间为:T=(2+N)t。第2页/共177页第三页,共177页。第3页/共177页第四页,共177页。能同时提出对存储器读写的请能同时提出对存储器读写的请求,从而发生存储器访问冲突求,从而发生存储器访问冲突(chngt)(chngt)。第4页/共177页第五页,共177页。(dling)的数据线,对汇编程的数据线,对汇编程
3、序员和机器程序员不透明序员和机器程序员不透明2)多体交叉存储器结构也可减)多体交叉存储器结构也可减少冲突的发生。少冲突的发生。3)先行控制技术是最根本的办)先行控制技术是最根本的办法。法。第5页/共177页第六页,共177页。第第k条指令条指令分析分析执行执行第第k+2条指令条指令执行执行分析分析第第k+1条指令条指令分析分析执行执行这种情况可用先行这种情况可用先行(xinxng)控制技术来缓解。控制技术来缓解。第6页/共177页第七页,共177页。运算控制器运算控制器 先先 行行 指指 令令 栈栈 后后 行行 写写 数数 栈栈 先先 行行 读读 数数 栈栈存存 储储 控控 制制 器器去主存储
4、器去主存储器地址线地址线 指指 令令 分分 析析 器器 先行操作栈先行操作栈运运 算算 器器通通 用用 寄寄 存存 器器第7页/共177页第八页,共177页。前置部件前置部件后置部件后置部件缓冲栈缓冲栈 第8页/共177页第九页,共177页。运算控制器运算控制器 先先 行行 指指 令令 栈栈 后后 行行 写写 数数 栈栈 先先 行行 读读 数数 栈栈存存 储储 控控 制制 器器去主存储器去主存储器地址线地址线 指指 令令 分分 析析 器器 先行操作栈先行操作栈运运 算算 器器通通 用用 寄寄 存存 器器通过先行通过先行(xinxng)指令计数器指令计数器PC1预取预取指令序列指令序列通过现行指
5、令计数器通过现行指令计数器PC取出现取出现行指令行指令指令分析器指令分析器指令分析器指令分析器:对取自先行指令栈的指令进行预处理对取自先行指令栈的指令进行预处理.1.对于程序控制类的指令,如转移指令,指今分析器可以直接完成指令的执行对于程序控制类的指令,如转移指令,指今分析器可以直接完成指令的执行.2.对于数据运算型指令,指令分析器要将它们变换成寄存器寄存器型对于数据运算型指令,指令分析器要将它们变换成寄存器寄存器型(RR型型)指令,即将操作数预先存到寄存器中,使指令能快速执行指令,即将操作数预先存到寄存器中,使指令能快速执行.立即寻址立即寻址传数据传数据变址寻址或变址寻址或存储器型指存储器型
6、指令令,传地址传地址RR*指令指令第9页/共177页第十页,共177页。第第k条指令条指令分析分析执行执行第第k+2条指令条指令执行执行分析分析第第k+1条指令条指令分析分析执行执行 缓冲栈深度应满足缓冲栈深度应满足(mnz)以下关系:以下关系: D取指栈取指栈D操作栈操作栈D读栈读栈D写栈写栈第第k条指令条指令分析分析执行执行第第k+2条指令条指令执行执行分析分析第第k+1条指令条指令分析分析执行执行第10页/共177页第十一页,共177页。能部件能部件(bjin)(bjin)称为流水线的称为流水线的级或段,段与段相互连接形成级或段,段与段相互连接形成流水线。流水线的段数称为流流水线。流水线
7、的段数称为流水线的深度。水线的深度。第11页/共177页第十二页,共177页。 指令执行部件指令执行部件 指令分析器指令分析器锁存器锁存器锁存器锁存器分析分析k+1执行执行k t2 t1 结果出结果出指令入指令入 在流水线的每一个功能部件的后面都要有一个缓冲寄存器,或称为锁存器、闸门寄存器等,它的作用是保存(bocn)本流水段的执行结果。第12页/共177页第十三页,共177页。 横轴表示时间横轴表示时间(shjin),即各条指令在处理机中经历各个操作时占用的时间,即各条指令在处理机中经历各个操作时占用的时间(shjin)段。如果各级执行所需的时间段。如果各级执行所需的时间(shjin)相等,
8、在横轴上应表现为等距离的时间相等,在横轴上应表现为等距离的时间(shjin)段。段。 纵轴表示空间,即流水线的各个子操作过程,通常也称为纵轴表示空间,即流水线的各个子操作过程,通常也称为“功能段功能段”。 k t (n-1)tn-1n-1 123n nn-1n-1123n nn-1n-1123n nn-1n-1123n n时间时间空间空间S1S2S3S4n-1n-1123n nS5填入填入填满填满排空排空第13页/共177页第十四页,共177页。第14页/共177页第十五页,共177页。第15页/共177页第十六页,共177页。求阶差求阶差对阶对阶尾数加尾数加规格化规格化入入出出部件部件(bj
9、in)级流水线通常是流水线处理机中的级流水线通常是流水线处理机中的一部分,这时的处理机由于流水级数较多,又一部分,这时的处理机由于流水级数较多,又称为超流水线处理机。称为超流水线处理机。第16页/共177页第十七页,共177页。第17页/共177页第十八页,共177页。上这个过程更应该看作是一上这个过程更应该看作是一种任务的调度策略。种任务的调度策略。 处理机处理机2 M 处理机处理机n M 输出输出 处理机处理机1 M输入输入 任务任务1 任务任务2 任务任务n第18页/共177页第十九页,共177页。第19页/共177页第二十页,共177页。第20页/共177页第二十一页,共177页。(可
10、以(可以(ky)是单功能流水线也可以是单功能流水线也可以(ky)是多功能流水线)是多功能流水线)第21页/共177页第二十二页,共177页。(只能(只能(zh nn)是多功能流水线)是多功能流水线)第22页/共177页第二十三页,共177页。是指在各部件是指在各部件(bjin)除了串行除了串行的连接外,还通过反馈线使某的连接外,还通过反馈线使某些部件些部件(bjin)得以重复使用。得以重复使用。指令在通过这种流水线时,可指令在通过这种流水线时,可能在反馈部件能在反馈部件(bjin)上重复运上重复运行若干次。行若干次。第23页/共177页第二十四页,共177页。反馈回路反馈回路S1S2S3入入出
11、出S3S3S1S1S2S2时间时间非线性流水线工作非线性流水线工作(gngzu)特性示意图特性示意图第24页/共177页第二十五页,共177页。在一些现代处理机中,如在一些现代处理机中,如Pentium 4在流水线运行过程中在流水线运行过程中采用了乱序方式。采用了乱序方式。第25页/共177页第二十六页,共177页。步和异步两种流水线。步和异步两种流水线。第26页/共177页第二十七页,共177页。第27页/共177页第二十八页,共177页。kTnTP= =其中其中, n为完成任务的总数,在指令流水线中就是为完成任务的总数,在指令流水线中就是(jish)完成的指令总条数;完成的指令总条数;Tk
12、是完成是完成n个任务所个任务所用的时间。用的时间。第28页/共177页第二十九页,共177页。tnkTkD D- -+ += =) 1(n-1n-1 123n nn-1n-1123n nn-1n-1123n nn-1n-1123n n k t (n-1)tn t (k-1)tTk时间时间空间空间S1S2S3S4所需的总时间所需的总时间(shjin)为:为:第29页/共177页第三十页,共177页。ttnknTPnD D= =D D- -+ += = 1) 1(limmax所以所以(suy),吞吐率为,吞吐率为:tnknTPD D- -+ += =) 1(第30页/共177页第三十一页,共177
13、页。执行执行(zhxng)时间不等的流水线时空图时间不等的流水线时空图n123123nn321312n(n-1)t2Tk时间时间空间空间S4S3S2S1 D=kiit1第31页/共177页第三十二页,共177页。同样方法可以同样方法可以(ky)得到当得到当n时的最大吞吐率为:时的最大吞吐率为: = =D DD DD D- -+ +D D= =kikitttntnTP121),(max)1(),(max121maxktttTPD DD DD D= =第32页/共177页第三十三页,共177页。nn1)分割瓶颈部件的工作)分割瓶颈部件的工作(gngzu)n2)重复设置瓶颈部件)重复设置瓶颈部件第3
14、3页/共177页第三十四页,共177页。S2-1S2-2S2-3S S2 2(3(3t )tt(a)(b)S2-3S2-1S2-2t2=3t33tS1S2S3S4ttt两种方式两种方式(fngsh)在效果上是可以等效的,在输入在效果上是可以等效的,在输入n条指令的情况下,实际吞吐率都为:条指令的情况下,实际吞吐率都为:tnntnnTPD D+ += =D D- -+ += =)5()16(第34页/共177页第三十五页,共177页。两种方式在效果上是可以两种方式在效果上是可以(ky)等效的,在输入等效的,在输入n条指令的情况下,实际吞吐率都为:条指令的情况下,实际吞吐率都为:tnntnnTPD
15、 D+ += =D D- -+ += =)5()16( = =D DD DD D- -+ +D D= =kikitttntnTP121),(max)1(= =6 63D3D- -+ +D Dtntn)1(= =3 3D D+ +t3nn)(第35页/共177页第三十六页,共177页。第36页/共177页第三十七页,共177页。1)1(0- -+ + = =D D- -+ +D D = = =nknktnktknTTSk同样同样(tngyng)办法可以得到最大加速办法可以得到最大加速比比knknkSn= =- -+ + = = 1limmax第37页/共177页第三十八页,共177页。 = =
16、=D DD DD D- -+ +D DD D = =kikikiitttnttnS1211),(max)1(第38页/共177页第三十九页,共177页。空区空区个流水线级占用的总时个流水线级占用的总时条指令占用的时空区条指令占用的时空区knE = =n-1n-1 123n nn-1n-1123n nn-1n-1123n nn-1n-1123n n k t (n-1)tn t (k-1)tTk时间时间空间空间S1S2S3S4各级各级( j)执行时间相等的流水线效率等于执行时间相等的流水线效率等于:1) 1(- -+ += =D D- -+ + D D = =nkntnkktknE第39页/共17
17、7页第四十页,共177页。11limmax= =- -+ += = nknEnn 通过通过(tnggu)类似的分析方法,我们也可以得到在各类似的分析方法,我们也可以得到在各 级执行时间不等的流水线中的效率计算方法。级执行时间不等的流水线中的效率计算方法。 = = =D DD DD D- -+ +D D D D = =kikikiitttntktnE1211),(max)1( 第40页/共177页第四十一页,共177页。效率效率(xio l)公公式:式:加速加速(ji s)比比公式:公式:两者相结合得出:两者相结合得出:E = S/k 或或 S = k E1- -+ + = =nknkS1- -
18、+ += =nknE效率公式:效率公式:tnknTPD D- -+ += =) 1(吞吐率公式:吞吐率公式:1- -+ += =nknE 两者相结合得出:两者相结合得出:E = TP t 或或TP = E /t。仅限于各级执行时仅限于各级执行时间相等的流水线间相等的流水线第41页/共177页第四十二页,共177页。1234567第42页/共177页第四十三页,共177页。从时空图中看出,由于从时空图中看出,由于(yuy)输入任务的不输入任务的不连续,全部连续,全部7个任务(指令),经过个任务(指令),经过18个时钟个时钟周期后完成。如每段执行时间均等于周期后完成。如每段执行时间均等于t,吞吐,
19、吞吐率率TP为:为:时间时间空间空间12345671234567123456712345671234567 1 2 3 18 4 5 6 7 8 9 10 11 12 13 14 15 16 17S5S1S2S3S4ttTnTPkD=D=1389. 0187M=(A+B)+(C+D)+(E+F)+(G+H)1234567第43页/共177页第四十四页,共177页。94. 118570=DD=ttTTSk这时流水线的加速这时流水线的加速(ji s)比为比为:而效率而效率(xio l)达达到:到:389. 0185570=DD=ttTkTEk时间时间空间空间12345671234567123456
20、712345671234567 1 2 3 18 4 5 6 7 8 9 10 11 12 13 14 15 16 17S5S1S2S3S4效率效率(xio l)为何仍然为何仍然不高?不高?第44页/共177页第四十五页,共177页。第45页/共177页第四十六页,共177页。第46页/共177页第四十七页,共177页。Z Z(AB)(AB)(CD)(CD)(EF)(EF)(GH)(GH)1 12 23 34 45 57 76 6第47页/共177页第四十八页,共177页。第48页/共177页第四十九页,共177页。如果采用如果采用(ciyng)(ciyng)顺序执行方式,完成一次顺序执行方式
21、,完成一次乘法要用乘法要用4 4个个t t ,完成一次加法要用,完成一次加法要用6 6个个t t ,则完成全部运算要用,则完成全部运算要用 则流水线的加速则流水线的加速(ji s)(ji s)比比S S为:为: 整个流水线共有整个流水线共有8 8段,流水线效率段,流水线效率E E为:为: 效率更低的原因?效率更低的原因?第49页/共177页第五十页,共177页。第50页/共177页第五十一页,共177页。流水线的额外开销流水线的额外开销流水寄存器延迟流水寄存器延迟时钟偏移开销时钟偏移开销冲突问题冲突问题流水线设计流水线设计(shj)中要解决的中要解决的重要问题之一。重要问题之一。第51页/共1
22、77页第五十二页,共177页。第52页/共177页第五十三页,共177页。ALU指令指令LOAD/STOREBRANCHIF(S1)取指取指取指取指取指取指ID(S2)译码译码,读寄存读寄存器堆器堆译码译码,读寄存器堆读寄存器堆译码译码,读寄存器读寄存器堆堆EX(S3)执行执行计算有效地址计算有效地址计算转移目标地计算转移目标地址址,设置条件码设置条件码MEM(S4)-访存访存(读或写读或写)若条件成立若条件成立,将将转移目标地址送转移目标地址送PCWB(S5)结果写回寄存结果写回寄存器堆器堆读出数据写入寄存器堆读出数据写入寄存器堆-第53页/共177页第五十四页,共177页。第54页/共17
23、7页第五十五页,共177页。第55页/共177页第五十六页,共177页。(zh yo)是三大类是三大类: 1)名相关)名相关 2)数据相关)数据相关 3)控制相关)控制相关第56页/共177页第五十七页,共177页。第57页/共177页第五十八页,共177页。 DIV.D F2,F6,F4 ADD.D F6,F0,F12第58页/共177页第五十九页,共177页。第59页/共177页第六十页,共177页。第60页/共177页第六十一页,共177页。数据相关具有传递性。数据相关具有传递性。数据相关反映了数据的流动关数据相关反映了数据的流动关系,即如何从其产生者流动系,即如何从其产生者流动到其消费
24、者。到其消费者。第61页/共177页第六十二页,共177页。第62页/共177页第六十三页,共177页。当数据的流动是经过寄存器时,相关的检测比较当数据的流动是经过寄存器时,相关的检测比较直观直观(zhgun)和容易。和容易。当数据的流动是经过存储器时,检测比较复杂。当数据的流动是经过存储器时,检测比较复杂。 相同形式的地址其有效地址未必相同。相同形式的地址其有效地址未必相同。 形式不同的地址其有效地址却可能相同。形式不同的地址其有效地址却可能相同。第63页/共177页第六十四页,共177页。该分支控制了。该分支控制了。如果一条如果一条(y tio)指令与某分支指令与某分支指令不存在控制相关,
25、就不指令不存在控制相关,就不能把该指令移到该分支之后。能把该指令移到该分支之后。第64页/共177页第六十五页,共177页。第65页/共177页第六十六页,共177页。1 2 3 4 5 6 7 8指令指令LOADIF ID EX MEM WB指令指令i+1 IF ID EX MEM WB指令指令i+2 IF ID EX MEM WB指令指令i+3 IF ID EX MEM WB指令指令i+4 IF ID EX MEM访存冲突访存冲突(chngt)第66页/共177页第六十七页,共177页。第67页/共177页第六十八页,共177页。1 2 3 4 5 6 7 8 9指令指令LOADIF ID
26、 EX MEM WB指令指令i+1 IF ID EX MEM WB指令指令i+2 IF ID EX MEM WB指令指令i+3 停顿停顿 IF ID EX MEM WB指令指令i+4 IF ID EX MEM第68页/共177页第六十九页,共177页。 时时间间(时时钟钟周周期期) 1 2 3 4 5 6 M Reg ALU M Reg M Reg ALU M Reg M Reg ALU M Reg 7 8 load 指指令令i+1 指指令令i+2 暂暂 停停 M Reg ALU M 指指令令i+3 气气泡泡 气气泡泡 气气泡泡 气气泡泡 气气泡泡 第69页/共177页第七十页,共177页。1
27、 2 3 4 5 6DADDIF ID EX MEM WBDSUB IF ID EX MEM WB写写R1读读R1第70页/共177页第七十一页,共177页。 IF ID EX MEM WBDSUBIF ID EX MEM WBDADD1 2 3 4 5 6写写R1读读R1ALU运算结果运算结果目标目标RALU操作数寄存器操作数寄存器旁路旁路(pn l)传送传送第71页/共177页第七十二页,共177页。 时间(时钟周期) 1 2 3 4 5 6 IM Reg ALU DM Reg IM Reg ALU DM Reg IM Reg ALU DM IM Reg ALU DADD R1,R2,R3
28、 DSUB R4,R1,R5 XOR R6,R1,R7 AND R8,R1,R9 IM Reg OR R10,R1,R11 第72页/共177页第七十三页,共177页。指令入指令入出出12345读数读数写数写数kji Ri指令指令:写数写数 j指令指令:读数读数解决方法一:按序流动解决方法一:按序流动(lidng)(顺序流动(顺序流动(lidng))的流水线中,用定向传送技术。)的流水线中,用定向传送技术。指流水线中流出的结果与流入指令的次序是一致的。指流水线中流出的结果与流入指令的次序是一致的。第73页/共177页第七十四页,共177页。 时间(时钟周期) 1 2 3 4 5 6 IM Re
29、g ALU DM Reg IM Reg ALU DM Reg IM Reg ALU DM IM Reg ALU LD R1,0(R2) DADD R4,R1,R5 AND R6,R1,R7 XOR R8,R1,R9 第74页/共177页第七十五页,共177页。 时间(时钟周期) 1 2 3 4 5 6 IM Reg ALU DM Reg IM Reg ALU DM IM Reg ALU IM Reg LD R1,0(R2) DADD R4,R1,R5 AND R6,R1,R7 XOR R8,R1,R9 气泡 气泡 气泡 第75页/共177页第七十六页,共177页。指允许输出结果的次序与输入指令
30、指允许输出结果的次序与输入指令(zhlng)的次序不同。的次序不同。lkikjil指令入指令入出出12345读数读数写数写数 Ri指令指令:写数写数 j指令指令:读数读数第76页/共177页第七十七页,共177页。第77页/共177页第七十八页,共177页。1 2 3 4 5 6 7 8BRANCH(转转移移)IF ID EX MEM WB指令指令i+1 停顿停顿 停顿停顿 停顿停顿 IF ID EX MEM指令指令i+2 停顿停顿 停顿停顿 停顿停顿 IF ID EX指令指令i+3 停顿停顿 停顿停顿 停顿停顿 IF ID末尾末尾(mwi)处更新处更新PC值值第78页/共177页第七十九页,
31、共177页。第79页/共177页第八十页,共177页。成,即分支指令是在成,即分支指令是在IDID段的段的末尾执行完成,所带来的分末尾执行完成,所带来的分支延迟为一个时钟周期。支延迟为一个时钟周期。第80页/共177页第八十一页,共177页。第81页/共177页第八十二页,共177页。第82页/共177页第八十三页,共177页。第83页/共177页第八十四页,共177页。DADD R1,R2,R3IF R2=0 THEN延迟槽延迟槽IF R2=0 THENDADD R1,R2,R3第84页/共177页第八十五页,共177页。方法三:由失败方法三:由失败(shbi)处调度处调度方法二:从目标方法
32、二:从目标(mbio)处调度处调度DSUB R4, R5, R6 DADD R1, R2, R3IF R1=0 THEN延迟槽延迟槽DSUB R4, R5, R6 DADD R1, R2, R3IF R1=0 THENDSUB R4, R5, R6DADD R1, R2, R3IF R1=0 THEN DSUB R4, R5, R6延迟槽延迟槽DADD R1, R2, R3IF R1=0 THEN DSUB R4, R5, R6第85页/共177页第八十六页,共177页。前馈前馈 反馈反馈输出输出S4输入输入S1S2S3(a) 带前馈和反馈的非线性流水线连线图带前馈和反馈的非线性流水线连线图(
33、b) 一种假定的预约表一种假定的预约表 1 2 3 4 5 6 7 8 S1 S2 S3 S4 第86页/共177页第八十七页,共177页。前馈前馈 反馈反馈输出输出S4输入输入S1S2S3(a) 带前馈和反馈的非线性流水线连线图带前馈和反馈的非线性流水线连线图第87页/共177页第八十八页,共177页。前馈前馈 反馈反馈输出输出S4输入输入S1S2S3(a) 带前馈和反馈的非线性流水线连线图带前馈和反馈的非线性流水线连线图(b) 一种假定的预约表一种假定的预约表 1 2 3 4 5 6 7 8 S1 S2 S3 S4 第88页/共177页第八十九页,共177页。第89页/共177页第九十页,
34、共177页。,时段到第时段到第4时段的距离为时段的距离为3t(4t 1t = 3t),显然这),显然这是一个禁止启动距离。是一个禁止启动距离。 1 2 3 4 5 6 7 8 S1 S2 S3 S4 第90页/共177页第九十一页,共177页。nS3(jl):t,3t,4tn禁止向量禁止向量F =(1, 3, 4, 6) 1 2 3 4 5 6 7 8 S1 S2 S3 S4 第91页/共177页第九十二页,共177页。令。令。第92页/共177页第九十三页,共177页。第93页/共177页第九十四页,共177页。因此,可以与当前指令间隔因此,可以与当前指令间隔2拍拍(2t )或)或5拍调入下
35、一个指令。拍调入下一个指令。第94页/共177页第九十五页,共177页。001011)(0)2(=CSHR 1 2 3 4 5 6 7 8 S1 S2 S3 S4 n第一条指令的当前禁止向量:第一条指令的当前禁止向量:n F =(1-2, 3-2, 4-2, 6-2)=(1,2,4)n则此时初始冲突向量应该则此时初始冲突向量应该(ynggi)逻辑右移两位,逻辑右移两位,形成第一条指令的当前冲突向量。如(形成第一条指令的当前冲突向量。如( C0 =(101101),即:),即:第95页/共177页第九十六页,共177页。)101111()101101()001011()(00)2(1=CCSHR
36、C000)5(2)101101()101101()000001()(CCCSHRC=对对C1继续推算新的冲突向量,因为其中继续推算新的冲突向量,因为其中(qzhng)只有一个只有一个0,后续向量也只有一个。后续向量也只有一个。001)5(3)101101()101101()000001()(CCCSHRC=在这个例子在这个例子(l zi)中,完成了全部推算后,只找到一个新中,完成了全部推算后,只找到一个新的冲突向量的冲突向量C1。第96页/共177页第九十七页,共177页。101101101111C1C0255第97页/共177页第九十八页,共177页。存储器访问存储器访问/分支完成分支完成写
37、回写回只讨论整数指令的实现(包括:只讨论整数指令的实现(包括:load和和store,等于,等于0转移,整数转移,整数ALU指令等。)指令等。)第98页/共177页第九十九页,共177页。第99页/共177页第一百页,共177页。16#IR16.3116#IR16.31)指令的译码操作和读寄存器操作是并行进行的。指令的译码操作和读寄存器操作是并行进行的。 原因原因(yunyn):在:在MIPS指令格式中,操作码字段以及指令格式中,操作码字段以及rs、rt字段都是在固定的位置。这种技术称为固定字段译码技术。字段都是在固定的位置。这种技术称为固定字段译码技术。第100页/共177页第一百零一页,共
38、177页。将有效地址将有效地址(dzh)计算周期和执行周期合并为一个时钟周期,这是因为计算周期和执行周期合并为一个时钟周期,这是因为MIPS指令集采用指令集采用loadstore结构,没有任何指令需要同时进行数据有效地址结构,没有任何指令需要同时进行数据有效地址(dzh)的计算、转移目标地址的计算、转移目标地址(dzh)的计算和对数据进行运算。的计算和对数据进行运算。第101页/共177页第一百零二页,共177页。分支三种指令分支三种指令(zhlng)。(1)存储器访问指令)存储器访问指令(zhlng) LMDMemALUo 或者或者MemALUoB(2)分支指令)分支指令(zhlng) if
39、 (cond) PC ALUo else PCNPC第102页/共177页第一百零三页,共177页。 Regsrt LMD第103页/共177页第一百零四页,共177页。n2.单周期实现时,需要重复单周期实现时,需要重复设置某些功能部件,而在多设置某些功能部件,而在多周期实现方案中,这些部件周期实现方案中,这些部件是可以共享的。是可以共享的。第104页/共177页第一百零五页,共177页。取指取指D Dt译码译码D Dt执行执行2D Dt写回写回2D Dt第105页/共177页第一百零六页,共177页。取指取指D Dt译码译码D Dt执行执行2D Dt写回写回2D Dt1 1)画出该流水线工作
40、)画出该流水线工作(gngzu)(gngzu)时空图。时空图。时间时间 0 t1 t2 t3 t4 t5 t6 t7 t8 t9 t10 t11 t12 空间空间S3 S21 S1 S411122223333nnnn第106页/共177页第一百零七页,共177页。 = =D DD DD D- -+ +D D= =kikitttntnTP121),(max)1(= 5/(12 D Dt) = = =D DD DD D- -+ +D D D D = =kikikiitttntktnE1211),(max)1(= 0.625时间时间 0 t1 t2 t3 t4 t5 t6 t7 t8 t9 t10
41、t11 t12 空间空间S3 S21 S1 S411122223333nnnn第107页/共177页第一百零八页,共177页。= 0.67/D DttnknTPD D- -+ += =) 1(tn6nD D- -+ += =) 1(E = TP t = 10/15 = 0.67S = k E = 4第108页/共177页第一百零九页,共177页。银河银河-I巨型计算机巨型计算机 银河银河-II巨型计算机巨型计算机第109页/共177页第一百一十页,共177页。=nnnjninijinjnnnjninijinjbbbbbbbbbBaaaaaaaaaA111111111111第110页/共177页
42、第一百一十一页,共177页。=NkjkkijibaC1,=nnnjninijinjnnnjninijinjbbbbbbbbbaaaaaaaaaBA111111111111第111页/共177页第一百一十二页,共177页。=NkjkkijibaC1,第112页/共177页第一百一十三页,共177页。对一个操对一个操作数进行作数进行操作操作对一对操对一对操作数进行作数进行操作操作第113页/共177页第一百一十四页,共177页。第114页/共177页第一百一十五页,共177页。=nnnjninijinjnnnjninijinjbbbbbbbbbaaaaaaaaaBA111111111111第115
43、页/共177页第一百一十六页,共177页。第116页/共177页第一百一十七页,共177页。储到多体交叉存储器中。储到多体交叉存储器中。4)一般向量机中,允许访问)一般向量机中,允许访问存储器与有效地址的计算流存储器与有效地址的计算流水化,在高档向量机中还允水化,在高档向量机中还允许多个向量操作同时进行,许多个向量操作同时进行,即多向量并行操作。即多向量并行操作。第117页/共177页第一百一十八页,共177页。可以把处理方式分为三种。可以把处理方式分为三种。 横向横向(hn xin)处理处理方式方式 纵向处理方式纵向处理方式 纵横处理方式纵横处理方式第118页/共177页第一百一十九页,共1
44、77页。Fi = Ai * B + Di * ( Ai - Ei )求出整个求出整个A的值,作为第一个运算的值,作为第一个运算(yn sun)单元单元第二个运算第二个运算(yn sun)单元单元第三个运算单元第三个运算单元 纵横处理方式纵横处理方式将被处理的数组分割为比较小的数组,在这个较小的将被处理的数组分割为比较小的数组,在这个较小的数组中进行纵向处理,然后在各小数组处理的基础上数组中进行纵向处理,然后在各小数组处理的基础上进行横向处理。进行横向处理。第119页/共177页第一百二十页,共177页。器、向量控制器等器、向量控制器等2. 向量处理机的类型向量处理机的类型存储器存储器-存储器型
45、存储器型寄存器寄存器-寄存器型寄存器型第120页/共177页第一百二十一页,共177页。功能流水线功能流水线存储系统存储系统译码器译码器指令指令数据数据A数据数据B数据数据C向量处理机基本结构框向量处理机基本结构框图图n存储器存储器-存储器结构存储器结构(jigu)第121页/共177页第一百二十二页,共177页。存储器系统存储器系统地址形成器地址形成器功能选择功能选择向量控制向量控制指令指令指指 令令 译译 码码延迟选择延迟选择可变延迟器可变延迟器可变延迟器可变延迟器功能处理流水线功能处理流水线C = ABAB第122页/共177页第一百二十三页,共177页。AM0M1M2M3M4M5M6M
46、7BC = AB运算器运算器流水线结构流水线结构A B CA0A1A2A3A4A5A6A7B0B1B2B3B4B5B6B7C0C1C2C3C4C5C6C7第123页/共177页第一百二十四页,共177页。存储器存储器-存储器结构向量处理机的一种工作时空存储器结构向量处理机的一种工作时空图图P4P3P2P1M7M6M5M4M3M2M1M0 0 1 2 3 4 5 6 7 0 1 2 3 4 5 6 7 0 1 2 3 4 5 6 7 0 1 2 3 4 5 6 7 RA7 RA7 RB7 RB7 W7 W7 RA6 RA6 RB6 RB6 W6 W6 RA5 RA5 RB5 RB5 W5 W5
47、RA4 RA4 RB4 RB4 W4 W4 RA3 RA3 RB3 RB3 W3 W3 RA2 RA2 RB2 RB2 W2 W2 RA1 RA1 RB1 RB1 W1 W1 RA0 RA0 RB0 RB0 W0 W0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 第124页/共177页第一百二十五页,共177页。AM0M1M2M3M4M5M6M7BC = AB运算器运算器流水线结构流水线结构由由8个存储器模块个存储器模块(m kui)组成存储系统的向量处理机组成存储系统的向量处理机A B CA0A1A2A3A4A5A6A7B6B7B0B1B2B3B4B5
48、C4C5C6C7C0C1C2C3第125页/共177页第一百二十六页,共177页。改变向量存储方法后可以改变向量存储方法后可以(ky)(ky)得到如下的时空图:得到如下的时空图:P4P3P2P1M7M6M5M4M3M2M1M0 12 3456789 10 11 12 13改变向量存储方法后的处理机时序图改变向量存储方法后的处理机时序图 0 1 2 3 4 5 6 7 0 1 2 3 4 5 6 7 0 1 2 3 4 5 6 7 0 1 2 3 4 5 6 7 RB5 RB5 RA7 RA7 W3 W3 RB4 RB4 RA6 RA6 W2 W2 RB3 RB3 RA5 RA5 W1 W1 R
49、B2 RB2 RA4 RA4 W0 W0 RB1 RB1 RA3 RA3 RB0 RB0 RA2 RA2 W6 RA1 RA1 RB7 RB7 W5 W5 RA0 RA0 RB6 RB6 W4 W4 W6W7W714 15第126页/共177页第一百二十七页,共177页。n y工作的单功能流水线,可分别工作的单功能流水线,可分别流水地进行地址、向量、标量流水地进行地址、向量、标量的各种运算。的各种运算。第127页/共177页第一百二十八页,共177页。第128页/共177页第一百二十九页,共177页。一个时钟周期,即一个时钟周期,即12.5 ns12.5 ns。第129页/共177页第一百三十
50、页,共177页。以每拍向功能部件提供一个数以每拍向功能部件提供一个数据元素,或者每拍接收一个从据元素,或者每拍接收一个从功能部件来的结果元素。功能部件来的结果元素。第130页/共177页第一百三十一页,共177页。作用:用于向量的归并、压缩、作用:用于向量的归并、压缩、还原和测试操作、对向量某些还原和测试操作、对向量某些元素的单独运算等。元素的单独运算等。第131页/共177页第一百三十二页,共177页。3 3)只要不出现)只要不出现ViVi冲突和功能部冲突和功能部件冲突,各件冲突,各ViVi之间和各功能部之间和各功能部件之间都能并行工作,大大加件之间都能并行工作,大大加快了向量快了向量(xi
51、ngling)(xingling)指令的指令的处理。处理。第132页/共177页第一百三十三页,共177页。第133页/共177页第一百三十四页,共177页。第134页/共177页第一百三十五页,共177页。采用多处理机系统,进一步提采用多处理机系统,进一步提高高(t go)性能。性能。第135页/共177页第一百三十六页,共177页。浮点部件:浮点加,浮点乘,浮点部件:浮点加,浮点乘,浮点求倒数浮点求倒数标量部件:标量加,移位,逻标量部件:标量加,移位,逻辑运算,辑运算,数数“1”/计数计数地址运算部件:整数加,整数地址运算部件:整数加,整数乘乘第136页/共177页第一百三十七页,共177
52、页。结果作为下一条结果作为下一条(y tio)指令指令的源操作数传送给乘法运算的源操作数传送给乘法运算功能部件,那么就能使两个功能部件,那么就能使两个功能部件链接起来工作。功能部件链接起来工作。第137页/共177页第一百三十八页,共177页。 存储器存储器A B CV0V1V2V3 1 2 3 4 5 6访存访存口口 1 2 3 4 5 6浮点加浮点加 1 2 3 4 5 6 7 D V4浮点乘浮点乘第138页/共177页第一百三十九页,共177页。 存储器存储器A B CV0V1V2V3 1 2 3 4 5 6访存访存口口 1 2 3 4 5 6浮点加浮点加 1 2 3 4 5 6 7 D
53、 V4浮点乘浮点乘1. 3条指令条指令(zhlng)全部用串行方法执行,则执行时间为:全部用串行方法执行,则执行时间为: (161)N1(161)N1 (171)N1 = 3N 22 (拍)(拍)2. 前两条指令前两条指令(zhlng)并行执行,然后再串行执行第并行执行,然后再串行执行第3条指令条指令(zhlng),则执行时间为:,则执行时间为: (161)N1(171)N1 = 2N 15 (拍)(拍)3. 第第1、2条向量指令并行执行,并与第条向量指令并行执行,并与第3条指令链接执行。从访存开始到把第一个结果元素存入条指令链接执行。从访存开始到把第一个结果元素存入V4所需的拍数(亦称为链接
54、流水线的建立时间)为:所需的拍数(亦称为链接流水线的建立时间)为: (161) (171) = 17 (拍)(拍)3条指令的执行时间为:条指令的执行时间为: (161) (171) (N1) = N16 (拍)(拍)V3 AV2 V0 + V1 V4 V2 * V3第139页/共177页第一百四十页,共177页。向量指令的向量长度必须相等,向量指令的向量长度必须相等,否则无法进行链接否则无法进行链接(lin ji)。n4)只有在前一条指令的第一)只有在前一条指令的第一个结果元素送入结果向量寄存个结果元素送入结果向量寄存器的那一个时钟周期才可以进器的那一个时钟周期才可以进行链接行链接(lin j
55、i)。第140页/共177页第一百四十一页,共177页。答案:答案:C第141页/共177页第一百四十二页,共177页。为分段开采技术。为分段开采技术。例例.设设A和和B是长度为是长度为N的向量的向量(xingling),考虑在,考虑在Cray-1向向量量(xingling)处理器上实现处理器上实现以下的循环操作:以下的循环操作: DO 10 I = 1,N 10 A(I)= 5.0 * B(I)+ C第142页/共177页第一百四十三页,共177页。 余数余数(ysh)L:第143页/共177页第一百四十四页,共177页。处理处理(chl)(chl)余余数部分数部分, ,计算计算L L个元素个元素 第144页/共177页第一百四十五页,共177页。循环循环K次次,分段分段(fn dun)处理处理第145页/共177页第一百四十六页,共177页。最多可包含最多可包含16个向量处理机个向量处理机第146页/共177页第一百四十七页,共177页。第147页/共177页第一百四十八页,共177页。 n建立段建立段 第第1个元素个元素 通过流水线通过流水线 2TsTvf (n-1)Tc其中,其中,建立建立(jinl)段段Ts是为向量指令的执行进行准备的阶段。是为向量指令的执行进行准备的阶段。第二段第二段Tvf是使被处理的向量中第一个(对)元素通过流水线所花费的时间。是使被处理的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 手卫生课件试题
- 合同终止声明范本
- 2024年度企业研发成果转化与许可合同2篇
- 2024年度文化艺术品拍卖委托合同3篇
- 二零二四年度废弃物处理与环保服务合同3篇
- 二零二四年机器人研发联营合同2篇
- 背景图片课件怎么做
- 高分子化学:第三章自由基聚合1
- 2024年度工厂食堂员工餐饮需求调研合同2篇
- 新媒体代运营合同模板范文
- 医院评审评价-等级评审课件
- 牛首山作文 800字游记
- DL∕T 976-2017 带电作业工具、装置和设备预防性试验规程
- DL∕T 817-2014 立式水轮发电机检修技术规程
- 大管轮试题附有答案
- 2024年高级调饮师理论考试题库(含答案)
- 防窒息、噎食护理应急预案试题
- 2024壬二酸科学祛痘消费者报告-质润x美丽修行-202406
- 创新工作室考核制度
- 章丘铁锅运营方案
- 使用单位特种设备安全风险管控清单
评论
0/150
提交评论