计算机系统结构教程课后解答_第1页
计算机系统结构教程课后解答_第2页
计算机系统结构教程课后解答_第3页
计算机系统结构教程课后解答_第4页
计算机系统结构教程课后解答_第5页
已阅读5页,还剩19页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、1.7某台主频为400MHz的计算机执行标准测试程序,程序中指令类型、执行数量 和平均时钟周期数如下:指令类型指令执行数量平均时钟周期数整数450001数据传送750002浮点80004分支15002求该计算机的有效CPI、MIPS和程序执行时间 解:nCPI (CPIi ICi/IC) i 1(1) CPI =(45000X1 + 75000X 2+8000X 4+1500X2)/ 129500= 1.776(2) MIPS 速率=f/ CPI =400/1.776 = 225.225MIPS(3)程序执行时间=(45000X 1 + 75000X 2 + 8000X4+ 1500X2)/4

2、00=575s1.9 将计算机系统中某一功能的处理速度加快10倍,但该功能的处理时间仅为整个系统运行时间的40%,则采用此增强功能方法后,能使整个系统的性能提 高多少?解:由题可知:可改进比例Fe=40% = 0.4部件加速比Se = 10Sn T0 1一- 1 1.5625根据Tn1 Fe Fe (1 0.4) 0.4/10Se1.10 计算机系统中有三个部件可以改进,这三个部件的部件加速比为:部件加速比1=30;部件加速比2=20;部件加速比3=10(1) 如果部件1和部件2的可改进比例均为30%,那么当部件3的可改进比例为多少时,系统加速比才可以达到 10(2) 如果三个部件的可改进比例

3、分别为 30%、30%和20% ,三个部件同时改进,那么系统中不可加速部分的执行时间在总执行时间中占的比例是多少?解:(1)在多个部件可改进情况下,Amdahl定理的扩展:ST0 1n Tn1 Fe1 Fe2 Fe3 fe1 fe2 fe3Se1 Se2 Se3已知 S1 = 30, S2= 20, S3= 10, Sn=10, F1 = 0.3, F2 = 0.3,得:得F3=0.36,即部件3的可改进比例为36% o(2)设系统改进前的执行时间为T,则3个部件改进前的执行时间为:1 Fe1 Fe2 Fe3 =0.2T(0.3+0.3+0.2) T = 0.8T ,不可改进部分的执行时间为3

4、个部件已知3个部件改进后的加速比分别为 S1 = 30, S2= 20, S3=10,因此 改进后的执行时间为:Fe1改进后整个系统的执行时间为:Tn = 1 Fe1 Fe2 Fe3SeiFe2Se2Fe3S3=0.045T+0.2T = 0.245T那么系统中不可改进部分的执行时间在总执行时间中占的比例是:0.2/0.245=81.6%1.11假设浮点数指令FP指令的比例为30%,其中浮点数平方根FPSQR占全部指令的比例为4%, FP操作的CPI为5, FPSQR操作的CPI为20,其他指令 的平均CPI为1.25。解:CPIn(CPIi ICi/IC) i 1改进前: CPI = 5 X

5、 30% + 1.25 X(1 - 30%) = 2.375设除FPSQR外其余指令的平均CPI 贝U 2.375 = 20 X 4% + (1 - 4%)X ,为X解出 X = 1.640625Zu 1:万不2:CPI1 = 3 xCPI2 = 3 义4% + 1.64062530% + 1.25 XX (1 - 4%) = 1.695 (1 - 30%) = 1.7752.11解:ADDSHRSTPCILSTOJOMJMPSUB CLA指令频度Pi操作码使用哈夫曼编码操作码长度liADD0.4301CLA0.221 02SUB0.131 1 03JMP0.071 1 1 0 05JOM0.

6、061 1 1 0 15STO0.051 1 1 1 05CIL0.021 1 1 1 1 06SHR0.011 1 1 1 1 1 07STP0.011 1 1 1 1 1 179L=Rh =0.43x1+0.22x2+0.13x3+0.07x5+0.06x5+0.05x5+0.02x6+0.01x7+0.01x71 1=2.422.12.解:二地址指令的结构是(4位操作码OP) , (6位地址码A1) , (6位地址码A2)。一地址指令的结构是(10位操作码OP) , (6位地址码A)。二地址指令,最多共16条二地址指令。每少一条二地址指令,则多26条一地址指令,所以一地址指令最多有(16

7、-A) *26条3.5在一台单流水线多操作部件的处理机上执行下面的程序, 每条指令的取指令、 指令译码需要一个时钟周期, MOVE、ADD和MUL操作分别需要2个、3个和4个时钟周期,每个操作都在第一个时钟周期从通用寄存器中读操作数,在最后一个时钟周期把运算结果写到通用寄存器中。;R1 (R0);R0 (R2)X(R1);R0 (R2)+(R3)k:MOVE R1, R0k+1 : MUL R0, R2, R1k+2: ADD R0, R2, R3画出指令执行过程的流水线时空图,并计算完成这3条指令共需要多少个时钟周期?解:在程序实际执行过程中,二种数据相关会引起流水线停顿。一是“先写后读”

8、相关,k指令对R1的写在程序执行开始后的第四个时钟;k+1指令对R1的读 对指令本身是第三个时钟,但 k+1指令比k指令晚一个时钟进入流水线,则在 程序执行开始后的第四个时钟要读 R1。不能在同一时钟周期内读写同一寄存器,因此k+1指令应推迟一个时钟进入流水线,产生了流水线停顿。二是“写一写” 相关,k+1指令对R0的写对指令本身是第六个时钟,而要求该指令进入流水线 应在程序执行开始后的第三个时钟,所以对R0的写是在程序执行开始后的第八 个时钟。k+2指令对R0的写对指令本身是第五个时钟, 而k+2指令比k+1指令 晚一个时钟进入流水线,则在程序执行开始后的第四个时钟,所以对 R0的写是 在程

9、序执行开始后的第八个时钟。不能在同一时钟周期内写写同一寄存器,因此k+2指令应推迟一个时钟进入流水线, 产生了流水线停顿。另外,可分析“先 读后写”相关不会产生流水线的停顿。该指令流水线由六个功能段取指、译码、取数、运一、运二和存数等组成,则程序指令执行过程的流水线时空图如下图所示。若3条指令顺序流动,共需要9个时钟周期存数运二运一 取数 译码 取指3.6有一指令流水线如下所示入一11U2_U3_44_出50ns 50ns 100ns200ns(1) 求连续输入10条指令,该流水线的实际吞吐率和效率;(2) 该流水线的 瓶颈”在哪一段?请采取两种不同的措施消除此瓶颈”。对于你所给出的两种新的流

10、水线,连续输入10条指令时,其实际吞吐率和效率各是多少?解:(1)kTkti (n 1) tmaxi 1(50 50 100 200) 9 2002200(ns)TP %k %20(ns1)n ti i 1 kkti (n 1) max( t1,t2,L , tki 1=TPmtii 1k4005TP45.45%411(2)瓶颈在3、4段。变成八级流水线(细分)入1 一 1 一 2 一 3_1 _ 3_250ns50ns 50ns50ns4_150ns,出4_4 一50nskTk ti (n 1) tmax i 150 8 9 50850(ns)TP nTk 185(ns1)m ti i 14

11、0010E TP TP58.82%m817重复设置部件4-4TP nTk 185(ns1)4_44_34_24_13_23_121时间850nsE 400 10850 8 1017 58.82%3.7 有一个流水线由4段组成,其中每当流经第3段时,总要在该段循环一 次,然后才能流到第4段。如果每段经过一次所需要的时间都是t,问:(1) 当在流水线的输入端连续地每 t时间输入任务时,该流水线会发生 什么情况?(2) 此流水线的最大吞吐率为多少?如果每 2 t输入一个任务,连续处理 10个任务时的实际吞吐率和效率是多少?(3) 当每段时间不变时,如何提高该流水线的吞吐率?仍连续处理 10个 任务时

12、,其吞吐率提高多少?解:(1)会发生流水线阻塞情况第1个任 务S1S2S3S3S4第2个任 务S1S2stallS3S3S4第3个任 务S1S2stallstallS3S3S4第4个任 务S1S2stallstallstallS3S3S4(2)23 tTpipeline23 tTpE TP 5 t4 5092 54.35%(3)重复设置部件段.43_23_12110101033557710时间1014 tTP nTi 1014 t 57 t5吞吐率提高倍数=,=1.641023 t3.8 有一条静态多功能流水线由5段组成,加法用1、3、4、5段,乘法用1、2、 5段,第3段的时间为24t,其余

13、各段的时间均为 t,而且流水线的输出可以 直接返回输入端或暂存于相应的流水寄存器中。现要在该流水线上计算4 口、,画出其时空图,并计算其吞吐率、加速比和效率。(Ai Bi )i 1Ai+Bi、解:首先,应选择适合于流水线工作的算法。对于本题,应先计算A2+B2、A3+B3 和 A4+B4;再计算(A1+B1) X(A2+B2D(A3+B3)X(A4+B4); 然后求总的结果。作。其次,画出完成该计算的时空图,如图所示,图中阴影部分表示该段在工由图可见,它在18个N时间中,给出了7个结果。所以吞吐率为:7 TP - 18 t如果不用流水线,由于一次求积需3At, 一次求和需5At,则产生上述7个

14、结果共需(4>5+3X3) At =29At0所以加速比为:29 t S 1.61 18 t该流水线的效率可由阴影区的面积和 5个段总时空区的面积的比值求得:4 5 3 3E0.3225 183.8有一条动态多功能流水线由5段组成,加法用1、3、4、5段,乘法用1、2、5 段,第2段的时间为2N,其余各段时间均为At,而且流水线的输出可以直接返4(A Bi) i 1回输入端或暂存于相应的流水寄存器中。若在该流水线上计算试计算其吞吐率、加速比和效率。C+ DDB1 B2 B3 B4 B由图可见,它在18个N时间中,给出了 7个结果。所以吞吐率为:TP718"!如果不用流水线,由于

15、一次求积需 4At, 一次求和需4At,则产生上述7个 结果共需(4M+3X4) At =28At0所以加速比为:28 t18 t1.56该流水线的效率可由阴影区的面积和 5个段总时空区的面积的比值求得:28 E 0.3115 184.5在CRAY-1机器上,按照链接方式执行下述4条向量指令(括号中给出了相应 功能部件的执行时间),如果向量寄存器和功能部件之间的数据传送需要 1拍, 试求此链接流水线的通过时间是多少拍?如果向量长度为 64,则需多少拍才能 得到全部结果?V 4存储器(从存储器中取数:7拍)V 2 V0+V1 (向量加:3拍)V 3 V2<A3 (按(A3)左移:4拍)V

16、5- V3AV4 (向量逻辑乘:2拍)解:通过时间就是每条向量指令的第一个操作数执行完毕需要的时间,也就是 各功能流水线由空到满的时间,在流水线充满之后,向量中后继操作数继续以 流水方式执行,直到整组向量执行完毕。加线 与线 量水 量水 向流 向流T 通过=(1+7+1) +(1+3+1)+(1+4+1)+(1+2+1)=24(拍)T 总共=T 通过+(64-1)=24+63 = 87拍4.6 T通过=(1+7+1) +(1+3+1)+(1+5+1)+(1+2+1)+(1+7+1)=34(拍)T 总共=T 通过+(64-1)=63+34 = 97拍4.7 某机有16个向量寄存器,其中V0V5中

17、分别放有向量A、B、C、D、E、F,向量长度均为8,向量各元素均为浮点数;处理部件采用二个单功能流水线, 加法功能部件时间为2拍,乘法功能部件时间为3拍。用类似Cray 1的链接技术, 先计算(A+B)*C,在流水线不停流的情况下,接着计算(D+E)*F。解答:(A+B)*C可用以下2条指令完成:V4 A+BV1V0*C流水线流过时间为(1+2+1) + (1+3+1) = 9拍实际吞吐率为2*8*29 (8*21)1000 =26.7MFLOPS504.8分段开采LV MULTVSSVV1V2Ra,Rb ,V1,,V2Fs取向量B向量和标量相乘 存向量三条指令三个编队.(Tstart Tlo

18、op ) mnMVLT200=4x(15+Tstart)+200x3 =660+(4xTstart)Tstart=12+7+12=31T200=660+4x31=784 4.9解:.向量指令序列中浮点运 算次数 时钟频率R nim向量指令序列执行所需的时钟周期数Cray Y-MP/8 的峰值性能为:R = (1+1) X 8/(6x10-3 )= 16 = 2667MFLOPS5.8. 假设有一条长流水线,仅仅对条件转移指令使用分支目标缓冲。假设分支 预测错误的开销为4个时钟周期,缓冲不命中的开销为 3个时钟周期。假设: 命中率为90%,预测精度为90%,分支频率为15%,没有分支的基本 CP

19、I 为1。求程序执行的CPI o相对于采用固定的2个时钟周期延迟的分支处理,哪种方法程序执行速度 更快?解:(1)程序执行的CPI =没有分支的基本CPI (1) +分支带来的额外开销 分支带来的额外开销是指在分支指令中,缓冲命中但预测错误带来的开销 与缓冲没有命中带来的开销之和。分支带来的额外开销=15% * (90%命中X 10%预测错误X 4 + 10%不命中 X 3)= 0.099所以,程序执行的CPI = 1 + 0.099 = 1.099(2)采用固定的2个时钟周期延迟的分支处理 CPI = 1 + 15% X2 = 1.3 由(1) (2)可知分支目标缓冲方法执行速度快。5.9.

20、 假设分支目标缓冲的命中率为 90% ,程序中无条件转移指令的比例为 5% , 没有无条件转移指令的程序 CPI值为1。假设分支目标缓冲中包含分支目标 指令,允许无条件转移指令进入分支目标缓冲,则程序的CPI值为多少?假设原来的CPI=1.1解:设每条无条件转移指令的延迟为 x,则有:1 + 5% Xx=1.100x= 2当分支目标缓冲命中时,无条件转移指令的延迟为所以 程序的 CPI = 1 + 2X5% X(1 90%) =1.017.8 .假设对指令Cache的访问占全部访问的75%;而对数据Cache的访问占全 部访问的25%o Cache的命中时间为1个时钟周期,不命中开销为50个时

21、钟周 期,在混合Cache 中一次 load 或 store 操作访问Cache 的命中时间都要增加一个时钟周期,32KB的指令Cache的不命中率为0.15%, 32KB的数据Cache的 不命中率为3.77%, 64KB的混合Cache的不命中率为0.95%。又假设采用写直 达策略,且有一个写缓冲器,并且忽略写缓冲器引起的等待。试问指令Cache和数据Cache容量均为32KB的分离Cache和容量为64KB的混合Cache相比, 哪种 Cache 的不命中率更低?两种情况下平均访存时间各是多少?解: ( 1)根据题意,约75% 的访存为取指令,25%的访存为数据。因此,分离Cache的总

22、体不命中率为:(75% X 0.15%) + (25% X 3.77%) =1.055%;容量为 64KB 的混合 Cache 的不命中率略低一些,只有0.95%。( 2)平均访存时间公式可以分为指令访问和数据访问两部分:平均访存时间=指令所占的百分比X (读命中时间+读不命中率X不命中 开销)+数据所占的百分比X (数据命中时间+数据不命中率X不命中开销)所以,两种结构的平均访存时间分别为:分离Cache的平均访存时间=75% X (1 + 0.15% X50) +25% X ( 1 + 3.77% X 50)=(75% X 1.075) + ( 25% X 2.885) = 1.5275因

23、为混合Cache读数据的都要增加1个时钟周期所以?M合Cache的平均访存时间=75% X (1 + 0.95% X 50) +25% X ( 1+1 + 0.95% X 50)=(75% X 1.475) + ( 25% X 2.475) = 1.725因此,尽管分离Cache 的实际不命中率比混合Cache 的高,但其平均访存时间反而较低。分离Cache提供了两个端口,消除了结构相关。7.9 假设在3000次访存中,第一级 Cache不命中110次,第二级Cache不命中55次。试问:在这种情况下,该 Cache系统的局部不命中率和全局不命中率各是多少?解:局部不命中率=该级Cache的不

24、命中次数/到达该级Cache的访存次数。局部不命中率L1 = 110/3000 = 0.0367 ,不命中率L2 = 55/110 = 0.50 。全局不命中率L1 = 不命中率L1 = 0.0367 ,全局不命中率 L2 =不命中率L1X不命中率L2 = 0.0367 X 0.50 = 0.0184。7.10 给定以下的假设,试计算直接映象 Cache和两路组相联Cache的平均访问 时间以及CPU的性能。由计算结果能得出什么结论?理想Cache情况下的CPI为2.0,时钟周期为2ns,平均每条指令访存1.2次;两者Cache容量土匀为64KB ,块大小都是32字节;组相联Cache中的多路

25、选择器使CPU的时钟周期增加了 10%;(4)这两种Cache的不命中开销都是80ns;(5)命中时间为1个时钟周期;(6)64KB直接映象Cache的不命中率为1.4%, 64KB两路组相联Cache的不命 中率为1.0解:平均访问时间=命中时间+不命中率X不命中开销平均访问时间1-路=2.0+1.4% *80=3.12ns平均访问时间 2-路=2.0*(1+10%)+1.0% *80=3.0ns两路组相联的平均访问时间比较低CPUtime= (CPU执彳r+存储等待周期)*时钟周期CPU time=IC (CPI执行+总不命中次数/指令总数*不命中开销)*时钟周期=IC (CPI执彳T*时

26、钟周期)+ (每条指令白访存次数*不命中率*不命中开销* 时钟周期)CPU time 1-way=IC(2.0*2+1.2*0.014*80) =5.344ICCPU time 2-way=IC(2.2*2+1.2*0.01*80) = 5.36ICCPU.相对性能比:e 2 y 5.36/5.344=1.003CPUtime 1way直接映象cache的访问速度比两路组相联 cache要快1.04倍,而两路组相联Cache的平均性能比直接映象cache要高1.003倍。因此这里选择两路组相联7.14假设一台计算机具有以下特性:(1) 95%的访存在 Cache中命中;(2) 块大小为两个字,

27、且不命中时整个块被调入;(3) CPU发出访存请求的速率为109字/s;(4) 25%的访存为写访问;(5) 存储器的最大流量为109字/s (包括读和写);(6) 主存每次只能读或写一个字;(7) 在任何时候,Cache中有30%的块被修改过;(8) 写不命中时,Cache采用按写分配法。现欲给该计算机增添一台外设,为此首先想知道主存的频带已用了多少 试对于以下两种情况计算主存频带的平均使用比例。(1) 写直达Cache;(2) 写回法Cacheo解:采用按写分配(1)写直达cache访问命中,有两种情况:读命中,不访问主存;写命中,更新cache和主存,访问主存一次。访问不命中,有两种情况

28、:读不命中,将主存中的块调入 cache中,访问主存两次;写不命中,将要写的块调入 cache,访问主存两次,再将修改的 数据写入cache和主存,访问主存一次,共三次。上述分析如下表所示。访问命中访问类 型频率访存次 数Y读95%*75%=71.3%0Y写95%*25%=23.8%1N读5%*75%=3.8%2N写5%*25%=1.3%3一次访存请求最后真正的平均访存次数二(71.3%*0)+(23.8%*1)+(3.8%*2)+(1.3%*3)=0.35已用带宽=35.0%(2)写回法cache访问命中,有两种情况:读命中,不访问主存;写命中,不访问主存。采用写回法,只有当修改的cache

29、块被换出时,才写入主存;访问不命中,有一个块将被换出,这也有两种情况:如果被替换的块没有修改过,将主存中的块调入cache块中,访问主存 两次;如果被替换的块修改过,则首先将修改的块写入主存,需要访问主存两 次;然后将主存中的块调入 cache块中,需要访问主存两次,共四次访问主 存。访问命中块为脏频率访存次 数YN95%*70%=66.5%0YY95%*30%=28.5%0NN5%*70%=3.5%2NY5%*30%=1.5%4所以:一次访存请求最后真正的平均访存次数 =66.5% *0 + 28.5%*0+3.5%*2+1.5%*4=0.13已用带宽=13%9.2由 Cube3(X3X2X

30、iX0)= X3X2X1X0Cube3(0110)=1110 即处理器14连接到处理器6 令 Cube3(X3X2XiX0)=0110 X3X2XiX0=1110 Cube3(0110)=1110 即处理器14连接到处理器6 所以处理器14和6双向互连 (2)由(3)( X3X2X1 X0)=X3XiX0X2(0110)= (0101)即处理器5连接到处理器6令 (X3X2X1X0)= (0110)彳4X3X2X1X0=0011所以处理器5和6连,3和5连(3)由(X3X2X1X0)=X0X2X1X3(0110) = (0110)即处理器6连接到处理器6所以处理器6和6双向互连(4)由 (X3

31、X2X1X0)=X2X3X1X0(0110)= (1010)即处理器10连接到处理器6 令(X3X2XX0)= (0110)彳4X3X2X1X0=1010所以处理器6和10双向互连9.9(a)由 Cube2(X4X3X2X1X0)= X3X3X2X1X0Cube2(12)= Cube2(01100)=01000 即处理器 8 连接到处理器 12(b)由(X4X3X2X1X0)=X3X2X1X0X4(8)(01000)(10000) 即处理器16连接到处理器(C)由 PM 2I 3(j 尸j 23 mod 32PM 2I 3(28)=28 23 mod 32 4 即处理器4连接到处理器28(d)

32、Cube0( (X4X3X2X1X0) Cube0(X3X2XiX0X4)=X3X2XiX°X4Cube0( (4) Cube0( (00100)=01001 即处理器 9 连接到处理器 8(e)(Cube0(X4X3X2X1X。)(X,XsXzXiXXsXzXiX4(Cube0( 18)(Cube。(10010) 00111 即处理器 7 连接到处理器 282n个节点的直径为2n-1,从5号到7号,最短经过6步00101 00100 01000 01001 10010 10011 00111(3)循环移数网络的节点度d=2n-1,直径为n/2网络直径是3,节点度是9,与2号最远的是

33、13,15,21,23号处理器9.110123456789ABCDEF4组4元32107654BA98FEDC2组8元45670123CDEF89AB1组16元BA98FEDC321076540000 -1011Cube0+ Cube1+ Cube310.6. 一台32个处理器的计算机,对远程存储器访问时间为400ns。除了通信以外,假设计算中的访问均命中局部存储器。当发出一个远程请求时,本处理器挂起。处理器时钟时间为 1GHz,如果指令基本的IPC为2(设所有访 存均命中Cache),求在没有远程访问的状态下与有 0.2%的指令需要远程访 问的状态下,前者比后者快多少?解:没有远程访问时,机

34、器的 CPI为1/基本IPC=1/2=0.5有0.2%远程访问的机器的实际CPI为CPI =基本CPI +远程访问率X远程访问开销= 0.5+0.2% X远程访问开销远程访问开销为:远程访问时间/时钟周期时间=400 ns/1 ns= 400个时钟周期CPI =0.5+0.2%X400= 1.3因此在没有远程访问的情况下的计算机速度是有0.2%远程访问的计算机速度的 1.3/0.5=2.6 倍。7.11 在伪相联中,假设在直接映象位置没有发现匹配,而在另一个位置才找到数据(伪命中)时,不对这两个位置的数据进行交换。这时只需要 1个额外的 周期。假设不命中开销为50个时钟周期,2KB直接映象Ca

35、che的不命中率为 9.8%, 2路组相联的不命中率为 7.6%; 128KB直接映象Cache的不命中率为 1.0%, 2路组相联的不命中率为0.7%。(1) 推导出平均访存时间的公式。(2) 禾I用(1)中得到的公式,对于 2KBCache和128KBCache,计算伪相联的平均访存时间。解:不管作了何种改进,不命中开销相同。不管是否交换内容,在同一 “伪相联” 组中的两块都是用同一个索引得到的,因此不命中率相同,即:不命中率 伪相联= 不命中率2路。伪相联cache的命中时间等于直接映象cache的命中时间加上伪相联查找过 程中的命中时间*该命中所需的额外开销。命中时间伪相联=命中时间1

36、路+伪命中率伪相联X1交换或不交换内容,伪相联的命中率都是由于在第一次不命中时,将地址取反,再在第二次查找带来的。因此 伪命中率伪相联=命中率2路一命中率1路=(1不命中率2路)(1 不 命中率1路)=不命中率1路一不命中率2路。交换内容需要增加伪相联 的额外开销。平均访存时间伪相联=命中时间1路+ (不命中率1路一不命中率2路)X 1 十不命中率2路X不命中开销1路将题设中的数据带入计算,得到:平均访存时间 2Kb=1+(0.098-0.076)*1+(0.076 *50 ) =4.822平均访存时间 128Kb=1+(0.010-0.007)*1+(0.007 *50 ) =1.353 显然是128KB的伪相联Cache要快一些。7.12 假设采用理想存储器系统时的基本CPI是1.5,主存延迟是40个时钟周期;传输速率为4字节/时钟周期,且Cache中50%的块是修改过的。每个块中有32 字节,20%的指令是数据传送指令。并假设没有写缓存,在 TLB不命中的情况 下需要20时钟周期,TLB不会降低Cache命中率。CPU产生指令地址或Cache 不命中时产生的地址有0.2%没有在TLB中找到。(1)

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论