计算机系统结构教程课后答案_第1页
计算机系统结构教程课后答案_第2页
计算机系统结构教程课后答案_第3页
计算机系统结构教程课后答案_第4页
已阅读5页,还剩39页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、1.7某台主频为 400MHz 的计算机执行标准测试程序,程序中指令类型、执行数量和平均时钟周期数如下:指令类型指令执行数量平均时钟周期数整数450001数据传送750002浮点80004分支15002求该计算机的有效 CPI 、MIPS 和程序执行时间解:nCPI 八 (CPI j IC j/IC)i 4(1) CPI = (45000 X 1 + 75000 X 2+ 8000 X 4+ 1500 X 2) / 129500= 1.776(2) MIPS 速率 =f/ CPI = 400/1.776 = 225.225MIPS(3) 程序执行时间 =(45000 X 1 + 75000 X

2、 2 + 8000 X 4+ 1500 X 2)/400=575s1.9 将计算机系统中某一功能的处理速度加快10 倍,但该功能的处理时间仅为整个系统运行时间的40% ,则采用此增强功能方法后,能使整个系统的性能提少?解:由题可知:可改进比例 Fe=40% = 0.4部件加速比 Se = 10高多S n = -1.5625根据 _Fe 吏( 1- °.4).°4/ °1.10 计算机系统中有三个部件可以改进,这三个部件的部件加速比为:部件加速比仁 30;部件加速比 2=20 ;部件加速比 3=10(1) 如果部件 1 和部件 2 的可改进比例均为 30% ,那么当

3、部件 3 的可改进比 例为多少时,系统加速比才可以达到 10?(2) 如果三个部件的可改进比例分别为 30% 、 30% 和 20% ,三个部件同时改进,那么系统中不可加速部分的执行时间在总执行时间中占的比例是多少?解: ( 1) 在多个部件可改进情况下, Amdahl 定理的扩展:TnFe1 Fe2 Fe3 sei1 - Fe1 - Fe2 - Fe3se2 se3已知 S1 = 30,S2= 20,S3 =10,Sn= 10,F1 = 0.3 ,F2 = 0.3,得:得 F3 = 0.36,即部件 3 的可改进比例为 36%。( 2) 设系统改进前的执行时间为T, 则 3 个部件改进前的执

4、行时间为:(0.3+0.3+0.2 )T = 0.8T ,不可改进部分的执行时间为1 - Fe1 - Fe2 - Fe3=0.2T叮叮小文库已知 3 个部件改进后的加速比分别为 S1 = 30, S2= 20, S3= 10, 因此 3 个部件 改进后的执行时间为:Fe1 F e2 F e3改进后整个系统的执行时间为:Tn = 1_Fe1-Fe2 Fe3 ,竺 ?竺,竺7 Sei se2 se3=0.045T+0.2T = 0.245T那么系统中不可改进部分的执行时间在总执行时间中占的比例是:0.2/0.245=81.6%1.11 假设浮点数指 -FP 指令的比例为 30% ,其中浮点数平方根

5、 FPSQR 占全部令 指 令 的 比 例 为 FP 操作的 CPI 为 5, FPSQR 操作的 CPI 为 20, 其他指令4% ,的平均 CPI 为。1.25 解:nCPI 八 (CPI j IC j/IC)i 4改进前:CPI = 5 X 30% + 1.25 X (1 - 30%) = 2.375设除 FPSQR 外其余指令的平均CPI 为 X则 2.375 = 20 X 4% + (1 - 4%)X ,解出 X = 1.640625万案 1:CPI1 = 3X 4% + 1.640625 X (1 - 4%) = 1.695万案CPI2 = 3X 30% + 1.25 X (1 -

6、 30%) = 1.7752.11解:11010.570.35100.22100.09100.0410.020.13100010.010.010.020.050.060.070.130.222叮叮小文库043SHRSTPCILSTOJOMJMPSUBCLAADD欢迎有需要的朋友下载!!3指令频度 Pi操作码使用哈夫曼编码操作码长度l iADD0.4301CLA0.221 02SUB0.131 1 03JMP0.07111005JOM0.06111015STO0.05111105CIL0.021111106SHR0.0111111107STP0.01111111179L= ' 耐=0.4

7、3x1+0.22x2+0.13x3+0.07x5+0.06x5+0.05x5+0.02x6+0.01x7+0.01x7i 4=2.422.12 .解:二地址指令的结构是(4 位操作码 0P), ( 6 位地址码 A1), ( 6 位地址码A2 )。一地址指令的结构是(10 位操作码 0P), (6 位地址码 A)。二地址指令,最多共16条二地址指令。每少一条二地址指令,则多 26 条一地址指令,所以一地址指令最多有(16-A ) *26 条3.5 在一台单流水线多操作部件的处理机上执行下面的程序,每条指令的取指令、指令译码需要一个时钟周期, MOVE 、ADD 和 MUL 操作分别需要 2 个

8、、 3 个 和 4 个时钟周期,每个操作都在第一个时钟周期从通用寄存器中读操作数,在最后一个时钟周期把运算结果写到通用寄存器中。k:MOVER1 ,R0;R1J(R0)k+1: MULR0,R2,R1;R0 J(R2)X (R1)k+2: ADDR0,R2, R3;R0J(R2)+(R3)画出指令执行过程的流水线时空图,并计算完成这3 条指令共需要多少个时钟周期?解:在程序实际执行过程中,二种数据相关会引起流水线停顿。一是“先写后读”相关, k 指令对 R1 的写在程序执行开始后的第四个时钟;k+1 指令对 R1 的读 对指令本身是第三个时钟,但k+1 指令比 k 指令晚一个时钟进入流水线,则

9、在程序执行开始后的第四个时钟要读R1。不能在同一时钟周期内读写同一寄存器,欢迎有需要的朋友下载!4叮叮小文库因此 k+1 指令应推迟一个时钟进入流水线,产生了流水线停顿。二是“写一写”相关,k+1 指令对 R0 的写对指令本身是第六个时钟,而要求该指令进入流水线应在程序执行开始后的第三个时钟,所以对 R0 的写是在程序执行开始后的第八 个时钟。 k+2 指令对 R0 的写对指令本身是第五个时钟, 而 k+2 指令比 k+1 指令 晚一个时钟进入流水线,贝恠程序执行开始后的第四个时钟,所以对R0 的写是在程序执行开始后的第八个时钟。 不能在同一时钟周期内写写同一寄存器, 因 此 k+2 指令应推

10、迟一个时钟进入流水线, 产生了流水线停顿。另外,可分析“先 读后写”相关不会产生流水线的停顿。该指令流水线由六个功能段取指、译码、取数、运一、运二和存数等组成,则程序指令执行过程的流水线时空图如下图所示。若3 条指令顺序流动,共需3.6 有一指令流水线如下所示出50ns 50ns100ns200ns(1) 求连续输入 10 条指令,该流水线的实际吞吐率和效率;(2)该流水线的 瓶颈”在哪一段?请采取两种不同的措施消除此瓶颈”。对于你所给出的两种新的流水线,连续输入10 条指令时,其实际吞吐率和效率各是多少?解:(1)kTk 二'ti (n T) t maxi =(50 50 100 2

11、00) 9 200二 2200(ns)TP=%=煜。*)欢迎有需要的朋友下载!5叮叮小文库n 'tii =1kk G 也 L + (n- 1) max? t/ t 2lltQ-i =1- m、 tii 1 i400545.45%=TP q TP411k(2) 瓶颈在 3、4段。 变成八级流水线 ( 细分 )3_2 4_1_?4_4 _50ns50 ns50ns50ns50ns50 nskTk = 'ti (n - 1) t maxi T=508950二 850(ns)TP(ns 5 )m' 二 ti400 10yE二 TP=TP858.82%m17重复设置部件欢迎有需要

12、的朋友下载!6叮叮小文库TPTkns')E/ °°1°850 8 / 17?° 82%3.7 有一个流水线由4 段组成,其中每当流经第 3段时,总要在该段循环一次,然后才能流到第 4 段。如果每段经过一次所需要的时间都是4,问:(1) 当在流水线的输入端连续地每t 时间输入任务时,该流水线会发生什么情况?(2) 此流水线的最大吞吐率为多少?如果每2 t 输入一个任务,连续处理10 个任务时的实际吞吐率和效率是多少?(3) 当每段时间不变时,如何提高该流水线的吞吐率?仍连续处理10 个任务时,其吞吐率提高多少?解:(1)会发生流水线阻塞情况。第1个

13、任S2S3S3S4S1务第2个任S1S2stallS3S3S4务第3个任S1S2stallstallS3S3S4务第4个任S1S2stallstallstallS3 S3S4务(2)时间欢迎有需要的朋友下载!23 > t 6叮叮小文库=23. tTpipeline:E 二 TP 5 * =5 92,54°.35%Tpipeiine(3) 重复设置部件段噫4123456789103 2224466t8810103 111335 ? 5779922412345678910112t45t783_210时间369t14.'tTP = “丁険咲 "t5' 止吞吐

14、率提高倍数二亠 = 1.64%3.8 有一条静态多功能流水线由 5 段组成,加法用 1、3、4、5 段,乘法用 1、2、 5 段,第 3 段的时间为 2t,其余各段的时间均 t,而且流水线的输出可以 直接返回输入端或暂存于相应的流水寄存器中。现要在该流水线上计 算|4(A - Bi) ,画出其时空图,并计算其吞吐率、加速比和效率。i =1欢迎有需要的朋友下载!8叮叮小文库解:首先,应选择适合于流水线工作的算法。对于本题,应先计算Ai + B i 、 A2+ B 2> A3 + B 3 和 A4 + B 4;再计算 (A i + B i ) X (A 2+ B 2)和(A 3 + B3)

15、X (A 4+ B4); 然后求总的结果。其次,画出完成该计算的时空图,如图所示,图中阴影部分表示该段在工ABCDAXBCXDAXBXCXD由图可见,它在18 个岀时间中,给出了7 个结果。所以吞吐率为 :7TP18:S V6118. t如果不用流水线,由于一次求积需 3 岀,一次求和需 5 岀,则产生上述 7 个 结果共需 ( 4X5+3X3 ) =29At 。所以加速比为:3.8 有一条动态多功能流水线由 5 段组成,加法用 1、3、4、5 段,乘法用 1、2、5段,第 2 段的时间为 2At ,其余各段时间均为 岀,而且流水线的输出可以直接返 回该流水线的效率可由阴影区的面积和5 个段总

16、时空区的面积的比值求得:4533= 0.3225 18输入端或暂存于相应的流水寄存器中。若在该流水线上计算:4送 (A9)i m21欢迎有需要的朋友下载 B2 ! B3 B4B C+D9叮叮小文库试计算其吞吐率、加速比和效率。DA+BC+DA+B543输01234567891011 12 1314 1516 1718入A1A2 A 3A * ACA+ B21欢迎有需要的朋友下载 B2 ! B3 B4B C+D10叮叮小文库由图可见,它在 18 个岀时间中,给出了7 个结果。所以吞吐率为 :TP =18 :t如果不用流水线,由于一次求积需4 岀,一次求和需4 岀,则产生上述7 个 结果共需( 4

17、M+3X4 ) =28 岀。所以加速比为:S28:t-1.5618: t该流水线的效率可由阴影区的面积和5 个段总时空区的面积的比值求得 :E 280.3115 184.5 在 CRAY-1 机器上,按照链接方式执行下述4 条向量指令(括号中给出了相应功能部件的执行时间),如果向量寄存器和功能部件之间的数据传送需要1 拍, 试求此链接流水线的通过时间是多少拍?如果向量长度为64, 则需多少拍才能得到全部结果?V 叶 存储器(从存储器中取数:7 拍)V2 V0+V1 (向量加: 3 拍)V3 V2VA3 (按( A3 )左移: 4 拍)Vk V3 A V4 (向量逻辑乘: 2 拍)解:通过时间就

18、是每条向量指令的第一个操作数执行完毕需要的时间,也就是各功能流水线由空到满的时间,在流水线充满之后,向量中后继操作数继续以 流水方式执行,直到整组向量执行完毕。11叮叮小文库T 通过 =( 1+7+1 ) +(1+3+1)+(1+4+1)+(1+2+1)=24(拍)T 总共=T 通过 +(64-1)=24+63= 87 拍4.6T 通过 =( 1+7+1 ) +(1+3+1)+(1+5+1)+(1+2+1)+(1+7+1)=34(拍)T 总共=T 通过 +(64-1)=63+34= 97 拍4.7某机有 16 个向量寄存器,其中V0? V5 中分别放有向量A、B、C、D、E、F, 向量长度均为

19、 8, 向量各元素均为浮点数;处理部件采用二个单功能流水线,加法功能部件时间为 2 拍,乘法功能部件时间为 3 拍。用类似 Cray 1 的链接技术, 先计算(A+B)*C, 在流水线不停流的情况下,接着计算 ( D+E)*F 。解答:(1) (A+B)*C 可用以下 2 条指令完成 : V叶 A+BV1J V0*C流水线流过时间为 (1+2+1) + (1+3+1) = 9拍 实际吞吐率为一 x1000 =26.7MFLOPS9+ (8*2 -1)504.8分段开采LVV1,Rb取向量 BMULTVSV2,VI,Fs向量和标量相乘SVRa,V2存向量三条指令三个编队T册良仃如十op )+mn

20、 MVLT200=4x(15+Tstart)+200x3=660+(4xTstart)欢迎有需要的朋友下载!12叮叮小文库Tstart=12+7+12=31T200=660+4x31=7844.9解:向量指令序列中浮点运算次数时钟频率向limn量指令序列执行所需的时钟周期数:3Cray Y-MP/8的峰值性能为:R= (1+1) x 8/(6x10 - )= 16 = 2667MFLOPS5.8 假设有一条长流水线,仅仅对条件转移指令使用分支目标缓冲。假设分支预测错误的开销为 4 个时钟周期,缓冲不命中的开销为3 个时钟周期。假设:命中率为 90% ,预测精度为 90% ,分支频率为 15%

21、,没有分支的基本CPI 为 1。 求程序执行的 CPI 。 相对于采用固定的2 个时钟周期延迟的分支处理,哪种方法程序执行速度更快?解: ( 1) 程序执行的 CPI = 没有分支的基本CPI ( 1)+分支带来的额外开销分支带来的额外开销是指在分支指令中,缓冲命中但预测错误带来的开销与缓冲没有命中带来的开销之和。分支带来的额外开销 =15% * (90% 命中 X 10% 预测错误 X 4 + 10 %不命中X 3)=0.099所以,程序执行的CPI = 1 + 0.099 = 1.099( 2) 采用固定的 2 个时钟周期延迟的分支处理CPI = 1 + 15% X 2 = 1.3 由(

22、1)( 2) 可知分支目标缓冲方法执行速度快。5.9. 假设分支目标缓冲的命中率为90% ,程序中无条件转移指令的比例为5% , 没有无条件转移指令的程序CPI 值为 1。假设分支目标缓冲中包含分支目标指令,允许无条件转移指令进入分支目标缓冲,则程序的CPI 值为多少?假设原来的 CPI=1.1参考答案:解:设每条无条件转移指令的延迟为x, 则有:1 + 5% X x= 1.1x= 2当分支目标缓冲命中时,无条件转移指令的延迟为0。所以程序的CPI = 1 + 2 X 5% X (1 90%) = 1.01欢迎有需要的朋友下载!13叮叮小文库7.8. 假设对指令 Cache 的访问占全部访问的

23、 75% ; 而对数据 Cache 的访问占全 部访问的 25%。Cache 的命中时间为 1 个时钟周期,不命中开销为 50 个时钟周 期,在混合 Cache 中一次 load 或 store 操作访问 Cache 的命中时间都要增加一 个时钟周期, 32KB 的指令 Cache 的不命中率为 0.15% ,32KB 的数据 Cache 的 不命中率为3.77% ,64KB 的混合 Cache 的不命中率为 0.95% 。又假设采用写直达策略,且有一个写缓冲器,并且忽略写缓冲器引起的等待。试问指令Cache和数据 Cache 容量均为 32KB 的分离 Cache 和容量为 64KB 的混合

24、 Cache 相比,哪种 Cache 的不命中率更低?两种情况下平均访存时间各是多少?参考答案:解: ( 1) 根据题意,约 75% 的访存为取指令, 25% 的访存为数据。因此,分离 Cache 的总体不命中率为: ( 75% X 0.15% ) + (25% X 3.77% )=1.055% ;容量为 64KB 的混合 Cache 的不命中率略低一些,只有0.95% 。( 2) 平均访存时间公式可以分为指令访问和数据访问两部分:平均访存时间 =指令所占的百分比X( 读命中时间 +读不命中率 X 不命中开销 )+ 数据所占的百分比 X( 数据命中时间 +数据不命中率 X 不命中开销 ) 所以

25、,两种结构的平均访存时间分别为:分离 Cache 的平均访存时间 =75% X( 1 + 0.15% X 50) + 25% X( 1 + 3.77% X 50 )=(75% X 1.075 ) + ( 25% X 2.885 )= 1.5275因为混合 Cache 读数据的都要增加1 个时钟周期所以混合 Cache 的平均访存时间 =75% X( 1 + 0.95% X 50) + 25% X( 1+ 1 + 0.95% X 50)=(75% X 1.475 ) + ( 25% X 2.475 )= 1.725因此,尽管分离 Cache 的实际不命中率比混合 Cache 的高,但其平均访存

26、时间反而较低。分离 Cache 提供了两个端口,消除了结构相关。7.9 假设在 3000 次访存中,第一级Cache 不命中 110 次,第二级 Cache 不命中55 次。试问:在这种情况下,该Cache 系统的局部不命中率和全局不命中率各是多少 ?解:局部不命中率 =该级 Cache 的不命中次数 /到达该级 Cache 的访存次局部不命中率L1= =110/3000=0.0367 ,不命中率 L2 = 55/110=0.50全局不命中率L1=L1= 0.0367 ,= =不命中率X 0.50全局不命中率L2= =不命中率L1X 不命中率 L2 = 0.0367=0.0187.10 给定以

27、下的假设,试计算直接映象=4Cache 和两路组相联 Cache 的平均访问 时间以及 CPU 的性能。由计算结果能得出什么结论?理想 Cache 情况下的 CPI 为 2.0 ,时钟周期为 2ns, 平均每条指令访存1.2 次; 两者 Cache 容量均为 64KB ,块大小都是32 字节;(3) 组相联 Cache 中的多路选择器使 CPU 的时钟周期增加了10%;欢迎有需要的朋友下载!14叮叮小文库(4) 这两种 Cache 的不命中开销都是 80ns ;(5) 命中时间为 1 个时钟周期;(6) 64KB 直接映象 Cache 的不命中率为 1.4 %, 64KB 两路组相联 Cach

28、e 的不命 中率为 1.0%。解:平均访问时间二命中时间 +不命中率 x 不命中开销平均访问时间 1-路 =2.0+1.4% *80=3.12ns平均访问时间 2-路=2.0*(1+10%)+1.0% *80=3.0ns两路组相联的平均访问时间比较低CPU time = ( CPU 执行 +存储等待周期 ) *时钟周期CPU time =IC ( CPI 执行 +总不命中次数 /指令总数 *不命中开销 ) *时钟周期=IC (CPI 执行 *时钟周期 ) +( 每条指令的访存次数 *不命中率 *不命中开销 * 时钟周期)CPUtime 1-way=IC(2.0*2+1.2*0.014*80)=

29、 5.344ICCPUtime 2-way=IC(2.2*2+1.2*0.01*80)= 5.36ICCPU相对性能比:-tme ,way =5.36/5.344=1.003CPUtime Jway直接映象 cache 的访问速度比两路组相联cache 要快 1.04 倍,而两路组相联Cache 的平均性能比直接映象cache 要高 1.003 倍。因此这里选择两路组相联7.14 假设一台计算机具有以下特性:(1) 95%的访存在 Cache 中命中;(2) 块大小为两个字,且不命中时整个块被调入;(3) CPU 发出访存请求的速率为 109 字/s ;(4) 25%的访存为写访问;(5) 存

30、储器的最大流量为 10 9 字/s ( 包括读和写 ) ;(6) 主存每次只能读或写一个字;(7) 在任何时候, Cache 中有 30%的块被修改过;(8) 写不命中时, Cache 采用按写分配法。现欲给该计算机增添一台外设,为此首先想知道主存的频带已用了多少试对于以下两种情况计算主存频带的平均使用比例。1)写直达 Cache ;2)写回法 Cache 。解:采用按写分配1) 写直达 cache 访问命中,有两种情况:读命中,不访问主存;写命中,更新 cache 和主存,访问主存一次。 访问不命中,有两种情况:读不命中,将主存中的块调入cache 中,访问主存两次;写不命中,将要写的块调入

31、 cache 访问主存两次,再将修改的 数据写入 cache 和主存,访问主存一次,共三次。上述分析如下表所欢迎有需要的朋友下载!15叮叮小文库示。访问命中访问类型频率访存次 数Y读95%*75%=71.3%0Y写95%*25%=23.8%1N读5%*75%=3.8%2N写5%*25%=1.3%3一次访存请求最后真正的平均访存次数=(71.3%*0)+(23.8%*1)+(3.8%*2)+(1.3%*3)= 0.35已用带宽 =35.0%( 2) 写回法 cache 访问命中 ,有两种情况:读命中,不访问主存;写命中,不访问主存。采用写回法,只有当修改的 cache 块被换 出时,才写入主存;

32、访问不命中 ,有一个块将被换出,这也有两种情况:如果被替换的块没有修改过,将主存中的块调入cache 块中,访问主存两次;如果被替换的块修改过,则首先将修改的块写入主存,需要访问主存两次;然后将主存中的块调入cache 块中,需要访问主存两次,共四次访问主存。访问命中块为脏频率访存次 数YN95%*70%=66.5%0YY95%*30%=28.5%0NN5%*70%=3.5%2NY5%*30%=1.5%4所以 :一次访存请求最后真正的平均访存次数=66.5 % *0 + 28.5%*0+3.5%*2+1.5%*4=0.13已用带宽 =13%9.2 (1) 由 Cube 3( X3X2XiXo)

33、= X 3X2X1X0欢迎有需要的朋友下载!16叮叮小文库Cube 3( 0110)=1110 即处理器 14 连接到处理器 6 令 Cube 3( X3X2XiXo)=0110 , 得 X3X2Xi Xo =1110Cube 3( 0110)=1110 即处理器 14 连接到处理器 6 所以处理器 14 和 6 双向互连; ( 3) (X 3X2Xi Xo)=X 3XiXoX 2; ( 3)(0110) = ( 0101 ) 即处理器 5 连接到处理器 6 令匚 (X3X 2 X1X0 ) =( 0110 ) 得 X3X2X1 Xo =0011所以处理器 5和6连,3和 5连(X3 X2Xi

34、Xo )=X o X2XiX3 (0110) =( 0110 ) 即处理器 6 连接到处理器 6所以处理器 6 和 6 双向互连 由 (2)321°231X(XXXX )=XXX( )2(0110) =(1010 ) 即处理器 10 连接到处理器 6令( 2 )(X3X 2X1X0) =(0110 ) 得 X3X2X1X0=1010所以处理器 6 和 10 双向互连9.9(1)(a)由 Cube 2( X4X3X2X1X0) = X3 X3X2X1X0Cube 2( 12)= Cube 2( 01100)=01000 即处理器8 连接到处理器12(b) 由; ( X4 X3X2X1

35、X0)=X3 X2X1X0 X4二(8) =; ( 01000) =(10000)即处理器 16 连接到处理器(C)由 PM 21 3(j)=j23 mod32欢迎有需要的朋友下载!17叮叮小文库PM 21 3(28)=28 ? 23 mod32=4 即处理器 4 连接到处理器28(d) Cubq ( 匚(X4 X3X2X/0) =Cube 0(X3 X2X1X0X4)=X 3X2X1X0X4Cube 。( 二)=Cube 0 ( 二(00100)=01001即处理器 9 连接到处理器8(e) ; ( Cub ( X4X3 X2 X1X0) K以 4 乂 3 乂 2 乂 1 层)= 乂 3 乂

36、 2 乂 1 乂灭 4二(Cube °(18) = ;: ,Cube0 (10010) =00111即处理器7 连接到处理器28(2)2 n 个节点的直径为2n-1 ,从 5 号到 7 号,最短经过 6 步00101 00100 01000 01001 10010 10011 00111循环移数网络的节点度d=2n-1, 直径为 n/2网络直径是 3, 节点度是 9, 与 2 号最远的是 13,15,21,23 号处理器9.110123456789ABCDEF4组4元32107654BA98FEDC2组8元45670123CDEF89AB1组16元B A98 FEDC32107654

37、0000 -1011Cube0+ Cube1+ Cube310.6. 一台 32 个处理器的计算机,对远程存储器访问时间为400ns 除了通信以夕卜,假设计算中的访问均命中局部存储器。当发出一个远程请求时,本处理器挂起。处理器时钟时间为 1GHz ,如果指令基本的 IPC 为 2(设所有访 存均命中 Cache ),求在没有远程访问的状态下与有 0.2% 的指令需要远程访 问的状态下,前者比后者快多少 ?解:没有远程访问时,机器的 CPI 为 1/基本 IPC=1/2=0.5 有 0.2% 远程访问的机器的实际 CPI 为CPI 二基本 CPI +远程访问率 x 远程访问开销欢迎有需要的朋友下

38、载!18叮叮小文库=0.5+ 0.2% X 远程访问开销远程访问开销为:远程访问时间 /时钟周期时间 =400 ns/1 ns= 400个时钟周期? CPI= 0.5+ 0.2% X 400 = 1.3因此在没有远程访问的情况下的计算机速度是有0.2% 远程访问的计算机速度的 1.3/0.5=2.6 倍。欢迎有需要的朋友下载!19叮叮小文库7.11 在伪相联中,假设在直接映象位置没有发现匹配,而在另一个位置才找到数据(伪命中)时,不对这两个位置的数据进行交换。这时只需要1 个额外的周期。假设不命中开销为50 个时钟周期, 2KB 直接映象 Cache 的不命中率为9.8% ,2 路组相联的不命

39、中率为7.6% ; 128KB 直接映象 Cache 的不命中率为1.0% ,2 路组相联的不命中率为 0.7% 。( 1) 推导出平均访存时间的公式。( 2) 利用( 1)中得到的公式,对于 2KBCache 和 128KBCache , 计算伪 相联的平均访存时间。解:不管作了何种改进,不命中开销相同。不管是否交换内容,在同一“伪相联” 组中的两块都是用同一个索引得到的,因此不命中率相同,即:不命中率伪相联二不命中率 2 路。伪相联 cache 的命中时间等于直接映象 cache 的命中时间加上伪相联查找过程中的命中时间 *该命中所需的额外开销。命中时间 伪相联 =命中时间 1 路 +伪命中率 伪相联 x 1交换或不交换内容,伪相联的命中率都是由于在第一次不命中时,将地址取反,再在

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论