版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1.7
某台主频为400MHz的计算机执行标准测试程序,程序中指令类型、执行数量
和平均时钟周期数如下:
指令类型指令执行数量平均时钟周期数
整数450001
数据传送750002
浮点80004
分支15002
求该计算机的有效CPkMIPS和程序执行时间解:
n
CPI八《piIC/IC)
(1)CPI=(45000X1+75000X2+8000X4+1500X2)1129500=1.776
(2)MIPS速率=f/CPI=400/1.776=225.225MIPS
(3)程序执行时间=(45000X1+75000X2+8000X4+1
500X2)/400=575s
1.9将计算机系统中某一功能的处理速度加快10倍,但该功能的处理时间仅为
整个系统运行时间的40%,则采用此增强功能方法后,能使整个系统的性能提高多
少?
解:由题可知:可改进比例Fe=40%=0.4部件加速比Se=10
Sn=J=--------1.5625
根据r—_Fe吏(1-。.4)°.4/-0
Se
1.10计算机系统中有三个部件可以改进,这三个部件的部件加速比为:
部件加速比仁30;部件加速比2:20;部件加速比3:10
(1)如果部件1和部件2的可改进比例均为30%,那么当部件3的可改进比例
为多少时,系统加速比才可以达到10?
(2)如果三个部件的可改进比例分别为30%、30%和20%,三个部件同时改
进,那么系统中不可加速部分的执行时间在总执行时间中占的比例是多少?
解:(1)在多个部件可改进情况下,Amdahl定理的扩展:
"1-Fei-Fe2-Fe3FeiFe2Fe3sei
se2se3
已矢口S1=30,S2=20,S3=10,Sn=10,F1=0.3,F2=0.3,得:
得F3=0.36,即部件3的可改进比例为36%
(2)设系统改进前的执行时间为T,则3个部件改进前的执行时间为:
(0.3+0.3+0.2)T=0.8T,不可改进部分的执行时间为1-Fei-Fe2-Fe3=0.2T
叮叮小文库
已知3个部件改进后的加速比分别为S1=30,S2:20,S3=10,因此3个部件改
进后的执行时间为:
FeiFe2Fe3
改进后整个系统的执行时间为:Tn=l_Fel-Fe2—Fe3,竺•竺,竺
7Seise2se3
=0.045T+0.2T=0.245T
那么系统中不可改进部分的执行时间在总执行时间中占的比例是:
0.2/0.245=81.6%
1.11假设浮点数指・FP指令的比例为30%,其中浮点数平方根FPSQR占全部
令指令的比例为FP操作的CPI为5,FPSQR操作的CPI为20,其他指令
4%,的平均CPI为。
1.25解:
CPIA<CPflC/IC)
i4
改进前:CPI=5X30%+1.25X(1-30%)=2.375
设除FPSQR外其余指令的平均CPI为X
贝IJ2.375=20X4%+(1-4%)X,解出X=1.640625
万案1:CPI1=3X4%+1.640625X(1-4%)=1.695
万案CPI2=3X30%+1.25X(1-30%)=1.775
2.11
解:
叮叮小文库
043
SHRSTPOLSTOJOMJMPSUBCLAADD
次迎有需要的朋友下载!
3
澡作码长度
指令■Pi操作码使用哈夫蛀编码
I.
ADD0.4301
CLA0.22102
SUB0.131103
JMP0.07111005
JOM0.06111015
STO0.05111105
CIL0.021111106
SHR0.0111111107
STP0.0111111117
9
L='耐=0.43x1+0.22x2+0.13x3+0.07x5+0.06x5+0.05x5+0.02x6+0.01x7+0.01x7
2.12.
解:
二地址指令的结构是(4位操作码0P),(6位地址码A1),(6位地址码
A2)o
一地址指令的结构是(10位操作码0P),(6位地址码A)o
二地址指令,最多共16条二地址指令。
每少一条二地址指令,则多26条一地址指令,
所以一地址指令最多有(16・A)*26条
3.5在一台单流水线多操作部件的处理机上执行下面的程序,每条指令的取指令、
指令译码需要一个时钟周期,MOVE、ADD和MUL操作分别需要2个、3个和4个时
钟周期,每个操作都在第一个时钟周期从通用寄存器中读操作数,在最后一个时钟周期
把运算结果写到通用寄存器中。
k:MOVER1,R0;R1J(RO)
k+1:MULRO,R2,R1;R0J(R2)X(R1)
k+2:ADDR0,R2,R3;ROJ(R2)+(R3)
画出指令执行过程的流水线时空图,并计算完成这3条指令共需要多少个
时钟周期?
解:
在程序实际执行过程中,二种数据相关会引起流水线停顿。一是“先写后读”相关,
k指令对R1的写在程序执行开始后的第四个时钟;k+1指令对R1的读对指令本身
是第三个时钟,但k+1指令比k指令晚一个时钟进入流水线,则在程序执行开始后的第
四个时钟要读R1o不能在同一时钟周期内读写同一寄存器,
欢迎有需要的朋友下载!!4
叮叮小文库
因此k+1指令应推迟个时钟进入流水线,产生了流水线停顿。二是“写•写”相关,
k+1指令对R0的写对指令本身是第六个时钟,而要求该指令进入流水线应在程序执行开
始后的第三个时钟,所以对R0的写是在程序执行开始后的第八个时钟。k+2指令对R0
的写对指令本身是第五个时钟,而k+2指令比k+1指令晚一个时钟进入流水线,贝性
程序执行开始后的第四个时钟,所以对R0的写是
在程序执行开始后的第八个时钟。不能在同一时钟周期内写写同一寄存器,因此k+2指令
应推迟一个时钟进入流水线,产生了流水线停顿。另外,可分析“先读后写”相关不会
产生流水线的停顿。
该指令流水线由六个功能段取指、译码、取数、运一、运二和存数等组成,则程序指
令执行过程的流水线时空图如下图所示。若3条指令顺序流动,共需
要9个时钟周期。
'涧
在数K〃数K*1〃得K+2/储2
运--K+1运
运一K+1运K+2运—
取数K取数K+1取2K+2取号攵
译码K洋轲K+1洋机K+2译码
取指K取指K+1K+2取1时间
0123456789
3.6有一指令流水线如下所示
50ns50ns100ns200ns
(1)求连续输入10条指令,该流水线的实际吞吐率和效率;
(2)该流水
线的瓶颈”在哪一段?请采取萩种不同的措施消除此瓶
颈”。对于你所给出的两种新的流水线,连续输入10条指令时,其实
际吞吐率和效率各是多少?
解:(1)
k
T一,t(nT)t
i=
=(5050100200)9200
二2200(ns)
TP=%»煜。*)
欢迎有需要的朋友下载!!5
叮叮小文库
nt
i=1
k
kGL+(n-1)max©t/1IItQ
lii2JJ
-i=1-m
t.
i4005
=TPqTP45.45%
k411
(2)瓶颈在3、4段。变成八级流水线(细分)
2_?
—3-2-4」4_4.
50ns50n>50ns50ns50nsSOns
T,t.(n-1)t
k=i''max
iT
=508950
850(ns)
TP喙喝?
m
'二ti
y40010
E-TP—=TP58.82%
m817
重复设置部件
欢迎有需要的朋友下载!!6
叮叮小文库
笔皱%8508/°
3.7有一个流水线由4段组成,其中每当流经第3段时,总要在该段循环一次,然
后才能流到第4段。如果每段经过一次所需要的时间都是4,问:
(1)当在流水线的输入端连续地每t时间输入任务时,该流水线会发生什么情
况?
(2)此流水线的最大吞吐率为多少?如果每2t输入一个任务,连续处理10个
任务时的实际吞吐率和效率是多少?
(3)当每段时间不变时,如何提高该流水线的吞吐率?仍连续处理10个
任务时,其吞吐率提高多少?解:(1)会发生流水线阻塞情况。
第1个任
S1S2S3S3S4
务
第2个任
S1S2stallS3S3S4
务
第3个任
S1S2stallstallS3S3S4
务
第个任
4S1S2stallstallstallS3S3S4
务
⑵
段
欢迎有需要的朋友下载!!23>te
叮叮小文库
=71.t
TPmax
pipeline
:E二TP5*=5°92,54.35%
T
pipeiine
(3)重复设置部件
段
14.'t
丁「二“丁蕨't
吞吐率提高倍数二上士=1.64
%
3.8有一条静态多功能流水线由5段组成,加法用1、3、4、5段,乘法用1、2、5
段,第3段的时间为2、其余各段的时间均t,而且流水线的输出可以直接返回输
入端或暂存于相应的流水寄存器中。现要在该流水线上计算陶公-Bi),画出其时空
图,并计算其吞吐率、加速比和效率。
加法
欢迎有需要的朋友下载!8
叮叮小文库
解;首先,应选择适合于流水线工作的算法。对于本题,应先计算A+BpA2
+B2>A3•B3和A4+B4:再计算(Aj+Bj)X(A2+Bj和(A3+B3)X(A4IB4);然
后求总的结果。
其次,画出完成该计算的时空图,如图所示,图中阴影部分表示该段在工
由图可见,它在18个出时间中,给出了7个结果。所以吞吐率为:
7
TP
18
SV61
18.t
如果不用流水线,由于一次求积需3出,一次求和需5出,则产生上述7个结
果共需(4X5+3X3)△=29At.所以加速比为:
3.8有一条动态多功能流水线由5段组成,加法用1、3、4、5段,乘法用1、2、5
段,第2段的时间为2At,其余各段时间均为出,而且流水线的输出可以直接返回
该流水线的效率可由阴影区的面积和5个段总时空区的面积的比值求得:
4533
=0.322
518
输入端或暂存于相应的流水寄存器中。若在该流水线上计算:
4
送(A9)
2
欢迎有需要的朋友下载B2!B3B4BC+D
9
叮叮小文库
试计算其吞吐率、加速比和效率。
DA+BC+DA+B
5
4
3
输0123456789101112131415161718
A+B
2
1
欢迎有需要的朋友下载B2!B3B4BC+D
10
叮叮小文库
由图可见,它在18个出时间中,给出了7个结果。所以吞吐率为:
TP=
18:t
如果不用流水线,由于一次求积需4出,一次求和需4出,则产生上述7个结
果共需(4M+3X4)△=28出。所以加速比为:
S28:t-1.56
18:t
该流水线的效率可由阴影区的面积和5个段总时空区的面积的比值求得:
E58180311
4.5在CRAY」机器上,按照链接方式执行下述4条向量指令(括号中给出了相应功
能部件的执行时间),如果向量寄存器和功能部件之间的数据传送需要1拍,试求此
链接流水线的通过时间是多少拍?如果向量长度为64,则需多少拍才能得到全部结
果?
V叶存储器(从存储器中取数:7拍)
V2—V0+V1(向量加:3拍)
V3—V2VA3(按(A3)左移:4拍)
VkV3AV4(向量逻辑乘:2拍)
解:通过时间就是每条向量指令的第一个操作数执行完毕需要的时间,也就是各功能
流水线由空到满的时间,在流水线充满之后,向量中后继操作数继续以流水方式执行,
直到整组向量执行完毕。
11
叮叮小文库
T通过=(1+7+1)+(1+3+1)+(14-4+1)+(1+2+1)=24(^)
7■总共二了通过+(64-1)=24+63=87拍
4.6T通过=(1+7+1)+(l+3+l)+(l+5+l)+(l+2+l)+(l+7+l)=34(ffi)
了总共T通过+(64-1)=63+34=97拍
4.7某机有16个向量寄存器,其中VOV5中分别放有向量A、B、C、D、E、
F,向量长度均为8,向量各元素均为浮点数;处理部件采用二个单功能流水线,加法
功能部件时间为2拍,乘法功能部件时间为3拍。用类似Crayl的链接技术,先计
算(A+B)*C,在流水线不停流的情况下.接若计算(D+E)*Fo
解答:
(1)(A+B)*C可用以下2条指令完成:
V叶A+B
V1JVO*C
流水线流过时间为(1+2+1)+(1+3+1)=9拍
(2)实际吞吐率为X1000=257MF|_QPS
9+(8*2-1)50
4.8
分段开采
LVVI,Rb取向量B
MULTVSV2,VI,Fs向量和标量相乘
SVRa,V2存向量
三条指令三个编队
TJ「册良仃如十%即)+mnMVL
T200=4x(15+Tstart)+200x3
=660+(4xTstart)
欢迎有需要的朋友下载!!12
叮叮小文库
Tstart=12+7+12=31
T200=660+4x31=784
4.9
解:
i,m量指令序列执行所需的时钟周期数
“》::
CrayY-MP/8的峰值性能为:R=(1+1)X8/(6xl0)=16=2667MFLOPS
5.81设有一条长流水线,仅仅对条件转移指令使用分支目标缓汨。假设分支预测错
误的开销为4个时钟周期,缓冲不命中的开销为3个时钟周期。假设:
命中率为90%,预测精度为90%,分支频率为15%,没有分支的基本CPI为1。
①求程序执行的CPI.
②相对于采用固定的2个时钟周期延迟的分支处理,哪种方法程序执行速度更
快?
解:(1)程序执行的CPI;没有分支的基本CPI(1)+分支带来的额外开销
分支带来的额外开销是指在分支指令中,缓冲命中但预测错误带来的开销与缓冲
没有命中带来的开销之和。
分支带来的额外开销=15%*(90%命中X10%预测错误X4+10%不命中X3)=
0.099
所以,程序执行的CPI=1+0.099=1.099
(2)采用固定的2个时钟周期延迟的分支处理CPI=1+15%X2=1.3由(1)
(2)可知分支目标缓冲方法执行速度快。
5.9.假设分支目标缓冲的命中率为90%,程序中无条件转移指令的比例为5%,没有
无条件转移指令的程序CPI值为1。假设分支目标缓冲中包含分支目标指令,允
许无条件转移指令进入分支目标缓冲,则程序的CPI值为多少?
假设原来的CPI=1.1
参考答案:
解:设每条无条件转移指令的延迟为x,则有:
1+5%Xx=1.1
x二2
当分支目标缓冲命中时,无条件转移指令的延迟为0。
所以程序的CPI=1+2X5%X(1—90%)=1.01
欢迎有需要的朋友下载!13
叮叮小文库
7.8.假设对指令Cache的访问占全部访问的75%;而对数据Cache的访问占全部访问
的25%。Cache的命中时间为1个时钟周期,不命中开销为50个时钟周期,在混合
Cache中一次load或store操作访问Cache的命中时间都要增加一个时钟周期,
32KB的指令Cache的不命中率为0.15%,32KB的数据Cache的不命中率为
3.77%,64KB的混合Cache的不命中率为0.95%o又假设采用写直达策略,且有一
个写缓冲器,并且忽略写缓冲器引起的等待。试问指令Cache
和数据Cache容量均为32KB的分离Cache和容量为64KB的混合Cache相比,
哪种Cache的不命中率更低?两种情况下平均访存时间各是多少?参考答案;
解:(1)根据题意,约75%的访存为取指令,25%的访存为数据。
因此,分离Cache的总体不命中率为:(75%X0.15%)+(25%X3.77%)
=1.055%;
容量为64KB的混合Cache的不命中率略低一些,只有0.95%o
(2)平均访存时间公式可以分为指令访问和数据访问两部分:
平均访存时间二指令所占的百分比X(读命中时间+读不命中率X不命中
开销)+数据所占的百分比X(数据命中时间+数据不命中率X不命中开销)所以,两种
结构的平均访存时间分别为:
分离Cache的平均访存时间=75%X(1+0.15%X50)+
25%X(1+3.77%X50)
=(75%X1.075)+(25%X2.885)=1.5275
因为混合Cache读数据的都要增加1个时钟周期
所以混合Cache的平均访存时间二75%X(1+0.95%X50)+
25%X(1+1+0.95%X50)
=(75%X1.475)+(25%X2.475)=1.725
因此,尽管分离Cache的实际不命中率比混合Cache的高,但其平均访存时间
反而较低。分离Cache提供了两个端口,消除了结构相关。
7.9假设在3000次访存中,第一级Cache不命中110次,第二级Cache不命中
55次。试问:在这种情况下,该Cache系统的局部不命中率和全局不命中率各
是多少?
解:局部不命中率:该级Cache的不命中次数侄ij达该级Cache的访存次
局部不命中率L110/3000=0.0367,不命中率L2=55/110=0.50
全局不命中率L1二不命中率L1=0.0367,
全局不命中率L2==不命中率L1X不命中率L2=0.0367X0.50=0.018
4
7.10给定以下的假设,试计算直接映象Cache和两路组相联CaEhe的平均访问时间
以及CPU的性能。由计算结果能得出什么结论?
(1混想Cache情况下的CPI为2.0,时钟周期为2g平均每条指令访存1.2次;⑵两
者Cache容量均为64KB,块大小都是32字节;
(3)组相联Cache中的多路选择器使CPU的时钟周期增加了10%;
欢迎有需要的朋友下载!14
叮叮小文库
(4)这两种Cache的不命中开销都是80ns:
(5)命中时间为1个时钟周期;
(6)64KB直接映象Cache的不命中率为1.4%,64KB两路组相联Cache的不命中
率为1.0%O
解:平均访问时间二命中时间+不命中率X不命中开销
平均访问时间1^=2.0+1.4%*80=3.12ns
平均访问时间232.0*(T+10%)+1.0%*80=3.0ns
两路组相联的平均访问时间比较低
CPU=(CPU执行+存储等待周期)*时钟周期
time总不命中次数/指令总数*不命中开销)*时钟周期
CPU=ic(CPI
=IC((CPI*时钟周期)+(每条指令的访存次数*小命中率*小命中开销*时钟周
期))
CPUtlme1_way=IC(2.0*2+1.2*0.014*80)=5.344IC
CPUtime2,way=IC(2.2*2+1.2*0.01*80)=5.36IC
CPU
相对t生能比:一一一*mj“5.36/5.344=1.003
CPU
timeJway
直接映象cache的访问速度比两路组相联cache要快1.04倍,而两路组相联
Cache的平均性能比直接映象cache要高1.003倍。因此这里选择两路组相联
7.14假设一台计算机具有以下特性:
(/1!\
X/95%的访存在Cache中命中;
/2\
X(/!块大小为两个字,且不命中时整个块被调入;
3
(/>\
\/CPU发出访存请求的速率为109字/s;
/4
X(
525%的访存为写访问:
f/l\
\z存储器的最大流量为10。字/5(包括读和写);
/6X
(7
X7主存每次只能读或写一个字;
/\
(7
X8在任何时候,Cache中有30%的块被修改过;
(/\
X7写不命中时,Cache采用按写分配法。
现欲给该计算机增添一台外设,为此首先想知道主存的频带已用了多少试对于以
下两种情况计算主存频带的平均使用比例。
1)写直达Cache;
2)写回法Cacheo
解:采用按写分配
1)写直达cache访问命中,有两种情况:
读命中,不访问主存;
写命中,更新cache和主存,访问主存一次。访问不命中,有两种
情况:
读不命中,将主存中的块调入cached,访问主存两次;
写不命中,将要写的块调入cache访问主存两次,再将修改的数据
写入cache和主存,访问主存一次,共三次。上述分析如下表所
欢迎有需要的朋友下载!15
叮叮小文库
zjso
访问前中访问类型频率访存次数
Y读95%*75%=71.3%0
Y写95%*25%=23.8%1
N读5%*75%=3.8%2
N写5%*25%=1.3%3
一次访存请求最后真正的平均访存次数
=(71.3%*0)+(23.8%*1)+(3.8%*2)+(1.3%*3)=0.35
己用带宽=35.0%
(2)写回法cache访问命中,有两种情况:
读命中,不访问主存;
写命中,不访问主存。采用写回法,只有当修改的cache块被换出时,才写
入主存;
访问不命中,有一个块将被换出,这也有两种情况:
如果被替换的块没有修改过,将主存中的块调入cache块中,访问主存两
次;
如果被替换的块修改过,则首先将修改的块写入主存,需要访问主存两次;
然后将主存中的块调入cache块中,需要访问主存两次,共四次访问主存。
访问命中块为脏频率
访存次数
YN95%*70%=66.5%0
YY95%*30%=28.5%0
NN5%*70%=3.5%2
NY5%*30%=1.5%4
一次访存请求最后真正的平均访存次数=
66.5%*0+28.5%*0+3.5%*2+1.5%*4=0,13
已用带宽二13%
9.2(1)由Cube3(X3X2XjX0)=X3X2X1X0
欢迎有需要的朋友下载!16
叮叮小文库
Cub%(0110)=1110即处理器14连接到处理器6令Cube(XXXX)=0110,得
332io
X3X2XiXo=1110
Cubes(0110)=1110即处理器14连接到处理器6所以处理器14和6双向互连
:「4备占V尸X冷与2
;r(3)(0110)=(0101)即处理器5连接到处理器6令匚⑻(%X//0))=(0110)得
X3X2X1Xo=0011
所以处理器5和6连,3和5连
(x3x2x.xo)=xox2xix3
■(0110)=(0110)即处理器6连接到处理器6
所以处理器6和6双向互连⑷由(>(XXXX)=XXXX
2321-231
()(0110)=(1010)即处理器10连接到处理器6
2
令?(XXXXJ)40110)得X3X2X1Xo=1O1O
所以处理器6和10双向互连
⑴
(a)由Cube?(X4X3X2X/0)=X3X3X2X1X0
Cube2(12)=Cube2(01100)=01000即处理器8连接到处理器12
(b)由;「(X4X3X2X1X0)=X3X2X1X0X4
二⑻二;r(01000)=(10000)即处理器16连接到处理器
(C)由PM2130)=j2产。€132
欢迎有需要的朋友下载!17
叮叮小文库
PM213(28)=28-23moe132=4即处理器4连接到处理器28
(d)Cubq(匚备X%x/))=Cubg(444%X)=%为XX0Xt
Cubeo(二⑷KCube。(r.(00100:.)=01001即处理器9连接到处理器8
(e);F(Cub(XXXXX))K以乂乂乂层)=乂乂乂乂灭
4321043213214
—(Cube°(18))=;:,Cube0(10010))=00111即处理器7连接到处理器28
(2)2n个节点的直径为2n-1,从5号到7号,最短经过6步
00101001000100001001100101001100111
⑶循环移数网络的节点度d=2n】直径为n/2
网络直径是3,节点度是9,与2号最远的是13,15,21,23号处理器
9.11
0123456789ABcDEF
4组4元32101654BA98FEDC
2组8元45670123CDEF89AB
1组16元BA98FEDC32107654
0000-1011
Cube0+Cube1+Cube3
106一台32个处理器的计算机,对远程存储器访问时间为400ns除了通信以
夕卜,假设计算中的访问均命中局部存储器。当发出一个远程请求时,本处理器挂起。处理器时钟时
间为1GHz,如果指令基本的IPC为2(设所有访存均命中Cache),求在没有远程访问的状态下与
有0.2%的指令需要远程访问的状态下,前者比后者快多少?
解:没有远程访问时,机器的CPI为1/基本IPC=1/2=0.5
有0.2%远程访问的机器的实际CPI为CPI
二基本CPI+远程访问率X远程访问开销
欢迎有需要的朋友下载!18
叮叮小文库
=0.5+0.2%X远程访问开销
远程访问开销为:
远程访问时间/时钟周期时间:400ns/1ns=400个时钟周期
CPI=0.5+0.2%X400=1.3
因此在没有远程访问的情况下的计算机速度是有0.2%远程访问的计算机速
度的1・3/0・5=2・6倍。
欢迎有需要的朋友下载!!19
叮叮小文库
7.11在伪相联中,假设在直接映象位置没有发现匹配,而在另一个位置才找到数据(伪命中)
时,不对这两个位置的数据进行交换。这时只需要1个额外的
周期。假设不命中开销为50个时钟周期,2KB直接映象Cache的不命中率为9.8%,2路组
相联的不命中率为7.6%;128KB直接映象Cache的不命中率为1.0%,2路组相联的不命
中率为0.7%o
(1)推导出平均访存时间的公式。
(2)利用(1)中得到的公式,对于2KBCache和128KBCache,计算伪相联的平均访
存时间。
解:
不管作了何种改进,不命中开销相同。不管是否交换内容,在同一“伪相联”组中的两
块都是用同一个索引得到的,因此不命中率相同,即:不命中率二
一*.一伪相联
不命中率2路。
伪相联cache的命中时间等于直接映象cache的命中时间加上伪相联杳找过程中的命中
时间*该命中所需的额外开销。
命中时间二命中时间1+伪命中率X1
伪相联1路伪相联
交换或不交换内容,伪相联的命中率都是由于在第一次不命中时,将地址取
反,再在第二次查找带来的。
因此伪命中率=命中率2—命中率1=(1一不命中率2)一(1一不命中率1)
饱相联,路■路,西・路
=不命中率[路一不命中率2路。交换内容需要增加伪相联的额外开销。
平均访存时间=命中时间1+(不命中率1一不命中率2)X1
伪相联皂一V且A,一一路
+不命中率2X不命中开销
4路1路
将题设中的数据带入计算,得到:
平均访存时间2Kb幻+(0.098-0.076)*1+(0.076*50)=4.822平均访存时
间128Kb幻+(0.010-0.007)*1+(0.007*50)=1.353显然是128KB的伪相
联Cache要快一些。
7.12假设采用理想存储器系统时的基本CPI是1.5,主存延迟是40个时钟周期;传输速率为4
字节/时钟周期,且Cache中50%的块是修改过的。每个块中有32字节,20%的指令是数据传
送指令。并假设没有写缓存,在TLB不命中的情况
下需要20时钟周期,TLB不会降低Cache命中率。CPU产生指令地址或Cache不命中时产
生的地址有0.2%没有在TLB中找到。
(1)在理想TLB情况下,计算均采用写回法16KB直接映象统一Cache、16KB两路组相
联统一Cache和32KB直接映象统一Cache机器的实际CPI:
(2)在实际TLB情况下,用(1)的结果,计算均采用写回法16KB直接映象统一
Cache.16KB两路组相联统一Cache和32KB直接映象统一Cache机器的实际
CPI;
欢迎有需要的朋友下载!20
叮叮小文库
其中假设16KB直接映象统一Cache,16KB两路组相联统一Cache和32KB直接映象
统一Cache的不命中率分别为2.9%、2.2%和2.0%;25%的访存为写访问。
解:CPI=CPI+存储停顿周期数/指令数
执行
存储停顿由下列原因引起:
从主存中取指令
load和store指令访问数据
由TLB引起
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年数字水位仪项目申请报告
- 2025年国土资源普查核仪器项目申请报告模范
- 2024-2025学年西藏那曲市巴青县三上数学期末统考试题含解析
- 军训心得体会汇编15篇
- 2025年水上加油船项目规划申请报告模板
- 2025年放射性废气处置设备项目申请报告
- 2022装修监理年终工作总结
- 去超市实习报告范文8篇
- 住房申请书模板10篇
- 演讲竞聘演讲稿范文6篇
- 转子找静平衡方法
- 民间借贷利息计算表
- 2025年九省联考新高考 政治试卷(含答案解析)
- 终极战略规划指南:深度剖析Cross SWOT分析、市场洞察与内部能力优化的综合行动方案
- 中国偏头痛诊治指南(第一版)2023解读
- 湖北省武汉市黄陂区2024年数学六年级第一学期期末学业质量监测模拟试题含解析
- 关于开展2024年度保密自查自评专项检查工作的实施方案
- 商场反恐防暴应急预案演练方案
- 2024年天津市西青经济开发集团限公司公开招聘工作人员高频500题难、易错点模拟试题附带答案详解
- 智慧物业管理的区块链技术应用
- 数据库设计规范标准
评论
0/150
提交评论