精选题(体系结构)_第1页
精选题(体系结构)_第2页
精选题(体系结构)_第3页
精选题(体系结构)_第4页
精选题(体系结构)_第5页
已阅读5页,还剩17页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

例5.1

假设Cache的命中时间为1个时钟周期,失效

开销为50个时钟周期,在混合Cache中一次load

或store操作访问Cache的命中时间都要增加一个

时钟周期(因为混合Cache只有一个端口,无法同

时满足两个请求。按照前一章中有关流水线的术

语,混合Cache会导致结构冲突),根据表5-4所

列的失效率,试问指令Cache和数据Cache容量均为16KB的分离Cache和容量为32KB的混合Cache相

5.2Cache基本知识精选题(体系结构)解:

如前所述,约75%的访存为取指令。因此,

分离Cache的总体失效率为:

(75%×0.64%)+(25%×6.47%)=2.10%

根据表5-4,容量为32KB的混合Cache的失

效率略低一些,只有1.99%.比,哪种Cache的失效率更低?又假设采用写直达

策略,且有一个写缓冲器,并且忽略写缓冲器引

起的等待。请问上述两种情况下平均访存时间各

是多少?5.2Cache基本知识精选题(体系结构)平均访存时间公式可以分为指令访问和数据

访问两部分:平均访存时间=指令所占的百分比×

(指令命中时间+指令失效率×失效开销)+

数据所占的百分比×

(数据命中时间+数据失效率×失效开销)所以,两种结构的平均访存时间分别为:平均访存时间分离=75%×(1+0.64%×50)+

25%×(1+6.47%×50)

=(75%×1.32)+(25%×4.325)

=0.990+1.059=2.055.2Cache基本知识精选题(体系结构)平均访存时间混合=75%×(1+1.99%×50)+

25%×(1+1+1.99%×50)

=(75%×1.995)+(25%×2.995)

=1.496+0.749=2.243.程序执行时间

CPU时间=(CPU执行周期数+存储器停顿周期数)

×时钟周期时间其中,

存储器停顿周期数=访存次数×失效率×

失效开销5.2Cache基本知识精选题(体系结构)例5.2

我们用一个和AlphaAXP类似的机器作为

第一个例子。假设Cache失效开销为50个时钟

周期,当不考虑存储器停顿时,所有指令的

执行时间都是2.0个时钟周期,Cache的失效

率为2%,平均每条指令访存1.33次。试分析

Cache对性能的影响。精选题(体系结构)考虑Cache的失效后,性能为:CPU时间有cache=IC×(2.0+(1.33×2%×50))

×时钟周期时间

=IC×3.33×时钟周期时间CPU时间=IC×(CPIexe+────────)

×时钟周期时间存储器停顿周期数指令数解:5.2Cache基本知识实际CPI:3.333.33/2.0=1.67(倍)精选题(体系结构)CPU时间也增加为原来的1.67倍。但若不采用Cache,则:

CPI=2.0+50×1.33=68.55.2Cache基本知识精选题(体系结构)

考虑两种不同组织结构的Cache:直接映象

Cache和两路组相联Cache,试问它们对CPU的性

能有何影响?先求平均访存时间,然后再计算

CPU性能。分析时请用以下假设:

⑴理想Cache(命中率为100%)情况下的CPI

为2.0,时钟周期为2ns,平均每条指令

访存1.3次。

⑵两种Cache容量均为64KB,块大小都是32

字节。例5.35.2Cache基本知识精选题(体系结构)

⑶图5.10说明,在组相联Cache中,我们必须增

加一个多路选择器,用于根据标识匹配结果

从相应组的块中选择所需的数据。因为CPU

的速度直接与Cache命中的速度紧密相关,所

以对于组相联Cache,由于多路选择器的存

在而使CPU的时钟周期增加到原来的1.10倍。

⑷这两种结构Cache的失效开销都是70ns。在

实际应用中,应取整为整数个时钟周期。

⑸命中时间为1个时钟周期,64KB直接映象

Cache的失效率为1.4%,相同容量的两路组

相联Cache的失效率为1.0%。5.2Cache基本知识精选题(体系结构)精选题(体系结构)由:

平均访存时间=命中时间+失效率×失效开销得:

平均访存时间1路=2.0+(0.014×70)=2.98ns

平均访存时间2路=2.0×1.10+(0.010×70)=2.90ns由:

CPU时间=IC×(CPIexe+每条指令的平均存储器

停顿周期数)×时钟周期时间

=IC×(CPIexe×时钟周期时间+

每条指令的平均存储器停顿时间)解:5.2Cache基本知识精选题(体系结构)CPU时间1路=IC×(2.0×2+(1.3×0.014×70))

=5.27×ICCPU时间2路=IC×(2.0×2×1.10

+(1.3×0.010×70))

=5.31×IC得:5.31×ICCPU时间1路─────=─────=1.015.27×ICCPU时间2路5.2Cache基本知识精选题(体系结构)5.2.4写策略1.“写”操作所占的比例

Load指令:26%

Store指令:9%

“写”在所有访存操作中所占的比例:

9%/(100%+26%+9%)≈7%

“写”在访问Cache操作中所占的比例:

9%/(26%+9%)≈25%3.“写”访问有可能导致Cache和主存内容的不一致2.“写”操作必须在确认是命中后才可进行5.2Cache基本知识精选题(体系结构)例3.5

假设某指令序列中20%的指令是Load指令,并且紧跟在Load指令之后的半数指令需要使用到载入的结果,如果这种数据相关将产生一个时钟周期的延迟。理想流水线(没有任何延迟,CPI为1)的指令执行速度要比这种真实流水线的快多少?解:我们可以利用CPI作为衡量标准。对于真实的流水线而言,由于Load指令之后的半数指令需要暂停,所以这些被暂停指令的CPI是2。又知Load指令占全部指令的20%,所以真实流水线的实际CPI为:(0.9×1+0.1×2)=1.1,这表示理想流水线的指令执行速度是其执行速度的1.1倍。

3.3流水线中的相关精选题(体系结构)◆

并行查找的实现方法:5.2Cache基本知识举例:4路组相联并行标识比较(比较器的个数及位数)

相联存储器单体多字存储器+比较器

精选题(体系结构)精选题(体系结构)◆

4路组相联Cache的查找过程精选题(体系结构)◆

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论