低功耗cache现状_第1页
低功耗cache现状_第2页
低功耗cache现状_第3页
低功耗cache现状_第4页
低功耗cache现状_第5页
已阅读5页,还剩21页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、Cache低功耗结构设计技术现状一概述纵观计算机系统和微处理器的发展,随着半导体加工工艺水平的不断提高,CPU和存储器的性能都有了很大的提高。CPU频率的提高,必然要求系统中存储 器的存取速度要提高,还要求其容量要增大。主存储器DRAM容量的提高还是比较 快的,但是DRAM读取时间的提高却很慢。从而在速度上与CPU主频的提高产生 了极不相配的情况,这样会影响整个系统的性能。CPU设计的问题之一就是解决高 速CPU和低速DRAM之间的平衡或匹配问题,以求系统性能的整体提咼。在它们 之间加入咼速缓冲存储器Cache,就是这个冋题的解决方案之一。1)Cache的工作原理 从分级存储器体系结构来看,系

2、统执行程序时,被访 冋的数据从下向上移动,当该数据被上移的新数据替换时,便又向下移动。一般来 说,某级存储器中的数据是存储在下一级上数据的一个子集Cache的存储区划分成 行(line),也称为 块(block),它与下一级存储器之间以块为单位交换信息。若CPU发出读请求,并且cache中相应数据存在,就可以从cache中读出,这 称为命中(hit),否则称为未命中或缺失(miss)。当CPU要访问的数据不在cache 中,系统将把包括相应数据的一块从下一级存储器读入cache中。如果此时cache已满,则需要决定将cache中某一块移出去,判定哪一块移出需要一种判 断规则,称为替换算法。如果

3、CPU执行写操作,数据需要改变cache和下级存储器中所有相应单元中的 数据,这时有两种处理方法:一种是cache和下级存储器中数据同时被修改,称为通 写法(write through);另一种方法是只修改cache中的数据,只有在cache中相应 块被替换出去时才将其写到下级存储器中,这称为回写法(write back)。2)Cache的组织形式Cache的设计需要考虑很多结构上的问题,如数据在那里查找,查找的方式如 何以及cache块应该存在cache中的什么位置等等,这与cache的组织形式有 尖。Cache中的数据块与主存之中的数据块的对应尖系由其采用的映象方式决定。 而程序代码和謬据

4、也有两种存放方式,一种是将指令和数据分别存放在两个独立的 cache 中(分离式 cache :扌旨令 cache (instruction cache l-cache) 和数据 cache (data cache D-cache)分离;另一种是将指令和数据共同存放在一个公用 cache中(合一式cache)。在cache中查找和存储数据,既可以使用虚地址(虚 cache),也可以使用实地址(实cache。Cache的映象方式决定了 cache的基本布局,一般包括直接映象、全相联映 象 和组相联映象,其它映象方式不过是此三种方式的延伸。直接映象cache是结构最简单的cache存储器的地址唯一

5、地确定了用于存 放存 储器数据块的cache组(set),即任意一个存储器数据块只能放在cache的一个固定位置上。其优点是每次cache访问只需进行一次标签比较,因此节省大量复 杂的全同比较线路,可提咼时钟速度。由于任意一个主存块只能放在cache的一个固 定的组上,因此直接映象cache无需替换算法从而简化了 cache设计。它的缺点是 如果两个被频繁访问的主存块映象到同一位置,便会产生冲突(conflict),或颠簸(thrashi ng),其原因是将地址映象到cache块时,并未使用 该地址的标签字段,因此,如果两个地址的差别仅在于它们的标签字段,对它们进 行映象时就会互相冲突。因此,

6、和其他映象方式相比,直接映象cache的命中率较 低。全相联映象方式下,主存的任意一块数据都可以放到cache的任意一行上。它 的优点是命中率较高,可以避免冲突现象。它的缺点是需要同时对所有块的标签字 段进行匹配比较,因而需要价格昂贵的CAM (相联存储器)来实现,而且访问速度 要低于直接映象caches此外,为提高全相联cache的命中率,需采用合适的替换算 法,这也将增加cache结构的复杂度。组相联映象方式是前两种映象方式的折中,它将cache和主存各分成若干大小 相同的组(set),主存和cache的组数相等,称每个cache组内所包含的每一块称 为一路(way)。主存组号与cache

7、组号一一对应,亦即组间采用直接映象方式。主 存组内一个数据块可以放到cache对应组内的任一路上,亦即组内采用全相联映象 方式。其优点是兼得直接映象和全相联映象cache设计两种设计的优点,即结构相 对比较简单,命中率较高。和全相联cache相比,组相联cache显著减少了匹配比较线路的数量。对于两路组相联cache也只需两套比较线路;即使是较复杂的八路组相联cache只需八套比较线路。组相联的替换算法也比较简单。和 直接映象cache相比,组相联cache的命中率明显提高,而且较少产生冲突。3)Cache的替换算法对于全相联和组相联cache,在将主存中的一块放入cache时,往往需要先从

8、cache中剔除一块,以便腾出一个空位容纳这个数据块。选择剔除块的准则就是 cache的替换算法,在cache容量相同的条件下,好的替换算法可提高cache的命中率,最常见的替换算法包括:1)最近最少使用(LRU )算法:被替换的块是最近最长时间没有被访问的块对相联度高的cache来说开销太大,因此衍生出很多其近似算法,如 最久没有使用(LFU)、最近未使用(NRU )等算法。2)先进先出(FIFO)算法:被替换的块是最先进入的块,实现最简单。3)随机算法:替换块被随机选出。4)Cache的功耗在微处理器芯片中,片上cache产生的功耗占据整个芯片功耗的很大比例,例 如DEC Alpha 21

9、264中的cache的功耗约占芯片功耗的25%。其中大部分能量 消耗 在标签和数据阵列的预充(prechargi ng)、灵敏放大(se nsi ng)和放电等 操作 上芯片上功能部件的功耗一般可参照下面公式进行:P = a CV2f + I otfVa :电路的活动率(每个周期进行翻转的概率)c:电路的等效电容v :工作电压f:时钟频率 loft :电路的漏电流 其中等号右边的第一项是动态功耗,后一项为静态功耗。1)目前基本上有两种途径来降低cache的功耗,一种是从电路角度进行的低功耗 设计,常见的方法包括双电压选择、存储器尖电、cache分体等等;另外一种就是从cache结构设计角度,进

10、行低功耗研究。本文着重讨论cache低功耗结构设计方法。降低cache动态功耗最有效的方法就是减少cache存储阵列(包括数据阵列和 标签阵列)等效电容充放电的总数,那么从公式(D中动态功耗表达式可知,降低 电压的效果最好,减少电路等效电容、时钟频率以及电路活动率,都能够减少动态功 耗。一般来说降低电压和减少频率与现代电路设计中对速度性能要求相矛盾,但是也 可以在电路中对于某些模块采用休眠模式、双电压模式来减少功耗;减少电路等效电容是最普遍研究的方向之一,一般可以在L1 each系统中配置一个容量很小的缓冲器(1行或多于1行),大部分存储访问都能够在这个缓冲器中完 成。由于缓冲器等效电容较小,

11、因此将整个cache系统功耗降低,此类设计方案包括行缓冲器、LO cache过滤cache等等;随着CMOS工艺技术的提高,深亚微米条件下静态功耗与动态功耗相比变得越 来越不可忽视。近年来针对这个冋题,出现越来越多的论述,其中在电路级和晶体管 级优化方案(如门控Vdd等技术)有助于结构级cache静态功耗技术的发展。女口 DRI cache就是利用不同的程序的工作集对cache容量的要求不一样,通常cache的 使用效率并不高,其代价就是无用的cache块的漏电流引起的静态功耗。通过检测缺 失率指标,对cache块的Vdd进行门控,就是说让将来可能不被访问的块休眠,来去 除漏电流引发的静态功耗

12、。二降低电路的等效电容-小容量缓冲器:最近小容量片上缓冲器得到研究人员广泛而大量的研究,其中最常见的包括 过 滤cache LO cache以及行缓冲器,其它不过以三者为基础进行改进。1)过滤 cache (Filter cache, FC):如图1 b所示,所谓FC就是在L1 cache和CPU之间增加一个容量较小的cache, 通常256 512Byte,相对的L1 cache则在8-32KB之间。其目的在于指令执行过COJUCM*CM附wiktl CcfmnlkruiWitdlfCFigurr : Act ns Paths for ()Writ;hk ratchirnl FU化卜yPnA

13、/iil lii/ii 匚Q(c) PC pKdrcdon, Instruction Memory Hierarchy图1三种cache结构示意图 程中,提供小的重复率高的循环指令访问,这种循环在 嵌入式应用程序中往往占据绝大部分执行时间。因此, 此时允许切断L1 cache从而节省功耗。原因在于相对 小的FC来说,L1电容更大,而且漏电流也要大2。 但是由于FC容量太小,它的缺失率也很高,高达28% 的缺失率使得研究者寻找提高FC性能的办法,因此出 现了很多预测FC结构(图1c)及算法。在文献3中作 者介绍了一种解码FC(DecodeFilter Cache, DFC),它可以向CPU提供译

14、码后指令。DFC命中就无 需从 l-cache中取指以及随后的译码,从而降低功耗。DFC与IFC (Instruction Filter Cache)的尖键区别在于,当IFC缺失,缺失行被直接填充到IFC中,随后的访问就 发生在IFC中;而DFC缺失后缺失行不能直接填充DFC,因为指令尚未被译码,因 此相应的指令空间局部性便无法有效利用。作者提出使用一个并行行缓冲器,来提高 DFC缺失行指令空间局部性利用率。同时为了有效利用cache空间,作者将指令划分为cacheable (可缓存)和uncacheable (不可缓存),只有译码宽度小 的指 令才可缓存,因此作者又采用矢量cache (se

15、ctored cache结构以使两种指 令在一条 cached量里。在文献4中,作者将其用于宽发射超标量处理器中并进 行结构改 进。Sen tagor I TO 0cnAivh lineway 3way 21sentry1I/ IMl FSingle Block BufferLIJilterFig. 4 Tur-level Hltcr schicnTe. A four-w-iy srcu-asscxiaLive cache nrchilccture with q bkxk hufter and a scnlrj1 lag. (The gray blacks symbolize an activ

16、e aMTipanAnL)图2 2级过滤cache在文献中,作者给出一个两级过滤cache方案,如图2所示。在L1 FC中块缓冲 器(block buffer)用来有效利用时间局部性,以减少没有必要的cache访问。在L2 FC采用sentry标签来过滤出在L1缺失时产生的多余路行为(way activities)。 通过采用L2 FC,只有那些可能命中的路被访问,因此更多地节约功耗。该方案无需 软件支持,cache访问时间固定。在文章(6)中,作者提出新的模式预测方案进一步 降低功耗,它有赖于当前指令前面的FC指令行访问流的缺失模式进行预测。仿真结果表明该方案优于NFPT预测器。由于FC有赖

17、于小循环程序的反复执行,因此如果没有这种条件,便会导致FC 性能下降。因此文献7提出一种动态FC方案,用来使能FC或尖闭之,从而使得 性能代价最低。文献8中考虑到模式预测器功耗,提出一个低功耗单周期模式预测器硬件结构,它能够在处理器时钟大于0.5GHz情况下实现单周期预测,并且 面积只增加1500到2700门。2) L0 cacheL0 cached就是在CPU和L1 l-cache之间加入一个小cache目的在于将频繁使用 的代码存储其中,以降低L1访问次数从而降低功耗。它利用分支预测以及Con fide nee estimato的结果来决定代码是否存入L0中。但是串行访问L0 cache会

18、 引起较大的片上cache缺失率。如何有效管理L0 Icache,在文献10中,作者分 析了 L0 cache系统缺失模式基础,提出一套预测器,当预测为L0在下一次取指 时为缺失时,它将被旁路而L1被访问。而且如果正确预测L0缺失,那么流水线取指 bubble可以有效避免。FL 5. Pipeline nik nkirvhiteciuiv.图 3 L0 CacheHotSpot cache1 n是一种基于L0 cache结构的cache结构,图4给出过滤cache 和HotSpot cache结构对比示意图。HotSpot cache动态识别那些频繁访问指令,并 将其存储于L0 cache中,

19、而其他指令则只存放在L1中,分配控制机构在取指阶段进 行指令分配存储。仿真结果显示此方案可使l-cache功耗减少58%。莎L1 csecsFigure 1:(a) Filter cache (b) HotSpot图 4 FC 和 HotSpot cache3) 行缓冲器(line buffer, LB):在文章出给组相联cache扩展若干输出锁存器,称为行缓冲器,用来增加地址流访问局部性利用率。也就是说当前正要被访问的cache亍,很可能是不久前刚刚被访问过的指令,因此如果可以在行缓冲器中找到,那么就无需访问 L1 cache,这不仅节省数据阵列的访问,也节省了标签阵列的访问,从而降低功耗。

20、 一旦一个字被访问,那么相应的整行就放入LB中,接下来的访存只发生在LB中。由于行缓冲器在缺失时,会消耗多余周期时间去 L1取数据,从而引起系统 性能下降。文献13中提出可以预测下次访问目标的预测LB,它利用分支预测器 来进行预测,从而动态决定下次访问是去访问 LB还是L1 cache,从而减少LB缺 失次数,提高性能。为了降低直接映像的l-cache和D-cache访问所带来的功耗,可以给每个cache 都并列配置一个只存储一个cache亍的缓冲器,称作行复用缓冲器川(line reuse buffer,LRB),这样当LRB命中时,each刖以尖掉。与行缓冲器不同,通过利 CalmRISC

21、TM-32核给出的顺序访问信息(前一周期),当LRB命中时标签和数 据阵 列访问操作可以消除,当知道LRB可以为处理器提供数据时,cache可停留在 stand-by模式,cache时钟亦可阻塞。CopyonFjgure 1. LineCache control JogicBuffer (LRB) op erat tons. S&qoen*tial access informalion is provided from The processor to the cach control logic, which then ctettrmines wtilch of the two, the L

22、RB or the cachen provides the ddt 乩 While the LfiB services ths prccasscri the each 甘 is in the sund-by mode.图5行复用缓冲器操作三降低组相联cache功耗一避免多余标签比较组相联cache是当今微处理器设计中最为普遍采用的cache组织形式,如2级、4级、8级到16级组相联cache结构见于绝大部分处理器结构设计里。但是传 统组相联cache缺点是功耗大,如一个典型4路组相联cache必须经历一系列 操 作:选择cache行,读取标签和数据阵列,进行标签比较并驱动多路选择器选择信 号,

23、因此消耗大量能量。从功耗角度看,其中3路数据和标签读取是无用的。因此, 如何避免之,成为减少cache功耗的动力之一。1)分阶 cache ( phased cache:分阶cachd151将cache访问分解为两个阶段:标签访问和比较为第一阶段。 在第二阶段只有命中的那一路数据被访问。结果是降低数据路访问的功耗,但是 却增加了 cache访问延迟。文献16中提出一个分阶标签cache方案(phased tag cache来减少组相联cache功耗,其中标签比较分两个阶段,第一阶段只比较标签的 一部分(低位)来决定数据在哪一路,第二阶段标签其它位被比较以断定第一阶段比 较结果是否有效。因此可消

24、除大多数多余的全标签比较操作。文献17中设计了路选择逻辑和特别的替换算法以保证只有一路被选中,它 采用mini-tag (标签低位)做为标签比较的基础。因为数据阵列无需标签比较结果, 多路选择器延迟被消除。2)路预测 cache (way-predicting cache):路预测cach81试图在caches签访问前预测哪一路可能有被访问数据。如果 预 测正确,标签阵列就不需要了,而访问延迟相当于同样大小的直接映像cache的访问延迟。但是如果预测失败,就必须进行标签比较,结果是增加了额外的访问时 间,相应功耗多于传统组相联caches路判定(Way Determination)技术何采用一

25、个路判定部件(WDU )来利用行 地址的局部性。数据地址在进行cache访问前发给WDU,WDU中存有从前访问的 行地址及相应的那一路的号。如果命中,则只需访问那一路标签和相应数据,否则去 标签阵列进行比较,重新查找。文献C20提出一个类似于基于历史的路选择方案,它采用一个锁存器来保持前一次访存的信息,它用来禁止不是最近访问的行进行预充。文献 21 采用来自Access th& setFigure 3. Access pattern of n-way acoess-niode prediction cache.图6 n路访问模式预测cache数据存储器的有效位(valid bit )预先判定多

26、余的、无需动作的标签子阵和数据子阵, 从而使得传统带子块(subblock)布局策略的路预测cache平均能耗得到对比分阶和路预测技术可知,相对于一次预测成功的路预测cache访问,分阶each啲一次访问功耗更多,并且访问延迟更长,但是比一次预测失败的路预测 cachd访问能量消耗少。因此作者给出一个基于cache命中和缺失预测技术,可 以自适应地在两种访问模式之间转换(如图6),从而达到功耗最低的目的。将最近最多使用(Most Recently Used, MRU )的地址存入存储器地址缓冲 (MAB),并在标签比较前先行比较MAB,那么当MAB命中则可以消除多余的标 签和 数据访问。因为M

27、AB只保持标签和索引值,因此即使MAB存储大量条目,其功耗 和面积都相对较小。该项技术已用于Fujitsu VLIW处理器(FRV)中如。文献24提出基于历史的标签比较cache (HBTC cache),它试图复用标签比 较结果来监测并消除多余的存储阵列活动。3) 部分地址比较:部分地址比较技术最早见于文献25,当两个标签的部分位用来进行比较时,称 为部分标签比较。作者采用一个小的cache用来存放相对于每路灵敏放大器的部分标 签(原始标签的一部分低位),对于组相联cache每一路,当相应部分标签 比较命中 时,使能连接数据阵列位线的灵敏放大器,而其他放大器则未被使能,从而节省了放 大器所引

28、发的大量功耗。其结构见图7。仿真结果显示1261,该项技术可使传统组相联cache功耗降低25% 60%。V7WW *AWAmp-JV睛為3 -41图7部分地址比较cache结构ZAJMrray Jm n oinnI C tUntil A.JTI%1-igure 9: The Ptuiial Comparison Cache Anchitecture图8改进的部分标签比较cacheDauFigure 2. The stnicture of the proposed partial tagcomparison cache文献27提出一种基于部分标签比较cache的改进方案,它在4路组相联 cac

29、he系统中(见图8)增加一个寄存器堆,每一行包括四块,每一块(1个有效 位,2个 部分标签位)与相应标签尖联。相应的标签与数据阵列也分别分成4个 sub-ba nk每个sub-ba nl可由片选信号控制开尖。当部分标签比较命中,贝U使能相应片选信 号1. Base archiiectitreOur way-halting cache arclnicciurc is shown in Figure cI igure I W才 一hciltinizsctsi.iKiative cache architect oe.f on hil uT irdcli ki!2 i .it 1 疔cd in u X

30、pii ; ; ; tc hult 1 :心 jhj 让 ioi ciich waj. fhe tirsT inveteol the oid line 血ets replaced by a NAXD mitu图9路中断4路组相联cache结构文献28介绍了路中断组相联cache结构,见图9。图中,4路组相联cache 中所有标签的最低4位存储于一个全相联each(称为中断标签阵列),中断标签 与当前标签的比较与地址译码(决定那一路被读取)同时进行。中断标签阵列可 预先 断定大多数标签不匹配,因为其低4位不匹配,因此它们对应的路的访问被中断, 因此节省功耗。4)标签忽略技术(tag-skippi

31、ng):标签忽略技术291目的在于减少多余标签查找引发的功耗。对于相邻的存储 器访问操作,如果两次地址标签一样,那么后面的标签比较就是多余的。 因此无 需第二次访问标签,只需发出命中信号即可。衽三种情况下,不需要比较标签:1)前一次比较命中,那本次访问(同一行) 一定命中;2)前一次读操作缺失,那么缺失处理例程将该行填充到cache,那本次访问(同一行)一定命中;3)前一次写操作缺失,由于采用load-o n- write- miss策略、即该行不去填充cache接下来的访问(同一行)一定缺失,因此无需比 较标签。当然访问不同行数据,需要查找标签。衽文献30中作者提出一个改进的标签忽略技术,采

32、用一个写标签忽略缓冲 器(WTSB),从而可以减少50-85%写缺失次数,降低了访问功耗更大的主存 访问 次数。5)标签压缩技术:通过实验发现,大量嵌入式应用程序可分解为一些主要循环程序,每个循环 访问 一小部分存储区域,因此只使用有限数量的标签。那么编译器可以静态识别它们,因此对这些标签进行压缩有助于功耗降低沖。如图10所示一个2路组相联D-cache, 在标签阵列中只存储循环程序的经过高度压缩的标签,标签比较只比较压缩的标签, 从而大量节省大量位线和放大器的功耗。其中编码器接受来自编译器的标签压缩信 息,以此进行压缩标签操作,并在 cache缺失时将压缩后标签DATA I存入标签阵列。该方

33、法可使标签阵列功耗降低95%。图10标签编码结构四代码压缩结构:文献32提出将l-cache中存入经过压缩的指令,这样提高了 cache命中率, 减少了主存访问次数,减少了取指的功耗。其中采用一个低能耗的解压部件,在 每 次cache查询时进行指令解压。五. 协同 cache (cooperative cache):. |2 b) P| c) |4|图14 3种降低漏电单元形式2)动态降低电源电压网:其目标是降低H点电压。同门控电源一样,会使漏电流减少。这项技术需 要额 外的外围电路,如DC电平控制或DC/DC转换器,从而引进大量能耗。当单元衽休 眠和激活模式之间切换时,它引起转换延迟和能耗,

34、但不会弓I起额外的访问延迟。电 源电压降低也降低了静态噪声容限(SNM),从而限制了此项技术的应用。结构如 图 14b。3)提咼动态阈值电压a】:既然漏源电流依赖于Vth,我们就可以动态提高MOS管的开启电压。因此,将 NMOS和PMOS器件体偏置反偏。在standby时,NW节点电平提高而PW降低 这项技术只能用于双阱工艺条件下,结构见图14c。4)减少静态漏电功耗的cache结构文章39提出一个动态重构尺寸cache方案(Dynamically Resizable icache, DRI i-cache),可以动态分配cache大小以适应应用程序所需cache容量。当尺 寸 减小时,采用门

35、控电源技术尖掉cache中不需要的部分的电源供应,从而减少漏电 功耗。如图15所示一个DRI直接映像l-cache淇中缺失率用来监测cache性能。在 每个判别时段中,用一个缺失计数器计算cache的缺失率。在一个判别时段结束后,将计算的缺失率和一个预设值比较,依据结果cache容量被加大或缩小。addresstag + 丽如minimum sSedowTAienites count mss-hmind9ahril tpftL Anatomv of a DR.I i-cjcli-c.图 15 DRI l-cacheDRI1-文章40介绍了 cache衰退(cache decay的概念,即当ca

36、che亍进入垂死 区(dead period-成功访问到驱逐出cache的时段)时,尖闭单个cache亍。判别 cache行是否衰退,文章采用基于时间的工作集算法,等价于全局LRU算法。一个全局计数器给每一行附加的计数器时间信号驱动其计数。在一个时间窗口(“ decayintervaP)期间,只要cache亍被访问,则不尖断之;当与相应cache亍相联的计数 器饱和,该行则尖掉(采用门控电源技术尖掉cache亍)。休眠cache (drowsy cache 41;提出一种预测算法预测cache行在未来是否会被 访问,如果是则使其保持活跃状态(大漏电),否则进入低漏电的休眠状态,从 而节 省功耗

37、。Figure I: Original frequent value data cache architecture图16频繁数值D-cache结构频繁数值(Frequent Value FV)低功耗D-cache 421基于如下观察结果:大部 分D-cache访问的数据是一些访问频繁的数据,因此它们可以以一种编码形式(位 数减少)存储于cache中。如32位16进制的“ FFFFFFFF可以用5位“ 00000”编 码。那么each刖以分为2个子cache, FV可以存入小的子cache (如图16 Low-bitarray)中,而非FV则跨越两个子cache!。当FV被访问,只有小的子ca

38、che被激 活,而不去驱动大的子cache从而节省大的子cache功耗。文献43对上述方案 进行改进,即通过尖断编码FV无用位的方法减少静态功耗。DaAnay-Tag 一 Array-10 DRAMblock-iiiiVHBlock BufferIndexKeil address issued by CPU图17双电压块缓冲cache结构文章提出基于块缓冲器方案的双电压方案(Dual Voltage)f44。从块缓冲器工作原理可知,当它访问命中时,激活cache电路是暂时无用的。作者提出当块 缓冲命中时,可降低其电压,否则提高电压。如图,当块缓冲命中产生 block-hit 将通过选择器S选择

39、低电压VL供给缓冲器和数据选择器;而block-miss则给全 部 电路供给VH。Predicliiin川 ghVih 卅 k?niiimeitiiiiLov Vth i AdivciceiLnw Vfti (Active 7sleep flae 1 A。High V; 1T 卅 1叩nlhit dcompan:/ !MUX! 1 111 i丨 lif ( I iT- I ; ! 图18选择性激活cache结构选择性激活 cache (selectively activated cache, SAC)岛】把 cache 分成若干 cache块,如图18,每一块的阈值电压可动态改变。通过控制阈值

40、电压,使访问 频率 低的块睡眠。为了减少改变阈值电压所引起的时间损耗,需要基于历史的预测算法 用来预测需要激活(wake up)的块。文献:I. J. Kin, M. Gupta, and W. Mangione-Smith. The filter cache: An energy efficient memory structure. In Int 1 I Symp. Microarchitectuqeages 184T93, 1997.2 Kin, J.; Gupla, M.; Mangione-Smith, W.H; “Ftielring memory references to inc

41、rease energy efficiency C. omputers, IEEE Transactions on, Volume: 49 Issue: 1 Jan 2000, p1 -53. Power Savings in Embedded Processors through Decode Filter Cac、heWeiyu Tang,Rajesh Gupta,Alexandru Nicolau、 20024. Decode Filter Cache for Energy Efficient Instruction Cache Hierarchy in Super Scalar Arc

42、hitectures,Kugan Vivekanandarajah, Thambipillai Srikanthan, Saurav Bhattacharyya 20045. Desig n and Analysis of Low -Power Cache Using Two-Level Filter Scheme、 Yen-Jen Chang, Member, IEEE, Shanq-Jang Ruan,Member, IEEE, and Feipei Lai, IEEE TRANSACTIONS ON VERY LARGE SCALE INTEGRATION (VLSI)SY STEMS,

43、 VOL. 11, NO. 4, AUGUST,20036. Energy-delay efficient filter cache hierarchy using pattern predict!on scheme 、 K. Vivekanandarajah, T. Srikanthan and S. Bhattacharyya 20047. Dynamic Filter Cache for Low Power Instruction Memory Hierarchy、 Kugan Vivekanandarajah, Thambipillai Srikanthan and Saurav Bh

44、attacharyya.20048. Area and Power Efficient Pattern Prediction Architecture for Filter Cache Access Prediction in the Instruction Memory Hierarchy、 Saurav Bhattacharyya, Thambipillai Srikanthan, Kugan Vivekanandarajah,20059. Using Dynamic Cache Management Techniques to Reduce Energy in General Purpo

45、se Processor、s Nikolaos E Bellas, Ibrahim N. Hajj, and Constantine D. Polychronopoulos,IEEE TRANSACTIONS ON VERY LARGE SCALE INTEGRATION (VLSI) SY STEMS, VOL. 8, NO. 6, DECEMBER 200010. Reducing Power with an LO Instruction Cache Using History-based Prediction, Weiyu Tang Alexander V. Veidenbaum Ale

46、xandru Nicolau, 2002II. HotSpot Cache : Joint Temporal and Spatial Locality Exploitation for l-cache Energy Reduction, Chia-Lin Yang, ChieriHao Lee, 200412. K. Ghose, M. Kamble. Reducing Power in Superscalar Processor Caches Using Subbanking, Multiple Line Buffers and Bit-line Segmentation. Proc, of

47、 ISLPED99, San Diego, USA, 1999: 70-7513. Predictive Line Buffer: A Fast, Energy Efficient Cache Architecture,Kashif Ali Mokhtar Aboelaze Suprakash Datta 5 200614. A Low-Power Cache Design for CalmRISCTM-Based Systems Sangyeun Cho, Wooyoung Jung, Yongchun Kim, and Seh-Woong Jeon、g 200115. C. Su and

48、A. Despain, “Cache design tradeoffs for power and performanceoptimization : A Case Study , International Symposium on Low Power Electronics and Design, pp. 63-68,199716. Phased Tag Cache: An efficient Low Power Cache Syste, mRui Min, Wenben Jone, Yiming Hu, 200417. Power-aware deterministic block al

49、location for low-power way-selective cache structure, Jung-Wook,ParkGi-Ho,Park_, SungBae,Park_, ShinDug,Kim , 200418. Brad Calder, Dirk Grunwald, Joel Emer, Predictive Sequential AssociativeCache, the 2nd IEEE International Symposium on High Performs nee ComputerArchitecture, San Jose, pp 244-254,Fe

50、b. 199619. Reducing Power Consumption for High-Associativity Data Caches in EmbeddedProcessors, Dan Nicolaescu Alex Veidenbaum Alex Nicolau, 200320. Low Energy. Highly Associative Cache Design for Embedded Processors AlexVeidenbaum Dan Nicolaescu, 200421. Low-power Way-predicting Cache Using Valid-b

51、it Pre-decision for ParallelArchitecturesF Hsin-Chuan Chen*# and Jen-Shiun Chiang*F 200522. ACCESS-MODE PREDICTIONS FOR LOW-POWER CACHE DESIGN r Zhichun Zhur Xiaodong Zhangr 200223. A Way Memoization Technique for Reducing Power Consumption of Caches in Application Specific Integrated ProcessorsF To

52、hru Ishihara Farzan Fallaht 200524. A Low -Power l-Cache Design with Tag-Comparison ReuseFKoji Ino ue, Hidekazu Tanaka,Vasily G. Moshnyaga Kazualu Murakamri 200525. Lishing Liu, Partial Address Directory for Cache Access IEEE Trans. On VLSI Systems, Vol.2, No.2, June 1994.26. Partial Tag Comparis on: A New Tech no logy for Power-Efficie nt Set-AssociativeCache Desig ns. Rui Min, Zhiyong Xu, Yiming Hu, Wen-ben Jone, 200427. Low Power Set-Associative Cache with Single-Cycle Partial Tag Comparison.Jian Chen, Ruihua Peng, Yuzhuo Fu,200528. A Way-Haiti ng Cache for Low-Ener

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论