流水线与并行处理技术_第1页
流水线与并行处理技术_第2页
流水线与并行处理技术_第3页
已阅读5页,还剩9页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、流水线与并行处理1概述流水线技术导致了关键路径的缩短, 从而可以提高时钟速度或采样速度,或 者可以在同样速度下降低功耗。在并行处理中,多个输出在一个时钟周期内并行 地计算。这样,有效采样速度提高到与并行级数相当的倍数。与流水线类似,并 行处理也能够用来降低功耗。考虑3阶有限冲激响应(FIR)数字滤波器:y(n) = ax( n) + bx( n-1) + cx( n-2)( 1-1)关键路径(或者处理一个新样点所需要的最小时间) 由1个乘法与2个加法 器时间来限定。如果 Tm是乘法所用的时间,Ta是加法操作需要的时间,Tsample是 采样周期,则必须满足:Tsample > Tm +

2、2Ta(1-2)因而,采样频率(f sample)(也称为吞吐率或迭代速率),由下式给出:f sample <1Tm2Ta(1-3)流水线采用沿着数据通路引入流水线锁存器(本人理解是寄存器)的方法来 减小有效关键路径(effective critical path )并行处理提高采样频率是采用 复制硬件的方法,以使几个输入能够并行的处理,而几个输出能够在同一时间产 生出来。2. FIR数字滤波器的流水线y(n)1图2流水线FIR滤波器,其中垂直虚线代表一个前馈割集关键路径现在由Tm + 2Ta减小为Tm + Ta。在这种安排下,当左边的加法器启动 当前迭代计算的同时,右边的加法器正在完成

3、前次迭代结果的计算。必须注意到,在一个M级流水线系统中,从输入到输出的任一路径上的延时 原件数目是(M-1),它要大于在原始时序电路中同一路径上的延时元件数。虽然流水线技术减小了关键路径,但是它付出了增加迟滞(latency )的代价。迟滞 实质上是流水线系统第一个输出数据的时间与原来时序系统第一个输出数据时 间相比的滞后。流水线技术缺点:增加了锁存器数目和增加了系统的迟滞。下面要点需要注意:(1)一个架构的速度(或时钟周期)由任意两个锁存器间、或一个输入 与一个锁存器间、或者一个锁存器与一个输出间、或输入与输出间路径中最长的 路径限定。(2)这个最长的路径或“关键路径”可以通过在架构中适当插

4、入流水线 锁存器来减小。(3)流水线锁存器只能按照穿过任一图的“前馈割集( feed-forward cutset )”的方式插入。割集:割集是一个图的边的集合,如果从图中移去这些边,图就成为不相连 的了。前馈割集:如果数据在割集的所有边上都沿前进的方向移动,这个割集就称为前馈割集。3. 并行技术注意到并行处理与流水线技术互为对偶的这一特点是十分有趣,若一个计算能够排成流水线,它也能并行的处理。两种技术都发掘了计算中可供利用的并发 性,只是方式不同。当一组互不相关的计算能够在一个流水线系统中按交替方式 计算时,则它们也能够利用重复的硬件按并行处理的模式计算。3阶FIR滤波器系统是一个单输入单输

5、出(SISO)系统,可描述如下:y(n) = ax( n) + bx( n-1) + cx( n-2)( 3-1)为了获得一个并行处理结构,SISO系统必须转换为MISO(多输入多输出) 系统。例如,下列方程组描述一个每个时钟周期由 3个输入的并行系统(即并行 处理的级数L=3)。y(3k) = ax(3fc + bx(3k - 1) +- 2)«(3£ + 1 = ax(3k + 1)+ feek) + cx(3k - I)+ 2)= ar(3k + 2)+ bx3k + 1) + cx(3k)此处k表示时钟周期。可以看出,在第 k个时钟周期,有三个输入x(3k), x(

6、3k+1), x(3k+2)被处理,同时输出中产生3个样点。并行处理系统也称为块处 理系统,而每个时钟周期内处理的输入个数被称为块尺寸。由于 MISO的结构, 在任意一条线处插入一个锁存器会产生一个有效延时,等于L个对应于采样率的 时钟周期。每个延时原件称为一个块延时(也称为 L级减慢,L-slow )。例如, 把信号x(3k)延迟一个时钟周期将导致信号 x(3k-3)而非x(3k-1),因为x(3k-1) 已经是另一条输入线的输入。3级并行FIR滤波器的框图架构如图3所示:串行兼统y(呷x(3k+l)MIMO |y(3k+i)*n(3k+2)1y(3fc+2)>3级井行累蜕图3 一个块

7、处理的例子其细节图如图4所示:x(3k+2) x3k+D x(3k>图4块尺寸为3的3阶FIR滤波器的并行结构处理注意,块或并行处理系统的关键路径保持不变,而且时钟周期(Tcik)必须满足:Tcik A T m + 2T a(3-2 )但是,由于3个样点是在同一个时钟周期内而不是三个时钟周期处理的,因此迭代周期由下式确定:11Titer = T sample =Tcik A (T M + 2T A)( 3-3 )L3重要的是要理解在并行系统中Tcik .Tsampie,而在流水线系统中Tcik Tsampie,下图给出了一个完整的并行处理系统,它包含串-并转换器和并-串转换器:采样尚朋时

8、神周期=丁串并转换器二盂SM禹3當«+寿«时钟周»l=T/4图5块尺寸为4的完全并行处理系统其细节如下图所示:x(n)T;4T/4黒样周期T/41" d 一p r-T"* DIm(41c+J)x(4k+2) kHIc+1J时41c)串-并转換器刖 y(4k+2)y4k+l)v(4k>T74T/4TW井-串转换器现在人们会问,当能够用流水线达到同样好的效果时, 为什么还要并行处理呢?为什么要复制和使用这么多硬件呢?回答是,流水线存在一个基本的限制, 就是输入/输出(I/O )的瓶颈问题。考虑图6的芯片组:8ns,那么Tcik必须大于或等于8

9、ns。若关键路径的计算时间小于 8ns,则I/O延时的 限制将占主导地位,该系统为通信受限的系统。这实质上意味着,流水线仅在关 键路径计算时间大于通信或I/O延时边界时才可以使用,一旦达到此边界后,流 水线就不能进一步提高速度了。这时,流水线必须结合并行处理才能进一步提高该架构的速度。作为一个例子,考虑图 7的并行滤波器:图7块尺寸为3的3阶FIR滤波器的并行处理架构假定一个乘法的计算时间(Tm)是10ut ,个加法的计算时间为2ut。细粒 流水线可用到并行滤波器中来进一步缩小关键路径。在这种情况下,乘法器分拆为两个较小的单元ml和m2其计算时间分别为7ut和3ut。流水线锁存器插入 到穿过乘

10、法器的水平割集上,如下图所示。虽然这些水平割集看起来似乎是无效 的,但是实际上它们是有效的,因为去掉这些割集的边就断开了元件间的连接。于是通过并行处理与流水线的结合,采样周期减至:T让"=-Csamp/e =丄1(3-4)并行处理也被通过减慢是中来减少功耗,这种方法减少功耗是由于时钟方面 的原因,相比之下,流水线系统需要工作在更快的时钟下, 才能保持等价的吞吐 率或采样速度。进一步说,更不希望使用细粒度流水线,如位级流水线,因为硬 件开销与迟滞时间都会由于锁存器的显著增加而增加4. 流水线与并行处理的功耗减低利用流水线和并行处理有两个主要的优点:1)高速度2)低功耗由前面章节已经看出

11、流水线与并行处理能够增加采样速度。现在考虑在采样速度不需要增加的情况下如何利用这些技术来降低功耗。回顾一下两个公式,一个是计算 CMO电路传播延时的公式,另一个是计算 功耗的公式。传播延时Tpd与在关键路径上各种晶体管栅极和杂散电容的充放电 荷密切相关,对CMO电路,传播延时可写为:Cch argeV ok(V。-Vt)2(4-1)其中Ccharge表示在单个时钟周期里充放电的电容,即沿着关键路径的电容,V0是电源电压,乂是阈值电压。参数 k是工艺参数卩、W/L和Cox的函数。CMOS 电路的功耗可用下列方程来估计:2P = Ctotal V。f (4-2)其中Ctotal代表电路中的总电容,

12、乂是电源电压,f是电路的时钟频率(3k+2) K(3k+1) x(3k)y(3k+2)»士巴nl2I -rrtlm2<3图8 3阶FIR滤波器细粒度流水线与并行处理相结合的架构4.1用流水线降低功耗:流水线结构可以用来降低FIR滤波器的功耗,令2Pseq = C total V0 f(4一3)表示原始滤波器的功耗。注意f = 1/T seq,其中Tseq原始时序滤波器的时钟周期。现在考虑一个M级流水线系统,其关键路径缩短为原始路径长度的1/M,一个时钟周期内充放电电容减小为Charge/M,注意总电容没有变化。如果时钟速度保持不变,即时钟频率f保持不变,在原来对电容CCharg

13、e充放电的同样时间内, 现在只需对Gharge/M进行充放电,这意味着,电源电压可以降低到BV。,其中B是一个小于1的常数。这样,流水线滤波器的功耗将为:2 2 2Ppip = C total B V。f = B Pseq(4-4)因此,和原始系统相比流水线系统的功耗降低了B2倍。Suq:T斗(% )图9原始系统和3级流水线系统的关键路径功耗降低因子B可以通过考察原始滤波器和流水线滤波器传播时之间的关系来 确定。原始滤波器的传播延时是(4-5)流水线滤波器的传播延时是(4-6)应该注意的是,时钟周期Tcik通常被设置为等于电路中的最大传播延时 Tpd。 因为对于这两个滤波器来说使用相同的时钟速

14、度, 根据上述两个公式,从下列二 次方程可以解出B,(4-7)一旦得到了B,流水线滤波器降低的功耗就可以由下面公式算出:2 2 2Ppip = C total B Vo f = B Pseq(4-8)4.2用并行处理降低功耗和流水线一样,并行处理也可以通过降低电源电压来降低功耗。在一个L路并行系统中,充电电容通常不变,而总电容增大L倍。为了保持同样的采样速 度,L级并行电路的时钟周期必须增加到LTseq,其中Tseq是由公式4-5决定的时序电路的传播延时。这意味着Ccharge的充电时间是LTseq而不是Tseq。换句话说, 同样的电容有了更长的充电时间。这就意味着电源电压可以降低到BV)。1

15、301-3Tseq1111HL=3:图10顺序流水线系统和3级流水线系统的关键路径对传播延时的考虑可以再次用来计算 L级并行系统的电源电压。原始系统的传播延时由公式3-13给出,而L级并行系统的传播延时由下式给出:(4-9)根据公式3-13和3-22可以得到下列二次方程来就出B:= 0(VQ 一 vt)2(4-10)一旦求出B, L路并行系统的功耗可以计算如下:-仏(7恥咻)(0%)=(4-11)其中Pseq是由4-3给出的原始时序系统的功能。所以,和流水线系统一样,L路并行系统功耗为原时序系统的B $倍。4.3流水线和并行处理的结合流水线技术和并行处理技术可以结合起来降低功耗。原理是一样的,即流水 线降低1个时钟周期内充放电电容,而并行处理则增加对原电容的充电放电时钟 周期3T3T3T3T3T图11b)利用3圾井行和两极淒水线在时钟風期期间电客的充敞地并行流水线滤波器的传播延时如下:k(0VQ-Vty根据该方程,得到下列二次方程:(4-13)应该注意的是,电源电压并不能通过使用更多级的流水线和并行处理而无限 地降低,因为存在一个由工艺参数和噪声容限决定的电源电压下限。结论:本节内容介绍了非递归数字滤波器中的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论