(电子科学与技术专业论文)ftc55lp+dsp中位处理单元与双乘累加单元的设计与实现.pdf_第1页
(电子科学与技术专业论文)ftc55lp+dsp中位处理单元与双乘累加单元的设计与实现.pdf_第2页
(电子科学与技术专业论文)ftc55lp+dsp中位处理单元与双乘累加单元的设计与实现.pdf_第3页
(电子科学与技术专业论文)ftc55lp+dsp中位处理单元与双乘累加单元的设计与实现.pdf_第4页
(电子科学与技术专业论文)ftc55lp+dsp中位处理单元与双乘累加单元的设计与实现.pdf_第5页
已阅读5页,还剩99页未读 继续免费阅读

(电子科学与技术专业论文)ftc55lp+dsp中位处理单元与双乘累加单元的设计与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

国防科学技术大学研究生院工学硕士学位论文 a b s t r a c t t h er e s e a r c hw o r ki sp a r to fap r o j e c ta i m e da tt h ed e s i g no fah i g hp e r f o r m a n c e l o w - p o w e r16 - b i tf i x e d p o i n td i g i t a ls i g n a l sp r o c e s s o r ( n a m e df t c 5 5 l p ) t h et a r g e to f f t c 5 5 l pi sc o m p a t i b l ew i t ht m s 3 2 0 c 5 5 xd s p t h i sp a p e rf o c u s e so nt h et o p - d o w n d e s i g na n db o t t o m u pv e i l f i c a t i o no ft w oc o m p u t a t i o nu n i t so ff t c 5 5 l pw h i c ha r e b i t p r o c e s su n i ta n dd u a l m a c ( d u a lm u l t i p l y a c c u m u l a t e ) u n i t t l l r o u g had e e ps t u d yo ft h ea r c h i t e c t u r eo ff t c 5 5 l pa n da l lt h ei n s t r u c t i o n s r e l a t e dt ob i t p r o c e s su n i ta n dd u a l m a cu n i t ,t h ef u n c t i o n a la n ds t r u c t u r a ld e s i g no f t h et w ou n i t sa r ed e s i g n e d b i t p r o c e s su n i tc o n s i s t so ft w os u b u n i t sw h i c ha r ed e d i c a t e db i t f i e l dp r o c e s s o r a n ds h i f tb i t p r o c e s s o r t h eb i t f i e l dp r o c e s s o ri sas p e c i a lh a r d w a r et h a ti m p l e m e n t sb i t c o u n t i n g ,b i t - f i e l de x t r a c t i o n ,b i t f i e l de x p a n d i n ga n de x p o n e n tc o u n t i n g b ya n a l y z i n g a n dc o m p a r i n gv a r i o u sk i n d so fr e a l i z a t i o n ad e d i c a t eb i t f i e l dp r o c e s s o ri sp r e s e n t e di n t h i st h e s i s ,w h i c hi m p l e m e n t sa l lt h es p e c i a lb i t - f i e l df u n c t i o n se f f e c t i v e l yb yu t i l i z i n g d e d i c a t e de x t r a c t o r s ,e x p a n d e r sa n ds e l e c t o r se t c a ni m p r o v e dm u l t i f u n c t i o n a l4 0 一b i t b a r r e ls h i f t e ri sp r e s e n t e di nt h i sp a p e r w h i c hi n h e r i t sa l lt h ea d v a n t a g e so ft r a d i t i o n a l s h i f t e ra n dc a r r i e so u ta l lt h es h i f tf u n c t i o n so ff t c 5 5 l p ,i n c l u d i n ga r i t h m e t i c a l , l o 西c a l ,r o t a r ya n dd u a ls h i f t b e s i d e s ,b yp a r a l l e ls h i f to v e r f l o wd e t e c t i n ga n ds a t u r a t i o n , t h ep a r a l l e l i s mo fd s pi si n c r e a s e da n dt h ep o w e rd i s s i p a t i o ni sr e d u c e de x t r e m e l y ,a n d o p t i o n a lr o u n d i n gi sa d d e dt ot h ed e s i g nt oe n s u r eh i g hc o m p u t a t i o n a lp r e c i s i o n d u a l m a cu n i tc o m p o s e do ft w os i m i l a rm a c s ,e a c ho fw h i c hc a np e r f o r ma l7 - b i t 17 b i tm u l t i p l i c a t i o n ( f r a c t i o n a lo ri n t e g e r ) a n da4 0 b i ta d d i t i o no rs u b t r a c t i o n w i t ho p t i o n a l3 2 4 0 - b i ts a t u r a t i o ni nas i n g l ec y c l e b a s e do n ad e e pr e s e a r c ho ft h ek e y t e c h n i q u e so ff a s tm u l t i p l i e ra n dv a r i o u si m p l e m e n t a t i o no fm u l t i p l y - a c c u m u l a t o r ,a n i m p r o v e dr a d i x4b o o t ha l g o r i t h m ,l i m i t e ds i g ne x t e n d i n gt e c h n i q u ew i t ha m e n d e ds i g n , a n dt h ea l t e r e dw a l l a c et r e ew h i c hc o m b i n e s3 2a n d4 - - 2c o m p r e s s o ra r eu s e dt o i m p l e m e n tt h ee f f i c i e n td u a l - m a cu n i t ,i nw h i c ht h es p e c i a ls i g na m e n d i n gt e c h n i q u e p l a y sa ni m p o r t a n tr o l eo nt h er e a l i z a t i o no fp a r a l l e lo v e r f l o wd e t e c t i o ni nm u l t i p l i c a t i o n b e s i d e s ,b yo p t i m i z i n gt h ea l g o r i t h m ,a no p t i o n a lr o u n d i n g i s i m p l e m e n t e d t h e d u a l m a cu n i ta r c h i t e c t u r ep r o v i d e sh i g l lp e r f o r m a n c ea n dl o wp o w e rd i s s i p a t i o n t h r o u g hi n c r e a s e dp a r a l l e l i s ma n di n c r e a s e dd a t ap r o c e s s i n gt h r o u g h p u tp e rc y c l e t h e nad e t a i l e dt e s ts c h e m ew h i c hh a st h ec h a r a c t e r i s t i c so fm a k i n gt h es u b s y s t e m v e r i f i c a t i o ni n t e g r a t e d f u n c t i o n a lv e r i f i c a t i o nc o m p l e t e da n dd a t av e r i f i c a t i o np e r f e c ti s w o r k e do u t a c c o r d i n gt ot h es c h e m e ,t h et w oc o m p u t a t i o n a lu n i t sa r es i m u l a t e d a n d t h ec o d ec o v e r a g ea n a l y s i si sm a d ew i t hm o d e l s i m i nt h ee n d ,u s i n gd e s i g nc o m p i l e r a n ds i m c0 13 u mc o m sp r o c e s s ,s y n t h e s i so ft h et w oc o m p u t a t i o n a lu n i t sa n dt h e i r s u b - u n i t si sw o r k e do u ta tav o l t a g eo f1 2 v ,at e m po f2 5 a n daf r e q u e n c yo f2 0 0 第i i 页 国防科学技术大学研究生院丁学硕士学位论文 m h z ,t h er e s u l to fw h i c h m e e t st h er e q u i r e m e n t k e yw o r d s :i m p r o v e db a r r e ls h i f t e r ,b i t - f i e l dp r o c e s s ,b i tc o u n t ,b i t f i e l d e x t r a c t ,b i t f i e l de x p a n d ,e x p o n e n tc o u n t ,d u a l m a c ,b o o t h ,w a l l a c et r e e , f u n c t i o n a le m u l a t i o n ,c o d ec o v e r a g e 第i i i 页 国防科学技术大学研究生院工学硕士学位论文 表目录 表1 1 各主要d s p 芯片介绍2 表1 2 通用处理器和d s p 中乘累加运算所需的周期数对比5 表2 1 数据运算部件相关的数据总线1 3 表3 1 补码译码器译码规则3 3 表3 2 改进型桶形移位器的功能与对应的输入3 3 表3 3 第一级4 2 加法器的真值表( c i n = 0 ,i = 0 、4 、8 、3 6 ) 4 0 表3 4 低8 位的指数提取器的真值表4 2 表3 5 四位压缩器的真值表( i - o 、4 、8 或1 2 ) 4 4 表3 6 低八位的8 位压缩器真值表4 5 表3 7 十六位压缩器的真值表一4 6 表3 8 十六位扩展器的真值表4 7 表3 9 低八位8 位扩展器的真值表:4 8 表3 1 0 四位扩展器的真值表( i = o ,4 ,8 ,1 2 ) 4 8 表4 1 改进的基4 布斯编码5 8 表4 2 第i 行第i 列布斯选择器真值表5 9 表5 1 位处理单元的测试方案( 1 3 ) 7 2 表5 2 位处理单元的测试方案( 2 3 ) 7 3 表5 3 位处理单元的测试方案( 3 3 ) 一一3 表5 4 位处理单元仿真中各模块的代码覆盖率统计( ) 一7 6 表5 5 双乘累加单元的测试方案1 2 ( 功能方案) 7 7 表5 6 双乘累加单元的测试方案2 2 ( 数据方案) 7 7 表5 7 双乘累加单元中各模块的代码覆盖率统计( ) 7 9 表5 8 位处理单元与双乘累加单元及其子单元的逻辑综合结果7 9 第1 i i 页 国防科学技术大学研究生院工学硕十学位论文 图目录 图2 1f t - c 5 5 l pd s p 的c p u 结构框图1 4 图2 2 数据运算单元内部的数据通路1 5 图2 3f t - c 5 5 l pd s p 的流水线结构1 6 图2 4 位域压缩图示2 0 图2 5 位域扩展图示2 0 图2 6 位处理单元结构框图2 l 图2 7 双乘累加单元的结构框图2 4 图2 8 两个乘累加并行时共用系数总线的简图2 4 图2 9 全局门控时钟策略2 5 图2 1 0d 单元数据通路简图( 包含时序关系) 2 6 图3 1 全译码方式3 0 图3 2 全编码方式3 0 图3 3 部分译码方式31 图3 4 一般桶形移位器与改进型桶形移位器3 2 图3 5 本文设计的4 0 位改进型桶形移位器3 2 图3 6 计算前导符号位的状态机简图3 4 图3 7 用改进型桶形移位器实现位域压缩3 6 图3 8 位域压缩第一次检测并移位后的结果3 6 图3 9 白色控制模块3 7 图3 1 0 灰色控制模块3 7 图3 1 1 专用的特殊位域处理单元的结构框图3 9 图3 1 2 位计数单元的分组分级实现方式4 0 图3 1 3 利用公共位计数单元实现指数提取4 1 图3 1 4 利用公共位计数单元实现位域压缩4 4 图3 1 5 利用公共位计数单元实现位域扩展4 7 图4 1 进位保留加法器51 图4 2 两个3 2 压缩器构造的4 2 压缩器51 图4 3 超前进位加法器5 2 图4 4 超前进位加法器的p g 组网络5 2 图4 5 乘法器部分积阵列5 3 图4 6 部分积阵列的点图表示5 4 图4 7 阵列乘法器点图5 5 第1 v 页 国防科学技术大学研究生院工学硕士学位论文 图4 8 华莱士树乘法器点图5 6 图4 9 采用4 2 压缩器的二叉树乘法器5 6 图4 1 0 基4 布斯编码器和选择器一5 8 图4 1 l 无符号乘法的带符号扩展基4 布斯编码部分积6 0 图4 1 2 无符号乘法的简化符号扩展基4 布斯编码部分积。6 0 图4 1 3 有符号乘法的基4 布斯编码部分积。6 l 图4 1 4 本文设计的乘加单元中改进的基4 布斯编码部分积。6 1 图4 1 5 带被a n 减数a 的部分积p p 0 p p 8 累加矩阵6 2 图4 1 6 部分积累加阵列的树形排列6 3 图4 1 7 第一步压缩矩阵( 3 2 压缩) 。6 4 图4 1 8 第二步压缩矩阵( 3 2 压缩与4 2 压缩) 6 5 图4 1 9 第三步压缩矩阵与部分积累加阵列的最终输出一6 5 图4 2 0 部分积阵列累加每位列产生结果的时机6 6 图4 2 1 最终加法划分成三组分别相加6 6 图5 1 功能仿真与时序仿真5 6 8 图5 2 搭建测试平台t e s t b e n c h 6 9 图5 3r t l 级功能仿真的流程图一一7 0 图5 4 位处理单元层次化模块组成7 1 图5 5 位处理单元的部分仿真波形图( 1 3 ) 7 4 图5 6 位处理单元的部分仿真波形图( 2 3 ) 7 5 图5 7 位处理单元的部分仿真波形图( 3 3 ) 7 5 图5 8 双乘累加单元的层次化模块组成7 6 图5 9 双乘累加单元仿真波形图( 部分) 7 8 第v 页 独创性声明 本人声明所呈交的学位论文是我本人在导师指导下进行的研究工作及取得的研 究成果尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已 经发表和撰写过的研究成果,也不包含为获得国防科学技术大学或其它教育机构的学 位或证书而使用过的材料与我一同工作的同志对本研究所做的任何贡献均已在论文 中作了明确的说明并表示谢意。 学位论文作者签名: 日期:如。易年1 2 月,6 日 学位论文版权使用授权书 本人完全了解国防科学技术大学有关保留、使用学位论文的规定本人授权国 防科学技术大学可以保留并向国家有关部门或机构送交论文的复印件和电子文档,允 许论文被查阅和借阅;可以将学位论文的全部或部分内容编入有关数据库进行检索, 可以采用影印,缩印或扫描等复制手段保存、汇编学位论文 ( 保密学位论文在解密后适用本授权书) 学位论文题目:至! g 业堕生僮处理望丞生区丞星盘望丞鳆遮i 土皇塞理 学位论文作者签名 作者指导教师签名 日期:嬲年1 2 月j6 日 日期:硎年,彦月钐日 国防科学技术大学研究生院t 学硕+ 学位论文 1 1 1d s p 的发展历程 第一章绪论 1 1d s p 概述 d s p 发展历程大致分为三个阶段:7 0 年代理论先行,8 0 年代产品普及,9 0 年代突飞猛进。在d s p 出现之前数字信号处理只能依靠m p u 来完成。因此,直 到7 0 年代,有人才提出了d s p 的理论和算法基础。 随着大规模集成电路技术的发展,1 9 8 2 年世界上诞生了首枚d s p 芯片。这 种d s p 器件采用微米工艺n m o s 技术制作,虽功耗和尺寸稍大,但运算速度却比 m p u 快了几十倍,尤其在语音合成和编码解码器中得到了广泛。至8 0 年代中期, 随着c m o s 技术的进步与发展,第二代基于c m o s 工艺的d s p 芯片应运而生, 其存储容量和运算速度都得到成倍提高,成为语音处理、图像硬件处理技术的基 础。 8 0 年代后期,第三代d s p 芯片问世,运算速度进一步提高,其应用于范围逐 步扩大到通信、计算机领域。 9 0 年代d s p 发展最快,相继出现了第四代和第五代d s p 器件。现在的d s p 属于第五代产品,它与第四代相比,系统集成度更高,将d s p 芯核及外围元件综 合集成在单一芯片上。 表1 1 所示为对各主要d s p 芯片的介绍。经过2 0 多年的发展,d s p 产品的应 用已扩大到人们的学习、工作和生活的各个方面,并逐渐成为电子产品更新换代 的决定因素。 1 1 2d s p 的优势与特点 当前,数字化的优势是显而易见的,高质量数字音频和视频已经替代了模拟 音频和视频,而且,数字信号处理也比多媒体和语音处理应用更加普及,与g p p 相比,d s p 以其实时性、灵活性、可编程性以及低功耗等优势,在数字信号处理 领域得到了广泛应用。具体而言,d s p 的优势或说特点有以下几点t 1 ) r i s c 指令集 一般d s p 处理器具有高度专门化、复杂且不规则的指令集,这样单个指令字 可以同时控制片内多个功能单元操作。d s p 处理器指令集在设计时有两个特点: 其一是最大限度的使用了处理器的硬件资源,因此往往是在单个指令中并行完成 若干操作。例如在完成主要算术运算的同时,并行地从存储器提取一个或两个数 据以及完成地址指针的更新。其次是指令所使用的存储空间减到最小,为缩短指 第1 页 国防科学技术大学研究生院工学硕士学位论文 令字长,往往用状态寄存器的模式来控制处理器的操作特性,例如舍入或饱和的 处理,而不再将这些信息作为指令的一部分来处理。 表1 1 各主要d s p 芯片介绍 厂家d s p 型号定点脬点字长 指令长度频率 a d s p 2 l x x f i x e d1 62 47 5 a d s p 2 1 0 6 x f l o a t i n g 4 04 86 0 a n a l o g d e v i c e s a d s p 2 11 6 x f l o a t i n g 4 04 81 0 0 t i g e r s h a r c f i x e d f l o a t3 23 22 5 0 a r m p i c c o l o f i x e d1 61 6 3 27 0 m mc 5 4 x d s pf i x e d1 61 66 6 z s pc o r p o r a t i o nz s p l 6 4 x xf i x e d1 61 6 2 0 0 d s p l 6 x xf i x e d1 61 6 1 2 0 l u c e n t t e c h n o l o g i e s d s p l 6 x x xf i x e d 1 61 6 3 21 0 0 d s p 5 6 0 ) ( ) 【f i x e d2 42 44 7 5 d s p 5 6 3 ) ) 【f i x e d2 4 2 41 0 0 m o t o r o l a d s p 5 6 6 ) 【) 【f i x e d1 62 47 0 d s p 5 6 8 ) ( ) 【f i x e d1 61 63 5 t m $ 3 2 0 c l xf i x e d1 61 68 8 t m $ 3 2 0 c 2 xf i x e d1 61 61 2 5 t m $ 3 2 0 c 2 x xf i x e d1 61 6 4 0 t m $ 3 2 0 c 2 7 x xf i x e d1 61 6 5 0 t m $ 3 2 0 c 3 x f l o a t i n g 3 23 24 0 t e x a $ i n s t r u m e n t s t m s 3 2 0 c 4 x f l o a t i n g 3 23 23 0 t m $ 3 2 0 c 5 xf i x e d1 61 65 0 t m $ 3 2 0 c 5 4 xf i x e d1 61 6l o o t m $ 3 2 0 c 5 5 xf i x e d1 68 1 6 2 4 3 2 4 0 4 83 0 0 t m $ 3 2 0 c 6 2 x xf i x e d1 63 22 0 0 t m $ 3 2 0 c 6 7 x x f l o a t i n g 3 2 3 21 6 7 2 ) 哈佛结构或改进的哈佛结构 d s p 处理器几乎毫无例外的采用哈佛结构。哈佛结构把程序代码和数据的存 储空间分开,并有各自的地址和数据总线,每个存储器独立编址,用独立的一组 程序总线和数据总线进行访问。 如果程序代码存储空间与数据存储空间之间还可以进行数据交换,则称为改 进的哈佛结构。这种结构可以并行进行数据操作。例如在做数字滤波时把系数放 在程序空间,待处理的样本数据放在数据空间,处理时可以同时提取滤波器系数 和样本进行乘法和累加操作,从而大大提高运算速度。 改进哈佛结构还可以从程 序存储区来初始化数据存储区,或把数据存储区的内容转移到程序存储区,这样 第2 页 国防科学技术大学研究生院工学硕十学位论文 可以复用存储器,降低成本,提高存储器使用效率。 3 ) 高速运算 为了适应数字信号处理的需要,当前的d s p 芯片都配有专用的硬件乘法一累 加器,可在一个周期内完成_ 次乘法和一次累加操作,从而可实现数据的乘法一 累加( m a c ) 操作。如矩阵运算、f i r 和i i r 滤波、f f t 变换等专用信号的处理。 有的d s p 还具有多组m a c 结构,= 可以并行处理。 4 _ ) 流水线操作7 计算机在执行一条指令时,要通过取指、译码、取数、执行等各阶段。由于 d s p 哈佛结构指令的各个阶段可以重叠进行,这样每一条指令似乎都是在一个周 期内完成,从而把指令周期减到最小,增加数据吞吐量。 这种流水线操作也不是十全十美的,其主要原因是,一项处理很难被分解成 若干个处理规模一致、在时间土有最佳配合的流水段,因而需要用寄存器协调流 水线工作。 流水线操作适用于循环操作时间足够长或多个数据点反复执行同一指令的情 况。这是由于,流水线启动和停止的阶段是流水线逐步被填满和出空的过程。对 于一次性非重复计算,流水线不可能达到稳态,反而用主要时间做填满和出空操 作,因而是不合适的。 研并行处理 d s p 高效处理能力的另一个关键原因在于它能够在同一时间内处理多个操 作,从而提高每个任务的处理速度,比如t i 公司的t m s 3 2 0 c 6 4 x 提供了四个乘累 加单元,使得d s p 在单周期内就可以完成四次乘累加运算,比起g p p 四次乘累加 运算需要耗费2 4 个时钟周期,d s p 的性能优势是相当明显的。 回多总线结构 d s p 芯片都采用多总线结构,可同时进行取指令和多个数据存取操作,并由辅 助寄存器自动增减地址进行寻址,使c p u 在一个机器周期内可多次对程序空间和 数据空间进行访问,这就大大提高了d s p 的运行速度。对于d s p 芯片,内部总线 是个十分重要的资源,总线越多,可以完成的功能就越复杂。 乃快速的指令周期 由于采用了哈佛结构、流水线操作、专用的硬件乘法器、特殊的指令及集成 电路的优化设计,从而大大减少了单指令的执行周期。 8 ) 零开销循环 d s p 的一个典型功能或算法是关键循环,比如一个音频转换应用中,要把声 音转换成更低码率的数据流需要进行上千次乘累加运算,这个算法在d s p 代码中 虽然只需要寥寥数行循环语句,但却需要d s p 在循环中大量地执行,在g p p 中, 第3 页 国防科学技术大学研究生院工学硕士学位论文 关键循环的实现往往需要耗费大量开销用于管理循环,d s p 为了消除这些开销, 使用专门的硬件结构提供零开销循环,使得d s p 能将更多的时间用于处理数据, 而不是浪费在管理循环上。 9 ) 硬件循环寻址:循环缓冲 d s p 为了加快诸如滤波等复杂功能的实现,需要使用硬件循环寻址,这往往 用循环缓冲器来实现,g p p 中一个循环缓冲器需要额外的代码开销,并且每次用 到循环缓冲时都需要执行额外的指令,而大部分d s p 为了消除这种多余的开销; 用硬件实现循环缓冲器,这样不仅可以增加d s p 处理数据的效率,同时简化了代 码并节省了存储开销。 1 0 ) 硬件配置强 新一代的d s p 芯片具有较强的接口功能,除了具有串行口、定时器、主机接 口、d m a 控制器、软件可编程等待状态发生器等片内外设外,还配有中断处理器、 p l l 、片内存储器、测试接口等单元电路,可以方便地构成一个嵌入式自封闭控制 的处理系统。 1 1 ) 支持多处理器结构 尽管当前的d s p 芯片已达到较高的水平,但在一些实时性要求很高的场合; 单片d s p 的处理能力还不能满足要求。如在图象压缩、雷达定位等应用中,若采 用单处理器将无法胜任。因此,支持多处理器系统就成为提高b s p 应用性能的重 要途径之一。由于支持多处理器结构,可以实现完成巨大运算量的多处理器系统, 即将算法划分给多个处理器,借助高速的通信接口来实现计算任务并行处理的多 处理器阵列。 1 2 ) 省电管理和低功耗 d s p 功耗一般为o :2 5 , , , 4 w ,若采用低功耗技术可使功耗降到0 1 w 以下,可用 电池供电,适用于便携式数字终端设备。 1 1 3d s p 中的乘累加单元 。 数据运算部件是d s p 的核心,它对芯片的性能、面积和功耗具有很重要的影 响,而乘累加单元是数据运算单元的心脏,体现了d s p 数据运算的性能。 乘法器发展的里程碑是a d b o o t h 在1 9 5 1 年提出的布斯编码算法和w a l l a c e 在1 9 6 1 年提出的树型压缩,随后1 9 6 1 年0 1 m c s o d e y 对布斯算法进行了改进,提 出了基4 的布斯算法,这种方法使得部分积数目减少一半。1 9 6 5 年d a d d a 提出了 ( r 9 ) 计数器的概念,可将3 :2 计数器推广到4 :2 ,5 :2 和9 :2 等,进一步减少了华莱 士树所需的计数器个数。在乘法器拓扑结构方面,进入上世纪九十年代之后,进 位保留加法被广泛使用,双阵列、高阶阵列用于提高阵列拓扑结构的速度。s h e n 第4 页 国防科学技术大学研究生院工学硕士学位论文 和w e i n b e r g e r 提出了4 ;2 压缩器用于构成较华莱士树更规整的二进制树,延迟平衡 树由z u r a s 和m c a l l i s t e r 首先提出,倒阶梯树也用于改善树型结构的规整性。与此 相应的,可用于乘法器最终加法的各种加法器结构也是层出不穷。 d s p 之所以适合实时数字信号处理,很大一部分原因在于它的快速运算能力, d s p 快速运算的核心就是乘累加( m a c ,m u l t i p l y - a c c u m u l a t e ) 单元,因为大多 数的数字信号处理都要使用大量的乘法和累加操作,如r e s u l t = x l 宰e l + x 2 木e 2 + x 3 幸c 3 + + ) 【i l 宰e l l ,虽然可以用一个乘法器和一个加法器来完成,但是为了提高 乘加单元的整体性能,常常使用m a c 单元,最早提出融合乘加的是i b m 的m o n t o y 和h o k e n e k s ,把被加数或被减数作为乘法器的一个部分积,参与部分积的累加, m a c 较分离的乘法和加法有两个优点:第一,用分离的乘法和加法完成乘加操作 需要两次舍入,而融合乘加只需要一次舍入,提高了计算的精度;第二,由于融 合的加法和乘法共用一些部件减少了操作的延时,也减少了硬件的面积。由于m a c 单元只是对普通的乘法器做了简单的修改,即在原阵列乘法器的基础上,只需增 加一级c s a 延时就可以完成这项额外的部分积相加,因此它的速度会快得多,如 表1 2 所示【2 】,一般通用处理器需要6 个周期完成的乘累加运算,d s p 仅仅需要1 个周期就能完成,大大提高了这类运算的速度。 表1 2 通用处理器和d s p 中乘累加运算所需的周期数对比 乘法加法 乘累加 通用处理器所需要的周期数 ( 与具体的通用处理器有关) 516 d s p 所需要的周期数 1 目前,t i 公司的c 6 4 系列芯片与a d 公司的t i g e r s h a r c ,b l a c k e n 系列 是业界高性能d s p 芯片的领衔,t i 的t m s 3 2 0 c 6 4 x d s p 是基于业界最高性能d s p 内核的首批器件,功率为第一代c 6 0 0 0 d s p 器件的1 3 。新型c 6 4 x t m d s p 采用先 进超长指令字( v l i w ) 结构,内核采用了双m a c ,8 个功能单元能够在单个周期内 执行4 组1 6 位m a c 运算或8 组8 位m a c 运算,1 6 位乘法的运算速率是c 6 2 x c 6 7 x 的两倍;在6 0 0 m h z 的时钟频率下每秒能执行2 4 0 0 兆1 6 位m a c s 或4 8 0 0 兆8 位m a c s 。其中c 6 4 1 6 的最大处理能力为4 8 0 0 m i p s ,是1 9 9 7 年推出的c 6 2 0 1 处 理能力的3 倍多,执行1 0 2 4 点复数f f t 的时间为1 0 0 0 3 9 s ,比c 6 2 0 1 快了6 倍多: c 6 4 x d s p 内核时钟可升级到高于1 1 g h z ,并可扩展到足以支持有效的多内核设计。 a d 公司的t i g e r s h a r c 时钟频率为6 0 0 m h z ,每周期能执行8 组1 6 位m a c 运算, 即4 8 0 0 兆m a c s ,1 6 砬乘法能力是t ic 6 4 x 的两倍。a d 公司的另一款芯片 b l a c k f i n 的d s p 内核采用a d i 和i n t e l 联合开发的微信号结构( m s a ) ,运算 单元包含了2 个1 6 位乘法器,2 个4 0 位的累加器,2 个4 0 位的a l u ,4 个视频 a l u 和1 个4 0 位移位器,采用r i s c 类型的寄存器和指令模型。运算单元可以处 第5 页 国防科学技术大学研究生院t 学硕十学位论文 理来自寄存器堆的8 位、1 6 位或者3 2 位数据。b l a c k f i n 系列d s p 的m a c 每 个时钟周期可以完成一次1 6 位乘1 6 位的乘法运算,并把结果累加到4 0 位的累加 器中。芯片采用0 1 8 0 1 3 u m 的集成电路工艺制造,最高工作频率可达6 0 0 m h z , 峰值运算能力达到12 0 0 m m a c 2 3 1 。 1 1 4d s p 中的位处理单元 一般的位处理单元是指移位器,和其它运算部件一样,移位器也有结构从简 单到复杂之分、性能从差到好之别。起初的移位器一般是用寄存器组成,故又叫 移位寄存器,这种移位器延迟大,级数多,而且每次移的位数很有限。随着处理 器的快速发展,为满足高性能运算要求,移位器也发展到了全译码和部分译码桶 形移位器,这类移位器主要是基于选择开关实现的,功耗面积延迟都有大幅度的 改善。后来又提出了混合译码结构的桶形移位器,该移位器结合了全译码和部分 译码的优点,不仅移位级数少,移位阵列的管子数少,而且延迟也得到了改善。 上述三移位器一般比较适合单一移位功能,为了实现多种移位功能,一种方法就 是通过对基于选择开关移位器作一定的修改来实现,另_ 种方法就是通过掩码的 方法来实现。 由于移位器是各种处理器中不可缺少的一个功能运算单元,其研究也变得多 种多样,在【不同的时期与不同的应用背景下,有不同移位器的研究,以下列举部 分研究情况: r p e r e i r a ,j a m i t c h e l l ,j m s o l a n a 用t s p c 电路结构设计了一个1 6 位的逻辑、 循环移位器,该设计在1 5 u r n 工艺下测试得出其可工作频率达到0 10 m 赫兹【1 1 ; 针对以往的移位网络开关速度慢的特性,g m t h a r a k a , s m k a n g 等提出了一种 快速的移位网络【1 1 j ; 基于功耗方面的考虑,k e v i np a c k e n ,m a r yj a n e ,i r w i nr o b e r t ,m o w e n s 等人设 计了不同类型选择开关,并对比了各种电路结构的功耗【1 2 】; 随着各个方面应用需求,移位器的实现功能也多种多样,它不仅要实现简单的 逻辑移位,还有实现算术移位和循环移位等,且对移位结果赋予一定的标识位, 如零标识位和溢出标识位等。m a t t h e wr p i l l m e i e r 在前人的基础上研究了基于 选择开关的移位器、基于掩码的补码移位器、基于掩码的反码移位器以及基于 掩码的选择开关移位器【1 3 】【1 4 】,文献 1 5 】描述了用少位数移位器构造多位数移位 器等; 另外,在本文设计的位处理单元,不仅只有移位器,还包括一个特殊位域处 理器,特殊位域处理是专用指令,在一些计算量很大的通信应用中,数字信号处 理器需要有快速的特殊位域处理的能力【1 6 】,因此在高端数字信号处理器芯片中, 第6 页 国防科学技术大学研究生院工学硕士学位论文 都加入了一些与应用相关的专用特殊位域处理指令,如t ic 5 5 x 的b f x t r 和 b f x p a 指令i 巧j 、m o t o r o l a5 6 x 系列的e x t r a c t 和i n s e r t 指令【1 。7 】等,而且这 种趋势越来越明显【1 8 1 1 9 2 0 。由于大多数e d a 公司提供的标准算术逻辑运算单元 库中没有实现这些指令功能的单元,设计实现这些特殊位域处理指令功能的特殊 位域处理单元成了高性能d s p 设计中的重要问题,也是本文研究的重点之一。 1 1 5d s p 的应用和发展趋势 专应用跨越广泛行业、应用领域丰富 数字信号处理已成为数字革命的基础。在手机的核心部分、音频和视频播放 器、数码摄像机、电话基础设施、电机控制系统、甚至生物辨识安全设备中,都 能找到d s p 的身影,而且不同性能和功能的d s p 适用的具体领域各不一样,如 t i 的t m s 3 2 0 c 2 0 0 0 t m 平台融合了类似m c u 的控制功能与d s p 的高性能,理想适 用于嵌入式工业应用,如数字马达控制、数字电源以及智能传感器等,而c 6 0 0 0 t m d s p 平台可提供业界最高性能的定点与浮点d s p ,理想适用于视频、影像、宽带 基础局端以及高性能音频等应用领域。d s p 是跨越广泛行业的基本技术,这些应 用的开发人员如果不采用d s p 技术,很快就会发现他们无法创造出有竞争力的产 品。 夸发展趋势高性能、低功耗d s p 从2 0 世纪8 0 年代初到9 0 年代初的1 0 年里,微电子领域的很多研究工作都 集中到了数字系统速度的提高上,现如今的技术拥有的计算能力能够使强大的个 人工作站、复杂实时语音和图像识别的多媒体计算机的实现成为可能。高速的计 算能力对于百姓大众来说是触指可及的,不像早些年代那样只为少数人服务。另 外,用户希望在任何地方都能访问到这种计算能力,而不是被一个有线的物理网 络所束缚。便携能力对产品的尺寸、重量和功耗加上严格的要求。由于传统的镍 铬电池每磅仅能提供2 0 w h 的能量,因而功耗就变得尤为重要。电池技术正在改 进,每5 年最大能将电池的性能提高3 0 ,然而其不可能在短期内显著地解决现 在正遇到的功耗问题。 虽然传统可便携数字应用的支柱技术已经成功地用于低功耗、低性能的产品 上,诸如电子手表、袖珍计算器等等,但是有很多低功耗、高性能可便携的应用 一直在增长。例如,正在迅速发展的个人通信领域,如采用了复杂语音编解码算 法和无线电调制解调器的带袖珍通信终端的新一代数字蜂窝网。已提出的未来个 人通信服务p c s ( p e r s o n a lc o m m u n i c a t i o ns e r v i c e s ) 应用对这些要求尤其明显,通 用可便携多媒体服务是要支持完整的数字语音和图像辨别处理的。在这些应用中, 不仅语音,而且数据也要能在无线链路上传

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论