（电子科学与技术专业论文）高性能定点yhft+dxdsp指令控制部件的研究与实现.pdf

上传人：扣*** IP属地：宁夏上传时间：2019-12-13 格式：PDF 页数：89 大小：5.16MB 积分：0 举报 版权申诉

（电子科学与技术专业论文）高性能定点yhft+dxdsp指令控制部件的研究与实现.pdf_第2页

（电子科学与技术专业论文）高性能定点yhft+dxdsp指令控制部件的研究与实现.pdf_第3页

（电子科学与技术专业论文）高性能定点yhft+dxdsp指令控制部件的研究与实现.pdf_第4页

（电子科学与技术专业论文）高性能定点yhft+dxdsp指令控制部件的研究与实现.pdf_第5页

已阅读5页，还剩84页未读，继续免费阅读

（电子科学与技术专业论文）高性能定点yhft+dxdsp指令控制部件的研究与实现.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

国防科学技术大学研究生院硕士学位论文 a b s t r a c t t h ed e v e l o p m e n to fi n f o r m a t i o n s o c i e t y ，t o s o m ee x t e n t ，d e p e n d so nt h e a d v a n c e m e n to ft h ei n f o r m a t i o na n ds i g n a lp r o c e s s i n gt e c h n i q u e s a st h ec o r eo fd i g i t a l s i g n a lp r o c e s s i n g ，t h ea p p l i c a t i o n so ft h ed i g i t a ls i g n a lp r o c e s s o r ( d s p ) h a v eb e e n w i d e s p r e a da n dp r o f o u n da p p l i e di nm a n ya r e a ss u c ha sa e r o s p a c e ，a v i a t i o n ，r a d a r ， s o n a r ，c o m m u n i c a t i o n s ，a n dd o m e s t i ca p p l i a n c e sw h i c hh a sb e c o m et h eh e a r to f e l e c t r o n i cs y s t e m s t h ed e v e l o p m e n to fh i g h - p e r f o r m a n c ed s pp l a y sa ni m p o r t a n tr o l e i np r o m o t i n gt h e s et e c h n o l o g i e s y h f td x + d s pi sat y p eo fh i g h - 疔e q u e n c y ，h i g h p e r f o r m a n c e3 2 一b i tf i x p o i n t d s pw h i c hi sd e s i g n e di n d e p e n d e n t l yb yn a t i o n a lu n i v e r s i t yo fd e f e n s et e c h n o l o g y i t a d o p t se i g h t - i s s u ev l i wa r c h i t e c t u r ea n dc o m p a c ti n s t r u c t i o ns e t t h ee i g h te x e c u t i o n u n i t ss h a r e ds i x t y f o u rg e n e r a l p u r p o s er e g i s t e r s i tc a ni s s u ee i g h tp a r a l l e li n s t r u c t i o n s s i m u l t a n e o u s l y ，w h i c hc o m p o s e do f16 b i tc o m p a c ti n s t r u c t i o na n d3 2 b i tr i s c l i k e i n s t r u c t i o n i tu s e dh a r d v a r da r c h i t e c t u r e ，t w o s t a g ec a c h ea n d5 0 0 m h z 厅e q u e n c y i t s p e a ko p e r a t i o ns p e e dc a nr e a c h e s4 0 0 0 m i p sa n dh a sas t r o n gd a t ap r o c e s s i n gc a p a b i l i t y t h er i c hp e r i p h e r a lr e s o u r c e sa r ei n t e g r a t e do n o n ec h i p 刀搀p a p e rm a i n l yf o c u so nt h ei n s t r u c t i o nc o n t r o la n do p t i m i z a t i o nt e c h n o l o g yo f t h ey h f td x + d s p i tc o m p l e t e dt h ed e s i g n ，v e r i f i c a t i o na n ds y n t h e s i so ft h e h i g h - f r e q u e n c y ，h i g h - p e r f o r m a n c ei n s t r u c t i o nc o n t r o lu n i tw h i c hi ss u i t a b l ef o rt h i sd s p t h em a j o rp a r to ft h er e s e a r c hw o r ki sa sf o l l o w s ： 1 t h ea r c h i t e c t u r ec h a r a c t e r i s t i c so ft h em a i n s t r e a mh i g h p e r f o r m a n c ed s ph a s b e e na n a l y z e d t h eh i g hp e r f o r m a n c et e c h n o l o g i c a lr e l a t e dt ot h i sp a p e ra n ds o m e r e l a t i v er e s e a r c ha th o m ea n da b r o a dh a sb e e ns u m m a r i z e d 2 t h es y s t e ms t r u c t u r ed e s i g na n da n a l y s i sw a sf i n i s h e d i tf o c u s e so nt h ey h f t d x + d s pi n s t r u c t i o ns e t t h es t r e n g l 【h e ni n s t r u c t i o na n dc o m p a c ti n s t r u c t i o nh a sb e e n a n a l y z e d ，t h ef u n c t i o np a r t i t i o no ft h ep i p e l i n ew a sg i v e n 3 t h r e ek e yf a c t o r sw h i c ha f f e c tt h ep e r f o r m a n c ew a sa n a l y z e d b a s e do nt h e a r c h i t e c t u r ec h a r a c t e r i s t i c s ，t h et w o l e v e li n s t r u c t i o nd i s p a t c hw i n d o ww a sg i v e n t h e i m p r o v e do r d e r e dm e t h o d a n ds o m eo p t i m i z i n g s t r a t e g i e s w e r ep r o p o s e d t h e b o u n d a r y - - s p a nd i s p a t c h o f m i x e d - l e n g t h i n s t r u c t i o na n dt r e a t m e n to fn o - u n i t i n s t r u c t i o n sb e f o r ee x e c u t i o nh a v e b e e nf i n i s h e d 4 t h ep r i n c i p l e sa n dm e t h o d so ft h eb a s i cd e c o d e rw a sa n a l y z e d b a s e do nt h r e e s t r a t e g i e st oi m p r o v et h ed e c o d e r ，t h ea b s o l u t ed e c o d i n gs p e e d ，b a l a n c e dp i p e l i n ea n d e x p a n d i n g t h eh a r d w a r eh a v e b e e ni n c r e a s e d c o m b i n e dw i t ha r c h i t e c t u r e c h a r a c t e r i s t i c s ，ad i s t r i b u t e dd u a l - c h a n n e lh i g h p e r f o r m a n c ed e c o d e rh a sb e e nd e s i g n e d 5 t h em a i nv e r i f i c a t i o nm e t h o d sa n ds t r a t e g i e so ft h ec u r r e n tm i c r o p r o c e s s o r d e s i g nh a sb e e ns t u d i e d t h em o d u l e l e v e la n du n i t l e v e lv e r i f i c a t i o no ft h ed e s i g nw a s 第i i 页国防科学技术大学研究生院硕士学位论文 f i n i s h e d b a s e do ns o f t w a r ec o - o p e r a t i v es i m u l a t i o nv e t i f i c a t i o na n ds y s t e mv e r i f i c a t i o n f l a t f o r m ，t h ef u l l c h i pf u n c t i o nv e r i f i c a t i o nh a sb e e na c c o m p l i s h e d t h es y n t h e s i s ， o p t i m i z a t i o ns t r a t e g i e sa n dt h er e s u l t sw a sg i v e na tl a s t t h er e s u l t ss h o w e dt h a tt h ed e s i g no fi n s t r u c t i o nc o n t r o lu n i tc o m p l e t e l yc o n f o r m s t ot h eh i g h - f r e q u e n c ya n dh i g h - p e r f o r m a n c ed e s i g nr e q u e s t so fy h f td x + d s p k e yw o r d s ：d i g i t a ls i g n a lp r o c e s s o rd s p ，v e r yl o n gi n s t r u c t i o nw o r d v l i w ，c o m p a c ti n s t r u c t i o ns e t ，b o u n d a r y s p a ni n s t r u c t i o nd i s p a t c h 。z e r o l e v e l i n s t r u c t i o nc a c h e ，d i s t r i b u t e dd u a l c h a n n e ld e c o d i n g 第i i i 页国防科学技术大学研究生院硕十学位论文表目录表2 1 控制寄存器1 4 表2 2 复数乘法的一般实现2 0 表2 3 复数乘法的增强指令实现2 0 表2 4 增强指令与非增强指令的算法实现对比片段。2 0 表2 5a m r 寄存器各域值含义2 6 表2 6 寻址模式的意义2 6 表2 7l o a d s t o r e 类指令访问数据存储器寻址模式2 7 表2 8 寻址模式域m o d e 与对应的地址生成选择2 7 表3 1采用紧凑指令集前后的代码压缩比5 3 表3 2 支持紧凑指令集的跨边界派发与固定字长指令跨边界派发的性能比较5 3 表3 3 派发站设计复杂度对比5 4 表4 1功能单元的映射关系6 1 表4 2 无单元指令域分配表6 l 表4 3 循环中断异常类无单元指令域分配表6 1 表4 4 译码器性能评测6 4 表5 1 综合环境描述7 2 表5 2 设计规则约束举例7 4 表5 3 综合结果7 5 第1 v 页国防科学技术大学研究生院硕十学位论文图1 1 图1 2 图1 3 图1 4 图2 1 图2 2 图2 3 图2 4 图2 5 图2 6 图2 7 图2 8 图2 9 图2 1 0 图2 1 l 图2 1 2 图2 1 3 图2 1 4 图2 1 5 图3 1 图3 2 图3 3 图3 4 图3 5 图3 6 图3 7 图3 8 图3 9 图3 1 0 图3 “ 图3 1 2 图3 1 3 图目录 p i c o a r r a y 多重核心处理器阵列元件3 t m s 3 2 0 c 6 4 x + 的两种取指包9 程序在内核中的存储9 取指包和执行包位置关系示意图l o y h f td x + d s p 处理器结构框图13 混合型取指包示意图15 典型固定字长指令格式2 l 紧凑型取指包2 3 包头指令格式2 4 包头辅助译码信息2 4 取指包中压缩指令的并行信息2 4 典型压缩指令格式2 5 物理内存视图2 7 内存视图的变化2 7 同步流水线结构2 9 流水线示意图3 0 取指部件的功能示意图3 l 单周期和两周期指令执行3 2 三周期存储指令四周期乘法指令和五周期读取指令执行3 2 取指前三站功能简略示意图3 3 取指各站模块功能图3 4 p f r 站流水线功能示意图3 5 紧凑型取指包的并行信息判断3 6 并行检测逻辑3 7 i d 编码原理图3 8 紧凑型取指包的分支有效位产生一3 9 p f rf e t c h 整体结构3 9 d d p 站流水线功能详细示意图4 0 三种派发模式对比4 l 派发状态示意图4 2 混合取指包跨边界派发( 派发起点在b u f 中) 4 3 混合取指包跨边界派发( 派发起点在l a t c h 中) 4 4 第v 页国防科学技术大学研究生院硕士学位论文图3 1 4 图3 1 5 图3 1 6 图3 1 7 图3 1 8 图3 1 9 图3 2 0 图3 2 1 图3 2 2 图3 2 3 图3 2 4 图4 1 图4 2 图4 3 图4 4 图4 5 图5 1 图5 2 图5 3 一级派发窗示意图4 5 特殊情况下的一级派发窗4 6 按行派发指令窗4 6 3 2 位指令的排序分派法示意图4 7 执行包结构图4 8 改进后的排序分派法4 8 零级指令缓冲外部关系示意图5 0 循环体的软件流水5 1 零级指令缓冲的硬件结构图5l 二级指令派发窗5 3 归一化性能对比5 4 分布式双通道译码图示5 9 p f r 站1 6 位指令的译码后格式6 0 p f r 站3 2 位指令的译码后格式6 2 p f r 站包头指令的译码后格式6 3 按行的第二级译码6 3 系统级协同模拟验证7 0 全芯片模拟验证环境平台7 l 综合过程一7 2 第v l 页独创性声明本人声明所呈交的学位论文是我本人在导师指导下进行的研究工作及取得的研究成果尽我所知，除了文中特别加以标注和致谢的地方外，论文中不包含其他人已经发表和撰写过的研究成果，也不包含为获得国防科学技术大学或其它教育机构的学位或证书而使用过的材料与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意学位论文题目：直性丝定点羔望堕旦茎q 苎撞佥控剑壑住煎珏究量塞趣学位论文作者签名：醯日期： 2 叩7 年，2 月二7 日学位论文版权使用授权书本人完全了解国防科学技术大学有关保留、使用学位论文的规定。本人授权国防科学技术大学可以保留并向国家有关部门或机构送交论文的复印件和电子文档，允许论文被查阅和借阅；可以将学位论文的全部或部分内容编入有关数据库进行检索，可以采用影印、缩印或扫描等复制手段保存、汇编学位论文 ( 保密学位论文在解密后适用本授权书。) 学位论文作者签名：堑墨作者指导教师签名：日期：日期： 1罗月月 f 年年口，，叻嗽州国防科学技术大学研究生院硕七学位论文第一章绪论目前，各种嵌入式系统被广泛地应用于科学研究、工程设计、军事技术、商业文化艺术、娱乐业等众多方面，逐渐改变着人们的生活方式。随着嵌入式系统的广泛应用，与其相关的d s p ( d i g i t a ls i g n a lp r o c e s s i n g ) 技术也随之发展起来1 2 j 。它拥有强大的算术运算能力：其内部采用不同于通用微处理器的体系结构，提供特殊的专用指令以加速傅立叶变换和卷积等常用d s p 算法【3 】。本人参与了高性能 y h f td x + d s p 芯片的研制工作，本文的书写以指令控制部件的研究为背景，分析紧凑增强型指令集，并在此基础上，完成紧凑指令集的取指、跨边界派发及分布式双通道译码，给出各个部分的性能评测及指控总体性能分析。本章首先讲述了d s p 的概况，列举主流高性能d s p 内核结构类型特征，分析本课题研究中涉及到的，提高内核性能的关键技术手段，在国内外相关的研究应用情况。接着提出了本文的研究背景、意义和内容，最后介绍本文的主要工作和结构。 1 1d s p 概论 1 1 1d s p 发展历程及特点数字信号处理器( d s p ，即d i g i t a ls i g n a lp r o c e s s o r ) 是进行数字信号处理的专用芯片，是伴随着微电子学、数字信号处理技术、计算机技术的发展而产生的新器件。d s p 可以快速的实现对信号的采集、变换、滤波、估值、增强、压缩、识别等处理，以得到符合人们需要的信号形式t 3 儿训。当前应用于很多d s p 中的技术有：哈佛体系结构、多总线结构、流水线技术、 d s p 专用的指令集、专用的乘累加单元、片内外设、片上存储器高速缓存、低功耗、扩展并行技术等。 d s p 芯片的发展分为三个阶段1 4 j ： 1 9 7 8 年a m i 公司产出世界上第一片d s p 产品$ 2 8 1 1 ，1 9 8 2 年t i 公司首次推出采用哈佛结构性能较好、实用性强、通用定点d s p ，型号t m s 3 2 0 1 0 芯片。2 0 世纪8 0 年代初至9 0 年代初，划定为d s p 芯片发展的初级阶段。这一阶段典型的产品有：t i 公司的t m s 3 2 0 1 0 2 0 c 2 5 c 3 0 c 5 0 c 4 0 系列；美国m o t o r o l a 公司的 d s p 6 0 0 0 系列；美国a d i 公司的a d s p 2 1 0 0 系列：美国a t & t 公司的d s p l 6 3 2 系列；英国i n m o s 公司的采用t r a n s p u t 结构的t 2 x x 厂r 4 x x 系列等。 d s p 芯片发展的中级阶段，2 0 世纪9 0 年代初至9 0 年代末。侧重于d s p 单芯片性能的进一步提高，多个d s p 运算单元的并行处理，超高性能d s p 芯片的研究第l 页国防科学技术大学研究生院硕十学位论文和产品推出，以及d s p 芯片和系统应用的发展。典型的产品有：t m s 3 2 0 c 6 0 0 0 系列，采用多级流水线和高并行度的超长指令字( v e r yl o n gi n s t r u c t i o nw o r d ) 结构，使处理速度达到1 g f l o p s 。几乎达到了单芯片d s p 处理速度的顶峰。 t m s 3 2 0 c 5 0 0 0 系列中的t m s 3 2 0 c 5 5 xd s p 核大幅度降低了功耗，达到了 0 0 5 m w m i p s 的超低功耗。t m s 3 2 0 c 8 x 系列是世界上最早推出的6 4 位d s p 芯片。该芯片内部集成4 个浮点d s p 和1 个精简指令集计算机( m s c ) 主处理器，构成了一个多指令多数据流( m u l t i p l ei n s t r u c t i o n sm u l t i p ed a t a ，m i m d ) 系统，很适合多媒体技术的应用。a d i 公司的s h a r c 系列具备了并行d s p 的多种性能，等等。 d s p 芯片发展的高级阶段，2 1 世纪初期至2 1 世纪中期前。d s p 技术的单芯片系统，或称为片上系统或系统级芯片( s y s t e m o nc h i p ，s o c ) 。使用t m s 3 2 0 c 5 x d s p 核做为第3 代移动通信和行动的运算装置，推出t m s 3 2 0 c 6 4 x 的使用产品，以便大量应用于第三代无线通信领域和高精度图像处理系统【3 】。 1 1 2d s p 发展趋势系统级集成d s p 是潮流。随着3 g 移动通信，数字消费类电子，智慧控制设备等高性能嵌入式应用需求的增大，更加强调通信带宽的增大和处理速度的实时快速。这就对核心处理器的性能提出了更高的要求，使之能够同时支持3 g 移动通信和数据应用。在现代化的3 g 系统中，对处理速度的要求超过6 0 1 3 0 亿次每秒运算。于是在单一芯片上集成更多的处理器内核的多核、众核d s p 应运而生。多核 d s p 在单芯片内集成多个d s p 核和其他类型的处理器核，具有更强的并行处理能力、更优化的功耗管理方法、更方便的编程和调试手段，将成为今后高性能嵌入式应用的核心器件。而晶片制造工艺技术的进步和s o c 设计与验证水准的提升分别是多核d s p 诞生的硬体基础和软件基础。多核处理器大体分为同构多核和异构多核两种。同构多核d s p 内部集成了若干个结构对等的d s p 核，不存在其他处理器核。如，a d 公司b l a c k f i n 系列【6 j 采用双b l a c k f i n 内核( 每个内核性能高达7 5 6 m h z 1 5 1 2m m a c ，总和达到3 0 2 4 m m a c ) ，适用于要求苛刻的数字成像和消费类多媒体应用；飞思卡尔半导体多核d s pm s c 8 1 4 4 将4 个频率为1 g h z 的s t a r c o r ed s p 内核相集成，提供业界最高的千兆赫兹级性能，相当于1 个4 g h z 单核d s p 。增加了新的单指令多数据( s i m d ) 指令，提供精确的异常和分支预测。s c 3 4 0 0 内核还支持适用于维特比( v i t e r b i ) 和视频演算法的经过改进的专用指令，每个内核周围都有高效的1 6 k b 指令缓存、 3 2 k b 数据缓存，以及用于存储和任务保护的m m u ( 存储管理单元) ，使用户能够开发强大的软件。飞思卡尔推出多核m s c 8 1 5 4d s p l 7 j ，加快l t e 与其他4 g 第2 页国防科学技术大学研究生院硕士学位论文无线标准的采用针对基带提供在线多加速器平台引擎技术m a p l e b 。这个业内领先的s c 3 8 5 0d s p 内桉支持m s c 8 i5 4 交付高达3 2g m a c s 的1 6 位性能。该处理器具有高速的标准接口以及带高速d d r 接口的大型嵌入式、高度优化多级存储器。支持3 g l t e 、t d d - l t e 、t d s c d m a 和w i m a x 标准及h s p a + 码速率功能。在单个平台上实现多标准功能，就不再需要根据不同基站标准重新设计硬件因此该器件丁在宏( m a c r o ) 摹站、微( m i c r o ) 基站和微微( p i c o ) 基站的不同尺寸之间进行挣展。异构多核d s p 其中既包含d s p 核，又包含用于控制的m c u ( 微控制器) 核，从而充分发挥d s p 的处理速度和m c u 的控制功能。t i 公司的s m 3 2 0 c 8 0 t 8 惶世界e 第个单品片并行m i m d ( 多指令多数据) d s p 。o m a p 处理器p 1 是这类d s p 的典型代表。c r a d l e 公司的高性能c t 3 6 1 6 处理器【i ”内部集成了1 6 个d s p 核与8 个g p p ( 通用处理器) 核，主频3 7 5 m h z ，能够进行1 6 路m p e g 4 宴时编码，最高d s p 性能达到9 6 g m a c 运算。瑞萨科技s u p e r h 系列d s p 产品，集成了3 2 位元s h 一2 ac p u 核心j 。 p i c o c h i p 公司的p i e o a r m y 多重核心处理器。其核心处理器阵列元件如图1 1 中所示1 1 “。p i c o c h i p 针对新一代无线系统的p i c o a r r a y 多重核心处理器阵列元件 p c 2 0 2 、p c 2 0 3 及p c 2 0 5 为高整合度、高效能、低成本d s p 。三款兀件均内建约 2 0 0 个以上的处理器，提供超过1 0 0 g i p s 与2 5 g m a c s 的运算效能大幅领先旧有的单核心d s p 。钳轷q 辱埘冀械审碱幸中t 辛肇羲薯薯i 囊t 薯， t t ，吱 t - 凹1l p i c o a r r a y 多重核，t b 处理器阵列元件 d s p 核+ 协处理器。这类d s p 一般针对某一类应用集成专_ 【i j 的协处理器，从而对d s p 实现算法加速。t i 的研究表明，对于像m p e g 4 编解码这样的任务，使用协处理器町咀降低5 0 的d s p 负荷，从而平衡系统功耗。e 思仁尔半导体公司的m s c 8 1 2 6 是个集成了协处理器的多核d s p l ”。该d s p 集成了4 颗s t a r c o r e d s p 核、个t u r b o 协处理器、一个维特比协处理器、u a r t 介而、4 个t d m 串列介面、3 2 个通用定时器、乙太网介面9 0 r i m 工艺下生产，在4 0 0 m h z 主频下，其4 个扩展内核可以达到最高每秒6 4 0 0 m m a c ( 百万次乘加操作) 的性能。能够支持n i 蔓长指令，第3 页国防科学技术大学研究生院硕士学位论文 s o c 的迅速发展。随着网络和多媒体技术的迅速发展及大量便携系统的涌现，传统d s p 芯片在速度、性能、功耗、体积上已不能完全满足需要。随着芯片加工能力的进一步提高，在一块芯片上实现完整的系统功能，系统集成芯片( s y s t e mo n c h i p ，s o c ) 的迅速发展势在必行【l 引。s o c 是2 l 世纪集成电路的发展方向，也是集成电路技术按摩尔定律发展的必然结果。它以i p 核复用技术、超深亚微米工艺技术和软硬件协同设计技术为支撑i l 引。如，t e n s i l i c a 推出基于h i f i 2 音频d s p 的蓝牙s b c ( s u b b a n dc o d e c ) 编解码器6 。，设计人员可以很方便的将h i f i2 引擎集成到 s o c 设计中，从而使手机、便携音乐播放器等移动设备获得包括蓝牙音频规格在内的5 0 多种音频编解码能力。推动了集成式多标准数字无线电s o c 芯片的开发。 c a r b o n 公司的s o cd e s i g n e r 平台极具价值，在决定开发芯片之前，能够帮助用户执行精确的架构分析和芯片前的固件开发【l 。工艺技术的进步。晶片制造工艺技术的进步是d s p 发展的硬体基础。d s p 运算速度的提高，很大程度上依靠新工艺改进芯片结构。深亚微米工艺提出的诸多挑战至今尚未得到彻底的解决，互连线的延时已经远远超过晶体管的延时，成为影响芯片时序的主要因素【l5 1 。由于互连线的不确定因素多，加上多层布线，因此使得对其分析变得十分复杂；同时由于集成度提高和低电压、大电流工作，对电磁效应和耦合噪声都需要严格控制，这使设计系统变得更加复杂，信号的完整性将成为设计者面对的一个严重的挑战。到超深亚微米，逻辑设计则必须结合物理特性才能精确给出时延、功耗、可布性、面积等，互连线己成为时延和功耗的主要角色【2 2 】。低功耗技术的发展。芯片的集成度是按摩尔定律发展，即晶体管数的增加是按时间的指数增长，目前尽管采取措施降低晶体管的工作电压和电流，芯片的功耗仍然很大。嵌入式应用，例如手机、数码相机等对功耗非常敏感，而对于高性能d s p 的发展，降低功耗同样是首要解决的问题。从硬体技术上来看，可以采用动态电源管理技术【1 8 】【1 9 】，时钟门、多门限逻辑，设置全速、半速、休眠等工作模式，根据当前的任务强度和功耗监测信息，及时调整电压和频率，关闭暂时不使用的模块，以降低功耗【2 0 1 。另外，根据特定的应用需求，设置专门的协处理器，同样可以减少d s p 内核的运算强度。充分利用功耗和电压的二次方关系1 2 2 1 ，通过最大限度地将运算并行化来降低功耗。同时芯片还必须设计成具有良好的散热结构，而且不允许有局部的热点，保证芯片自身不会被烧坏1 2 。从软件技术上来看，在编译指导下的d s p 低功耗优化技术非常具有潜力【2 2 1 。低功耗编译技术主要包括编译指导的动态电压调节、多线程功耗模型下的低功耗编译调度等1 2 3 l 。在操作系统的支持下，通过合理的调度，使处理器资源与演算法第4 页国防科学技术大学研究生院硕士学位论文需求相适应，例如在d s p 核+ m c u 的模式下，m c u 就不应该处理d s p 的有关程式。可编程d s p 是主导产品。可编程d s p 给生产厂商提供了很大的灵活性。生产厂商可在同一个d s p 平台上开发出各种不同型号的系列产品，以满足不同用户的需求。同时，可编程d s p 也为广大用户提供了易于升级的良好途径。可配置d s p 核。可满足不同用户，对于大批量的用户，甚至可以对c p u 结构和外设重新配置。追求更高的运算速度。由于电子设备的个人化和客户化趋势，d s p 必须追求更高更快的运算速度，才能跟上电子设备的更新步伐。d s p 运算速度的提高，主要依靠新工艺改进芯片结构。定点d s p 是主流。从理论上讲，虽然浮点d s p 的动态范围比定点d s p 大，且更适合于d s p 的应用场合，但定点运算的d s p 器件的成本较低，对存储器的要求也较低，而且耗电较少。因此，定点运算的可编程d s p 器件仍是市场上的主流产品。探索浮点d s p 带来的设计机遇。相比较定点d s p 而言，浮点d s p 能够实现更快速而简便的开发，因此对于开发成本比单位制造成本重要的小规模应用而言，是最佳的选择。目前，器件类型的选择越来越取决于，应用数据集是否要求浮点格式的更多计算功能。因此，设计大规模量产信号处理应用的开发人员现在开始发现浮点格式更多的内在价值。他们将视线投向传统定点d s p 开发模式之外的领域，并探索浮点d s p 所带来的设计机遇【2 4 j 。 f o r w a r dc o n c e p t s 的w i l ls t r a u s s 表示，d s p 技术的演绎趋势是多重核心处理器。未来1 0 年，全球d s p 产品将向着高性能、低功耗、加强融合和拓展多种应用发展，d s p 晶片将越来越多地渗透到各种电子产品当中，成为各种电子产品尤其是通信类电子产品的技术核心，越来越受到业界的青睐。 1 2 高性能d s p 内核结构特征 d s p 通常需要完成大量的实时计算，如常用的f i r 滤波和f f t 算法。d s p 处理器为达到更高性能，在寻址和计算能力等方面做了扩充和增强。如采用独立的硬件乘法器，采用多数据通路、多功能单元，采用哈佛总线结构，采用专用的寻址单元等等。为向更高的性能发展，增加并行性和提高频率是两种最主要的途径。仅仅提高时钟频率似乎是有限的，最好的方法是提高并行性。可以由两个途径实现：一是提高每条指令执行的操作的数量，二是提高每个指令周期中执行的指令的数量1 2 5 1 。这两种并行要求产生了多种高性能d s p 结构。第5 页国防科学技术大学研究生院硕十学位论文 1 2 1 增强型结构在保持d s p 结构不变的情况下，通过提高每条指令的工作量，使用增强指令集或增加数据通路的办法，利用额外的硬件实现增强型d s p ，使编程者能在一条指令中指定更多的并行操作。增强型d s p 的结构与前一代的d s p 结构相似，但性能因执行单元的增强大大提升了。增强型d s p 的例子有朗讯公司的d s p l 6 0 0 0 ， a d i 的a d s p 2 l1 6 x 。由此带来的优点是兼容性好，而且与前一代的d s p 具有相似的成本和功耗。缺点是结构复杂、指令复杂，进一步发展有限。 11 2 2v l i w 结构 t i 公司t m s 3 2 0 c 6 x 系列d s p 采用了v l i w 的体系结构【2 酬。v l i w 处理器的硬件中，各功能单元共用大型寄存器堆，由v l i w 的长指令实现各个功能单元执行的各种同步操作，它把长指令中不同字段的操作码分别送给对应的功能单元。 v l i w 处理器使用简单的指令集，一条指令只完成一个操作。将简单指令并行地发射出去，并同时执行。由这样的多条指令构成一个超长指令字。这种结构的d s p 内核优点是，使用了简单指令集后，简化了译码和执行操作。硬件实现简单，性能较高。简单的硬件，允许时钟的增长速度比现今的复杂r i s c 芯片更快，而且能更容易加入更多的功能单元来榨取代码中存在的所有并行性。缺点是功耗高、成本高、代码膨胀、新的编程编译困难、庞大的调整寄存器堆。 1 2 3 超标量结构超标量体系结构也能实现并行地流出和执行多个指令【2 。7 1 。但跟v l i w 处理器不同的是，超标量体系结构使用动态的指令规划，而非静态的指定需要并行处理的指令。根据处理器可用的资源，数据依赖性和其他的因素来决定哪些指令要被同时执行。该技术常用于高性能的通用处理器中。如p e n t i u m 和p o w e r p c 。超标量体系结构的优点是，性能有大的跨越、结构规整、代码宽度没有明显增长。缺点是非常高的功耗、指令的动态安排导致代码优化困难。 1 2 4s i m d 结构单指令多数据流( s i m d ) 处理器，把输入的长的数据分解为多个较短的数据，然后由单指令并行地操作，从而提高处理海量、可分解数据的能力。通常s i m d 仅支持定点运算。该技术能大幅度地提高在多媒体和信号处理中，大量使用的一些矢量操作的计算速度，如坐标变换和旋转。但是，这种结构只有处理并行算法第6 页国防科学技术大学研究生院硕士学位论文时爿。足高效的。对于结果作为下一操作输入的串行算法，s i m d 处理器通常不使用。如，d s p l 6 0 0 0 在其数据路中支持有限的s i m d 风格的操作，a n a l o gd e v i c e s 推出了有名的s h a r c 的d s p 处理器，也进行了s i m d 能力的扩展。 s i m d 结构使总线、数据通道等资源充分使用，无需改变信号处理算法的基本结构，因此s i m d 结构使用越来越普遍。s i m d 结构遇到的问题是，算法、数据结构必须满足数据并行处理的要求。为了加速，循环常常需要被拆开，处理数据需要重新安排调整。 1 3 1 代码压缩技术 1 3 相关高性能技术研究 1 3 1 1 代码压缩的需求随着集成电路工艺制造技术、电子设计自动化技术的发展，d s p 性能的日益强大和不断地完善，运用于其上的软件越来越复杂，使得程序存储空间随之增长 1 2 引。据统计，平均每两年时间嵌入式系统软件的代码量就会增一倍。目前，主流的嵌入式系统软件开发方式，以“高级语言+ 编译器”作为主要手段。但现存的编译优化技术所产生的代码量，往往比用汇编语言手工优化的代码量大。结合体系结构方面来看，采用定长指令编码的r i s c 处理器或追求指令级并行( i l p ) 的v l i w 处理器，注重硬件的简单规则，以更高的频率和更低的c p i 提高处理器性能【3 0 】，但性能的提高是以牺牲代码密度为代价的。因此为了降低成本、体积、功耗，不断提高自身计算能力以适应更高水平计算领域的需求，代码压缩技术成为制约高性能d s p 发展的关键技术之一。 1 3 1 2 现存代码压缩技术目前，国外从高密度指令集、编译器优化、代码压缩、处理器结构等各种方法，对代码压缩技术的进行了系统的研究。压缩代码可以在不同层面的上采用不同的方法。双模式指令集的典型代表，在3 2 位的基本指令集的基础上，a r m 定义了1 6 位的t h u m b 指令集1 2 9 1 ，m i p s 体系结构定义了m i p s l 6 指令集。1 6 位的指令是作为3 2 位指令的一个子集，通常把3 2 位指令集中，常用的且不需要完整的3 2 位指令空间表示的一部分指令，根据处理器不同的应用特点和编译器的行为，选择出来，并重新编码组成1 6 位指令集。这种方式的代码压缩技术带来的优点是，由于只是原来3 2 位指令的

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（电子科学与技术专业论文）高性能定点yhft+dxdsp指令控制部件的研究与实现.pdf

文档简介

温馨提示

最新文档

评论

（电子科学与技术专业论文）高性能定点yhft+dxdsp指令控制部件的研究与实现.pdf

文档简介

温馨提示

最新文档

评论

相关文档