(电子科学与技术专业论文)高性能定点yhft+dxdsp指令控制部件的研究与实现.pdf_第1页
(电子科学与技术专业论文)高性能定点yhft+dxdsp指令控制部件的研究与实现.pdf_第2页
(电子科学与技术专业论文)高性能定点yhft+dxdsp指令控制部件的研究与实现.pdf_第3页
(电子科学与技术专业论文)高性能定点yhft+dxdsp指令控制部件的研究与实现.pdf_第4页
(电子科学与技术专业论文)高性能定点yhft+dxdsp指令控制部件的研究与实现.pdf_第5页
已阅读5页,还剩84页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

国防科学技术大学研究生院硕士学位论文 a b s t r a c t t h ed e v e l o p m e n to fi n f o r m a t i o n s o c i e t y ,t o s o m ee x t e n t ,d e p e n d so nt h e a d v a n c e m e n to ft h ei n f o r m a t i o na n ds i g n a lp r o c e s s i n gt e c h n i q u e s a st h ec o r eo fd i g i t a l s i g n a lp r o c e s s i n g ,t h ea p p l i c a t i o n so ft h ed i g i t a ls i g n a lp r o c e s s o r ( d s p ) h a v eb e e n w i d e s p r e a da n dp r o f o u n da p p l i e di nm a n ya r e a ss u c ha sa e r o s p a c e ,a v i a t i o n ,r a d a r , s o n a r ,c o m m u n i c a t i o n s ,a n dd o m e s t i ca p p l i a n c e sw h i c hh a sb e c o m et h eh e a r to f e l e c t r o n i cs y s t e m s t h ed e v e l o p m e n to fh i g h - p e r f o r m a n c ed s pp l a y sa ni m p o r t a n tr o l e i np r o m o t i n gt h e s et e c h n o l o g i e s y h f td x + d s pi sat y p eo fh i g h - 疔e q u e n c y ,h i g h p e r f o r m a n c e3 2 一b i tf i x p o i n t d s pw h i c hi sd e s i g n e di n d e p e n d e n t l yb yn a t i o n a lu n i v e r s i t yo fd e f e n s et e c h n o l o g y i t a d o p t se i g h t - i s s u ev l i wa r c h i t e c t u r ea n dc o m p a c ti n s t r u c t i o ns e t t h ee i g h te x e c u t i o n u n i t ss h a r e ds i x t y f o u rg e n e r a l p u r p o s er e g i s t e r s i tc a ni s s u ee i g h tp a r a l l e li n s t r u c t i o n s s i m u l t a n e o u s l y ,w h i c hc o m p o s e do f16 b i tc o m p a c ti n s t r u c t i o na n d3 2 b i tr i s c l i k e i n s t r u c t i o n i tu s e dh a r d v a r da r c h i t e c t u r e ,t w o s t a g ec a c h ea n d5 0 0 m h z 厅e q u e n c y i t s p e a ko p e r a t i o ns p e e dc a nr e a c h e s4 0 0 0 m i p sa n dh a sas t r o n gd a t ap r o c e s s i n gc a p a b i l i t y t h er i c hp e r i p h e r a lr e s o u r c e sa r ei n t e g r a t e do n o n ec h i p 刀搀p a p e rm a i n l yf o c u so nt h ei n s t r u c t i o nc o n t r o la n do p t i m i z a t i o nt e c h n o l o g yo f t h ey h f td x + d s p i tc o m p l e t e dt h ed e s i g n ,v e r i f i c a t i o na n ds y n t h e s i so ft h e h i g h - f r e q u e n c y ,h i g h - p e r f o r m a n c ei n s t r u c t i o nc o n t r o lu n i tw h i c hi ss u i t a b l ef o rt h i sd s p t h em a j o rp a r to ft h er e s e a r c hw o r ki sa sf o l l o w s : 1 t h ea r c h i t e c t u r ec h a r a c t e r i s t i c so ft h em a i n s t r e a mh i g h p e r f o r m a n c ed s ph a s b e e na n a l y z e d t h eh i g hp e r f o r m a n c et e c h n o l o g i c a lr e l a t e dt ot h i sp a p e ra n ds o m e r e l a t i v er e s e a r c ha th o m ea n da b r o a dh a sb e e ns u m m a r i z e d 2 t h es y s t e ms t r u c t u r ed e s i g na n da n a l y s i sw a sf i n i s h e d i tf o c u s e so nt h ey h f t d x + d s pi n s t r u c t i o ns e t t h es t r e n g l 【h e ni n s t r u c t i o na n dc o m p a c ti n s t r u c t i o nh a sb e e n a n a l y z e d ,t h ef u n c t i o np a r t i t i o no ft h ep i p e l i n ew a sg i v e n 3 t h r e ek e yf a c t o r sw h i c ha f f e c tt h ep e r f o r m a n c ew a sa n a l y z e d b a s e do nt h e a r c h i t e c t u r ec h a r a c t e r i s t i c s ,t h et w o l e v e li n s t r u c t i o nd i s p a t c hw i n d o ww a sg i v e n t h e i m p r o v e do r d e r e dm e t h o d a n ds o m eo p t i m i z i n g s t r a t e g i e s w e r ep r o p o s e d t h e b o u n d a r y - - s p a nd i s p a t c h o f m i x e d - l e n g t h i n s t r u c t i o na n dt r e a t m e n to fn o - u n i t i n s t r u c t i o n sb e f o r ee x e c u t i o nh a v e b e e nf i n i s h e d 4 t h ep r i n c i p l e sa n dm e t h o d so ft h eb a s i cd e c o d e rw a sa n a l y z e d b a s e do nt h r e e s t r a t e g i e st oi m p r o v et h ed e c o d e r ,t h ea b s o l u t ed e c o d i n gs p e e d ,b a l a n c e dp i p e l i n ea n d e x p a n d i n g t h eh a r d w a r eh a v e b e e ni n c r e a s e d c o m b i n e dw i t ha r c h i t e c t u r e c h a r a c t e r i s t i c s ,ad i s t r i b u t e dd u a l - c h a n n e lh i g h p e r f o r m a n c ed e c o d e rh a sb e e nd e s i g n e d 5 t h em a i nv e r i f i c a t i o nm e t h o d sa n ds t r a t e g i e so ft h ec u r r e n tm i c r o p r o c e s s o r d e s i g nh a sb e e ns t u d i e d t h em o d u l e l e v e la n du n i t l e v e lv e r i f i c a t i o no ft h ed e s i g nw a s 第i i 页 国防科学技术大学研究生院硕士学位论文 f i n i s h e d b a s e do ns o f t w a r ec o - o p e r a t i v es i m u l a t i o nv e t i f i c a t i o na n ds y s t e mv e r i f i c a t i o n f l a t f o r m ,t h ef u l l c h i pf u n c t i o nv e r i f i c a t i o nh a sb e e na c c o m p l i s h e d t h es y n t h e s i s , o p t i m i z a t i o ns t r a t e g i e sa n dt h er e s u l t sw a sg i v e na tl a s t t h er e s u l t ss h o w e dt h a tt h ed e s i g no fi n s t r u c t i o nc o n t r o lu n i tc o m p l e t e l yc o n f o r m s t ot h eh i g h - f r e q u e n c ya n dh i g h - p e r f o r m a n c ed e s i g nr e q u e s t so fy h f td x + d s p k e yw o r d s :d i g i t a ls i g n a lp r o c e s s o rd s p ,v e r yl o n gi n s t r u c t i o nw o r d v l i w ,c o m p a c ti n s t r u c t i o ns e t ,b o u n d a r y s p a ni n s t r u c t i o nd i s p a t c h 。z e r o l e v e l i n s t r u c t i o nc a c h e ,d i s t r i b u t e dd u a l c h a n n e ld e c o d i n g 第i i i 页 国防科学技术大学研究生院硕十学位论文 表目录 表2 1 控制寄存器1 4 表2 2 复数乘法的一般实现2 0 表2 3 复数乘法的增强指令实现2 0 表2 4 增强指令与非增强指令的算法实现对比片段。2 0 表2 5a m r 寄存器各域值含义2 6 表2 6 寻址模式的意义2 6 表2 7l o a d s t o r e 类指令访问数据存储器寻址模式2 7 表2 8 寻址模式域m o d e 与对应的地址生成选择2 7 表3 1采用紧凑指令集前后的代码压缩比5 3 表3 2 支持紧凑指令集的跨边界派发与固定字长指令跨边界派发的性能比较5 3 表3 3 派发站设计复杂度对比5 4 表4 1功能单元的映射关系6 1 表4 2 无单元指令域分配表6 l 表4 3 循环中断异常类无单元指令域分配表6 1 表4 4 译码器性能评测6 4 表5 1 综合环境描述7 2 表5 2 设计规则约束举例7 4 表5 3 综合结果7 5 第1 v 页 国防科学技术大学研究生院硕十学位论文 图1 1 图1 2 图1 3 图1 4 图2 1 图2 2 图2 3 图2 4 图2 5 图2 6 图2 7 图2 8 图2 9 图2 1 0 图2 1 l 图2 1 2 图2 1 3 图2 1 4 图2 1 5 图3 1 图3 2 图3 3 图3 4 图3 5 图3 6 图3 7 图3 8 图3 9 图3 1 0 图3 “ 图3 1 2 图3 1 3 图目录 p i c o a r r a y 多重核心处理器阵列元件3 t m s 3 2 0 c 6 4 x + 的两种取指包9 程序在内核中的存储9 取指包和执行包位置关系示意图l o y h f td x + d s p 处理器结构框图13 混合型取指包示意图15 典型固定字长指令格式2 l 紧凑型取指包2 3 包头指令格式2 4 包头辅助译码信息2 4 取指包中压缩指令的并行信息2 4 典型压缩指令格式2 5 物理内存视图2 7 内存视图的变化2 7 同步流水线结构2 9 流水线示意图3 0 取指部件的功能示意图3 l 单周期和两周期指令执行3 2 三周期存储指令四周期乘法指令和五周期读取指令执行3 2 取指前三站功能简略示意图3 3 取指各站模块功能图3 4 p f r 站流水线功能示意图3 5 紧凑型取指包的并行信息判断3 6 并行检测逻辑3 7 i d 编码原理图3 8 紧凑型取指包的分支有效位产生一3 9 p f rf e t c h 整体结构3 9 d d p 站流水线功能详细示意图4 0 三种派发模式对比4 l 派发状态示意图4 2 混合取指包跨边界派发( 派发起点在b u f 中) 4 3 混合取指包跨边界派发( 派发起点在l a t c h 中) 4 4 第v 页 国防科学技术大学研究生院硕士学位论文 图3 1 4 图3 1 5 图3 1 6 图3 1 7 图3 1 8 图3 1 9 图3 2 0 图3 2 1 图3 2 2 图3 2 3 图3 2 4 图4 1 图4 2 图4 3 图4 4 图4 5 图5 1 图5 2 图5 3 一级派发窗示意图4 5 特殊情况下的一级派发窗4 6 按行派发指令窗4 6 3 2 位指令的排序分派法示意图4 7 执行包结构图4 8 改进后的排序分派法4 8 零级指令缓冲外部关系示意图5 0 循环体的软件流水5 1 零级指令缓冲的硬件结构图5l 二级指令派发窗5 3 归一化性能对比5 4 分布式双通道译码图示5 9 p f r 站1 6 位指令的译码后格式6 0 p f r 站3 2 位指令的译码后格式6 2 p f r 站包头指令的译码后格式6 3 按行的第二级译码6 3 系统级协同模拟验证7 0 全芯片模拟验证环境平台7 l 综合过程一7 2 第v l 页 独创性声明 本人声明所呈交的学位论文是我本人在导师指导下进行的研究工作及取得 的研究成果尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含 其他人已经发表和撰写过的研究成果,也不包含为获得国防科学技术大学或其它 教育机构的学位或证书而使用过的材料与我一同工作的同志对本研究所做的任 何贡献均已在论文中作了明确的说明并表示谢意 学位论文题目:直性丝定点羔望堕旦茎q 苎撞佥控剑壑住煎珏究量塞趣 学位论文作者签名:醯 日期: 2 叩7 年,2 月二7 日 学位论文版权使用授权书 本人完全了解国防科学技术大学有关保留、使用学位论文的规定。本人授权 国防科学技术大学可以保留并向国家有关部门或机构送交论文的复印件和电子 文档,允许论文被查阅和借阅;可以将学位论文的全部或部分内容编入有关数据 库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文 ( 保密学位论文在解密后适用本授权书。) 学位论文作者签名:堑墨 作者指导教师签名: 日期: 日期: 1罗 月 月 f 年 年 口, , 叻 嗽州 国防科学技术大学研究生院硕七学位论文 第一章绪论 目前,各种嵌入式系统被广泛地应用于科学研究、工程设计、军事技术、商 业文化艺术、娱乐业等众多方面,逐渐改变着人们的生活方式。随着嵌入式系统 的广泛应用,与其相关的d s p ( d i g i t a ls i g n a lp r o c e s s i n g ) 技术也随之发展起来1 2 j 。 它拥有强大的算术运算能力:其内部采用不同于通用微处理器的体系结构,提供 特殊的专用指令以加速傅立叶变换和卷积等常用d s p 算法【3 】。本人参与了高性能 y h f td x + d s p 芯片的研制工作,本文的书写以指令控制部件的研究为背景,分 析紧凑增强型指令集,并在此基础上,完成紧凑指令集的取指、跨边界派发及分 布式双通道译码,给出各个部分的性能评测及指控总体性能分析。 本章首先讲述了d s p 的概况,列举主流高性能d s p 内核结构类型特征,分析 本课题研究中涉及到的,提高内核性能的关键技术手段,在国内外相关的研究应 用情况。接着提出了本文的研究背景、意义和内容,最后介绍本文的主要工作和 结构。 1 1d s p 概论 1 1 1d s p 发展历程及特点 数字信号处理器( d s p ,即d i g i t a ls i g n a lp r o c e s s o r ) 是进行数字信号处理的专 用芯片,是伴随着微电子学、数字信号处理技术、计算机技术的发展而产生的新 器件。d s p 可以快速的实现对信号的采集、变换、滤波、估值、增强、压缩、识 别等处理,以得到符合人们需要的信号形式t 3 儿训。 当前应用于很多d s p 中的技术有:哈佛体系结构、多总线结构、流水线技术、 d s p 专用的指令集、专用的乘累加单元、片内外设、片上存储器高速缓存、低功 耗、扩展并行技术等。 d s p 芯片的发展分为三个阶段1 4 j : 1 9 7 8 年a m i 公司产出世界上第一片d s p 产品$ 2 8 1 1 ,1 9 8 2 年t i 公司首次推 出采用哈佛结构性能较好、实用性强、通用定点d s p ,型号t m s 3 2 0 1 0 芯片。2 0 世纪8 0 年代初至9 0 年代初,划定为d s p 芯片发展的初级阶段。这一阶段典型的 产品有:t i 公司的t m s 3 2 0 1 0 2 0 c 2 5 c 3 0 c 5 0 c 4 0 系列;美国m o t o r o l a 公司的 d s p 6 0 0 0 系列;美国a d i 公司的a d s p 2 1 0 0 系列:美国a t & t 公司的d s p l 6 3 2 系列;英国i n m o s 公司的采用t r a n s p u t 结构的t 2 x x 厂r 4 x x 系列等。 d s p 芯片发展的中级阶段,2 0 世纪9 0 年代初至9 0 年代末。侧重于d s p 单芯 片性能的进一步提高,多个d s p 运算单元的并行处理,超高性能d s p 芯片的研究 第l 页 国防科学技术大学研究生院硕十学位论文 和产品推出,以及d s p 芯片和系统应用的发展。典型的产品有:t m s 3 2 0 c 6 0 0 0 系 列,采用多级流水线和高并行度的超长指令字( v e r yl o n gi n s t r u c t i o nw o r d ) 结构, 使处理速度达到1 g f l o p s 。几乎达到了单芯片d s p 处理速度的顶峰。 t m s 3 2 0 c 5 0 0 0 系列中的t m s 3 2 0 c 5 5 xd s p 核大幅度降低了功耗,达到了 0 0 5 m w m i p s 的超低功耗。t m s 3 2 0 c 8 x 系列是世界上最早推出的6 4 位d s p 芯片。 该芯片内部集成4 个浮点d s p 和1 个精简指令集计算机( m s c ) 主处理器,构成 了一个多指令多数据流( m u l t i p l ei n s t r u c t i o n sm u l t i p ed a t a ,m i m d ) 系统,很适合 多媒体技术的应用。a d i 公司的s h a r c 系列具备了并行d s p 的多种性能,等等。 d s p 芯片发展的高级阶段,2 1 世纪初期至2 1 世纪中期前。d s p 技术的单芯片 系统,或称为片上系统或系统级芯片( s y s t e m o nc h i p ,s o c ) 。使用t m s 3 2 0 c 5 x d s p 核做为第3 代移动通信和行动的运算装置,推出t m s 3 2 0 c 6 4 x 的使用产品, 以便大量应用于第三代无线通信领域和高精度图像处理系统【3 】。 1 1 2d s p 发展趋势 系统级集成d s p 是潮流。随着3 g 移动通信,数字消费类电子,智慧控制设 备等高性能嵌入式应用需求的增大,更加强调通信带宽的增大和处理速度的实时 快速。这就对核心处理器的性能提出了更高的要求,使之能够同时支持3 g 移动通 信和数据应用。在现代化的3 g 系统中,对处理速度的要求超过6 0 1 3 0 亿次每秒 运算。 于是在单一芯片上集成更多的处理器内核的多核、众核d s p 应运而生。多核 d s p 在单芯片内集成多个d s p 核和其他类型的处理器核,具有更强的并行处理能 力、更优化的功耗管理方法、更方便的编程和调试手段,将成为今后高性能嵌入 式应用的核心器件。而晶片制造工艺技术的进步和s o c 设计与验证水准的提升分 别是多核d s p 诞生的硬体基础和软件基础。 多核处理器大体分为同构多核和异构多核两种。同构多核d s p 内部集成了若 干个结构对等的d s p 核,不存在其他处理器核。如,a d 公司b l a c k f i n 系列【6 j 采用 双b l a c k f i n 内核( 每个内核性能高达7 5 6 m h z 1 5 1 2m m a c ,总和达到3 0 2 4 m m a c ) ,适用于要求苛刻的数字成像和消费类多媒体应用;飞思卡尔半导体多 核d s pm s c 8 1 4 4 将4 个频率为1 g h z 的s t a r c o r ed s p 内核相集成,提供业界最高 的千兆赫兹级性能,相当于1 个4 g h z 单核d s p 。增加了新的单指令多数据( s i m d ) 指令,提供精确的异常和分支预测。s c 3 4 0 0 内核还支持适用于维特比( v i t e r b i ) 和视频演算法的经过改进的专用指令,每个内核周围都有高效的1 6 k b 指令缓存、 3 2 k b 数据缓存,以及用于存储和任务保护的m m u ( 存储管理单元) ,使用户能 够开发强大的软件。飞思卡尔推出多核m s c 8 1 5 4d s p l 7 j ,加快l t e 与其他4 g 第2 页 国防科学技术大学研究生院硕士学位论文 无线标准的采用针对基带提供在线多加速器平台引擎技术m a p l e b 。这个业内 领先的s c 3 8 5 0d s p 内桉支持m s c 8 i5 4 交付高达3 2g m a c s 的1 6 位性能。 该处理器具有高速的标准接口以及带高速d d r 接口的大型嵌入式、高度优化多 级存储器。支持3 g l t e 、t d d - l t e 、t d s c d m a 和w i m a x 标准及h s p a + 码 速率功能。在单个平台上实现多标准功能,就不再需要根据不同基站标准重新设 计硬件因此该器件丁在宏( m a c r o ) 摹站、微( m i c r o ) 基站和微微( p i c o ) 基站的 不同尺寸之间进行挣展。 异构多核d s p 其中既包含d s p 核,又包含用于控制的m c u ( 微控制器) 核, 从而充分发挥d s p 的处理速度和m c u 的控制功能。t i 公司的s m 3 2 0 c 8 0 t 8 惶世 界e 第个单品片并行m i m d ( 多指令多数据) d s p 。o m a p 处理器p 1 是这类d s p 的典型代表。c r a d l e 公司的高性能c t 3 6 1 6 处理器【i ”内部集成了1 6 个d s p 核与8 个g p p ( 通用处理器) 核,主频3 7 5 m h z ,能够进行1 6 路m p e g 4 宴时编码,最 高d s p 性能达到9 6 g m a c 运算。瑞萨科技s u p e r h 系列d s p 产品,集成了3 2 位 元s h 一2 ac p u 核心j 。 p i c o c h i p 公司的p i e o a r m y 多重核心处理器。其核心处理器阵列元件如图1 1 中所示1 1 “。p i c o c h i p 针对新一代无线系统的p i c o a r r a y 多重核心处理器阵列元件 p c 2 0 2 、p c 2 0 3 及p c 2 0 5 为高整合度、高效能、低成本d s p 。三款兀件均内建约 2 0 0 个以上的处理器,提供超过1 0 0 g i p s 与2 5 g m a c s 的运算效能大幅领先旧有 的单核心d s p 。 钳轷q 辱埘冀 械审碱幸中t 辛肇 羲薯薯i 囊t 薯, t t , 吱 t - 凹1l p i c o a r r a y 多重核,t b 处理器阵列元件 d s p 核+ 协处理器。这类d s p 一般针对某一类应用集成专_ 【i j 的协处理器,从 而对d s p 实现算法加速。t i 的研究表明,对于像m p e g 4 编解码这样的任务,使 用协处理器町咀降低5 0 的d s p 负荷,从而平衡系统功耗。e 思仁尔半导体公司 的m s c 8 1 2 6 是个集成了协处理器的多核d s p l ”。该d s p 集成了4 颗s t a r c o r e d s p 核、个t u r b o 协处理器、一个维特比协处理器、u a r t 介而、4 个t d m 串 列介面、3 2 个通用定时器、乙太网介面9 0 r i m 工艺下生产,在4 0 0 m h z 主频下, 其4 个扩展内核可以达到最高每秒6 4 0 0 m m a c ( 百万次乘加操作) 的性能。能够支 持n i 蔓长指令, 第3 页 国防科学技术大学研究生院硕士学位论文 s o c 的迅速发展。随着网络和多媒体技术的迅速发展及大量便携系统的涌现, 传统d s p 芯片在速度、性能、功耗、体积上已不能完全满足需要。随着芯片加工 能力的进一步提高,在一块芯片上实现完整的系统功能,系统集成芯片( s y s t e mo n c h i p ,s o c ) 的迅速发展势在必行【l 引。s o c 是2 l 世纪集成电路的发展方向,也是集 成电路技术按摩尔定律发展的必然结果。它以i p 核复用技术、超深亚微米工艺技 术和软硬件协同设计技术为支撑i l 引。如,t e n s i l i c a 推出基于h i f i 2 音频d s p 的蓝 牙s b c ( s u b b a n dc o d e c ) 编解码器6 。,设计人员可以很方便的将h i f i2 引擎集成到 s o c 设计中,从而使手机、便携音乐播放器等移动设备获得包括蓝牙音频规格在 内的5 0 多种音频编解码能力。推动了集成式多标准数字无线电s o c 芯片的开发。 c a r b o n 公司的s o cd e s i g n e r 平台极具价值,在决定开发芯片之前,能够帮助用户 执行精确的架构分析和芯片前的固件开发【l 。 工艺技术的进步。晶片制造工艺技术的进步是d s p 发展的硬体基础。d s p 运 算速度的提高,很大程度上依靠新工艺改进芯片结构。深亚微米工艺提出的诸多 挑战至今尚未得到彻底的解决,互连线的延时已经远远超过晶体管的延时,成为 影响芯片时序的主要因素【l5 1 。由于互连线的不确定因素多,加上多层布线,因此 使得对其分析变得十分复杂;同时由于集成度提高和低电压、大电流工作,对电 磁效应和耦合噪声都需要严格控制,这使设计系统变得更加复杂,信号的完整性 将成为设计者面对的一个严重的挑战。到超深亚微米,逻辑设计则必须结合物理 特性才能精确给出时延、功耗、可布性、面积等,互连线己成为时延和功耗的主 要角色【2 2 】。 低功耗技术的发展。芯片的集成度是按摩尔定律发展,即晶体管数的增加是 按时间的指数增长,目前尽管采取措施降低晶体管的工作电压和电流,芯片的功 耗仍然很大。嵌入式应用,例如手机、数码相机等对功耗非常敏感,而对于高性 能d s p 的发展,降低功耗同样是首要解决的问题。 从硬体技术上来看,可以采用动态电源管理技术【1 8 】【1 9 】,时钟门、多门限逻辑, 设置全速、半速、休眠等工作模式,根据当前的任务强度和功耗监测信息,及时 调整电压和频率,关闭暂时不使用的模块,以降低功耗【2 0 1 。另外,根据特定的应 用需求,设置专门的协处理器,同样可以减少d s p 内核的运算强度。充分利用功 耗和电压的二次方关系1 2 2 1 ,通过最大限度地将运算并行化来降低功耗。同时芯片 还必须设计成具有良好的散热结构,而且不允许有局部的热点,保证芯片自身不 会被烧坏1 2 。 从软件技术上来看,在编译指导下的d s p 低功耗优化技术非常具有潜力【2 2 1 。 低功耗编译技术主要包括编译指导的动态电压调节、多线程功耗模型下的低功耗 编译调度等1 2 3 l 。在操作系统的支持下,通过合理的调度,使处理器资源与演算法 第4 页 国防科学技术大学研究生院硕士学位论文 需求相适应,例如在d s p 核+ m c u 的模式下,m c u 就不应该处理d s p 的有关程 式。 可编程d s p 是主导产品。可编程d s p 给生产厂商提供了很大的灵活性。生产 厂商可在同一个d s p 平台上开发出各种不同型号的系列产品,以满足不同用户的 需求。同时,可编程d s p 也为广大用户提供了易于升级的良好途径。 可配置d s p 核。可满足不同用户,对于大批量的用户,甚至可以对c p u 结构 和外设重新配置。 追求更高的运算速度。由于电子设备的个人化和客户化趋势,d s p 必须追求 更高更快的运算速度,才能跟上电子设备的更新步伐。d s p 运算速度的提高,主 要依靠新工艺改进芯片结构。 定点d s p 是主流。从理论上讲,虽然浮点d s p 的动态范围比定点d s p 大, 且更适合于d s p 的应用场合,但定点运算的d s p 器件的成本较低,对存储器的要 求也较低,而且耗电较少。因此,定点运算的可编程d s p 器件仍是市场上的主流 产品。 探索浮点d s p 带来的设计机遇。相比较定点d s p 而言,浮点d s p 能够实现 更快速而简便的开发,因此对于开发成本比单位制造成本重要的小规模应用而言, 是最佳的选择。目前,器件类型的选择越来越取决于,应用数据集是否要求浮点 格式的更多计算功能。因此,设计大规模量产信号处理应用的开发人员现在开始 发现浮点格式更多的内在价值。他们将视线投向传统定点d s p 开发模式之外的领 域,并探索浮点d s p 所带来的设计机遇【2 4 j 。 f o r w a r dc o n c e p t s 的w i l ls t r a u s s 表示,d s p 技术的演绎趋势是多重核心处理 器。未来1 0 年,全球d s p 产品将向着高性能、低功耗、加强融合和拓展多种应用 发展,d s p 晶片将越来越多地渗透到各种电子产品当中,成为各种电子产品尤其 是通信类电子产品的技术核心,越来越受到业界的青睐。 1 2 高性能d s p 内核结构特征 d s p 通常需要完成大量的实时计算,如常用的f i r 滤波和f f t 算法。d s p 处 理器为达到更高性能,在寻址和计算能力等方面做了扩充和增强。如采用独立的 硬件乘法器,采用多数据通路、多功能单元,采用哈佛总线结构,采用专用的寻 址单元等等。为向更高的性能发展,增加并行性和提高频率是两种最主要的途径。 仅仅提高时钟频率似乎是有限的,最好的方法是提高并行性。可以由两个途径实 现:一是提高每条指令执行的操作的数量,二是提高每个指令周期中执行的指令 的数量1 2 5 1 。这两种并行要求产生了多种高性能d s p 结构。 第5 页 国防科学技术大学研究生院硕十学位论文 1 2 1 增强型结构 在保持d s p 结构不变的情况下,通过提高每条指令的工作量,使用增强指令 集或增加数据通路的办法,利用额外的硬件实现增强型d s p ,使编程者能在一条 指令中指定更多的并行操作。增强型d s p 的结构与前一代的d s p 结构相似,但性 能因执行单元的增强大大提升了。增强型d s p 的例子有朗讯公司的d s p l 6 0 0 0 , a d i 的a d s p 2 l1 6 x 。 由此带来的优点是兼容性好,而且与前一代的d s p 具有相似的成本和功耗。 缺点是结构复杂、指令复杂,进一步发展有限。 11 2 2v l i w 结构 t i 公司t m s 3 2 0 c 6 x 系列d s p 采用了v l i w 的体系结构【2 酬。v l i w 处理器的 硬件中,各功能单元共用大型寄存器堆,由v l i w 的长指令实现各个功能单元执 行的各种同步操作,它把长指令中不同字段的操作码分别送给对应的功能单元。 v l i w 处理器使用简单的指令集,一条指令只完成一个操作。将简单指令并行地发 射出去,并同时执行。由这样的多条指令构成一个超长指令字。 这种结构的d s p 内核优点是,使用了简单指令集后,简化了译码和执行操作。 硬件实现简单,性能较高。简单的硬件,允许时钟的增长速度比现今的复杂r i s c 芯片更快,而且能更容易加入更多的功能单元来榨取代码中存在的所有并行性。 缺点是功耗高、成本高、代码膨胀、新的编程编译困难、庞大的调整寄存器堆。 1 2 3 超标量结构 超标量体系结构也能实现并行地流出和执行多个指令【2 。7 1 。但跟v l i w 处理器 不同的是,超标量体系结构使用动态的指令规划,而非静态的指定需要并行处理 的指令。根据处理器可用的资源,数据依赖性和其他的因素来决定哪些指令要被 同时执行。该技术常用于高性能的通用处理器中。如p e n t i u m 和p o w e r p c 。 超标量体系结构的优点是,性能有大的跨越、结构规整、代码宽度没有明显 增长。缺点是非常高的功耗、指令的动态安排导致代码优化困难。 1 2 4s i m d 结构 单指令多数据流( s i m d ) 处理器,把输入的长的数据分解为多个较短的数据, 然后由单指令并行地操作,从而提高处理海量、可分解数据的能力。通常s i m d 仅支持定点运算。该技术能大幅度地提高在多媒体和信号处理中,大量使用的一 些矢量操作的计算速度,如坐标变换和旋转。但是,这种结构只有处理并行算法 第6 页 国防科学技术大学研究生院硕士学位论文 时爿。足高效的。对于结果作为下一操作输入的串行算法,s i m d 处理器通常不使用。 如,d s p l 6 0 0 0 在其数据路中支持有限的s i m d 风格的操作,a n a l o gd e v i c e s 推出 了有名的s h a r c 的d s p 处理器,也进行了s i m d 能力的扩展。 s i m d 结构使总线、数据通道等资源充分使用,无需改变信号处理算法的基本 结构,因此s i m d 结构使用越来越普遍。s i m d 结构遇到的问题是,算法、数据结 构必须满足数据并行处理的要求。为了加速,循环常常需要被拆开,处理数据需 要重新安排调整。 1 3 1 代码压缩技术 1 3 相关高性能技术研究 1 3 1 1 代码压缩的需求 随着集成电路工艺制造技术、电子设计自动化技术的发展,d s p 性能的日益 强大和不断地完善,运用于其上的软件越来越复杂,使得程序存储空间随之增长 1 2 引。据统计,平均每两年时间嵌入式系统软件的代码量就会增一倍。 目前,主流的嵌入式系统软件开发方式,以“高级语言+ 编译器”作为主要手 段。但现存的编译优化技术所产生的代码量,往往比用汇编语言手工优化的代码 量大。结合体系结构方面来看,采用定长指令编码的r i s c 处理器或追求指令级并 行( i l p ) 的v l i w 处理器,注重硬件的简单规则,以更高的频率和更低的c p i 提高 处理器性能【3 0 】,但性能的提高是以牺牲代码密度为代价的。因此为了降低成本、 体积、功耗,不断提高自身计算能力以适应更高水平计算领域的需求,代码压缩 技术成为制约高性能d s p 发展的关键技术之一。 1 3 1 2 现存代码压缩技术 目前,国外从高密度指令集、编译器优化、代码压缩、处理器结构等各种方 法,对代码压缩技术的进行了系统的研究。压缩代码可以在不同层面的上采用不 同的方法。 双模式指令集的典型代表,在3 2 位的基本指令集的基础上,a r m 定义了1 6 位的t h u m b 指令集1 2 9 1 ,m i p s 体系结构定义了m i p s l 6 指令集。1 6 位的指令是作 为3 2 位指令的一个子集,通常把3 2 位指令集中,常用的且不需要完整的3 2 位指 令空间表示的一部分指令,根据处理器不同的应用特点和编译器的行为,选择出 来,并重新编码组成1 6 位指令集。这种方式的代码压缩技术带来的优点是,由于 只是原来3 2 位指令的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论