《DSP在现代测控技术中的应用》课件第1章_第1页
《DSP在现代测控技术中的应用》课件第1章_第2页
《DSP在现代测控技术中的应用》课件第1章_第3页
《DSP在现代测控技术中的应用》课件第1章_第4页
《DSP在现代测控技术中的应用》课件第1章_第5页
已阅读5页,还剩115页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第1章数字信号处理器技术概述1.1引言

1.2数字信号处理器概述

1.3TMS320系列DSP产品概述

1.4其他公司的DSP产品概述

1.1引言1.1.1数字信号处理技术的发展数字信号处理(DigitalSignalProcessing,DSP)是一门涉及多种学科而又广泛应用于许多领域的新兴学科。20世纪60年代以来,随着计算机和信息技术的飞速发展,数字信号处理技术应运而生并得到迅速发展。在过去几十年的时间里,数字信号处理已经在通信、信号处理等领域得到极为广泛的应用。

数字信号处理是利用计算机或专用处理设备,以数字形式对信号进行采集、变换、滤波、估值、增强、压缩、识别等处理,得到符合人们需要的信号形式的过程。相对于模拟方式来讲,数字方式可以采用更先进的算法,易于实现更高的性能、更多的功能,同时也使系统具有更好的灵活性。

数字信号处理是围绕着数字信号处理的理论、实现和应用等几个方面发展起来的。数字信号处理在理论上的发展推动了数字信号处理应用的发展;反过来,数字信号处理的应用又促进了数字信号处理理论水平的提高。而数字信号处理的实现则是理论和应用之间的桥梁。

一般来讲,与模拟处理方式相比,数字处理方式在稳定性、可靠性和灵活性等方面具有明显的优势,数字化也是当前测控技术和仪器的一个重要发展方向,但由于模拟处理方式在实时性和射频、微波等方面具有优势,因此在当前技术下,数字处理方式决不可能全面替代模拟方式。

表1-1比较了模拟处理方式和数字处理方式的优缺点。

表1-1信号处理方式的比较

1.1.2数字信号处理系统的一般实现方法

数字信号处理是以众多学科为理论基础的,它所涉及的范围极其广泛。例如,在数学领域,微积分、概率统计、随机过程、数值分析等都是数字信号处理的基本工具,数字信号处理与网络理论、信号与系统、控制论、通信理论、故障诊断等也密切相关。近年来新兴的一些学科,如人工智能、模式识别、神经网络等,都与数字信号处理密不可分。可以说,数字信号处理把许多经典的理论体系作为自己的理论基础,同时又使自己成为一系列新兴学科的理论基础。

数字信号处理的实现方法一般有以下几种:

(1)用通用的可编程DSP芯片实现。与通用单片机相比,DSP芯片具有更加适合于数字信号处理的软件和硬件资源,可用于复杂的数字信号处理算法。

(2)在通用的计算机或工控机上用高级语言编写程序来实现。

(3)在通用计算机系统中加上专用的加速处理机来实现。

(4)用通用的单片机实现。由于单片机计算能力和计算速度的限制,这种方法可用于一些不太复杂的数字信号处理,如数字控制等。

(5)利用大规模可编程的逻辑器件(如FPGA)来实现。

(6)用专用的DSP芯片实现。在一些特殊的场合,要求的信号处理速度极高,用通用DSP芯片很难实现,例如专用于FFT、数字滤波、卷积、相关等算法的DSP芯片,这种芯片将相应的信号处理算法在芯片内部用硬件实现,无需进行编程。

上述常用的实现平台特点不同,各有优缺点,在实际工程中设计者应根据实际应用需求和应用条件来选择合适的实现平台,不存在哪种平台最优的问题。一般来讲,在上述几种方法中,第2种方法的缺点是速度较慢,一般可用于DSP算法的模拟;第3种和第6种方法专用性强,其应用受到很大的限制;第3种方法也不便于系统的独立运行;第4种方法只适用于实现简单的DSP算法;而第1种方法在数字信号处理的应用领域中具有明显的计算优势。

1.1.3数字信号处理器系统的一般构成

图1-1所示为DSP系统的一般构成。图1-1中的输入信号一般为各种形式的模拟信号,而且信号在采样之前也需要进行必要的调理。如果输入信号是数字信号,则可以省略采样环节,在调整到合适的电平后直接输入DSP。

图1-1DSP系统的一般构成

在许多情况下输入信号为模拟信号形式,因此,在应用DSP对信号进行处理之前必须对信号进行采样。按照采样定理的要求,采样频率应选择在信号最高频率的两倍以上,这样才能保证信号在采样过程中不会在频域发生混叠而破坏信号的有用信息。但是在实际工程中,输入信号往往包含着一定的噪声,这些噪声的频率又往往高于信号的最高频率,如果按照采样定理的要求直接对信号进行采样,则噪声往往会在采样时发生混叠,破坏信号的有用信息。因此,DSP系统一般在采样之前加一个低通滤波器,以滤除高于采样频率一半的频率分量,从而保证在采样过程中尽可能不发生混叠现象,该低通滤波器称为抗混叠滤波器。

DSP芯片的输入是A/D变换后得到的数字信号,通常DSP芯片对输入的数字信号进行某种形式的处理,如滤波或频谱分析。数字处理是DSP的关键,这与其他系统有很大的不同。例如,在电话交换系统中,处理器的作用主要是进行路由选择,它并不对输入数据进行修改。因此,虽然两者都是实时系统,但两者的实时约束条件却有很大的不同。最后,经过处理后的数字样值再经D/A变换转换为模拟样值,之后再进行内插和平滑滤波就可得到连续的模拟波形。

必须指出的是,上面给出的DSP系统模型是一个典型模型,并不是所有的DSP系统都必须具有模型中的所有部件。如有些系统输出仍需要数字信号,就不需要进行数/模变换;而一些系统输入信号本身就是数字信号,因此不必进行模/数变换。

1.1.4数字信号处理器系统的特点

在工程实践中可以以多种处理器为核心建立数字处理平台。相对于其他处理器来讲,以数字信号处理器为核心建立的数字信号处理器系统具有显著的特点,特别是在完成数字信号处理算法上具有明显的优势。

(1)可高速地完成数字信号处理算法。DSP最大的特点就是计算速度快,特别是在进行包含大量乘法的滤波、谱分析等数字信号处理算法时,其计算速度的优势就更为明显。

(2)体积小,功耗低。这一特点使用户可以方便地利用DSP组建各种实用的嵌入式硬件平台。

(3)接口方便。DSP系统与其他以现代数字技术为基础的系统或设备都是相互兼容的,与这样的系统接口以实现某种功能要比模拟系统与这些系统接口容易得多。DSP的主机接口(HPI)也方便与其他处理器组成多处理器系统。

当然,DSP也存在一些缺点。例如,对系统各种资源的管理和控制能力较弱,控制输入/输出设备的能力较差,不便于嵌入操作系统等等。在实际工程应用中,需要根据系统功能和性能要求选择合适的处理器建立系统的硬件平台,甚至需要将多种处理器结合起来建立多处理器系统。

1.1.5数字信号处理器系统的一般开发过程

一个DSP系统由硬件和软件两部分构成,因此DSP系统的设计包括硬件设计和软件设计。图1-2所示是DSP系统的一般开发过程。

图1-2DSP系统的一般开发过程

(1)根据应用系统的目标确定系统的性能指标和信号处理的要求,通常可用数据流程图、数学运算序列、正式的符号或自然语言来描述。

(2)根据系统的要求进行算法的模拟。一般来说,为了实现系统的最终目标,需要对输入的信号进行适当的处理,而处理方法不同会导致系统性能不同,要得到最佳的系统性能,就必须在这一步确定最佳的处理方法,即数字信号处理的算法,因此这一步也称算法模拟阶段。这一步的主要目的是通过通用或专用的软件对算法进行仿真,从而验证算法的正确性、计算精度、计算量等方面的性能。

(3)进行DSP系统设计,包括硬件设计和软件设计两个方面。硬件设计首先要根据系统运算量的大小、对运算精度的要求、系统成本限制以及体积、功耗等要求选择合适的DSP芯片。然后设计DSP芯片的外围电路及其他电路。软件设计和编程主要根据系统要求和所选的DSP芯片编写相应的DSP汇编程序,若系统运算量不大且有高级语言编译器支持,也可用高级语言(如C语言)编程。由于现有高级语言编译器的效率还比不上手工编写汇编程序的效率,因此在实际应用系统中常常采用高级语言和汇编语言的混合编程方法,即在算法运算量大的地方,用手工编写的方法编写汇编程序,在运算量不大的地方,则采用高级语言。采用这种方法既可缩短软件开发的周期,提高程序的可读性和可移植性,又能满足系统实时运算的要求。在这两个过程中,还需要考虑软/硬件之间的关系,在设计硬件时需要考虑软件的运行要求,在设计软件时也要考虑硬件平台的体系结构,以使设计的软件获得更高的执行效率。

(4)进行DSP系统调试,包括硬件调试和软件调试。软件的调试一般借助于DSP开发工具,如软件模拟器、DSP开发系统或仿真器等。调试DSP算法时一般采用比较实时结果与模拟结果的方法,如果实时程序和模拟程序的输入相同,则两者的输出应该一致。应用系统的其他软件可以根据实际情况进行调试。硬件调试一般采用硬件仿真器进行,如果没有相应的硬件仿真器,且硬件系统不是十分复杂,则也可以借助于一般的工具进行调试。

(5)进行系统的软/硬件联合调试。系统的软件和硬件分别调试完成后,就可以将软件脱离开发系统而直接在应用系统上运行。当然,DSP系统的开发,特别是软件开发,是一个需要反复进行的过程,虽然通过算法模拟基本上可以知道实时系统的性能,但实际上模拟环境不可能做到与实时系统环境完全一致,而且将模拟算法移植到实时系统时必须考虑算法是否能够实时运行的问题。如果算法运算量太大不能在硬件上实时运行,则必须重新修改或简化算法。

1.2数字信号处理器概述

1.2.1数字信号处理器的特点数字信号处理器是一种将处理器的计算核心和一定的外部设备集成在一个单片芯片上而构成的类似于单片机的一种处理器芯片。不同于一般单片机的是,由于DSP采用了特殊的总线结构和体系,因此它在执行数字信号处理计算方面具有更高的性能。DSP芯片具有如下主要特点:

(1)总线采用改进的哈佛结构,程序空间和数据空间具有单独的访问通道,使系统具有更高的运行效率;

(2)核心内配置专门的硬件乘法器,可高效率地完成乘法运算;

(3)采用多级流水线技术,可提高程序的执行效率;

(4)片内具有快速RAM,通常可通过独立的数据总线在两块中同时访问;

(5)具有低开销或无开销循环及跳转的硬件支持;

(6)快速的中断处理和硬件I/O支持;

(7)具有在单周期内操作的多个硬件地址产生器;

(8)可以并行执行多个操作。

1.哈佛结构

哈佛结构是不同于传统的冯·诺依曼(VonNeuman)结构的并行体系结构,其主要特点是将程序和数据存储在不同的存储空间中,即程序存储器和数据存储器是两个相互独立的存储器,每个存储器独立编址,独立访问。与两个存储器相对应的是,系统中设置了程序总线和数据总线两条总线,从而使数据的吞吐率提高了一倍。而冯·诺依曼结构则是将指令、数据存储在同一存储器中,统一编址,依靠指令计数器提供的地址来区分是指令,还是数据,取指令和取数据都访问同一存储器,数据吞吐率低。在哈佛结构中,由于程序存储器和数据存储器在两个分开的空间中,因此取指和执行能完全重叠运行。为了进一步提高运行速度和灵活性,TMS320系列DSP芯片在基本哈佛结构的基础上作了一些改进:一是允许数据存放在程序存储器中,并被算术运算指令直接使用,增强了芯片的灵活性;二是指令存储在高速缓冲器(Cache)中,当执行此指令时,不需要再从存储器中读取指令,节约了一个指令周期的时间。例如TMS320C30就具有64个字的Cache。

2.流水线操作

与哈佛结构相关,DSP芯片广泛采用流水线以减少指令执行时间,从而增强了处理器的处理能力。TMS320系列处理器的流水线深度为2~6级不等。第一代TMS320处理器采用二级流水线,第二代采用三级流水线,而第三代则采用四级流水线。也就是说,处理器可以并行处理2~6条指令,每条指令处于流水线上的不同阶段。图1-3所示为一个三级流水线示意图。

图1-3三级流水示意图

3.专用的硬件乘法器

在数字信号处理的常用算法中,一般都需要进行大量的乘法运算,如数字滤波算法、FFT算法等。因此对于执行数字信号处理算法的处理器来讲,进行乘法运算的速度直接决定着处理器运行数字信号处理的速度,乘法速度越快,DSP处理器的性能也就越高。在通用的微处理器中,乘法指令是由一系列加法来实现的,故需多个指令周期来完成。相比而言,DSP芯片的特征就是有一个专用的硬件乘法器。在TMS320系列中,由于具有专用的硬件乘法器,乘法可在一个指令周期内完成,因此在进行包含大量乘法运算的数字信号处理算法时,DSP可表现出更为优秀的性能。

4.特殊的DSP指令

DSP芯片的另一个特征是采用特殊的指令。例如DMOV就是一个特殊的DSP指令,它用来完成数据移位功能。在数字信号处理中,延迟操作非常重要,这个延迟就是由DMOV来实现的。TMS32010中的另一个特殊指令是LTD,它在一个指令周期内完成LT、DMOV和APAC三条指令。LTD和MPY指令可以将FIR滤波器抽头的运算指令数从4条降为2条。在第二代处理器(如TMS320C25)中增加了2条更特殊的指令,即RPT和MACD指令,采用这2条特殊指令可以进一步将每个抽头的运算指令数从2条降为1条。另外,DSP指令集中的许多指令在重复执行时可以充分利用DSP的硬件资源,从而实现更高的执行效率。类似地,DSP的指令集进行了许多针对数字信号处理算法的优化,这也保证了DSP在进行数字信号处理时可以实现更高的速度和效率。

5.快速的指令周期

哈佛结构、流水线操作、专用的硬件乘法器、特殊的DSP指令再加上集成电路的优化设计,可实现DSP芯片快速的指令周期。TMS320系列处理器的指令周期已经从第一代的200ns降低至现在的1ns以下。快速的指令周期使得DSP芯片能够实时实现许多应用。

1.2.2DSP产品的发展

DSP发展历程大致分为20世纪70年代的理论先行、20世纪80年代的产品普及和20世纪90年代的突飞猛进三个阶段。在DSP出现之前,数字信号处理只能依靠MPU(微处理器)来完成。由于MPU处理速度较低,根本无法满足越来越大的信息量的高速实时要求,因此应用更快更高效的信号处理方式就成为日益迫切的社会需求。到了20世纪70年代,有人提出了DSP的理论和算法基础。但那时的DSP仅仅停留在教科书上,即使是研制出来的DSP系统也是由分立元件组成的,其应用领域仅局限于军事和航空航天部门。

数字信号处理技术的迅速发展在技术上对能够高速完成数字信号处理算法的处理器具有十分强烈的需求。第一个单片DSP芯片是1978年AMI公司发布的S2811,1979年美国Intel公司发布的商用可编程器件2920是DSP芯片的一个重要里程碑。

这两种芯片内部都没有现代DSP芯片所必须有的单周期乘法器。1980年,日本NEC公司推出的μPD7720是第一个具有乘法器的商用DSP芯片。

20世纪80年代后期,第三代DSP芯片问世,运算速度得到了进一步提高,其应用范围逐步扩大到通信、计算机领域。20世纪90年代DSP发展最快,相继出现了第四代和第五代DSP器件。现在的DSP属于第五代产品,它与第四代相比,系统集成度更高,将DSP芯核及外围元件综合集成在单一芯片上。这种集成度极高的DSP芯片不仅在通信、计算机领域大显身手,而且逐渐渗透到人们的日常消费领域。经过20多年的发展,DSP产品的应用已扩大到人们的学习、工作和生活的各个方面,并逐渐成为电子产品更新换代的决定因素。目前,对DSP爆炸性需求的时代已经来临,其应用前景十分可观。

20世纪80年代,美国德州仪器公司(TexasInstruments,TI)推出了自己的DSP产品,此后由于拥有丰富的产品系列,因此TI公司的DSP占有了较大的市场份额。TI公司在1982年成功推出了第一代DSP芯片TMS32010及其系列产品TMS32011、TMS320C10/C14/C15/C16/C17等,之后相继推出了第二代DSP芯片TMS32020、TMS320C25/C26/C28,第三代DSP芯片TMS320C30/C31/C32,第四代DSP芯片TMS320C40/C44,第五代DSP芯片TMS320C5x/C54x,第二代DSP芯片的改进型TMS320C2xx,集多片DSP芯片于一体的高性能DSP芯片TMS320C8x以及目前速度最快的第六代DSP芯片TMS320C62x/C67x等。TI公司将常用的DSP芯片归纳为三大系列:TMS320C2000系列(包括TMS320C2x/C2xx)、TMS320C5000系列(包括TMS320C5x/C54x/C55x)和TMS320C6000系列(TMS320C62x/C67x)。如今,TI公司的系列DSP产品已经成为当今世界上最具影响的DSP芯片。TI公司也成为世界上最大的

DSP芯片供应商,其DSP市场份额占全世界份额近50%。

第一个采用CMOS工艺生产浮点DSP芯片的是日本的Hitachi公司,该公司于1982年推出了浮点DSP芯片。1983年日本Fujitsu公司推出了MB8764,其指令周期为120ns,且具有双内部总线,从而使处理吞吐量发生了一个大的飞跃。而第一个高性能浮点DSP芯片则是AT&T公司于1984年推出的DSP32。

与其他公司相比,Motorola公司在推出DSP芯片方面相对较晚。1986年,该公司推出了定点处理器MC56001。1990年,推出了与IEEE浮点格式兼容的浮点DSP芯片MC96002。

美国模拟器件(AnalogDevices,AD)公司在DSP芯片市场上也占有一定的份额,相继推出了一系列具有自己特点的DSP芯片,其定点DSP芯片有ADSP2101/2103/2105、ASDP2111/2115、ADSP2161/2162/2164以及ADSP2171/2181,浮点DSP芯片有ADSP21000/21020、ADSP21060/21062等。

自1980年以来,DSP芯片得到了突飞猛进的发展,DSP芯片的应用越来越广泛。从运算速度来看,MAC(一次乘法和一次加法)时间已经从20世纪80年代初的400ns(如TMS32010)降低到10ns以下(如TMS320C54x、TMS320C62x/67x等),处理能力提高了几十倍。DSP芯片内部关键的乘法器部件从1980年的占模片区(DieArea)的40%左右下降到5%以下,片内RAM数量增加一个数量级以上。从制造工艺来看,1980年采用4μm的

N沟道MOS(NMOS)工艺,而现在则普遍采用亚微米(Micron)CMOS工艺。DSP芯片的引脚数量从1980年的最多64个增加到现在的200个以上。引脚数量的增加意味着结构灵活性的增加,如外部存储器的扩展和处理器间的通信等。此外,DSP芯片的发展使DSP系统的成本、体积、重量和功耗都有很大程度的下降。

1.2.3DSP产品的种类

1.按数据格式分类

这是根据DSP芯片工作的数据格式来进行的分类。数据以定点格式工作的DSP芯片称为定点DSP芯片,如TI公司的TMS320C1x/C2x、TMS320C2xx/C5x、TMS320C54x/C62xx系列,AD公司的ADSP21xx系列,AT&T公司的DSP16/16A,Motolora公司的MC56000等。以浮点格式工作的称为浮点DSP芯片,如TI公司的TMS320C3x/C4x/C8x/C67x,AD公司的ADSP21xxx系列,AT&T公司的DSP32/32C,Motolora公司的MC96002等。

2.按用途分类

按照用途的不同,DSP可分为通用型DSP芯片和专用型DSP芯片。通用型DSP芯片适合普通的DSP应用,如TI公司的系列DSP芯片均属于通用型DSP芯片。专用型DSP芯片是为特定的DSP运算而设计的,更适合特殊的运算,如数字滤波、卷积和FFT等,如Motorola公司的DSP56200、Zoran公司的ZR34881、Inmos公司的IMSA100等就属于专用型DSP芯片。

3.按物理特性分类

这是根据DSP芯片的工作时钟和指令类型来进行的分类。如果在某时钟频率范围内的任何时钟频率上,DSP芯片都能正常工作,除计算速度有变化外,没有性能的下降,则这类DSP芯片一般称为静态DSP芯片,例如日本OKI电气公司的DSP芯片、TI公司的TMS320C2xx系列芯片都属于这一类。

如果有两种或两种以上的DSP芯片,它们的指令集和相应的机器代码及管脚结构相互兼容,则称这类DSP芯片为一致性DSP芯片。例如,美国TI公司的TMS320C54x就属于这一类。

4.不同类型的DSP的选择

DSP按不同的标准分为不同的类型,因此设计DSP应用系统时,如何选择DSP芯片就成为非常重要的一个环节。只有选定了DSP芯片,才能进一步设计其外围电路及系统的其他电路。总的来说,DSP芯片的选择应根据实际的应用系统需要来确定。不同的DSP应用系统由于应用场合、应用目的等不尽相同,因此对DSP芯片的选择也是不同的。一般来说,选择DSP芯片时应考虑到如下因素。

(1)DSP芯片的运算速度。运算速度是DSP芯片一个最重要的性能指标,也是选择DSP芯片时所需要考虑的一个主要因素。DSP芯片的运算速度可以用以下几种性能指标来衡量。

①指令周期:执行一条指令所需的时间,通常以ns(纳秒)为单位。如TMS320LC549-80在主频为80MHz时的指令周期为12.5ns。

MAC时间:一次乘法加上一次加法的时间。大部分DSP芯片可在一个指令周期内完成一次乘法和加法操作,如TMS320LC549-80的MAC时间就是12.5ns。

③FFT执行时间:运行一个N点FFT程序所需的时间。由于FFT运算涉及的运算在数字信号处理中很有代表性,因此FFT运算时间常作为衡量DSP芯片运算能力的一个指标。

④MIPS:每秒执行百万条指令。如TMS320LC549-80的处理能力为80MIPS,即每秒可执行八千万条指令。

⑤MOPS:每秒执行百万次操作。如TMS320C40的运算能力为275MOPS。

MFLOPS:每秒执行百万次浮点操作。如TMS320C31在主频为40MHz时的处理能力为40MFLOPS。

(2)DSP芯片的价格。DSP芯片的价格也是选择DSP芯片时需考虑的一个重要因素。如果采用价格昂贵的DSP芯片,即使性能再高,其应用范围也肯定会受到一定的限制,尤其是民用产品。因此应根据实际系统的应用情况,确定一个价格适中的DSP芯片。当然,由于DSP芯片发展迅速,DSP芯片的价格往往下降较快,因此在开发阶段选用的某种价格稍贵的DSP芯片,等到系统开发完毕,其价格可能已经下降一半甚至更多。

(3)DSP芯片的硬件资源。不同的DSP芯片所提供的硬件资源是不相同的,如片内RAM、ROM的数量,外部可扩展的程序和数据空间,总线接口,I/O接口等。即使是同一系列(如TI公司的TMS320C54x系列),不同的DSP芯片也具有不同的内部硬件资源,可以适应不同的需要。

(4)DSP芯片的运算精度。一般的定点DSP芯片的字长为16位,如TMS320系列。但有的公司的定点芯片为24位,如Motorola公司的MC56001等。浮点芯片的字长一般为32位,累加器为40位。

(5)DSP芯片的开发工具。在DSP系统的开发过程中,开发工具是必不可少的。如果没有开发工具的支持,要想开发一个复杂的DSP系统几乎是不可能的。如果有功能强大的开发工具的支持,如C语言的支持,则开发的时间就会大大缩短。所以,在选择DSP芯片的同时必须注意其开发工具的支持情况,包括软件和硬件的开发工具。

(6)DSP芯片的功耗。在某些DSP应用场合,功耗也是一个需要特别注意的问题。如便携式DSP设备、手持设备、野外应用的DSP设备等都对功耗有特殊的要求。目前,

3.3V和1.8V供电的低功耗高速DSP芯片已大量投入使用。

(7)除了上述因素外,选择DSP芯片还应考虑到封装的形式、质量标准、供货情况、生命周期等。有的DSP芯片可能有DIP、PGA、PLCC、PQFP等多种封装形式。有些DSP系统可能最终要求的是工业级或军用级标准,在选择时就需要注意到所选的芯片是否有工业级或军用级的同类产品。如果所设计的DSP系统不仅仅是一个实验系统,而是需要批量生产并可能有几年甚至十几年的生命周期,那么就需要考虑所选的DSP芯片供货情况如何,是否也有同样甚至更长的生命周期等。

DSP应用系统的运算量是确定选用处理能力为多大的DSP芯片的基础。运算量小,则可以选用处理能力不是很强的DSP芯片,从而可以降低系统成本。相反,运算量大的DSP系统则必须选用处理能力强的DSP芯片,如果DSP芯片的处理能力达不到系统要求,则必须用多个DSP芯片并行处理。根据系统要求的不同,在DSP算法中数据的处理方式一般有两种:按点处理和按帧处理。在这两种数据处理方式下,评估算法运算量的方法也不相同。

(1)按点处理。所谓按点处理,就是DSP算法对每一个输入样点进行一次处理计算,数字滤波就是这种情况。在数字滤波器中,通常需要对每一个输入样点计算一次。例如,一个采用LMS算法的256抽头的自适应FIR滤波器,假定每个抽头的计算需要3个MAC周期,则256抽头的计算需要256×3=768个MAC周期。如果采样频率为8kHz,即样点之间的间隔为125(s,DSP芯片的MAC周期为200ns,则768个MAC周期需要153.6(s的时间,显然无法实时处理,需要选用速度更高的DSP芯片。

(2)按帧处理。在许多应用系统中,对数据信号的处理是按帧来进行的,如在无线通信等应用领域中的应用,在这些系统中,数据并不是对每一样点分别进行计算处理,而是将数据按一定的序列长度组织成段来进行处理,这些划分的段称为帧。例如,在无线通信中通常以20ms为一帧,每隔20ms对数据进行一次处理计算。因此,对这种系统来讲,在考虑数字信号处理器的处理能力时应比较每个数据帧的长度和DSP处理一帧数据需要的计算时间。DSP要满足系统的处理要求,其处理一帧数据的时间应小于数据帧的时间长度。

当处理器的性能不能满足系统处理要求时,可从以下几个方面来调整方案:

●选择性能更高的处理器;

●采用多处理器系统对数据进行并行处理;

●采用性能更高和运算量更小的算法;

对系统程序进行优化,特别是对计算量较大的核心部分。

1.2.4DSP的主要应用

自从20世纪70年代末80年代初DSP芯片诞生以来,DSP芯片得到了飞速发展。DSP芯片的高速发展,一方面得益于集成电路技术的发展,另一方面也得益于巨大的市场。在20多年时间里,DSP芯片已经在信号处理、通信、雷达等许多领域得到了广泛的应用。目前,DSP芯片的价格越来越低,性能价格比日益提高,具有巨大的应用潜力。DSP芯片的应用主要有以下几个方面:

(1)信号处理。如数字滤波、自适应滤波、快速傅里叶变换、相关运算、谱分析、卷积、模式匹配、加窗、波形产生等。

(2)通信。如调制解调器、自适应均衡、数据加密、数据压缩、回波抵消、多路复用、传真、扩频通信、纠错编码、可视电话等。

(3)语音。如语音编码、语音合成、语音识别、语音增强、语音邮件、语音存储等。

(4)图形/图像。如二维和三维图形处理、图像压缩与传输、图像增强、动画、机器人视觉等。

(5)军事。如保密通信、雷达处理、声纳处理、导航、导弹制导等。

(6)仪器仪表。如频谱分析、函数发生、锁相环、地震处理等。

(7)自动控制。如引擎控制、声控、自动驾驶、机器人控制、磁盘控制等。

(8)医疗。如助听、超声设备、诊断工具、病人监护等。

(9)家用电器。如高保真音响、音乐合成、音调控制、玩具与游戏、数字电话/电视等。

由以上应用领域可以看出,DSP的应用已经深入到现代工业技术的各个领域,只要用到数字信号处理方法,就可以应用DSP作为实现的硬件平台。可以预见,随着DSP芯片性能价格比的不断提高,DSP芯片将会在更多领域中得到更为广泛的应用。

1.3TMS320系列DSP产品概述

1.3.1TI公司的定点DSP产品

TI公司的定点DSP芯片已经经历了TMS320C1x、TMS320C2x/C2xx、TMS320C5x、TMS320C54x、TMS320C55x、TMS320C62x、TMS320C64x等几代产品,其中TMS320C2xx、

TMS320C54x、TMS320C55x、TMS320C62x、TMS320C64x等产品是TI公司的主力产品。

1.TMS320C1x

1)基本特点

TMS320C1x属于第一代TMS320系列DSP芯片,包括TMS32010、TMS32011、TMS320C10、TMS320C15/E15和TMS320C17/E17。其中,TMS32010和TMS32011采用2.4(m的NMOS工艺,而其他几种则采用1.8(m的CMOS工艺。这些芯片的典型工作频率为20MHz。该系列芯片的主要特点如下所述。

(1)指令周期:160ns/200ns/280ns。

(2)片内RAM:144字/256字(TMS320C15/E15/C17/E17)。

(3)片内ROM:1.5K字/4K字(TMS320C15/C17)。

(4)4K字片内程序EPROM(TMS320E15/E17)。

(5)4K字外部全速存储器扩展。

(6)

并行乘法器:乘积为32位。

(7)桶形移位器:将数据从存储器移到ALU。

(8)并行移位器。

(9)允许文本交换的4×12位堆栈。

(10)两个间接寻址的辅助寄存器。

(11)双通道串行口(TMS32011、TMS320C17/E17)。

(12)片内压扩硬件(TMS32011、TMS320C17/E17)。

(13)协处理器接口(TMS320C17/E17)。

(14)器件封装:40脚双列直插(DIP)/44脚塑封(PLCC)。

2)TMS320C10

TMS320DSP芯片的第一代产品是基于TMS32010及其CMOS版本TMS320C10的结构。TMS32010于1982年推出,是第一个能够达到5MIPS的微处理器。

TMS32010采用改进的哈佛结构,即程序和数据空间相互独立;程序存储器可在片内(1.5K字)或片外(4K字);片内数据RAM为144字;有四个基本的算术单元,即算术逻辑单元(ALU)、累加器(ACC)、乘法器和移位器。

(1)ALU:32位数据操作的通用算术逻辑单元。ALU可进行加、减和逻辑运算。

(2)ACC:累加器。主要用于存储ALU的输出,也可作为ALU的一个输入。它采用32位字长操作,分高16位和低16位两部分。处理器提供高16位和低16位的专门指令:SACH(高16位)和SACL(低16位)。

(3)乘法器:16×16位并行乘法器由T寄存器、P寄存器和乘法器阵列三个单元组成。T寄存器存储被乘数,P寄存器存储32位乘积。为了使用乘法器,被乘数首先必须从数据RAM中装入T寄存器,可用LT、LTA和LTD指令。然后执行MPY(乘)或MPYK(乘立即数)指令。乘和累加器操作可用LTA、LTD和MPY、MPYK指令在两个指令周期内完成。

(4)移位器:有两个移位器可用于数据移位,一个是桶形移位器,另一个是并行移位器。桶形移位器又称定标移位器。当数据存储器的数据送入累加器或与累加器中的数据进行运算时,先通过这个移位器进行0~16位左移,然后再进行运算。并行移位器即输出移位器,其作用是将累加器中的数据左移0、1或4位后再送入数据存储器,以实现小数运算或小数乘积的调整。

在TMS32010/C10基础上又派生了多个处理器,它们可提供不同的处理器速度、存储器扩展和各种I/O集成。

3)TMS320C1x的其他芯片

(1)TMS320C15/E15。TMS320C15/E15与TMS32010的代码和管脚全兼容,提供256字的片内RAM和4K字的片内ROM(C15)或EPROM(E15)。TMS320C15的指令周期有200ns和160ns(TMS320C15-25)两种。

(2)TMS320C17/E17。TMS320C17/E17是一个专用的微处理器。它有4K字的片内程序ROM(C17)或EPROM(E17),一个全双工串行通信的双通道串行口,片内硬件压扩器((律/A律),一个用于串行通信的串行口定时器及一个协处理器接口。协处理器接口可以在处理器和4/8/16位微处理器之间提供直接接口。TMS320C17/E17与TMS32010目标代码兼容,且可用相同的开发工具。该处理器是基于TMS320C10的CPU内核,外加片内的外设存储器和I/O模块。TMS320C17/E17可认为是半定制的DSP芯片。

2.TMS320C2x

TMS320C2x属于第二代TMS320DSP芯片,包括TMS32020、TMS320C25/E25、TMS320C26及TMS320C28。在这些芯片中,TMS32020是一个过渡产品,其指令周期为200ns,与TMS32010相当,其硬件结构与TMS320C25一致。在第二代DSP芯片中,TMS320C25是一个典型的代表,其他芯片都是由TMS320C25派生出来的。其中,TMS320E25将内部4K字的ROM改为EPROM;TMS320C26去掉了内部的4K字ROM,而将片内RAM增加到1.5K字;TMS320C28则将内部ROM增加到8K字。

1)TMS320C25的基本特征

(1)指令周期:TMS320C25为100ns,TMS320C25-33为120ns,TMS320C25-50为80ns。

(2)片内掩膜ROM:4K字。

(3)片内RAM:544字,分B0、B1和B2三块。

(4)程序和数据空间均为64K字。

(5)具有8级硬件堆栈、8个辅助寄存器。

(6)具有全静态双缓冲串行口,可与许多串行器件直接接口。

(7)与低速片外存储器通信的等待状态插入。

(8)采用HOLD操作的DMA。

(9)FFT变换用的比特反转寻址。

(10)扩展精度算术和自适应滤波支持。

(11)从外部存储器全速执行的MAC/MACD指令。

(12)具有在多处理器之间进行同步的能力,支持多处理器共享存储器。

(13)1.8μmCMOS工艺,68脚PGA或PLCC封装。

2)TMS320C25的结构

TMS320C25是第二代TMS320中与TMS32020管脚全兼容的CMOS版本,但指令执行速度是TMS32020的2倍,且增加了硬件和软件资源。指令集是TMS32010和TMS32020的超集,在源代码级与它们兼容。此外,在代码级与TMS32020兼容,因此,TMS32020的程序不用修改,可直接在TMS320C25上运行。

由于TMS320C25具有专用算术单元的8个辅助寄存器,适合于自适应滤波和扩展精度运算的指令集支持,灵活高效的寻址方式,专用的乘累加指令(MAC)和带数据移位的乘累加指令(MACD),快速的I/O支持等特点,因此该DSP芯片具有更高的处理性能。

指令集中提供在两个存储空间中进行数据移动的指令。在外部,程序和数据存储空间在同一总线上复用,从而使得在尽量减少芯片引脚的情况下最大程度地扩大了两个空间的地址范围。在内部,TMS320C25结构通过保持程序和数据总线结构分离以使指令全速执行,这样可获得最大的处理能力。

芯片内部的程序执行采用三级流水线形式。流水线对用户来说是透明的。但是,在某些情况下流水线可能被打断(如跳转指令),在这种情况下,指令执行时间要考虑流水线必须清空和重新填充。两块大的片内RAM在系统设计时提供了很大的灵活性,其中一块既可配置为程序存储器,也可配置为数据存储器。片外64K字的数据空间可直接寻址,从而使DSP算法的实现更为方便。片内4K字的掩膜ROM可用来降低系统成本,若程序不超过

4K字,则TMS320C25不用扩展片外程序存储器。剩下的64K字程序空间在片外,大量的程序可在片外存储器中全速运行。程序也可从片外慢速EPROM中装入到片内高速RAM中全速运行。此外,还有硬件定时器、串行口和数据块搬移功能。

下面从存储器分配、中央算术逻辑单元(CALU)、硬件乘法器、控制操作、串行口和I/O接口几个方面简单介绍TMS320C25的结构特征。

(1)存储器分配。

TMS320C25具有4K字的片内程序ROM和544字的片内RAM。

RAM分为三块:B0、B1和B2。其中,B0块(256字)既可配置为数据存储器(用CNFD指令),也可配置为程序存储器(用CNFP指令);其余288字(B1和B2块)只能是数据存储器。544字的片内RAM可使C25能处理512字的数据阵列,如可进行256点复数FFT运算,且尚有32字用做中间结果的暂存。TMS320C25提供片外可直接寻址的程序和数据空间各64K字。

(2)中央算术逻辑单元。CALU包含一个16位的定标移位器(Scaling),一个16×16位的并行乘法器,一个32位的累加器和一个32位的算术逻辑单元(ALU)。移位器根据指令要求提供0~16位的数据左移。累加器和乘法器输出端的移位器适合于数值的归一化、比特提取、扩展精度算术和溢出保护。

(3)硬件乘法器。硬件乘法器是影响DSP性能的重要结构。TMS320C25有一个16×16位的硬件乘法器,它能在一个指令周期内计算一个32位乘积。硬件乘法器中集成了两个专用的寄存器:临时寄存器TREG和乘积寄存器PREG。TREG用于保存参与乘法运算的两个操作数之一,PREG用于保存乘法计算的结果。为了在硬件乘法器中进行小数运算并保证乘法累加结果不溢出,乘积寄存器支持对输出结果进行左移1位、4位或右移6位。无符号乘法指令MPYU可方便地扩展乘法的精度。

(4)I/O接口。I/O空间由16个输入口和16个输出口组成。这些接口可提供全16位并行I/O接口。输入(IN)和输出(OUT)操作典型的是2个周期,但若用重复指令,可变成单周期指令。I/O器件映射到I/O地址空间,其方式与存储器映射方式相同。与不同速度的存储器或I/O器件接口采用READY线完成。

TMS320C25也支持外部程序/数据存储器的DMA,其他处理器通过置HOLD为低可完全控制TMS320C25的外部存储器,使C25将其地址、数据和控制线呈高阻状态。外部处理器和C25的通信可通过中断来完成。TMS320C25芯片提供两种DMA方式:一种是加上HOLD后停止执行;另一种是C25继续执行,但执行是在片内ROM和RAM中进行的,这可大大提高性能。

3)TMS320C25的软件

TMS320C25的指令总共有133条,其中97条是单周期指令。在另外36条指令中,其中21条指令(包括跳转、调用和返回等)需重新装入程序计数器,使执行流水线中断;另外7条指令是双字和长立即数指令;剩下的8条指令(IN、OUT、BLKD、BLKP、TBLR、TBLW、MAC、MACD)支持I/O操作、存储器之间的数据交换或提供处理器内部额外的并行操作,而且这8条指令与重复计数器配合使用时可成为单周期指令。这主要利用了处理器的并行机制,使得复杂的计算可用很少的几条指令来完成。由于大多数指令用单16位字编码,因此可在一个周期内完成。存储器寻址方式有三种:直接寻址、间接寻址和立即数寻址。直接寻址和间接寻址都用来访问数据存储器,立即数寻址用来访问由程序计数器确定的存储器内容。

3.TMS320C5x

TMS320C5x是TI公司的第五代产品,是继TMS320C1x和TMS320C2x之后的第三代定点DSP处理器。它的核心中央处理器(CPU)以TMS320C25的核心CPU为基础,增强型结构大幅度地提高了整体性能。TMS320C5x的工作速度是TMS320C25的2倍以上。TMS320C1x和TMS320C2x具有源代码向上兼容特性。这种兼容性保留了过去开发的软件,便于系统升级到更高性能的DSP系统。

TMS320C5x系列有TMS320C50/C51/C52/C53等多种产品,它们的处理器核心基本相同,主要区别是片内RAM、ROM等存储器和片上外设资源不同。例如,TMS320C50内部具有10K字RAM和2K字ROM,其中2K字ROM已经固化了引导程序;TMS320C51内部具有2K字RAM和8K字ROM;TMS320C52内部具有1K字RAM和4K字ROM,减少了一个串行口;TMS320C53内部则有4K字RAM和16K字ROM。下面以TMS320C50为例介绍TMS320C5xDSP芯片。

1)TMS320C50的基本特征

TMS320C50的主要技术指标如下:

(1)25/35/50ns的指令周期(20~40MIPS)。

(2)224K×16位最大可寻址外部存储空间(64K程序、64K数据、64KI/O、32K全局)。

(3)算术逻辑单元(ALU)、32位累加器(ACC)以及32位加法器的缓冲器(ACCB)。

(4)并行逻辑单元(PLU)。

(5)结果具有32位的16×16位并行乘法器。

(6)单周期乘累加指令。

(7)具有一个专用算术单元的8个辅助寄存器,可用于间接寻址。

(8)8级硬件堆栈。

(9)0~16位数据左移和右移。

(10)两个间接寻址的循环缓冲器,用于循环寻址。

(11)程序代码的单指令重复和程序块重复。

(12)全双工同步串行口,用于完成TMS320C5x与其他串行器件之间的直接通信。

(13)时分多址访问(TDM)串行口。

(14)内部定时器,可用软件控制。

(15)64K并行I/O口,其中16个有存储器映像。

(16)可软件编程的等待状态发生器。

(17)扩展保持操作,用于并发外部DMA。

(18)四级流水线操作,用于延迟跳转、调用和返回指令。

(19)位倒序寻址方式,用于FFT运算。

(20)JTAG扫描仿真接口(IEEE标准,P1149.1)。

2)TMS320C50的结构

(1)TMS320C50的总线结构是哈佛型总线结构,它的数据总线和程序总线是相互独立的,这样在系统中就可以独立地进行取指和取操作数,在很大程度上提高了系统的执行效率。该总线结构和指令集也支持在两个存储空间之间进行数据传输。

(2)TMS320C50使用32位的ALU和累加器以实现2的补码运算。ALU是一个通用的算术单元,它所使用的运算数据(16位)来自数据RAM或立即数指令,也可以是乘积寄存器中32位的乘积结果。除此之外,ALU还支持位操作。

(3)TMS320C50具有32位的累计器。累加器主要用于保存ALU的输出,也为ALU提供输入。累加器分为高字节和低字节,指令集支持对累计器的低字节和高字节进行独立的操作。32位累加器的缓冲器用于临时、快速地存储累加器的内容。

(4)并行逻辑单元(PLU)是TMS320C50的一个重要的特征部件,它可以在不影响累加器内容的情况下对数据进行逻辑操作。PLU提供了高速控制器需要的位处理能力,并简化了控制和状态寄存器需要的置位、清零和测试操作。

(5)TMS320C50具有16×16位的硬件乘法器,它可以以单指令周期完成16×16位的乘法,结果为32位。乘法器由三部分组成,分别是乘法器阵列、PREG(乘积寄存器)和TREG0(临时寄存器)。16位的TREG0存储乘数,PREG保存32位的乘积结果。乘法器中的数值来自数据存储器,当使用MAC/MACD/MADS/MADD指令时来自程序存储器,或者来自指令中的立即数(MPY#)。片内快速乘法器对执行诸如卷积、相关和滤波等基本的DSP操作十分有效。

(6)TMS320C50的定标移位器有一个16位的输入来自数据总线,32位的输出连接到ALU。定标移位器依照指令的编程使输入数据产生0~16位的左移。移位量取决于指令或移位计数寄存器(TREG1)中的定义值。输出的最低有效位(LSB)补零,最高有效位补0或进行符号扩展(取决于状态寄存器ST1的符号扩展模式位SXM)。附加的移位能力使处理器能执行数值定标、二进制位提取、符号扩展运算和溢出防止等功能。

(7)8级硬件堆栈用于在中断及子程序调用时保存程序计数器的内容。中断发生时,重要寄存器(ACC、ACCB、ARCR、INDX、PMST、PREG、ST0、ST1和TREG)压入堆栈,中断返回时弹出,实现了无开销的中断切换。

4.TMS320C2xx

TMS320C2xx是继TMS320C2x和TMS320C5x之后出现的一种低价格、高性能的定点DSP芯片,它具有较强的数据处理能力和丰富的片上外设接口,适用于工业控制和测控系统领域。该系列DSP主要包括TMS320C20x、TMS320C24x两个子系列,TMS320C24x系列芯片为数字控制和测控系统的应用做了优化设计。TMS320C2xx系列DSP芯片具有如下特点:

(1)处理能力强。指令周期最短为25ns,运算能力达40MIPS。

(2)片内具有较大的Flash存储器。TMS320C2xx是最早使用Flash存储器的DSP芯片。Flash存储器具有比ROM灵活、比RAM便宜的特点。TMS320F206和TMS320F207片内具有32K字的Flash存储器和4.5K字的RAM。利用Flash存储器存储程序,不仅可降低成本,减小体积,同时系统升级也比较方便。

(3)功耗低。TMS320C2xx系列DSP芯片在5V工作时每个MIPS消耗1.9mA,在

3.3V工作时每个MIPS消耗1.1mA。使用DSP核的省电模式可进一步降低功耗。

(4)资源配置灵活。现有10多种具有不同资源配置的芯片。表1-2列出了TMS320C2xx系列DSP芯片的资源配置。

表1-2TMS320C2xx系列DSP芯片的资源配置

5.TMS320C54x

TMS320C54x是为实现低功耗、高性能而专门设计的定点DSP芯片,该系列DSP的最大特点是功耗低,因此它在消费类电子产品和便携式仪器仪表方面具有广泛的应用。该系列芯片的内部结构与TMS320C5x不同,因而指令系统与TMS320C5x和TMS320C2x等互不兼容。

TMS320C54x的主要特点如下:

(1)运算速度快。指令周期为25/20/15/12.5/10ns,运算能力为40/50/66/80/100MIPS。

(2)优化的CPU结构。内部有1个40位的算术逻辑单元、2个40位的累加器、2个40位的加法器、1个17×17的乘法器和1个40位的桶形移位器,有4条内部总线和2个地址产生器。此外,内部还集成了比较、选择和存储单元,可在很大程度上提高维格编、译码的速度。先进的DSP结构可高效地实现无线通信系统的各种功能。

(3)低功耗方式。TMS320C54x可以在3.3V或2.7V电压下工作,三个低功耗方式(IDLE1、IDLE2和IDLE3)可以节省DSP的功耗,延长系统的待机时间,TMS320C54x特别适合于对功耗敏感的设备。用TMS320C54x实现GSM语音编码器仅需5.6mW。

(4)高性能的片上外设。除了标准的串行口和时分复用(TDM)串行口外,TMS320C54x还提供了自动缓冲串行口BSP(auto-BufferedSerialPort)和与外部处理器通信的HPI(HostPortInterface)接口。BSP可提供2K字数据缓冲的读/写能力,从而降低处理器的额外开销。指令周期为20ns时,BSP的最大数据吞吐量为50Mb/s,即使在IDLE方式下,BSP也可以全速工作。该系列DSP上提供的主机接口HPI可以方便地与外部标准的微处理器直接接口。

表1-3TMS320C54x系列DSP芯片的资源配置

6.TMS320C62x

TMS320C62x系列DSP是TI公司于1997年开发的一种新型32位的定点DSP芯片。该芯片的内部结构与以前的DSP芯片有很大的不同,它采用了与此前DSP结构截然不同的体系结构,其内部集成了8路并行的处理通道,在理想情况下可以同时执行8条指令,运算能力达1600MIPS。其主要特点如下:

(1)运行速度快。指令周期为5ns,运算能力为1600MIPS。

(2)内部结构不同于TI公司此前的DSP产品。内部同时集成了2个乘法器和6个算术运算单元,且它们之间是高度正交的,使得在一个指令周期内最大能支持8条32bit的指令。

(3)指令集不同。为充分发挥其内部集成的各执行单元的独立运行能力,TI公司使用了VelociTT超长指令字(VLIW)结构。该结构在一条指令中组合了几个执行单元,结合其独特的内部结构,可在一个时钟周期内并行执行几条指令。

(4)大容量的片内存储器和大范围的寻址能力。片内集成了512K字程序存储器和512K字数据存储器,并拥有32位的外部存储器界面。

(5)高性能的片上外设。内部集成了4个DMA接口、2个多通道缓存串口和2个32位定时器。

(6)低廉的使用成本。由于TMS320C62x系列DSP具有很高的处理能力和并行运算能力,它能处理的数据通道数目比一般的处理器要多,因此尽管其价格稍高一些,但单位成本具有很大程度的降低。1.3.2TI公司的浮点DSP产品

1.TMS320C3x

TMS320C3x是TI公司的第三代产品,也是第一代浮点DSP芯片。TMS320C3x系列主要有TMS320C30、TMS320C31和TMS320C32三种。TMS320C31是TMS320C30的简化和改进型,它在TMS320C30的基础上简化了一般用户不常用的一些资源,降低了成本,是一个性能价格比较高的浮点处理器,在国内已得到了较广泛的应用。TMS320C32是TMS320C31的进一步简化和改进型。表1-4列出了三种芯片的比较。

表1-4三种TMS320C3x芯片的比较

1)TMS320C3x的硬件资源

TMS320C30的硬件资源相当丰富。其内部包含了2K×32位的快速RAM块。哈佛总线结构下相互独立的程序总线、数据总线和DMA总线可并行地进行取指、读/写数据和DMA操作。片上集成了64×32位的指令Cache,将经常使用的代码块存储于该Cache中,可大大减少片外访问的次数,从而提高整个程序的运行效率。由于TMS320C30的地址总线有24位,因此TMS320C30可以访问多达16M的32位字的存储器空间,程序、数据和I/O空间都包含在TMS320C30这个16M字的空间中。

TMS320C30有一个40/32位的浮点/整数乘法器,这个乘法器可以在单周期内完成24位整数和32位浮点值的乘法,为了达到更高的性能,可以采用并行指令在单周期内完成一次乘法和ALU操作。当乘法器进行浮点乘法时,输入是32位单精度浮点值,而输出则是40位的扩展精度浮点数。进行整数乘法时,输入是24位整数,而输出则是32位整数。

TMS320C30的整数/浮点算术逻辑运算单元ALU可以进行单周期的32位整数、32位逻辑数和40位浮点数操作,ALU的运算结果是32位整数或40位浮点数。内部的桶形移位器可以在单周期内进行高达32位的左移或右移。内部总线CPU1/CPU2和REG1/REG2可从存储器中取两个操作数并从寄存器取两个操作数,这就使得对四个操作数进行乘和加/减可在单周期内完成。

TMS320C30内为辅助寄存器AR配置了两个辅助寄存器算术单元(ARAU0和ARAU1),它们可以在单周期内产生两个地址。ARAU的操作是和乘法器及ALU的操作并行进行的。ARAU为多种寻址方式提供了更高的效率和更大的灵活性。

TMS320C30提供了28个寄存器,这些寄存器可以由乘法器和ALU操作,可以用做通用的寄存器。另一方面,这些寄存器也具有相应的特殊功能,如8个扩展精度的寄存器(R0~R7)可当累加器使用,特别适用于存放扩展精度的浮点结果;8个辅助寄存器(AR0~AR7)支持一系列间接寻址方式,并且可以用做通用的32位整数和逻辑寄存器;其他寄存器也具有一些特殊的系统功能,如寻址、堆栈管理、处理器状态、中断和块重复等。

TMS320C30可通过由32位数据总线和24位地址总线组成的外设总线与外设直接进行通信。DSP通过对外设寄存器的访问来读取和控制片上外设的状态和工作方式。TMS320C30的外设包括两个可支持8/16/24/32位数据交换的串行口和两个32位定时器。串行口的时钟可以由内部产生,也可由外部提供,在用户需要时可通过外设寄存器将串行口的引脚配置为通用的数字I/O引脚。TMS320C30片上集成了32位通用定时器,可通过对内部时钟信号或外部时钟信号进行计数来实现计数或定时操作,在用户需要时也可以将定时器的引脚配置为通用的数字I/O引脚。片内的DMA功能使得CPU与I/O操作可同时进行。DMA控制器可以在存储器的任何地址进行读/写操作而不干扰CPU的操作,因此TMS320C30可与外部的慢速存储器或外设接口而不降低CPU的吞吐量。

TMS320C30具有两个通用的外部引脚(XF0、XF1),可通过软件将其设置为输入或输出,这两个引脚也用于多处理器之间的通信。

除了主总线之外,TMS320C30还有一条扩展总线。扩展总线的数据线为24位,地址线为13位,其操作可与主总线操作同时进行,也可独立于主总线。与主总线相比,扩展总线上的I/O口的读/写周期为2个H1周期,即为主总线的2倍,因此扩展总线通常用于系统的I/O操作。

TMS320C31是TMS320C30的简化和改进型,它去掉了扩展总线、一个串行口和内部的4K字ROM,增加了程序的引导功能。TMS320C32是TMS320C31的简化和改进型。简化主要是将内部的RAM由2K字减少为512字,以降低成本。改进之处包括:外部存储器宽度可变,中断矢量表可重定位,外部中断可由软件选择是电平触发还是边沿触发,增加了一个DMA控制器通道,此外,还增加了两种节电运行方式。

2)TMS320C3x的软件资源

TMS320C3x的汇编语言指令集特别适合于数字信号处理。所有指令占一个机器字长,大部分指令是单周期的。指令集共有113条指令,可以分为六类:数据传送类、两个操作数算术/逻辑类、三个操作数算术/逻辑类、程序控制类、互锁操作类及并行操作类。12条数据传送指令可从存储器中读一个字装入寄存器,将一个字从寄存器中存入存储器中并进行堆栈操作。两个操作数指令有35条,提供整数、浮点、逻辑运算及多精度算术操作。17条三个操作数指令可以在一个指令周期内完成具有三个操作数的运算,其中两个是源操作数,另一个是目的操作数。程序控制指令共16条,它们影响程序的流向,其中有块重复指令RPTB和单指令重复指令RPTS。除了有标准跳转指令外,还有延迟跳转指令,有些指令具有条件运算功能。5条互锁操作指令主要用来进行多处理器之间的通信。剩下的28条指令都是并行操作指令,每条并行指令由两条指令用符号“||”连接,并行操作指令可使“||”前后的两条指令并行完成。需要注意的是,并不是任意两条指令都可构成并行指令。

TMS320C3x可提供相当灵活的程序流控制。软件的程序控制包括重复、跳转、调用、陷阱及返回等。

为提高DSP系统程序在非顺序执行时的流水线效率,TMS320C3x提供了两种类型的跳转:标准跳转和延迟跳转。标准跳转首先将流水线清空,然后执行跳转,这可保证程序计数器的正确管理,但却使跳转指令需4个周期才能执行完毕。延迟跳转则相反,它并不将流水线清空,而是保证在程序跳转之前执行它下面的3条指令,这样使得跳转指令本身仅需1个指令周期。当然有些指令(如CALL、RPTB等)不能出现延迟跳转指令下面的3条指令。延迟跳转指令在它下面3条指令完成前禁止中断。

流水线冲突可以分为以下三大类:跳转冲突、寄存器冲突和存储器冲突。这三类冲突都可以采取相应的一些手段予以解决,如由于标准跳转引起的跳转冲突可以采用延迟跳转的方法来克服。

TMS320C3x支持5类寻址方式,有些DSP型号可采用6种寻址类型。5类寻址方式分别是:通用寻址方式、三操作数寻址方式、并行寻址方式、长立即数寻址方式和条件跳转寻址方式。6种寻址类型分别是:寄存器寻址、直接寻址、间接寻址、短立即数寻址、长立即数寻址和相对寻址。此外,TMS320C30还有两种数字信号处理中非常有用的寻址方式:一种是循环寻址方式,主要用于任何需要建立缓冲区的系统对缓冲区进行循环寻址;另一种寻址方式是

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论