基于多dsp的高性能可重构数字图像并行处理系统_第1页
基于多dsp的高性能可重构数字图像并行处理系统_第2页
基于多dsp的高性能可重构数字图像并行处理系统_第3页
基于多dsp的高性能可重构数字图像并行处理系统_第4页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于多dsp的高性能可重构数字图像并行处理系统

图像并行处理结构设计面临的主要问题随着多媒体图像应用的快速发展,体积小、重量轻、结构灵活、处理能力强的嵌入式数字图像处理系统在工业和医学上具有越来越大的需求。实时性高、计算复杂、数据量大是图像处理系统面临的重大挑战。并行计算是提高处理速度最有效的技术之一,图像并行处理技术为提高图像处理效率提供了广阔的空间。图像并行处理包括并行算法和多处理器并行硬件系统,图像处理并行算法的执行效率依赖于多处理器系统的硬件结构。通常,一种并行结构只适合于一类并行算法的映射。20世纪90年代至今,图像并行处理技术一直是图像处理领域研究的热点之一。参考文献分别对并行处理结构及其实现方法进行了探讨,提出了流水结构、分列并行等很有价值的硬件并行结构框架。目前,图像并行处理结构设计面临的主要问题可以概括为两个方面:①图像并行处理硬件结构复杂,在实际应用中图像处理结构的开发周期长、成本高;②面向图像处理算法的硬件结构针对性设计方法导致图像处理平台的可重用性差,调整、扩展和升级困难。本文构建的可重构并行计算系统可以通过配置可重构处理单元来满足不同应用的计算要求。这样的系统使图像处理结构设计与图像处理的算法设计分离,具有很高的性能并且结构灵活,能大大提高图像处理并行算法的执行效率和加速比。1传统图像处理技术1.1加速比和并行度的关系目前,用于嵌入式图像处理系统的高速器件主要是DSP和FPGA。处理核心的合理选用是影响并行系统处理能力的一个关键因素。并行处理的目的是通过采用多个处理单元同时处理输入信息来缩短任务的执行时间。在任务和算法确定的情况下,Amdahl定律可表明:加速比与任务并行度和处理单元个数密切相关。在任务并行度一定的情况下,增加处理单元所获得的加速比有一个极限值,任务的并行度制约着并行处理机的性能。在实际应用中,还必须考虑各个处理单元之间的数据交换和同步时间。由于比串行程序执行增加了数据通信和同步等待等开销,因此当加速比Sp<p(p为处理单元个数)时,并行效率Eff<1。为使任务执行时间缩短而Sp增大,增加处理单元个数p成为首要手段,同时要将任务进行更细粒度的划分以增加任务的并行度。如图1所示,在增加处理单元和任务细粒度化的同时将带来总通信量的增加,影响了Sp的增加并导致Eff呈下降趋势。1.2热耦合并行系统并行计算处理单元之间的网络结构大致可分为2种:一种是共享总线或共享存储器系统,称为“紧耦合式并行系统”,如图2所示;另一种是各处理单元有独立的数据存储器而通过通信口相连的分布式并行系统,称为“松耦合式系统”,如图3所示。两种并行计算体系结构的比较如表1所列。1.3并行算法与并行结构不匹配一个任务要在多处理机系统上得到处理,首先必须将其分解成一些子任务,再由多处理系统中的各处理机分别处理这些子任务,协同完成该任务。如图4所示,并行算法在并行硬件系统上的应用是一个映射过程。一类并行算法依赖于适合的并行网络结构才能高效率地运行。导致并行算法与并行结构不匹配的原因主要有2个:一是欲把一个系统上开发的并行算法用于另一个系统上;二是由于问题内在的并行性,使并行算法与并行结构不匹配。常用图像处理算法的特点及适用的并行处理结构分析如表2所列。综上所述,传统的共享总线系统与分布式并行系统分别适用于不同的图像并行处理算法。分布式并行系统的不同连接方式之间也有较大的差异。并行算法的高效率运行依赖于并行硬件拓扑结构的支持,某种硬件结构只适合一类并行算法。一般情况,一个图像处理任务是多个算法的集合,并行系统单靠某种固定结构无法适应所有的并行算法,这就给图像处理系统带来了问题。当并行硬件拓扑结构不适合并行算法时,系统的性能和算法执行效率都会受到影响,需要对并行硬件结构做出改进和完善。2重建数字图像并执行系统2.1可重构处理系统的组成可重构计算是指基于可改变(可动态改变)的硬件,以硬件适应算法(即可重构特性)、硬件定制和硬件并行的方式实现计算。可重构处理系统结合了可重构硬件处理单元和软件可编程处理器,系统允许对可重构处理单元进行配置以满足不同应用的具体计算要求。如图5所示,可重构处理系统的组成基本相同,即通用处理器(阵列)、可重构资源(阵列)、存储器(阵列)、公用存储器、系统接口等。面向图像处理的可重构系统在器件选用上通用处理器可采用适合图像处理的高性能DSP阵列。2.2系统的“多dsp+fpga”结构可重构数字图像并行处理系统有以下优点:①FPGA内部的逻辑功能可以在系统运行过程中动态重载,使系统可以实现多DSP之间拓扑的灵活改变以适应各种并行算法的需求,使算法执行效率达到最高。静态重构和动态重构使系统相比传统固定系统具有很强的通用性和适应性。②系统的“多DSP+FPGA”结构能将系统任务划分成适合FPGA处理的低层信号处理和图像预处理部分及适合DSP处理的算法,便于发挥两者的优势;且FPGA可通过软件适应不同时序格式的数字图像,使得系统具有很高的性能和灵活性。3系统设计的示例3.1fpga-p可实现多通道图像的融合基于TI公司C6000系列DSP和Xilinx公司Spartan-3系列FPGA,构建基于图像的点源目标识别系统,对在线可重构数字图像并行处理系统的可实现性和性能进行验证。硬件结构如图6所示。图像输入FPGA-P,各DSP分别外扩一片双口RAM,且将总线EMIFA接到FPGA-P。FPGA-P可用来完成图像时序处理、图像数据的转换、图像滤波等预处理工作,且可以灵活地将处理后的图像数据保存到大容量公用数据存储器SRAM中,并将各DSP访问的仲裁逻辑或分配保存到各DSP外扩的双口RAM中。这种结构使系统可以轻松地适应多路图像输入。DSP阵列可以并行完成各种图像处理算法。FPGA-C建立起DSP间的通信链路且暂存各DSP的处理结果。构建通信链路的方法有:用FPGA-C在两DSP之间构造FIFO或小容量双口RAM,构建EMIF-HPI通路等。DSP-M可以根据算法需求通过McBSP在线配置FPGA-C,FPGA-C的配置文件存放在DSP-M外扩的Flash中,这样就实现了DSP对FPGA的在线可重构。同时,DSP-M扩展了USB、PCI、McBSP等多种接口用来输出图像处理结果。3.2实验系统仿真结果系统用于实现4路分辨率为256×256、帧频为50Hz的8位图像(如图7所示)的移动点源目标识别。处理过程包括图像时序采集、转换,图像滤波,去除噪声,姿态融合和目标识别等环节。图像分配和算法执行所需平均时间仅为9.5ms。若用共享总线系统来实现,则多路图像数据的存储和分配以及处理器之间的通信将消耗大量时间,大大降低系统效率。若用分布式并行系统来实现,则姿态和多路图像的综合处理会给某一个处理器带来很大的通信量和运算量。将实验中的图像处理任务在同等规模的3种系统上分别实现,执行时间如图8所示。如图9所示,这些不同形式的计算系统是性能和通用性的不同折衷。可重构算系统代表了介于ASIC和通用处理器之间的计算途径,在通用性和性能上都优于传统的硬件系统。图像处理中数据量大、算法复杂,与其他计算技术相比,可重构计算能充分发挥出

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论