可配置可扩展TCORE处理器_第1页
可配置可扩展TCORE处理器_第2页
可配置可扩展TCORE处理器_第3页
可配置可扩展TCORE处理器_第4页
可配置可扩展TCORE处理器_第5页
已阅读5页,还剩23页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、可配置可扩展可配置可扩展T*CORE处理器处理器及在天文图像处理中的应用及在天文图像处理中的应用-面向面向AST3项目的硬件加速器设计项目的硬件加速器设计郭炜郭炜天津大学天津大学 VLSI设计与应用研究所设计与应用研究所天文信息技术联合实验室天文信息技术联合实验室传输触发体系结构与传输触发体系结构与T*CORE内容大纲内容大纲1面向天文图像处理的面向天文图像处理的T*CORE设计设计2未来芯片将整合数千个小核心 未来芯片将整合数千个小核未来芯片将整合数千个小核,而不是只依赖于而不是只依赖于某个单一的复杂核。某个单一的复杂核。 n多任务处理技术可使整体的运算吞吐量高很多。多任务处理技术可使整体的

2、运算吞吐量高很多。 n许多小核及小的存储器的芯片,芯片面积减少,许多小核及小的存储器的芯片,芯片面积减少,功耗大为降低功耗大为降低 。 - Intel fellow ShekharBorkar 嵌入式解决方案专用芯片专用芯片(ASIC : Application Specific Integrated Circuit)n缺少灵活性通用处理器(通用处理器(CPU,DSP)n效率低、功耗大专用指令集处理器专用指令集处理器(ASP/ASIP: Application Specific Instruction processor)n兼顾灵活性、高性能、低功耗等优点传输触发体系结构传输触发体系结构: T

3、ransport Triggered Architecture (TTA)n由TU Delft 的H. Corporaal 等在1991年提出n属于ASP/ASIP传输触发体系结构(TTA)TTA处理器指令格式instructionoperationsourceTTA处理器只包含一种操作:数据传输操作处理器只包含一种操作:数据传输操作MOVE超长指令字超长指令字(VLIW)模块化模块化松耦合松耦合可配置可扩展可配置可扩展高性能高性能低成本低成本低功耗低功耗TTA处理器的优势/劣势架构组合和设计架构组合和设计空间不确定空间不确定 编译器设计复杂编译器设计复杂代码优化的困难代码优化的困难指令膨胀迅

4、速指令膨胀迅速T*CORE处理器T*CORE是基于是基于TTA 架构可配置可扩展的处理架构可配置可扩展的处理器器n一种处理器模板一种处理器模板n更多的可配置性与扩展性更多的可配置性与扩展性n更灵活的指令架构更灵活的指令架构n特制的软硬件协同设计流程及相关工具集特制的软硬件协同设计流程及相关工具集n硬件模块库硬件模块库T*CORE处理器设计的关键可配置性可扩展性扩大了可配置性可扩展性扩大了T*CORE处理器架构的处理器架构的选择范围选择范围,进行设计空间探索尤为重要。进行设计空间探索尤为重要。n需要在更高的抽象层次上对架构进行仿真,通过设计空需要在更高的抽象层次上对架构进行仿真,通过设计空间探测

5、获得最优架构方案间探测获得最优架构方案支持自定义的指令及更多可见的编程细节使得手支持自定义的指令及更多可见的编程细节使得手工编程几乎成为不可能。工编程几乎成为不可能。n一个高效的可重定目标编译器是一个高效的可重定目标编译器是T*CORE处理器的性处理器的性能得以充分发挥的关键能得以充分发挥的关键高效的软硬件协同设计方法及相关工具集的设计高效的软硬件协同设计方法及相关工具集的设计是决定是决定T*CORE能否被广泛应用的关键能否被广泛应用的关键.软硬件协同设计流程及工具集T*CORE A0424v1芯片面向音频解码面向音频解码(mp3)的应用的应用2009年年6月,采用月,采用GSMC 0.13u

6、m CMOS工艺工艺, 成功成功MPW流片流片MP3解码性能分析计算密集型部分采用硬件加速器计算密集型部分采用硬件加速器 Tcore协处理器协处理器面向MP3解码SoC架构实现实时实现实时MP3解码的工作频率:解码的工作频率:30MHz;功耗:;功耗: 1WT*CORE A0424v1硬件架构T*CORE A0424v1指令架构1. 指令宽度96-bit,分为4个slot,宽度分别为16-bit,16-bit,32bit,32bit2. 只有slot1可以执行跳转操作3. 各个slot所支持的立即数宽度不同实现指令压缩实现指令压缩提高代码密度提高代码密度T*CORE A0424v1空操作复用空

7、指令复用空指令复用 + 特殊的特殊的load/store单元设计单元设计: DCT32节省节省81%T*CORE A0424v1版图传输触发体系结构与传输触发体系结构与T*CORE内容大纲内容大纲1面向天文图像处理的面向天文图像处理的T*CORE设计设计2天文图像空间变换核降晰算法 天文图像相减:天文图像相减:n同一天区不同时刻拍摄的天文照片(源图像)同模板图像(参考图像)进行差异比较,分析出不同时刻星迹变化情况。降晰处理:降晰处理:n由于气象、背景光线等因素导致图像清晰度不同,每个恒星的点扩散函数不同,因此在相减之前必须对模板图像进行降晰处理。Alard等人提出的空间变换核降晰算法等人提出的

8、空间变换核降晰算法 :n在时间空间(而不是在傅立叶空间)完成卷积核的计算执行降晰运算,即执行卷积运算:n最后对C和源图像执行相减操作,得到变源。 其中, R:模版图像; K:核函数; C: 降晰后的模版图像空间变换核降晰算法各模块所占计算比重 对使用对使用Alard算法所实现的软件算法所实现的软件ISIS分析分析 功能所占计算比重求局部核函数16.2求局部核函数系数5.6求解核函数3.9执行降晰运算执行降晰运算74.3 计算量最大部分为执行降晰运算 以图像大小为以图像大小为2K2K、卷积核为、卷积核为1919为例,执行降晰为例,执行降晰运算时需要的计算为运算时需要的计算为2K2K1919=1.

9、51109次次 降晰运算的硬件设计自定义的浮点数格式自定义的浮点数格式n将双精度64-bit浮点格式的数据变为自定义32-bit浮点格式的数据,硬件面积减少约一倍。n对精度的影响类型类型 SNR(db) 单精度单精度 75.220086 自定义自定义 93.263391 降晰运算的硬件设计数据存储方式和计算流程数据存储方式和计算流程n根据所采用的降晰运算的规律,分析了数据复用的可行性,在设计Tcore处理器的应用软件时,采用特殊的数据存储方式 降晰运算的硬件设计Tcore协处理器内部架构协处理器内部架构 降晰运算的硬件设计硬件系统结构图硬件系统结构图 性能比较(仅卷积运算部分)性能比较(仅卷积运算部分)方案方案 主频主频(HZ) 功耗功耗

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论