DM816x_芯片级资源_第1页
DM816x_芯片级资源_第2页
DM816x_芯片级资源_第3页
DM816x_芯片级资源_第4页
DM816x_芯片级资源_第5页
已阅读5页,还剩14页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、1 芯片级资源1) 介绍主要包括如下资源:l 微处理器单元(MPU)子系统,这个子系统是基于带Neon扩展的ARM Cortex-A8微处理器l DSP子系统(DSPSS),包括C674x宏模块和相关的内存l 高清视频协处理器(HDVICP2)系统MMUl 系统MMUl SGX350图形子系统,用作3D图形加速l 高清视频处理子系统(HDVPSS),用作视频捕捉和显示l L3和L4互联l 设备时钟和Flying Adder PLLsl 错误定位模块,用于通用目的的内存控制器l 协处理器间的通讯,带有邮箱和自旋锁组件l 控制模块,对所有芯片级的控制和配置寄存器l 电源、复位、时钟管理l 中断控制

2、器l Boot模块和引导过程2) MPU子系统1.2.1 介绍MPU子系统操作ARM核、L#互联、中断控制器之间的交易,MPU子系统是个硬宏,集成Cortex-A8处理器,还包括协议转换、仿真、中断处理和调试增强。Cortex-A8是一个ARMv7兼容的,双流、定序执行引擎,具有L1和L2缓存,带有NEON SIMD媒体处理单元。中断控制器包括在MPU子系统里,用来处理系统的Host中断请求MPU子系统包括CoreSight兼容的逻辑,允许调试子系统存取Cortex-A8调试和仿真资源,包括嵌入式跟踪宏单元。MPU子系统有三个功能时钟域,包括Cortex-A8使用的高频时钟域,高频域通过异步桥

3、与设备的其它部分隔离。图1-1MPU子系统1.2.2 特征l ARM处理器n Cortex-A8版本R3P2n ARM架构,版本7 ISAn 双流,定序执行管线n L1和L2指令和数据CACHE:32KB、4-way,带有128位接口的16-word行n 集成L2 CACHE:256KB,16-word行,与L1之间是128位带ECC/奇偶校验接口n 包括NEON媒体协处理器,它实现先进的SIMD媒体处理结构n 包括VFP协处理器,它实现VFPv3结构和全兼容IEEE754标准n 扩展接口,使用AXI协议,配置到128数据宽n 包括嵌入式跟踪宏单元,支持非扩散调试n 实现ARMv7调试,带有观

4、测点和断点寄存器,和32位先进的外设总线(APB)从接口道CORESight调试系统。l 加密n 对CortexA8的SECMON接口n 加密状态机器n 防火墙n 加密RAM和ROMl AXI2OCPn 支持OCP2.2n 在两个端口上单个请求多数据协议n 多目标,包括三个OCP端口(128位、64位、32位)l 中断控制器n 支持128个中断请求l 仿真与调试n 兼容CoreSight结构l 时钟产生n 通过PRCMl DFTn 集成PBIST控制器,用来测试L2tag和数据RAM、L1I和L1D数据RAM和OCM RAM1.2.3 MPU子系统集成MPU子系统集成了如下子模块:Cortex

5、-A8处理器:提供一个高处理能力,包含NEON技术用于移动多媒体加速。ARM通过一个AXI总线与AXI2OCP桥通讯和接收来自MPU子系统中断控制器的中断。中断控制器:处理模块中断AXI2OCP桥:允许ARM(AXI)、INTC(OCP)和模块(OCPL3)之间进行通讯I2Async桥:这是个OCP到OCP接口间的异步桥接口。这是在AXI2OCP桥与MPU子系统之间的接口,T2Async桥外部到MPU子系统。时钟分频器:提供要求的分频时钟到MPU子系统内部模块,并有一个来自SYSCLK2的时钟输入,它送到电源、复位、时钟管理模块。在线仿真:它全兼容CoreSight结构并是能调试能力1.2.4

6、 MPU子系统时钟和复位分布1.2.5 ARM子芯片1.2.6 AXI2OCP和I2Async桥1.2.6.1 桥的概述AXI2OCP桥,用来连接ARM A8的AXI总线与OCP原生L3互联(64位宽)、EMIF OCP端口(128位宽)、中断控制器和加密状态机。它转换AXI和OCP之间的协议,维护AXI tags到OCP Tag ID之间的映射。一个内存区域必须为中断操作者保留,桥被要求多一些最小的地址译码以便确定向哪儿提出请求。AXI2OCP桥和目标模块(EMIF、L3)操作在不同的时钟域,在它们之间的接口必须通过一个异步桥以便合适地同步到对方的时钟域。桥到L3是通过一个异步接口来完成,包

7、含I2Async和T2Async模块。在MPU子系统边的I2Async模块有一个OCP端口,它与T2Async之间的传输是异步的,并路由到L3,T2Async在MPU子系统外(注意,在I2Async和T2Async之间的接口不是OCP通讯规程)。1.2.6.2 主要特征l 在C014.P里,目标500MHz操作频率,操作电压是1.0Vl 通过一个128位的OCP端口和异步桥连接到EMIFl 通过64位OCP端口和异步桥连接到L3互联l 通过32位OCP端口连接到中断控制器(仅支持单个交易)l 对管线请求,支持单个请求多数据突发模式(数据握手)l 支持多重要请求l 支持加密、仿真、引导模式转换l

8、 排它性的存取被转换为桥里的非排它的读写图1-5 AXI2OCP与L3桥的概略图1.2.6.3 AXI到OCP Tag影射表1-5读通道AXI ID到OCP Tag的映射AXI ID请求类型OCP线程OCP Tag重要请求4b0000NC/SO1数据装载Thread_Mx5b000009(一个集成或总共到8Neon)4b0001器件数据装载Thread_Mx5b0000114b0011外设N/AN/A14b1110可Cache行填充进L1DThread_Mx5b0111014b0100取NC/SO1指令Thread_Mx5b0010014b0101取器件指令Thread_Mx5b0010114

9、b1111行填充进L1I$(行是L2不可Cache的)Thread_Mx5b0111114b0110NC/SO1表Table-Walk请求(指令、数据或PLE)Thread_Mx5b0011014b1000可Cache行填充(I、D、TLB、PLE)#1,除了行填充进L1DThread_Mx5b0100014b1001可Cache行填充(I、D、TLB、PLE)#2,除了行填充进L1DThread_Mx5b0100114b1010可Cache行填充(I、D、TLB、PLE)#3,除了行填充进L1DThread_Mx5b0101014b1011可Cache行填充(I、D、TLB、PLE)#4,除

10、了行填充进L1DThread_Mx5b0101114b0010保留N/AN/AN/A4b01114b11004b11014b0000NC/SO1,或WT存储Thread_Mx5b10000直到84b0001器件写Thread_Mx5b100014b0011外设写N/AN/A4b1000驱逐#1(包括PLE)Thread_Mx5b1100014b1001驱逐#2(包括PLE)Thread_Mx5b1100114b1010驱逐#3(包括PLE)Thread_Mx5b1101014b1011驱逐#4(包括PLE)Thread_Mx5b1101114b0010保留N/AN/AN/A4b01004b01

11、014b01104b11004b11014b11104b11111.2.7 中断控制器Host ARM中断控制器(AINTC)负责对所有来自外设服务请求按照优先级产生nIRQ或nFIQ给Host。中断类型(nIRQ或nFIQ)和中断输入的优先级是可编程的,AINTC与Monza处理器的接口通过AXI端口指向HASS。它有能力处理128个请求,它能进行引导和优先级处理作为nFIQ或nIRQ中断请求。AINTC的总的特点:l 多达128级的中断输入源l 每个中断的单独优先级l 每个中断能引导到nFIQ或nIRQl nFIQ和nIRQ的独立的优先级排序l 加密掩模标志1.2.8 电源管理1.2.9

12、Host ARM地址映射区域地址范围尺寸内部存储器(存取没有路由到外部OCP端口)BOOT ROM(128KB)加密0x4000 0000 0x4001 FFFF1MB公共ROM(48KB)0x4002 0000 0x4002 BFFF保留0x4002 C000 0x400F FFFF保留0x4020 0000 0x402E FFFF1MB加密/公共SRAM(64KB)0x402F 0000 0x402F FFFF内部保留(在HASS器件上没有实现的自动Back-End端口)保留0x4010 0000 0x401F FFFF1MB私有外设映射(存取没有路由到外部OCP端口)ARM中断控制器(A

13、INTC)0x4820 0000 0x4820 0FFF4KB保留0x4820 1000 0x4827 FFFF508KB保留0x4828 1000 0x482F FFFF508KB128位OCP主端口0(通过DMM到EMIFs)EMIF0/EMIF1 CS00x8000 0000 0xBFFF FFFF1GB保留(EMIF0/EMIF1 CS1)0xC000 0000 0xFFFF FFFF1GB64位OCP主端口1(到L3)BOOT空间0x0000 0000 0x00FF FFFF1MBL30x0000 0000 0x5FFF FFFF(1.5GB 1MB)Tiler0x6000 0000

14、 0x7FFF FFFF256MB1.2.10 ARM编程模型用于MPU配置的寄存器更为详细描述见电源、复位、时钟管理、和中断控制器。1.2.10.1 时钟控制时钟配置设置,见电源、复位、时钟管理模块(PRCM)。1.2.10.2 MPU电源模式变化MPU电源域的不同电源模式:l 基本的上电复位l MPU进入掉电模式l MPU推出掉电模式l MPU从断电到上电1.2.10.2.1 上电复位1.2.10.2.2 MPU进入待机模式按照下面的操作顺序,MPU进入掉电模式,并能够初始化上电,或者将器件从掉电模式唤醒。l ARM核仅通过软件进入待机模式(CP15-WFI)l ARM内核检测到待机后,M

15、PU模块内部要求MPU子系统进入IDLE。l MPU待机输出由PRCM断言l PRCM现在能请求INTC进入IDLE模式,来自INTC的响应送到PRCM注意:INTC SWAKEUP输出是到PRCM的纯硬件信号,用于它的IDEL请求状态,和IDEL响应握手注意:在调试模式,ICE-Crusher能阻止MPU子系统进入IDLE模式1.2.10.2.3 MPU退出待机模式MPU退出待机模式,按照操作的顺序,可以初始化上电荷唤醒器件l PRCM在DPLL编程期间必须启动时钟l 通过DPLL输出的状态,检测有效的时钟l 通过INTC激发一个中断,将ARM核从STANDBYWFI模式唤醒1.2.10.2

16、.4 MPU从断电到上电l MPU上电,NEON上电,核上电应该按照规定的顺序以最小化上电期间的最小电流。注意,核域必须上电复位在MPU复位之前l 复位顺序必须按照基本的上电复位顺序描述的那样1.2.10.3 NEON电源模式变化当NEON电源域变化被配置为自动硬件监视模式(CM_CLKSTCTRL_NEON1:0的CLKTRCTRK_NEON位为0x3),它不会进入IDLE模式,除非MPU进入待机模式,因为在NEON和MOU域之间的硬件休眠是独立的。在那种情况下,为了NEON电源域变化发生,MPU域必须也被配置为自动硬件监视模式(CM_CLKSTCTRL_MPU1:0的CLKTRCTRL_M

17、PU位必须设为0x3)。完整的编程模型,见ARM Cortex-A8技术参考手册。3) C674x子系统1.3.1概述DSP子系统(如图1-7)包括Ti标准的TMS320C674x宏模块和一些内部块(L1P,L1D和L2),DSP子系统支持一个从端口和一个主端口,它连接到L3互联,它还提供三个主端口用于直接存取到HDVICP2子系统(HDVICP2和HDVICP2 SL2端口),这一节提供DSP子系统的概述和随后与之相关的考虑。l 内存映射l 中断l 电源管理内部结构是下面组件的一个组合:l 高性能DSP派生品,集成了一个宏模块,包括本地L1和L2 CACHE,内存控制器用于音频处理和通用目的

18、图像和视频处理。l L1和L2共享Cachel 专用的扩展数据内存存取(EDMA)引擎,下载/上载数据来自/去内存和外设扩展到子芯片。l 专用的内存管理(MMU)用于L3互联地址空间。l 本地互联网络。l 专用的SYSC和唤醒产生器(WUGEN)模块负责电源管理,时钟产生和连接到电源、复位、和时钟管理模块(PRCM)。更详细的信息见TMS320C674x DSP模块参考手册(SPRUFK5),TMS320C674x DSP CPU和指令集参考手册(SPRUFE8),以及TMS320C674x DSP Cache用户指南(SPRUG82)。图1-7 TMS320C674x宏模块框图1.3.2 C

19、674xDSP特征和选项C6000器件每个周期,执行8个32位指令,C674x CPU组成64个通用目的的32位寄存器和8个功能单元。这个8个功能单元包含:l 两个乘法器l 6个算逻单元C6000系列有一个完整的优化的开发工具,包括一个高效的C编译器,一个汇编优化器用于简化汇编语言编程和计划,一个基于Windows的调试接口用于可视化代码执行特征,一个硬件仿真板,兼容TI XDS510和XDS560模拟器接口。C6000器件的特点:l 先进的VLIW CPU带8个功能单元,包括两个乘法器和6个算术单元。n 每个周期执行8个指令,相对于典型的DSP性能高出10倍n 允许设计者开发高效率的类RIS

20、C代码,以节省开发时间l 指令包n 串行或并行执行的8个指令代码尺寸相等n 减少代码尺寸,程序的存取和电源的消耗l 大部分指令可以条件执行n 减少分支的代价n 增强了并行机制,提高性能l 在独立的功能单元高性执行代码n 工业上最高效的C编译器n 工业上第一个汇编优化器,用于快速开发和改善并行处理能力l 8/16/32位数据支持,为不同应用,提供高效内存支持l 40位算术优化增加了额外的精度,为声音合成和别的计算敏感应用l 主要算术操作支持饱和和规则化l 域的操作和指令,提取、置位、清除、以及位计数支持通用操作,适应控制和数据操作的应用。C674x器件还具有额外的扩展的能力和特征:l 每个乘法器

21、每个周期可以执行2个16x16位或4个8x8位的乘法l 4倍8位或两倍16位指令扩展了对数据流的支持l 支持非对齐的32bit(word)和64bit(双字)内存存取l 特殊的通讯设置指令用于增加寻址通用操作和误差校正代码l 位计数和选转硬件扩展了对位级算法的支持l 紧凑指令:通用指令(AND、ADD、LD、MPY)有16位版本以减少代码尺寸l 保护模式操作:一个特权程序执行的2级系统,以支持根高能力的操作系统和系统特征,比如内存保护l 错误检测的意外支持和程序重定向,提供鲁棒代码运行支持l 硬件支持模循环操作以减少代码尺寸l 每个乘法器能执行32x32位的乘法l 增加的指令用于支持复数乘法以

22、允许每个周期多达8个的16位乘/加/减运算l SPLOOP,硬件Buffer,实现硬件控制管线,导致更小的代码尺寸和可中断紧循环,以改善决策。C674x器件通过改善代码尺寸和增加浮点运算使得性能得以增强和扩展:l 单精度(32位)和双精度(64位)IEEE浮点运算的硬件支持l 执行包能跨界取l 增加到64个寄存器(每个数据通道32个)l S单元浮点加和减能力l 混合精度乘指令l 32x32bit整数乘,32bit或64bit结果C6000的VelociTi结构使得它们成为第一款使用先进的VLIW的货架式DSP,通过增加指令级的并行机制获得高性能。一个传统的VLIW结构组成如下:并行运行的多个执

23、行单元、单周期执行乘法指令。并行机制是高性能的关键,它使得这些DSP的能力超过传统的设计性能,VelociTi是一款高度确定性的结构,对指令的存取、执行、和存储限制较少,它的结构灵活,这有利于TMS320C6000优化编译器的效率,VelociTi的先进特征,还包括:l 指令打包:减少代码长度l 所有指令都可以有条件执行l 可变宽度指令:数据类型的灵活性l 全管线分支:0耗费分支1.3.3 DSP子系统功能描述1.3.4 TMS320C674x宏模块1.3.4.1 L1程序内存控制器(PMC)1.3.4.2 L1数据内存控制器1.3.4.3 统一的L1/L2 Cache1.3.4.4 内部DM

24、A(IDMA)控制器1.3.4.5 特性MMU1.3.4.6 中断控制器1.3.4.6.1 NMI中断1.3.4.7 Power-Down控制器(PDC)1.3.4.8 带宽管理(BWM)1.3.5先进的事件触发(AET)4) HD视频协处理器子系统(HDVCP)1.4.1 HDVICP2概述HDVICP2是图像和视频硬件加速子系统。HDVICP2支持精度达1080p/i 60fps(或120场)。HDVICP2子系统支持下面Codec标准,也就是说,标准的所有功能被加速(不需要DSP干预)。l H.264:BP/MP/HP编码和解码l H.264:Fast Profile/ECDO编码和解码

25、l MPEG-4:SP/ASP编码/解码(不支持低版本,如3.11和4.x)l H.263:Profile 0和3解码,Profile 0编码l Soreson Spark:V0和V1解码(不支持编码)l MPEG-2 SP/MP编码和解码l MPEG-1编码和解码l VC1/WMV9/RTV:SP/MP/AP编码和解码l ON2 VP6/VP7解码l RV 8/9/10解码l AVS 1.0编码和解码l JPEG(也包括MJPEG)Baseline编码和解码l H264-Annex H(MVC)HDVCP2子系统由下面组成:l 一个主(primary)和一个辅(secondary)管理器(s

26、equencer):ICONT1和ICONT2,包括内存和中断控制,对这些管理器,ICONT1和ICONT2是等同的。l 一个视频DMA引擎:vDMAl 一个熵编码/解码:ECD3l 一个运动补偿引擎:MC3l 一个变换和量化计算引擎:CALC3l 一个loop滤波(deblocking filter)加速引擎:iLF3l 一个运动估计引擎:iME3l 一个帧内预测引擎:iPE3l 共享级(L2)接口和内存(256KB)l 局部互联l 消息接口,用于在同步盒之间进行通讯l 邮箱(MailBox)l 调试模块,用于跟踪事件和软件instrumentation:SMSETTi选择eXpress D

27、SP Digital Media(xDM)标准作为与HDVICP2的主要软件接口。xDM标准定义了应有程序编程接口(APIs),通过它,应用程序启动一个特定的Codec,比如视频、图像、语音和音频(又称VISA(Video、Image、Speech、Audio)的编解码。1.4.1.1 HDVICP2功能描述图1-11显示了HDVICP2子系统的框图:1.4.1.2 同步盒(SyncBox)SyncBox是一个可配制的模块,它负责调度内置在HDVICP2子系统里的所有硬件模块,它处理所有的同步、数据共享、各加速器之间的参数传递。它还提供了使用异步消息的可能。1.4.2 ICONTSICONT模

28、块是一个基于ARM968E-S的微处理器,带有32KB紧耦合的指令内存(TCM)和16KB紧耦合的数据内存。它包括一个中断控制器(INTC)、一个局部数据搬移器(mover)、它自己的用于同步其它模块的任务的SyncBox模块、相关的SyncBox处理者(handler)。两个一样的ICONT实例:ICONT1和ICONT2存在在HDVICP2子系统中,他们典型地能用于执行高级处理(在帧或Slice级),控制宏块级的边界框计算和其它vDMA处理任务。对任何一个ICONT,软件能做等同的映射处理。1.4.3 vDMAvDMA是一个DMA引擎,执行外部内存到共享L2内存的数据传输。vDMA还能够执

29、行在SL2里的内存和在外部的内存之间的copy。1.4.4 iME3iME3加速器也执行视频编码的运动估计,iME3有自己的内置SyncBox模块用于同其它模块的任务进行同步。iME3比较当前宏块和参考区域,提供参考区域中的一个area,这个area同当前宏块的差异最小,它还以半像素或1/4像素精度插值产生1/2和1/4像素块,另外,iME3支持在插值块中搜索最佳匹配块。也即支持1/2和1/4像素精度的运动估计。1.4.5 iPE3iPE3加速器用来执行视频编码的帧内预测,iPE3有自己的内置SyncBox模块,用来同其它模块进行任务的同步,LSE传输数据从内部内存到共享L2内存。iPE3支持

30、2个模块,取决于视频标准:1) 对于H264和AVS,作为空域帧内预测估计。它用给定的帧内预测模式,按照原是宏块来创建帧内预测宏块,然后选择一个最小COST的模式并推荐为以俄国优化的帧内预测模式。2) 对MEPG-1/2/4和VC-1,作为空域Activity,它按照特定的块尺寸来计算原始灰度样本的空域activity,这个模式用来提供原始灰度像素的信息,这个值用来确定编码方式,这个值可以用来决定编码的宏块参数,比如编码模式和量化参数。1.4.6 MC3MC3加速器用来执行运动补偿,MC3有两个内置的SyncBox模块用于与其它HWAs的任务的同步。,LSE用来传输数据从内部内存到共享L2内存

31、。1.4.7 CALC3CALC3加速器用来执行前向和反向变换和量化计算,CALC3有自己的内置SyncBox模块与其它HWA的任务同步,LSE传输数据从内部内存到共享L2内存。它能执行变换/反变换、Q/iQ、DC/AC预测。1.4.8 iLF3iLF3加速器用来执行deblocking滤波,边境强度计算。iLF3有自己的内置SyncBox模块用于与其它HWAs的任务的同步。1.4.9 ECD3ECD3加速器是用来编码和解码数据流,ECD3有自己的内置SyncBox模块,用来同别的HWAs同步任务,且传输数据从内部内存到共享的L2内存支持Huffman编码和算数编码对于编码,ECD3编码宏块信

32、息和残差数据成一个位流,对于解码来说,ECD3解码位流,恢复宏块信息和残差数据。1.4.10 SL2接口共享L2接口,SL2IF,是一个仲裁器,允许18个initiator存取一个交织级的8个内存BANK。SL2IF有2套接口:1) 18个128bit接口,用于从模块内存到共享L2内存的存取2) 8个128bit内存接口,用于直接存取内存BANKS1.4.11 消息总线消息总线是一个仲裁器,允许8个initiators存取8个目标,它用来发放不同IPs的SyncBox产生的消息。1.4.12 HDVICP2局部互联HDVICP2局部互联支持2个外部Host互联(Medai控制器和L3)之间的连接,2个硬件加速器(iME3、iLF3、ECD3、CALC3、Mc3、iPE3)、vDMA、和局部模块(MailBox和SysCtrl)。1.4.13 MailBox邮箱(MailBox)功能是支持2和Host之间通过中断的2-way通讯,允许软件在处理器之间通过一组寄存器和相关中断来收发信息以建立一个通讯通道。邮箱(MailBox)内置在HDVICP2子系统中,在2个外部用户和一个内部用户之间实现2-way通讯。这个通讯确保通过3对邮箱(MailBox)和每个消息队列有4个消息FIFO深度。注意:内部用户是2个ICONTs之一,ICONT1和ICONT2连接在一个共享中断线上,在IC

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论