(信息与通信工程专业论文)基于媒体数字信号处理器的mpeg4解码关键技术研究.pdf_第1页
(信息与通信工程专业论文)基于媒体数字信号处理器的mpeg4解码关键技术研究.pdf_第2页
(信息与通信工程专业论文)基于媒体数字信号处理器的mpeg4解码关键技术研究.pdf_第3页
(信息与通信工程专业论文)基于媒体数字信号处理器的mpeg4解码关键技术研究.pdf_第4页
(信息与通信工程专业论文)基于媒体数字信号处理器的mpeg4解码关键技术研究.pdf_第5页
已阅读5页,还剩66页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

插图目录 图1 - 1 图像压缩中的d p c m 原理图 图2 - 1m p e g - 4s p 解码流程。 图2 - 2m e d i a d s p 3 2 0 0 处理器核结构【1 9 】 图2 - 3 程序优化的层次结构 l o 2 0 2 l 2 2 图2 - 4 基于宏块组的解码策略:。2 5 图2 - 5 邻居块在d c a c 预测中的使用二:2 6 图2 - 6 宏块中每一个块的候选运动矢量预铡器m v l ,m v 2 和m v 3 的定义2 7 图2 7 基于宏块的解码策略2 8 图3 - 1p r e d i c ta c d c 模块优化示意3 4 图3 - 2 线性搜索法 图3 3 直接查表法 图3 4 二进制搜索法 图3 - 5 改进的二进制搜索法 图3 - 6 分步查表法 3 8 3 8 图3 - 7 伪码占所有d c t 系数码字的比例。3 8 图3 - 8h u f f m a n 码树的结构 图3 - 9 奇偶分解算法8 点i d c t 流程图 4 5 图3 1 0l o e m o r 快速算法流程。4 6 图3 1 18 x 8 d c t 基本形式 图3 - 1 2 不同码率d c t 系数分布 图3 1 3 i d c t 算法选择。 4 9 5 2 5 3图3 1 4 整数变换流程 图4 1 媒体系统芯片m e d i a s o c 3 2 2 x a 结构5 5 图4 - 2m e d i a s o c 3 2 2 x a 硬件开发子平台结构 图钙分层软件结构 图4 - 4 软件子平台 图4 - 5 双缓冲区示意图 图4 缶运动补偿运算与数据搬运时间上并行 。5 7 。5 7 5 9 6 0 图4 1 7 一维d m a 和二维d m a 搬运一个宏块的时序比较 图4 8 片外显示存储区示意 图4 9 解码结果演示 图4 - 1 0a s p 八阶滤波器半像素插值二。6 6 7 摘要 随着d s p 处理能力的不断增强,基于d s p 平台的视频编解码成为视频压缩技术的重要 应用领域。m p e g - 4 视频部分由于其较高压缩效率、合理的实现复杂度,在移动多媒体通信、 便携式播放器、无线视频监控中都有大量的应用。目前,许多机构正在从事m p e g 4 技术 在d s p 平台上的应用研究和产品开发。因此本文基于浙江大学信息与通信工程研究所自主 研发的媒体系统芯片m e d i a s o c 3 2 2 x a 的m p e g - 4 实时解码关键技术的研究具有重要的实践 意义。 基于d s p 的视频编解码实现的关键问题是在满足资源约束的条件下,尽可能提高编解 码性能。因此,本文首先针对有限的处理器资源,利用分层优化的思想,提出了一种基于宏 块的解码策略,对解码器总体结构进行了优化。 其次研究了关键模块优化。1 从数据并行处理和提高存储带宽利用率出发,对解码流程 中的数据密集型模块进行优化,大幅降低了数据准备和计算的开销。2 结合统计特性和数学 方法,对解码流程中的计算密集型模块- i d c t 、h u f f m a n 解码进行了优化。其中,对h u i l m a n 解码模块的优化在研究变长码字统计特性的基础上,提出了一种并行分步查表的解码方法; 对i d c t 模块的优化则分析了d o t 系数分布的稀疏性,提出了一种新的基于统计特性的 i d c t 快速算法。上述模块优化均结合了s i m d 指令,进一步提高了解码性能。 最后研究了实时解码的实现方法,对解码器在数据调度、媒体数据流控制方面进行了优 化:基于二维d m a ,优化了程序结构,充分利用了数据处理和数据搬运的并行,减少了处 理器等待数据准备的开销;采用基于数据驱动的控制策略,替代了基于时间驱动的控制策略, 消除了处理器轮询定时器的开销。通过以上两方面优化,处理器可以进一步降低工作频率。 通过在存储分配、关键模块0 i m t 、h u f f m a n 解码) 算法、控制策略三方面进行优化,解 码器在m e d i a s o c 3 2 2 x a 上8 1 m h z 时可以完成m p e g - 4 实时解码。 关键词:m p e g - 4 ,i d c t ,h u f f m a n 解码,媒体数字信号处理器,数据调度,实时解码 3 a b s t r a c t w i t ht h ei m p r o v i n gc a p a c j t ) ro fd s ev i d e oc o d e cb a s e do nd s pi sa l li m p o r t a n ta p p l i c a t i o n a r e ai nv i d e oc o m p r e s s i o mb e c a u o fs u p e r i o rc o m p r e s s i b i l i t ya n dr e a s o n a b l ec o m p l e x i t yo f r e a l i z a t i o n , m p e g - 4v i d e oh a sa p p l i e dal o ti nm o b i l en m l t i m e d i ac o m m u n i c a t i o n , p o r t a b l em e d i a p l a y e ra n dw i r e l e s sv i d e om o n i t 0 i n o w a d a y s m a n yi n s t i t u t e sh a v eb e m ge n g a g e di na p p l i c a t i o n s t u d ya n dp r o d u c td e v e l o p m e n t , s ot h e 咖d yo nt h ek e ym c h n o l o g i c so fm p e g - 4r e a l - t i n t d e c o d i n gb a s e d0 1 1m e d i as o cm e d i a s o c 3 2 2 x ad e v e l o p e db yi n s t i m d eo fi n f o r m a t i o na n d c o m m o n i c a t i o n z b e j i a n gu n i v e r s i t yh a sp r a c t i c a ls e n s e t h ek e yf a c t o ro fm a l i z i u gv i d e oc o d e co bd s pi s :i nt h ec o n d i t i o no fl i m i t e dr e s o u r c e , t r y y o u rb e s tt oi m p r o v et h ep c r f o m m n c eo ft h ec o d g c s of i r s ta i a n ga tt h el i m i t e dp r o c e s s o r r e s o u r ,t h i sp a p e rh a sb r o u g h tf o r w a r dad e c o d i n gs u a m g yb a s e d0 1 1m a c r ob l o c kb yu t i l i z i n gt h e h i e r a r c h yo p t i m i z a t i o n u s i n gt h i ss t r a t e g y , i to p t i m i z e st h ew h o l es t l u c t l n eo f t h ed e c o d e r s e c o n d l y , t h i sp a p e rs t u d i e st h eo p t i m i z a t i o no fk e ym o d u l e s 1 i to p t i m i z e st h ed a t a - i n t 龇 m o d u l ef r o mp o i n to fp a r a l l e lp r o c e s s i n ga n di m p r o v i n gt h eb a n d w i d t hu t f l i z 蕴t i o ma f t e r o p t i m i z a t i o n , t h eo v e r h e a do fd a t ap r e p a r i n ga n dc o m p u m t l o nh a sd e c r e a s e dl a r g e l y 2 t h e c o m p u t a t i o n - i n t e n s em o d u l ei d c ta d dh u f f m a nd e c o d i n gh a v eb e e no p t i m i z e dc o m b i n i n gt h e s t a t i s t i c a lc h a r a c t o r i z a t i o na n dm a t h e m a t i c a lm e t h o d a m o n gt h e m , m i sp a p e rh a sb m u g h tu pa p a r a l l e ll o o k u pt a b l em e t h o dt oo p t i m i z et h eh u f f m a nd e c o d i n gm o d u l 6b a s e do nt h es t u d yo f v a r i a b 】e i l e n g 山c h a r a c t e r i s t i c sw h i l ea f a s ts t a t i s t i c a la l g o r i t h mb a s e do nt h es p a r s e n e s so fd c t c o e f f i c i e n t sh a sb e e np r o p o s e dt oo p t i m i z et h ei d c t m o d u l e b yt b ew a y , t h ea b o v eo p t i m i z a t i o n s h a v ec o m b i n e dw i t hs 删i di n s t r u c t i o n st oi m p r o v et h ed e c o d i n gp e r f o r m a n c ef t l r o l c rm o r e f i n a l l y , t h er e a l i z a t i o no fr e a l - t i m ed e e o d m ga n dd e c o d e ro p t i m i z a t i o ni nt h ea s p e c t so fd a t a s c b e d u l i d ga n dd a ms t r e a mc o n 舡o m n gh a v eb e e ns t u d i e d :o no n eh a n d , b a s e do nt w o - d i m e n s i o n d m a , t h e $ u l l c t u l c eo f p r o g r a mh a sb e e no p t i m i z e d 协u t i l i z et h ep a r a l l e l i s mo fd a t at t a n s p o r m t l o n a n dd a mc a l c u l a t i o na sw e l la st od e c r e a s et h ew a i t i n gt i m ef o rd a t ap r e p a r i n g ;o ht h eo t h e rh a n d , d a m - d r i v e nc o n t r o ls t a t c g yr e p l a c e st h et i n 】c d r i v e nc o n t r o ls t u m p t oe l i 1 i 咄t h eo v e r h e a do f i n q u i r i n gt i l l e rb yp r o c e s s o r b a s e do nt h ea b o v et w oo p t i m i z a t i o n s p r o c e s s o rc 缸矗l r t h e r d c c r e 獬t h ew o r k i n gf r e q u e n c y t h r o u 曲岫o p t i m i z a t i o mi nm e m o r ya l l o c a t i o n , a l g o r i t h m so fk e ym o d u l e sa n dc o n t r o l s w a t o g y , t h ed e c o d e rc a l lc o m p l e t et h em p e g - 4r e a l - t i m ed e e o a i n gw i t hh 【e m a s o c 3 2 2 x a 砒 8 l m & k e y w o r d :m p e g - 4 ,c t ,h u f f m a nd e c o d i n g ,m e d i ad s p ,d a t as c h e d u l i n g ,r e a l - t i m ed e c o d i n g 4 第一章绪论 随着信息技术的不断发展,人们对及时获知信息的需求越来越强烈,多媒体信息,尤其 是视频信息,由于较强的直观性和易于理解,成为一种非常重要的信息形式。虽然视频信息 内容非常丰富,但是数据量庞大,对存储器容量、传输带宽、处理能力提出了苛刻的要求, 因此视频信息的压缩具有重大的意义。在实际应用中,为了满足成本和质量两方面要求,视 频信息压缩遵循以下原则: 1 视频压缩在一定带宽、存储容量的条件下进行,必须保证足够的压缩比; 2 视频压缩方案应当具有简单、易实现、低成本的优点,同时应当保证一定的可靠性; 3 视频压缩码流经解码恢复后,应当保证一定的质量,满足人眼主观质量、图像信噪 比的约束。 在目前的视频压缩标准中,m p e g 4 视频压缩标准具有较高的压缩效率,灵活的应用场 合、合理的实现复杂度,有着广泛的应用前景;同时,随着视频压缩新算法的不断提出和视 频压缩应用领域的不断涌现,硬件平台的可编程性成为关键因素,基于媒体数字信号处理器 等可编程处理器的应用将愈发得到重视,相应的速度、存储开销,功耗等技术的重要性也日 益增加。因此,将m p e g - 4 与可编程处理器结合进行研究具有重要的实践意义。 1 1 图像压缩基本技术 1 1 1 图像压缩的可能性 图像数据压缩的主要依据是以下两个基本事实 h 1 2 1 : 1 人眼对图像细节和颜色的辨认存在一个极限,去掉超过极限的部分,能够达到数据压缩 的目的人眼具有两条特性:一是人眼对色度信号的敏感程度比对亮度信号的敏感程度 低,可以利用这个特性把图像中表达颜色的分量去除一部分而使人眼难以察觉;二是人 的视觉对于边缘急剧变化不敏感( 视觉掩盖效应) ,可以利用这个特性把图像中代表细节 的高频分量去除一部分,而使人从视觉上并不感觉到图像质量的下降,达到对数字图像 压缩的目的。 2 图像数据有极强的相关性,存在大量的冗余信息。在空域上,图像像素点的灰度值和色 差值,除了边界轮廓,都是缓慢变化的,相邻像素的灰度和色差值非常接近,直接用采 样数据表示每个像素的灰度和色差存在着大量重复信息,通常采用帧内预测的方法进行 压缩;在时域上,除了场景切换等情形,在较短的采样间隔内物体位置的改变较小,因 此活动图像连续的帧之间的相关性很强,通常采用帧间预测的方法进行压缩。 依据第一个基本事实进行压缩的技术称为有损压缩技术,在压缩的过程中损失部分信息 8 量,以这部分信息量的损失换取压缩效率的提升,压缩数据解码后存在一定的失真;依据第 二个基本事实进行压缩的技术称为无损压缩技术,采用数学方法表示冗余数据来达到压缩的 目的,保证压缩数据被解码后与压缩前一致,无失真地恢复原图像内容。目前常用的图像压 缩技术包括:统计编码、预测编码、交换编码和运动估计,补偿。 1 1 2 统计编码 统计编码的基础是随机过程的统计特性。定义信源发出任意一个符号的平均信息量为信 源熵,统计编码的目标是找到一种编码方法,使得编码器输出码字的平均码长尽可能接近信 源熵这个无失真编码条件下的平均码长下限。统计编码的典型方法包括:哈夫曼( h u f f m a n ) 编码、算术编码、行程编码( r l ml e n g t hc o d e ,r i c ) 。 1 ) 哈夫曼编码 哈夫曼编码由h u f f m a n 在1 9 5 2 年提出,广泛应用于各种数据压缩中,其基本理论依 据是变长编码理论。哈夫曼编码器的输入是信息符号出现的统计概率,输出是不等长的码字。 对于出现概率大的符号,分配较短的输出码字:对于出现概率小的符号,分配较长的输出码 字。对于相同概率分布的信源,哈夫曼编码的平均码长最短。 2 ) 算术编码 算术编码较哈夫曼编码方法复杂,但是它不需要传输哈夫曼码表,具有自适应的优点。 在算术编码中,消息采用一个位于0 - 1 问隔中的实数表示,可以很容易实现静态或者自适应 编码。在静态编码中,信源符号出现的概率固定;在自适应编码中,信源符号的概率有一个 初始值,并且根据信源符号出现的频率对此概率进行动态调整 3 ) 行程编码 行程编码基于以下事实;在一幅图像中存在许多连续的具有相同颜色值的像素。因此, 行程编码不需要存储每一个像素的颜色值,只需存储一个像素的颜色值及具有相同颜色值的 像素数日,达到图像压缩的目的 1 1 3 预测编码 在自然界中,图像是模拟信号,为了能够让数字计算机使用,必须把模拟信号经a d 变换,得到二进制码,这一过程即脉冲编码调制( i c m ,p i l l s ec o d em o d u l a t i o n ) 。但是,直 接应用i c m 编码表示图像信息,数据量非常庞大,必须采用压缩率更高的方法。预测编码 从消除图像中相邻像素间的相关性考虑,用已出现的像素作为当前像素的预测,编码时仅输 出当前象素值与预测值的差,减少传输的信息量。 预测编码分为线性预测和非线性预测。其中线性预测方法,即差分脉冲编码调制 ( d i f f e r e n t i a t i o n p u l s ec o d em o d u l a t i o n ,d p c m ) ,在图像压缩中具有广泛应用。如图1 - 1 所示。 9 图1 - 1 图像压缩中的d p c m 原理图 d p c m 的性能由预测系数决定,可以求出在一定准则的条件下晟佳的预测系数。例如, 应用均方误差最小的准则。先计算出预测值与真实值的均方误差,再分莉对预粳! f 系数求导, 利用导数为零计算出最佳预测系数。如果图像信号符合平稳马尔可夫随机过程的条件,还可 以利用相关系数直接求出最佳预测系数。 1 1 4 变换编码 变换编码不是直接对空间图像信号编码,而是通过变换,把空闻图像信号映射到另一 个正交矢量空间( 频域) ,再对这些映射的结果进行编码。 变换编码的种类很多,典型的有余弦变换、k - l 变换、小波变换等。其中,k - l 变换是 在最小均方误差意义上的最优变换,但变换的核矩阵随输入图像而改变,因此具有较高的计 算复杂度。余弦变换是傅立叶变换的一种特殊形式,在傅立叶级数展开式中,只包含余弦项 在图像压缩中,余弦变换的压缩性能、误差和k - l 变换很接近,并且具有复杂度适中、存 在多种快速算法的优点,因此被广泛应用于多种视频、图像压缩标准中。小波变换是一种具 有良好时域( 空域) - 频域分析的综合方法,针对不同图像改变时域( 空域) _ 频域分辨率,从而获 得较高的压缩比。目前,j p e g 2 0 0 0 静态图像编码标准应用小波变换作为变换编码的基本方 法 1 1 5 运动估计编码 运动估计编码被广泛应用于日前的各种视频压缩标准中。在连续视频图像序列中,为 1 0 了保证良好的视觉效果,相邻图像之间的时间间隔一般仅有几十毫秒。在这样短的时间间隔 内,图像活动的区域是局部性的,相邻图像之问存在着很强的相关性。采用运动估计技术, 能够消除活动图像时间域的相关性,从而达到压缩数据的目的 运动估计技术主要分为两大类:像素递归法“】和块匹配法嘲。前者对像素的位移进行递 归运算,在处理光流边界和遮挡域闯题效果很好,但是计算复杂度非常高,难以应用于实时 处理系统中;后者对图像进行分块,并假设块内所有像素具有相同的位移,具有计算量小、 控制简单的优点,是运动估计实际应用的主要方法。 块匹配技术的实现关键在于以下几个问题的解决: 1 ) 块模式的选择 2 ) 运动搜索精度 3 ) 运动搜索方法 1 1 5 1 块模式的选择 块模式的选择是一个计算复杂度和压缩效率矛盾的问题。在较早的视频压缩标准中, 运动估计基于1 6 x 1 6 的块大小,复杂度较低,但是把两个运动方式不同的物体划分到同一 个块中的可能性很大,效率不高,特别是对分辨率较低的图像,性能下降更为明显。为了使 块划分更加接近于实际情形,出现了8 x 8 的块模式,特别在最新的h 2 6 4 、a v s 视频压缩 标准中,块划分方式更加灵活,取得了较好的图像压缩效果,但计算复杂度也随之增加 1 1 5 2 运动搜索精度 运动搜索精度包括搜索精度选择和内插滤波器的设计。由于物体位置的改变不一定是 整数,为了更精确表示运动,需要采用分数像素精度,而这样的分数精度像素点在参考帧中 是不存在的,必须使用已有的样点内插得到内插滤波器本质为一个低通滤波器,一个简单 的实例是m p e g - 4 简单层采用的双线性插值滤波器。但是,这种简单滤波器的输出与实际 情况有一定的差异,为了逼近实际值,内插应该采用更为复杂的有限冲击响应滤波器,例如 h 2 6 4 标准采用六阶滤波器、a v s 标准采用八阶、四阶滤波器进行半象素插值。 随着搜索精度的增加,帧间预测误差减小,特别对于低分辨率的图像,增加搜索精度 的效果更为明显。但是,预测误差与搜索精度之间存在一定的统计关系 6 1 ,不是简单的线性 下降,并且随着精度的增加,搜索点的数量也迅速增长。因此必须同时考虑搜索精度增加造 成的复杂度和性能的双重影响。 1 1 5 3 运动搜索算法 运动搜索是一个在某种给定的准则条件下,求解帧问预测误差最小值的过程。现有的 判定准则包括:均方误差准1 0 ( m s e ) 、平均绝对误差( m a e ) 和绝对误差之和( s a e ) 为了加速运动搜索过程,已经提出了多种快速算法减少搜索点的个数,包括三步法 1 l ( t s s ) ,新三步法( n t s s ) 、四步法、菱形法、六边形法等。上述快速算法在不同程度上考虑 了物体运动的统计特性。采用不同的搜索模板和步长,与全搜索法相比,在增加一定码率的 条件下,大幅提高了搜索的速度。 1 2 视频编码标准发展简介 1 2 1h 系列 i - l 2 1 5 1 是h 系列的第一个视频压缩标准,为删- t 第1 5 研究组于1 9 8 4 年开始研究, 1 9 9 0 年制定完成的。i - - l 2 6 1 强调低比特率和低时延,主要面向视频电话和视频会议的应用。 在i - 1 2 6 1 中首次运用混合编码的框架,采用消除时域冗余的运动估计技术和消除空域冗余的 变换编码技术,这一框架被后续制定的视频编码标准所沿用,在视频编码历史上有着重要影 响。 h 2 6 3 是u - t 在h 2 6 1 后制定的用于低码率视频编码的标准,从1 9 9 3 年1 1 月开始研 究,并于1 9 9 6 年3 月制定完成。在压缩效率方面,在相同的测试序列和比特率条件下,h _ 2 6 3 比h 2 6 1 的p s n r 值高2 3 d b ,并且视频主观质量显著提升。而对于大多数序列,h 2 6 3 能 够以一半的比特率提供与8 2 6 1 相同的主观质量。此外,在i - l 2 6 3 的第二、三版中,提出了 一系列差错弹性恢复技术,提高视频码流对信道差错的鲁棒性及在易误码环境中编码算法的 性能 i l 2 6 4 1 a v c 标准是删t 的v c e g ( v i d e oc o d m ge x p e r t sg r o u p ) 专家组和i s o e c 的 m p e g ( m o v i n gp i c t m e se x p e r t sg r o u p ) 专家组共同组成的联合视频工作组( j v t ) 制定的 视频编码标准。1 4 _ 2 6 4 压缩系统由视频编码层和网络提取层两部分组成,其中,视频编码层 的主要功能是视频数据的压缩编码和解码,网络提取层的主要功能是为视频编码层提供一个 与网络功能无关的统一接口,对视频码流封装打包后在网络上传输。和以往的编码标准相比, h 2 6 4 也采用基于块的混合编码框架,但是,和以往的标准相比,采用了一些新的技术,使 得压缩性能得到显著提升,这些技术主要包括:高级帧内预测模式、整数变换编码、树结构 ,多帧参考运动估计、自适应二进制算术编码、去块效应滤波器等。 1 2 2m p e g 系列 m p e g - i 标准是m p e g 小组于1 9 9 3 年正式发布的多媒体运动图像和伴音的数据压缩编 码标准,处理标准图像交换格式( s t a n d a r di n m r c h a n g ef o r m a t , s 砷图像,压缩码流的输出速率 在1 s m b p s 以下,主要针对具有相应数据传输率的c d - r o m 和网络而开发。包括系统、视 频,音频、一致性测试、软件模拟五部分。m p e g 1 是第一个综合定义了音视频的标准,第 一次全部使用软件开发,在标准发布后取得了巨大的成功,在v c d 上得到广泛应用。 m p e g - 2 标准从1 9 9 0 年开始研发。到1 9 9 4 年完成,是一个与数字电视广播直接相关的 高质量图像和声音编码标准。m p e g - 2 在m p e g - 1 的基础上增加了隔行扫描电视的编码和位 速率可变能力,在压缩技术上开始采用半像素精度的运动估计,其码率目标为: 4 - 9 m b p s 一1 5 m b p s 。目前。许多大公司纷纷推出了m p e g - 2 解码器芯片级的产品,m p e g - 2 已经成为了工业标准d v d 的核心标准。 m p e g - 4 标准第一版公布于1 9 9 9 年1 月,第二版公布于1 9 9 9 年1 2 月,其制定的出发 点是1 针对视频会议、视频电话的超低比特率编码;2 支持多种多媒体应用,包括对多媒体 信息内容的交互访问,可以根据不同的应用需求现场配置解码器。为此,m p e g - 4 定义了一 种框架,允许加入新的有效算法模块。标准由六部分构成:多媒体传送整体框架( d e l i v e r y m u l t i m e d i ai n t e g r a t i o nf r a m e w o r k ,d m i f ) 、数据平面、缓冲区管理和实时识别、视频编码、 音频编码、场景描述。m p e g - 4 支持两大层次的码率:以极低比特率视频( v e r yl o wb i tr a t e 、,i d c 0 ,v l b v ) 为核心,码率在5 - 6 4 k b p s 的底层和以高比特率视频( h i g hb i tr a t ev i d e o ,h b v ) 为核心,支持底层的功能,码率范围在6 4 k b p s 一1 0 m b p s 的高层。m p e g - 4 与m p e g - l 、m p e g - 2 最大的区别在于m p e g - 4 采用了基于对象( v i d e oo b j e c t , v o ) 的编码方法,v o 的构成依赖于 系统实际所处的环境和具体的应用当要求极低比特率的情形下,与以往的视频压缩标准相 似,v o 可以是一个矩形帧;当要求基于内容的表示的较高应用场合时,v o 可以是场景中 的某一物体或层面。m p e g _ 4 的应用面非常广泛,目前主要的应用有:数字电视、视频会议、 多媒体监控、低比特率下的移动多媒体通信、p s t i q 网上传输的可视电话等。 1 2 3 a v s a v s 是中国自主制定的音视频编码技术标准。 v s 工作组成立于2 0 0 2 年6 月,并于2 0 0 3 年1 2 月1 9 日发布了a v s 视频部分1 o 。与h 2 6 4 相比,a v s 既考虑了压缩效率和实现复杂 度,同时也强调了自主知识产权。 a v s 视频部分中具有特征性的核心技术包括:8 x 8 整数变换、量化、帧内预测、1 4 精 度象素插值、特殊的帧间预测、2 d 熵编码、去块效应环路滤波。目前,a v s 的龟大竞争对 手是i - 1 2 6 4 ,与后者相比,a v s 在计算复杂度、存储器和存储带宽占用、专利费等方面具有 较大的优势,因此在数字电视领域的产业化前景充满希望。 1 3m p e g - 4 研究状况 1 3 1 基于可编程处理器的p e g 4 编解码器研究状况 基于何种硬件平台开发视频压缩应用与许多因素有关,包括:应用类型、功耗限制、未 来产品升级可能性、开发成本等。目前主要的m p e g 4 解码实现平台分为可编程处理器平 台和专用硬件平台。可编程处理器平台非常灵活,各种多媒体处理算法仅需修改软件就可以 在同一硬件上执行,开发的成本较低但是,这种灵活性也导致了附加的硬件代价和较高的 功耗。与可编程平台相比,专用硬件平台针对特定的多媒体应用设计,以较小的硬件代价和 功耗获得较高的处理效率但是,这种专用性意味着对多媒体处理算法的升级必须进行硬件 修改,开发成本较高。目前,多媒体处理算法和应用的发展非常迅速,灵活性成为硬件平台 设计考虑的关键因素因此,可编程处理器平台应用研究的重要性也日益增加。 应用于多媒体处理的可编程处理器可以分为通用可编程处理器和专用的媒体处理器。基 于c i s c r i s c 结构的通用可编程处理器针对通用数据运算设计。很难兼顾一些应用场合如 移动多媒体通信对处理能力、功耗、成本的要求。因此,最近二十年在传统d s p 结构的基 础上逐步发展出针对多媒体应用的高性能媒体处理器,利用专门针对多媒体运算设计的执行 单元消除媒体处理中的计算冗余,充分挖掘数据级、指令级内在的并行性,可以较好地满足 不同场合对性能、功耗、成本的要求。目前具有代表性的媒体处理器有: 1 ) t r i m e d i an b 2 7 0 i “。采用v l i w 结构,一个超长指令字最多执行5 个操作,能够 实现对8 - b i t 1 6 - b i t 数据类型的s i m d 并行运算和混选;功能单元包括简单算术功 能单元和占据两发射槽的功能单元,前者每种具有五个实例。一个周期至多可以完 成五个简单算术运算,后者同时使用两个相邻的发射槽,一次可以产生6 4 b r 运算 结果。t m 3 2 7 0 片上集成6 4 k 字节指令、1 2 8 k 字节数据c a c h e ,最高工作频率 4 5 0 m h z 2 ) b l a c k f ma d s p b f 5 3 3 ”采用1 6 b i t r i s c d s p 混合结构,片上除了两个1 6 b i t 乘法 器、两个4 0 b i t 累加器、两个4 0 b i t 算术逻辑单元,还集成四个8 b i t 视频算术逻辑 单元和一个4 0 b i t 移位器;寄存器文件包括8 个3 2 b i t 寄存器,并可以在1 6 b i t 运算 时转化为1 6 个1 6 b r 寄存器;指令集针对多媒体处理进行了s i m d 扩展,最多可 在一个时钟周期内执行3 条指令。b f 5 3 3 片上集成8 0 k 字节程序r a m 和6 4 k 字 节数据r a m ,最高工作频率6 0 0 m h z 。 3 ) t m s 3 2 0 d m 6 4 2 t 9 j 。采用v l i w 结构的d s p 核,一个超长指令字最多执行8 个操作; 片内集成8 个功能单元,支持s i m d 技术,每个功能单元可以在一个时钟周期内完 成四个8 位乘法或两个1 6 位加法操作;c a c h e 采用两级结构,第一级与核工作频率 相同,其中指令c a c h e 直接映射,数据c a c h e 采用两路关联,大小均为1 6 k 字节, 第二级大小为2 5 6 k 字节,程序、数据共用,并可灵活配制成c a c h e 或r a m 。d m 6 4 2 目前的工作频率为6 0 0 m f i x ,并有望在未来超过1 g h z 。 上述媒体处理器能够解决目前大多数的视频压缩应用,但是,随着对图像分辨率、功耗 等要求的不断提高,必须从不同角度进行加速,目前在软、硬件方面主要存在以下三种途径: 1 ) 处理系统采用混合结构进行加速。 视频压缩采用混合编码策略消除视频数据中存在的各种冗余信息,因此通常包含多种数 字信号处理类型:a ) 针对一帧视频数据的通用图像处理,如颜色空问转换、缩放;b ) 针 1 4 对较小图像块的处理,如1 6 x 1 6 ,8 x 8 块大小的离散余弦变换( d i s c r e t ec o s i n et r a n s f o r m , d c t ) ,运动估计辟 偿;c ) 具有流特性和较高数据相关性的比特操作。为了能够高效处 理不同类型的任务,处理系统采用混合结构,包含若干个可编程或专用模块。如果按照 主要运算模块的类型对系统结构进行分类,则混合系统结构可以细分为专用为主和可编 程为主两类。适用于不同的应用场合,分别阐述如下: a )专用为主的结构。这类结构主要针对功能相对固定,对功耗等要求较高的应用,如 移动多媒体通信,设计的主要目标是使得硬件结构与应用在最大程度上相匹配表 1 2 1 给出了三个此类设计实例的比较。 表1 1 三种专用结构设计实例 设计目标运算单元描述存储结构性能 t a k a h a s h i l l o m p e g - 4 视频运动估计,补偿,变长编解码每个模块拥有独 郁啦w 。 简单层编解码 d c t i d c r 等耗时模块专用硬件实 立的r a m ,通过3 0 m i - i z 进行 现,r i s c 核处理其余任务,所有d m a 访饲片外存简单层q c i f 模块通过d m a 控制器相连储器编、解码( 1 0 帧,秒) h a s h i m o t o t l l 】m p e g - 4 视频 八个专用硬件模块分别实现运动 d s p 、变长编解9 c 吼w , 核心层编解码估计补偿,变长编,解码、码、运动估计、填3 0 m h z 进行 d c t i d c t ,形状解码,d s p 核处充模块拥有独立核心层 理其余任务,所有模块通过全局总的r a m ,帧存采解码( 1 5 帧 线互联用嵌入d r a m秒) o h a s h i 1 目m p e g - 4 视频运动补偿i d c r 、变长解码、去d s p 、运动补偿, 1 1 1 m w 简单层解码噪声滤波器等耗时模块专用硬件变长解码模块拥2 _ 啵珥她 实现,d s p 核处理其余任务,所有有独立的r a m ,进行简单层 模块通过全局总线互联帧存采用嵌入q c i f 解码 s r a m ( t 5 帧,秒) 从上表中可以看出专用为主的结构一般拥有着较低的功耗,不仅因为采用较多专用 模块的缘故,还因为片上集成的大容量嵌入d r a m s r a m ,降低了处理器f o 功耗 但是,对于高分辨率的应用,嵌入d 黜u 体r a m 的方案会造成芯片面积的迅速增长 b )可编程为主的结构。这种结构适合算法更新较快、计算资源要求较高的应用场合, 表1 2 给出了三个此类设计实例的比较。从表中可以看出,可编程为主的结构由若 干异质处理器核组成,具有较强的运算能力,能够处理较高分辨率的图像格式,但 频率、功耗都高于专用为主的结构 2 )面向视频处理的指令集扩展 指令集扩展的途径一般有两种:一是利用分裂的运算单元充分挖掘程序执行时的数 据并行性,即所谓的亚字并行;二是利用专用指令实现原先若干条指令才能完成的功能。 一方面,在基于块的视频压缩策略中,许多计算如d c t 、运动估计,幸h 偿结构规整、 具有很高的数据并行性,指令集扩展能够在只增加很少硬件代价的条件下大幅提升这些 模块的性能。由于视频处理中的数据宽度一般为8 、1 6 比特,因此直接利用3 2 、6 4 比 特的执行单元完成单一数据的运算极大地浪费了计算资源。通过修改硬件对指令进行 s i m d 扩展,可以使上述执行单元一次完成4 - - 8 个数据的并行计算,从而加速程序的执 行。普通sm d 指令在使用时必须确保所有数据进行相同的操作,否则即使存在数据并 行性,计算也只能串行执行。但实际上并不是所有模块都能满足上述条件,例如反量化, 每个系数对应的操作随着系数符号自适应地调整,无法直接利用s i m d 指令优化。通过 引入条件域可以消除这一限制,此时每项操作受条件控制,指令执行的结果由预先设定 的条件值决定。 表1 - 2三种可编程结构设计实例 设计目标运算单元存储结构 性能 c h o i n l m p e g - 4 视频a r m 9 处理器从通信模块获得每块芯片拥有独立 视频简单层 简单层解码及码流并传输到共享的片外的r a m 。通过解码超过 a a c 解码s d r a m ,t m s 3 2 0 c 5 5 1 0 处理器d m a 访问片外共4 0 帧秒, 完成音视频解码及播放。r i s c享的s d r a m a a c 解码 通过d s p 的主机端口访问d s p超过8 0 帧, 的片上r a m ,与d s p 进行通信秒 b e r c k o v i c 7 l l qm p 阶_ 4 视频标量r i s c 核完成码流解析,系片外设置s d r a m l 踟 柱k , 高级简单层解 统控制。v l i w 结构的d s p 核一作为帧存。片内视频高级简单 码 次可以完成两个标量,矢量操作, d s p 拥有指令、数层n u - r 6 0 1 进行块数据相关处理,两个核分据r a m ,r i s c 拥格式解码( 2 5 别针对视频应用进行了指令扩 有指令,数据南,秒) 展芯片中的所有模块通过c a c k ,并通过共享 6 4 b i t a m b a a h b 总线互联双端口r a m 交换 控制信息 d e h n h a r d t 【l 目 m p e g - 4 视频一个1 6 路s m d d s p 核完成高吞s i m d d s p 拥有指 l 舶 乜, 简单层编码及 吐量的f f r 或滤波运算,一个令、数据c a c h e 和矩视频简单层 感兴趣区域检6 4 b i t 双发射v l i w 结构的d s p阵内存,v l i w d s pi t u - r 6 0 1 格 测完成块数据处理,3 2 b i t 标量拥有指令,数据式编码及瘳兴 r i s c 核完成码流处理及系统控r a m ,r i s c 拥有指趣区域检测 制,所有核被连接到6 4 b i t a m b a令、数据c a c h e ,通 a i - i b 总线上,并通过 过共享内存进行通 6 4 b i t s d r a m 接口与片外信,片外设置 s d r a m 相连。s d r a m 帧存。 另方面,利用专用指令可以加速一些常用操作。例如,在比特流解析过程中,从 码流中解出若干个比特的操作决定着变长解码的效率,这些操作包括g e t b i t s 、s h o w b i t s 、 f l u s h b i t s 。由于这三种基本操作出现的概率非常高,因此采用专用指令实现对性能提升 的贡献比较明显,并且在硬件上只需增加6 4 比特的桶形移位单元即可” 除此之外,随着多媒体处理算法的迅速发展,有必要结合s i m d 技术扩展专用指令。 例如,m p e g - 4a s p , l 2 6 4 拍s 中都使用了1 4 像素精度的运动估计辟h 偿,相应半像素 点使用4 - - 8 阶滤波器产生,而t m 3 2 7 0 指令集增加的s u p e r _ u s c a l e f i r 8 u i 、 s u p e r _ i f i r 8 l r f 2 0 l 条指令就可以完成复杂的插值运算,极大地提高了运动估计,补偿 的性能。 3 ) 软件优化 软件优化是可编程处理器平台提高系统性能的重要途径,主要针对系统中的耗时函数进 行。软件

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论