视音频编解码技术发展现状和展望_第1页
视音频编解码技术发展现状和展望_第2页
视音频编解码技术发展现状和展望_第3页
视音频编解码技术发展现状和展望_第4页
视音频编解码技术发展现状和展望_第5页
已阅读5页,还剩9页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、视音频编解码技术发展现状和展望摘 要: 随着国内外市场对多媒体应用需求的不断增加,人们对视频、音频服务质量的期望不断提升,视音频编解码技术越来越多的受到重视,并在近十几年里得到了飞速的发展。本文在分别介绍了视音频编解码技术的主要内容和国内外发展现状之后,对视频编解码技术在安防中的应用情况进行分析,并且在最后对视音频编解码技术的发展趋势进行了展望。关键词:视频编解码技术;音频编解码技术引言近年来,市场对于视频会议、视频监控、交互电视、智能语音识别等多媒体应用的需求不断增加,并且用户对于多媒体服务质量的期望也越来越高。为了有效防止信号在传输和存储过程中引入噪声和导致波形畸变,获得更好的品质,模拟信

2、号(音频信号、图像和视频信号)一般需要经过采样和数字化,然后再进行存储、传输和重建。但这些数字化信号的信息量极大,尽管海量存储技术、处理器的速度和数字通信系统的性能有了迅猛发展,但对数据的存储能力和数据传输带宽的需求仍然超出了现有技术的能力所及。为了使通信成为可能,并尽可能的降低通信的费用,优秀的信源编解码性能是必需的。因此,视音频编解码技术作为信源编码技术,是多媒体应用技术的基础和核心。本文的第一章和第二章就国内外视音频编解码技术的发展现状进行了详细阐述,继而对国内外的研究现状进行了对比分析。鉴于视频编解码技术在安防应用中属于核心技术之一,本文在第三章分析了这两者之间的关系。最后,第四章对视

3、音频编解码技术的发展趋势进行了展望。1视频编解码技术发展现状视频编码的主要目的就是在保证一定重构质量的前提下,以尽量少的比特数来表征视频信息。视频编码的原理是:由于表示图像和视频信息所需的大量的数据往往是高度相关的,这些相关性会引起信息的冗余,因此可以通过去除这些冗余信息来实现对视频数据的压缩。传统的基于统计特性的运动补偿变换编码的混合编码框架在数据压缩方面取得了很大的成果,国内外的通用视频压缩标准均基于此框架,比如H.26L系列、MPEG系列以及我国的AVSP2标准。但是随着计算机网络的不断发展和应用需求的多样化,对于视频编码技术的研究不再仅仅局限于压缩特性,而渐渐开始向网络适应性、用户交互

4、性等方面转移。因此,这几年来,视频编码技术一方面继续以混合编码为框架研究如何进一步提高压缩特性,另一方面不断的向可伸缩编码、多视点编码等分支方向发展。1.1. 混合编码技术混合编码框架的技术主要包括:运动补偿、预测编码、变换编码以及熵编码等。近年来混合编码的研究主要集中于如何在技术细节方面进行进一步完善,使编码效率得到进一步的提高。其典型代表为2003年由联合专家组JVT(Joint video team of ISO/IEC MPEG and ITU-T VCEG)制定的新一代视频编码标准H.264/AVC1。H.264/AVC 是一种高效的压缩方法,在保持传统的混合编码框架的基础上,主要通

5、过以下技术提高编码效率2:l 可变尺寸的运动估计(Variable block-size motion compensation)l 更精细的1/4象素运动估计(Quarter-sample-accurate motion compensation)l 多参考帧运动补偿(Multiple reference picture motion compensation)l 空间域的帧内预测(Directional spatial prediction for intra coding)l 算术编码(Arithmetic entropy coding)和基于上下文的熵编码(Context-adapti

6、ve entropy coding)l 率失真优化(Rate-Distortion Optimal)前4项属于预测编码,第5项属于熵编码,最后一项属于编码决策。文献3认为熵编码的编码效率已经接近极限。预测编码如果能采用新的思路,还有一定的发展空间。国内标准方面,由我国信息产业部数字音视频标准专家组制定的AVS标准视频部分的基本框架也是混合编码技术。AVS对于提高压缩效率方面进行了探索,新提出技术包括:对称双向帧技术、自适应扫描技术、自适应的系数间非均匀量化技术等。这些技术都在不同程度上也提高了视频编码的效率或主观质量。1.2 可伸缩编码技术可伸缩技术将视频编解码技术从传统的压缩技术转变为了更多

7、考虑网络适应性和灵活性的编解码框架。2005年2月,JVT将可伸缩性编码(Scalable Video Coding, SVC)作为H.264标准的扩展,并起草了H.264标准的可伸缩性扩展第一草案4。可伸缩视频编码因为具有时域、空域和质量等多方面的灵活性,不仅特别适合网络传输,而且应用到视频监控领域中还能满足监控视频资料的存储、检索、分析等方面的种种特殊需求。近两年来,可伸缩技术在视频监控中的研究已广泛展开5-9,而且在SVC的需求文档中已将视频监控列为可伸缩视频编码技术的主要应用领域之一。所以可伸缩视频编解码技术不仅是JVT组织中的当前热点研究问题,更是视频监控技术中的研究热点问题。到目前

8、为止,实现可伸缩技术的方法大致上可以划分为两种:基于小波变换的可伸缩技术和基于传统的混合编码结构的可伸缩技术。1.2.1基于小波编码的可伸缩技术方案基于小波的视频编码10是指以离散小波变换(DWT)为核心的视频编码方案。由于三维小波编码方案没有形成国际标准,所以三维小波编码呈现争鸣的局面。在这些提交方案中,根据压缩处理流程的不同,可以被分为以下四大类:l 纯三维小波方案纯三维小波的视频编码方案11是在原二维平面小波基础上的直接过渡的,该方案将视频压缩看作是三维图像的信号处理,将其按三维立体空间的正交小波基展开。该方案的三维小波滤波函数具有对称性好、支集小的特点,帧内、帧间小波系数具有统一性,保

9、证了时间维的衰减速度。但该方案不采用运动补偿机制,因此对时间维的长度要求比较苛刻,过短的时间维数据将使压缩效果大大下降;而过长的时间维数据又会影响压缩的实时性和内存需求。l 小波框架的运动补偿方案小波框架的运动补偿方案是DCT 框架的运动补偿方案的推广,该方案用DWT 替换原有的DCT,而其它的处理流程均继承于原DCT方案。该方案有DCT 编码体系和技术的支持,压缩性能比较好。但该方案沿用了原DCT的块结构处理的模式,空间可伸缩性会受到影响,还会产生差错传递和块效应。l 小波子带预测方案小波子带预测方案首先对每一帧图像进行二维空间小波变换,然后再对所得的各子带小波系数值进行帧间预测去处冗余,最

10、后对生成的数据进行熵编码。整个处理流程是分子带进行的,子带与子带之间互不影响。该方案的运动预测是在不同的小波子带中进行的,因此不会产生整幅图像的差错传递,这种差错只会在各个子带中传递。但该方案编码是一帧一帧分开处理的,所以时间可伸缩性的发挥相对有限。该方案还将整个编码过程形成一个闭回路,参考子带是基于解码重构而成的,影响了PSNR 的可伸缩性。l 帧间小波滤波方案时间可伸缩技术:首先对一组连续图像进行时间维滤波(MCTF)12。通过运动补偿时间过滤器,沿着象素的运动轨迹,在帧上实现小波的分解和重构。其中使用了预测(P)和更新(U)两种处理方法(P和U是互逆的),它们可以自适应的选择帧内、向前、

11、向后或双向的模式。具体过程描述如下:在GOP中,一个奇数索引帧通过相邻的帧或偶数索引帧来进行预测,从而产生一个高通帧:H(k),代表细节信息;同样的,一个偶数索引帧通过相邻的n个(n=1)高通帧来实现自身的更新,从而产生一个低通帧:L(k),代表主要信息。其计算过程如图1所示:H(k)=S(2k+1)P(S(2k)L(k)=1/2*S(2k)+ U(S(2k+1)图1. MCTF中一个过滤器的示意图该方案采用了时间维处理技术,在运动方向上对相邻图像进行低通和高通滤波,因此可以在不采用传统回路预测方式的基础上来消除时间冗余。避免了传统闭合回路对于质量可伸缩的影响。再结合零树熵编码来产生嵌入式的比

12、特流,该方案在质量上有很强的可伸缩性。不过需要注意的是时间、空间的可伸缩性相对固定。而且该方案要求一个GOP的图像一次性处理,有一定的时间延迟,并且对内存需求比较大。1.2.2基于混合编码结构的可伸缩方案时间可伸缩:在H.264 MPEG-4 AVC的基础上,时间可伸缩性可以通过MCTF技术和分级B图片实现的。MCTF技术在前一部分已经论述,本节讨论分级B图片技术。如图2所示,关键图片(IDR)序列的显示分辨率是最低的,可以根据接受端不同的要求,在此序列上增加时间域上更高级别的高分辨率图片,并且传递出去,从而在接受端显示不同分辨率、不同质量的视频流。 图2 层次B图片结构示意图空间可伸缩:为了

13、满足不同用户的需求,在给定帧的基础上产生不同空间分辨率码流序列,它们在各自独立的层内编码。为了消除不同空间帧中的冗余信息,一个增强层的残差信息和运动矢量根据与其对应的基本层预测得到。在预测的过程当中,因为基本层拥有更低的分辨率,所以首先读入基本层的残差信息和运动矢量。然后在基础层之上产生一个或多个增强层。增强层的帧间编码宏块的划分方法可以由相关的基本层的对应宏块派生得到,同样,其运动矢量也可以通过比较和计算其对应的基本层的宏块的运动矢量而得到。质量/信噪比可伸缩性:包括了两种模式,基于嵌入式量化方法的粗粒度可伸缩性(CGS,coarse grain scalability)和基于位平面编码方法

14、的细粒度可伸缩性(FGS,Fine GrainScalability)。在SNR可伸缩技术中,使用传统的混合编码技术,即经过整数变化和量化得到基本层;基本层之上是增强层,在基本层和原始子带图片之间存在残差信息,这个差值和基本层一样使用同样的方法进行变换和量化,不同的是量化粒度更加细腻一些,即使用更小的量化参数,再进行熵编码,量化后得到的系数就是SNR的增强层。增强层和基本层一起可以看作是另外一个更高层次的增强层的基本层。这个更高层次的增强层计算方法和以上阐述的方法一样。最后基本层系数和增强层系数再使用位平面编码和行程编码相结合的方式进行熵编码,分别形成基本层码流和增强层码流输出。总的来说,目前

15、混合框架+MCTF技术占有一定优势,主要体现在编码效率高和兼容性较好;但是对3D小波的研究可能还不深入,还有很大的提升空间。目前关于可伸缩编码的广泛应用还没有开展起来。1.3 多视点编码技术多视点视频(multi-view video)是一种新型的具有立体感知和交互操作功能的视频技术,它由一组平行、会聚相机阵列拍摄得到的视频信号。2001年,MPEG成立了3DAV工作组,其首要任务就是定义3D音视频领域的范围和应用场景,并为其中的关键技术制定标准。多视点视频是3DAV框架下,近年来迅速崛起和快速发展的研究领域。在视频监控类的应用中,多视点视频编码技术有助于实现多视角立体监控,多摄像头联动等应用

16、。实现多视点视频编码(MVC)可以基于传统混合编码框架(如H.264),也可基于小波编码以及分布式编码等新一代视频编码工具。视点间相关性是多视点视频序列的重要特性,它与相机阵列形式、相机间距、相机和拍摄对象间距离存在极大的关系,直接反映在同一时刻相邻视点两幅图像的视差上。由于该类系统存在着大量的数据冗余,如何组织和压缩数据就成为重要的研究课题。所以当前MVC主要围绕如何提高压缩效率以及随机读取能力进行研究,而这些研究又可从两个主要方面来分类,一是预测结构,二是预测工具。预测工具指的是多路码流视角之间的空间预测手段,包括亮度补偿,视差/运动补偿,2D直接预测模示,视角插值。由于视角间的相关性利用

17、是决定MVC压缩效率的主要因素,因而未来MVC压缩效率的进一步提高依赖于新型预测工具的设计。预测结构指的是多视点视频时空帧之间的相互预测参考关系,它代表将哪些帧一道进行处理以消除数据的时空冗余性,因而不管是传统的混合编码、小波,还是分布式编码,都离不开预测关系的设计。另外预测结构是决定随机读取性能、快速解码性能、网络传输代价的重要指标,因而在MVC研究中受到广泛关注。将MVC编码码流应用到传统流式传输框架下,会产生视角切换问题,因而如何设计新型的切换帧以及如何分析切换对预测结构的影响也具有重要的意义。 当前多视点视频压缩在应用上的主要问题在于数据压缩效率与随机读取能力的矛盾,多视点视频本身数据

18、量庞大,在传输应用或本地快速解码时,用户并不需要所有的数据信息,因而要求数据之间的依赖性小,但这恰好与压缩成矛盾。多视点视频本身是相关性很强的多个信源,基于分布式编码的多信源编码理论或许能对该问题进行理论分析及探讨。多信源编码能从信息理论上解码代价、视角随机读取能力以及编码效率三者的折中,因而在MVC中具有很大的潜力。1.4 无线视频编码技术在无线网络环境下的多媒体应用越来越多,其中无线视频监控因为具有更好的机动性,能够应付各种突发事件,而成为未来视频监控的趋势之一。可是视频流对于网络的要求比较高,如何在新的无线环境下保证视频流的质量、提高编码效率和容错性能,有很多值得研究的问题。带宽受限与高

19、误码率引起的大量丢包造成无线视频传输质量陡降,权衡视频压缩效率、无线信道传输质量和视频流误码敏感程度,选取最佳方案是提高无线视频传输质量的关键。武汉大学国家多媒体软件工程研究中心针对此问题,研究通过3G空中接口获取无线信道测量参数,预先估计信道性能自适应建模,并用比特差错率和比特率表示,对信道质量分级,选用不同传输方案,编码器建立基于编码失真、信道误码和码率控制总体优化的帧内/帧间两种模式率失真模型,提高无线视频传输质量。另外,无线信道衰落导致误码,严重影响视频通信的质量,如何提高通信系统的比特纠错能力是解决问题的关键. 在这个方面,武汉大学国家多媒体软件工程研究中心采用不同于以往信元信道联合

20、优化和不等同差错保护的思路,利用视频解码器和信道译码器双解码器迭代译码,来提高系统纠错能力.利用视频解码器解码过程中对比特流的判断信息,作为信道译码器的监督信息,参与迭代解码,同时根据信道译码的软输出进行多次视频解码,实现两个解码器的迭代交互,以视频解码的图像判断结果作为迭代解码的结束标准,期望在同样的BER情况下联合迭代译码系统的纠错性能提高5%以上。视频图像质量提高PSNR 0.5 1db。以上研究成果若应用在无线监控上,可以更好的根据信道的情况,自适应的调整信源编码器,使得监控视频流的编码效率、编码质量和容错性能得到保障。这对于无线视频传输监控、移动电子商务、移动娱乐、军事无线应用等具有

21、重要应用价值。1.5 国内外研究现状的对比和分析国际上视频编解码技术通过几十年的发展,已经取得了众多研究成果。相对来说,我国在数字音频编码领域的研究起步比较晚,研究基础相对薄弱但是近年来的发展很快。下面就分别从混合视频编码、可伸缩编码、多视点编码和分布式编码这四个研究方向进行对比和分析。首先,在混合编码算法的研究方面,其研究成果主要体现在编解码标准上。20世纪90年代以来,ITU-T和ISO制定了一系列音视频编码技术标准(信源编码技术标准)和建议,这些标准和建议的制定极大地推动了多媒体技术的实用化和产业化。进入新世纪以来,MPEG-4 AVC/H.264是代表最新技术水平的一项国际标准,编码效

22、率比MPEG-2约提高一倍以上,压缩效率可达到100-150倍。缺点是实现复杂度较高,存在复杂的知识产权问题。AVS是我国牵头制定的第二代数字音视频信源标准,具有自主知识产权,在今年被批准为国家标准,并与3月1日正式 实施。它的编码效率与竞争性国际标准MPEG4H.264相当,代表了国际先进水平,广泛应用于广播、通信、电视、娱乐等各个领域。它具有四大特点:(1)性能高,编码效率比MPEG-2高2倍以上,与H.264的编码效率相当;(2)复杂度低,算法复杂度比H.264低;(3)实现成本低,软硬件实 现成本都低于H.264;(4)专利授权模式简单,费用明显低于同类标准。应该说,数字音视频编码标准

23、的出台和初步应用是我国音视频领域近年来最引人注目的进展。武汉大学国家多媒体软件工程技术研究中心作为AVS工作组(数字音视频编解码技术标准工作组)发起成员之一,从2002年底至今一直参与AVS视频和音频编码标准的制定工作,推动了AVS标准制定工作。在可伸缩视频编码研究方面,2005年2月,JVT将可伸缩性编码(Scalable Video Coding, SVC)作为H.264标准的修改,制定标准MPEG SVC。在基于小波框架和基于混合框架两套解决方案中,最终通过复杂的核心测试,选择了后者。该标准通过近两年的制定工作,有望在2007年完成。同时,国内也在积极进行可伸缩编码的研究。但是总体说来,

24、国内的可伸缩编码算法的研究主要还是以国外的研究成果为基础,创新性和影响力和国外的研究成果相比,还比较薄弱。多视点编码算法研究属于新兴的热点研究领域,国内外的研究均处于初级阶段。MPEG在今年7月份的文档中提出了多视点视频编码的15项编码压缩需求(也即目标),这些需求将是未来MVC发展的趋势与方向并依赖于新型的编码工具,新型的预测工具以及预测结构的探索。2音频编解码技术发展现状音频编码的主要目的就是在保证一定重构质量的前提下,以尽量少的比特数来表征音频信息。音频编码技术主要分为两类,一类为基于线性预测技术的混合编码;另一类为基于变换的感知音频编码。它们编码原理与应用背静不相同,传统的感知音频编码

25、通常基于心理声学模型采用变换域波形编码方法,其适合对音乐信号编码,但它所需的编码比特率比较高,例如MP3、AAC等MPEG系列音频编码标准。传统的基于线性预测技术的混合编码通常基于语音信号产生的激励/合成模型,对语音信号能较好编码,编码比特率较低,例如G.729、G.723.1等ITU系列语音编码标准。但是随着计算机网络、移动通信等的不断发展以及应用需求多样化的推动,音频编码技术的研究不再仅仅局限于压缩特性,而渐渐开始向网络适应性、用户交互性、高包真等方面转移,这从MPEG音频标准的发展过程中可见一斑。如近几年来,音频编码技术一方面继续研究如何进一步提高压缩率和抗误码特性使其适合移动和网络多媒

26、体应用,另一方面又不断的向无损编码、可伸缩编码、空间音频编码等分支方向发展。国际上音频编解码技术通过几十年的发展,已经在诸多领域内取得了众多研究成果。相对来说,我国在数字音频编码领域的研究起步比较晚,研究基础相对薄弱,国内音频编解码技术的研究无法面面具到,而是主要集中于高质量感知音频编码和低速率移动音频编码等推动我们国家和社会发展的重大数字音频编码应用领域。下面就分别从感知音频编码和移动音频编码这两个研究方向进行对比和分析。2.1 感知音频编码感知音频编码基于人耳听觉系统的掩藏特性利用心理声学模型计算每个量化频带掩蔽阈值,利用掩蔽阈值指导量化和编码。同时国内学者对感知音频编码中的关键技术包括窗

27、切换技术、时频变换、立体声编码和熵编码都做了比较深入的研究。例如武汉大学国家多媒体软件工程技术研究中心提出了一种基于信号时域和频域特性的两级窗判别算法,解决了感知音频编码中判断信号暂稳态类型这一感知音频编码的难题,并成功的为AVS音频编码标准所接受,成为AVS音频标准的重要组成部分。国内学者还将多分辨率分析、小波变等换应用于感知音频编码中时频变换部分解决了时频变换中时间和频率分辨率不能随非平稳的音频信号做自适应调整的不足。基于小波技术和位平面编码技术等嵌入式编码方法,精细的可伸缩音频编码方法应运而生(FGS Audio Coding)。由于嵌入式码流的特性就是在给定的范围内能够随着每个比特的增

28、加提供连续的质量增益,因此能够实现比特一级的精细的可伸缩的视频编码。这类编码方法和传统的分层编码方法的不同之处在于,此类方法只在变换域进行变换系数的分层编码,没有多次完整编解码所带来的高复杂度,很方便地提供了精细粒度的质量可伸缩性支持。我国制订的具有自主知识产权的AVS音频编码技术就是当前精细可伸缩音频编码技术中的一个典型代表。2.2 移动音频编码无线传输信道带宽一般比较窄,信道的传输环境比较恶劣,误码率比较高,因而移动音频编码与传统的音频编码所不同,它必须满足较为苛刻的要求,目前国内移动音频编码主要基于以下几方面:(1). 语音/音频混合编码在移动多媒体应用中,音频内容较为复杂,包括语音音乐

29、、语音和音乐的混合(混合音频),因此移动音频编码必须能够对上述较为复杂的音频信号进行高效编码。随着移动多媒体应用的日益广泛,语音/音频混合编码成为移动音频编码中需要迫切解决的问题。基于此,国内外的学者提出了多种解决方案,如变换预测编码(TPC)将线性预测技术和变换编码技术集成到一个架构中,它使用开环或闭环最优将预测残差在频域量化,在时域分辨率和频域分辨率之间取得折衷,使得频域的预测增益和量化性能达到最佳,但该方案仅适合编码码率比较高情况,编码码率降低时其性能迅速下降。另一个方案为多模式编码,即对每个音频帧,在多个不同的编码器中使用开环信号分类法选择最佳的编码器编码。从理论上讲,基于信号的类型,

30、每帧信号可以选择最优的编码器编码。但是,针对上述算法设计的难点在于一个具有鲁棒性的信号分类器设计困难,并且在不同的编码器之间切换会产生编码噪声。武汉大学国家多媒体软件工程技术研究中心针对移动音频编码这一难题,提出了将格型矢量量化应用于CELP框架中的固定码本搜索方法,通过精确的回复残差白噪声达到实现对语音/音频信号的编码,很好的实现了语音/音乐信号进行编码,该技术适合于安防监控中对各种复杂的语音频信号的编解码应用中,如街道、码头、机场等。(2). 带宽扩展编码无线信道的带宽限制了传输的码率,因而它要求音频编码器提供更高的压缩率。为了达到这一点可以降低音频信号的编码带宽,只编码人耳感知重要的信号

31、低频部分而丢掉高频部分,但使用上述方法的结果是回放音质的下降。为了进一步提高编码增益,满足低码率应用需求,在移动音频编码中提出了带宽扩展技术,它旨在从窄带音频信号恢复完整的宽带音频信号。早期的带宽扩展技术研究主要是利用3003.4kHz窄带语音信号合成3.4kHz7kHz或8kHz高频成分以重建300Hz7kHz或8kHz的宽带信号,但它们在重建高频信号时不用任何原始高频信息而直接利用低频带“盲式”重建高频信号,对于信息主要分布在高频部分的音调其重建效果不好。同时当信号呈现较强的非平稳特性时,重建的高频信号会出现较强的噪声,音质明显下降。近年来,针对上述“盲式”带宽扩展算法存在的问题,人们着重

32、开始研究“非盲式”重建算法,即在编码端提取少量反应高频信号特征的参数传到解码端,然后在解码端使用频谱搬移将低频段信号的频谱搬移至高频段实现信号频谱扩展,同时利用提取的高频特征参数对重建的高频带的频谱包络进行调节使其与原始信号的频谱包络较好地相似。例如武汉大学国家多媒体软件工程技术研究中心提出了一种基于能量和谱包络扩展的低复杂度的高效的“非盲式”带宽扩展算法,该算法可以和目前已有的语音频编码器结合,在编码质量保持不变的情况下使码率降低一半,该技术可使高质量的语音频编码器应用于网络和移动等带宽受限的安防监控中。 (3). 变数率编码无线信道的传输环境比较恶劣,带宽比较窄,因而这对移动编码算法提出了

33、自适应变速率编码,即编码速率在帧与帧之间连续可调,如在信道深衰落时,信道编码中的冗余比特数不足以纠正传输错误,这时应提高信道编码速率,减小音频编码速率,以保证通信质量。相反,在信道质量较好时,应提高音频编码速率来提高音频编码质量。移动音频中的变数率编码研究主要包括自适应速率判决、检测通信时是否存在话音的话音检测(VAD)、克服背静噪声不连续的舒适背静噪声生成(CNG)以及变数率矢量量化等方面。3视频编解码技术与安防应用3.1视频编解码技术和智能视频分析技术随着反恐形势的不断严峻,特别是美国911事件之后,智能视频监控系统正在越来越多的引起人们的关注,需求量处于不断上升的过程当中。而智能视频分析

34、技术作为智能视频监控的核心技术越来越收到人们的关注,引起了国际上许多著名科研机构以及研究人员的兴趣,尤其在美国、英国等国家已经开展了大量相关项目的研究。例如,1997年美国国防高级研究项目署(Defense Advanced Research Projects Agency)设立了以卡内基梅隆大学(Carnegie Mellon University)为首、麻省理工学院(Massachusetts Institute of Technology)等高校参与的视觉监控重大项目VSAM(Visual Surveillance and Monitoring)13,主要研究用于战场及普通民用场景进行监

35、控的自动视频理解技术;实时视觉监控系统W414不仅能够定位人和分割出人的身体部分,而且通过建立外观模型来实现多人的跟踪,并可以检测人是否携带物体等简单行为;英国的雷丁大学(University of Reading)15已开展了对车辆和行人的跟踪及其交互作用识别的相关研究。总的来说,这个领域研究内容包括: (1)运动检测。运动检测的目的是从序列图像中将变化区域从背景图像中提取出来。运动区域的有效分割对于目标分类、跟踪和行为理解等后期处理是非常重要的,因为以后的处理过程仅仅考虑图像中对应于运动区域的像素。然而,由于背景图像的动态变化,如天气、光照、影子及混乱干扰等的影响,使得运动检测成为一项相当

36、困难的工作16-21(2)实时性、鲁棒性的基于三维模型的车辆与行人的定位、识别和跟踪。跟踪等价于在连续的图像帧间创建基于位置、速度、形状、纹理、色彩等有关特征的对应匹配问题,常用的数学工具有卡尔曼滤波22(Kalman Filtering)、Condensation算法23、动态贝叶斯网络24(Dynamic Bayesian Network)等。其中Kalman滤波是基于高斯分布的状态预测方法,不能有效地处理多峰模式(Multi-mode)的分布情况;Condensation算法是以因子抽样为基础的条件密度传播方法,结合可学习的动态模型,可完成鲁棒的运动跟踪。16, 18, 20, 25-3

37、0(3)基于移动摄像机的视觉监控技术,即将现有参数固定的静态摄相机改进为参数可自动调节的动态摄相机。31 (4)多摄像机的协作监控。单个摄像机的视野有限,要监控大范围的动态场景就需要多个摄像机,此外,多个摄像机也有利于解决遮挡问题。多摄像机的定标与数据融合是两个关键问题13, 27, 32, 33。如Utsumi34利用多摄像机对人进行跟踪,通过选择最好的视点来解决人与人之间的互遮挡和自身遮挡问题;Cai等35提出了在不同摄像机之间进行目标匹配的概率方法,并且对相邻摄像机之间的自动切换问题作了探讨。(5)事件的机器学习方法,拟通过对序列图象进行自组织、自学习的方法建立事件的分布模式,从而达到事

38、件识别的目的。13(6)异常现象的检测、报警与目标的行为预测。视觉监控系统的最终目的是为了解释监视场景中所发生的事件,根据要求对异常事件进行报警,并能根据当前目标所处的状态对将要发生的事件进行预测36, 37。(7)研究对目标运动情况给出语义上的解释的方法,并将简单的行为识别与语义理解推广到对交通场景的自然语言描述。 (8)身份识别.目前的研究主要集中在人的脸像识别、步态识别或特定行为的识别。近距离时一般可以通过跟踪人脸来加以身份识别;如果是远距离的监控,脸的特征可能被隐藏,或者分辨率太低不易识别,然而进入监控领域的人的运动步态是可见的,这激活了步态作为一个独特的生物行为特征应用于人的身份鉴别

39、38。智能视频技术的研究已经取得初步的成果。但是还处于初级阶段。比如运动分割方面,目前图像运动分割主要利用背景减除方法,但如何建立对于任何复杂环境的动态变化均具有自适应性的背景模型仍是相当困难的问题。再比如人的行为理解是这个领域最具挑战的研究课题。 视频编解码技术是智能视频分析技术的基础,编解码技术的框架直接决定了视频分析技术的研究框架。目前所存在的视频编解码标准基本上都是基于象素编码的,而视频分析技术的需求多是面向对象的,所以从这个层面来说,基于象素编码的框架在一定程度上给视频分析技术的研究带来了一定的障碍。到目前为止,智能分析技术研究领域还有众多尚未解决的难题。但是其应用需求已经越来越多,

40、所以在以后的视频编解码算法中,需要更多的考虑到后续的视频处理技术的需要,比如智能分析技术的需要,在编解码阶段就为其创造比较便利的条件。基于这个思想,智能分析技术也能为视频编解码技术的研究带来一些新的思路。32 当前视频编解码标准在安防应用中存在的问题 1目前的视频编解码标准不能完全满足视频监控的种种特殊需求。目前安防视频监控产业可以选择的国际信源编码标准有:MPEG-2、MPEG-4、H.263和H.264等。但是制定这些标准的时候并没有特别把安防视频监控作为需求考虑进去。这些现存标准也并不能够完全适合安防行业的各种特殊需求。比如视频监控要求编码技术具有可伸缩性,以适应不同的网络情况以及存储和

41、检索的不同要求。另外,视频编码技术应该易于实现视频对象的分割,以有利于监控中预警信号的产生和事后对资料取证比对。2一些先进的编解码技术还没有应用在视频监控中。现存的一些先进的编解码技术还没有很好的应用在安防监控中,比如说可伸缩视频编解码、多视点视频编码等等。现在的监控系统中,使用的编解码技术主要还是解决压缩存储的问题。所以,在安防监控领域中,需要进一步加强对于编解码前沿技术的研究。3缺乏统一的标准,互连互通存在一定困难。目前的监控系统还缺乏统一的视频编码标准。有多种的编码标准可以选择。而有些系统,即使选择了同一种编码标准,比如MPEG4,也因为各自根据具体的实现要求,对其中的部分编码工具进行了

42、修改,而导致系统之间无法互连互通。这方面的矛盾在日益重要的大型联网监控系统中表现得越发突出。4智能处理技术还没有成熟应用。智能化的视频监控需要具有图像检测预警的功能。目前,在一些大型视频监控系统中,监控系统几乎只作为一种提供事后取证录像的工具。因为在这些大型项目中,比如城市监控,一般有成百上千万个监控点,工作人员根本无力管理和监看,因此,监控系统也丧失了原来拥有的预防能力。这种应用与人们对视频系统真正需求是有差距的。安防行业迫切需要的是智能化的视频监控,及时预警事件(盗窃、破坏、入侵)可能发生或正在进行,预测一个趋势,提醒管理人员事态的发展到了限定的界线,以便及时地阻止事件的发生或产生更严重的

43、后果。因此视频压缩算法中需要在压缩过程中增加场景变化的实时监控检测以及为入侵报警功能提供接口。 近几年来,由于安防产业的迅速发展,为规范和保证这一行业的健康发展,国家出台制定了一系列的标准。公安部科技局于2004年初委托全国安全防范报警系统标准化技术委员会(SAC/TC100)和武汉大学联合开展城市视频安防监控联网系统技术标准的起草工作。武汉大学作为主要起草单位开展了相关技术标准的研究工作,为各省市规范安防数字联网监控系统的建设工作发挥了重要指导作用,为全面整合安防与报警社会资源提供了先进的技术方案。3.3 安防监控系统实例目前安防监控系统向监控点大规模联网的趋势发展,这也对多媒体信息的编码和

44、传输提出了更高的要求。如何减小视频流大规模并发所带来的网络拥塞,如何提高视频流在恶劣网络环境(比如无线移动网络环境)的视频质量,这是我们在研究中必须面临并解决的问题。以下是武汉大学国家多媒体软件工程技术研究中心设计的一个安防监控系统的示意图:图3. 监控系统示意图上面的监控系统由目录服务器、网络录像服务器、数据库服务器、监控客户终端、流媒体服务器及视频编码服务器组成。目录服务器则对视频编码服务器进行统一的管理。其主要功能包括:监控设备发送心跳包自动注册到目录服务器,目录服务器论证后纪录设备列表,并自动写入数据库。目录服务器对注册的视频服务器进行连线检测,判断其在线状态,并实时更新数据库。通过目

45、录服务器和数据库服务器,我们就可以得到编码服务器的信息。并可以在监控客户端软件上对编码服务器进行编组,设置访问权限。从而满足多级联网监控的需求。通过架设流媒体服务器,实现视频流大规模并发的同时,可以减小视频编码服务器的访问压力。系统还配有网络录像服务器,以便视频资源的存储和共享。其中,视频编码服务器是整个监控系统的基础和核心,也是音视频处理能力的集中体现。视频编码服务器是以Philips公司的Pnx1500为核心CPU的嵌入式网络多媒体系统。我们利用增强了的TriMedia CPU核,利用PNX1500芯片上集成的10/100M以太网MAC接口与远程PC机相联系并通过PC机向系统发送控制指令,

46、实现了一种将采集来的原始音视频数据压制成标准视频流数据传输到网络上的方法。在此基础上,搭建起一个基于MPEG-4标准的网络视频编码传输系统。一般的监控系统由于处理能力有限,往往对大分辨率高清的图像没有办法实现实时通信。但是本系统通过种种视频编码优化技术,实现了D1格式图像以25帧/秒的速度进行实时压缩,从而满足了实时通信的需求。视频编码服务器的另一特色就是采用多种编码策略,成功的实现了在不同带宽条件下的自适应编码。根据实际的带宽变化,自适应调整编码策略,避免视频流质量的陡降,比较好的解决了带宽的抖动带来的编码问题和视频编码所特有的抖动性问题。另外,在无线监控环境下,无线网络环境本身具有信号突变

47、、带宽较窄的特点,和视频流的大容量以及信号依赖性形成了极大的矛盾。我们先后完成了两项国家自然科学基金基于信道建模自适应的实时无线视频传输研究和基于信源信道双解码器联合迭代译码技术的研究的研究,相关技术成果解决了带宽受限与高误码率引起的大量丢包所造成的视频质量陡降的问题。 如本文1.4部分所述,本方案使得在无线网络环境中,可以信源编码器可以更好的根据信道的情况,自适应的进行调整,使得监控视频流的编码效率、编码质量和容错性能得到比较好的均衡,这项改进使得整个视频通信质量都大为提高。4视音频编解码技术展望由于数字视频编码的核心是对信号进行压缩,所以不断提高编码压缩效率仍是混合编码的主要发展目标。但是

48、追求更高的压缩效率需要对传统的“变换+运动补偿+基于视觉的量化+熵编码”框架有所突破,给视频编码性能带来新的提升。可伸缩的视频编码技术因为具有良好的网络适应性,所以围绕它的应用,尤其是网络环境下的应用,会越来越多。可以预见,在未来的网络视频监控中,可伸缩技术将是保证网络传输质量的一个重要实现技术。而多视点编码方法的研究会集中在多视点视频的采集与校准,场景深度及几何信息获取(立体匹配),多视点视频编码,多视点视频通信,新视图渲染以及最终的交互或立体显示等6大关键上,这些技术的突破会为自由视点电视(FTV)、立体电视(3DTV)和沉浸感视频会议的应用提供技术支持。作为SVC、MVC等各类视频编码的

49、基础,混合框架的编码仍有很强的生命力。同时随着网络、通信、娱乐业对数字媒体的广泛需求,AVS、H.264这一代标准被普遍接受,相应的产品开发工作相当重要。包括编解码芯片、整机和系统。应用领域涉及数字电视、卫星电视、移动电视、手机电视、网络电视、时移电视机、新一代光盘存储媒体、安防监控、智能交通、会议电视、可视电话、数字摄像机等等。其中,安防监控领域是音视频编解码技术的主要应用领域之一。编解码技术在这个领域的应用,需要结合安防监控领域的特殊需求进行研究。只有在这个方向掌握有自主知识产权的核心技术,我国的安防监控产业才能健康持续的发展。5 参考文献1.ThomasWiegand, G.J.S.,

50、Senior Member, IEEE, Gisle Bjntegaard, and Ajay Luthra, Senior Member, IEEE, Overview of the H.264/AVC Video Coding Standard. IEEE TRANSACTIONS ON CIRCUITS AND SYSTEMS FOR VIDEO TECHNOLOGY, 2003. 13(7): p. 17.2.周秉锋, 郑.叶., JVT草案中的核心技术综述. 软件学报, 2004. 15(1): p. 11.3.Ostermann, J., Hybrid Coding: Where

51、Can Future Gains Come from?” 2005.4.Julien Reichel, H.S., Mathias Wien, Scalable Video Coding Working Draft 2, JVT, Editor. 2005.5.Dr Francesco Ziliani, J.-C.M., Scalable Video Coding In Digital Video Security. 2005. p. 19.6.Wallace Kai-Hong Ho; Wai-Kong Cheuk; Lun, D.P.-K., Content-based scalable H

52、.263 video coding for road traffic monitoring. IEEE Transactions on Multimedia, 2005. 7(4): p. 9.7.Ser-Nam Lim; Davis, L.S.E., A., Scalable image-based multi-camera visual surveillance system, in AVSS.2003. 2003.8.Nicolas, H., Scalable video compression scheme for tele-surveillance applications base

53、d on cast shadow detection and modelling, in Image Processing, 2005. ICIP 2005. IEEE International Conference on. 2005.9.May, A.T., J.; Hobson, P.; Ziliani, F.; Reichel, J.;, Scalable video requirements for surveillance applications. Intelligent Distributed Surveilliance Systems, IEE, 2004: p. 4.10.

54、陶钧, 王., 张军, 姜志宏, 三维小波视频编码的可伸缩性研究. 小型微型计算机系统, 2005. 26(2).11.ping., L.Y., A true th ree2dimension wavelet transfo rmtechnique and its app lication, in Video Image Coding-Electronic Engineering. 2002. p. 52-59.12.Wen-Hsiao Peng, C.-Y.T., Tihao Chiang, and Hsueh-Ming Hang, Advances of MPEG Scalable Vid

55、eo Coding Standard. 2005.13.Robert T. Collins, A.J.L., Takeo Kanade, et al., A System for Video Surveillance and Monitoring. 2000, The Robotics Institute, Carnegie Mellon University, Pittsburgh PA. p. 69.14.Ismail Haritaoglu, M., IEEE, David Harwood, Member, IEEE, and Larry S. Davis, Fellow, IEEE, W

56、4:Real-Time Surveillance of People and Their Activities. IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, 2000. 22(8).15.AVC, I.-T.R.I.I.-. Advanced Video Coding for Generic Audiovisual Service. 2005.16.Robert Pless, T.B.y., and Yiannis Aloimonos, Detecting Independent Motion: The Sta

57、tistics of Temporal Continuity. IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, 2000. 22(8): p. 6.17.L. Wixson, M., IEEE Computer Society, Detecting Salient Motion by AccumulatingDirectionally-Consistent Flow. IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, 2000. 22(8

58、).18.Medioni, I.C.G., Detecting and Tracking Moving Objects for Video Surveillance. 1999.19.Tarak Gandhi, M.M.T., et al., Motion Analysis of OmniDirectional Video Streams for a Mobile Sentry. 2003.20.Kakadiaris, C.B.o.a.I.A., et al., A Convex Penalty Method For Optical Human Motion Tracking. 2003.21.Zhang, Z.M., et al., Independent Motion Detection Directly from Compressed Surveillance Video. 2003.22.G., W.G.a.B. An introduction to the Kalman filter. 2000 cited; Available from: http:/

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论