基于视觉特性的视频编码理论与方法研究教材

上传人：有*** IP属地：贵州上传时间：2022-09-06 格式：DOCX 页数：61 大小：209.07KB 积分：35 举报 版权申诉

已阅读5页，还剩56页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、PAGE PAGE 60项目名称称：基于视觉觉特性的的视频编编码理论论与方法法研究首席科学学家：高文北北京大学学起止年限限：20099.1至至20113.88依托部门门：教育部一、研究究内容由于可以以有效节节省通信信带宽和和存储容容量，高高效率的的视频编编码技术术已经成成为数字字视频广广播(广广播网)、数字字媒体存存储与网网络传输输(计算算机网络络)、以以及多媒媒体通讯讯(通信信网)等等数字媒媒体产业业的共性性关键技技术。特特别是近近年来，我国的的数字媒媒体产业业迅猛发发展，年年均产值值已近万万亿元，使得音音视频编编解码标标准技术术的地位越越来越重重要。经经过多年年努力，20006年中中国终

2、于于有了自自己的视视频编码码国家标标准AVVS。但但我们仍仍需未雨雨绸缪，从模型型、理论论、方法法和技术术上为下下一代视视频编码码国家标标准和国国际标准准的制定定早做准准备，确确保在下下一轮的的标准竞竞争中立立于不败败之地。从视频编编码的需需求角度度看，编编码的主主要动机机是在尽量量保证高高质量视视觉效果果的前提提下最大大限度地地降低码码率，达达到压缩缩的目的的。众所所周知，人类视视觉系统统的信息息处理能能力远远远超过目目前的视视频处理理系统，因此，从方法法论上借借鉴人类类视觉系系统的视视觉信息息处理基基本神经经机制和和心理机机理，构构建统一一的图像像/视频频基本结结构与表表示模型型及其相相应

3、的视视觉计算算方法，发展将将香农信信息论与与人类视视觉系统统信息处处理原理理相结合合的高效效视觉信信息编码码理论与与方法，就成为为了本项项目的基基本出发发点和立立项依据据。视频编码码处理的核心环环节要对对视频中中包含的的视觉信信息进行行高效的的表达和和准确的的重建，其本质质是视觉觉信息的的基本结结构和有有效表示示问题。为此，我们需需要探讨讨以下关关键科学学问题：视频编码码可以借借鉴的视视觉信息息处理机机理是什什么？作作为长期期进化的的结果，人类视视觉信息息处理系系统是至至为精致致的生物物系统之之一。但但遗憾的的是，其其基本神神经机制制、知觉觉和认知知机理目目前尚不不完全清晰晰。本项项目将从从多

4、学科科交叉的的角度出出发，探探索视觉觉信息处处理的基基本神经经机制和和认知机机理，研研究相应应的理论论和模型型，对其其进行实实验验证证与计算算仿真，以期能能够用以以指导建建立更加加有效的的视觉计计算模型型。视频编码码可以利利用的符符合视觉觉信息处处理机理理的计算算模型是是什么？尽管人人类视觉觉系统的的信息处处理机理理尚不完完全明了了，但随随着技术术手段的的提高，脑科学学、神经经科学和和认知心心理学专专家已经经掌握了了越来越越多的规规律并提提出了很很多假说说和模型型。如何何基于这这些发现现构建相相应的、可计算算的视觉觉信息处处理数学学模型就就成为一一个重要要的基础础科学问问题。其其解决不不仅可以

5、以有效促促进视觉觉编码技技术的发发展，还还可以从从计算模模拟的角角度反过过来推动动视觉基基本机理理的研究究。与人类视视觉系统统特性相相吻合的的视频表表示及编编码的理理论是什什么？香香农信息息论虽然然从理论论上给出出了编码码效率的的上界和和失真的的关系，但并未未考虑编编码的符符号(事事件)集集，因而而对视频频中高阶阶相关缺缺乏有效效的描述述手段。视觉信信息论试试图借鉴鉴神经生生理学在在不同感感知阶段段对感知知对象的的抽象，建立对对应的符符号(事事件)集集，使之之能够方方便地描描述高阶阶相关性性，体现现语义结结构，从从而丰富富信息论论理论。符号(事件)是借鉴鉴稀疏编编码理论论通过采采用贝叶叶斯计算

6、算视觉感感知的后后验概率率建立的的。这将将为高效效视频编编码提供供指导性性的理论论基础。上述三个个关键科科学问题题紧紧围围绕视觉觉信息处处理系统统中最核核心的表表示与编编码问题题，分别别从生理理/心理理基本机机理、视视觉信息息处理计计算模型型、视频频编码基基础理论论三个层层面展开开。其中中，视觉觉基本机机理既是是基本出出发点也也是落脚脚点，计计算模型型是桥梁梁和纽带带，视觉觉信息论论则是设设计和实实现下一一代视频频编码方方法和技技术的理理论基础础。围绕上述述三个关关键科学学问题，我们提提出的总总体研究究内容框框架如图图2所示示，以期期建立解解决这些些问题的的模型、理论和和方法，构建相相应的验验

7、证平台台和原型型系统。如图所所示，对对应三个个关键科科学问题题，本项项目的主主要研究究内容自自底向上上分别建建立在三三个层面面，即：机理与与模型层层，理论论与方法法层，关关键技术术与验证证层。下下面我们们分别从从这三个个层面对对本项目目的主要要研究内内容进行行阐述。2.1视视觉基本本机理与与模型层层该层面的的研究内内容面向向的科学学问题主主要是前前两个：视觉信信息处理理的基本本机理和和符合这这些基本本机理的的计算模模型。不不难理解解，二者者有天然然的紧密密联系：一方面面，视觉觉信息处处理基本本机理为为视觉信信息处理理的计算算仿真、计算模模型建立立等提供供了良好好的生理理学和心心理学参参照系，对

8、其基基本规律律的认识识为计算算模型的的建立提提供了良良好的技技术可能能性和努努力方向向。另一一方面，计算模模型也为为基本机机理的正正确性和和模型的的有效性性提供了了验证机机会，有有利于推推动视觉觉基本机机理的研研究。下下面分别别叙述本本项目在在视觉基基本机理理和计算算模型方方面拟开开展的研研究。2.1.1视觉觉信息处处理基本本机理研研究在视知觉觉机理方方面，将将主要从从生理、心理角角度，通通过神经经电生理理学、视视觉行为为学、药药物学等等研究手手段，在在灵长类类动物上上采用包包括微电电极矩阵阵记录方方法、高时间间分辨率率的事件件相关电电位(EERP)、功能能核磁共共振(ffMRII)等技技术手

9、段段从初级级视觉皮皮层V11神经元元群体反反应特性性入手，研究VV1神经经元经典典和非经经典感受受野与上上级视觉觉皮层区区域神经经元正向向和反向向联系、V1神神经元之之间的横横向联系系，以及及视觉学学习过程程中神经经元群视视觉编码码模式的的变化特特性，探探索初级级和高级级皮层中中的神经经元群在在视觉处处理中对对简单和和复杂视视觉刺激激的编码码模式以以及动态态反应模模式，各各级皮层层神经元元群对不不同视觉觉模式识识别的贡贡献，考考察视觉觉注意和和知觉组组织之间间相互影影响和交交互作用用，以验验证或改改进现有有假说或或理论模模型(如如稀疏编编码、群群组编码码、视觉觉注意、增量成成组假说说等)，乃至

10、提提出有关关视觉模模式识别别的神经经机制及及编码机机理的新新假说、新模型型，为后后续的计计算模型型的研究究提供神神经机制制和心理理机理方方面的基基础。图图3给出出了本项项目在视视知觉基基本机理理方面拟拟开展的的主要研研究内容容，涉及及的主要要关键问问题，机机理模型型/假说说，以及及拟采用用的技术术手段。视知觉基基本机理理的研究究成果为为实现人人工视觉觉提供了了一条可可行的道道路，利利用基本本视觉机机理如稀稀疏编码码、群组组编码、增量成成组等，根据人人类视觉觉系统在在平移、旋转、尺度下下的不变变性以及及对数据据缺失、噪声等等问题的的自适应应性，从从计算仿仿真的角角度研究究相应的的视觉信信息处理理

11、计算结结构，探探讨视知知觉的计计算机理理，建立立相应的的表示和和计算模模型。我们将在在这一框框架下研研究包括括视觉信信息的稀稀疏表示示、初级级视觉皮皮层(VV1区)、V22区、VV4区和和IT区区的各个个层次、不同复复杂度下下特征形形成的计计算模型型和实现现算法。具体研研究内容容包括：在视皮皮层网络络结构第第一层上上研究视视觉信息息稀疏表表示的机机器学习习算法、超完备备表示对对实现鲁鲁棒图像像编码的的作用以以及基于于超完备备表示的的特征提提取方法法等。在在第二网网络层次次上将研研究视觉觉特征成成组(FFeatturee Grrouppingg)机理理以及神神经网络络拓扑结结构和学学习算法法。在

12、皮皮层型网网络的第第三层上上则研究究整体特特征形成成机理及及计算模模拟算法法，在最最高层则则研究基基于整体体特征的的物体识识别模型型与算法法。2.1.2面向向视频编编码的视视觉计算算模型研研究在上述视视知觉机机理研究究基础上上，我们们将从功功能模拟拟的角度度，采用用统计学学习方法法，研究究从图像像和视频频中学习习与视觉觉感知相相对应的的视觉信信息表示示基本粒粒子结构构，建立立形式化化数学描描述的有有关理论论和方法法。特别别要重点点研究稀稀疏编码码、增量量成组和和视觉注注意机制制所遵循循的基本本规律及及其可能能的计算算模型，进而建建立与视视觉信息息处理相相关的统统计模型型和计算算方法。在本项目目

13、的研究究中，我我们将基基于静态态要素图图模型，提出一一个针对对视觉运运动的、统一的的视觉表表示模型型时时空要素素图(SSpattiall Teempoorall prrImaal sskeTTCh graaph SSTITTCH)系统。该系统统包含了了运动图图像序列列中每一一帧的要要素图表表示。这这些要素素图比以以往从静静态图像像中所获获得的要要素图显显示出更更强的语语义信息息。这些些语义信信息主要要来源于于运动所所提供的的丰富线线索考虑到到运动的的时空相相关性以以及整体体运动的的一致性性(cooherrencce)，我们可可以对每每帧静态态要素图图做进一一步的分分析处理理，如层层次化连连接不

14、同同粒度的的基元和和模式等等。图与与图之间间元素的的对应关关系表示示了这些些元素在在时间上上的动态态对应关关系。此此外，SSTITTCH系系统还包包括驱使使这些要要素图产产生变化化的动力力学模型型，如：要素图图或其子子图的运运动、几几何变形形、以及及拓扑结结构的变变化模型型等。我我们认为为时空要要素图模模型是对对运动图图像序列列的一种种内在本本质表示示，它将将为编码码提供稀稀疏、高高效的表表示，从从而有望望使得新新一代编编码技术术获得本本质性的的飞跃。本项目将将通过提提出上述述针对视视频信息息的“时时空要素素图”表表示模型型和计算算方法，研究将将视频分分解为层层次化基基元结构构的可行行性，探探

15、讨视频频表示及及编码的的基本数数学模型型问题，进而探探索视频频的内在在基本结结构，为为后续的的“视知知觉熵”、“视视觉信息息论”、基于视视觉特性性的高效效视频压压缩、多多维度可可伸缩编编码、分分布式多多视点编编码和面面向智能能监控的的视频编编码等研研究内容容提供基基础性的的视觉表表示和计计算模型型。在视觉注注意计算算方面，项目将基基于前面面讨论的的STIITCHH表示，研究视视频的注注意选择择计算模模型。将将视频分分解成基基元结构构后，根根据视觉觉机理中中的“中中心-环环绕”机机制，视视频中的的注意区区域可定定义为运运动基元元的时空空特征拐拐点，如如飞翔的的小鸟、飘落的的雪花可可能会因因其空间

16、间特征与与周围区区域有显显著差异异而显著著性高，而快速速行走的的人突然然停下来来可能会会引起运运动特征征与周围围(时间间轴)有有变化而而被关注注。显著性可可以用特特征与中中心/环环绕类别别标记之之间的互互信息来来描述，特征与与类别标标记关联联越紧密密，该特特征越能能将中心心和环绕绕区域分分离开，即中心心与环绕绕区域之之间的特特征分布布差异越越大，则则显著性性越高这种定义义在运动动基元上上的显著著性与现现有的基基于低级级特征(如颜色色、亮度度、方向向和光流流)的显显著性相相比更加加符合人人类的视视觉特性性，可以以为后续续基于注注意的视视频编码码和内容容监控提提供更多多信息。2.2视视频编码码理论

17、与与方法层层上述视觉觉基本机机理与模模型层研研究的核核心内容容是视觉觉信息的的有效表表示问题题，而视视频编码码的根本本目标则则是要使使用尽可可能少的的比特来来编码表表达原始始视频中中包含的的视觉信信息，因因此，上上述基本本机理和和数学模模型恰可可以利用用以进行行高效的的视频编编码，而而且这为为突破现现有技术术框架提提出了新新思路，即基于于视觉特特性的高高效视频频编码理理论。从视频编编码领域域自身技技术发展展趋势来来看，除除了提高高编码效效率这一一核心目目标之外外，也需需要在其其他角度度上发展展。首先先，需要要适应不不同的传传输带宽宽、存储储和检索索目的，实现多多个维度度上的可可伸缩编编码。传统

18、的的可伸缩缩编码重重点在时时间、空空间和质质量上进进行伸缩缩，我们们则提出出了更多多的维度度，包括括注意可可伸缩、动态范范围可伸伸缩等。其次，分布式式系统、立体视视系统(尤其是是三维电电视)等等应用需需求越来来越强烈烈，因此此也特别别有必要要针对这这类多视视频源编编码问题题进行探探讨，即即所谓分分布式多多视点编编码。最最后，在在视频监监控领域域，对智智能视频频监控的的需求日日益强烈烈。目前前的监控控系统均均直接采采用面向向广播或或通信业业务的视视频编码码方法，而没有有针对监监控任务务本身进进行特殊殊的编码码，因此此编码和和后端的的智能分分析功能能是割裂裂开的。为此本本项目提提出一种种新的解解决

19、思路路，试图图将二者者更加紧紧密地联联系起来来，即在在前端编编码阶段段就尽量量多地考考虑后端端的智能能分析需需求。在视频编编码理论论与方法法层面，我们将将重点开开展四个个方面的的研究，即：基基于视觉觉模型的的高效视视频编码码理论、多维度度可伸缩缩编码方方法、分分布式多多视点视视频编码码方法和和面向智智能监控控的视频频编码方方法。它它们之间间的关系系如表11所示：表1 编编码理论论与方法法主要研研究内容容之间的的关系编码方法法涉及的机机理与计计算模型型主要的理理论与方方法主要应用用领域基于视觉觉模型的的高效视视频编码码视知觉机机理，特特别是稀稀疏编码码理论，视觉计计算模型型，特别别是局部部视觉（

20、基元）模型视觉信息息论，视视觉要素素编码方方法，局局部视觉觉模型参参数编码码高清、超超高清视视频广播播，视频频存储多维度可可伸缩编编码视觉注意意机理，图像/视频显显著性计计算模型型可伸缩编编码理论论，注意意区域编编码方法法流媒体服服务，可可伸缩质质量服务务分布式多多视点视视频编码码分布式信信源相关关模型，深度视视觉计算算模型分布式编编码理论论，Wyynerr-Ziiv编码码多视点视视频，33D电视视面向智能能监控的的视频编编码群组编码码机理，对象检检测与识识别模型型，视觉觉注意机机理面向对象象编码方方法，智智能视频频分析与与编码，索引编编码智能视频频监控，视频检检索四个主要要研究内内容各自自具

21、体描描述如下下：2.2.1基于于视觉模模型的高高效视频频编码理理论结合视知知觉机理理和视觉觉计算模模型，研研究符合合人类视视知觉机机理的视视频压缩缩理论与与方法。本部分分研究内内容将从从基础理理论、算算法与框框架以及及应用三三个方面面开展。在基础理理论方面面，研究究基于视视知觉熵熵的视觉觉信息论论，探讨讨视知觉觉机理中中给出的的视觉基基本组成成单元与与视觉信信息论中中基本信信源符号号的关系系，定义义合理的的基本信信源符号号，进而而提出视视知觉熵熵的概念念；研究究视知觉觉熵的测测度和数数量化方方法，特特别是视视知觉熵熵的动态态测度特特性，探探索鲁棒棒、易行行的视知知觉质量量评价方方法，及及其基于

22、于视知觉觉熵的率率失真理理论，进进而提出出视觉信信息论，为基于于视知觉觉的视频频压缩提提供理论论依据。在算法及及系统方方面，以以视觉信信息论为为指导，研究基基于视知知觉的视视频压缩缩算法及及系统，设计理理论上最最优的压压缩系统统，寻找找基于视视知觉率率失真理理论的系系统优化化方法。具体而而言，就就是从人人的视觉觉特性出出发，对对视频内内容进行行分析，从中提提取出视视频的关关键特征征，如边边缘、纹纹理、运运动等人人眼所关关注的局局部特征征，探索索针对这这些局部部特征的的参数化化算法、根据局局部特征征参数的的视觉掩掩蔽模型型的动态态调整方方法、以以及相应应的量化化算法和和编码算算法，建建立空域域、

23、时域域、局部部特征的的相关性性模型。在这里里如何进进行局部部特征的的提取，以及利利用这些些局部特特征对视视觉模型型的调整整与具体体编码模模块间的的联系成成为整个个编码系系统的关关键问题题，因此此，找出出这些特特征的规规律，并并用其指指导压缩缩成为提提高压缩缩效率的的关键，为此项项目研究究还将对对基于模模型的图图像/视视频局部部特征提提取进行行深入研研究，从从而可以以通过学学习训练练适应性性地进行行特征提提取与编编码。在应用方方面，我我们拟研研究基于于视觉的的动画压压缩和基基于视觉觉的超高高清视频频编码以以及超分分辨率视视频编码码。动画画本身的的产生机机制非常常有利于于采用基基于视觉觉的编码码方

24、法，和自然然视频相相比，动动画一般般有着较较明显的的边缘特特征、纹纹理特征征、或色色彩一致致的区域域，运动动模型也也相对较较容易建建立，因因此我们们拟结合合动画制制作的基基本原理理，对基基于视觉觉特征的的动画编编码进行行研究，搭建基基于视觉觉的动画画压缩系系统,提提高动画画的压缩缩效率，为推动动基于视视觉的视视频压缩缩应用迈迈出关键键的一步步。对于超高高清分辨辨率视频频，目前前的压缩缩效率还还难以满满足应用用需求，本项目目拟研究究基于视视觉的超超分辨率率视频编编码技术术，提高高超高清清视频的的编码效效率。我我们拟在在原始分分辨率视视频上提提取边缘缘、纹理理等视觉觉特征并并进行编编码，然然后对原

25、原始分辨辨率视频频进行下下采样编编码，在在解码端端通过超超分辨率率插值技技术重构构高分辨辨率视频频。随着硬件件技术的的快速发发展，高高分辨率率的逐行行显示设设备越来来越普及及，但在在许多应应用场合合由于历历史的原原因隔行行视频还还将长期期存在一一段时间间，对此此我们拟拟研究基基于超分分辨率技技术的去去隔行效效应研究究，实现现低分辨辨率、低低帧率的的隔行视视频到高高分辨率率、高帧帧率的视视频转换换，取得得更好的的主观效效果。2.2.2多维维度可伸伸缩编码码方法对此问题题将从理理论层和和算法层层分别展展开。理理论部分分主要结结合香农农传统信信息论和和视觉信信息论，根据视视知觉熵熵的定义义、测度度及

26、相关关率失真真理论，探求可可伸缩编编码的视视知觉率率失真曲曲线，及及其与传传统率失失真曲线线的关系系。在此此理论研研究基础础上我们们将探索索基于视视觉信息息论的SSVC编编码框架架及算法法。通过过在传统统三维SSVC框框架上引引入注意意度，进进一步提提高SVVC编码码的性能能；引入入针对高高动态范范围视频频输入的的动态范范围这一一自由度度，支持持高动态态范围图图像的编编码显示示。对于这一一问题重重点研究究注意模模型的建建立及基基于注意意模型的的感兴趣趣区域的的提取、表达和和编码，力图寻寻求具有有最高率率失真性性能的可可伸缩编编码；研研究具有有强容错错能力并并且能够够适应各各种动态态变化网网络和

27、不不同的用用户终端端设备的的可伸缩缩视频编编码方法法，主要要基于视视频内容容的视知知觉熵，为视频频要素提提供不同同级别的的纠错保保护，尽尽可能提提高重建建视频的的主观满满意度；研究基基于注意意度的码码流优化化截取方方法，其其目标即即为最大大化重建建视频的的视知觉觉率失真真性能，同时兼兼顾复杂杂度。2.2.3分布布式多视视点视频频编码方方法在资源受受限的分分布式视视频应用用中，鉴鉴于现有有分布式式视频编编码的低低效性，需要利利用视觉觉特性，研究分分布式多多视点编编码理论论，从而而提高编编码效率率。同时时，必须须充分利利用分布布式信源源之间的的相关性性，去除除分布式式信源的的视间冗冗余，达达到分布

28、布式视频频信息高高效解码码。在立立体视编编码方面面，需要要利用深深度辅助助信息来来精确描描述真实实的三维维世界。根据立立体视觉觉成像的的原理, 利用用多个视视点图像像的空间间几何关关系以及及图示线线索知识识获取深深度信息息是立体体视点视视频处理理的重点点研究内内容；同同时，需需要研究究利用多多视点视视频编码码对大量量的视频频原始数数据和辅辅助信息息进行压压缩并且且通过网网络进行行有效传传输；通通过自由由视点切切换保证证用户的的交互功功能，使使用户可可以根据据自己的的兴趣选选择不同同的视角角具体的研研究内容容包括：(1) 基于视视觉特性性的视频频源分割割在视觉模模型的指指导下，研究基基于视觉觉特

29、性与与统计特特性的信信源分割割准则。根据这这种分割割准则，将视频频源划分分为若干干个视觉觉特性、统计特特性相异异的子视视频源。然后对对每个子子视频源源使用相相应的高高效编码码方法，以期获获取好的的主观质质量。(2) 基于多多视频源源相关模模型的分分布式编编码根据视频频序列的的具体分分割形式式，利用用多视点点信源的的相关特特性、视视点间的的几何位位置以及及采集参参数，研研究其相相应的相相关模型型以及参参数估计计方法，指导编编码器进进行高效效的分布布式编码码。(3) 研究多多视频源源时间、视间联联合相关关性，实实现高效效解码分布式编编码理论论要求独独立编码码的信源源码流必必须在解解码端联联合解码码

30、，通过过充分挖挖掘信源源间的相相关性来来高质量量地重建建源数据据。利用用基于视视间运动动的边信信息导出出、数据据融合等等技术，研究高高效的边边信息生生成、信信道解码码以及源源数据重重建等方方法。(4) 面向视视觉质量量的自适适应解码码将主观视视觉质量量评价模模型嵌入入到分布式式解码器器中，当当目标视视频区域域解码质质量达到到主观质质量要求求时，即即终止解解码过程程。这样样既可以以达到更更优的码码率与视视觉质量量平衡，还可以以控制解解码器的的计算复复杂度。(5) 基于立立体视觉觉机理的的多视编编码研究利用用多个视视点图像像的空间间几何关关系以及及图示线线索知识识生成深深度序列列，用以以精确表表达

31、真实实世界的的立体视视觉信息息。基于于立体视视觉机理理，进一一步研究究深度序序列与彩彩色视频频的联合合高效压压缩，重重构出最最优的三三维视频频。为了了支持多多视点切切换，研研究高效效灵活的的低延迟迟视点切切换，同同时使压压缩效率率和视点点切换代代价之间间达到最最优的平平衡。(6)三三维显示示技术研究高效效虚拟视视合成技技术，可可使用户户按照深深度感知知能力选选择合适适的欣赏赏视点；研究多多视点的的三维显显示器，使观察察者具有有更加广广阔的视视域。2.2.4面向向智能监监控的视视频编码码方法虽然视频频监控部部署规模模已经比比较庞大大，而且且发挥着着重要作作用，但但是目前前系统的的应用模模式比较较

32、落后，主要靠靠人工监监视多路路视频和和事发后后的人工工搜检，其中实实时现场场人工监监视耗费费大量人人力，而而且监视视人员易易疲劳、漏检风风险大，亟待半半自动乃乃至全自自动预警警的支持持。这需需要我们们从视频频编码层层次进行行基础性性创新，从而构构建新一一代的智智能化、高效能能视频监监控体系系。针对视频频监控的的特点与与需求，研究三三层码流流结构(基本层层、对象象层和索索引层)的新一一代监控控视频编编码方法法与标准准，拟利利用本项项目研究究的视频频编码方方法进行行基本层层编码，通过在在视频码码流中增增加对象象层和索索引层，将满足足视频监监控智能能化和高高效率的的需要。基本层编编码方法法采用本本项

33、目研研究的基基于视觉觉特性的的视频编编码方法法，针对对监控视视频的特特点和需需求，提提出适合合监控需需要的视视频编码码方案并并进行标标准化。针对重重要场合合监控中中可获得得多摄像像源的特特点，通通过多源源视频融融合获得得广视角角、高清清晰的监监控效果果。对象层编编码面向向监控智智能化的的需要，基于基基本层码码流中的的视觉基基元、运运动向量量等要素素，研究究监控背背景、场场景、物物体、人人物等对对象模型型，分析析异常行行为和异异常事件件，形成成描述监监控目标标及其关关系的对对象层码码流，发发挥基于于视觉特特性的编编码理论论与方法法的优越越性，提提高视频频监控系系统的效效率。索引层以以提高海海量监

34、控控视频的的检索和和存储效效率为目目标，基基于基本本层中的的感兴趣趣区域、视觉基基元和对对象层中中的对象象描述信信息，研研究监控控场景变变化的检检测方法法，提出出评价视视频片段段重要性性的计量量方法，获得场场景变换换位置、视频片片段重要要程度等等描述信信息，形形成描述述视频结结构的索索引，支支持对监监控视频频的提纲纲携领式式检索、摘要和和存储容容量缩减减。2.3原原型研究究与验证证层上述两个个层面所所研究的的基础性性的模型型、理论论和方法法还需要要通过设设计原型型系统或或者应用用平台进进行验证证。我们们重点考考虑在宽宽带移动动多媒体体应用中中进行原原型研究究和系统统验证，构建相相应的验验证平台

35、台。具体体研究内内容如下下：(1)面面向远程程医疗的的高动态态视频采采集技术术：高动动态范围围视频采采集通过过多个摄摄像头协协同采集集同一场场景不同同动态范范围的图图像，生生成高保保真的高高动态范范围视频频源。(2) 视频转转码技术术研究：主要解解决流媒媒体系统统平移过过程中的的转码关关键问题题，特别别是多种种其它编编码格式式到AVVS等视视频格式式的转码码技术，在此基基础上突突破解决决转码的的一些共共性的关关键技术术，例如如新的转转码结构构的设计计、视频频图像的的滤波预预处理、转码运运动矢量量的预测测等。同同时在转转码过程程中研究究编码的的率失真真属性，为视频频的有效效调度打打下基础础。(3

36、) 多流封封装技术术：针对对网络传传输介质质误码率率高、带带宽差异异等问题题，本项项目基于于可伸缩缩编码方方法研究究多流封封装技术术，将一一个视频频源分拆拆为多个个独立的的视频流流单独传传输，从从而确保保传输的的健壮性性。研究究基于传传输通道道的冗余余编码技技术，减减少传输输过程对对误码率率的影响响，适应应不同带带宽。(4) 面向远远程医疗疗的视频频编码应应用技术术研究：根据基基于视觉觉特性的的视频编编码理论论和远程程医疗业业务应用用需求，针对对远程医医疗的视视频编码码技术应应用场景景进行分分析和研研究，主主要包括括：感兴兴趣区域域编码的的远程医医疗会诊诊技术应应用研究究,高动动态范围围视频

37、手手术监测测技术应应用研究究等。(5) 高清IIPTVV和固定定移动融融合（FFMC）视频应应用验证证平台实实现技术术：研究面面向远程程医疗的的高清IIPTVV网络流流媒体系系统架构构，固定定移动融融合（FFMC）环境下下的网络络流媒体体系统架架构，搭搭建相应应的宽带带移动多多媒体传传输验证证平台，对新一一代基于于视觉特特性的视视频编码码理论和和方法进进行验证证。二、预期期目标3.1总总体目标标本项目针针对高效效视频编编码所涉涉及的视视觉信息息处理基基础科学学问题开开展多学学科交叉叉的共同同研究，借鉴神神经科学学的最新新研究成成果，以以探索视视觉信息息表示和和编码的的基本神神经机制制和心理理机

38、理为为出发点点，构建建视频内内容表示示的时空空要素图图模型及及其统一一的计算算模型。在这些些研究的的基础上上，针对对视觉信信息编码码与传输输问题，将香农农信息论论与人类类视觉系系统信息息处理原原理相结结合，并并以此作作为视频频编码的的理论基基础，从从而提出出新的基基于视觉觉模型的的下一代代高效视视频编码码框架，并扩展展研究包包括视觉觉注意和和高动态态范围在在内的多多维度可可伸缩编编码方法法、面向向多视频频源的分分布式多多视点编编码方法法以及面面向智能能监控的的视频编编码方法法，从而而构建一一套基于于视觉特特性的高高效视频频编码理理论、模模型和方方法体系系这这即是本本项目在在理论方方面的总总体目

39、标标。本项目在在解决国国家重大大需求和和产业创创新方面面的总体体目标包包括两方方面。首首先，以以此为基基础衍生生出的视视频编码码技术可可为下一一代视频频编码国国家标准准做出不不可替代代的贡献献，并深深度参与与未来视视频编码码国际标标准的制制订工作作，从而而提高我我国信息息通信产产业的国国际竞争争力。其其次，本本项目面面向智能能监控的的编码方方法等研研究成果果预期可可以改变变传统视视频监控控的应用用模式，从而服服务于国国家公共共安全、重大事事件应急急管理等等国家重重大需求求；通用用编码方方法则还还可以为为下一代代宽带移移动多媒媒体应用用技术提提供理论论与核心心技术基基础，并并为航天天遥现遥遥控等

40、国国家重大大工程提提供技术术储备。3.2五五年预期期目标根据上述述总体目目标，未未来五年年内本项项目预期期在理论论与方法法、解决决国家重重大需求求、科研研成果和和人才培培养方面面达到如如下目标标：1、预期期在理论论与方法法方面取取得的进进展、突突破及其其科学价价值如前所所述，理理论层面面我们的的总体目目标是构构建一套套高效的的基于视视觉特性性的视频频编码理理论、模模型和方方法体系系，具体体的五年年目标主主要体现现在以下下几个方方面：在视觉基基本机理理层面，探索视觉觉信息处处理的基基本神经经机制和和认知机机理并对对其进行行计算仿仿真。特特别要采采用先进进的多电电极矩阵阵技术手手段，为为揭示视视知

41、觉的的神经机机制提供供经验和和第一手手实验证证据。期期望能探探明稀疏疏编码与与群组编编码这两两类编码码方式的的区别与与联系、转化机机制及相相应的心心理机理理；探明明基本成成组和增增量成组组两种成成组方式式之间的的相互作作用以及及视觉注注意在其其中的调调节机制制，从而而为建立立视觉计计算模型型提供基基本机理理基础。在视觉计计算模型型层面，建立统统一的统统计视觉觉表示与与计算模模型。提提出并完完成面向向视频处处理的“时空要要素图”模型，建立视视频内容容基本要要素的数数学统计计模型及及其符号号化的形形式化描描述以及及相应的的计算推推理方法法。在视频编编码理论论层面，提出与视视觉感知知一致的的视频编编

42、码与传传输理论论。建立立视觉信信息量、视知觉觉熵等概概念的形形式化描描述，从从而构建建符合视视觉特性性的视频频编码理理论。在视频编编码方法法层面，构建包包括基于于视觉模模型的新新型编码码方法、多维度度可伸缩缩编码方方法、分分布式多多视点编编码方法法和面向向智能监监控的视视频编码码方法等等在内的的下一代代高效视视频编码码理论与与方法体体系。2、预期期在解决决国家重重大需求求方面的的研究目目标突破数字字视频编编解码核核心技术术，为制制定下一一代自主主知识产产权的高高效视频频压缩国国际/国国家标准准提供理理论、方方法和关关键技术术上的支支持，实实现5年年内视频频压缩率率再提高高1倍的的目标(即从目目

43、前的约约1:1100提提高到11:2000)。预期能能够为下下一代视视频编码码国家标标准(AAVS阶阶段2)做出不不可替代代的贡献献(预期期本项目目组成员员贡献率率不低于于40%)。同同时，至少少申请110项以以上具有有我国自自主知识识产权的的国际专专利，扭转中中国视频频产业核核心技术术长期受受制于人人的被动动局面，推动我我国数字字视音频频产业的的战略转转型。突破面向向智能监监控的视视频编码码关键技技术，通通过在编编码过程程中引入入局部视视觉模型型和视觉觉注意等等新要素素，从而而有效支支持自动动异常发发现和报报警、目目标检索索等功能能，从而而改变智智能视频频监控的的应用模模式，满满足国家家在公

44、共共安全和和重大应应急事件件管理中中，对智智能视频频监控系系统的重重大需求求。突破宽带带移动多多媒体应应用系统统涉及的的关键技技术，本本项目在在视频编编码方面面的研究究成果可可以有效效支持面面向高清清的IPPTV、具有三三维和高高动态范范围视频频属性的的远程医医疗系统统等，提提高我国国在宽带带移动多多媒体应应用方面面的技术术水平并并得到产产业应用用。3、在科科研产出出、优秀秀人才培培养等方方面的预预期目标标预期在视视频编码码领域的的部分研研究成果果达到国国际领先先水平，促进相相关学科科的发展展。预期期五年内内发表SSCI、EI收收录学术术论文3300篇篇以上，其中国国际期刊刊论文1100篇篇以

45、上，出版专专著2本本以上，申请专专利400项以上上，争取取获得112项项国家级级科技奖奖励。在相关领领域形成成一支思思维活跃跃、创新新能力强强的国际际知名研研究团队队，培养养高水平平学术人人才，造造就一批批在国内内外相关关领域有有相当影影响力的的学术带带头人。培养博士660人、硕士1100人人。三、研究究方案4.1总总体学术术思路与与技术路路线如前所述述，传统统的视频频编码技技术建立立在香农农信息论论基础上上，只能能在信号号层面上上采用统统计处理理的手段段对视频频进行压压缩，所所以，基基于传统统信息论论的方法法流行多多年，形形成了延延续至今今的基于于变换与与预测的的混合编编码框架架，基于于此的

46、编编码效率率已遭遇遇瓶颈。我们可可以认为为，这种种传统的的编码方方法主要要停留在在以像素素或图像像块为基基本表示示单元的的层次上上，这这在某种种意义上上对应着着人类“眼脑”视觉信信息处理理通路的的视网膜膜层面，至多部部分延伸伸至侧膝膝体。因此，本本项目的的总体研研究思路路就是(如图112中间间虚线右右侧部分分)：借借鉴人类类视觉系系统的信信息处理理过程，将编码码的理论论基础向向视觉通通路的后后端延伸伸，即延延伸至视视觉皮层层的V11区，VV2区，V3区区，V44区，乃乃至ITT/MTT区。从从视觉信信息表示示的基本本对象角度度来看，该思路路主要采采用视觉觉基元作作为视觉觉内容的的基本单单元，而

47、而不再是是传统方方法中的的像素或或者图像像块。这这种信息息表示机机制变化化的意义义在于：通过将将编码符符号集合合定义在在具有视视觉意义义的基元元上，传传统的信信息论就就可以被被扩展，我们称称之为“视觉信信息论”，以区区分一般般意义上上的信息息论。为为此，我我们就需需要探讨讨符合视视觉感知知的视觉觉基元与与视觉信信息论中中基本信信源符号号的关系系，寻找找基本信信源符号号的合理理定义，进而提提出并形形式化视视觉信息息量、视视知觉熵熵等概念念，研究究其测度度和数量量化方法法，寻找找并借助助客观、鲁棒、易行的的视觉质质量评价价方法，探索基基于视知知觉熵的的率失真真关系，进而形形成新的的率失真真理论。从

48、而以以视知觉觉熵和视视知觉率率失真理理论为基基础，建建立视觉觉信息论论，为基基于视觉觉模型的的新型高高效视频频编码技技术奠定定坚实的的理论基基础。本项目研研究将基基于上述述总体思思路展开开，分别别在视觉觉信息处处理基本本机理、视觉表表示与计计算模型型、视频频编码理理论与方方法以及及系统验验证等几几个层面面展开。具体的，在视觉觉基本机机理方面面，我们们将采用用多电极极矩阵植植入猴脑脑和计算算仿真两两种方法法，重点点探讨稀稀疏编码码、群组组编码、增量成成组、运运动感知知、视觉觉注意等等主要内内容。这这些机理理可以指指导我们们研究新新的视频频内容表表示与计计算模型型，具体体的，我我们拟沿沿着对视视觉

49、信息息进行统统计学习习的思路路，学习习图像/视频的的基本要要素，建建立时空空要素图图模型，并在此此基础上上对视觉觉注意进进行建模模分析。最后则则可以基基于这些些计算模模型研究究基于局局部视觉觉模型的的高效视视频编码码、包含含注意机机制的多多维度可可伸缩编编码、分分布式多多视编码码和面向向智能监监控的视视频编码码等理论论与方法法。需要指出出的是，本项目目的上述述研究方方案强调调了神经经科学、生理学学、心理理学、数数学、计计算科学学和电子子学等多多学科的的交叉从从而有效效地促进进我国科科学与技技术研究究在上述述领域中中的进一一步发展展。4.2各各主要研研究内容容的研究究方案基于上述述总体学学术思路

50、路和技术术路线，本项目目各个主主要研究究内容的的研究方方案概述述如下：4.2.1视觉觉信息处处理基本本机理方方面这部分的的研究将将采用包包括清醒醒动物神神经电生生理学、视觉行行为学和和药物学学方法以以及ERRP、ffMRII等技术术手段研研究生物物视觉系系统知觉觉组织主主要环节节的神经经机制和和心理机机理。对视皮层层神经元元群反应应特性等等问题的的研究方方案，简简述如下下：采用用不同的的视觉刺刺激模式式(刺激激-背景景和自然然景物图图像)对对灵长类类动物进进行视觉觉行为学学训练；在动物物V1 区植入入多电极极矩阵；采用神神经电生生理学记记录研究究动物作作视觉识识别和视视觉学习习时V11区神经经

51、元群反反应模式式；在各各级皮层层采用物物理或化化学药品品手段改改变纵向向神经输输入对VV1区的的作用；研究当当动物作作视觉识识别时记记录V11区神经经元群反反应特征征。视觉注意意的生理理心理基基础及在在视觉认认知组织织中的作作用则将将主要采采用ERRP和ffMRII技术，对被测测试人的的脑电活活动进行行测量，研究知知觉组织织和视觉觉信息处处理过程程中，基基本成组组和增量量成组过过程在时时序和脑脑区上的的差异，以及注注意等认认知过程程对其之之间的相相互影响响的差异异以加工工及相应应的脑机机制。具体方方案为：向被试试呈现不不同的刺刺激图片片(背景景和图像像容易分分离或不不易分离离，自然然图像或或刺

52、激背景图图形)，考察在在给不同同线索(cuee)情况况下，EERP的的波形，反应时时间以及及激活脑脑区的差差异。在模型研研究方面面，考虑虑图像在在不同感感觉、知知觉层面面上的不不同表示示，对于于视觉信信息的稀稀疏表示示、视觉觉皮层VV2区、V4区区和ITT区的各各个层次次采用前前馈联接接，采用用无监督督和有监监督两种种不同学学习方式式解决局局部特征征和整体体特征的的学习任任务。总总体上采采用阶层层、模块块化网络络结构。其中，第一层层对应稀稀疏表示示，目标标是建立立视觉信信息的超超完备表表示，模模拟视觉觉初始皮皮层的功功能，该该层的学学习算法法采用自自适应的的视觉信信息稀疏疏表示算算法，在在神经

53、信信息内部部编码方方面，研研究基于于神经元元信号独独立分解解机理的的内部稀稀疏表示示的统计计模型，使得该该层的神神经元具具有超完完备稀疏疏响应特特征。第二层的的功能是是局部特特征成组组(Feeatuure Grooupiing)，该层层的学习习准则是是使得具具有相近近响应特特征的神神经元尽尽可能集集群到相相近的邻邻域，我我们拟引引入邻域域神经元元之间的的能量变变化极小小化实现现局部特特征成组组和无监监督学习习机制。第三层的的功能是是视觉整整体特征征的形成成，该层层依赖于于具体的的视觉处处理任务务。我们们将针对对某些特特定的典典型任务务设计相相应的整整体特征征形成与与学习方方法，研研究如何何将任

54、务务的先验验知识或或领域知知识融入入到整体体特征的的表示与与学习中中。在最高的的识别层层，考虑虑到不可可预测的的信息包包含更多多信息量量的情况况，试图图对给定定的图像像计算其其不可预预测信息息。拟采采用局部部谱能量量对数的的残余量量来定义义感兴趣趣区域。残差值值越大，该区域域的可预预测性越越差，因因此我们们把局部部图像谱谱能量对对数值残残差超过过一定阀阀值的区区域定义义为感兴兴趣的区区域。通通过大量量的计算算机实验验，利用用该残差差定义的的感兴趣趣区域与与人类视视知觉的的注意区区域相吻吻合。在在定义感感兴趣区区域的基基础上，我们将将利用IIttii的贝叶叶斯模型型，定义义视觉注注意区域域，并且

55、且给出计计算算法法。4.2.2面向向视频编编码的视视觉计算算模型与与方法概括来说说，我们们拟采用用产生式式的、多多层结构构时空要要素图(STIITCHH)系统统作为视视频运动动的统一一表示，并采用用贝叶斯斯理论框框架下的的最大似似然估计计(Maaximmum likkeliihoood eestiimattionn)方法法实现推推理计算算。具体体地我们们拟定以以下研究究方案：1.运动动的统一一视觉表表示首先，我我们提出出“时空空要素图图系统”来统一一地表示示视频中中复杂的的运动内内容。作作为一种种产生式式系统，它包括括三层结结构，：(i)系统的的底层为为图像层层，是我我们观察察到的视视频序列列

56、。(iii)系系统的中中层为要要素图层层。为静静态图像像表示提提出的要要素图模模型，其其本质上上是一种种属性图图表示。本层是是我们需需要推理理演算出出的隐变变量(hhiddden varriabble)层，是是以产生生式要素素图模型型生成底底层的图图像。(iiii)系统统的上层层也是隐隐变量层层，它代代表使要要素图在在运动过过程中发发生结构构变化的的因素，拟采用用图语法法表示。2.针对对视频的的时空要要素图系系统表示示的计算算方法我们将在在贝叶斯斯理论框框架下通通过最大大似然估估计的方方法学习习时空要要素图系系统中的的最优参参数(包包括以上上提到的的各方面面内容)，从而而实现对对要素图图的整合

57、合、分割割、与组组合，并并实现对对运动基基元(或或子图)的提取取、跟踪踪，以及及对图语语法规则则的学习习。具体研究究方案如如下：(1) 基元在在不同子子空间中中的动态态特性分分析在确立了了以时空空要素图图系统作作为运动动图像序序列的表表示模型型后，我我们将运运动基元元定义为为时空要要素图中中的子图图，如飘飘落着的的雪花、飞翔的的小鸟等等。运动动基元也也可以按按粒度近近一步的的分解，如一个个行走的的人作为为某一层层上的运运动基元元可被进进一步分分解成为为头、躯躯干、四四肢等具具有不同同运动特特性却又又相互关关联的不不同运动动基元。由于运动动的物体体处于不不同的熵熵域中，所以对对不同类类型的静静态

58、图像像基元有有不同的的表示，如表示示低熵结结构“可可勾画”部分(skeetchhablle)的的简约图图模型和和表示高高熵“不不可勾画画”部分分(noon-sskettchaablee) 的的纹理模模型。这这些不同同熵域中中的静态态基元在在时空中中的动态态特性很很不一样样。因此此，(a) 我们首首先要定定义各种种图像基基元在时时空中的的“可跟跟踪性”(trrackkabiilitty)及及其度量量。我们们将借鉴鉴对一般般跟踪系系统的分分析方法法，在贝贝叶斯推推理理论论框架下下用信息息论的方方法(iinfoormaatioon ttheoorettic appproaach)，将物物体状态态的“

59、不不可跟踪踪性”度量定定义为其其后验条条件熵。它体现现了状态态估计或或跟踪过过程中的的状态的的不确定定性。由由此我们们可以导导出可跟跟踪性度度量。为了获得得视频的的最优的的时空要要素图表表示，我我们将可可跟踪性性度量作作为此优优化问题题的一个个重要参参量置于于系统动动态模型型 QUOTE p(St|St-1,Rt-1;D,R,R)中，使系系统能够够通过计计算，在在不同基基元优化化自身可可跟踪性性度量的的同时，能够自自动地选选择适应应不同视视频内容容的基元元表示方方法，从从而获得得最优的的表示。我们称称之为基基元对视视频的“竞争解解释机制制”。这这里我们们所说的的“最优优”或者者定义在在对视频频

60、内容的的最小描描述长度度(Miinimmum desscriiptiive lenngthh)理论论框架下下，或者者定义在在贝叶斯斯推理理理论下的的最大后后验概率率(Maaximmum a ppostteriiorii)估计计意义下下。(b) 我们将将通过基基于采样样的学习习(leearnningg byy saampllingg)方法法，以及及可跟踪踪性与不不可跟踪踪性基元元对视频频的竞争争解释机机制，实实现对运运动图像像序列的的全面分分析，得得到不同同粒度上上的基元元、运动动层次(layyer)或物体体，以及及它们在在时空中中的对应应关系，并可以以对运动动基元进进行自动动分类(可跟踪踪与不

人人文库> 全部分类> 行业资料 > 管理策划

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

基于视觉特性的视频编码理论与方法研究教材

文档简介

温馨提示

最新文档

评论

基于视觉特性的视频编码理论与方法研究教材

文档简介

温馨提示

最新文档

评论

相关文档