视频编解码的方法、装置、计算机设备及计算机可读存储介质

上传人：无*** IP属地：河北上传时间：2024-09-14 格式：PDF 页数：44 大小：10.45MB 积分：12 举报 版权申诉

已阅读5页，还剩39页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

(19)中华人民共和国国家知识产权局

(12)发明专利

(10)授权公告号CN110719477B

(45)授权公告日2022.03.25

(21)申请号201910605634.2H04N79/732(2014.01)

H04N79/503(2014.01)

(22)申请日2019.07.05

H04N79/776(2014.01)

(65)同一申请的已公布的文献号

H04N79/774(2014.01)

申请公布号CN110719477A

H04N79/82(2014.01)

(43)申请公布日2020.01.21H04N79/703(2014.01)

H04N79/786(2014.01)

(30)优先权数据

H04N79/67(2014.01)

62/696,5302018.07.11US

H04N79/747(2014.01)

16/218,2332018.12.12US

H04N79/705(2014.01)

(73)专利权人腾讯美国有限责任公司

地址美国加利福尼亚州帕洛阿尔托公园大(56)对比文件

WO2010116268A1,2010.10.14

道2747号

WO2010051846A1,2010.05.14

(72)发明人李翔赵欣刘杉徐萌

CN102484701A,2012.05.30

(74)专利代理机构北京德琦知识产权代理有限US2013259128A1,2013.10.03

公司11018CN102165771A,2011.08.24

代理人马媛媛王琦

审查员吕薇

(51)Int.CI.

H04N79/784(2014.01)权利要求书2页说明书27页附图14页

(54)发明名称

视频编解码的方法、装置、计算机设备及计

算机可读存储介质

(57)摘要府「八S1SO1X-^J500

本申请实施例提供了一种视频编解码的方

对四码单元所关行解码sisio

法、装置、计算机设备及计算机可读存储介质，其

中该方法包括:对编码视频比特流中的图像的块,S152O

•©单元是否关联空间变化变-5

相关联的编码信息进行解码，该编码信息指示子

区域在该块中的位置，并且该子区域的面积是该

块面积的1/4；利用第一采样的残差数据重构该

块位于该子区域内的第一采样;在不采用该残差

数据的情况下重构该块位于该子区域外的第二

采样。

箕

寸

CN110719477B权利要求书1/2页

1.一种视频解码方法，其特征在于，包括：

对编码视频比特流中的图像的块所关联的编码信息进行解码，该编码信息表示子区域

在该块中的位置，该子区域的面积是该块面积的1/4；其中，该编码信息表示该子区域的宽

度为该块宽度的1/4,该子区域的高度等于该块的高度，且该子区域仅邻接于以下其中之

一:该块的左边缘、该块的右边缘;或者，该子区域的宽度等于该块的宽度，该子区域的高度

为该块高度的1/4,并且该子区域仅邻接于以下其中之一:该块的上边缘、该块的下边缘;该

编码信息还通过第一二进制化代码bin和第二bin指示该块采用的变换模式，该第一bin和

第二bin组成的’10'表示该块被垂直分割，并编码对应于所述子区域位于左边缘、右边缘的

变换模式其中之一;该第一bin和第二bin组成的’11'表示该块被水平分割，并编码对应于

所述子区域位于上边缘、下边缘的变换模式其中之一；

利用该块在该子区域内的第一采样的残差数据重建该第一采样;及

在不采用残差数据的情况下重建该块位于该子区域外的第二采样。

2.根据权利要求1所述的方法，其特征在于，重建所述第一采样进一步包括：

通过对该子区域内的所述第一采样的变换系数进行反变换以确定该子区域内的所述

第一采样的所述残差数据,其中所述变换系数接收自所述编码视频比特流。

3.根据权利要求1所述的方法，其特征在于，该子区域呈矩形。

4.根据权利要求1所述的方法，其特征在于，该块利用帧间预测编码，且所述第一采样

和所述第二采样具有相同的运动预测信息。

5.根据权利要求1〜4任一项所述的方法，其特征在于，在该编码视频比特流中用信号

表示该子区域位置的编码信息。

6.一种视频解码装置，其特征在于，包括：

信息解码模块，用于对编码视频比特流中的图像的块所关联的编码信息进行解码，该

编码信息表示子区域在该块中的位置，该子区域的面积是该块面积的1/4；其中，该编码信

息表示该子区域的宽度为该块宽度的1/4,该子区域的高度等于该块的高度,且该子区域仅

邻接于以下其中之一：该块的左边缘、该块的右边缘;或者，该子区域的宽度等于该块的宽

度，该子区域的高度为该块高度的1/4,并且该子区域仅邻接于以下其中之一:该块的上边

缘、该块的下边缘；该编码信息还通过第一二进制化代码bin和第二bin指示该块采用的变

换模式，该第一bin和第二bin组成的10'表示该块被垂直分割，并编码对应于所述子区域

位于左边缘、右边缘的变换模式其中之一；该第一bin和第二bin组成的11'表示该块被水

平分割，并编码对应于所述子区域位于上边缘、下边缘的变换模式其中之一；

重建模块,用于利用该块在该子区域内的第一采样的残差数据重建该第一采样;及

在不采用残差数据的情况下重建该块位于该子区域外的第二采样。

7.根据权利要求6所述的装置，其特征在于，所述重建模块用于：

通过对该子区域内的所述第一采样的变换系数进行反变换以确定该子区域内的所述

第一采样的所述残差数据,其中所述变换系数接收自所述编码视频比特流。

8.根据权利要求6所述的装置，其特征在于，该子区域呈矩形，该块利用帧间预测编码,

且所述第一采样和所述第二采样具有相同的运动预测信息。

9.根据权利要求6〜8任一项所述的装置，其特征在于，在该编码视频比特流中用信号

表示该子区域位置的编码信息。

CN110719477B权利要求书2/2页

10.一种计算机设备，包括处理器和存储器，其特征在于，所述存储器中存储有计算机

可读指令，所述指令可被所述处理器执行用于实现根据权利要求1-5任一权利要求所述的

方法。

11.一种非暂时性计算机可读存储介质，存储有程序，其特征在于,所述程序可被至少

一个处理器执行用于实现根据权利要求1-5任一权利要求所述的方法。

CN110719477B说明书1/27页

视频编解码的方法、装置'计算机设备及计算机可读存储介质

[0001]相关文件

[0002]本公开要求2018年7月11日递交的美国临时申请62/696530的优先权，以及2018年

12月12日递交的美国申请16/218233的优先权，其全部内容通过引用结合在本文中。

技术领域

[0003]本申请实施例主要涉及视频编码技术，尤其涉及一种视频编解码的方法、装置、计

算机设备及计算机可读存储介质。

背景技术

[0004]本文提供的背景描述是为了呈现本申请的背景。记名的发明人的工作，在该背景

部分描述的工作以及本说明书各实施例的范围内的内容，在递交时可能并不算作现有技

术，均未被明示或暗示地承认作为不利于本申请的现有技术。

[0005]视频编码和解码可以使用具有运动补偿的图像间预测来进行。未压缩的数字视频

可包括一系列图像，每个图像具有一定的空间维度，例如1920x1080的亮度采样和相关的色

度采样。图像序列可具有固定或可变的图像速率（俗称帧率），例如，每秒60张图像或60Hz。

未压缩的视频需要较高的比特率。例如，每个采样为8比特的1080p604：2：0（60Hz帧率下的

1920x1080亮度采样分辨率）的视频需要接近1.5G比特/秒的带宽。长度为一小时的这种视

频需要600G字节以上的存储空间。

[0006]视频编码和解码的一个目的是，通过压缩来降低输入视频信号的冗余。在一些情

况下，压缩可将带宽或存储器的需求减小至少两个数量级。可使用无损压缩、有损压缩，或

其组合。无损压缩指可从经过压缩的原始信号中重建原始信号的准确副本的技术。当使用

有损压缩时，重建信号可与原始信号不一致,但原始信号和重建信号之间的失真足够小，以

使重建信号能够实现所期望的用途。视频领域中广泛采用有损压缩。容许的失真量取决于

应用，例如，一些消费型直播应用的用户比电视节目应用的用户能容忍更大的失真。可实现

的压缩比可以反映出：可允许/可容忍的失真越大，可产生的压缩比越高。

[0007]运动补偿可以是有损压缩技术，并且可以涉及一些技术，这些技术利用来自先前

重建的图像或其一部分（即参考图像）的采样数据块，在对其进行运动矢量（后文称为MV）所

指示的方向上的空间移位之后），用于预测新重建的图像或图像部分。在一些情况下，参考

图像可以与当前正在重建的图像相同。MV可以有两个维度X和Y,或三个维度，第三个是所使

用的参考图像的指示（后者，间接地，可以是一个时间维度）。

[0008]目前，空间可变变换（spatiallyvaryingtransform,SVT）试图将运动补偿残差

分割为不同区域，即残差较小的区域和残差较大的区域。在JVET-K0139中提出的SVT中，仅

定位和编码残差较大的一个区域。其它残差较小的区域被丢弃并且其残差被强制设为0。然

而,JVET-K0139中提出的区域分割模式是有限的，这导致实际应用中的效率较低。

CN110719477B说明书2/27页

发明内容

[0009]本申请实施例提供了一种视频解码的方法、装置计算机设备及计算机可读存储介

质。在一些实施例中，该装置对编码视频比特流中的图像的块所关联的编码信息进行解码。

该编码信息指示子区域在该块中的位置，并且该子区域的面积是该块面积的1/4；其中，该

编码信息表示该子区域的宽度为该块宽度的1/4,该子区域的高度等于该块的高度,且该子

区域仅邻接于以下其中之一：该块的左边缘、该块的右边缘;或者，该子区域的宽度等于该

块的宽度，该子区域的高度为该块高度的1/4,并且该子区域仅邻接于以下其中之一：该块

的上边缘、该块的下边缘;该编码信息还通过第一二进制化代码bin和第二bin指示该块采

用的变换模式，该第一bin和第二bin组成的'10'表示该块被垂直分割，并编码对应于所述

子区域位于左边缘、右边缘的变换模式其中之一；该第一bin和第二bin组成的’11'表示该

块被水平分割，并编码对应于所述子区域位于上边缘、下边缘的变换模式其中之一。该装置

进一步利用该块在该子区域内的第一采样的残差数据重构所述第一采样，并且在不采用残

差数据的情况下重构该块中的位于该子区域外的第二采样。

[0010]一个实施例中，该装置进一步通过对该子区域内的所述第一采样的变换系数进行

反变换以确定该子区域内所述第一采样的残差数据，其中所述变换系数接收自该编码视频

比特流。

[0011]在一些实施例中，该子区域呈矩形。

[0012]在一些实施例中，利用帧间预测对该块进行编码，且所述第一采样和所述第二采

样具有相同的运动预测信息。

[0013]在一些例子中，在该编码视频比特流中用信号表示该子区域位置的编码信息。

[0014]本申请实施例提供了一种视频解码装置,包括：

[0015]信息解码模块，用于对编码视频比特流中的图像的块所关联的编码信息进行解

码，该编码信息表示子区域在该块中的位置，该子区域的面积是该块面积的1/4；其中，该编

码信息表示该子区域的宽度为该块宽度的1/4,该子区域的高度等于该块的高度，且该子区

域仅邻接于以下其中之一：该块的左边缘、该块的右边缘;或者，该子区域的宽度等于该块

的宽度，该子区域的高度为该块高度的1/4,并且该子区域仅邻接于以下其中之一:该块的

上边缘、该块的下边缘;该编码信息还通过第一二进制化代码bin和第二bin指示该块采用

的变换模式，该第一bin和第二bin组成的’10'表示该块被垂直分割，并编码对应于所述子

区域位于左边缘、右边缘的变换模式其中之一；该第一bin和第二bin组成的’11'表示该块

被水平分割，并编码对应于所述子区域位于上边缘、下边缘的变换模式其中之一；

[0016]重建模块，用于利用该块在该子区域内的第一采样的残差数据重建该第一采样；

及

[0017]在不采用残差数据的情况下重建该块位于该子区域外的第二采样。

[0018]本申请实施例还提供了一种计算机设备，包括处理器和存储器，存储器中存储有

计算机可读指令，可由所述处理器执行，以实现任一实施例的方法。

[0019]本申请实施例还提供了一种非暂存计算机可读存储介质，存储有程序，该程序可

由至少一个处理器执行，以实现任一实施例的方法。

[0020]本申请实施例中，可以采用各种方式将编码单元(CU)分割为具有相对较大的残差

的第一采样的第一子区域(即残差较大的子区域)以及具有相对较小残差的第二采样的第

CN110719477B说明书3/27页

二子区域（即残差较小的子区域），从而提高编解码的效率。

[0021]附图简要说明

[0022]根据以下详细描述和附图，本申请主题的其它特征、性质和各种优点将变得更加

明显，在附图中：

[0023]图1是一个例子中的当前块及其周围的空间合并候选者的示意图。

[0024]图2是一个实施例的通信系统的简化框图的示意图。

[0025]图3是另一个实施例的通信系统的简化框图的示意图。

[0026]图4是一个实施例的解码器的简化框图的示意图。

[0027]图5是一个实施例的编码器的简化框图的示意图。

[0028]图6是另一实施例的编码器的框图。

[0029]图7是另一实施例的解码器的框图。

[0030]图8示出一个实施例的吉文斯（Givens）旋转。

[0031]图9是一个实施例的16个元素NSST的超立方-吉文斯变换（Hypercube-Givens

Transform,HyGT）的流程图。

[0032]图10是一个实施例的HyGT的轮次和可选的排列通路。

[0033]图11是本申请一些实施例的空间可变变换（spatiallyvaryingtransform,SVT）

模式的例子。

[0034]图12是本申请另一些实施例的SVT模式的例子。

[0035]图13是本申请又一些实施例的SVT模式的例子。

[0036]图14是本申请一些实施例的合并子区域关联的SVT模式的例子。

[0037]图15是本申请实施例的过程的概要流程图。

[0038]图16是本申请实施例的计算机系统的示意图。

具体实施方式

[0039]在一些视频压缩技术中，用于采样数据的某个区域的MV可以从其它MV预测得到，

例如，从与该重建中的区域在空间上相邻的另一采样数据区域相关的、并且解码顺序在该

MV之前的那些MV。这样做可以大大减少编码MV所需的数据量，从而消除冗余并加大压缩。例

如,MV预测可以有效地工作，因为当对从相机导出的输入视频信号（称为自然视频）进行编

码时,存在一种统计可能性，即比单个MV可适用的区域更大的区域在相似的方向上移动，并

因此,在某些情况下，可以使用从相邻区域的MV推导出的类似运动矢量进行预测。这导致为

给定区域找到的MV与从周围的MV预测出的MV相似或相同，并且进而在燧编码之后，可以用

比对其直接编码时使用的比特数更少的比特来表示。在一些情况下,MV预测可以是对源自

原始信号（即：采样流）的信号（即：MV）的无损压缩的示例。在其它情况下,MV预测本身可能

是有损的，例如在从一些周围的MV计算预测因子时产生的舍入误差导致的损失。

[0040]在H.265/HEVCQTU-TH.265建议书，高效视频编码摄,2016年12月）中描述了各种

MV预测机制。在H.265提供的许多MV预测机制中，这里描述的是一种后文称为空间合并的技

术。

[0041]请参考图1,当前块（101）包括在运动搜索过程期间已由编码器发现的样本，根据

已产生空间偏移的相同大小的先前块，可预测所述样本。另外，可从一个或多个参考图片相

CN110719477B说明书4/27页

关联的元数据中导出所述MV,而非对MV直接编码。例如，使用AO、A1和BO、B1、B2(分别对应

102到106)五个周围采样中的任一采样相关联的MV,(按解码次序)从最近的参考图片的元

数据中获得所述MV。在H.265中,MV预测可使用来自相邻块所使用的同一参考图像的预测因

子。

[0042]图2是本申请实施例的通信系统(200)的简化框图。通信系统(200)包括多个终端

装置，所述终端装置可通过例如网络(250)彼此通信。举例来说，通信系统(200)包括通过网

络(250)互连的终端设备(210)和终端设备(220)。在图2的实施例中，终端设备(210)和终端

设备(220)执行单向数据传输。举例来说，终端设备(210)可对视频数据(例如由终端设备

(210)采集的视频图像流)进行编码以通过网络(250)传输到另一终端设备(220)。已编码的

视频数据以一个或多个编码视频码流的形式传输。终端设备(220)可从网络(250)接收编码

视频数据，对编码视频数据进行解码以恢复视频数据，并根据恢复的视频数据显示视频图

像。单向数据传输常用于媒体服务应用等。

[0043]在另一实施例中，通信系统(200)包括执行编码视频数据的双向传输的终端设备

(230)和(240),所述双向传输可在，例如，视频会议期间，发生。对于双向数据传输，终端设

备(230)和终端设备(240)中的每个终端设备可对视频数据(例如由终端设备采集的视频图

像流)进行编码以通过网络(250)传输到终端设备(230)和终端设备(240)中的另一终端设

备。终端设备(230)和终端设备(240)中的每个终端设备还可接收由终端设备(230)和终端

设备(240)中的另一终端设备传输的已编码视频数据，且可对所述已编码视频数据进行解

码以恢复视频数据，且可根据恢复的视频数据在可访问的显示装置上显示视频图像。

[0044]在图2的实施例中，终端设备(210)、终端设备(220)、终端设备(230)和终端设备

(240)可为服务器、个人计算机和智能电话，但本申请公开的原理可不限于此。本申请实施

例适用于笔记本电脑、平板电脑、媒体播放器和/或专用视频会议设备。网络(250)表示在终

端设备(210)、终端设备(220)、终端设备(230)和终端设备(240)之间传送已编码视频数据

的任何数目的网络，包括例如有线(连线的)和/或无线通信网络。通信网络(250)可在电路

交换和/或包交换的信道中交换数据。该网络可包括电信网络、局域网、广域网和/或互联

网。为本文讨论的目的，除非有明确说明，网络(250)的体系结构和拓扑与本申请的操作无

关。

[0045]作为实施例，图3示出视频编码器和视频解码器在流媒体环境中的部署方式。本申

请所公开主题可同等地适用于其它支持视频的应用，包括例如视频会议、数字TV、在包括

CD、DVD、存储棒等的数字介质上存储压缩视频等等。

[0046]流媒体系统可包括采集子系统(313)，所述采集子系统可包括数码相机等视频源

(301)，所述视频源创建未压缩的视频图像流(302)。在实施例中，视频图像流(302)包括由

数码相机拍摄的采样。视频图像流(302)(用粗线表示，以强调比已编码的视频数据(304)

(或已编码的视频码流)的数据量大)可由电子设备(320)处理,所述电子设备(320)包括耦

接到视频源(301)的视频编码器(303)。视频编码器(303)可包括硬件、软件或软硬件组合以

实现或实施如下文更详细地描述的本申请主题的各实施例。已编码的视频数据(304)(或已

编码的视频码流(304))(用细线表示，以强调比视频图像流(302)的数据量小)可存储在流

媒体服务器(305)上以供后续使用。一个或多个流媒体客户端子系统(例如图3中的客户端

子系统(306)和客户端子系统(308))可访问流媒体服务器(305)以获取已编码的视频数据

CN110719477B说明书5/27页

(304)的副本(307)和副本(309)。客户端子系统(306)可包括，例如，电子设备(330)中的视

频解码器(310)。视频解码器(310)对已编码的视频数据的传入副本(307)进行解码,并创建

可在显示器(312)(例如显示屏)或其它呈现设备(未示出)上呈现的传出视频图像流(311)o

在一些流媒体系统中，可根据一些视频编码/压缩标准对已编码的视频数据(304)、(307)和

(309)(例如视频码流)进行编码。这些标准的例子包括ITU-T建议H.265。一个例子中，一种

正在开发的视频编码标准被俗称为多功能视频编码(VersatileVideoCoding,VVC)。本申

请的主题可以在VVC环境中使用。

[0047]应注意，电子设备(320)和(330)可包括其它组件(未示出)。例如，电子设备(320)

可包括视频解码器(未示出)，且电子设备(330)还可包括视频编码器(未示出)o

[0048]图4是本申请实施例的视频解码器(410)的框图。视频解码器(410)可设置在电子

设备(430)中。电子设备(430)可包括接收器(431)(例如接收电路)。视频解码器(410)可用

于代替图3实施例中的视频解码器(310)。

[0049]接收器(431)可接收要由视频解码器(410)解码的一个或多个编码视频序列;在同

一实施例或另一实施例中，一次接收一个编码视频序列，其中每个编码视频序列的解码独

立于其它编码视频序列。可从信道(401)接收编码视频序列，该信道(412)可以是通向存储

已编码视频数据的存储装置的硬件/软件链路。接收器(431)可以接收已编码视频数据和其

它数据，其它数据例如编码音频数据和/或辅助数据流，它们可以被转发到它们各自的使用

实体(未示出)。接收器(431)可以将编码视频序列与其它数据分离。为了防止网络抖动，缓

冲存储器(415)可耦接在接收器(431)与端解码器/解析器(420)(此后称为“解析器(420))

之间。”在某些应用中，缓冲存储器(415)是视频解码器(410)的一部分。在其它情况下，所述

缓冲存储器(415)可设置在视频解码器(410)外部(未示出)。而在其它情况下，可在视频解

码器(410)的外部设置缓冲存储器(未标示)(例如，用于防止网络抖动)，并在视频解码器

(410)的内部配置另一缓冲存储器(415)(例如，用于处理播出定时)。而当接收器(431)从具

有足够带宽和可控性的存储/转发设备，或从等时同步网络接收数据时，也可能不需要使用

缓冲存储器(415)，或可以使用小型缓冲存储器。为了在例如互联网等尽力而为式的分组网

络上使用，可能需要使用缓冲存储器(415)，缓冲存储器可相对较大并且最好是具有自适应

的大小，且可至少部分地由操作系统或视频解码器(410)外部的类似元件(未标示)实现。

[0050]视频解码器(410)可包括解析器(420)以根据编码视频序列重建符号(421)。这些

符号的类别包括用于管理解码器(410)操作的信息，还可能包括用于控制诸如显示器的呈

现设备(412)的信息，该呈现设备不是解码器的组成部分，但是可以耦合到解码器，如图4所

示。用于呈现设备的控制信息可以是补充增强信息(SEI消息)或视频可用性信息(VUI)参数

集片段(未示出)的形式。解析器(420)可对接收到的编码视频序列进行解析/端解码。编码

视频序列的编码可根据视频编码技术或标准进行，且可遵循各种原理，包括可变长度编码、

霍夫曼编码(Huffmancoding)、具有或不具有上下文灵敏度的算术编码等。解析器(420)可

基于对应于群组的至少一个参数,从编码视频序列提取用于视频解码器中的像素的子组中

的至少一个子组的子组参数集。子组可以包括图像组(G0P)、图像、图块(tile)、分片

(slice)、宏块(macroblock)、编码单元(CU)、块、转换单元(TU)、预测单元(PU)等。解析器

(420)还可以从编码视频序列中提取出如变换系数、量化器参数值、运动矢量等信息。

[0051]解析器(420)可对从缓冲存储器(415)接收的视频序列执行端解码/解析操作，从

CN110719477B说明书6/27页

而创建符号(421)。

[0052]符号(421)的重构可以包括多个不同的单元，这取决于编码视频图像或其部分的

类型(例如:帧间和帧内图像，帧间和帧内块)以及其它因素。涉及哪些单元以及涉及方式可

由解析器(420)从编码视频序列解析的子组控制信息控制。为了清楚起见，下面没有描述解

析器(420)和多个单元之间的这种子组控制信息流。

[0053]除己经提及的功能块以外，视频解码器(410)可在概念上细分成如下文所描述的

数个功能单元。在商业受限下操作的实际具体实施中，这些单元中的许多彼此紧密地交互,

并且可以至少部分地彼此集成。然而，为了描述本申请的主题，以下对功能单元从概念上的

划分是合适的。

[0054]第一单元是定标器/逆转换单元(451)。定标器/逆变换单元(451)从解析器(420)

接收符号(421)形式的量化变换系数以及控制信息，包括使用哪种变换方式、块大小、量化

因子、量化缩放矩阵等。缩放器/逆变换单元(451)可输出包括样本值的块，所述样本值可输

入到聚合器(455)中。

[0055]在一些情况下，定标器/逆转换单元(451)的输出采样可以属于帧内编码块；即：不

使用来自先前重建图像的预测信息，但是可以使用来自当前图像的先前重建部分的预测信

息的块。这种预测信息可以由帧内图像预测单元(452)提供。在一些情况下，帧内图片预测

单元(452)使用从当前图像缓冲器(458)提取的周围已重建信息生成与正在重建的块的大

小和形状相同的块。举例来说，当前图片缓冲器(458)缓冲部分重建的当前图像和/或完全

重建的当前图像。在一些情况下，聚合器(455)在每个采样的基础上将帧内预测单元(452)

已经生成的预测信息添加到由定标器/逆转换单元(451)提供的输出样本信息。

[0056]在其它情况下，定标器/逆转换单元(451)的输出采样可属于经帧间编码且可能经

运动补偿的块。在此情况下，运动补偿预测单元(453)可访问参考图片存储器(457)以提取

用于预测的采样。在根据符号(421)对提取的样本进行运动补偿之后,这些样本可由聚合器

(455)添加到定标器/逆变换单元(451)的输出(在这种情况下被称作残差采样或残差信

号)，从而生成输出采样信息。运动补偿预测单元(453)获取的预测采样在参考图像存储器

(457)内的地址可受运动矢量控制，运动补偿预测单元(453)可以得到具有符号(421)形式

的该运动矢量，所述符号(421)可以具有，例如,X、Y和参考图像分量。当使用子采样的精确

运动矢量时，矢量运动补偿还可包括对从参考图像存储器(457)获取的采样值进行插值、运

动矢量预测机制等。

[0057]聚合器(455)的输出采样可以在回路滤波器单元(456)中经各种回路滤波技术处

理。视频压缩技术可包括环路内滤波器技术，所述环路内滤波器技术由编码视频序列(也称

作已编码视频码流)中的参数控制，环路滤波器单元(456)可得到来自解析器(420)的符号

(421)形式的所述参数。然而，在其他实施例中，视频压缩技术还可响应于在解码已编码图

片或已编码视频序列的先前(按解码次序)部分期间获得的元信息，以及响应于先前重建且

经过环路滤波的采样值。

[0058]回路滤波器单元(456)的输出可以是可输出到呈现设备(412)也可存储在参考图

像存储器(457)中的采样流，以用于将来的图像间预测。

[0059]一旦被完全重建，一些编码图像可在后续预测中用作参考图像。例如，一旦当前图

像对应的已编码图像被完全重建，且已编码图像(通过例如解析器(420))被识别为参考图

CN110719477B说明书7/27页

片，则当前图像缓冲器(458)可成为参考图像存储器(457)的一部分,且可在开始重建后续

已编码图像之前重新分配新的当前图像缓冲器。

[0060]视频解码器(410)可根据例如ITU-TH.265标准中的预定视频压缩技术执行解码

操作。在已编码视频序列遵循视频压缩技术或标准的语法以及视频压缩技术或标准中记录

的配置文件的意义上，已编码视频序列可符合所使用的视频压缩技术或标准指定的语法。

具体地说，配置文件可从视频压缩技术或标准中可用的所有工具中选择某些工具作为在所

述配置文件下可供使用的仅有工具。并且，为遵循一些视频压缩技术或标准，编码视频序列

的复杂度可在视频压缩技术或标准的等级所限定的界限之内。在一些情况下，各等级对最

大图像尺寸、最大帧率、最大重建采样率(例如以每秒兆次采样来衡量)、最大参考图像尺寸

等进行了限制。在一些情况下，等级设置的限制可进一步通过假设参考解码器

(HypotheticalReferenceDecoder,HRD)规范和编码视频序列中指示的HRD缓存管理的元

数据来限定。

[0061]在一个实施例中，接收器(431)可连同已编码视频一起接收附加(冗余)数据。附加

数据可以是编码视频序列的一部分。附加数据可由视频解码器(410)用以对数据进行适当

解码和/或较准确地重建原始视频数据。附加数据可呈例如时间、空间或信噪比(signal

noiseratio,SNR)增强层、冗余切片、冗余图片、前向纠错码等形式。

[0062]图5是根据本申请公开的实施例的视频编码器(503)的框图。视频编码器(503)设

置于电子设备(520)中。电子设备(520)包括传输器(540)(例如传输电路)。视频编码器

(503)可用于代替图3实施例中的视频编码器(303)。

[0063]视频编码器(503)可从视频源(501)(并非图5实施例中的电子设备(520)的一部

分)接收视频样本，所述视频源可采集将由视频编码器(503)编码的视频图像。在另一实施

例中，视频源(501)是电子设备(520)的一部分。

[0064]视频源(501)可提供将由视频编码器(503)编码的呈数字视频采样流形式的源视

频序列，所述数字视频样本流可具有任何合适的位深度(例如：8位、10位、12位……)、任何

色彩空间(例如BT.601YCrCB.RGB……)和任何合适的采样结构(例如YCrCb4:2:0、

YCrCb4:4:4)。在媒体服务系统中，视频源(501)可以是存储先前已准备好的视频的存储设

备。在视频会议系统中，视频源(501)可以是采集本地图像信息作为视频序列的相机。可提

供多个单独的图像作为视频数据，当按顺序观看时，这些图像呈现出运动效果。图像自身可

构建为空间像素阵列，其中，根据所用的采样结构、色彩空间等，每个像素可包括一个或多

个采样。本领域技术人员可以很容易理解像素和采样之间的关系。下文侧重于描述采样。

[0065]根据实施例，视频编码器(503)可实时或在应用要求的任何其它时间限制下，对源

视频序列的图像进行编码及压缩以形成编码视频序列(543)。控制器(550)的一个功能是施

行适当的编码速度。在一些实施例中，控制器(550)控制如下文所描述的其它功能单元且在

功能上耦接到这些单元。为清楚起见，图中未标示耦接。由控制器(550)设置的参数可包括

速率控制相关参数(图像跳过、量化器、率失真优化技术的入值等)、图像尺寸、图像组(G0P)

布局、最大运动矢量搜索范围等。控制器(550)可具有其它合适的功能，这些功能属于为某

一系统设计优化的视频编码器(503)o

[0066]在一些实施例中，视频编码器(503)在编码环路中进行操作。作为简单的描述，在

实施例中，编码环路可包括源编码器(530)(例如，负责基于待编码的输入图像和参考图像

CN110719477B说明书8/27页

创建符号，例如符号流)和嵌入视频编码器(503)中的(本地)解码器(533)。解码器(533)重

建符号以创建(远程)解码器也会创建的采样数据(因为在本申请主题中所考虑的视频压缩

技术中，符号与编码视频码流之间的任何压缩是无损的)。将重建的采样流(采样数据)输入

到参考图片存储器(534)。由于符号流的解码产生与解码器位置(本地或远程)无关的位精

确结果，因此参考图片存储器(534)中的内容在本地编码器与远程编码器之间也是按比特

位精确对应的。换句话说,编码器的预测部分看到摄的参考图片采样与解码器在解码期间

使用预测时所看到摄的采样值完全相同。这种参考图片同步性基本原理(以及在例如因信

道误差而无法维持同步性的情况下产生的漂移)也用于一些相关技术。

[0067]“本地”解码器(533)的操作可以与上面已经结合图4详细描述的“远程”解码器

(410)的操作相同。然而，还是简要地参考图4,由于符号可用，并且由端编码器(545)和解析

器(420)对编码视频序列的符号的解码可以是无损的，所以解码器(310)的燧解码部分，包

括信道(412)、接收器(410)、缓冲器(415)和解析器(420)，可能不能完全在本地解码器

(533)中实现。

[0068]此时可以观察到，除存在于解码器中的解析/端解码之外的任何解码器技术，也必

定以基本上相同的功能形式存在于对应的编码器中。因此，本申请的主题侧重于解码器操

作。可简化编码器技术的描述，因为编码器技术与全面地描述的解码器技术互逆。仅在某些

区域中需要更详细的描述，并且在下文提供。仅在一些区域中需要更详细的描述，如下文所

述。

[0069]参考来自视频序列中被指定为参考图像的一个或多个先前已编码图像，所述运动

补偿预测编码对输入图像进行预测性编码。以此方式，编码引擎(532)对输入图像的像素块

与可被选为所述输入图像的预测参考的参考图像的像素块之间的差异进行编码。

[0070]本地视频解码器(533)可基于源编码器(530)创建的符号，对可指定为参考图像的

图像的已编码视频数据进行解码。较佳地，编码引擎(532)的操作可以是有损过程。当已编

码视频数据可在视频解码器(图5中未示)处被解码时，重建的视频序列通常可以是带有一

些误差的源视频序列的副本。本地视频解码器(533)复制解码过程，所述解码过程可由视频

解码器对参考图像执行，且可将重建的参考图像存储在参考图像缓存(534)中。以此方式,

视频编码器(503)可在本地存储重建的参考图片的副本，所述副本与将由远端视频解码器

获得的重建参考图片具有共同内容(不存在传输误差)o

[0071]预测器(535)可针对编码引擎(532)执行预测搜索。即，对于将要编码的新图像，预

测器(535)可在参考图像存储器(534)中搜索可作为所述新图像的合适的预测参考的采样

数据(作为候选参考像素块)或某些元数据，例如参考图片运动矢量、块形状等。预测器

(535)可对采样块逐像素块进行处理，以找到合适的预测参考。在一些情况下，根据预测器

(535)获得的搜索结果,输入图像可具有从存储于参考图像存储器(534)中存储的多个参考

图像取得的预测参考。

[0072]控制器(550)可管理源编码器(530)的编码操作，包括例如设置用于对视频数据进

行编码的参数和子组参数。

[0073]可在燧编码器(545)中对所有上述功能单元的输出进行熠编码。端编码器(545)根

据例如霍夫曼编码、可变长度编码、算术编码等技术对各种功能单元生成的符号进行无损

压缩,从而将所述符号转换成编码视频序列。

CN110719477B说明书9/27页

[0074]传输器（540）可缓冲由燧编码器（545）创建的编码视频序列，从而为通过通信信道

（560）进行传输做准备，所述通信信道可以是通向将存储已编码的视频数据的存储装置的

硬件/软件链路。传输器（540）可将来自视频编码器（503）的编码视频数据与将要传输的其

它数据合并，其它数据可以是，例如，编码音频数据和/或辅助数据流（未示出来源）。

[0075]控制器（550）可管理视频编码器（503）的操作。在编码期间，控制器（550）可以为每

个编码图像分配编码图像类型，该编码图像类型能够影响可应用于相应图像的编码技术。

例如，通常可以将图像指定为以下图像类型之一：

[0076]帧内图像Q图像）可以是不需要利用序列中其它任何图像作为预测源进行编码和

解码的图像。一些视频编解码器容许不同类型的帧内图像，包括例如独立解码器刷新

（IndependentDecoderRefresh,IDR）图像。本领域技术人员知晓I图像的变型及其相应应

用和特征。

[0077]预测图像（P图像）可以是可以使用帧内预测或帧间预测来编码和解码的图像，帧

内预测或帧间预测使用至多一个运动向量和参考索引来预测每个块的采样值。

[0078]双向预测图像（B图像）可以是可以使用帧内预测或帧间预测来编码和解码的图

像，帧内预测或帧间预测使用至多两个运动向量和参考索引来预测每个块的采样值。类似

地，多个预测性图像可使用多于两个参考图像和相关元数据以重建单个块。

[0079]源图像通常可在空间上细分为多个采样块（例如,4X4、8X8、4X8或16X16个采

样的块）并逐块进行编码。这些块可参考其它（已编码）块进行预测编码，其它块可以根据应

用于块的相应图像的编码任务来确定。。例如，1图像的块可进行非预测编码，或可参考同一

图像的已编码的块来进行预测编码（空间预测或帧内预测）。P图片的像素块可参考一个先

前编码的参考图片通过空间预测或通过时域预测进行预测编码。B图片的块可参考一个或

两个先前编码的参考图片通过空间预测或通过时域预测进行预测编码。

[0080]视频编码器（503）可根据例如ITU-TH.265建议书的预定视频编码技术或标准执

行编码操作。在操作中，视频编码器（503）可执行各种压缩操作，包括利用输入视频序列中

的时间和空间冗余的预测编码操作。因此，编码视频数据可符合所使用的视频编码技术或

标准指定的语法。

[0081]在实施例中，传输器（540）可传输附加数据和已编码的视频。源编码器（530）可将

此类数据作为编码视频序列的一部分。附加数据可包括时间/空间/SNR增强层、冗余图像和

切片等其它形式的冗余数据、补充增强信息（EnhancementInformation,SEI）消息、可视可

用性信息（VisualUsabi1ityInformation,VUI）参数集片段等。

[0082]采集到的视频可作为呈时间序列的多个源图像（视频图像）。帧内图像预测（常简

称为帧内预测）利用给定图片中的空间相关性,而帧间图像预测则利用图像之间的（时间或

其它）相关性。在实施例中，将正在编码/解码的特定图像（称作当前图像）分割成块。在当前

图像中的块类似于视频中先前已编码且仍被缓冲的参考图像中的参考块时,可利用被称为

运动矢量的矢量对当前图像中的块进行编码。所述运动矢量指向参考图像中的参考块、且

使用多个参考图像的情况下，所述运动矢量可具有用于识别参考图像的第三维度。

[0083]在一些实施例中，双向预测技术可用于帧间图像预测。根据双向预测技术，使用两

个参考图像,例如第一参考图像和第二参考图像，按解码次序它们都在视频中的当前图像

之前（但按显示次序可能分别是过去和将来）。可通过指向第一参考图像中的第一参考块的

CN110719477B说明书10/27页

第一运动矢量和指向第二参考图像中的第二参考块的第二运动矢量对当前图像中的块进

行编码。可通过第一参考块和第二参考块的组合来预测所述块。

[0084]此外,合并模式技术可用于帧间图像预测中以改善编码效率。

[0085]根据本申请的一些实施例，帧间图像预测和帧内图像预测等预测的执行以块为单

位。举例来说，根据HEVC标准，将视频图像序列中的图像分割成编码树单元(codingtree

unit,CTU)以用于压缩，图片中的CTU具有相同大小,例如64X64像素、32X32像素或16X16

像素。一般来说,CTU包括三个编码树块(codingtreeblock,CTB),所述三个编码树块是一

个亮度CTB和两个色度CTB。更进一步的，还可将每个CTU以四叉树拆分为一个或多个编码单

元(codingunit.CU)。例如，可将64X64像素的CTU拆分为一个64X64像素的CU,或4个32X

32像素的CU,或16个16X16像素的CU。在实施例中，分析每个CU以确定用于CU的预测类型，

例如帧间预测类型或帧内预测类型。此外，取决于时间和/或空间可预测性，将CU拆分为一

个或多个预测单元(predictionunit,PU)。通常，每个PU包括亮度预测块(prediction

block.PB)和两个色度PB。在实施例中，编码(编码/解码)中的预测操作以预测块为单位来

执行。以亮度预测块作为预测块为例，预测块包括像素值(例如，亮度值)的矩阵，例如8X8

像素、16X16像素、8X16像素、16X8像素等等。

[0086]图6是根据本申请另一实施例的视频编码器(603)的示意图。视频编码器(603)用

于接收视频图像序列中的当前视频图像内的采样值的处理块(例如预测块)，且将所述处理

块编码到的已编码图像中，已编码图像是编码视频序列的一部分。在本实施例中，视频编码

器(603)用于代替图3实施例中的视频编码器(303)。

[0087]在HEVC实施例中，视频编码器(603)接收处理块的采样值的矩阵，所述处理块为，

例如,8X8采样的预测块等。视频编码器(603)使用，例如,率失真(rate-distortion,RD)优

化来确定处理块的编码采用帧内模式、帧间模式还是双向预测模式更好。当采用帧内模式

对处理块编码时，视频编码器(603)可使用帧内预测技术将处理块编码到已编码图像中；且

当采用帧间模式或双向预测模式对处理块进行编码时，视频编码器(603)可分别使用帧间

预测或双向预测技术将处理块编码到已编码图像中。在某些视频编码技术中，合并模式可

以是帧间图像预测子模式，其中，在不借助预测因子外部的已编码运动矢量分量的情况下，

从一个或多个运动矢量预测因子导出运动矢量。在一些其它视频编码技术中，可存在适用

于主题块的运动矢量分量。在实施例中，视频编码器(603)包括其它组件，例如用于确定处

理块的模式的模式决策模块(未示出)o

[0088]在图6的实施例中，视频编码器(603)包括如图6所示的耦接到一起的帧间编码器

(630)、帧内编码器(622)、残差计算器(623)、开关(626)、残差编码器(624)、通用控制器

(621)和端编码器(625)o

[0089]帧间编码器(630)用于接收当前块(例如处理块)的采样、比较所述块与参考图像

中的一个或多个参考块(例如先前图像和后续图像中的块)、生成帧间预测信息(例如帧间

编码技术的冗余信息的描述、运动矢量、合并模式信息)、以及基于帧间预测信息使用任何

合适的技术计算帧间预测结果(例如已预测块)。在一些实施例中，参考图片是基于已编码

的视频信息解码的已解码参考图片。

[0090]帧内编码器(622)用于接收当前块(例如处理块)的采样，在一些情况下将所述块

与同一图像中已编码的块进行比较，在变换之后生成量化系数，以及在一些情况下还生成

CN110719477B说明书11/27页

帧内预测信息(例如，根据一个或多个帧内编码技术生成帧内预测方向信息)。在实施例中，

帧内编码器(622)还基于帧内预测信息和同一图像中的参考块计算帧内预测结果(例如已

预测块)。

[0091]通用控制器(621)用于确定通用控制数据，并基于所述通用控制数据控制视频编

码器(603)的其它组件。在实施例中，通用控制器(621)确定块的模式，并基于所述模式将控

制信号提供给开关(626)。例如，当所述模式是帧内模式时，通用控制器(621)控制开关

(626)以选择供残差计算器(623)使用的帧内模式结果，控制燧编码器(625)选择帧内预测

信息并将所述帧内预测信息添加在码流中；以及，当所述模式是帧间模式时，通用控制器

(621)控制开关(626)以选择供残差计算器(623)使用的帧间预测结果，控制燧编码器(625)

选择帧间预测信息并将所述帧间预测信息添加在码流中。

[0092]残差计算器(623)用于计算所接收的块与选自帧内编码器(622)或帧间编码器

(630)的预测结果之间的差(残差数据)。残差编码器(624)用于基于残差数据操作，以对残

差数据进行编码以生成变换系数。在实施例中，残差编码器(624)用于将残差数据从时域转

换到频域，且生成变换系数。变换系数接着经量化处理获得量化的变换系数。在各实施例

中，视频编码器(603)还包括残差解码器(628)。残差解码器(628)用于执行逆变换,并生成

已解码残差数据。已解码残差数据适合由帧内编码器(622)和帧间编码器(630)使用。例如,

帧间编码器(630)可基于已解码残差数据和帧间预测信息生成已解码块，且帧内编码器

(622)可基于已解码残差数据和帧内预测信息生成已解码块。适当处理已解码块以生成已

解码图像，在一些实施例中，所述已解码图像可在存储器电路(未示出)中缓存并用作参考

图像。

[0093]熠编码器(625)用于将码流格式化以产生已编码的块。嫡编码器(625)根据HEVC标

准等合适的标准产生各种信息。在实施例中，端编码器(625)用于将通用控制数据、所选预

测信息(例如帧内预测信息或帧间预测信息)、残差信息和其它合适的信息加入码流中。应

注意，根据本申请的主题，当在帧间模式或双向预测模式的合并子模式中对块进行编码时,

不存在残差信息。

[0094]图7是本申请另一实施例的视频解码器(710)的示意图。视

人人文库> 全部分类> 教育资料 > 辅导培训

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

视频编解码的方法、装置、计算机设备及计算机可读存储介质

文档简介

温馨提示

最新文档

评论

视频编解码的方法、装置、计算机设备及计算机可读存储介质

文档简介

温馨提示

最新文档

评论

相关文档