视频方法、装置、计算机可读存储介质和计算机设备_第1页
视频方法、装置、计算机可读存储介质和计算机设备_第2页
视频方法、装置、计算机可读存储介质和计算机设备_第3页
视频方法、装置、计算机可读存储介质和计算机设备_第4页
视频方法、装置、计算机可读存储介质和计算机设备_第5页
已阅读5页,还剩30页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

(19)国家知识产权局

(12)发明专利申请

(10)申请公布号CN114449342A

(43)申请公布日2022.05.06

(21)申请号202210072921.3

(22)申请日2022.01.21

(71)申请人腾讯科技(深圳)有限公司

地址518057广东省深圳市南山区高新区

科技中一路腾讯大厦35层

(72)发明人王妮廖东亮黎功福徐进

(74)专利代理机构深圳翼盛智成知识产权事务

所(普通合伙)44300

专利代理师李玉婷

(51)Int.CI.

H04N27/44(2011.01)

H04N21/466(2011.01)

权利要求书3页说明书25页附图6页

(54)发明名称

视频推荐方法、装置、计算机可读存储介质

和计算机设备

(57)摘要

本申请实施例公开了一种视频推荐方法、装

置、计算机可读存储介质和计算机设备:通过获

取检索内容以及至少一个待推荐视频;在待推荐

视频中提取待推荐视频中每一图像帧对应的视

觉特征;将视觉特征进行多尺度切分,得到每一

尺度对应的多个帧特征集合;对帧特征集合中的

帧特征进行差分处理,得到帧特征集合对应的差

分特征;基于帧特征集合和对应的差分特征,确

定待推荐视频对应的局部视频特征;根据局部视

频特征、视觉特征以及检索内容,对待推荐视频

进行排序,并对排序后待推荐视频进行推荐。以

v此,通过获取表征待推荐视频的时序信息以及局

部信息的局部视频特征来对待推荐视频进行推

国荐,提高了视频推荐的准确性,进而提升了视频

三推荐效率。

r-H

g

CN114449342A权利要求书1/3页

1.一种视频推荐方法,其特征在于,包括:

获取检索内容以及所述检索内容对应的至少一个待推荐视频;

在所述待推荐视频中提取所述待推荐视频中每一图像帧对应的视觉特征;

将所述视觉特征进行多尺度切分,得到每一尺度对应的多个帧特征集合;

对所述帧特征集合中的帧特征进行差分处理,得到所述帧特征集合对应的差分特征;

基于所述帧特征集合和所述帧特征集合对应的差分特征,确定所述待推荐视频对应的

局部视频特征;

根据所述局部视频特征、所述视觉特征以及所述检索内容,对所述待推荐视频进行排

序,得到排序后待推荐视频,并对排序后待推荐视频进行推荐。

2.如权利要求1所述的视频推荐方法,其特征在于,所述根据所述局部视频特征、所述

视觉特征以及所述检索内容,对所述待推荐视频进行排序,得到排序后待推荐视频,包括:

对所述视觉特征进行特征提取,得到所述待推荐视频对应的全局视频特征;

将所述全局视频特征和所述局部视频特征进行融合,得到视频特征;

根据所述视频特征以及所述检索内容,对所述待推荐视频进行排序,得到排序后待推

荐视频。

3.如权利要求2所述的视频推荐方法,其特征在于,所述根据所述视频特征以及所述检

索内容,对所述待推荐视频进行排序,得到排序后待推荐视频,包括:

对所述检索内容进行特征提取,得到所述检索内容对应的内容特征;

计算所述视频特征和所述内容特征之间的相似度,得到特征相似度;

基于所述特征相似度对每一待推荐视频进行排序,得到排序后待推荐视频。

4.如权利要求3所述的视频推荐方法,其特征在于,所述计算所述视频特征和所述内容

特征之间的相似度,得到特征相似度,包括:

分别对所述视频特征和所述内容特征进行同一维度的特征映射,得到所述视频特征对

应的映射后视频特征,以及所述内容特征对应的映射后内容特征;

计算所述映射后视频特征和所述映射后内容特征之间的相似度,得到所述视频特征和

所述内容特征之间的特征相似度。

5.如权利要求2所述的视频推荐方法,其特征在于,所述对所述视觉特征进行特征提

取,得到所述待推荐视频对应的全局视频特征,包括:

对所述待推荐视频对应的视觉特征进行特征映射,得到所述视觉特征对应的全局映射

特征;

将所述全局映射特征和对应的视觉特征进行特征融合,得到融合后视觉特征;

对融合后视觉特征进行均值处理,得到所述待推荐视频对应的全局视频特征。

6.如权利要求1所述的视频推荐方法,其特征在于,所述基于所述帧特征集合和所述帧

特征集合对应的差分特征,确定所述待推荐视频对应的局部视频特征,包括:

在所述帧特征集合中确定目标帧特征;

对所述目标帧特征以及所述帧特征集合对应的差分特征进行拼接,得到所述待推荐视

频对应的局部视频特征。

7.如权利要求6所述的视频推荐方法,其特征在于,所述在所述帧特征集合中确定目标

帧特征,包括:

2

CN114449342A权利要求书2/3页

对所述帧特征集合中每一帧特征进行特征提取,得到每一帧特征对应的帧关联特征;

基于所述帧关联特征,确定每一帧特征对应的帧关联权重;

根据所述帧关联权重,在所述帧特征集合中筛选出目标帧特征。

8.如权利要求1所述的视频推荐方法,其特征在于,所述对所述帧特征集合中的帧特征

进行差分处理,得到所述帧特征集合对应的差分特征,包括:

在所述帧特征集合中确定每一帧特征对应的匹配帧特征,并将所述帧特征集合中每一

帧特征和对应的匹配帧特征作为一个匹配特征对;

计算所述帧特征集合中每一匹配特征对之间的特征差值,得到每一匹配特征对对应的

差分特征;

将所述帧特征集合中每一匹配特征对对应的差分特征作为所述帧特征集合对应的差

分特征。

9.如权利要求1所述的视频推荐方法,其特征在于,所述将所述视觉特征进行多尺度切

分,得到每一尺度对应的多个帧特征集合,包括:

获取所述视觉特征对应的至少一个尺度切分参数;

根据所述尺度切分参数,分别对所述待推荐视频对应的视觉特征进行标记,得到所述

视觉特征对应的标记信息;

基于所述标记信息对所述视觉特征进行切分,并基于切分后视觉特征得到每一尺度对

应的多个帧特征集合。

10.如权利要求9所述的视频推荐方法,其特征在于,所述获取所述视觉特征对应的至

少一个尺度切分参数,包括:

对所述视觉特征进行特征提取,得到每一视觉特征对应的视觉关联特征;

基于所述视觉关联特征,确定每一视觉特征对应的视觉关联权重;

获取多个预设切分参数,并根据所述视觉关联权重和预设切分参数,确定所述视觉特

征对应的至少一个尺度切分参数。

11.如权利要求10所述的视频推荐方法,其特征在于,所述根据所述视觉关联权重和预

设切分参数,确定所述视觉特征对应的至少一个尺度切分参数,包括:

根据所述视觉关联权重计算所述视觉特征的关联权重分布;

基于所述关联权重分布确定所述视觉特征之间的关联特征分布,并根据所述关联特征

分布对所述视觉特征进行标记;

基于标记后视觉特征以及所述预设切分参数,确定所述视觉特征对应的至少一个尺度

切分参数。

12.如权利要求1所述的视频推荐方法,其特征在于,所述在所述待推荐视频中提取所

述待推荐视频中每一图像帧对应的视觉特征,包括:

将所述待推荐视频中每一图像帧进行分割处理,得到每一图像帧对应的多个区域子图

像;

对所述区域子图像进行特征提取,得到每一图像帧对应的区域子图像特征;

对所述每一图像帧对应的区域子图像特征进行特征提取,得到所述待推荐视频中每一

图像帧对应的视觉特征。

13.一种视频推荐装置,其特征在于,包括:

3

CN114449342A权利要求书3/3页

获取单元,用于获取检索内容以及所述检索内容对应的至少一个待推荐视频;

提取单元,用于在所述待推荐视频中提取所述待推荐视频中每一图像帧对应的视觉特

征;

切分单元,用于将所述视觉特征进行多尺度切分,得到每一尺度对应的多个帧特征集

合;

差分单元,用于对所述帧特征集合中的帧特征进行差分处理,得到所述帧特征集合对

应的差分特征;

确定单元,用于基于所述帧特征集合和所述帧特征集合对应的差分特征,确定所述待

推荐视频对应的局部视频特征;

推荐单元,用于根据所述局部视频特征、所述视觉特征以及所述检索内容,对所述待推

荐视频进行排序,得到排序后待推荐视频,并对排序后待推荐视频进行推荐。

14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有多条指

令,所述指令适于处理器进行加载,以执行权利要求1至12任一项所述的视频推荐方法中的

步骤。

15.一种计算机设备,其特征在于,包括存储器、处理器以及存储在所述存储器中并可

以在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现权利要求1

至12中任一项所述的视频推荐方法。

16.一种计算机程序,其特征在于,所述计算机程序包括计算机指令,所述计算机指令

存储在存储介质中,计算机设备的处理器从所述存储介质读取所述计算机指令,所述处理

器执行所述计算机指令,使得所述计算机设备执行权利要求1至12任一项所述的视频推荐

方法。

4

CN114449342A说明书1/25页

视频推荐方法'装置'计算机可读存储介质和计算机设备

技术领域

[0001]本申请涉及互联网技术领域,具体涉及一种视频推荐方法、装置、计算机可读存储

介质和计算机设备。

背景技术

[0002]随着互联网技术的快速发展,多媒体的应用越来越广泛,视频数量也急剧增长。为

了可以在海量视频中筛选出需要的视频,用户可以通过视频推荐系统来获取需要的视频,

其中,视频推荐系统一般是从海量视频中召回与用户输入的查询信息相匹配的视频,并基

于召回的视频进行排序得到对应的视频列表。

[0003]在对现有技术的研究和实践过程中,本发明的发明人发现,现有的视频推荐方法

通常是根据用户输入的检索信息和视频主题的相似度来进行推荐,当召回的待推荐视频中

存在主题与视频内容不相关的视频时,这种方法极易导致推荐的视频内容与检索信息不符

合的情况,使得视频推荐的准确性较差,进而导致视频推荐的效率较低。

发明内容

[0004]本申请实施例提供一种视频推荐方法、装置、计算机可读存储介质和计算机设备,

可以提高视频推荐的准确性,进而提升视频推荐效率。

[0005]本申请实施例提供一种视频推荐方法,包括:

[0006]获取检索内容以及所述检索内容对应的至少一个待推荐视频;

[0007]在所述待推荐视频中提取所述待推荐视频中每一图像帧对应的视觉特征;

[0008]将所述视觉特征进行多尺度切分,得到每一尺度对应的多个帧特征集合;

[0009]对所述帧特征集合中的帧特征进行差分处理,得到所述帧特征集合对应的差分特

征;

[0010]基于所述帧特征集合和所述帧特征集合对应的差分特征,确定所述待推荐视频对

应的局部视频特征;

[0011]根据所述局部视频特征、所述视觉特征以及所述检索内容,对所述待推荐视频进

行排序,得到排序后待推荐视频,并对排序后待推荐视频进行推荐。

[0012]相应的,本申请实施例提供一种视频推荐装置,包括:

[0013]获取单元,用于获取检索内容以及至少一个待推荐视频;

[0014]提取单元,用于在所述待推荐视频中提取所述待推荐视频中每一图像帧对应的视

觉特征;

[0015]切分单元,用于将所述视觉特征进行多尺度切分,得到每一尺度对应的多个帧特

征集合;

[0016]差分单元,用于对所述帧特征集合中的帧特征进行差分处理,得到所述帧特征集

合对应的差分特征;

[0017]确定单元,用于基于所述帧特征集合和对应的差分特征,确定所述待推荐视频对

5

CN114449342A说明书2/25页

应的局部视频特征;

[0018]推荐单元,用于根据所述局部视频特征、所述视觉特征以及所述检索内容,对所述

待推荐视频进行排序,得到排序后待推荐视频,并对排序后待推荐视频进行推荐。

[0019]在一实施例中,所述推荐单元,包括:

[0020]全局视频特征提取子单元,用于对所述视觉特征进行特征提取,得到所述待推荐

视频对应的全局视频特征;

[0021]融合子单元,用于将所述全局视频特征和所述局部视频特征进行融合,得到视频

特征;

[0022]排序子单元,用于根据所述视频特征以及所述检索内容,对所述待推荐视频进行

排序,得到排序后待推荐视频。

[0023]在一实施例中,所述排序子单元,包括:

[0024]内容特征提取模块,用于对所述检索内容进行特征提取,得到所述检索内容对应

的内容特征;

[0025]相似度计算模块,用于计算所述视频特征和所述内容特征之间的相似度,得到特

征相似度;

[0026]排序模块,用于基于所述特征相似度对每一待推荐视频进行排序,得到排序后待

推荐视频。

[0027]在一实施例中,所述相似度计算模块,包括:

[0028]特征映射子模块,用于分别对所述视频特征和所述内容特征进行同一维度的特征

映射,得到所述视频特征对应的映射后视频特征,以及所述内容特征对应的映射后内容特

征;

[0029]相似度计算子模块,用于计算所述映射后视频特征和所述映射后内容特征之间的

相似度,得到所述视频特征和所述内容特征之间的特征相似度。

[0030]在一实施例中,所述全局视频特征提取子单元,包括:

[0031]全局映射模块,用于对所述待推荐视频对应的视觉特征进行特征映射,得到所述

视觉特征对应的全局映射特征;

[0032]特征融合模块,用于将所述全局映射特征和对应的视觉特征进行特征融合,得到

融合后视觉特征;

[0033]均值处理模块,用于对融合后视觉特征进行均值处理,得到所述待推荐视频对应

的全局视频特征。

[0034]在一实施例中,所述确定单元,包括:

[0035]目标帧特征确定子单元,用于在所述帧特征集合中确定目标帧特征;

[0036]拼接子单元,用于对所述目标帧特征以及所述帧特征集合对应的差分特征进行拼

接,得到所述待推荐视频对应的局部视频特征。

[0037]在一实施例中,所述目标帧特征确定子单元,包括:

[0038]帧关联特征提取模块,用于对所述帧特征集合中每一帧特征进行特征提取,得到

每一帧特征对应的帧关联特征;

[0039]帧关联权重确定模块,用于基于所述帧关联特征,确定每一帧特征对应的帧关联

权重;

6

CN114449342A说明书3/25页

[0040]筛选模块,用于根据所述帧关联权重,在所述帧特征集合中筛选出目标帧特征。

[0041]在一实施例中,所述差分单元,包括:

[0042]匹配帧特征确定子单元,用于在所述帧特征集合中确定每一帧特征对应的匹配帧

特征,并将所述帧特征集合中每一帧特征和对应的匹配帧特征作为一个匹配特征对;

[0043]特征差值计算子单元,用于计算所述帧特征集合中每一匹配特征对之间的特征差

值,得到每一匹配特征对对应的差分特征;

[0044]赋值子单元,用于将所述帧特征集合中每一匹配特征对对应的差分特征作为所述

帧特征集合对应的差分特征。

[0045]在一实施例中,所述切分单元,包括:

[0046]尺度切分参数获取子单元,用于获取所述视觉特征对应的至少一个尺度切分参

数;

[0047]标记子单元,用于根据所述尺度切分参数,分别对所述待推荐视频对应的视觉特

征进行标记,得到所述视觉特征对应的标记信息;

[0048]切分子单元,用于基于所述标记信息对所述视觉特征进行切分,并基于切分后视

觉特征得到每一尺度对应的多个帧特征集合。

[0049]在一实施例中,所述尺度切分参数获取子单元,包括:

[0050]视觉关联特征提取模块,用于对所述视觉特征进行特征提取,得到每一视觉特征

对应的视觉关联特征;

[0051]视觉关联权重确定模块,用于基于所述视觉关联特征,确定每一视觉特征对应的

视觉关联权重;

[0052]尺度切分参数确定模块,用于获取多个预设切分参数,并根据所述视觉关联权重

和预设切分参数,确定所述视觉特征对应的至少一个尺度切分参数。

[0053]在一实施例中,所述尺度切分参数确定模块,包括:

[0054]关联权重分布计算子模块,用于根据所述视觉关联权重计算所述视觉特征的关联

权重分布;

[0055]关联特征分布确定子模块,用于基于所述关联权重分布确定所述视觉特征之间的

关联特征分布,并根据所述关联特征分布对所述视觉特征进行标记;

[0056]参数确定子模块,用于基于标记后视觉特征以及所述预设切分参数,确定所述视

觉特征对应的至少一个尺度切分参数。

[0057]在一实施例中,所述提取单元,包括:

[0058]分割子单元,用于将所述待推荐视频中每一图像帧进行分割处理,得到每一图像

帧对应的多个区域子图像;

[0059]区域子图像特征提取子单元,用于对所述区域子图像进行特征提取,得到每一图

像帧对应的区域子图像特征;

[0060]视觉特征提取子单元,用于对所述每一图像帧对应的区域子图像特征进行特征提

取,得到所述待推荐视频中每一图像帧对应的视觉特征。

[0061]此外,本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质

存储有多条指令,所述指令适于处理器进行加载,以执行本申请实施例所提供的任一种视

频推荐方法中的步骤。

7

CN114449342A说明书4/25页

[0062]此外,本申请实施例还提供一种计算机设备,包括处理器和存储器,所述存储器存

储有应用程序,所述处理器用于运行所述存储器内的应用程序实现本申请实施例提供的视

频推荐方法。

[0063]本申请实施例还提供一种计算机程序产品或计算机程序,所述计算机程序产品或

计算机程序包括计算机指令,所述计算机指令存储在计算机可读存储介质中。计算机设备

的处理器从计算机可读存储介质读取所述计算机指令,处理器执行所述计算机指令,使得

所述计算机设备执行本申请实施例提供的视频推荐方法中的步骤。

[0064]本申请实施例通过获取检索内容以及检索内容对应的至少一个待推荐视频;在待

推荐视频中提取待推荐视频中每一图像帧对应的视觉特征;将视觉特征进行多尺度切分,

得到每一尺度对应的多个帧特征集合;对帧特征集合中的帧特征进行差分处理,得到帧特

征集合对应的差分特征;基于帧特征集合和帧特征集合对应的差分特征,确定待推荐视频

对应的局部视频特征;根据局部视频特征、视觉特征以及检索内容,对待推荐视频进行排

序,得到排序后待推荐视频,并对排序后待推荐视频进行推荐。以此,通过将待推荐视频对

应的视觉特征进行多尺度切分,来捕抓待推荐视频中的局部信息,进而对每一尺度对应的

帧特征集合中的帧特征进行差分处理,来考虑待推荐视频中的时序信息,进而根据多尺度

切分得到的帧特征集合和差分处理得到的差分特征,来确定待推荐视频对应的局部视频特

征,以基于局部视频特征来表征待推荐视频中的时序信息以及局部信息,从而基于局部视

频特征、视觉特征以及检索内容,来对待推荐视频进行排序并推荐,提升了检索内容与待推

荐视频的视觉相关性,提高了视频推荐的准确性,进而提升了视频推荐效率。

附图说明

[0065]为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使

用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于

本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附

图。

[0066]图1是本申请实施例提供的一种视频推荐方法实施场景示意图;

[0067]图2是本申请实施例提供的一种视频推荐方法的流程示意图;

[0068]图3a是本申请实施例提供的一种视频推荐方法的现有视频推荐示意图;

[0069]图3b是本申请实施例提供的一种视频推荐方法的图像帧分割示意图;

[0070]图4是本申请实施例提供的一种视频推荐方法的多尺度时序差分转换器结构示意

图;

[0071]图5是本申请实施例提供的一种视频推荐方法的视频推荐模型结构示意图;

[0072]图6是本申请实施例提供的一种视频推荐方法的另一流程示意图;

[0073]图7是本申请实施例提供的视频推荐装置的结构示意图;

[0074]图8是本申请实施例提供的计算机设备的结构示意图。

具体实施方式

[0075]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完

整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于

8

CN114449342A说明书5/25页

本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施

例,都属于本申请保护的范围。

[0076]本申请实施例提供一种视频推荐方法、装置、计算机可读存储介质和计算机设备。

其中,该视频推荐装置可以集成在计算机设备中,该计算机设备可以是服务器,也可以是终

端等设备。

[0077]请参阅图1,以视频推荐装置集成在计算机设备中为例,图1为本申请实施例所提

供的视频推荐方法的实施场景示意图,包括服务器A以及终端B,其中,服务器A可以是独立

的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提

供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安

全服务、网络加速服务(ContentDeliveryNetwork,CDN)、以及大数据和人工智能平台等

基础云计算服务的云服务器。服务器A可以获取检索内容以及该检索内容对应的至少一个

待推荐视频;在待推荐视频中提取待推荐视频中每一图像帧对应的视觉特征;将视觉特征

进行多尺度切分,得到每一尺度对应的多个帧特征集合;对帧特征集合中的帧特征进行差

分处理,得到帧特征集合对应的差分特征;基于帧特征集合和帧特征集合对应的差分特征,

确定待推荐视频对应的局部视频特征;根据局部视频特征、视觉特征以及检索内容,对待推

荐视频进行排序,得到排序后待推荐视频,并对排序后待推荐视频进行推荐。

[0078]终端B可以是手机、电脑、智能语音交互设备、智能家电、车载终端等各种计算机设

备,但并不局限于此。

[0079]终端B以及服务器A可以通过有线或无线通信方式进行直接或间接地连接,服务器

A可以获取终端B上传的数据以执行相应的视频推荐操作,本申请在此不做限制。

[0080]需要说明的是,图1所示的视频推荐方法的实施环境场景示意图仅仅是一个示例,

本申请实施例描述的视频推荐方法的实施环境场景是为了更加清楚的说明本申请实施例

的技术方案,并不构成对于本申请实施例提供的技术方案的限定。本领域普通技术人员可

知,随着视频推荐的演变和新业务场景的出现,本申请提供的技术方案对于类似的技术问

题,同样适用。

[0081]以下分别进行详细说明。需要说明的是,以下实施例的描述顺序不作为对实施例

优选顺序的限定。

[0082]本实施例将从视频推荐装置的角度进行描述,该视频推荐装置具体可以集成在计

算机设备中,该计算机设备可以是服务器,本申请在此不作限制。

[0083]请参阅图2,图2是本申请实施例提供的视频推荐方法的流程示意图。该视频推荐

方法包括:

[0084]101、获取检索内容以及检索内容对应的至少一个待推荐视频。

[0085]其中,该检索内容可以为具有特定含义的内容,可以基于该检索内容,查找与该检

索内容相关的信息并进行反馈。该检索内容可以为文本内容,也可以为音频、图像等其他形

式的内容。可选的,获取检索内容的方式可以有多种该检索内容可以由用户直接输入来获

取,也可以通过用户间接输入来获取等,在此不做限定。

[0086]该待推荐视频可以为检索内容对应的待进行推荐的至少一个视频,其中,获取待

推荐视频的方式可以有多种,例如,可以在获取到检索内容之后,基于获取到检索内容进行

召回,以此来得到至少一个待推荐视频。

9

CN114449342A说明书6/25页

[0087]在现有的视频推荐方法中,通常是根据用户输入的检索内容和视频主题的相似度

来进行视频的推荐,当召回的待推荐视频中存在主题与视频内容不相关的视频时,这种方

法极易导致推荐的视频内容与检索内容不符合的情况,例如,请参考图3a,图3a是本申请实

施例提供的一种视频推荐方法的现有视频推荐示意图,当输入检索内容“红烧肉”时,现有

的视频推荐方法推荐了主题与检索内容“红烧肉”不符合的视频,例如图中的“红烧肉X歌”,

这种视觉相关性较差的视频推荐方法,使得视频推荐的准确性较差,进而导致视频推荐的

效率较低。为此,本申请实施例提供了一种视频推荐方法,通过捕抓待推荐视频中的时序信

息以及局部信息,来对待推荐视频进行排序并推荐,以此,可以提升检索内容与待推荐视频

的视觉相关性,保证召回视频在视频语义层面的准确性,进而可以提高视频推荐的准确性,

从而提升视频推荐效率。下面进行具体的说明。

[0088]102、在待推荐视频中提取待推荐视频中每一图像帧对应的视觉特征。

[0089]其中,该图像帧可以为在待推荐视频中抽取出来的至少一帧图像,该视觉特征可

以为表征该图像帧的视觉信息的特征,每一视觉特征可以对应一个图像帧。

[0090]其中,在待推荐视频中抽取出图像帧的方式可以有多种,例如,可以对待推荐视频

中每一帧的图像都进行抽取,来得到待推荐视频中的每一图像帧,也可以根据预设的抽帧

频率来对待推荐视频中的图像进行抽取,以此来避免图像帧的数量太多占用大量存储空间

或者降低计算速率的情况。

[0091]其中,根据预设的抽帧频率来对待推荐视频中的图像进行抽取的方式可以有多

种,比如,可以根据待推荐视频的长度来确定抽帧频率,从而可以采用预设的抽帧频率来对

待推荐视频中的图像进行抽取,得到待推荐视频对应的图像帧,例如,当待推荐视频的长度

较长时,可以采用每2秒抽取一帧视频帧的抽取频率,当待推荐视频的长度较短时,可以采

用每秒抽取两帧视频帧的抽取频率进行图像帧的抽取等。

[0092]其中,在待推荐视频中提取待推荐视频中每一图像帧对应的视觉特征的方式可以

有多种,例如,可以将该待推荐视频中每一图像帧进行分割处理,得到每一图像帧对应的多

个区域子图像,对该区域子图像进行特征提取,得到每一图像帧对应的区域子图像特征,对

该每一图像帧对应的区域子图像特征进行特征提取,得到该待推荐视频中每一图像帧对应

的视觉特征。

[0093]其中,该区域子图像可以为对每一图像帧进行分割处理后得到的每一区域的子图

像,该区域子图像特征可以为表征区域子图像的特征信息。

[0094]其中,将该待推荐视频中每一图像帧进行分割处理的方式可以有多种,比如,可以

根据实际需求,确定图像帧的分割参数,进而可以根据分割参数来对图像帧进行分割,来得

到每一图像帧对应的多个区域子图像。

[0095]其中,该分割参数可以为如何将图像帧进行分割的参数,具体取值可以根据实际

需求进行选取,比如,当准确度要求较高或者计算能力较强时,可以将分割参数设定为更大

的值,来将图像帧分割为数量更多的区域子图像,例如,可以将图像帧分割为12个区域子图

像,或者16个区域子图像等,当准确度要求较低获取计算能力较弱时,可以将分割参数设定

为相对较小的值,来将图像帧分割为数量较少的区域子图像,例如,可以将图像帧分割为8

个区域子图像,或者4个区域子图像等,譬如,请参考图3b,图3b为本申请实施例提供的一种

视频推荐方法的图像帧分割示意图,其中,该分割参数可以为四等分,可以将每一图像帧分

10

CN114449342A说明书7/25页

割为四等分,得到如图3b中虚线所划分得到的四个区域子图像。

[0096]在将该待推荐视频中每一图像帧进行分割处理之后,便可以对该区域子图像进行

特征提取,来得到每一图像帧对应的区域子图像特征,进而对该每一图像帧对应的区域子

图像特征进行特征提取,得到该待推荐视频中每一图像帧对应的视觉特征。其中,对区域子

图像进行特征提取的方式可以有多种,比如,可以采用视觉转换器(VisionTransformer,

也称视觉Transformer,简称ViT),来将该待推荐视频中每一图像帧进行分割处理,进而对

该区域子图像进行特征提取,来得到每一图像帧对应的区域子图像特征,从而对该每一图

像帧对应的区域子图像特征进行特征提取,得到该待推荐视频中每一图像帧对应的视觉特

征。

[0097]例如,可以利用视觉Transformer对每一帧图像帧进行切分为多个区域,得到每一

帧图像帧对应的多个区域子图像(patch),对每一个区域利用视觉Transformer中的卷积核

进行区域向量化,得到每一图像帧对应的区域子图像特征,接着将每一图像帧视为一个序

列,序列中的每个元素即为每一区域对应的区域子图像特征,将此序列输入到视觉

Transformer中,对每一图像帧进行高维特征的学习。从而将每一待推荐视频视为一个序

列,序列中的每个元素即为单帧图像帧的高维特征,也即每一图像帧对应的视觉特征。

[0098]103、将视觉特征进行多尺度切分,得到每一尺度对应的多个帧特征集合。

[0099]其中,该帧特征集合可以为多个帧特征构成的整体,该帧特征可以为对待推荐视

频的视觉特征进行多尺度的切分之后的视觉特征,例如,可以以一帧为一尺度将视觉特征

进行切分、以两帧为一尺度将视觉特征进行切分以及以四帧为一尺度将视觉特征进行切分

等多尺度,来对视觉特征进行多尺度切分,得到每一尺度对应的多个帧特征集合,比如,假

设一待推荐视频中提取出来8帧图像帧,并进行特征提取得到8帧图像帧对应的8帧视觉特

征,分别为(tl,t2,t3,t4,t5,t6,t7,t8),进而将视觉特征进行多尺度切分,以两帧为一尺

度将视觉特征进行切分为例,得到该尺度对应的4个帧特征集合,分别为帧特征集合l(tl,

t2)、帧特征集合2(t3,t4)、帧特征集合3(t5,t6)以及帧特征集合3(t7,t8),其中,视觉特征

tl和t2是帧特征集合1中的两个帧特征,视觉特征t3和t4是帧特征集合2中的两个帧特征,

视觉特征t5和t6是帧特征集合3中的两个帧特征,视觉特征t7和t8是帧特征集合4中的两个

帧特征。

[0100]其中,将视觉特征进行多尺度切分的方式可以有多种,比如,假设一待推荐视频中

提取出来12帧图像帧,并进行特征提取得到12帧图像帧对应的12帧视觉特征,分别为(tl,

t2,t3,t4,t5,t6,t7,t8,t9,tl0,tll,tl2),并可以采用三帧为一尺度、四帧为一尺度、六帧

为一尺度的三个尺度切分方式来将视觉特征进行多尺度的切分,从而可以得到每一尺度对

应的多个帧特征集合,具体分别为三帧为一尺度对应的四个帧特征集合(tl,t2,t3)、(t4,

t5,t6)、(t7,t8,t9)以及(t10,tl1,112),四帧为一尺度对应的三个帧特征集合(tl,t2,t3,

t4)(t5,t6,t7,t8)以及,六帧为一尺度对应的两个帧特征集合

t3,t4,t5,t6)以及(t7,t8,t9,tl0,tll,tl2)。

[0101]此外,对于将视觉特征进行多尺度切分的方式,还可以获取该视觉特征对应的至

少一个尺度切分参数,根据该尺度切分参数,分别对该待推荐视频对应的视觉特征进行标

记,得到该视觉特征对应的标记信息,基于该标记信息对该视觉特征进行切分,并基于切分

后视觉特征得到每一尺度对应的多个帧特征集合。

11

CN114449342A说明书8/25页

[0102]其中,该尺度切分参数可以为表征如何对视觉特征序列进行切分的参数,例如,该

尺度切分参数可以为数值3,表示对待推荐视频的视觉特征序列中的每3个视觉特征进行切

分,该尺度切分参数也可以为包含在待推荐视频的视觉特征序列中的第几个视觉特征进行

切分的信息,例如,假设待推荐视频的视觉特征序列中包含15个视觉特征,同时可以假设该

尺度切分参数可以为(3,5,10,12),则该尺度切分参数表示在待推荐视频的视觉特征序列

中的第3、5、10、12个视觉特征中进行切分,以此,可以得到第1帧到第3帧对应的帧特征集

合、第4帧到第5帧对应的帧特征集合、第6帧到第10帧对应的帧特征集合、第11帧到第12帧

对应的帧特征集合以及第13帧到第15帧对应的帧特征集合。该标记信息可以为标记待推荐

视频的视觉特征序列中需要进行切分的位置的信息。

[0103]其中,获取该视觉特征对应的至少一个尺度切分参数的方式可以有多种,比如,可

以对该视觉特征进行特征提取,得到每一视觉特征对应的视觉关联特征,基于该视觉关联

特征,确定每一视觉特征对应的视觉关联权重,获取多个预设切分参数,并根据视觉关联权

重和预设切分参数,确定视觉特征对应的至少一个尺度切分参数。

[0104]其中,该视觉关联特征可以为表征每一视觉特征与其他视觉特征之间的关联关系

的特征信息,例如,可以表征每一视觉特征与其他视觉特征之间的相似程度,该视觉关联权

重可以为表征待推荐视频中每一视觉特征的重要程度,也即可以表征每一视觉特征与其他

视觉特征之间的关联程度,该预设切分参数可以为预先设定的表示对待推荐视频中的视觉

特征序列的切分尺度的参数,该预设切分参数可以有多个,且可以为任意数值,比如,该预

设切分参数可以为3、4、5等数值,例如,可以假设预设切分参数可以为4,则可以表示对待推

荐视频的视觉特征序列中的每4个视觉特征进行切分,同时,可以假设待推荐视频的视觉特

征序列中包含15个视觉特征,则该预设切分参数表示在待推荐视频的15个视觉特征组成的

视觉特征序列中将每4个视觉特征进行切分为一个帧特征集合,以此,可以得到第1帧到第4

帧对应的帧特征集合、第5帧到第8帧对应的帧特征集合、第9帧到第12帧对应的帧特征集合

以及第13帧到第15帧对应的帧特征集合。

[0105]其中,对该视觉特征进行特征提取,得到每一视觉特征对应的视觉关联特征,基于

该视觉关联特征,确定每一视觉特征对应的视觉关联权重的方式可以有多种,例如,可以采

用注意力网络(Attention)对视觉特征进行特征提取,来得到每一视觉特征对应的视觉关

联特征,比如,可以将每一视觉特征转换为三个维度的空间向量,包括查询向量(query,简

称q)、键向量(key,简称k)和值向量(value,简称v),具体的转换方式可以理解为对每一视

觉特征与三个维度的转换参数进行融合而得到的,将查询向量、键向量和值向量作为每一

视觉特征对应的关联特征。

[0106]在对每一视觉特征进行特征提取之后,便可以基于该视觉关联特征,确定每一视

觉特征对应的视觉关联权重。基于该视觉关联特征,确定每一视觉特征对应的视觉关联权

重的方式可以有多种,例如,可以采用注意力网络将每一视觉特征对应的查询向量与其他

视觉特征的键向量进行点积,可以得到每一视觉特征对应的注意力得分(score),再基于每

一视觉特征对应的注意力得分,来计算每一视觉特征对应的视觉关联权重。

[0W7]其中,除了可以采用注意力网络对每一视觉特征进行特征提取以外,还可以采用

其他可以捕捉每一视觉特征与其他视觉特征之间的关联关系,进而确定每一视觉特征在所

有视觉特征中所占的权重的网络。

12

CN114449342A说明书9/25页

[0108]在确定每一视觉特征对应的视觉关联权重之后,便可以获取多个预设切分参数,

并根据视觉关联权重和预设切分参数,确定视觉特征对应的至少一个尺度切分参数,其中,

根据视觉关联权重和预设切分参数,确定视觉特征对应的至少一个尺度切分参数的方式可

以有多种,例如,可以根据该视觉关联权重计算该视觉特征的关联权重分布,基于该关联权

重分布确定该视觉特征之间的关联特征分布,并根据该关联特征分布对该视觉特征进行标

记,基于标记后视觉特征以及预设切分参数,确定视觉特征对应的至少一个尺度切分参数。

[0109]其中,该关联权重分布可以为待推荐视频中视觉特征对应的视觉关联权重的散

布,该关联特征分布可以为基于关联权重分布确定的视觉特征之间的关联特征分布,例如,

可以基于视觉关联权重与对应的视觉特征之间的映射关系,将关联权重分布作为视觉特征

之间的关联特征分布,可选的,可以基于视觉特征的时序以及视觉特征对应的视觉关联权

重,来构成为一条权重分布曲线。

[0110]其中,根据该关联特征分布对该视觉特征进行标记的方式可以有多种,例如,可以

获取一个预先设定的阈值,并将关联特征分布与这个阈值进行对比,来筛选出关联特征分

布中大于这个阈值的区间,进而可以根据这个区间的端点在待推荐视频中视觉特征序列中

的对应位置进行标记,该阈值可以为一个临界值,当关联特征分布中某一区域大于这个临

界值,表明该区域对应的视觉特征之间的关联关系比较强。例如,假设待推荐视频包括8个

视觉特征,分别为(tl,t2,t3,t4,t5,t6,t7,t8),基于关联特征分布与阈值的对比结果,筛

选出关联特征分布中大于这个阈值的区间端点对应为视觉特征t3到t4以及t5到t6的范围,

因此,可以对t3以及t6进行标记,得到(tl,t2,mt3,t4,t5,t6m,t7,t8),其中m为标记信息,

表明可以在t3视觉特征以及t6视觉特征处进行切分,从而可以得到标记后视觉特征(mt3,

t4,t5,t6m)o

tom]在根据该关联特征分布对该视觉特征进行标记之后,便可以基于标记后视觉特征

以及预设切分参数,确定视觉特征对应的至少一个尺度切分参数,其中,基于标记后视觉特

征以及预设切分参数,确定视觉特征对应的至少一个尺度切分参数的方式可以有多种,比

如,可以根据标记后视觉特征对待推荐视频对应的视觉特征进行初始划分,得到多个初始

视觉特征区间,并获取每一初始视觉特征区间的特征数量,进而可以将特征数量大于预设

阈值的初始视觉特征区间以预设切分参数进行划分,需要说明的是,此处的划分并未对视

觉特征序列进行分开,而只是类似于归类的形式进行分类标记。从而可以基于划分后的视

觉特征得到视觉特征对应的至少一个尺度切分参数。

[0112]例如,可以假设待推荐视频包括10个视觉特征,分别为(tl,t2,t3,t4,t5,t6,t7,

t8,t9,tl0),标记后视觉特征(mt3,t4,t5,t6m),该预设阈值可以为3,进而可以根据标记后

视觉特征对待推荐视频对应的视觉特征进行初始划分,可以表示为,mt3,t4,t5,

t6m,'t7,t8,t9,tl0'),以此可以得到多个初始视觉特征区间分别为'tl,t2'、't7,t8,t9,

tlO',从而可以获取每一初始视觉特征区间的特征数量,分别为2、4,进而可以将特征数量

大于预设阈值的初始视觉特征区间't7,t8,t9,tl0'以预设切分参数3进行划分,即得到

,t7,t8,t9,以及‘tlO',从而可以得到划分后的视觉特征,'t3,t4,t5,t6','t7,

t8,t9','tlO')。从而可以基于划分后的视觉特征得到视觉特征对应的尺度切分参数为(2,

6,9,10),则该尺度切分参数表示在待推荐视频的视觉特征序列中的第2、6、9、10个视觉特

征中进行切分。

13

CN114449342A说明书10/25页

[0113]在获取该视觉特征对应的至少一个尺度切分参数之后,便可以根据该尺度切分参

数,分别对该待推荐视频对应的视觉特征进行标记,得到该视觉特征对应的标记信息,基于

该标记信息对该视觉特征进行切分,并基于切分后视觉特征得到每一尺度对应的多个帧特

征集合。

[0114]例如,假设待推荐视频包括10个视觉特征,分别为(tl,t2,t3,t4,t5,t6,t7,t8,

t9,tl0),视觉特征对应的尺度切分参数为(2,6,9,10),则可以根据该尺度切分参数,分别

对该待推荐视频对应的视觉特征进行标记,得到(t1,12m,t3,t4,t看t6m,t7,t8,t9m,

tlOm),从而可以得到该视觉特征对应的标记信息,该标记可以包含表示在待推荐视频的视

觉特征序列中的第2、6、9、10个视觉特征后进行切分的信息,从而可以基于该标记信息对该

视觉特征进行切分,并基于切分后视觉特征得到每一尺度对应的多个帧特征集合,分别为

(tl,t2)、(t3,t4,t5,t6)>(t7,t8,t9)以及(tlO)。

[0115]以此,通过对将视觉特征进行多尺度的切分,可以对待推荐视频中的局部细节信

息进行更好的捕捉,进而可以提高视频推荐的准确性。

[0116]104、对帧特征集合中的帧特征进行差分处理,得到帧特征集合对应的差分特征。

[0117]其中,该差分特征可以为帧特征集合中两个帧特征之间的差值。

[0118]其中,对帧特征集合中的帧特征进行差分处理的方式可以有多种,比如,还可以在

该帧特征集合中确定每一帧特征对应的匹配帧特征,并将该帧特征集合中每一帧特征和对

应的匹配帧特征作为一个匹配特征对,计算该帧特征集合中每一匹配特征对之间的特征差

值,得到每一匹配特征对对应的差分特征,将该帧特征集合中每一匹配特征对对应的差分

特征作为该帧特征集合对应的差分特征。

[0119]其中,该匹配帧特征可以为帧特征集合中与帧特征集合中某一帧特征匹配的帧特

征。

[0120]其中,在该帧特征集合中确定每一帧特征对应的匹配帧特征的方式可以有多种,

比如,可以在该帧特征集合中确定每一帧特征对应的下一个帧特征为该帧特征对应的匹配

帧特征,例如,假设待推荐视频的一个帧特征集合为(t6,t7,t8,t9),则可以在该帧特征集

合中确定帧特征t6对应的下一个帧特征t7为帧特征t6对应的匹配帧特征,帧特征t7对应的

下一个帧特征t8为帧特征t7对应的匹配帧特征,帧特征t8对应的下一个帧特征t9为帧特征

t8对应的匹配帧特征。此外,也可以在该帧特征集合中确定每一帧特征对应的间隔帧特征

为该帧特征对应的匹配帧特征,例如,假设待推荐视频的一个帧特征集合为(t6,t7,t8,

t9),则可以在该帧特征集合中确定帧特征t6对应的间隔帧特征t8为帧特征t6对应的匹配

帧特征,帧特征t7对应的下一个帧特征t9为帧特征t7对应的匹配帧特征等,具体的匹配帧

特征的确定方法可以根据实际需求进行设定,在此不做限定。

[0121]在帧特征集合中确定每一帧特征对应的匹配帧特征之后,便可以将该帧特征集合

中每一帧特征和对应的匹配帧特征作为一个匹配特征对,计算该帧特征集合中每一匹配特

征对之间的特征差值,得到每一匹配特征对对应的差分特征,将该帧特征集合中每一匹配

特征对对应的差分特征作为该帧特征集合对应的差分特征。例如,假设待推荐视频的一个

帧特征集合甲为(t6,t7,t8,t9),帧特征t6对应的匹配帧特征为帧特征t7,帧特征t7对应的

匹配帧特征为帧特征t8,帧特征t8对应的匹配帧特征为帧特征t9,则可以得到匹配特征对,

分别为匹配特征对1(t6,t7)、匹配特征对2(t7,t8)、匹配特征对3(t8,t9),进而可以计算该

14

CN114449342A说明书11/25页

帧特征集合中每一匹配特征对之间的特征差值,得到每一匹配特征对对应的差分特征,分

别为匹配特征对1为(t7-t6),匹配特征对2为(t8-t7),匹配特征对3为(t9-t8),从而可以将

该帧特征集合甲中每一匹配特征对对应的差分特征(t7-t6)、(t8-t7)、(t9-t8)作为帧特征

集合甲对应的差分特征。

[0122]以此,通过对待推荐视频对应的每一帧特征集合中的帧特征进行差分处理,来得

到帧特征集合对应的差分特征以进行后续的视频推荐,可以捕抓帧与帧之间的差分信息来

提升本申请实施例提供的视频推荐方法对待推荐视频中细粒度的动态信息以及时序信息

的表征,进而可以对待推荐视频中的动作和场景转换等动态信息有更好的表征能力,从而

可以提高视频推荐的准确性。

[0123]105、基于帧特征集合和帧特征集合对应的差分特征,确定待推荐视频对应的局部

视频特征。

[0124]其中,该局部视频特征可以为表征待推荐视频中的局部信息的特征信息。

[0125]其中,基于该帧特征集合和帧特征集合对应的差分特征,确定该待推荐视频对应

的局部视频特征的方式可以有多种,比如,可以在该帧特征集合中确定目标帧特征,对该目

标帧特征以及该帧特征集合对应的差分特征进行拼接,得到该待推荐视频对应的局部视频

特征。

[0126]其中,该目标帧特征可以为在帧特征集合中筛选出来用于确定待推荐视频对应的

局部视频特征的帧特征。

[0127]其中,在该帧特征集合中确定目标帧特征的方式可以有多种,比如,可以将帧特征

集合中的第一个帧特征确定为目标帧特征,例如,假设待推荐视频的一个帧特征集合甲为

(t6,t7,t8,t9),则可以将首帧t6确定为目标帧特征。

[0128]又比如,可以对该帧特征集合中每一帧特征进行特征提取,得到每一帧特征对应

的帧关联特征,基于该帧关联特征,确定每一帧特征对应的帧关联权重,根据该帧关联权

重,在该帧特征集合中筛选出目标帧特征。

[0129]其中,对该帧特征集合中每一帧特征进行特征提取的方式可以有多种,例如,可以

采用注意力网络对该帧特征集合中每一帧特征进行特征提取,来得到每一帧特征对应的帧

关联特征。

[0130]在对该帧特征集合中每一帧特征进行特征提取之后,便可以基于该帧关联特征,

确定每一帧特征对应的帧关联权重,其中,基于该帧关联特征,确定每一帧特征对应的帧关

联权重的方式可以有多种,例如,可以采用注意力网络来根据该帧关联特征,确定每一帧特

征对应的帧关联权重。

[0131]在基于该帧关联特征,确定每一帧特征对应的帧关联权重之后,便可以根据该帧

关联权重,在该帧特征集合中筛选出目标帧特征。其中,根据该帧关联权重,在该帧特征集

合中筛选出目标帧特征的方式可以有多种,例如,可以根据每一帧特征对应的帧关联权重,

对帧特征集合中的帧特征进行排序,从而可以将排名最靠前,也即帧关联权重最大的帧特

征筛选出来,得到目标帧特征。

[0132]在该帧特征集合中确定目标帧特征之后,便可以对该目标帧特

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论