体育视频标注和解析,本研究有大力支持_第1页
体育视频标注和解析,本研究有大力支持_第2页
体育视频标注和解析,本研究有大力支持_第3页
体育视频标注和解析,本研究有大力支持_第4页
体育视频标注和解析,本研究有大力支持_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

体育视频标注和解析,本研究有大力支持本次体育视频内容标注与分析技术研究的关键词是内容、研究、体育、技术、视频、

一、发展本研究的意义

近年来,数字视频得到了广泛应用,如视频点播、数字电视、数字图书馆、视频会议、远程教育等。,这已经被越来越多的人所接受和熟悉。面对大量涌现的视频数据,如何找到所需的视频信息成为亟待解决的问题。

简单的视频名称查询和类似录像机的播放功能已经不能满足人们的需求。就像一本书通常有目录和索引来帮忙人们快速浏览和查询内容一样,一个视频也需要有效的目录和索引。传统的办法需要人们对视频内容进行标记,非常费时费劲,尤其是在视频资源数量巨大或者处理速度接近实时的情况下。所有的手工办法都会遇到难以克服的困难。为了解决这一问题,20世纪90年代以来,出现了基于内容的视频分析与检索[1][2][3]。其核心是通过计算机分析和理解视频内容,建立结构和语义索引,方便用户检索。

巨大的商业前景和重要的学术价值吸引了来自不同行业和学术界的研究人员对这一问题进行研究。一些原型系统相继提出,主要有IBM的QBIC/CueVideo[4][5],Virage公司的视频引擎体育视频,即体育比赛的电视转播,作为一个重要的应用领域,一直备受关注。体育比赛通常很长,但对于大多数观众来说,只有一小局部是真正关怀的,很可能会被反复观看。示例,一场跳水比赛往往持续几个小时,但其中令人兴奋的局部——运发动跳入水中的过程只有几分钟。人们需要一种方便快捷的方式来获取体育视频的内容。,卡耐基梅隆大学的InforMedia与其他视频相比,体育视频有自己的特点。首先,体育视频中有一些领域相关的语义事件,比方运发动在跳水比赛中的跳水、足球比赛中的射门等。这些语义事件通常是视频中最有价值的局部,需要标记以便于检索。其次,体育比赛一般都有很强的结构性,比方跳水比赛由几个回合组成。每一轮由几个玩家等组成。为了方便浏览视频内容,需要根据这些结构对原始视频数据进行分析,并组织成一个分层目录。本课题的目标是研究体育视频内容的语义标注和结构分析技术。,哥伦比亚大学的VideoQ虽然由于目前的技术水平,无法实现全自动、通用的视频内容理解,但本课题的研究将证明局部解决计划是可能的、有价值的,我们的研究也将为最终的全面解决计划奠定根底。除了学术意义,本课题的研究还可以有下列直接应用:等。这些努力最终促成了国际规范MPEG-7(多媒体内容描述接口)的诞生。然而,随着问题的深入,研究者面临着更大的障碍:机器对视觉/听觉内容的理解,即难以建立底层特征与高级语义之间的联系。同样的问题困扰人工智能领域多年。人们普遍认为,找到一个普遍的解决方法是极其困难的。因此,一些研究反而侧重于解决特定领域的应用问题,如新闻、电影等。在这些特定领域中,通过结合相应的领域知识,可以在低级特征和高级语义之间建立某种联系。

[6]

[7]

[8]

1.视频数据库:适用于各类体育专业人士或爱好者查询、浏览、管理采集的体育比赛视频数据。目前,我们已经应用于国家体育总局的研究工程——跳水训练图像分析软件系统的开发。通过对跳水比赛视频内容的标注和分析,可以方便快捷地实现典型动作的视频数据库。

2.Web多媒体发布:适用于新闻或体育网站在Web上及时发布体育多媒体信息。如今,越来越多的人习惯于从互联网上获取最新信息。基于我们的技术,我们可以第一时间编辑和发布包括综合图片、文本、视频和音频在内的体育多媒体信息。

3.个人移动效劳:适用于无线效劳提供商为个人提供定制的彩信效劳。我们的内容标注和解析技术可以为冗长的体育视频生成摘要,从而可以根据用户的个人喜好和终端能力将体育彩信发送到移动设备。

二、国内外研究现状分析

国际上对体育视频的研究始于20世纪90年代中期,属于视频检索领域的一个子课题。与新闻视频领域的成功[9][10][11]相比,体育视频的研究相对较少,难度更大。这主要是因为新闻视频具有根本一致的时域结构和场景语义,即首先是播音员的镜头,然后是新闻报道,最后回到播音员的镜头进行后面的新闻报道。然而,体育视频并没有这样统一的结构和语义。目前,对体育视频的研究还处于探索的初级阶段,对其过程和办法还没有统一的结论,也没有实用的系统可以投入使用。

1、镜头检测

通常,在分析体育视频之前,需要将其分成镜头。所谓镜头,是指摄像机连续拍摄的一组帧序列,通常被认为是视频的最小结构单元。为了分割镜头,需要检测镜头边界。镜头之间有两种边界:突变和渐变。当突变发生时,镜头直接切换到下一个镜头;在渐变的过程中,从一个镜头到下一个镜头会有一个连续的多帧变化过程,主要包括淡出淡入、溶解、擦拭等。淡出是指视频帧逐渐淡出,直到屏幕完全变黑,然后下一个镜头的帧图像逐渐出现。溶解意味着前一个镜头的帧图像逐渐含糊,而后一个镜头的帧图像逐渐增强。

镜头检测的关键问题是如何辨别镜头之间的切换和相机或物体移动引起的镜头变化。因此,渐变比突变更难发觉。早期的工作主要集中在突变检测上,最近更多的研究集中在渐变的分析上。

镜头检测办法可以分为两类:非压缩域和压缩域。在[12][13]中,实验评估了未压缩域中的各种镜头检测算法。与未压缩域的办法相比,基于压缩域的办法不需要对视频编码流进行解码,而是直接利用压缩域的特征如DCT系数、运动矢量、宏块信息等进行分析。从而提高处理速度[14][15][16][17]。如今,大量视频数据以压缩格式(如MPEG)存储,因此基于压缩域的办法往往具有更大的实用价值。

2.语义标注

语义标注是指对体育视频中的语义事件进行检测和标注,其本质是根据预先定义的类别对视频片段进行辨认。目前,国内外对体育视频的研究实际上都集中在这方面,相关工作介绍如下。

Y.龚等人首先提出了对足球比赛视频的分析[18]。他们结合足球比赛的现场知识,通过白线辨认、摄像头运动检测、足球和球员检测等分析,推断出视频的内容,包括球场上的什么地方、投篮、角球等。比方场景靠近球门区,足球向球门移动,就可以推断是射门。实验结果说明,该系统能够准确辨认球场位置,到达90%,但射门和角球的辨认率只有53%,这主要是由于高速运动和遮挡,使得足球的检测更加困难。

哥伦比亚大学的徐鹏和其他人察看到,足球比赛可以分为两种状态:踢和暂停(示例,因为球出界或者裁判在试探性地踢)。他们开发了一个系统,可以检测视频中的足球比赛是在进行还是暂停[19]。系统分两步分析足球视频。首先,根据颜色分析,得到每帧的草色比。此功能用于将帧标记为三种类型:全局视图、放大视图和特写视图。在检测过程中,该算法可以学习并自动调整草的颜色和分类决策。然后对视频帧进行上述分类标记后,根据经验总结出的规那么(示例,全景通常是游戏,特写通常是游戏休息等。)来判断游戏是进行中还是暂停。实验中使用了4个来自不同足球比赛的5分钟片段,检测准确率最好为86.5%,最差为67.3%。

清华大学的罗鸣等人还以足球为例提出了一个体育视频分析系统[21]。他们的系统根据视场颜色的比例和关键帧中物体的大小,将镜头分为远摄和近摄。此外,对于长焦拍摄,他们察看到快速相机移动通常会在拍摄或长传过程中含糊图像,因此他们提出根据帧图像的含糊程度来检测足球比赛中的这些事件。实验结果说明

DrewD.Saur等人直接利用基于MPEG压缩域的特征实现了篮球视频内容的自动分析和标注[22]。该算法首先基于压缩域DC图分割镜头,然后计算每个P帧的运动矢量大小。考虑到特写镜头一般比广角镜头变化更激烈,视频分为广角镜头和特写镜头。对于广角镜头,进行了进一步的分析。

Y.微软研究院的芮等人提出了一种根据音频特征检测棒球比赛中精彩事件的办法,计算量较小,适用于计算能力有限的环境[23]。他们的算法基于机器学习,即讲述者的兴奋语音辨认和棒球击打声检测,然后将它们与概率混合来推断最终的兴奋片段。实验说明,与人工标注的精彩片段相比,该算法的准确率可达75%。

类似地,对于棒球,张等人通过检测和辨认比赛中得分和状态的字幕显示来分析语义事件[24][25]的发生,示例触地得分和最后一投(投手被送出)。他们使用视频文本检测和辨认技术来分析游戏中的字幕信息。利用领域知识模型进一步提高了辨认结果。

一场体育比赛播出时,通常会在精彩事件发生后及时穿插慢动作重播,这也吸引了众多研究者的关注迪。张试图提出一个体育视频分析的总体框架3、结构分析。为了兼顾效率和准确性,他认为事件检测可以分为两个步骤,即基于压缩域分析的初级阶段和基于对象级的验证阶段。首先,选择压缩域的一些特征,如颜色和运动,通过统计学习实现事件的初选。其次,根据总结的领域规那么对候选场景中的对象进行分割。比方网球比赛的发球击球,图像中应该有一个较大的场地区域,下方应该有一个较小的球员物体。J.Assfalg等人认为体育视频镜头一般可以分为三类:场地、运发动和观众一个视频通常包含数百个镜头,尤其是体育视频。这主要是因为在电视转播一场体育比赛时,会有多个摄像头从不同的角度拍摄比赛,它们之间的频繁切换就构成了镜头。为了更好地访问视频内容,除了语义标注,还需要对镜头进行有效的组织。结构分析的任务是通过镜头组织为视频数据流建立一个类似于书目的分层浏览结构。。场馆镜头聚焦于运动本身,由大块一致的色彩区域和场馆线条代表。在运发动的镜头中,运发动作为物体出现在前景中,而背景变得含糊。在观众镜头中,个体往往是不清晰的,观众作为一个整体可以看作是一种质感。基于这些理解,他们通过边缘提取它们。本次体育视频的内容标注与分析技术研究的关键词是内容、研究、体育、技术、视频、分析等。,可以有效辨认三种镜头。名词〔noun的缩写〕Babaguchi结合了文本和视觉特征来检测体育视频中的事件以图1跳水比赛的树形结构4.摘要为代表,一些研究者提出了一种通用的视频结构分析办法。他们通过时间约束聚类办法将视觉上相似的镜头和时间上相邻的镜头聚类在一起,然后基于聚类组构建场景转换图或高级场景。然后形成分层的浏览结构。但这种统一的结构组织(如[34]将视频分为帧/镜头/组/场景四层)并不适合体育视频的分析,主要是因为体育游戏有其特定的结构(如图1所示),对体育视频的分析要结合这一领域知识。。文本信息来自电视信号中的隐藏字幕。首先,通过在文本中搜索与事件相关的关键词,我们估计事件的可能时间段。然后,分析该时间段内镜头的视觉特征,计算与已有事件实例的匹配度,检测与事件相关的镜头。。通过检测重播事件,并在之前的视频中找到内容相同的正常场景,可以为冗长的体育视频生成令人称心的精彩指数。

[27]

[28]

[29]

[30]

[31]

[32]

[33]

[34]

[35]

综上所述,基于对国内外研究现状的调查,我们得出下列结论:

(1)特征选择要结合领域知识。领域知识包括游戏相关和制作相关。与游戏相关的领域特征波及特定的运动,示例足球比赛中的草和颜色的比例以及篮球比赛中快攻时摄像机的移动。制作相关的领域特征适用于大局部体育视频的分析,主要来自于体育视频制作的总结,比方精彩场景的回放、运发动和分数信息的字幕显示等。结合这两种领域知识,选择适宜的特征进行分析是

(2)多模态融合分析代表了一种新的研究趋势。除了视觉特征之外,整合体育视频中包含的音频特征和文本信息可以有效提高视频分析的准确性。这也是近年来的研究热点。在体育视频中,一个语义事件往往是多模式的叙述,如运发动的跳水工程既有视觉运动,又有听觉踏板声和水输入声,因此仅分析其中一种模式是不完整的。因此,在体育视频中,有必要对语义事件进行综合分析。

(3)尽量考虑压缩域的特征分析。一场体育比赛持续几个小时,其视频数据也非常庞大,因此提高处理速度是有意义的,这在一些需要实时应用的场合也是必要的。直接基于压缩域的分析可以显着提高处理速度,无需完全解码。[22][31]说明,基于压缩域的分析不仅可以大大减少计算量,而且可以得到更好的结果。

(4)基于统计的事件检测办法优于基于规那么的办法。早期的研究大多使用基于规那么的办法。然而,体育视频中的事件检测往往需要综合各种特征分析办法,适应不同的场景。这些都增加了直接设置规那么的难度。与统计算法相比,它易于混合各种特征,具有一定的学习能力,因此具有较大的实用价值。

(5)无视事件之间关系的研究。体育比赛中的各种语义事件不是孤立的,而是有一定的因果关系或概率相关性。因此,对各种事件及其关系的综合分析对于提高分析的准确性和深度是有价值的。

(6)不足体育视频内容的结构分析。虽然很多文章都提到了体育视频的结构分析,但他们的结构分析主要集中在根本场景的分解上,如[20]将足球视频分为比赛进行和暂停,[31]检测网球比赛的发球场景。体育视频的结构,如图1所示,通常是多层目录结构。在检测根本场景的根底上,有必要进一步研究高层结构的分析。

(7)体育视频内容分析没有统一的框架。[31]提出了视频分析的通用框架,但他们的系统主要实现语义事件的检测,不足对视频结构的充沛分析。根据体育视频的特点和应用需求,我们认为视频分析的过程应该有一个根本的框架,这对于进一步的研究无疑是有意义的。

三是研究目标、内容和需要解决的关键技术

本课题的目标是研究体育视频内容的语义标注和结构分析技术。在实际研究中,我们主要选择跳水比赛作为研究对象。跳水在中国极具欣赏性,是奥运优势工程,深受人们喜爱。跳水比赛具有一般体育比赛的典型特征,如层次结构、领域相关语义事件等。通过对内容分析技术的研究,最终实现一个潜水视频查询系统。

如果把视频看作一种语言叙述,则视频分析在某种程度上与自然语言理解非常相似,其目的是使计算机能够理解信息的内容,从而实现智能信息处理。自然语言理解作为人工智能的一个重要研究方向,已经有40多年的历史。新兴的视频分析研究一定有很多值得借鉴的地方。自然语言理解一般以词汇为根本处理对象,包括自动分词、词性标注、句法分析等阶段。同样,由于镜头是视频中内容叙述完整的最小单元,我们将镜头作为体育视频分析的根本单元,提出了如图2所示的体育视频内容分析框架。

图2体育视频内容分析框架

1、镜头检测

与自动分词类似,镜头检测以镜头为根本单位分解视频流。镜头检测是视频内容分析的根底步骤,对整个系统的性能影响很大。虽然镜头检测是一个普遍问题,但在体育视频中也有其特殊要求:

(1)针对大量的运动视频数据,算法要能实现快速检测;

(2)运动视频中有大量的运动,算法要尽量防止运动带来的误判;

(3)作为后期分析的根底,算法要有较高的精度。

2.模式学习和语义标注

镜头检测后的视频流是一组镜头序列。在此根底上,语义标注通过事件检测对镜头序列进行标记。我们使用基于统计的办法来辨认语义事件。在辨认时,我们首先通过学习训练样本建立一个分类器,然后使用这个分类器来辨认镜头中的事件。需要解决下列问题:

(1)多模式提取和选择领域相关特征来表示语义事件;

(2)应用压缩域分析提高处理速度;

(3)设计好学习分类模型,实现高精度辨认;

(4)标记镜片应有利于后续的结构分析。

3.语法描述和结构分析

语义标注后,结构分析的任务是通过分析视频标注序列生成体育视频的分层浏览结构。目前这个领域还没有好的算法。为了解决这个问题,我们基于自然语言理解中的语法分析思想,使用语法来定义语法规那么。将语法描述引入结构分析具有下列优点:(1)根据语法描述,我们可以(2)实现领域知识和具体算法的别离。这样,我们只需要引入相应的语法描述,就可以使用统一的解析器来分析不同类型的体育比赛。关键技术包括:

(1)自动生成体育视频的分级浏览目录;

(2)在实际应用中,视频流可能不完整或标记不正确,解析器要有良好的容错能力;

(3)对于数据量较大的体育视频,对结构分析的效率要求较高。

第四,提出研究办法、技术路线和可行性分析

1.基于压缩域的镜头分割算法

体育视频中常见的渐变主要有溶解和擦除,尤其是一些有特效的渐变,如图3所示。这些特定的擦除模式通常出现在慢速镜像回放的开始和结束,辨认这个镜头边界非常有价值。现有的压缩域算法主要成功地进行了剪切检测,但对渐变的研究很少。我们将研究一种有效的渐变检测办法,该办法综合了压缩域中的DCT系数、运动矢量和宏块信息。

图3体育视频中特定图案的擦除

2.体育视频中语义事件的检测

(1)通过地标边界检测辨认重放事件

[1]重播分为三种:重复播放的同一个镜头;同样的镜头以慢动作模式重播;同一个场景是由不同的摄像机从不同的视角拍摄的。很难通过直接从内容中比拟重放事件和先前视频镜头之间的相似性来准确辨认,尤其是对于最后的重放。

通过对体育比赛电视转播的察看,我们可以发现,精彩片段的重播通常是以一个象征性的镜头切换引入,然后以类似的变化结束,如图3所示。因此,重放事件的检测实际上可以归因于这个符号镜头边界的检测,从而简化了问题。我们将主要研究这种办法。

(2)使用视频文本辨认来确定状态事件

状态性事件直接关系到体育竞赛的状态变化。通常比赛状态变化时,电视转播会给视频添加相关字幕。比方跳水比赛运发动进入赛场,会有文字表明运发动的名字和要做的动作。在一轮结束时,将显示该轮所有玩家的分数。

根据这一特点,我们提出通过检测和辨认视频中的文本来检测状态事件。这种办法包括两个层次。首先,我们可以通过检测视频文本[36][37][38][39][40]来初步确定状态事件的发生。然后,我们通过关键词匹配辨认检测到的文本并辨认状态事件的类别。比方运发动入场的字幕显示中有“回合〞、“排名〞、“DD〞(难度)和“Total〞(总分)等关键词。通过匹配这些关键词,可以判断当前镜头是运发动入场的状态事件。

(3)结合视频和音频双模的目标事件检测。

在目标工程中,往往有明显的运动和听觉特征,如运发动的跳水工程,既有视觉运动又有听觉踏板声和入水声。视频和音频融合的分析防止了仅利用视觉或听觉特征无法完整描述语义事件的缺乏,能够有效提高辨认准确率。

在辨认过程中,我们采用了混合隐马尔可夫模型和支持向量机的办法[41]。支持向量机通过结构风险最小化准那么,可以在小样本条件下实现有效分类。然而,支持向量机只是一个静态分类器,不能很好地模拟时间序列过程。相反,隐马尔可夫模型可以更好地处理随机时间序列数据的辨认。然而,它不能保证训练好的模型能够很好地对未知数据进行分类。这样,通过将两者混合,并将静态数据辨认效果较好的支持向量机引入隐马尔可夫模型,可以获得最正确的视频流数据辨认效果。

3、语法指导

本次体育视频内容标注与分析技术研究的关键词是内容、研究、体育、技术、视频、结构分析。

为了分析输入体育视频数据的结构,我们首先需要描述这类体育游戏的语法规那么。乔姆斯基将语法分为四种类型,即0型语法(或短语语法)、1型语法(或高低文敏感语法)、2型语法(或高低文无关语法)和3型语法(或常规语法)。模型越高,施加的约束越多,语言的描述也越多。

我们用高低文无关语法来描述体育竞赛的结构,主要是基于下列考虑:(1)高低文无关语法可以充沛描述体育竞赛的树形结构;(2)高低文无关语法广泛应用于自然语言理解、句法模式辨认、编译技术等领域,其技术相对成熟;(3)基于高低文无关语法的解析器不仅能有效生成视频的分层浏览树,而且具有很强的错误处理能力。

终结符r、b、e、u分别代表一轮比赛的结束、一名选手比赛的开始、一名选手比赛的结束和总杆,非终结符和和是结构单位,分别代表每一轮比赛和每一名选手的比赛。对于语义标注序列“buuuuuuuuuueeur〞,用语法分析器进行分析,得到其层次结构“[buuuuuuuue][buuuuuuuue]euR]〞。序列最后一个“r〞前的“EU〞是错误标记,可以通过错误恢复策略进行处理(示例,当发现终止符不匹配时,会弹出并给出警告)。因为基于统计的视频序列语义标注存在一定的不确定性。如果错误标签具有高度确实定性,那么可以认为错误发生在它之前。

以上,我们通过基于压缩域的镜头分割、语义事件检测和句法指导的结构分析,实现了体育视频的内容标注和分析。虽然我们主要以跳水视频为例进行分析,但该技术完全可以应用于其他类似的体育视频,甚至是一般的视频处理。我们的研究说明,尽管目前的技术水平,它是完全自动的。通用的视频内容理解是不可能的,但通过有效的人机交互和应用相关模型,新技术将能够面对大量视频信息的挑战,给人们带来更丰盛、更便捷的体验。

动词〔verb的缩写〕预期研究成果和创新

一种有效的压缩域镜头边界检测算法

体育视频中慢镜像回放的检测办法

基于压缩域的视频文本检测与分割

体育视频中状态事件的辨认

视音频融合的事件检测

基于语法的体育视频结构分析

一种通用的体育视频内容分析框架及其系统实现

第六,现有工作根底

1.现有资源:

4.96G潜水游戏视频数据,总时长约8小时20分钟;

5.33G足球比赛视频数据,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论