基于内容视频检索_第1页
基于内容视频检索_第2页
基于内容视频检索_第3页
基于内容视频检索_第4页
基于内容视频检索_第5页
已阅读5页,还剩11页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、基于内容的视频检索Content-Based Video Retrieval (CBVR)视频是集图像、声音、文字等为一体的综合性媒体,在众多媒体种类中携带的信息量最大。随着互联网技术的发展和网络带宽的提升,网络视频数据量成爆炸式增长,如何对互联网上的海量视频数据进行检索已成为国内外的研究热点,是新一代搜索引擎的主要研究内容。视频检索是通过对海量的非结构化的视频数据进行结构化分析,提取视频内容的特征(包含语义特征),在此基础上实现从内容上对视频进行检索。原始视频要根据其内容建立索引,需要有一种算法,在无人参与的情况下,能够自动提取并描述视频的特征和内容。与传统文本检索相比,视频检索存在很大的技

2、术难度。首先,视频内容的特征难以提取与处理,特别是语义特征的提取存在很大的困难。其次,视频检索在索引建立、查询处理以及人机交互等方面都与传统的文本搜索存在很大区别,还有一些技术难题有待解决。视频检索的基本流程:结构化分析 特征提取 语义提取 高维索引 检索反馈 浏览应用静态特征动态特征提取镜头的特征及关键帧的视觉特征存入视频数据库。在建库后,利用相似度的测量实现基于内容的检索。1. 结构化分析对于视频可以按照如下结构进行分层: 视频序列 场景 镜头 帧 video scene shot frame (不一定时间连续) (时空连续) (静止画面) (最小语义单元) (摄像机的一次拍摄) (胶片的

3、一格)各层都可以用一些属性来描述。视频序列的属性主要包括场景的个数和持续时间;场景的属性包括标题、持续时间、镜头数目、开始镜头、结束镜头等;镜头的属性包括持续时间、开始帧号、结束帧号、代表帧集合、特征空间向量等;帧有大量的属性,包括直方图、轮廓图、DC及AC分量图等。视频结构化分析是指对视频进行镜头分割、关键帧提取和场景分割等处理,从而得到视频的结构化信息,并进一步为视频的检索和浏览提供基本访问单元。1.1. 结构化分析过程 将视频序列分割为镜头。 在镜头内选择关键帧。 镜头聚类,提取场景。静态特征动态特征1.2. 视频镜头检测技术要对视频建立索引,首先要将视频分割为镜头。镜头检测的关键是确定

4、从镜头到镜头的转换处,并利用镜头之间的转换方式找到镜头图像之间的差别。镜头的切换方式有两种:突变和渐变。镜头分割的关键在于确定镜头的边界,其中渐变镜头边界的检测目前仍然是一个具有挑战性的课题。1. 对应像素法将两帧图像对应象素差的绝对值之和作为帧间差,如果前后两帧的帧间差变化超出某个阈值,则认为有镜头的切换。对检测突变镜头很有效,但对摄像机和物体的运动非常敏感,当运动较大时,相邻两帧的差异往往会超过预定的阈值,从而产生误检。2. 直方图法利用帧与帧的直方图比较来检测镜头,是使用得较多的计算帧间差的方法。基本原理是将颜色空间分为一个个离散的颜色小区间,然后计算落入每个小区间的象素数目,得到图像的

5、直方图统计,通过比较两帧图像的直方图统计得到帧间差。不考虑像素的位置信息,抗噪声能力比模板匹配法强。当具有不同目标的场景有近似的灰度或颜色直方图时容易造成漏检。3. 基于边缘的方法将两幅图的边缘提取,利用镜头切换时出现的新边缘与消失的旧边缘的像素比例,若两者最大值大于某阈值,则认为有镜头切换。这种方法在图像较暗或边缘不明显时往往会造成误检和漏检。4. 基于模型的方法利用对镜头编辑的先验知识,对各种镜头切换建立一定的数学模型,自顶向下地进行镜头切换的检测,对特定领域视频可通过数学模型加上一定的限制条件来提高方法有效性。因此这种方法对镜头渐变的检测往往能取得好的效果。建立数学模型过程较复杂,适用于

6、专业领域前三种都是利用帧间差自下而上来进行镜头边界的检测,它对于突变检测可以取得较好的效果,但是对于渐变检测则有一定的困难,因为它在很大程度上忽略了渐变切换中帧之间结构上的相关性。1.3. 关键帧提取技术用关键帧代表镜头,使得对视频镜头可用图像的技术进行检索。关键帧必须能够反映镜头中的主要事件,数据量应尽量小,且计算不宜太复杂。1. 特定帧法一段视频被分割成若干镜头后,将每个镜头的首帧、中间帧以及末帧作为镜头的关键帧。简单,但没考虑运动特性,不能反映镜头内视频内容的变化,不适用于变化较多的镜头内。2. 帧平均法和直方图平均法帧平均法是取一个镜头中所有帧的某个位置上的像素值的平均值,将镜头中该点

7、位置的像素值等于平均值的帧作为关键帧。直方图平均法则是将镜头中所有帧的统计直方图取平均,然后选择与该平均直方图最接近的帧作为关键帧。能在一定程度上反映视频内容,计算量也不大,所选取的帧具有平均代表意义,但是没考虑运动特性,由于需要记录每一帧每个像素的值或直方图,所以要实现动态选取,所需的存储量较大。无法描述有多个物体运动的镜头。3. 基于光流的运动分析通过光流分析来计算镜头中的运动量,在运动量取局部最小值处选取关键帧,它反映了视频数据中的一个“静止”特点,视频中通过摄像机在一个新的位置上停留或通过人物的某一运动的短暂停留来强调其重要性。首先通过Horn-Schunck法计算光流,对每个像素光流

8、分量的模求和,作为第k帧的运动量M(k),即其中 Ox(i,j,k)是k帧内(i ,j)像素光流的X分量,Oy(i,j,k)是k帧内像素(i,j)光流的Y分量。然后寻找M (k)的局部最小值:从k=0开始,扫描曲线M (k) ,找到两个局部最小值 M(K1)和M(K2), M(K2) 的值与M(K1)的值至少相差p%(由经验设定),如果M(Kj)=min(M(K),K1< Kj <K2,则把 Kj选为关键帧。然后把K2作为当前的K1,继续寻找下一个Kj。Wolf的这种基于运动的方法可以根据镜头的结构选择相应数目的关键帧。如果先把图像中的运动对象从背景中取出,再计算对象所在位置的光流

9、,可以取得更好的效果。存在问题:由于算法依赖于局部信息,所以鲁棒性不强;对总是由动态累加带来的内容变化处理不好。1.4. 镜头聚类和场景提取场景分割通常也称为故事单元分割,其目标在于获取视频的最小语义结构单元场景。通过对已分割出的镜头进行聚类,将内容相近的连续镜头合并为一个单元组,从而得到场景信息,为进一步进行视频内容分析提供基础。通过视频聚类可以缩小检索的范围,提高检索的效率。在镜头聚类及场景生成过程中,镜头不仅在时间上是连续的,更重要的是它们在内容含义上是一致的,这是镜头聚类的关键。可按时间顺序和关键帧的相似度进行聚类,最简单的方法可以用内容上相关的镜头中的关键帧来代表情节。把镜头聚类为故

10、事单元后,其数量明显减少。例如对于一部典型的连续剧,半小时的节目中约有300个镜头,经过聚类后可形成约20个故事单元。根据镜头的重复程度,视频一般可分对话型和动作型。对话型视频是指一段实际的对话或者象对话一样由两个或多个镜头重复交替出现的视频。动作型视频反应故事的展开,镜头不是固定在一个地点或跟随一个事件,因而很少发生镜头的重复。一个有13个镜头的视频序列,各镜头分别标记为:A B A B A B A B C D E F G。其中,前8个镜头可认为是对话型的,而后5个则是动作型的。2. 特征提取视频分割成镜头后就要对各个镜头进行特征提取,对视频信息进行建模和表示,实际上就是分析视频数据,提取描

11、述特征。这是进行视频检索的基础,将作为视频聚类和检索的依据。2.1. 视觉特征主要包括视频帧图像的颜色、纹理、形状、运动等低层视觉特征。其中,David G. Low于1999年提出了一种对图像缩放、旋转和仿射变换保持不变的图像局部特征描述算子SIFT(Scale Invariant Feature Transform)算子,在图像和视频检索中越来越受到人们的重视。1. 颜色特征颜色是图像最显著的特征,计算简单、性质稳定,对于旋转、平移、尺度变化都不敏感,表现出很强的鲁棒性。颜色特征包括颜色直方图、主要颜色、平均亮度等。其中利用主要颜色和平均亮度进行图像的相似匹配是很粗略的,但是它们可以作为层

12、次检索方法的粗查,对粗查的结果再利用子块划分的颜色直方图匹配进行进一步的细查。2. 纹理特征纹理特征的共生矩阵表示法,即利用纹理在灰度级的空间相关性,先根据图像像素间的方向和距离构造一个共生矩阵,再从中提出有意义的统计数据作为纹理的特征表示。缺点:这些统计特征没有和人在视觉上对纹理特征的感知之间建立对应。纹理特征集可以很好地与人类视觉感知相对应,这些特征包括:粗糙度、对比度、方向性、线向度、规则性、粗略度。其中最重要的特征是纹理粗糙度、对比度和方向性。目前还没有一个统一的标准来精确地表示纹理的特征。3. 运动特征视频除了具有一般静态图像的特征外,更具有动态特征。而动态特征往往也是视频检索时用户

13、给出的主要内容。运动特征反映了视频的时域变化。运动分析的方法有基于光流方程的方法、基于块的方法、像素递归方法和贝叶斯方法等,但这些方法计算量大。Tonomura等人提出了视频X光图像分析方法,可以用来检测类似的运动。将整个视频序列沿时间轴进行切片,从切片图像中分析运动情况。视频的运动变化在切片上将变现为一系列有序的条纹变化。通过对视频的研究发现,当目标运动时,其背景往往变化迅速,而目标在大小上的不断变化表现为像素色彩的扩张。因此,可采用视频切片技术,通过追踪某一位置线上图像目标的色彩变化来得到运动目标的大小变化张宏江等人用计算镜头内各帧平均亮度和主要颜色的均值和方差作为镜头运动量大小的度量,在

14、新闻视频中取得了较好的效果。2.2. 听觉特征听觉特征反映了视频中音频的频谱分布和变化规律、节奏、韵律等,主要包括:短时能量、MFCC系数、基音频率、分带短时能量、短时能量的均值和方差、MFCC系数的均值和协方差、过零率的均值和方差等。2.3. 文本特征作为视频高层语义的一种,视频字幕、视频语音、以及互联网Web中的相关文本信息是不必通过语义推理的视频高层语义内容,它对视频内容有很强的描述作用,因而对视频的高层语义分析具有很重要的价值。主要包括以下:ASR文本:视频中一般总是伴随着人说话的声音,我们称这种声音为语音。利用自动语音识别技术,我们可以将语音转换为文本信息。在特定的视频中,反映主题的

15、并且检索频率较高的语音词汇往往在视频局部多次重复出现,即使语音识别引擎不能每次都正确识别,但只要识别一两个实例,也能迅速定位所需要的视频片段。字幕文本:视频帧中出现的文字,特别是后期编辑叠加的文本字幕,经常包含了重要的语义信息,如新闻视频中的主题、日期和人名,以及电影视频中的演员表等。最后利用面向视频的文字识别技术(Video OCR)检测与识别视频中的文本信息。Web文本:在Web 页面中,常有一些与视频相关的外部文本信息,如与新闻视频相关的讲稿或文字报导、与足球比赛相关的文字直播或比赛战况播报等等。通过对Web 页面中文本和视频的空间相关性等信息进行挖掘和融合,通常能获得与当前视频相关的语

16、义信息。基于以上文本特征,借助领域相关的命名实体词典和相关知识库,可提取包含时间、地点、人物以及描述事件的关键词等信息,以支持特定时间、地点、人物以及事件的检索。2.4. 其它特征如视频中是否存在人脸,以及摄像机的运动特征等。人脸是视频中常见对象,并且蕴涵了丰富的语义信息。3. 语义提取最初的视频检索是人对多媒体信息进行手工文字标注,然后通过一般文本检索技术来实现检索。后来,通过视频的低层特征(如帧图像的颜色、纹理、形状、视频的运动特征)对视频进行基于内容的检索。实际上,人们经常在日常生活中习惯使用诸如“飞机、建筑、天空、花草树木”等概念,希望能够进行基于语义的检索,这就要利用视频的高层语义信

17、息。如何建立视频的低层特征和高层语义描述之间的映射,有效克服所谓的“语义鸿沟”,是一直以来困扰科研人员的技术难点,也是当前的一个研究热点。视频语义提取的一般流程:虽然目前从事视频语义概念提取技术研究的单位很多,出现了众多各具特色的系统方案。但就整体而言,这些系统大多由特征提取、分类器模型、融合算法和上下文关联分析这四部分组成。视频语义提取所用的特征主要来自前述的视觉、听觉、文本等特征,我们需要根据它们各自的特点选用合适的分类器模型。另外,因为视频语义大多都具有正样本数少、相关性强的特点,这对分类器模型的使用提出了更高的要求。通常采用的分类器模型有三类:一类是直接将各种全局或局部的特征组成特征向

18、量,利用通用的分类器算法,如SVM、GMM、最大熵、KNN等进行语义概念的检测;另一类是考虑特征之间的时间/空间关联,利用隐马模型进行建模;还有一类模型,将局部特征聚类形成中间分组,在对测试序列求得分组标注后,利用全局的分组直方图进行分类。也可单独从视频文本中直接提取出反映高层语义的概念。由于视频文本通常不准确,不完整,甚至有很多错误(如ASR带来的识别错误,字幕文字识别错误),因此很难用自然语言理解的方法来分析视频文本中的语义。目前大多采用各种统计的方法,如N-Gram文法和隐性语义索引(LSI,Latent Semantic Indexing)等,分析已经存在的大规模语料库,从中学习相关规

19、则,然后用这些规则来推断可能包含的语义。为获得对视频更全面准确的理解,我们需要融合各个模态的信息。信息的融合大致可以分为两个层次:第一个层次为同一模态内的不同特征之间的信息融合;第二个层次为不同模态间的信息融合。两种层次的融合方法是统一的,分为非启发式的融合方法和启发式的融合方法。非启发式的融合方法主要包括:平均加权、取最大值、取最小值、乘积等各种融合方法。非启发式的融合方法的主要优点是不需要对融合方法进行训练,应用简单,鲁棒性较强,但是融合效果一般。启发式的融合方法主要包括:Adaboost方法、加权融合方法(Weighted Average)、基于排序的加权融合方法(Ordered Wei

20、ghted Average)。启发式的融合方法针对不同的数据进行融合参数的训练,融合效果较好,但是鲁棒性稍差,计算复杂度也要比非启发式融合方法大很多。不同的语义概念之间往往存在一些上下文(Context)约束或者共生关系。比如检测到“天空”和“绿地”会增加检测到“风景”的概率,而减少检测到“室内”的概率。如果仅建立一组单独的概念检测算法,则无法充分利用这些信息。因此,还需要进行上下文关联分析,利用不同概念之间的相互关系,进一步改进概念检测的结果。上下文关联分析算法主要有MultiNets、SVM判别融合方法,以及基于本体论的方法等。4. 高维索引从视频中提取特征之后,帧图像被映射为高维特征空间

21、中的样本点。对于海量数据而言,如何建立有效的索引结构,是加快检索速度、提高检索精度的关键问题。同时,由于特征的维数很高,常用的索引方法难以满足需要,具有动态性、高效性、鲁棒性的高维索引结构已成为热门的研究方向。常用的高维索引是树型空间索引,目前普遍采用R*树作为索引的数据结构。针对R树结构受数据输入次序影响的问题,R*树采用强制重新插入策略,对树中已有节点中的单元进行有选择的重新插入,优化树的整体结构,有助于提高查询性能。其代价仅稍高于R树,同时支持点数据和其它空间数据的索引建立与查询。大部分树型空间索引在低维空间中性能优越,但在高维空间中,性能显著下降,这是因为一些重要的参数,如体积、面积等

22、,都与空间维数呈幂级增长的关系。因此,应对高维特征进行降维处理,常用的方法有主成分分析和聚类等方法。5. 检索浏览在对视频流中各镜头提取关键帧并进行特征提取后,还要建立基于视频特征的索引。通过索引,就可利用基于关键帧特征,或是基于镜头动态特征,或是将二者相结合进行对视频进行检索和浏览了。基于内容的检索是一个近似匹配,逐步求精的循环过程,主要包括初始查询处理、相似性匹配、返回结果、特征调整、人机交互、检索反馈等步骤,直至获得用户满意的查询结果。查询处理是指处理用户查询的需求,将之转换为可以执行检索的特征向量,以便与索引结构相匹配。用户提交的查询一般是对查询内容的简洁描述,在检索过程中需要对其进行

23、扩展。扩展方法主要有基于规则的扩展和基于统计的扩展。前者利用现有的词典,如HowNet、WordNet、同义词林等查找语义上与该查询相似的词,对其赋予一定的权重后加入查询中。后者统计大规模预料库中与查询词共现最多的词,作为相关词加入到新的查询中。在交互式搜索(Interactive Search)系统中,还需要处理用户的反馈信息,从而调整查询算法,以期获得更加符合用户意愿的查询结果。相关反馈是指根据用户对于检索结果的反馈,其中既包括检索正确的正反馈,也包括检索错误的负反馈(有的系统返回的是用户对检索结果是否正确的置信度),对查询处理结果做适当的调整,如增加产生正反馈的权重,降低导致负反馈的权重

24、等。相关反馈技术是一种有效的交互手段,已经被越来越多的搜索引擎所采用。好的相关反馈算法可以普遍提高检索结果精度,使用户能快速检索到自己需要的结果。另外,由于不同的用户反馈反映了不同用户的偏好,因而相关反馈有利于实现用户的个性化搜索。视频语义检索可以通过前述的语义概念提取实现,主要包括从文本或视觉等多模态特征中提取相应的语义概念。其典型框架如图所示。首先,对于一个特定的查询,需要将该查询转换到语义概念空间。对于文本查询,可以通过词典或相关Web文本进行扩展,确定查询在语义概念空间的坐标;对关键帧样例查询,可以通过NDK(Near Duplicate Keyframes)等方法进行扩展,从中提取语

25、义信息。然后,将检索分为两层:故事单元层和镜头层,分别利用多模态低层特征和高级语义特征(语义概念)进行检索。最后,通过伪相关反馈(Pseudo Relevance Feedback)进一步提高检索精度,即根据前一次检索的结果,自动选取前几项作为正样本,返回给系统进行第二次查询,整个过程不需要用户参与而自动执行,因而称为伪相关反馈。1. 基于关键帧的检索视频被抽象为关键帧后,搜索就变成按照某种相似度来检索数据库中与查询描述相似的关键帧。通常使用的查询方法是通过目标特征说明(直接)的查询和通过可视实例(示例)的查询。检索时,用户也可以指定使用特定的特征集。如果检索到关键帧,用户就可以利用播放来观看

26、它说代表的视频片段。浏览可以跟随检索,作为检验检索到的关键帧的上下文边界联系。浏览也可以初始化查询,即当浏览时,用户可以选择一个图像来查询所有与该图像相似的关键帧。2. 基于镜头动态的检索基于镜头和主体目标的运动特征来检索镜头是视频查询的进一步要求。可以利用摄像机操作的表示来查询镜头,可以利用运动方向和幅度特征来检索运动的主体目标。在查询中还可以将运动特征和关键帧特征结合起来,检索出具有相似的动态特征但静态特征不同的镜头。3. 视频浏览对于视频来说,浏览与有明确目的的检索同样重要。为了有效的浏览,视频文档的内容应表示成用户易于理解的静态画面的形式,并且必须提供非线性的访问。通常每个镜头的关键帧

27、被用来作为“浓缩”了的视频序列。这种表现方式大大减轻了用户需要从头到尾观看整部影片的负担。然而,在许多影片中,常常有几百个镜头。另外仅用静态的画面常常不足以表示动态的信息。因此仅将代表帧排列起来的方法无法满足用户有效的浏览要求。这对于头一次看这部影片的用户尤其如此,他们面对没有组织的一堆画面往往不知所云。4. 视频的检索反馈在检索的实现中除利用图像的视觉特征进行检索外,还应根据用户的反馈信息不断学习改变阈值重新检索,实现人机交互,直到达到用户的检索要求。如何定义是否两个视频相似,仍然是尚未解决的问题,限制了检索系统的应用范围。而且由于视频内容的复杂性,不同用户在检索过程中,即使对同一部视频,其

28、注重的角度也有可能不同,因此接受用户的反馈意见,当用户对查询结果不满意时可以优化查询结果,突出用户的需要。6. 多模态人机界面多模态人机界面涉及多模态方式输入用户界面和输出界面,是系统中必不可少的非常关键的组成部分。用户通过多模态的人机界面与系统交互:输入查询、输出结果或对结果进行反馈。在实际应用中,很多用户对于某些语义概念的掌握程度可能不足以明确表达其查询意愿。如果系统允许用户以多模态的描述方式,比如提交一段文本、一幅或多幅样例图像、一段或多段样例视频片段、一段语音等,来输入查询意愿,那么系统将搜索到更多符合用户要求的查询结果。系统的输出也是一个多模态表示的结果,如关于视频数据的描述信息、一

29、系列相关的图像、一组相关的镜头等等。为全面反映结果的内容,便于用户快速抓住感兴趣的结果和进行更有效的反馈和评价,通常对结果进行层次化组织,并以可视化方式输出。例如,可用“故事板”方式将一些关键帧图像在窗口中平铺,通过点击关键帧图像,用户便可浏览相应的镜头内容。7. 应用方面1. 视频标注视频标注是通过人工的方式将某一段视频进行主观的属性标注,然后以文本的方法进行检索。视频标注技术己相当成熟,但有其固有的不足,第一,要人工手动完成,工作量极大,且效率很低。第二,某些视频和感知特征很难用文字来描述。第三,主观性很强,没有统一的标准,不同的人对同一段视频有不同的理解,必然导致不同的标注结果。2. 视

30、频摘要视频摘要以自动或半自动的方式,从原视频中提取有意义的部分,将它们合并而成的紧凑的、能充分表现视频语义内容的视频概要。视频摘要技术也有一定的发展,同时给基于内容的视频检索提供了思路,但与真正的基于内容的视频检索有一定的距离。3. 基于非压缩域的视频内容检索基于非压缩域的视频内容检索是以视频的低层特征为基础进行分析,特征提取等,最后以视频的本质特征为检索依据,完全实现检索的自动化。基于非压缩域的视频内容检索己有相当的研究成果,但由于其所有算法均要在完全解压的基础上进行,而视频数据不但数据量很大,而且运算量也很大,所以在具体实现时并不理想。4. 基于压缩域的视频内容检索基于压缩域的视频内容检索

31、是在不完全解压或不解压的前提下以视频流的低层特征为基础进行分析、特征提取等,最后以视频的本质特征为检索依据,完全实现检索的自动化。由于基于压缩域的视频内容检索在没有解压或没有完全解压的前提下进行,所以其优点是大大减小了数据量,也减少了数据运算量,从而大大提高了系统的效率。8. 难点如何合理的将视频结构化。如何合理设置阈值。目前多是通过经验,这不可靠。如何区别渐变和镜头运动。使用帧间差无法从根本上区别两者,使用模型面临建模问题。如何处理闪光灯和光照条件变化引起的误测。如何有效地提取特征。要从此层次的视听特征中再提取高层次的语义特征。难点是建立底层视听特征与高层语义概念的关联,使计算机自动抽取视频

32、语义。在自动检索中,用户的有效的查询输入是第一个问题。大多数基于内容的视频检索系统假定用户的查询输入为示例图片,当文本特征存在时,用户可以用文本做输入,以视频片断为输入的系统很少见,这种输入方式实际上并不是很现实和有效,因为用户不一定能找到合适的示例图片,而文本特征在基于内容的视频检索系统中并不总是存在的。对用户给出的查询,基于抽取出来的特征,最常用的检索方法就是文本检索(文本特征、语义概念特征),相似性检索(声音、图像特征、语义概念特征)和基于机器学习的检索(声音、图像特征、语义概念特征)。许多检索算法的实验数据仅仅几百个或上千个,虽然采用顺序搜索,但感觉不出检索的响应时间。而对于大型媒体库

33、,则肯定需要建立索引,因此,需要研究新的索引结构和算法,以支持快速检索。目前,一般采用先减少维数,然后再用适当的多维索引结构的方法。虽然过去己经取得了一些进展,但仍然需要研究和探索有效的高维索引方法,以支持多特征、异构特征、权重、主键特征方面的查询要求。9. 展望在下列技术方面还有很多路要走。l 选取更为有效的视频特征。现有的颜色、纹理等特征还不能有效表示视频的内容。为了提高镜头和场景视频特征,在这些特征的选取过程中,可以结合用户反馈,通过机器学习自动完成。l 多特征融合检索技术。目前的研究大部分集中在可视媒体,尤其是图像和视频方面。但我们生活的信息环境是全方位的,多媒体信息还包括典型的音频媒

34、体,以及图形、动画等媒体。随着信息化进程的深入,这些媒体数据将会越来越多,不可避免要面临检索问题。即需要对数字音频、语音和音乐进行基于内容的检索,对合成媒体如动画、VRML数据进行检索等。在研究单一媒体的检索同时,注意研究多种媒体的互相关联和互补关系,以提高检索算法的效率。l 视频相关反馈。CBVR系统的一个重要特征就是信息获取过程的交互性,同时用户查询接口智能化是今后发展的一大趋势。查询接口应提供丰富的交互能力,为用户在主动的交互过程中表达对媒体语义的感知,调整查询参数及其组合,最终获得满意的查询结果。研究主要涉及如何转换用户的查询表达到可以执行检索的特征矢量,如何从交互过程中获取用户的内容

35、感知以便选择合适的检索特征等问题。l 在镜头检测方面。经过多年的发展,基于内容的视频检索技术在镜头的检测上已经取得了一定的进展,很多不同的算法被提出来,但是还有一些不完善的地方需要改进,特别是在镜头渐变检测方面由于镜头渐变类型很多而且很复杂,要完全准确检测出渐变镜头还有很多工作需要去做。l 人机交互功能。视频检索系统最终的功能是给人提供一个方便的检索平台,因此一个人性化的人机交互平台是必不可少的。例如多种的输入手段、灵活的交互手段、有效的反馈机制等等,都是一个人性化的检索系统所必需考虑的,一个检索系统在人机交互上的好坏将是系统性能很重要的方面,在这方面也有很多需要我们去研究的工作。l 性能评价

36、指标。目前对视频检索系统性能的评价还没有统一的标准可以遵循,而且检索系统的性能应考虑系统已具有或者应具有的各种性能。对于基于内容的视频检索系统,不仅搜索功能很重要,其他如浏览,组织和数据挖掘等方面的能力也很重要,所以对系统的衡量一定要全面。这方面的研究也正成为研究的热点,也有很多工作值得我们去做。l 基于压缩域的检索。视频压缩技术的发展势头是非常迅猛的,尤其目前以HDTV为代表的压缩技术己经与市场紧密结合,影响日益扩大。视频数据经过压缩以后,其中的大部分冗余信息被消除,保留的信息正是反映视频特征的信息。这个领域的研究可以从两方面入手:其一,挖掘现有的压缩算法所能够支持的视频内容分析技术,这样就

37、可以直接在压缩码流上完成大多数视频分析工作;其二,不断开发新的面向视频检索应用的压缩算法,使得压缩视频能够直接体现视频的内容特征和语义规则。l 基于网络的检索。网络的迅速发展和广泛应用,既推动了视觉信息检索的应用,也对视觉信息检索的技术提出了新的挑战。基于网络的文本检索技术基本成熟,baidu和google就是这一技术的典型代表,然而网络资源中的文本只是其中很小的一部分,而最有意义与最有说明力的资源是普遍存在于网络中的视觉信息,如图像和视频,但目前对于视觉信息的检索技术很不成熟,目前仍没有一种成熟的产品问世。l 基于语义的检索。现在的视觉检索系统在对图像内容进行描述时大多采用了文本的方法或低级

38、图像特征,而建立在低级特征基础上的传统的图像描述模型中,对图像的描述一般以统计数据的形式出现,实际上,这些统计数据与人对图像内容理解存在很大差异。首先,人对图像内容的理解并不是仅靠统计进行的,人还有学习的能力,其次,图像内容具有“模糊”的特性,无法用简单的特征向量来表示,最后,人对视频信息的理解是建立在人类己有知识的基础之上的,而这些低级特征无法反映这些经验知识。由此可见,如何描述视觉信息内容,使其尽可能与人对图像内容的理解一致,是图像检索的关键所在,也是难点所在,从人的认识角度看,人对信息的描述与理解主要是在语义层进行的,因此,如何将语义特征结合到检索系统提高检索系统的性能己越来越受到关注。

39、10. 附录10.1. 国内外已有的视频检索系统1. QBICQBIC是IBM研究中心开发的基于内容的检索系统,它是第一个功能齐全的视频数据库系统,也是基于内容检索系统的典型代表,对视频数据库发展有较远的影响。QBIC系统支持示例查询和用户草图查询,抽取颜色、纹理、形状特征、以及镜头和目标运动等信息,并采用R-tree作为高维索引结构,进而结合关键字对大型图像和视频数据库进行检索。2. Infor mediaInfor media数字视频库工程是卡耐基梅隆大学(CMU)关于数字视频媒体的处理与管理的一个重大项目,是较为完整的基于内容视频分析原型系统的先驱。该系统率先将数字音频处理技术和文本处理

40、技术运用到基于内容视频分析中,通过语音识别和文字识别获取视频语义、辅助视频分段、抽取有意义的视频片段生成视频摘要,支持自动的全方位的视频信息查询,以支撑基于内容的视频浏览、检索和服务。3. videoQvideoQ是一套全自动的面向对象的基于内容的视频查询系统,是由哥伦比亚大学的图像与高级电视实验室研制的一个原型系统。它拓展了基于关键词或主题浏览的传统检索方式,提出了全新的基于丰富视觉特征和时空关系的查询技术,可以帮助用户查询视频中的对象,其目的在于探究视频中潜在的所有视觉线索并用于面向对象的基于内容的视频查询。目前VideoQ支持着一个巨大的视频数据库,同时,VideoQ又是一个面向Web的

41、视频搜索系统。4. Visual SEEKVisual SEEK是一个视觉特征查询系统,WebSEEK是一个面向WWW的文本/图像/视频查询系统,它们是由哥伦比亚大学开发的。VisualSEEK/WebSEEK的主要特点是根据图像区域的空间关系检索和从压缩域提取的视觉特征,它们采用的视觉特征是颜色集和基于小波变换的纹理特征,为了加快检索速度,使用了二叉树索引算法。这套系统具有某些概念强大的模块:基于内容的图像检索概念、根据用户相似度反馈的查询优化、视觉信息的自动提取、查询结果视频/图像的缩微表示、图像/视频的主题浏览功能、基于文本的查找、对查询结果的操作等。5. CVEPSCVEPS是COLU

42、MBIA大学开发的视频检索和操作系统的软件原型,支持自动视频分割,基于关键帧和对象的视频检索和压缩视频编辑。6. JAKOBJAKOB是意大利Plerm大学开发的视频数据库查询系统,该系统通过镜头提取器把视频数据分割成镜头,从每个镜头中选取一些具有代表性的帧。根据颜色和纹理描述这些代表帧,然后计算与这些短序列相关的运动特征并给出一个动态描述。当向该系统提交一个查询或是例子直接查询时,查询模型会对它做出解释,排列好匹配参数,给出最相似的镜头。用户可以浏览这些结果,必要的话,改变参数,反复地进行查询。7. viSIONviSION是KANSAS大学开发的数字视频图书馆原型系统,在该系统中综合了视频

43、处理和语音识别,根据基于视频和音频内容的两段式算法,自动把视频分成大量具有逻辑语义的视频剪辑,在系统中加入标题译码器和字指示器提取文本信息,通过他们索引视频剪辑。8. gnalglegnalgle足球视频搜索引擎是Alllsterdam大学开发的足球视频分析系统。该系统基于web应用,具有树型结构框架。用户可以很方便的找到如进球,黄牌,红牌警告,换人,或者搜索到特殊的球员。9. Rochester大学的体育视频分析系统Rochester大学的体育视频分析系统,能较好的对体育比赛视频进行物体目标和事件的检测,并且最终形成精彩镜头的视频摘要,该系统已用于2004年奥运会,将足球比赛视频处理,传送到

44、用户的手机上。10. TV-FITv-FI(Tsinghua Video Find It)是由清华大学开发的视频节目管理系统,功能包括:视频数据入库,基于内容的浏览、检索等。11. iVideoiVideo是由中国科学院计算技术研究所数字化技术研究室开发的视频检索系统,是一套基于J2EE平台的具有视频分析、内容管理、基于Web检索和浏览等功能的视频检索系统。12. VideowserVideowser是由国防科技大学胡晓峰教授和李国辉教授主持的研究组所开发的原型系统。该研究组的研究工作主要集中在视频的结构分析方面,他们对镜头分割、关键帧提取和镜头聚类等问题进行了研究和探讨,最近该研究组开始了对

45、音频特征提取和检索方面的研究。以及多媒体研究中心和系统工程系研究开发出了新闻节目浏览检索系统伽(New Video CAR)和多媒体信息查询和检索系统。13. 基于镜头质心特征向量的视频相似度衡量方法浙江大学潘云鹤院士和庄越挺教授研究组主要针对视频检索和视频相似度衡量等问题进行的研究,提出了基于镜头质心特征向量的视频相似度衡量方法,从而提供了一种从图像序列特征方面来进行视频检索的方法。另外,该研究组还试图从视频流中的闭路(Closed-Caption)中提取信息来进行视频检索。14. 基于特征子脸(Eigen Subface)的人脸检测与跟踪系统北京大学高文教授主持的研究组主要进行在复杂背景下

46、的人脸检测与跟踪系统方面的研究,他们设计并实现了一种基于特征子脸(Eigen Subface)的人脸检测与跟踪系统,它首先利用模板匹配的方法进行粗检测(利用一种灰度分布的人脸模板),并在此基础上收集有效的反例样本集(非人脸样本集),来提高识别的精度。目前该研究组正在进行综合音频特征和图像序列特征的唇读(Lip-reading/Speech-reading)研究。15. IfineIfind信息检索系统是微软亚洲研究院的张宏江博士所带领的小组研制出的系统,取得的成果最为突出。16. 其他Virage公司的Virage Search Engine由UIUC开发的MARS国防科技大学多媒体研究开发中心研制开发的NewVideoCAR国防科技大学系统工程系研制开发的MIRCMPEG- 7,即“多媒体内容描述接口”(Multimedia Content Description Interface),作为MPEG组织提出的新标准,其目标就是制定一组标准的描述符及其描述模式(定义描述子的结构和相互关系),内容描述与媒体

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论