




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
多媒体内容检索与管理第一页,共一百一十七页,2022年,8月28日2多媒体内容检索与管理1多媒体数据库2多媒体内容管理3多媒体内容检索6基于内容视频检索5基于内容音频检索4基于内容图像检索第二页,共一百一十七页,2022年,8月28日
31.1多媒体概念多媒体信息媒体多媒体技术多媒体即媒介,承载、传输和表现信息的手段指集数据、文字、图形、图像、声音和视频等为一体的综合媒体信息指利用计算机将文本、图形、图像、声音、动画、视频等多种媒体信息进行处理和综合集成,以供人机交互使用的一个计算机应用分支第三页,共一百一十七页,2022年,8月28日Page
41.2多媒体数据库系统多媒体数据的特点数据量大
结构复杂数据传输的连续性时序性-同步机制第四页,共一百一十七页,2022年,8月28日Page
51.2多媒体数据库系统多媒体数据库传统数据库存储和处理复杂对象面向应用强调媒体独立性处理的应用对象不同,处理的方式也不同具有更强的对象访问手段强调终端用户界面的灵活性和多样性存储和处理格式化数据单一的数据模型简单的查询方式提供准确的查询第五页,共一百一十七页,2022年,8月28日1.2多媒体数据库系统MDBS的层次结构多媒体数据库系统的核心任务是实时地综合处理图、文、声信息集中型A指由单独一个MDBMS来建立和管理不同媒体的数据库,并由这个MDBMS来管理对象空间及目的数据的集成。协作型C协作型MDBS是由多个数据库管理系统组成的,这些数据库管理系统之间没有主从之分,但能相互通信,协调工作。主从型B每一个数据库都有自己的管理系统,称为从MDBMS,各自管理自己的数据库。这些从MDBMS又受一个被称为主MDBMS的统一控制和管理。第六页,共一百一十七页,2022年,8月28日1.2多媒体数据库系统集中型组织结构Page7第七页,共一百一十七页,2022年,8月28日1.2多媒体数据库系统主从型组织结构Page8第八页,共一百一十七页,2022年,8月28日1.2多媒体数据库系统协作型组织结构Page9第九页,共一百一十七页,2022年,8月28日1.3多媒体数据库(MDB)
传统数据库系统的主要处理对象是整数、实数、字符串等简单类型数据,但这种格式数据很难实现对人脸、指纹、人的声音等事物的有效描述。传统数据库的层次结构如下:Page10第十页,共一百一十七页,2022年,8月28日1.3多媒体数据库(MDB)
传统数据库的层次结构可以在用户给出查询条件后迅速地检索到正确的信息,但面对图像、声音、视频等无格式数据,如何设定检索条件,如何查询所需结果等,都是无法直接实现的。
因此就必须寻找恰当的结构分层形式,已有多种层次划分,包括对传统数据库的扩展、对面向对象数据库的扩展、超媒体层次扩展等。虽然各有所不同,但大都是从最低层增加对多媒体数据的控制与支持,在最高层支持多媒体的综合表现和用户的查询描述,在中间增加对多媒体数据的关联和超链的处理。Page11第十一页,共一百一十七页,2022年,8月28日1.3多媒体数据库(MDB)综合各多媒体数据的层次结构如下:最高层支持多媒体的综合表现和用户的查询描述,完成用户对多媒体信息的查询描述和得到多媒体信息的查询结果中间层增加对多媒体数据的关联和超链的处理,对现实世界用多媒体数据信息进行的描述,也是多媒体数据库中在全局概念下的一个整体视图,该层为上层的用户接口、下层的多媒体数据存储和存取建立起一个在逻辑上统一的通道通过存取与存储数据模型描述媒体数据的逻辑位置安排、相互的内容关联、特征与数据的关系等,并完成多媒体数据的逻辑存储与存取。底层增加对多媒体数据的控制与支持。建立在多媒体操作系统之上,对不同性质媒体分别进行相应的分割、识别、变换等操作,并确定物理存储的位置和方法,以实现对各种媒体的最基本数据的管理和操纵Page12第十二页,共一百一十七页,2022年,8月28日1.4多媒体数据库管理系统(MDBMS)
在多媒体系统中存在着声音、文字、图形、视频等媒体信息,与传统的计算机应用系统中只存在字符、数值相比扩充很大,这就需要一种新的管理系统对多媒体数据库进行管理。这种MDBMS能像传统的数据库那样对多媒体数据进行有效地组织、管理和存取,并可以实现以下功能:多媒体数据库对象的定义、多媒体数据存取、多媒体数据库运行控制、多媒体数据库建立与维护、多媒体数据库在网络上的通信功能等。Page13第十三页,共一百一十七页,2022年,8月28日Page
141.4多媒体数据库管理系统(MDBMS)数据操作功能管理各种媒体数据网络功能A、表示和处理各种媒体数据,如文本、图像、音频、视频等。B、反映和管理各种媒体数据的特性,或各种媒体数据之间的空间或时间的关联。A、提供对无格式数据的查询搜索功能B、对不同媒体提供不同的操作方法,如图形、图像的编辑处理,声音数据的剪辑等。A、解决分布在网络上的多媒体库中数据的定义、存储、操作问题。B、对数据的一致性、安全性、并发性进行管理。第十四页,共一百一十七页,2022年,8月28日1.4多媒体数据库管理系统(MDBMS)多媒体数据库管理系统MDBMS(MultimediaDatabaseManagementSystem)一般由用户界面、存储子系统、特征数据库、索引子系统、检索子系统和数据分析子系统等部分组成。其中用户界面采用B/S方式实现,该用户界面需要支持用户以图形方式进行基于内容的查询,同时也需要支持传统文本方式的查询。其体系结构如下图:Page15第十五页,共一百一十七页,2022年,8月28日1.4多媒体数据库管理系统(MDBMS)Page16第十六页,共一百一十七页,2022年,8月28日17多媒体内容检索与管理1多媒体数据库2多媒体内容管理3多媒体内容检索6基于内容视频检索5基于内容音频检索4基于内容图像检索第十七页,共一百一十七页,2022年,8月28日Page
182.1多媒体内容处理概念级内容感知特性逻辑关系特指特征多媒体数据的内容概念的层次视觉特性,如颜色、视觉对象、纹理、草图、形状、体积、空间关系、轮廓、等,听觉特性如音调、音色、音质等。音视频对象的时间和空间关系,语义和上下文关联等。与应用相关的媒体特征,如人的体形特征、面部特征、指纹特征等。对象的语义表达,例如利用文本的描述,通过分类和目录来组织层次浏览,用链来组织上下文关联。第十八页,共一百一十七页,2022年,8月28日2.1多媒体内容处理多媒体内容的处理如下图所示可分为三大部分:a、内容获取、b、内容描述和c、内容操纵。首先要对原始媒体进行处理并提取内容,然后用标准形式描述所提取的内容,以支持各种内容的查询、检索、索引等内容的操纵。Page19第十九页,共一百一十七页,2022年,8月28日2.1多媒体内容处理
内容获取是通过对各种内容的分析和处理而获得媒体内容的过程。多媒体数据的重要成分是空间和时间结构,首先必须分割出图像对象、视频的时间结构、运动对象,以及这些对象之间的关系,然后提取显著的区别特征和人的视觉、听觉感知特征来表示媒体和媒体对象的性质。Page20第二十页,共一百一十七页,2022年,8月28日2.1多媒体内容处理
内容描述就是针对获取的内容进行描述。为了支持数据管理的灵活性、数据资源的全球化和互操作性,描述必须基于一定的标准。MPEG-7标准被称为“多媒体内容描述接口”,主要采用描述子(Descriptor)和描述模式来分别描述媒体的特性及其关系。描述子是特征的表示法,一个描述子就是定义特征的语法和语义学。MPEG-7标准定义了一系列的描述结构、一种详细说明描述结构的语言、描述定义语言(DDL)和多种编码描述方法。Page21第二十一页,共一百一十七页,2022年,8月28日2.1多媒体内容处理内容操纵主要针对内容的用户操作和应用。有许多这方面的名词和术语。查询(Query)是面向用户的术语,多用于数据库操作、检索(Retrieval)是在索引支持下的快速信息获取方式、搜索(Search)常用于Internet的搜索引擎、摘要(Summarization,Excerpt)是适合于视频和音频等时基媒体的特殊操作、浏览(Browsing)可以线性或非线性地存取结构化的内容、过滤(Filtering)是与检索相反的一种信息存取方式。Page22第二十二页,共一百一十七页,2022年,8月28日2.2基于内容的多媒体信息检索基于内容检索(Contentbased),就是从媒体数据中提取出特定的信息线索,根据这些线索从大量存储在数据库中的媒体中进行查找,检索出具有相似特征的媒体数据出来。
多媒体数据的“内容”表示多媒体信息的含义、要旨、主题和显著的性质、实质性的东西、物理细节等,而多媒体内容处理技术要基于对内容的基本定义。Page23第二十三页,共一百一十七页,2022年,8月28日Page
242.2基于内容的多媒体信息检索多媒体信息检索的特点相似性检索:CBR采用一种近似匹配的方法和技术,逐步求精来获得查询和检索结果,每一层的中间结果是一个集合,不断减少集合的范围,直到定位到查找的目标直接从内容中提取信息线索:CBR直接对文本、图像、视频、音频进行分析,从中抽取内容特征,然后利用这些内容特征建立索引并进行检索。满足用户多层次的检索要求:CBR检索系统通常由媒体库、特征库和知识库组成。大型数据库(集)的快速检索:CBR往往拥有数量巨大、种类繁多的多媒体数据库,能够实现对多媒体信息的快速检索。第二十四页,共一百一十七页,2022年,8月28日2.3内容检索的关键技术基于内容的多媒体数据库管理系统除了解决媒体信息的存储,还要求能够从媒体数据中分析、抽取可供检索的内容特征,用于信息的检索。其关键技术主要有特征抽取、特征分析和特征匹配。特征提取:提取各种特征,如颜色,纹理,形状等。根据提取的特征不同,采取不同的处理,例如提取形状特征,就需要先进行图像分割和边缘提取等步骤。选择合适的算法,并在效率和精确性方面加以改进,以适应检索的需要,并实现特征的提取。特征分析:对图像的各种特征进行分析,选择提取效率高、信息浓缩性好的特征,或者将几种特征进行组合,用到检索领域。特征匹配:选择何种模型来衡量图像特征间的相似度。Page25第二十五页,共一百一十七页,2022年,8月28日2.3内容检索的关键技术基于内容多媒体数据库管理系统的的功能框架如下图所示。Page26第二十六页,共一百一十七页,2022年,8月28日2.4基于内容的多媒体信息检索体系结构基于内容检索系统结构由特征分析子系统、特征提取子系统、数据库、查询接口、检索引擎和索引过滤等子系统组成,同时需要相应的知识辅助支持特定领域的内容处理。Page27第二十七页,共一百一十七页,2022年,8月28日2.4基于内容的多媒体信息检索体系结构特征分析:该子系统负责将需要入库的媒体进行分割或节段化,标识出需要的对象或内容关键点,以便有针对性的对目标进行特征提取。特征标识可通过用户输入或系统定义。特征提取对用户提供或系统标明的媒体对象进行特征提取处理。提取特征时需要知识处理模块的辅助,与标准化的知识定义直接有关。数据库包含多媒体数据库和特征数据库,分别存放多媒体数据同对应的特征数据,它们彼此之间存在着一定的对应关系。特征库中包含了由用户输入的和预处理自动提取的特征数据,通过检索引擎组织与媒体类型相匹配的索引来达到快速搜索的目的。Page28第二十八页,共一百一十七页,2022年,8月28日2.4基于内容的多媒体信息检索体系结构查询接口,即人机交互界面,友好的人机交互界面是检索系统不可缺少的。在基于内容的检索中,由于特征不直观,因此必须为用户提供一个可视化的输入手段,还应在用户界面提供查询结果的创览功能,即为用户提供初步查询结果的返回,系统会根据用户选择的排序标准(如颜色、旋律、节拍等),按照相似度的大小将结果排列后,返回给用户。检索引擎,检索要将特征提取值和特征库中的值进行比较,得到一个相似度。不同的媒体各自具有不同的相似度算法,这些算法也称为相似性测度函数。检索引擎使用相似性测度函数集去进行比较,从而确定与特征库的值最接近的多媒体数据。索引过滤在大规模多媒体数据检索过程中,为了提高检索效率,常在检索引擎进行匹配之前采用索引过滤方法,取出高维特征用于匹配。Page29第二十九页,共一百一十七页,2022年,8月28日2.4基于内容的多媒体信息检索体系结构如果用户对系统返回的查询结果不满意怎么办?相关返馈技术Page30第三十页,共一百一十七页,2022年,8月28日2.5基于内容的多媒体信息检索中的相关反馈技术在基于内容的检索过程中相关反馈是一个相当重要的过程。因为仅仅基于图像低层特征很难给出令人满意的结果,主要原因是图像低层特征和高层语义间存在着很大的差距。相关反馈技术就是为了解决这个问题而提出的,一方面需要找出更有效的多媒体表示方法,另一方面通过人机交互来捕捉和建立低层特征和高层语义之间的关联。
相关反馈技术的基本思想是建立一个由用户参与的交互过程,在交互过程逐步求得精确的查询结果。在检索过程中,系统根据用户的查询要求返回检索结果,用户可以对检索结果进行评价和标记,并将这些信息反馈给系统,系统则根据这些反馈信息进行学习,并返回新的查询结果,从而使得检索结果更加满足用户的要求。Page31第三十一页,共一百一十七页,2022年,8月28日2.5基于内容的多媒体信息检索中的相关反馈技术相关反馈结构图如下:Page32第三十二页,共一百一十七页,2022年,8月28日参考文献[1]郑继文,吴吉义.多媒体数据库管理系统的关键技术分析[J].微型机与应用,2007(6):94-96.[2]徐险峰.基于内容的多媒体信息检索技术[J].现代情报,2005,25(3):134-136.[3]李松涛,钟建宁.基于内容的多媒体数据库管理系统研究[J].计算机技术与发展,2008,18(12):214-216.[4]柳群英.基于内容的音频信息检索技术[J].现代情报,2005(6):91-93.[5]黄丽娟.基于内容的多媒体信息检索[J].现代图书情报技术,2000(5):40-43.[6]武献宇,谢金龙,米志强.基于内容信息检索技术研究[J].电脑知识与技术,2009,5(8):1923-1924.[7]李广建,黄永文.基于内容的信息检索[J].中国图书馆学会2000年会论文,2000:111-118.[8]黄敬泉,韩冰.基于内容的检索新进展[J].现代计算机,2010:38-40.[9]黄志军,曾斌.多媒体数据库技术[M].北京:国防工业出版社,2005:91-115.[10]高阳.数据库技术与应用[M].北京:电子工业出版社,2003:316-318.第三十三页,共一百一十七页,2022年,8月28日34多媒体内容检索与管理1多媒体数据库2多媒体内容管理3多媒体内容检索6基于内容视频检索5基于内容音频检索4基于内容图像检索第三十四页,共一百一十七页,2022年,8月28日Page
353.1基于内容检索的实现技术1、模式识别将用户提供的目标媒体数据对象与数据库中的源媒体数据对象进行模糊匹配,然后读取数据进行表示。这种检索方式精确度较低,查询执行时间较长。2、特征提取将基于媒体内容的检索转换为基于媒体内容特征的检索。特征检索就是从媒体数据中提取特定的信息线索特征,然后再根据这些数据特征在数据集合中检索出具有相似特征的媒体数据来。第三十五页,共一百一十七页,2022年,8月28日Page
363.1基于内容检索的实现技术多媒体特征的多维性空间特征,有对象的纹理和形状特征以及对象的空间关系等;时间特征,有对象随时间变化的轨迹,如音乐片段的持续时间。特征表示是多层的:(1)客观特征:反映多媒体数据本身具备的特性,如对象的颜色、形状、纹理、音频频率等。(2)主观特征:指人们对多媒体数据的主观感知,如对情绪(快乐、愤怒)和风格的描述。(3)作品特征:如作者、厂家、导演等信息。(4)合成特征:包括场景合成、编辑信息、用户的喜好等。(5)概念(高层特征):用于描述事件和活动等概念。第三十六页,共一百一十七页,2022年,8月28日Page
373.1基于内容检索的实现技术基本检索步骤:对入库的多媒体数据进行特征提取以提取的媒体特征建立索引输入用户描述将用户描述与库中媒体进行相似性匹配在相似性匹配的结果中选择最终结果常用的图像特征有颜色、纹理、形状等,音频特征有音量、频率分布、无声率等,视频特征有关键帧、运动对象等第三十七页,共一百一十七页,2022年,8月28日Page
383.2多媒体内容检索过程整个过程可以分为下面几个步骤:(1)初始查询说明。用户查找一个对象时,最初可以用示例查询(QBE)或查询语言来形成一个查询。系统提取该示例的特征或把查询描述映射为具体的特征向量。(2)相似性匹配。将查询特征与特征库中的特征按照一定的匹配算法进行相似匹配。(3)满足一定相似性条件的一组候选结果,按相似度大小排列后返回给用户。(4)特征调整。用户可以挑选系统返回的查询结果,直至得到满意的结果;或者从候选结果中选择一个示例。根据用户给出的结果相关度反馈,对查询进行特征调整,形成一个新的查询。(5)逐步缩小查询范围,重复步骤(2)~(5),直到用户对查询结果满意为止。第三十八页,共一百一十七页,2022年,8月28日Page
393.3基于内容检索系统概念基于内容检索(CBR,Content-BasedRetrieval)每一种媒体数据都有难以用符号化方法来描述的信息线索(如图像中的颜色、视频中的事件、音频中的音调等)。当用户希望利用这些信息线索来对多媒体数据进行检索时,传统的数据库检索多采用基于关键字的检索方式,并且在许多情况下媒体内容难以用几个关键字来进行充分描述,作为关键字的图像特征的选取也有很大的主观性。另一方面,用户很难将这些信息线索转化成某种符号形式。因此,要求数据库系统能对多媒体数据进行内容语义分析,以便达到更深的检索层次,这就是所谓的基于内容检索第三十九页,共一百一十七页,2022年,8月28日Page
403.3基于内容检索系统概念基于内容检索主要特点①从媒体内容中提取信息线索。基于内容检索突破了传统的基于关键字检索的局限,直接对图像、视频、音频等进行分析,抽取特征,使得检索更接近于媒体对象。②提取特征的方法多种多样。以图像特征提取为例,可以提取形状、颜色、纹理和轮廓等多种特征。③人机交互。一般来说,用户对特征比较敏感,能够迅速分辨出目标的轮廓、音乐的旋律等。如果对象很多,则用户很难记住这些对象的特征,从大量数据中查找目标的效率也非常低,但计算机能够轻松地做到这一点。因此,在使用基于内容检索系统时,用户与计算机配合进行检索。第四十页,共一百一十七页,2022年,8月28日Page
413.3基于内容检索系统概念基于内容检索主要特点④近似匹配。基于内容检索时一种近似匹配过程。在检索过程中,采用逐步求精的方法,每一层的中间结果是一个集合,不断地减小该集合的范围,直到定位到目标为止。这一特点与数据库检索的精确匹配算法显然不一样。⑤综合利用多种相关技术。基于内容检索可以利用图像处理、语音信号处理、模式识别、知识库系统、计算机图形学、数据库管理系统、信息检索等众多领域的研究成果和研究方法,来研究各种新的媒体数据表示和数据模型、高效可靠的查询处理算法、智能查询接口以及与应用领域无关的系统结构。第四十一页,共一百一十七页,2022年,8月28日Page
423.3基于内容检索系统概念基于内容检索系统体系结构主要模块如下:(1)目标标识模块(2)特征提取模块(3)数据库模块(4)查询接口模块(5)检索引擎模块(6)索引/过滤模块第四十二页,共一百一十七页,2022年,8月28日Page
433.4未来的主要研究问题(1)综合的多特征检索技术(2)高层概念和低层特征的关联。(3)高维索引技术(4)时序媒体的内容结构化(5)用户查询界面(6)数据模型(7)性能评价(8)内容描述标准(9)多媒体信息安全第四十三页,共一百一十七页,2022年,8月28日44多媒体内容检索与管理1多媒体数据库2多媒体内容管理3多媒体内容检索6基于内容视频检索5基于内容音频检索4基于内容图像检索第四十四页,共一百一十七页,2022年,8月28日Page
454.1图像检索的发展基于内容的图像检索涉及信息检索、图像处理、计算机视觉、机器学习、人工智能等诸多研究领域关于图像信息的检索技术经历了图像特征文本描述→图像表层视觉特征→图像语义内在特征的3个阶段。第四十五页,共一百一十七页,2022年,8月28日Page
464.1图像检索的发展20世纪70年代末人工文字注解图像利用文本检索实现对图像特征的查找费时费力不完整反映图像表层视觉特征20世纪90年代初使用颜色、纹理及形状等视觉特征实现了图像视觉内容特征的检索以图找图查询模式图像语义内在特征智能检索解决图像简单视觉特征和用户检索丰富语义之间存在的"语义鸿沟"问题的关键第四十六页,共一百一十七页,2022年,8月28日Page
474.1图像检索的发展基于内容的图像检索技术研究的4个热点最初的图像检索研究主要集中于如何选择合适的全局特征去描述图像内容和采用什么样的相似性度量方法进行图像匹配。第二个研究热点是基于区域的图像检索方法,其主要思想是通过图像分割技术提取出图像中的物体,然后对每个区域使用局部特征来描述,综合每个区域特征可得到图像的特征描述。前两个研究方向可称为以图像为中心的方法,对于用户的需求缺乏分析。第三个研究热点就是针对这一问题展开的,借助相关反馈的思想,根据用户需求及时调整系统检索时用的特征和相似性度量方法,从而缩小底层特征和高层语义之间的差距。第四个研究热点是研究如何从多种渠道获取图像语义信息,如何将图像底层特征与图像关键词结合进行图像自动标注以提高检索准确率等。第四十七页,共一百一十七页,2022年,8月28日Page
484.2基于内容图像检索的系统结构图基于内容图像检索的体系结构分为特征提取和查询两个子系统:(1)预处理包括图像格式的转换、规格化,图像的增强与去噪等功能。(2)目标标识即标识出图像中用户感兴趣的区域或对象,以便针对目标进行特征提取并查询。(3)特征提取包括提取图像颜色、纹理、形状、空间位置关系等特征。第四十八页,共一百一十七页,2022年,8月28日Page
494.2基于内容图像检索的系统结构图基于内容图像检索的体系结构(4)数据库由图像库、特征库和知识库组成。图像库为数字化的图像信息,特征库包含自动提取的内容特征,知识库包含专门和通用知识,有利于查询优化和快速匹配,知识库中知识表达可以更换以适用于各种不同的应用领域。第四十九页,共一百一十七页,2022年,8月28日Page
504.2基于内容图像检索的系统结构图基于内容图像检索的体系结构(5)查询接口提供一个友好的用户界面。包括可视化的输入手段和结果浏览功能。(6)检索引擎中包括一个有效可靠的相似性测度函数集。(7)检索引擎通过索引/过滤模块达到快速检索的目的。第五十页,共一百一十七页,2022年,8月28日Page
514.3基于内容图像检索的特点主要特点有:(1)基于内容检索突破了传统的基于表达式检索的局限,从媒体内容中提取信息线索。利用图像内容特征建立索引进行检索。使得检索过程更加有效,适应性更强。(2)基于内容图像检索是一种近似匹配的技术。由于相同内容的图像有不同的表现方式,例如同一场景下的图片有远景和近景之分。而且图像信息的内容比较丰富,相互关联性比较强。(3)大型数据库的快速检索。在实际的多媒体数据库中,不仅数据量巨大,而且种类和数量繁多,因此要求CBIR技术快速地实现对多媒体信息的检索。(4)以相关反馈为有效手段。当用户提供一幅查询草图(sketch)或图像,并要求找出与此相似的图像时,其意识中已经有了相似性判别标准。理想情况下,系统的相似性度量应该与用户的判别一致,它涉及人类视觉系统对图像的认知和高层语义的解释。因此通过用户的相关反馈,检索系统学习用户的意图和准则来指导图像检索过程,有效提高图像检索的效率。第五十一页,共一百一十七页,2022年,8月28日Page
524.4基于内容图像检索方法的分类基于内容的图像检索方法可分为外部图例查询、内部图例查询、草图查询和综合查询。早在1980年就有文献提出了图倒查询的概念,图例查询是一种由一幅或多幅图像实例构造查询的图像检索技术。1、外部图例查询示例图像来源于检索系统的外部优势在于用户在表达其信息需求时的简单性。用户仅需提供一幅或多幅图像,或许也需要调整一些参数,如各种特征的权重等。检索过程中并不需要特定的数据库查询语言方面的知识。
缺点当用户很难提供一个示例图像时,外部图倒查询的可用性将大打折扣。也许在某种情况下,在系统外部寻找一幅示例图片所付出的代价甚至有可能超过直接在数据库中寻找图像的代价。总之,外部图例查询的优点是易用,缺点是需要付出一定的努力向系统提供外部示例图像。第五十二页,共一百一十七页,2022年,8月28日Page
534.4基于内容图像检索方法的分类2、内部图例查询示例图片是从检索系统的数据库中选出的。系统在其他方面的功能与外部示例图片基本上一致。为了比较内部与外部示例查询,拿抢劫嫌疑犯的照片的检索作例子。目击者没有必要一张一张地翻阅警察局存档的嫌疑犯照片库,通过图例查询,目击者可以先选择一张看上去比较像嫌疑犯的照片,比如两者都有络腮胡子,然后从系统给出的所有相似者列表中快速确定搜索目标。优势在于不再需要为了进行图例查询而首先从外界寻求或构造一幅示例图片。缺点:系统要求用户必须首先在数据库中找到一幅类似的图片,这个过程可能是相当费时费力的。所以内部图例查询经常与其他检索方法结合使用以避免这个问题。比如可以先通过直接查询缩小图像搜索范围,然后再使用内部图例查询。总之,内部图例查询的优点是用户不再为获得一个外部示例图片而烦恼,缺点是仍然需要用户付出努力在数据库中找到一幅合适的示例图片。第五十三页,共一百一十七页,2022年,8月28日Page
544.4基于内容图像检索方法的分类3、草图查询示例图像由用户创建。用户为他希望得到的图像勾画一张草图。检索系统为此必须为用户提供一些图像部件(如各类纹理)和作图工具。我们还是拿前面提到的抢劫嫌疑犯的照片检索作例子,这里向系统输入的示例图像是一张嫌疑犯的简略肖像草图,它是由有关专家根据目击者的叙述描画的。有时目击者可以通过组合一些诸如头发、鼻子、眼睛等部件的照片而构造一张脸。缺点是它要求用户或多或少要有一些艺术才能。由于大多数的用户不具备足够的这方面的才能,草图查询在大多数的场合下仅用来指出图像中对象的位置或一些对象的全局属性。可见,草图查询的优点是用户可以根据需要指出最重要、最感兴趣的图像细节,缺点是草图的创建不像想象的那么容易,而且很难建立草图与图像之间的映射关系。第五十四页,共一百一十七页,2022年,8月28日Page
554.4基于内容图像检索方法的分类4、综合检索方法大多数的图像检索系统都或多或少地综合应用了上述的各种检索方法。系统可以对同一个数据库提供多种检索方法的接口,但更有意义的是在一次检索会话中综合应用不同的检索技术。后一种情况下,检索系统将是多个应用不同检索方法的子系统的有机集成,子系统之间通过输入与输出的对接完成通信与交互。第五十五页,共一百一十七页,2022年,8月28日Page
564.5基于内容图像检索的应用1.知识产权保护许多知识产权的载体都是图像,最明显的是商标和艺术作品。毫无疑问,利用基于内容的图像检索技术实现商标的专用图形标记的自动审查具有非常现实的意义。2.新一代网上搜索和数字图书馆新一代网上搜索引擎应该具有协助用户从海量而且无序的网上图像资源中寻找符合要求的图像的能力。除了对图像内容的分析外,基于Web的图像搜索引擎还要提供友好的查询界面和快速的联机反应能力。3.医学和遥感图像的分析和处理尽管传统的图像处理领域早就开始涉足医学和遥感图像的分析和处理的研究,但它们仍然是一个开放的研究课题,无论是民用还是军事,医学和遥感图像的分析和处理都具有非常重大的现实意义。特别当图像规模增加时,准确有效的图像分析手段以及快速的图像识别和检索技术将凸现其重要性。第五十六页,共一百一十七页,2022年,8月28日Page
574.5基于内容图像检索的应用4.犯罪与安全预防当将图像的内容限制在特定领域时,基于内容的图像检索技术将找到更为具体的应用。例如,安全部门可以将人的主要特征(如指纹和脸部)的图像存储在数据库中,通过指纹识别和人脸识别就有可能从大量的指纹库或者人脸库中自动识别出特定的目标。毫无疑问,这具有重大的社会价值。互联网的飞速发展也带来另外一个负面的影响,即网上不健康内容的大量增加,特别是一些低级趣味的图片。在某些情况下可能需要对这些信息进行过滤。基于内容的图像检索技术完全可以应用到类似的具有图像过滤需求的应用中。除此以外,基于内容的图像检索技术还可以应用到设计(时装、装潢和结构)、远程教育以及个人相册管理等方面。第五十七页,共一百一十七页,2022年,8月28日Page
584.6基于文本与基于内容的图像检索技术的比较1.基于文本的图像检索TBIR传统的图像检索方法.它是在对图像进行文本标注的基础上,对图像进行基于关键字的检索.在这种技术下,对图像的检索变成了对关键字的查找,是一种基于关键词的匹配查找过程.其基本步骤是先对图像文件建立相应的关键词或描述字段,它通过对图像的名称、编号、内容描述、图像大小、图像所在文件的大小、图像来源、作者、建立图像的时间、存储地点等关键性的信息采用自动标引或进行人工注释,并进行图像的特征抽取,建立图像索引数据库,然后按全文数据库管理,采用全文数据库检索方法.该方法的实质是把图像检索转换为对与该图像对应的文本检索.第五十八页,共一百一十七页,2022年,8月28日Page
594.6基于文本与基于内容的图像检索技术的比较2.
TBIR的优点和问题优点:易于实现人工干预,所以它的查准率是相当高,仍常用于辅助其他图像检索技术,以进一步提高检索性能.存在的困难:文本描述难以充分表达图像的丰富内容图像中则往往含有大量需要定量描述的信息许多图像的特征难以用文本描述表达文本描述又具有一定的主观性文本描述难以实现基于图像视觉特征的相似性检索海量数据下人工标注的开销太大第五十九页,共一百一十七页,2022年,8月28日Page
604.6基于文本与基于内容的图像检索技术的比较3.
TBIR与CBIR的比较TBIR与CBIR有着各自的优势和不足,下面列表比较了两种方法.第六十页,共一百一十七页,2022年,8月28日Page
614.6基于文本与基于内容的图像检索技术的比较3.
TBIR与CBIR的比较TBIR在一定程度上回避了对复杂的可视化元素的识别难题,符合人们熟悉的检索习惯,实现简单,由于图像在手工标注时图像的标注有太多的主观性、缺乏统一的标准,仍旧局限在文本检索的范围下,通过受控词汇来描述图像,无法对图像内容理解,而且其在表达复杂的或是难以表达的图像内容时有极大的局限性.CBIR恰相反,主要利用对直观形象的特征元素的分析来标引图像,具有一定的客观性,如每幅图像的色彩直方图是确定的.但是CBIR算法复杂,实现成本高,难以建立从底层图像特征到高层语义的联系,检索的准确性较低.如果能将二者结合起来取长补短,则网络环境下图像检索技术必有新的进展.第六十一页,共一百一十七页,2022年,8月28日Page
624.6基于文本与基于内容的图像检索技术的比较4.TBIR与CBIR的结合运用网页图像的内容不仅包含在自身的图像数据中又包含于它所HTML档的文字描述中.Web图像的这种特点提供了TBIR与CBIR结合运用的机会.人们对图像间相似度的判断体现出多重标准,既有语义标准又有低层特征标准,而且不同的人在判断标准上也有差异.因此,一个有效的Web图像检索系统要便于根据不同用户的标准进行调整,这就要求将文字描述和图像低层属性进行合理利用.第六十二页,共一百一十七页,2022年,8月28日Page
634.6基于文本与基于内容的图像检索技术的比较4.TBIR与CBIR的结合运用为此有机整合TBIR和CBIR,构建了一个基于web的图像检索系统,使二者互为补充,这样系统就可同时获取图像的低层和高层特征.
用户可以通过关键词开始检索一个查询,而返回结果后再选择可以作为查询样图的图像进行基于内容属性的检索.通过页面分析器从网页中自动抽取能反映图像语义信息的符号和文字,然后按照传统的文本信息检索技术,建立图像的语义特征库.利用概念之间的关系对提取的语义概念进行关联映射,从而对其进行更广泛意义的自动标注.第六十三页,共一百一十七页,2022年,8月28日Page
644.6基于文本与基于内容的图像检索技术的比较4.TBIR与CBIR的结合运用这种结合方式有利于从更全面准确的分析Web图像,同时可以缓解基于内容检索在获取图像抽象的高级语义上的难度.第六十四页,共一百一十七页,2022年,8月28日Page
654.7基于内容图像检索的典型系统第六十五页,共一百一十七页,2022年,8月28日Page
66主要参考文献[1].张骞,基于文本的与基于内容的图像检索技术比较研究.情报探索,2012(01):第111-113页.[1].阿斯艳·哈米提与阿不都热西提·哈米提,基于文本的图像检索与基于内容的图像检索技术的比较研究.首都师范大学学报(自然科学版),2012(04):第6-9页.[3]肖明.基于内容的多媒体信息索引与检索概论[M].北京:人民邮电出版社,2009.8.
[4]马修军.多媒体数据库与内容检索[M].北京:北京大学出版社,2007.7.[5]周明全,耿国华,等.基于内容图像检索技术[M].北京:清华大学出版社,2007.7.第六十六页,共一百一十七页,2022年,8月28日67多媒体内容检索与管理1多媒体数据库2多媒体内容管理3多媒体内容检索6基于内容视频检索5基于内容音频检索4基于内容图像检索第六十七页,共一百一十七页,2022年,8月28日基于内容的音频检索基本概念基于内容的音频检索系统基本结构关键技术音频特征提取基于内容的音频分割与识别分类音频检索方式典型的音频系统简介Page68第六十八页,共一百一十七页,2022年,8月28日5.1基于内容的音频检索—基本概念思考:
传统的音频检索?存在的问题?Page69第六十九页,共一百一十七页,2022年,8月28日5.1基于内容的音频检索—基本概念传统的音频检索基于文本的,即通过人工方式生成多媒体信息的文本描述,如文件说明、歌曲名称等,然后采用文本检索技术实现对多媒体信息的检索。存在的问题Page70第七十页,共一百一十七页,2022年,8月28日5.1基于内容的音频检索—基本概念基于内容的音频检索
指研究如何利用音频的幅度、频谱等物理特征,响度、音高、音色等听觉特征,词字、旋律等语义特征实现与音频内容信息相关的检索。
核心思想是通过一定的计算处理,分析音频的结构和语义,建立它们的结构化的组织和索引,使得“无序”的音频变的“有序”,从而有利于用户的检索和浏览。
主要有两个方面的含义:一是检索音频内容本身,如通过“哼”某音乐的曲调查找此音乐;二是检索与音频内容相关的信息,如通过语音查找说话人等。Page71第七十一页,共一百一十七页,2022年,8月28日5.2基于内容的音频检索—系统基本结构一般可把基于内容的音频数据库检索系统看作是介于信息用户和数据库之间的一种信息服务系统。基于内容的音频检索,一般分为音频特征提取、音频识别分类、检索三个过程。Page72第七十二页,共一百一十七页,2022年,8月28日Page
735.2基于内容的音频检索—系统基本结构特征提取特征提取指的是寻找原始音频信号表达形式,提取能代表原始信号的数据。要提取特征和属性,通常要对数据库中的多媒体数据项进行预处理。因为在检索过程中,其实是对这些特征和属性而不是对信息项本身进行搜索和比较,所以特征提取的质量决定着检索结果。音频识别分类音频识别分类是对音频进行归类划分,分类本身可以是一种检索方式,也可以作为检索的一个辅助手段,归类越精确,一般来说检索就越准确。检索检索的过程是一个匹配的过程,根据音频特征问的相似度给出检索结果。检索系统一般分为两部分:一部分是数据库的生成,即音频数据及其特征录入到数据库;一部分是数据库查询,即用户通过输入音频或输入特征字符串在数据库中查找所需要的音频。第七十三页,共一百一十七页,2022年,8月28日5.2基于内容的音频检索——系统基本结构图:音频检索系统的一般结构Page74第七十四页,共一百一十七页,2022年,8月28日5.3关键技术(音频特征提取)音频特征提取
音频特征提取是整个基于内容的音频检索技术的核心技术。音频内容描述是在音频内容获取的基础之上进行的,同时是进一步进行音频特征相似度匹配的必要前提。音频时域特征的提取音频频域特征的提取Page75第七十五页,共一百一十七页,2022年,8月28日5.3关键技术(音频特征提取)音频时域特征的提取时域(时间—幅值)表示法是最基本的音频信号表示技术,它把音频信号表示成随时间变化而变化的幅值。假定静音表示成0,若声压高于静音时的平衡气压,则信号值为正,否则为负。平均能量:说明了音频信号的强度,可用于静音检测,对于一个音频例子,如这个音频例子中的某一短时帧的平均能量低于一个事先设定的阈值,则可判定该短时帧为静音。过零率:指每秒内信号值通过零值的次数,一定程度上说,它说明了平均信号频率。一般语音信号由单词构成,单词又由元音和辅音交替的音节组成,辅音信号的过零率低,而元音信号的过零率高。语音信号开始和结束都大量集中了辅音信号,所以其开始和结束部分的过零率总会有显著升高,利用过零率可判断语音是否开始和结束。静音比:表示静音的声音片段的比例。可计算为静音时段的总和与音频片段总长度之间的比值。Page76第七十六页,共一百一十七页,2022年,8月28日5.3关键技术(音频特征提取)音频频域特征的提取傅里叶变换可分解出音频信号的频率成分,可提取的音频频域特征有带宽、频谱中心、谐音、音调等。带宽:说明了声音的频率范围,音乐通常比语音信号具有更高的带宽。频谱中心:也称亮度,是一个声音频谱能量分布的中心点。语音与音乐相比,频谱中心较低。谐音:频率为最低频率的倍数的频谱成分称为谐音。在有谐音的声音中,频谱成分大部分是最低频率的整数倍数,音乐通常比其他声音具有更多的谐音。音调:是听觉分辨声音高低的特性,完全由频率决定,可通过频谱估计。是一个主观特征,与基本频率有关,但不等同于基本频率。然而,在实践中,一般将基本频率作为音调的近似值。Page77第七十七页,共一百一十七页,2022年,8月28日5.4关键技术(音频分割与识别)基于内容的音频分割与识别基于特征阈值的分割和分类算法基于模型的音频分割和识别算法Page78第七十八页,共一百一十七页,2022年,8月28日5.4关键技术(音频分割与识别)基于特征阈值的分割和分类算法
利用不同类型音频信号转换时某些听觉特征会发生较大变化的现象,在特征发生突变的地方对音频序列进行分割,再进行后续处理。这种方法需要预先确定不同特征之间变化的阈值,根据阈值判断是否应该分割。
优点:计算比较简单
缺点:特征阈值的选取比较困难,主要依靠前人的经验值,并且
对于不同的应用,阈值也是不确定的。Page79第七十九页,共一百一十七页,2022年,8月28日5.4关键技术(音频分割与识别)基于模型的音频分割和识别算法这种方法是基于模型的,它通过训练模型去模拟某类音频的动态变化,然后根据这个模型的变化确定最佳的分割。这种方法要求事先给出一批带有类别标记的训练样本,通过有指导的学习训练来生成分类器,进而对测试样本集合的待分类样本进行测试以衡量其分类性能。目前应用比较成功的是隐马尔可夫模型(HiddenMarkovModel:HMM)和高斯模型(GaussianModel)。
基于模型的分割分类方法具有丰实的理论基础、简单的实现机制等特点,因而为目前的大多数音频分类系统所采用。Page80第八十页,共一百一十七页,2022年,8月28日基于内容的音频索引和检索通常采用的步骤(1)将音频数据分类,通常可分为语音、音乐和噪声等类型。(2)不同类型的音频数据可以以不同的方式进行处理和索引。如,对语音可运用语音识别技术且可基于识别过的词汇对其进行索引。(3)查询音频片段要同样地进行分类、处理和索引。(4)根据查询索引和数据中音频索引之间的相似性,对音频片段进行检索。5.5关键技术(音频检索)Page81第八十一页,共一百一十七页,2022年,8月28日5.5关键技术(音频检索)基于内容的音频检索方式基于语音技术的检索音乐索引和检索结构化音乐的索引和检索
基于样本的音乐的索引和检索Page82第八十二页,共一百一十七页,2022年,8月28日5.6关键技术(基于语音技术的检索)基于语音技术的检索
语音检索是以语音为中心的检索,采用语音识别等处理技术。如电台节目、电话交谈、会议录音等。基于语音技术的检索是利用语音处理技术检索音频信息。过去人们对语音信号处理开展了大量的研究,许多成果可以用于语音检索。Page83第八十三页,共一百一十七页,2022年,8月28日5.6关键技术(基于语音技术的检索)1利用大词汇语音识别技术进行检索
这种方法是利用自动语音识别(ASR)技术把语音转换为文本,从而可以采用文本检索方法进行检索。虽然好的连续语音识别系统在小心地操作下可以达到90%以上的词语正确度,但在实际应用中,如电话和新闻产播等,识别率并不高。2基于子词单元进行检索当语音识别系统处理各方面无限制主题的大范围语音资料时,识别性能会变差,尤其当一些专业词汇(如人名、地点)不在系统词库中时。一种变通的方法是利用子词(SubWord)索引单元,当执行查询时,用户的查询首先被分解为子词单元,然后将这些单元的特征与库中预先计算好的特征进行匹配。Page84第八十四页,共一百一十七页,2022年,8月28日5.6关键技术(基于语音技术的检索)3基于识别关键词进行检索在无约束的语音中自动检测词或短语通常称为关键词的发现(Spotting)。利用该技术,识别或标记出长段录音或音轨中反映用户感兴趣的事件,这些标记就可以用于检索。如通过捕捉体育比赛解说词中“进球”的词语可以标记进球的内容。4基于说话人的辨认进行分割这种技术是简单地辨别出说话人话音的差别,而不是识别出说的是什么。它在合适的环境中可以做到非常准确。利用这种技术,可以根据说话人的变化分割录音,并建立录音索引。如用这种技术检测视频或多媒体资源的声音轨迹中的说话人的变化,建立索引和确定某种类型的结构(如对话)。例如,分割和分析会议录音,分割的区段对应于不同的说话人,可以方便地直接浏览长篇的会议资料。Page85第八十五页,共一百一十七页,2022年,8月28日音乐索引和检索音乐的类型有两种:结构化的(或综合的)音乐和基于样本的音乐。5.7关键技术(音乐索引和检索)Page86第八十六页,共一百一十七页,2022年,8月28日5.7关键技术(音乐索引和检索)结构化音乐的索引和检索结构化音乐和声音效果是由一系列指令或算法来表示的。最常见的结构化音乐是MIDI,它把音乐表示成大量的音符和控制指令。由于结构化音频的简明结构和音符描述的原因,没有必要从音频信号中抽取特征,因此结构化音频更便于检索。对于结构化音乐和声音效果,由于两个音符序列之间的相似性定义的困难性,基于相似性的检索很复杂。目前一种可行的方法是基于音符序列的音调变化来检索音乐。其基本思想是:查询声音和数据库声音文件中的每个音符(第一个音符除外)都被转换成相对前一个音符的音调变化。音调变化有三种状态:该音符比前一音符高(U)、该音符比前一音符低(D)和该音符与前一音符相同或相似(S)。按这种规则,任意一段旋律可转化为一个包含字母u、D、S的符号序列,检索任务也就变成了一个字符串匹配过程。该方法是针对基于样本的声音检索提出的,也同样适用于结构化声音检索,根据音符音阶可较容易地获得音调变化。Page87第八十七页,共一百一十七页,2022年,8月28日5.7关键技术(音乐索引和检索)基于样本的音乐的索引和检索一是基于抽取的声音特征集合
在这种音乐检索方法中,对每种声音(包括查询)抽取听觉特征集,将其表示成一个矢量。通过计算查询音乐和每个存储音乐片段相应的特征矢量之间的近似度来计算它们的相似性。二是基于音乐音符的音调该方法与基于音调的结构化音乐检索相似。二者之间的主要区别在于基于音调的音乐检索必须抽取或估计每个音符的音调。该方法的基本思想为:由于音乐的每个音符都是由它的音调表示的,因此一个音乐片段或部分可表示成一个序列或音调串。检索是以查询音乐和每个存储音乐片段相应的音调串之间的相似性为基础,音调跟踪和串相似测量是检索过程的关键。Page88第八十八页,共一百一十七页,2022年,8月28日典型音频系统介绍IBM的ViaVoice语音识别已趋于成熟剑桥大学的VMR系统VideoMailRetrievalUsingVoice音频处理较出色美国Musclefish公司基于内容的音频检索系统Content-BasedRetrievalofAudio较为完整的原型系统对音频的检索和分类有较高的准确率Page89第八十九页,共一百一十七页,2022年,8月28日90多媒体内容检索与管理1多媒体数据库2多媒体内容管理3多媒体内容检索6基于内容视频检索5基于内容音频检索4基于内容图像检索第九十页,共一百一十七页,2022年,8月28日基于内容的视频检索基本概念基于内容的视频检索的基本原理关键技术镜头切割关键帧提取特征提取视频索引和检索典型的视频系统简介Page91第九十一页,共一百一十七页,2022年,8月28日6.1基于内容的视频检索—基本概念思考:一:传统的视频检索?存在的问题?二:基于内容的视频检索?Page92第九十二页,共一百一十七页,2022年,8月28日6.1基于内容的视频检索—基本概念Page93第九十三页,共一百一十七页,2022年,8月28日6.1基于内容的视频检索—基本概念基于内容的视频检索基于内容的视频检索(Content-BasedVideoRetrieval),根据视频的内容和上下文关系,对大规模视频数据库中的视频数据进行检索。它在没有人工参与的情况下,自动提取并描述视频的特征和内容。
通过对非结构化的视频数据进行结构化分析和处理,采用视频分割技术,将连续的视频流划分为具有特定语义的视频片段—镜头,作为检索的基本单元,在此基础上进行代表帧(representativeframe)的提取和动态特征的提取,形成描述镜头的特征索引镜头组织和特征索引,采用视频聚类等方法研究镜头之间的关系,把内容相近的镜头组合起来,逐步缩小检索范围,直至查询到所需的视频数据视频分割、代表帧和动态特征提取是基于内容的视频检索的关键技术。Page94第九十四页,共一百一十七页,2022年,8月28日6.1基于内容的视频检索—基本概念基于内容的视频检索的特点
它区别于传统的基于关键字的检索手段,融合了视频分割、关键帧和动态特征提取等关键技术,具有如下特点:Page95第九十五页,共一百一十七页,2022年,8月28日6.1基于内容的视频检索—基本概念基本概念帧
组成视频的最小单位,一帧可以看作一幅静态的图像。视频数据流就是由连续图像帧构成的。镜头
由一系列帧组成的一段视频,是相邻帧的短序列,它描述同一场景,表示的是一个摄像机操作、一个事件或连续的动作。例如,在新闻视频中,每个新闻项目都对应着一个镜头。
镜头是视频检索的基本单位。关键帧
即指从视频数据中抽取出来的、能概括镜头特征和内容的一些静态图像。场景
是一组语义上相关联及时间上相邻的连续镜头序列,是视频信息最小的语义单位。Page96第九十六页,共一百一十七页,2022年,8月28日6.2基于内容的视频检索—基本原理基于内容的视频处理过程视频首先被分割成各个镜头,并实现对各个镜头的特征提取,得到一个尽可能充分反映镜头内容的特征空间,这个特征空间将作为视频聚类和检索的依据。其中,特征提取包括关键帧中的视觉特征(静态特征,如从颜色、纹理、形状)和镜头的运动特征(动态特征)的提取。然后,根据提取的关于镜头的动态特性和关键帧的一些静态特性,进行索引。最终,用户可以通过一种简单方便的方法浏览和检索视频。图视频数据处理流程Page97第九十七页,共一百一十七页,2022年,8月28日6.2基于内容的视频检索—基本原理基于内容的视频检索系统由索引、查询、检索三大模块组成。索引模块中,系统运用镜头切割,关键帧抽取,特征提取等技术对视频信息进行预处理,并实现视频特征索引的建立;查询模块是实现人机交互的重要接口,通过该模块用户可以容易地实现互信息查询,即用户可以较容易地向系统提交自己的各项特征要求(包括视频示例特征提取),并可根据对检索结果的进一步特征提取实现较精确检索;检索模块主要实现视频特征索引与用户提交的各项特征的相似度计算、特征匹配,并根据相关度进行结果排序提交。Page98第九十八页,共一百一十七页,2022年,8月28日6.3关键技术(镜头切割)镜头切割基本概念从一个镜头到一个镜头的转换称为镜头切换。通常,镜头之间的切换方式主要可分为两大类:突变和渐变。Page99第九十九页,共一百一十七页,2022年,8月28日6.3关键技术(镜头切割)镜头切割基本思想镜头检测的基本思想:对比相邻图像帧之间的特征,确定其是否发生较大变化。如果发生较大变化,则意味着视频镜头发生转变。目前视频镜头分割技术主要根据镜头在发生切换时其视频数据所反映的变化来进行。由于一个镜头内的相邻帧间的变化不会很大,它们之间的特征差值总会限定在某个阈值内。在镜头突变时,突变点前后两个相邻帧通常在内容上都显示着很大的量的变化,如果特征差值超过了给定的阈值,则意味着出现一个分割边界。因此,镜头检测的关键问题一:如何测量相邻帧之间的差别;二:选择合适的阈值。Page100第一百页,共一百一十七页,2022年,8月28日6.3关键技术(镜头切割)镜头突变检测Page101第一百零一页,共一百一十七页,2022年,8月28日6.3关键技术(镜头切割)镜头渐变检测
对于镜头的渐变切换,由于相邻帧之间的特征差值很小,通常要比镜头阈值低得多,但却又高于镜头内的差值,因此,很难用单个的阈值来检测,更为复杂有效的分割方法必须被采用。
双比较技术要求使用两个差值阈值:阈值Tb用于检测正常的镜头切变;阈值Ts则较小,用于检测在渐变可能出现的地方、可能出现的帧。在镜头边界检测过程中,使用差值度量对相邻的帧进行比较。Page102第一百零二页,共一百一十七页,2022年,8月28日6.3关键技术(镜头切割)Page103第一百零三页,共一百一十七页,2022年,8月28日6.3关键技术(镜头切割)阈值的确定
所谓合适的阈值,指这个阈值既能容忍单个帧较小的变化,同时又能检测到真实的边界。一个“严格”的切分阈值如果对视频帧中的细微差别都比较敏感,就会使视频流切分过细,可能使得在没有镜头转移的时候,视频帧仍然被切分。这会使视频镜头的切分失去意义。另一方面,如果一个切分阈值过于“宽松”,则不能检测到视频帧所发生的强烈特征变化,也就不能检测到视频镜头发生转化。
通常阈值被选定为帧与帧之差的平均值加上一个小的容忍值。Page104第一百零四页,共一百一十七页,2022年,8月28日6.4关键技术(关键帧提取)关键帧提取关键帧是表达镜头内容的代表帧,是从视频数据中抽取出来的、能概括镜头内容的静态图像。因此,关键帧的抽取是建立视频数据索引的关键。Page105第一百零五页,共一百一十七页,2022年,8月28日6.4关键技术(关键帧提取)把镜头首帧和尾帧选为关键帧通过对拍摄者或制作者的心理分析,研究者认为视频信息制造者总是希望镜头的开始就能抓住观众的眼球,镜头的结尾能够让观众回味无穷。因此,首帧往往决定了镜头的主题,尾帧通常表示一种特写。所以,选择首帧和尾帧作为镜头的关键帧不失为一种较为简便和有效的方法。选择显著变化帧作为关键帧一个镜头其帧序列的图像特征可能变化很大,即首帧和尾帧不能概括镜头全部内容,需要从中抽取新的帧。这种选取方法为:将镜头中的每一帧与首尾帧颜色直方图进行比较,如果它与首尾帧均存在显著变化,将其作为关键帧,继续将未比较过的帧与这三个帧比较,若三个帧均有显著差异也作为关键帧。如此比较下去,直至比较完毕。Page106第一百零六页,共一百一十七页,2022年,8月28日6.4关键技术(关键帧提取)帧平均法选取关键帧计算镜头中所有帧的某个位置像素的平均值,然后选择在该位置上像素值最接近平均值的那一帧作为关键帧。另一种方法是直方图平均法,即,选择与镜头平均直方图最接近的那一帧作为关键帧。根据关键对象确定关键帧把关键帧分解成更小的单元,从这些更小的单元中获取关键对象,这些关键对象可以从关键帧中抽取,也可从镜头甚至全局中抽取。如电视剧中的主要人物画像等。有了关键对象就可以根据适当的策略选取关键帧。如,关键帧的图像中必须有关键对象;具有多个关键对象的帧;根据关键对象的颜色、形状和运动的平均值等属性比较出关键帧。Page107第一百零七页,共一百一十七页,2022年,8月28日6.5关键技术(特征提取)特征提取特征提取可分为关键帧中的视觉特征和镜头的运动特征的提取,具体包括:颜色、纹理、形状和运动等几个方面。
镜头运动特性提取通过对镜头的运动分析(主要针
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025素质教育实施心得体会
- 医疗器械安全使用与管理年度计划
- 2025年八年级生物课程教学计划实施细则
- 七年级上学期多元智能培养计划
- 初三班主任学生个性发展计划
- 六年级语文知识掌握计划
- 快递行业仓库出入库管理流程
- 养护施工培训课件
- 2023年包头轻工职业技术学院单招职业倾向性考试题库及答案1套
- 2023年大连枫叶职业技术学院单招职业适应性考试题库及答案1套
- 劳务外包服务投标方案(技术标)
- 中国水泥回转窑行业发展监测及投资方向研究报告
- 《档案编研工作》课件
- 《山水林田湖草生态保护修复工程指南(试行)》
- 初中英语牛津深圳版单词表(按单元顺序)七年级至九年级
- 枪支安全及使用指南
- 《肝衰竭诊治指南(2024版)》解读
- 国省道公路标志标线维护方案投标文件(技术方案)
- 【MOOC】科技英语写作-西安电子科技大学 中国大学慕课MOOC答案
- 电动汽车课件
- 原始点医学(201904第15版)
评论
0/150
提交评论