版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、多媒体内容检索与管理,李颖吴昊赵艳,2,多媒体内容检索与管理, 3,1.1多媒体概念,多媒体信息,媒体,多媒体技术,多媒体,即媒介,承载、传输和表现信息的手段,指集数据、文字、图形、图像、声音和视频等为一体的综合媒体信息,指利用计算机将文本、图形、图像、声音、动画、视频等多种媒体信息进行处理和综合集成,以供人机交互使用的一个计算机应用分支,Page 4,1.2多媒体数据库系统,多媒体数据的特点,数据量大,结构复杂,数据传输的连续性,时序性-同步机制,Page 5,1.2多媒体数据库系统,多媒体数据库,传统数据库,存储和处理复杂对象 面向应用 强调媒体独立性 处理的应用对象不同,处理的方式也不同
2、 具有更强的对象访问手段 强调终端用户界面的灵活性和多样性,存储和处理格式化数据 单一的数据模型 简单的查询方式 提供准确的查询,1.2多媒体数据库系统,MDBS的层次结构,多媒体数据库系统的核心任务是实时地综合处理图、文、声信息,集中型A,指由单独一个MDBMS来建立和管理不同媒体的数据库,并由这个MDBMS来管理对象空间及目的数据的集成。,协作型C,协作型MDBS是由多个数据库管理系统组成的,这些数据库管理系统之间没有主从之分,但能相互通信,协调工作。,主从型B,每一个数据库都有自己的管理系统,称为从MDBMS,各自管理自己的数据库。这些从MDBMS又受一个被称为主MDBMS的统一控制和管
3、理。,1.2多媒体数据库系统,集中型组织结构,Page 7,1.2多媒体数据库系统,主从型组织结构,Page 8,1.2多媒体数据库系统,协作型组织结构,Page 9,1.3多媒体数据库(MDB),传统数据库系统的主要处理对象是整数、实数、字符串等简单类型数据,但这种格式数据很难实现对人脸、指纹、人的声音等事物的有效描述。传统数据库的层次结构如下:,Page 10,1.3多媒体数据库(MDB),传统数据库的层次结构可以在用户给出查询条件后迅速地检索到正确的信息,但面对图像、声音、视频等无格式数据,如何设定检索条件,如何查询所需结果等,都是无法直接实现的。 因此就必须寻找恰当的结构分层形式,已有
4、多种层次划分,包括对传统数据库的扩展、对面向对象数据库的扩展、超媒体层次扩展等。虽然各有所不同,但大都是从最低层增加对多媒体数据的控制与支持,在最高层支持多媒体的综合表现和用户的查询描述,在中间增加对多媒体数据的关联和超链的处理。,Page 11,1.3多媒体数据库(MDB),综合各多媒体数据的层次结构如下:,Page 12,1.4多媒体数据库管理系统(MDBMS),在多媒体系统中存在着声音、文字、图形、视频等媒体信息,与传统的计算机应用系统中只存在字符、数值相比扩充很大,这就需要一种新的管理系统对多媒体数据库进行管理。这种MDBMS能像传统的数据库那样对多媒体数据进行有效地组织、管理和存取,
5、并可以实现以下功能:多媒体数据库对象的定义、多媒体数据存取、多媒体数据库运行控制、多媒体数据库建立与维护、多媒体数据库在网络上的通信功能等。,Page 13,Page 14,1.4多媒体数据库管理系统(MDBMS),数据操作功能,管理各种媒体数据,网络功能,MDBMS的基本功能,1.4多媒体数据库管理系统(MDBMS),多媒体数据库管理系统MDBMS(Multimedia Database Management System)一般由用户界面、存储子系统、特征数据库、索引子系统、检索子系统和数据分析子系统等部分组成。其中用户界面采用B/S方式实现,该用户界面需要支持用户以图形方式进行基于内容的查
6、询,同时也需要支持传统文本方式的查询。其体系结构如下图:,Page 15,1.4多媒体数据库管理系统(MDBMS),Page 16,17,多媒体内容检索与管理,Page 18,2.1多媒体内容处理,概念级内容,感知特性,逻辑关系,特指特征,多媒体数据的内容概念的层次,视觉特性,如颜色、视觉对象、纹理、草图、形状、体积、空间关系、轮廓、等,听觉特性如音调、音色、音质等。,音视频对象的时间和空间关系,语义和上下文关联等。,与应用相关的媒体特征,如人的体形特征、面部特征、指纹特征等。,对象的语义表达,例如利用文本的描述,通过分类和目录来组织层次浏览,用链来组织上下文关联。,2.1多媒体内容处理,多媒
7、体内容的处理如下图所示可分为三大部分:a、内容获取、b、内容描述和c、内容操纵。首先要对原始媒体进行处理并提取内容,然后用标准形式描述所提取的内容,以支持各种内容的查询、检索、索引等内容的操纵。,Page 19,2.1多媒体内容处理,内容获取是通过对各种内容的分析和处理而获得媒体内容的过程。多媒体数据的重要成分是空间和时间结构,首先必须分割出图像对象、视频的时间结构、运动对象,以及这些对象之间的关系,然后提取显著的区别特征和人的视觉、听觉感知特征来表示媒体和媒体对象的性质。,Page 20,2.1多媒体内容处理,内容描述就是针对获取的内容进行描述。为了支持数据管理的灵活性、数据资源的全球化和互
8、操作性,描述必须基于一定的标准。MPEG-7标准被称为“多媒体内容描述接口”,主要采用描述子(Descriptor) 和描述模式来分别描述媒体的特性及其关系。描述子是特征的表示法,一个描述子就是定义特征的语法和语义学。MPEG-7标准定义了一系列的描述结构、一种详细说明描述结构的语言、描述定义语言(DDL)和多种编码描述方法。,Page 21,2.1多媒体内容处理,内容操纵主要针对内容的用户操作和应用。有许多这方面的名词和术语。查询(Query)是面向用户的术语,多用于数据库操作、检索 (Retrieval) 是在索引支持下的快速信息获取方式、搜索(Search)常用于Internet的搜索引
9、擎、摘要(Summarization, Excerpt)是适合于视频和音频等时基媒体的特殊操作、浏览(Browsing) 可以线性或非线性地存取结构化的内容、过滤(Filtering)是与检索相反的一种信息存取方式。,Page 22,2.2基于内容的多媒体信息检索,基于内容检索(Content based),就是从媒体数据中提取出特定的信息线索,根据这些线索从大量存储在数据库中的媒体中进行查找,检索出具有相似特征的媒体数据出来。 多媒体数据的“内容”表示多媒体信息的含义、要旨、主题和显著的性质、实质性的东西、物理细节等,而多媒体内容处理技术要基于对内容的基本定义。,Page 23,Page 2
10、4,2.2基于内容的多媒体信息检索,多媒体信息检索的特点,相似性检索:CBR采用一种近似匹配的方法和技术,逐步求精来获得查询和检索结果,每一层的中间结果是一个集合,不断减少集合的范围,直到定位到查找的目标,直接从内容中提取信息线索:CBR直接对文本、图像、视频、音频进行分析,从中抽取内容特征,然后利用这些内容特征建立索引并进行检索。,满足用户多层次的检索要求:CBR检索系统通常由媒体库、特征库和知识库组成。,大型数据库(集)的快速检索:CBR往往拥有数量巨大、种类繁多的多媒体数据库,能够实现对多媒体信息的快速检索。,2.3内容检索的关键技术,基于内容的多媒体数据库管理系统除了解决媒体信息的存储
11、, 还要求能够从媒体数据中分析、 抽取可供检索的内容特征, 用于信息的检索。其关键技术主要有特征抽取、特征分析和特征匹配。 特征提取:提取各种特征,如颜色,纹理,形状等。根据提取的特征不同,采取不同的处理,例如提取形状特征,就需要先进行图像分割和边缘提取等步骤。选择合适的算法,并在效率和精确性方面加以改进,以适应检索的需要,并实现特征的提取。 特征分析:对图像的各种特征进行分析,选择提取效率高、信息浓缩性好的特征,或者将几种特征进行组合,用到检索领域。 特征匹配:选择何种模型来衡量图像特征间的相似度。,Page 25,2.3内容检索的关键技术,基于内容多媒体数据库管理系统的的功能框架如下图所示
12、。,Page 26,2.4基于内容的多媒体信息检索体系结构,基于内容检索系统结构由特征分析子系统、特征提取子系统、数据库、查询接口、检索引擎和索引过滤等子系统组成,同时需要相应的知识辅助支持特定领域的内容处理。,Page 27,2.4基于内容的多媒体信息检索体系结构,特征分析:该子系统负责将需要入库的媒体进行分割或节段化,标识出需要的对象或内容关键点,以便有针对性的对目标进行特征提取。特征标识可通过用户输入或系统定义。 特征提取对用户提供或系统标明的媒体对象进行特征提取处理。提取特征时需要知识处理模块的辅助,与标准化的知识定义直接有关。 数据库包含多媒体数据库和特征数据库,分别存放多媒体数据同
13、对应的特征数据,它们彼此之间存在着一定的对应关系。特征库中包含了由用户输入的和预处理自动提取的特征数据,通过检索引擎组织与媒体类型相匹配的索引来达到快速搜索的目的。,Page 28,2.4基于内容的多媒体信息检索体系结构,查询接口,即人机交互界面,友好的人机交互界面是检索系统不可缺少的。在基于内容的检索中,由于特征不直观,因此必须为用户提供一个可视化的输入手段,还应在用户界面提供查询结果的创览功能,即为用户提供初步查询结果的返回,系统会根据用户选择的排序标准(如颜色、旋律、节拍等),按照相似度的大小将结果排列后,返回给用户。 检索引擎,检索要将特征提取值和特征库中的值进行比较,得到一个相似度。
14、不同的媒体各自具有不同的相似度算法,这些算法也称为相似性测度函数。检索引擎使用相似性测度函数集去进行比较,从而确定与特征库的值最接近的多媒体数据。 索引过滤在大规模多媒体数据检索过程中,为了提高检索效率,常在检索引擎进行匹配之前采用索引过滤方法,取出高维特征用于匹配。,Page 29,2.4基于内容的多媒体信息检索体系结构,如果用户对系统返回的查询结果不满意怎么办?,相关返馈技术,Page 30,2.5基于内容的多媒体信息检索中的相关反馈技术,在基于内容的检索过程中相关反馈是一个相当重要的过程。因为仅仅基于图像低层特征很难给出令人满意的结果,主要原因是图像低层特征和高层语义间存在着很大的差距。
15、相关反馈技术就是为了解决这个问题而提出的,一方面需要找出更有效的多媒体表示方法,另一方面通过人机交互来捕捉和建立低层特征和高层语义之间的关联。 相关反馈技术的基本思想是建立一个由用户参与的交互过程,在交互过程逐步求得精确的查询结果。在检索过程中,系统根据用户的查询要求返回检索结果,用户可以对检索结果进行评价和标记,并将这些信息反馈给系统,系统则根据这些反馈信息进行学习,并返回新的查询结果,从而使得检索结果更加满足用户的要求。,Page 31,2.5基于内容的多媒体信息检索中的相关反馈技术,相关反馈结构图如下:,Page 32,参考文献,1郑继文,吴吉义.多媒体数据库管理系统的关键技术分析J.微
16、型机与应用,2007(6):94-96. 2徐险峰.基于内容的多媒体信息检索技术J.现代情报,2005,25(3):134-136. 3李松涛,钟建宁.基于内容的多媒体数据库管理系统研究J.计算机技术与发展,2008,18(12):214-216. 4柳群英.基于内容的音频信息检索技术J.现代情报,2005(6):91-93. 5黄丽娟.基于内容的多媒体信息检索 J.现代图书情报技术,2000(5):40-43. 6 武献宇,谢金龙,米志强.基于内容信息检索技术研究J.电脑知识与技术,2009,5(8):1923-1924. 7李广建,黄永文.基于内容的信息检索J.中国图书馆学会2000年会论
17、文,2000:111-118. 8黄敬泉,韩冰.基于内容的检索新进展J.现代计算机,2010:38-40. 9黄志军,曾斌.多媒体数据库技术M.北京:国防工业出版社,2005:91-115. 10高阳.数据库技术与应用M.北京:电子工业出版社,2003:316-318.,34,多媒体内容检索与管理,Page 35,3.1基于内容检索的实现技术,1、模式识别 将用户提供的目标媒体数据对象与数据库中的源媒体数据对象进行模糊匹配,然后读取数据进行表示。 这种检索方式精确度较低,查询执行时间较长。 2、特征提取 将基于媒体内容的检索转换为基于媒体内容特征的检索。 特征检索就是从媒体数据中提取特定的信息
18、线索特征,然后再根据这些数据特征在数据集合中检索出具有相似特征的媒体数据来。,Page 36,3.1基于内容检索的实现技术,多媒体特征的多维性 空间特征,有对象的纹理和形状特征以及对象的空间关系等; 时间特征,有对象随时间变化的轨迹,如音乐片段的持续时间。,特征表示是多层的: (1)客观特征:反映多媒体数据本身具备的特性,如对象的颜色、形状、纹理、音频频率等。 (2)主观特征:指人们对多媒体数据的主观感知,如对情绪(快乐、愤怒)和风格的描述。 (3)作品特征:如作者、厂家、导演等信息。 (4)合成特征:包括场景合成、编辑信息、用户的喜好等。 (5)概念(高层特征):用于描述事件和活动等概念。,
19、Page 37,3.1基于内容检索的实现技术,基本检索步骤: 对入库的多媒体数据进行特征提取 以提取的媒体特征建立索引 输入用户描述 将用户描述与库中媒体进行相似性匹配 在相似性匹配的结果中选择最终结果,常用的图像特征有颜色、纹理、形状等,音频特征有音量、频率分布、无声率等,视频特征有关键帧、运动对象等,Page 38,3.2多媒体内容检索过程,整个过程可以分为下面几个步骤: (1)初始查询说明。用户查找一个对象时,最初可以用示例查询(QBE)或查询语言来形成一个查询。系统提取该示例的特征或把查询描述映射为具体的特征向量。 (2)相似性匹配。将查询特征与特征库中的特征按照一定的匹配算法进行相似
20、匹配。 (3)满足一定相似性条件的一组候选结果,按相似度大小排列后返回给用户。 (4)特征调整。用户可以挑选系统返回的查询结果,直至得到满意的结果;或者从候选结果中选择一个示例。根据用户给出的结果相关度反馈,对查询进行特征调整,形成一个新的查询。 (5)逐步缩小查询范围,重复步骤(2)(5),直到用户对查询结果满意为止。,Page 39,3.3基于内容检索系统概念,基于内容检索(CBR,Content-Based Retrieval),每一种媒体数据都有难以用符号化方法来描述的信息线索(如图像中的颜色、视频中的事件、音频中的音调等)。 当用户希望利用这些信息线索来对多媒体数据进行检索时,传统的
21、数据库检索多采用基于关键字的检索方式,并且在许多情况下媒体内容难以用几个关键字来进行充分描述,作为关键字的图像特征的选取也有很大的主观性。另一方面,用户很难将这些信息线索转化成某种符号形式。 因此,要求数据库系统能对多媒体数据进行内容语义分析,以便达到更深的检索层次,这就是所谓的基于内容检索,Page 40,3.3基于内容检索系统概念,基于内容检索主要特点,从媒体内容中提取信息线索。基于内容检索突破了传统的基于关键字检索的局限,直接对图像、视频、音频等进行分析,抽取特征,使得检索更接近于媒体对象。 提取特征的方法多种多样。以图像特征提取为例,可以提取形状、颜色、纹理和轮廓等多种特征。 人机交互
22、。一般来说,用户对特征比较敏感,能够迅速分辨出目标的轮廓、音乐的旋律等。如果对象很多,则用户很难记住这些对象的特征,从大量数据中查找目标的效率也非常低,但计算机能够轻松地做到这一点。因此,在使用基于内容检索系统时,用户与计算机配合进行检索。,Page 41,3.3基于内容检索系统概念,基于内容检索主要特点,近似匹配。基于内容检索时一种近似匹配过程。在检索过程中,采用逐步求精的方法,每一层的中间结果是一个集合,不断地减小该集合的范围,直到定位到目标为止。这一特点与数据库检索的精确匹配算法显然不一样。 综合利用多种相关技术。基于内容检索可以利用图像处理、语音信号处理、模式识别、知识库系统、计算机图
23、形学、数据库管理系统、信息检索等众多领域的研究成果和研究方法,来研究各种新的媒体数据表示和数据模型、高效可靠的查询处理算法、智能查询接口以及与应用领域无关的系统结构。,Page 42,3.3基于内容检索系统概念,基于内容检索系统体系结构,主要模块如下: (1)目标标识模块 (2)特征提取模块 (3)数据库模块 (4)查询接口模块 (5)检索引擎模块 (6)索引/过滤模块,Page 43,3.4未来的主要研究问题,(1)综合的多特征检索技术 (2)高层概念和低层特征的关联。 (3)高维索引技术 (4)时序媒体的内容结构化 (5)用户查询界面 (6)数据模型 (7)性能评价 (8)内容描述标准 (
24、9)多媒体信息安全,44,多媒体内容检索与管理,Page 45,4.1图像检索的发展,基于内容的图像检索涉及信息检索、图像处理、计算机视觉、机器学习、人工智能等诸多研究领域 关于图像信息的检索技术经历了图像特征文本描述图像表层视觉特征图像语义内在特征的3 个阶段。,Page 46,4.1图像检索的发展,图像特征文本描述,20世纪70年代末 人工文字注解图像 利用文本检索实现对图像特征的查找 费时费力 不完整反映,图像表层视觉特征,20世纪90 年代初 使用颜色、纹理及形状等视觉特征 实现了图像视觉内容特征的检索 以图找图查询模式,图像语义内在特征,智能检索 解决图像简单视觉特征和用户检索丰富语
25、义之间存在的语义鸿沟问题的关键,Page 47,4.1图像检索的发展,基于内容的图像检索技术研究的4个热点,最初的图像检索研究主要集中于如何选择合适的全局特征去描述图像内容和采用什么样的相似性度量方法进行图像匹配。 第二个研究热点是基于区域的图像检索方法,其主要思想是通过图像分割技术提取出图像中的物体,然后对每个区域使用局部特征来描述,综合每个区域特征可得到图像的特征描述。前两个研究方向可称为以图像为中心的方法,对于用户的需求缺乏分析。 第三个研究热点就是针对这一问题展开的,借助相关反馈的思想,根据用户需求及时调整系统检索时用的特征和相似性度量方法,从而缩小底层特征和高层语义之间的差距。 第四
26、个研究热点是研究如何从多种渠道获取图像语义信息,如何将图像底层特征与图像关键词结合进行图像自动标注以提高检索准确率等。,Page 48,4.2基于内容图像检索的系统结构,图 基于内容图像检索的体系结构,分为特征提取和查询两个子系统: (1)预处理包括图像格式的转换、规格化,图像的增强与去噪等功能。 (2) 目标标识即标识出图像中用户感兴趣的区域或对象,以便针对目标进行特征提取并查询。 (3) 特征提取包括提取图像颜色、纹理、形状、空间位置关系等特征。,Page 49,4.2基于内容图像检索的系统结构,图 基于内容图像检索的体系结构,(4) 数据库由图像库、特征库和知识库组成。 图像库为数字化的
27、图像信息, 特征库包含自动提取的内容特征,知识库包含专门和通用知识,有利于查询优化和快速匹配,知识库中知识表达可以更换以适用于各种不同的应用领域。,Page 50,4.2基于内容图像检索的系统结构,图 基于内容图像检索的体系结构,(5) 查询接口提供一个友好的用户界面。包括可视化的输入手段和结果浏览功能。 (6) 检索引擎中包括一个有效可靠的相似性测度函数集。 (7) 检索引擎通过索引/过滤模块达到快速检索的目的。,Page 51,4.3基于内容图像检索的特点,主要特点有: (1)基于内容检索突破了传统的基于表达式检索的局限,从媒体内容中提取信息线索。利用图像内容特征建立索引进行检索。使得检索
28、过程更加有效,适应性更强。 (2)基于内容图像检索是一种近似匹配的技术。由于相同内容的图像有不同的表现方式,例如同一场景下的图片有远景和近景之分。而且图像信息的内容比较丰富,相互关联性比较强。 (3)大型数据库的快速检索。在实际的多媒体数据库中,不仅数据量巨大,而且种类和数量繁多,因此要求CBIR 技术快速地实现对多媒体信息的检索。 (4)以相关反馈为有效手段。当用户提供一幅查询草图(sketch)或图像,并要求找出与此相似的图像时,其意识中已经有了相似性判别标准。理想情况下,系统的相似性度量应该与用户的判别一致,它涉及人类视觉系统对图像的认知和高层语义的解释。因此通过用户的相关反馈,检索系统
29、学习用户的意图和准则来指导图像检索过程,有效提高图像检索的效率。,Page 52,4.4基于内容图像检索方法的分类,基于内容的图像检索方法可分为外部图例查询、内部图例查询、草图查询和综合查询。早在1980 年就有文献提出了图倒查询的概念,图例查询是一种由一幅或多幅图像实例构造查询的图像检索技术。 1、外部图例查询 示例图像来源于检索系统的外部 优势在于用户在表达其信息需求时的简单性。用户仅需提供一幅或多幅图像,或许也需要调整一些参数,如各种特征的权重等。检索过程中并不需要特定的数据库查询语言方面的知识。 缺点当用户很难提供一个示例图像时,外部图倒查询的可用性将大打折扣。也许在某种情况下,在系统
30、外部寻找一幅示例图片所付出的代价甚至有可能超过直接在数据库中寻找图像的代价。 总之,外部图例查询的优点是易用,缺点是需要付出一定的努力向系统提供外部示例图像。,Page 53,4.4基于内容图像检索方法的分类,2、内部图例查询 示例图片是从检索系统的数据库中选出的。系统在其他方面的功能与外部示例图片基本上一致。 为了比较内部与外部示例查询,拿抢劫嫌疑犯的照片的检索作例子。目击者没有必要一张一张地翻阅警察局存档的嫌疑犯照片库,通过图例查询,目击者可以先选择一张看上去比较像嫌疑犯的照片,比如两者都有络腮胡子,然后从系统给出的所有相似者列表中快速确定搜索目标。 优势在于不再需要为了进行图例查询而首先
31、从外界寻求或构造一幅示例图片。 缺点:系统要求用户必须首先在数据库中找到一幅类似的图片,这个过程可能是相当费时费力的。所以内部图例查询经常与其他检索方法结合使用以避免这个问题。比如可以先通过直接查询缩小图像搜索范围,然后再使用内部图例查询。 总之,内部图例查询的优点是用户不再为获得一个外部示例图片而烦恼,缺点是仍然需要用户付出努力在数据库中找到一幅合适的示例图片。,Page 54,4.4基于内容图像检索方法的分类,3、草图查询 示例图像由用户创建。用户为他希望得到的图像勾画一张草图。检索系统为此必须为用户提供一些图像部件(如各类纹理)和作图工具。 我们还是拿前面提到的抢劫嫌疑犯的照片检索作例子
32、,这里向系统输入的示例图像是一张嫌疑犯的简略肖像草图,它是由有关专家根据目击者的叙述描画的。有时目击者可以通过组合一些诸如头发、鼻子、眼睛等部件的照片而构造一张脸。 缺点是它要求用户或多或少要有一些艺术才能。由于大多数的用户不具备足够的这方面的才能,草图查询在大多数的场合下仅用来指出图像中对象的位置或一些对象的全局属性。 可见,草图查询的优点是用户可以根据需要指出最重要、最感兴趣的图像细节,缺点是草图的创建不像想象的那么容易,而且很难建立草图与图像之间的映射关系。,Page 55,4.4基于内容图像检索方法的分类,4、综合检索方法 大多数的图像检索系统都或多或少地综合应用了上述的各种检索方法。
33、系统可以对同一个数据库提供多种检索方法的接口,但更有意义的是在一次检索会话中综合应用不同的检索技术。后一种情况下,检索系统将是多个应用不同检索方法的子系统的有机集成,子系统之间通过输入与输出的对接完成通信与交互。,Page 56,4.5基于内容图像检索的应用,1.知识产权保护 许多知识产权的载体都是图像,最明显的是商标和艺术作品。毫无疑问,利用基于内容的图像检索技术实现商标的专用图形标记的自动审查具有非常现实的意义。 2. 新一代网上搜索和数字图书馆 新一代网上搜索引擎应该具有协助用户从海量而且无序的网上图像资源中寻找符合要求的图像的能力。除了对图像内容的分析外,基于Web 的图像搜索引擎还要
34、提供友好的查询界面和快速的联机反应能力。 3. 医学和遥感图像的分析和处理 尽管传统的图像处理领域早就开始涉足医学和遥感图像的分析和处理的研究,但它们仍然是一个开放的研究课题,无论是民用还是军事,医学和遥感图像的分析和处理都具有非常重大的现实意义。特别当图像规模增加时,准确有效的图像分析手段以及快速的图像识别和检索技术将凸现其重要性。,Page 57,4.5基于内容图像检索的应用,4. 犯罪与安全预防 当将图像的内容限制在特定领域时,基于内容的图像检索技术将找到更为具体的应用。例如,安全部门可以将人的主要特征(如指纹和脸部)的图像存储在数据库中,通过指纹识别和人脸识别就有可能从大量的指纹库或者
35、人脸库中自动识别出特定的目标。毫无疑问,这具有重大的社会价值。 互联网的飞速发展也带来另外一个负面的影响,即网上不健康内容的大量增加,特别是一些低级趣味的图片。在某些情况下可能需要对这些信息进行过滤。基于内容的图像检索技术完全可以应用到类似的具有图像过滤需求的应用中。 除此以外,基于内容的图像检索技术还可以应用到设计(时装、装潢和结构)、远程教育以及个人相册管理等方面。,Page 58,4.6基于文本与基于内容的图像检索技术的比较,1.基于文本的图像检索TBIR,传统的图像检索方法 它是在对图像进行文本标注的基础上,对图像进行基于关键字的检索 在这种技术下,对图像的检索变成了对关键字的查找,是
36、一种基于关键词的匹配查找过程 其基本步骤是先对图像文件建立相应的关键词或描述字段,它通过对图像的名称、编号、内容描述、图像大小、图像所在文件的大小、图像来源、作者、建立图像的时间、存储地点等关键性的信息采用自动标引或进行人工注释,并进行图像的特征抽取,建立图像索引数据库,然后按全文数据库管理,采用全文数据库检索方法 该方法的实质是把图像检索转换为对与该图像对应的文本检索,Page 59,4.6基于文本与基于内容的图像检索技术的比较,2. TBIR的优点和问题,优点: 易于实现 人工干预,所以它的查准率是相当高,仍常用于辅助其他图像检索技术,以进一步提高检索性能 存在的困难: 文本描述难以充分表
37、达图像的丰富内容 图像中则往往含有大量需要定量描述的信息 许多图像的特征难以用文本描述表达 文本描述又具有一定的主观性 文本描述难以实现基于图像视觉特征的相似性检索 海量数据下人工标注的开销太大,Page 60,4.6基于文本与基于内容的图像检索技术的比较,3. TBIR与CBIR的比较,TBIR与CBIR 有着各自的优势和不足,下面列表比较了两种方法,Page 61,4.6基于文本与基于内容的图像检索技术的比较,3. TBIR与CBIR的比较,TBIR 在一定程度上回避了对复杂的可视化元素的识别难题,符合人们熟悉的检索习惯,实现简单,由于图像在手工标注时图像的标注有太多的主观性、缺乏统一的标
38、准,仍旧局限在文本检索的范围下,通过受控词汇来描述图像,无法对图像内容理解,而且其在表达复杂的或是难以表达的图像内容时有极大的局限性 CBIR 恰相反,主要利用对直观形象的特征元素的分析来标引图像,具有一定的客观性,如每幅图像的色彩直方图是确定的 但是CBIR 算法复杂,实现成本高,难以建立从底层图像特征到高层语义的联系,检索的准确性较低 如果能将二者结合起来取长补短,则网络环境下图像检索技术必有新的进展,Page 62,4.6基于文本与基于内容的图像检索技术的比较,4.TBIR 与CBIR的结合运用,网页图像的内容不仅包含在自身的图像数据中又包含于它所HTML 档的文字描述中 Web 图像的
39、这种特点提供了TBIR 与CBIR 结合运用的机会 人们对图像间相似度的判断体现出多重标准,既有语义标准又有低层特征标准,而且不同的人在判断标准上也有差异 因此,一个有效的Web 图像检索系统要便于根据不同用户的标准进行调整,这就要求将文字描述和图像低层属性进行合理利用,Page 63,4.6基于文本与基于内容的图像检索技术的比较,4.TBIR 与CBIR的结合运用,为此有机整合TBIR 和CBIR,构建了一个基于web 的图像检索系统,使二者互为补充,这样系统就可同时获取图像的低层和高层特征 用户可以通过关键词开始检索一个查询,而返回结果后再选择可以作为查询样图的图像进行基于内容属性的检索
40、通过页面分析器从网页中自动抽取能反映图像语义信息的符号和文字,然后按照传统的文本信息检索技术,建立图像的语义特征库利用概念之间的关系对提取的语义概念进行关联映射,从而对其进行更广泛意义的自动标注,Page 64,4.6基于文本与基于内容的图像检索技术的比较,4.TBIR 与CBIR的结合运用,这种结合方式有利于从更全面准确的分析Web 图像,同时可以缓解基于内容检索在获取图像抽象的高级语义上的难度,Page 65,4.7基于内容图像检索的典型系统,Page 66,主要参考文献,1. 张骞, 基于文本的与基于内容的图像检索技术比较研究. 情报探索, 2012(01): 第111-113页. 1.
41、 阿斯艳哈米提与阿不都热西提哈米提, 基于文本的图像检索与基于内容的图像检索技术的比较研究. 首都师范大学学报(自然科学版), 2012(04): 第6-9页. 3 肖明.基于内容的多媒体信息索引与检索概论M.北京:人民邮电出版社,2009.8. 4 马修军.多媒体数据库与内容检索M.北京:北京大学出版社,2007.7. 5 周明全,耿国华,等.基于内容图像检索技术M.北京:清华大学出版社,2007.7.,67,多媒体内容检索与管理,基于内容的音频检索,基本概念 基于内容的音频检索系统基本结构 关键技术 音频特征提取 基于内容的音频分割与识别分类 音频检索方式 典型的音频系统简介,Page 6
42、8,5.1基于内容的音频检索基本概念,思 考: 传统的音频检索?存在的问题?,Page 69,5.1基于内容的音频检索基本概念,传统的音频检索,基于文本的,即通过人工方式生成多媒体信息的文本描述,如文件说明、歌曲名称等,然后采用文本检索技术实现对多媒体信息的检索。,存在的问题,Page 70,5.1基于内容的音频检索基本概念,基于内容的音频检索 指研究如何利用音频的幅度、频谱等物理特征,响度、音高、音色等听觉特征,词字、旋律等语义特征实现与音频内容信息相关的检索。 核心思想是通过一定的计算处理,分析音频的结构和语义,建立它们的结构化的组织和索引,使得“无序”的音频变的“有序”,从而有利于用户的
43、检索和浏览。 主要有两个方面的含义: 一是检索音频内容本身,如通过“哼”某音乐的曲调查找此音乐; 二是检索与音频内容相关的信息,如通过语音查找说话人等。,Page 71,5.2基于内容的音频检索系统基本结构,一般可把基于内容的音频数据库检索系统看作是介于信息用户和数据库之间的一种信息服务系统。基于内容的音频检索,一般分为音频特征提取、音频识别分类、检索三个过程。,Page 72,Page 73,5.2基于内容的音频检索系统基本结构,特征提取,特征提取指的是寻找原始音频信号表达形式,提取能代表原始信号的数据。要提取特征和属性,通常要对数据库中的多媒体数据项进行预处理。因为在检索过程中,其实是对这
44、些特征和属性而不是对信息项本身进行搜索和比较,所以特征提取的质量决定着检索结果。,音频识别分类,音频识别分类是对音频进行归类划分,分类本身可以是一种检索方式,也可以作为检索的一个辅助手段,归类越精确,一般来说检索就越准确。,检索,检索的过程是一个匹配的过程,根据音频特征问的相似度给出检索结果。检索系统一般分为两部分:一部分是数据库的生成,即音频数据及其特征录入到数据库;一部分是数据库查询,即用户通过输入音频或输入特征字符串在数据库中查找所需要的音频。,5.2基于内容的音频检索系统基本结构,图:音频检索系统的一般结构,Page 74,5.3关键技术(音频特征提取),音频特征提取 音频特征提取是整
45、个基于内容的音频检索技术的核心技术。 音频内容描述是在音频内容获取的基础之上进行的,同时是进一 步进行音频特征相似度匹配的必要前提。 音频时域特征的提取 音频频域特征的提取,Page 75,5.3关键技术(音频特征提取),音频时域特征的提取 时域(时间幅值)表示法是最基本的音频信号表示技术,它把音频信号表示成随时间变化而变化的幅值。假定静音表示成0,若声压高于静音时的平衡气压,则信号值为正,否则为负。 平均能量:说明了音频信号的强度,可用于静音检测,对于一个 音频例子,如这个音频例子中的某一短时帧的平均能量低于一个 事先设定的阈值,则可判定该短时帧为静音。 过零率:指每秒内信号值通过零值的次数
46、,一定程度上说,它说 明了平均信号频率。一般语音信号由单词构成,单词又由元音和辅 音交替的音节组成,辅音信号的过零率低,而元音信号的过零率 高。语音信号开始和结束都大量集中了辅音信号,所以其开始和结 束部分的过零率总会有显著升高,利用过零率可判断语音是否开 始和结束。 静音比:表示静音的声音片段的比例。可计算为静音时段的总和与音频片段总长度之间的比值。,Page 76,5.3关键技术(音频特征提取),音频频域特征的提取 傅里叶变换可分解出音频信号的频率成分,可提取的音频频 域特征有带宽、频谱中心、谐音、音调等。 带宽:说明了声音的频率范围,音乐通常比语音信号具有更 高的带宽。 频谱中心:也称亮
47、度,是一个声音频谱能量分布的中心点。语音与音乐相比,频谱中心较低。 谐音:频率为最低频率的倍数的频谱成分称为谐音。在有谐音的 声音中,频谱成分大部分是最低频率的整数倍数,音乐通常比其他 声音具有更多的谐音。 音调:是听觉分辨声音高低的特性,完全由频率决定,可通 过频谱估计。是一个主观特征,与基本频率有关,但不等同于基本频率。然而,在实践中,一般将基本频率作为音调的近似值。,Page 77,5.4关键技术(音频分割与识别),基于内容的音频分割与识别 基于特征阈值的分割和分类算法 基于模型的音频分割和识别算法,Page 78,5.4关键技术(音频分割与识别),基于特征阈值的分割和分类算法 利用不同
48、类型音频信号转换时某些听觉特征会发生较大变化的现象,在特征发生突变的地方对音频序列进行分割,再进行后续处理。这种方法需要预先确定不同特征之间变化的阈值,根据阈值判断是否应该分割。 优点:计算比较简单 缺点:特征阈值的选取比较困难,主要依靠前人的经验值,并且 对于不同的应用,阈值也是不确定的。,Page 79,5.4关键技术(音频分割与识别),基于模型的音频分割和识别算法 这种方法是基于模型的,它通过训练模型去模拟某类音频的动态变化,然后根据这个模型的变化确定最佳的分割。这种方法要求事先给出一批带有类别标记的训练样本,通过有指导的学习训练来生成分类器,进而对测试样本集合的待分类样本进行测试以衡量
49、其分类性能。 目前应用比较成功的是隐马尔可夫模型(HiddenMarkovModel:HMM)和高斯模型(GaussianModel)。 基于模型的分割分类方法具有丰实的理论基础、简单的实现机制等特点,因而为目前的大多数音频分类系统所采用。,Page 80,基于内容的音频索引和检索通常采用的步骤 (1)将音频数据分类,通常可分为语音、音乐和噪声等类型。 (2)不同类型的音频数据可以以不同的方式进行处理和索引。 如,对语音可运用语音识别技术且可基于识别过的词汇对其进行索引。 (3)查询音频片段要同样地进行分类、处理和索引。 (4)根据查询索引和数据中音频索引之间的相似性,对音频片段进行检索。,5
50、.5关键技术(音频检索),Page 81,5.5关键技术(音频检索),基于内容的音频检索方式 基于语音技术的检索 音乐索引和检索 结构化音乐的索引和检索 基于样本的音乐的索引和检索,Page 82,5.6关键技术(基于语音技术的检索),基于语音技术的检索 语音检索是以语音为中心的检索,采用语音识别等处理技术。如电台节目、电话交谈、会议录音等。 基于语音技术的检索是利用语音处理技术检索音频信息。过去人们对语音信号处理开展了大量的研究,许多成果可以用于语音检索。,Page 83,5.6关键技术(基于语音技术的检索),1 利用大词汇语音识别技术进行检索 这种方法是利用自动语音识别(ASR)技术把语音
51、转换为文本,从而可以采用文本检索方法进行检索。虽然好的连续语音识别系统在小心地操作下可以达到90以上的词语正确度,但在实际应用中,如电话和新闻产播等,识别率并不高。 2 基于子词单元进行检索 当语音识别系统处理各方面无限制主题的大范围语音资料时,识别性能会变差,尤其当一些专业词汇(如人名、地点)不在系统词库中时。一种变通的方法是利用子词(Sub Word)索引单元,当执行查询时,用户的查询首先被分解为子词单元,然后将这些单元的特征与库中预先计算好的特征进行匹配。,Page 84,5.6关键技术(基于语音技术的检索),3 基于识别关键词进行检索 在无约束的语音中自动检测词或短语通常称为关键词的发
52、现(Spotting)。利用该技术,识别或标记出长段录音或音轨中反映用户感兴趣的事件,这些标记就可以用于检索。如通过捕捉体育比赛解说词中“进球”的词语可以标记进球的内容。 4 基于说话人的辨认进行分割 这种技术是简单地辨别出说话人话音的差别,而不是识别出说的是什么。它在合适的环境中可以做到非常准确。利用这种技术,可以根据说话人的变化分割录音,并建立录音索引。如用这种技术检测视频或多媒体资源的声音轨迹中的说话人的变化,建立索引和确定某种类型的结构(如对话)。例如,分割和分析会议录音,分割的区段对应于不同的说话人,可以方便地直接浏览长篇的会议资料。,Page 85,音乐索引和检索 音乐的类型有两种
53、:结构化的(或综合的)音乐和基于样本的音乐。,5.7关键技术(音乐索引和检索),Page 86,5.7关键技术(音乐索引和检索),结构化音乐的索引和检索 结构化音乐和声音效果是由一系列指令或算法来表示的。最常见的结构化音乐是MIDI,它把音乐表示成大量的音符和控制指令。由于结构化音频的简明结构和音符描述的原因,没有必要从音频信号中抽取特征,因此结构化音频更便于检索。 对于结构化音乐和声音效果,由于两个音符序列之间的相似性定义的困难性,基于相似性的检索很复杂。目前一种可行的方法是基于音符序列的音调变化来检索音乐。其基本思想是:查询声音和数据库声音文件中的每个音符(第一个音符除外)都被转换成相对前
54、一个音符的音调变化。音调变化有三种状态:该音符比前一音符高(U)、该音符比前一音符低(D)和该音符与前一音符相同或相似(S)。按这种规则,任意一段旋律可转化为一个包含字母u、D、S的符号序列,检索任务也就变成了一个字符串匹配过程。该方法是针对基于样本的声音检索提出的,也同样适用于结构化声音检索,根据音符音阶可较容易地获得音调变化。,Page 87,5.7关键技术(音乐索引和检索),基于样本的音乐的索引和检索 一是基于抽取的声音特征集合 在这种音乐检索方法中,对每种声音(包括查询)抽取听觉特征集,将其表示成一个矢量。通过计算查询音乐和每个存储音乐片段相应的特征矢量之间的近似度来计算它们的相似性。
55、 二是基于音乐音符的音调 该方法与基于音调的结构化音乐检索相似。二者之间的主要区别在于基于音调的音乐检索必须抽取或估计每个音符的音调。 该方法的基本思想为:由于音乐的每个音符都是由它的音调表示的,因此一个音乐片段或部分可表示成一个序列或音调串。检索是以查询音乐和每个存储音乐片段相应的音调串之间的相似性为基础,音调跟踪和串相似测量是检索过程的关键。,Page 88,典型音频系统介绍,IBM的Via Voice http:/ibm- 语音识别已趋于成熟 剑桥大学的VMR系统 Video Mail Retrieval Using Voice http:/mi.eng.cam.ac.uk/resear
56、ch/projects/Video_Mail_Retrieval_Voice 音频处理较出色 美国Muscle fish公司基于内容的音频检索系统 Content-Based Retrieval of Audio 较为完整的原型系统 对音频的检索和分类有较高的准确率,Page 89,90,多媒体内容检索与管理,基于内容的视频检索,基本概念 基于内容的视频检索的基本原理 关键技术 镜头切割 关键帧提取 特征提取 视频索引和检索 典型的视频系统简介,Page 91,6.1基于内容的视频检索基本概念,思 考: 一:传统的视频检索?存在的问题? 二:基于内容的视频检索?,Page 92,6.1基于内容
57、的视频检索基本概念,Page 93,6.1基于内容的视频检索基本概念,基于内容的视频检索 基于内容的视频检索(Content-Based Video Retrieval),根据视频的内容和上下文关系,对大规模视频数据库中的视频数据进行检索。它在没有人工参与的情况下,自动提取并描述视频的特征和内容。 通过对非结构化的视频数据进行结构化分析和处理,采用视频分割技术,将连续的视频流划分为具有特定语义的视频片段镜头,作为检索的基本单元,在此基础上进行代表帧(representative frame)的提取和动态特征的提取,形成描述镜头的特征索引镜头组织和特征索引,采用视频聚类等方法研究镜头之间的关系,
58、把内容相近的镜头组合起来,逐步缩小检索范围,直至查询到所需的视频数据视频分割、代表帧和动态特征提取是基于内容的视频检索的关键技术。,Page 94,6.1基于内容的视频检索基本概念,基于内容的视频检索的特点 它区别于传统的基于关键字的检索手段,融合了视频分割、关键帧和动态特征提取等关键技术,具有如下特点:,Page 95,6.1基于内容的视频检索基本概念,基本概念 帧 组成视频的最小单位,一帧可以看作一幅静态的图像。视频数据流就是由连续图像帧构成的。 镜头 由一系列帧组成的一段视频,是相邻帧的短序列,它描述同一场景,表示的是一个摄像机操作、一个事件或连续的动作。例如,在新闻视频中,每个新闻项目
59、都对应着一个镜头。 镜头是视频检索的基本单位。 关键帧 即指从视频数据中抽取出来的、能概括镜头特征和内容的一些静态图像。 场景 是一组语义上相关联及时间上相邻的连续镜头序列,是视频信息最小的语义单位。,Page 96,6.2基于内容的视频检索基本原理,基于内容的视频处理过程 视频首先被分割成各个镜头,并实现对各个镜头的特征提取,得到一个尽可能充分反映镜头内容的特征空间,这个特征空间将作为视频聚类和检索的依据。其中,特征提取包括关键帧中的视觉特征(静态特征,如从颜色、纹理、形状)和镜头的运动特征(动态特征)的提取。然后,根据提取的关于镜头的动态特性和关键帧的一些静态特性,进行索引。最终,用户可以通过一种简单方便的方法浏览和检索视频。,图 视频数据处理流程,Page 97,6.2基于内容的视频检索基本原理,基于内容的视频检索系统 由索引、查询、检索三大模块组成。 索引模块中,系统运用镜头切割,关键帧抽取,特征提取等技术对视频信息进行预处理,并实现视频特征索引的建立; 查询模块是实现人机交互的重要接口,通过该模块用户可以容易地实现互信息查询,即用户可以较容易地向系统提交自己的各项
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 平凉市农村饮水安全工程可行性分析报告28113
- 2024年10版小学英语第5单元真题试卷
- 2024年移动通讯手机配套集成电路项目投资申请报告代可行性研究报告
- 2024年节能型电冰箱、空调器项目资金筹措计划书代可行性研究报告
- 2024年免疫调节药物项目资金申请报告代可行性研究报告
- 规划科工作计划模板8篇
- 生产订货供货合同(4篇)
- 资料员个人工作总结范文
- 幼儿园清明节讲话稿(3篇)
- 2025年高考物理复习:相互作用-力(分层练)(解析版)
- 20世纪时尚流行文化智慧树知到期末考试答案章节答案2024年浙江理工大学
- 国开(甘肃)2024年春《地域文化(专)》形考任务1-4终考答案
- (高清版)JTGT 3331-04-2023 多年冻土地区公路设计与施工技术规范
- lampsite LTE 站点配置指导v1.1
- 铝及铝合金焊接作业指导书
- 水利工程质量与安全监督工作实务PPT课件
- 放射性口腔粘膜炎的发病机制及危险因素
- 美能达807si相机中文说明书
- 莆田市人教版四年级数学上册期中测试卷
- 县人大常委会预算审查监督暂行办法
- 加油站特殊作业安全管理制度(完整版)
评论
0/150
提交评论