




已阅读5页,还剩73页未读, 继续免费阅读
(计算机软件与理论专业论文)视频数据库基于内容索引和检索的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
i j 一7 7 0 8 ,) 摘要 近年来,由于数据压缩、宽带网络、高速计算机技术的发展,使 氇娶媒体技术很快成为计算机和通信行业的热点。而数据库作为信息 管理的有效手段也成了多媒体研究的重要方向之一。 视频数据是指存储声像信息的一类非常特殊的多媒体数据,它所 传递的信息量远大于静态图像和文字,是多媒体中表现能力最强,也 是最为复杂的媒体形式。视频信息因为具有直观、效率高、容量大、 适用范围广等优点而得到了越来越多的应用,已经成为多媒体计算和 通讯环境中的重要元素。因此对视频数据管理问题的研究成为当前一 个热点问题。y 本文对视频数据库基于内容的检索模型进行了研究,提出适合于视 频数据库的复合多特征检索模型。主要包括以下几方面的工作: 1 首先对影响视频数据检索模型选择的几方面因素进行了详细的 介绍和分析。主要包括视频检索的内容、视频的相似度定义、视频检 索反馈、检索要求的表达等问题。在此基础上提出了视频数据对基于 内容检索模型的特殊要求。 2 对相关问题的研究现状进行了分析,指出了建立视频数据库基 于内容索引结构亟待解决的两方面问题。首先,传统的多维索引结构 在高维情况下的检索性能问题。其次,传统检索结构对检索反馈机制 的支持的问题。同时对现有的索引结构进行了分类和性能评价。 3 基于目前存在的问题和检索要求的分析,结合传统的信息检索 模型中的线性约束模型和传统的多维索引结构提出了一种新的适合于 视频数据检索的复合多特征索引模型。给出了模型的索引建立算法和 检索算法。同时指出了模型在最近邻检索的支持方面的不足,给出了 相应的解决办法。 4 最后,结合基于内容的视频数据库,设计实现了这种复合多特 征索引结构模块。该模块能够支持各种满足文中定义的视频相似性的 数据库结构和相关性反馈检索机制。 关键词视频数据库,基于内容检索,相似检索,多维索b a b s t r a c t r e c e n ty e a r s ,w i t ht h ed e v e l o p m e n to fd a t ac o m p r e s s i o n t e c h n o l o g y , w i d e b a n dn e t w o r ka n dt h e h i g h s p e e dc o m p u t e r t e c h n o l o g y , m u l t i m e d i at e c h n o l o g yb e c a m em o r ea n dm o r ei m p o r t a n t i nt h ef i e l do fc o m p u t e ra n dt e l e c o m m u n i c a t i o n d a t a b a s e ,a so n eo f t h em o s te f f i c i e n ti n f o r r n a t i o nm a n a g e m e n tm e t h o d s ,t u r n e dt ob et h e m a i nf i e l do f m u l t i m e d i ar e s e a r c h v i d e od a t ai sas p e c i a lk i n do fm e d i at h a tc o n t a i nb o t hv i s u a la n d a u d i oi n f o r m a t i o n i ti st h em o s tc o m p l e xa n de x p r e s s i v em e d i aa n d c a r lt r a n s f e rm u c hm o r ei n f o r m a t i o nt h a ns t a t i ci m a g ea n dt e x t t o d a y , v i d e oi st h em o s ti m p o r t a n tm e d i ai nm u l t i m e d i ac o m p u t a t i o na n d t e l e c o m m u n i c a t i o nb e c a u s eo fi t sh i g he f f i c i e n c y , r i c hc o n t e n ta n d w i d ea p p l i c a t i o n a sar e s u l t ,v i d e od a t a b a s eh a sb e e nah o ts p o ti nt h e f i e l do f c o m p u t e rs c i e n c er e c e n t y t h i st h e s i ss t u d i e dt h ec o n t e n t - b a s e dr e t r i e v a io fv i d e od a t a b a s e a n dp u tf o r w a r das u i t a b l ec o m p r e h e n s i v em u l t i f e a t u r er e t r i e v a l m o d e lf o rv i d e od a t a b a s e t h ew o r ki s m a i n l y f c l c u s e do nt h e f o l l o w i n ga s p e c t s f i r s t l y , s o m eo ft h ef a c t o r st h a tw i l ja f f e c tt h ec h o i c eo fv i d e o d a t ar e t r i e v a lm o d e la r ei n t r o d u c e da n da n a l y z e d t h e s ef a c t o r s i n c l u d et h ec o n t e n tt ob er e t r i e v e d ,t h es i m i l a r i t yo fv i d ed a t a ,t h e f e e d b a c km e c h a n i s mf o rv i d e or e t r i e v a la n dt h ef c r m u l a t i o no fq u e r y r e q u i r e m e n t t a k i n ga l lt h e s ei n t oa c c o u n t ,t h es p e c i a lr e q u i r e m e n t so f t h er e t r i e v a lm o d e lf o rv i d e od a t a b a s ea r eo u t l i n e d s e c o n d l y , t h er e l a t e dw o r ki si n t r o d u c e da n dt h em a i nd i f f i c u l t i e s t ob er e s o l v e di nc o n t e n t - b a s e dv i d e od a t a b a s er e t r i e v a la r e e m p h a s i z e d t h ef i r s tp r o b l e mi st h el o wp e r f o r m a n c eo ft r a d i t i o n a l m u l t i d i m e n s i o n a li n d e xs t r u c t u r e si nh i g h d i m e n s i o n a ls p a c e s t h e s e c o n di st h es u p p o r to fr e l e v a n c ef c e d b a c ki nt r a d i t i o n a li n d e x s t r u c t u r e s t h ec l a s s i f i c a t i o na n dp e r f o r m a n c eo ft h e s es t r u c t u r e si s a n a l y z e d t h i r d l y , c o n s i d e r e dt h ep r o b l e m sa n dt h eq u e r yr e q u i r e m e n t s , c o m b i n e dt h el i n e a rc o n s t r a i n tm o d e li nt r a d i t i o n a li n f o r m a t i o n r e t r i e v a lm o d e lw i t hm u l t i d i m e n s i o n a li n d e xs t r u c t u r e ,a n e w c o m p r e h e n s i v e m u l t i - f e a t u r er e t r i e v a lm o d e li sp r o p o s e d t h e c o n s t r u c t i o na l g o r i t h mo ft h ei n d e xa n dt h er e t r i e v a la l g o r i t h mb a s e d o nt h ei n d e xa r ed e t a i l e d o nt h eo t h e rh a n d ,s o m es h o r t a g e so ft h e m o d e la r ep r o p o s e da n dp o s s i b l er e s o l u t i o n sa r ed i s c u s s e d f i n a l l y , c o m b i n e dw i t hac o n t e n t b a s e dv i d e od a t a b a s em o d e l ,t h e r e t r i e v a lm o d e li sd e v e l o p e dt h em o d e lc a ns u p p o r ta n yd a t a b a s e s y s t e m st h a ts a t i s f y t h e s i m i l a r i t yd e f i n i t i o no fv i d e od a t aa n d s h o t b a s e dr e t r i e v a ls y s t e m s k e yw o r d sv i d e od a t a b a s e ,c o n t e n t b a s e dr e t r i e v a l ,s i m i l a r i t y s e a r c h ,m u l t i d i m e n s i o n a li n d e x 北方交通大学硕士学位论文 绪论 论文背景及其意义 研究表明,人的思维是面向视觉的,对于那些能用可视化的方式表 达的信息来说,人们总是对于通过复杂的图象、图形间的关系表达的信 息比对用文字方式表达的信息接受得更好。近年来,由于数据压缩、宽 带网络、高速计算机技术的发展,人们越来越多地接触到大量的多媒体 信息。每天又有大量的信息在不断地产生( 如新闻、卫星、医疗、安全等 部门) 。其中视频数据作为存储声像信息的类非常特殊的多媒体数据, 因为有直观、效率高、容量达、适用范围广等优点而得到了越来越多的 应用;已经成为多媒体计算和通讯环境中的重要元素。因此,如何对大 量的多媒体视频信息组织、建库以及对巨容的多媒体信息库进行快速、 有效的检索,就成为信息时代人们迫切需要解决的问题。 在信息的组织、管理和检索方面,传统上应用最广泛的是数据库技术。 传统的数据库采用基于关键词查找的检索方式,适于处理结构化的文本 类和数值类的记录信息检索。然而,这种方法用于多媒体信息管理则具 有相当大的局限性。多媒体( 如图象和视频) 信息与文本和数值信息存 在着本质上的不同,它具有如下的特点: ( 1 ) 非结构化特性。在传统数据库中,记录信息具有明显的结构化 特性,它是现实世界中对象间关系的反映,可通过实体一关系模型抽象得 到。与此相比,多媒体对象具有较强的非结构化特性,许多多媒体信息 都以流的形式存在( 如视频流、音频流) 。对这类多媒体对象检索,首先 要对其结构化,这种结构化不能仅仅通过简单的抽象来完成,还需要相 应的媒体分割和组织技术。 ( 2 ) 内容多义性。在传统数据库中,每个记录所包含的语义信息确 定而且有限。而对多媒体对象来说,其内容则往往在不同的应用中具有 不同的解释,即具有多义性的特点,这样其内容就难以通过仅仅几个属 性来充分描述。此外,般对多媒体对象的检索往往都是根据内容相似 程度的检索即查找内容描述与检索要求最接近的检索,这就要求建 北方交通大学硕士学位论文 立的内容描述支持内容相似程度的定量比较,而这也是传统数据库中采 用的定性描述所不能满足的。 这些特点表明,传统的数据库模型已不能满足对于多媒体信息库的 管理和检索要求。在此背景下,建立在媒体信息理解基础上基于内容检 索技术应运而生。 在基于内容检索技术出现以前,人们往往通过对传统数据库进行简 单的扩充来实现对于多媒体信息库的管理,常用的方式有如下两种: 1 基于属性的检索( a t t r i b u t e b a s e dr e t r i e v a o 尽管从本质上讲数据库技术不适于处理对多媒体信息库的检索,但 由于它是一门成熟的技术,许多早期的图象库都采用传统的数据库系统 来进行管理。在这类系统中,每幅图象都用一组属性( 域) 的集合来表 征,通过指定属性来完成对图象的查询。 如前所述,这种检索方法的缺点在于媒体( 图象) 的丰富内容难于 用几个简单的属性来充分描述。实际上,在这类系统中,由于属性一般 都是根据给定查询要求而实现的,导致系统对于给定查询以外的检索请 求就很难处理,即难于进行功能扩充。显然,这种直接采用传统数据库 对多媒体信息进行检索的技术不能满足人们的需要。 2 基于文本描述的检索( t e x t b a s e dr e t r i e v a l ) 一种改进的方法是对媒体标注( a n n o t a t e ) ,即对媒体建立内容的文 本描述,将对媒体内容的检索转换为对于文本描述的处理。检索时,系 统根据给出的关键字按照相似度大小排序返回部分匹配的结果。 采用基于文本描述的检索方法,一个明显的优点就是可以表达抽象概 念。但这种方法也具有如下缺点: ( 11 文本描述难于充分表达媒体的丰富内容。 文本描述是一种定性的描述,描述能力有限,而媒体中往往含有大 量需要定量描述的信息。而且,许多媒体对象的特征难于用文本描述来 表示。以图象为例,不规则形状,散布的纹理等就很难用文本来对其进 行描述。 ( 2 ) 文本描述具有一定的主观性。 北方交通大学硕士学位论文 对于媒体对象( 如一幅图象) 来说,由于其内容的丰富性以及不同 人理解和感兴趣方面的不同,导致内容描述的建立具有很大的主观性( 如 不同人对颜色的感知就不尽相同) 。这样,采用这种检索方法就会带来一 定的歧义性。 ( 3 ) 处理文本描述涉及到自然语言理解问题。 采用文本描述的检索方法,本质就在于计算检索请求与媒体文本描 述之间的相似度,这就涉及到目前尚未解决的自然语言理解问题。 ( 4 ) 手工输入文本描述效率低,难以满足大容量媒体库的要求。 采用这种检索方法,媒体对象内容的文本描述一般需要手工输入, 效率低,因此不能满足巨容多媒体信息库的检索要求。 由于上述两种方法的局限性,使得人们希望能对于多媒体信息库建 立种新的检索框架并发展种新的检索技术,这就是基于内容检索 ( c b r ,c o n t e n tb a s e dr e t r i e v a l ) 技术的由来。 基于内容检索在传统的检索框架中融合了对于媒体内容的理解技术 ( 如图象理解、视频理解等) 。在这种方法中,首先对媒体信息进行分割 使其成为单独的可供检索的媒体对象( 以视频检索为例,就需要对连续 的视频流进行镜头分割,使其成为成为一组镜头的集合,这些镜头可以 作为有效的检索对象) ,再对每个媒体对象采用特征提取算法提取相应的 特征。媒体对象特征的集合就构成了其内容描述。在检索时,根据检索 要求,查询并返回媒体库中内容描述最满足要求的一组媒体对象。 c b r ( c o n t e n tb a s e dr e t r i e v a l ) 主要应用于以下几个方面:将基于内 容检索引擎嵌入到常规的数据库管理系统中,以实现多媒体数据的检索: 在信息检索系统中,对专用领域的视频、图象和文档库进行检索:对 i n t e m e t 上包含在w e b 信息网中的页面上的对媒体数据进行基于内容的 检索等。 在视频数据库及基于内容检索方面已有不少的研究和实践工作: m a c k a y 开发的视频注解器e v a ;o o m o t o 和t a n a k a 开发的基于自建模型 的视频对象的数据库系统o v i d ;c a r r e r 等开发的视频注解引擎v a n e ; i b m 推出的q b i c 系统;以及v i s i o n 系统:j a c o b 系统等。 北方交通大学碗j 。学位论文 作为一门正在发展中的新技术,基于内容检索远未成熟,它吸引了 众多领域的研究人员从不同的方向进行研究。 论文的主要内容和章节安排 本文对视频数据库基于内容的检索模型进行了研究,提出适合于视频 数据库的复合多特征检索模型。共分为如下五章: 第一章视频数据库与基于内容检索技术首先概要介绍了多媒体 数据基于内容检索的概念,指出了基于内容检索系统的要解决的三方面 问题。然后指出视频数据库需要要解决的主要问题。最后介绍了几种现 有的数据模型。 第二章影响视频数据检索模型选择几个因素对影响视频数据检 索模型选择的几方面因素进行了详细的介绍和分析。主要包括视频检索 内容、视频的内容描述和相似度定义、视频检索反馈等问题。在此基础 上提出了视频数据对基于内容检索模型的特殊要求。 第三章相关问题的研究现状首先给出了基于内容的检索要求表达 机制。然后介绍了现有的多维索引结构检索技术。通过对这些检索技术 和数据结构进行分类和性能评价的基础上,指出了建立视频数据库基于 内容索引结构亟待解决的两方面问题。、传统的索引结构在高维情况 下的检索性能问题。二、传统检索结构对检索反馈机制的支持的问题。 第四章视频数据的复合多特征检索模型基于目前存在的问题和检 索要求的分析,结合传统的信息检索模型中的线性约束模型和多维索引 结构提出了一种新的复合多特征检索模型。给出了模型的索引建立算法 和检索算法。同时分析了模型在最近邻检索的支持方面的不足,给出了 几种可能的解决方法。 第五章视频数据库复合多特整检索模型的实现结合基于内容的视 频数据库模型,设计并实现了这种复合多特征索引结构模块。该模块能 够支持各种满足文中定义的视频相似性的数据库结构和支持具有相关性 反馈的检索机制。 结束语总结论文的主要工作和迸步的研究方向。 北方交通大学硕士学位论文 第一章视频数据库与基于内容检索技术 1 1 多媒体数据基于内容检索概述 基于内容( c o n t e n t b a s e d ) 的多媒体信息检索研究伴随着信息时代 的到来而展开。现在,多媒体数据已经广泛用于i n e r n e t 和企事业信息 系统中,用户不仅要存取常规的字符数字数据,而且越来越多的商业活 动、事务交易和信息表现将包含多媒体数据。如何有效地按照多媒体数 据的特性去存取多媒体数据,是一个亟待解决的问题。 首先想到的方法就是利用常规关系数据库管理系统来管理多媒体数 据。对于图像来说,实际上在2 0 世纪7 0 年代人们就开展了对图像数据 库的研究,方法是利用人工输入图像的各种属性,建立图像的元数据库 来支持查询。但是,随着2 0 世纪9 0 年代多媒体技术的发展,可获取的 图像和其他多媒体数据越来越多,数据库容量不断增大,而这种用人工 输入属性和注释的方法就暴露出了它的缺点。一个缺点是人工注释需要 大量的人力,尤其是对于大型的多媒体信息库,如w e b 网络资源、数字 图书馆等。在这样的信息环境中,每天都有大量的新资料出现,需要及 时把这些资料归档。没有计算机的自动或辅助处理,资料的更新周期就 不能满足用户的需要。另一个缺点是人工注释难以解决蕴藏在多媒体数 据中丰富的内容以及内容感知描述的主观性。人们常说,一幅图胜过千 言万语,两音视频等媒体包含了更丰富的内容,这些内容的许多部分很 难用文字来描述清楚。第三个方面,就是对于实时广播流媒体的处理, 手工处理是完全不可行的,必须用计算机进行实时的内容分析。由此, 基于内容的多媒体信息检索研究应运丽生。 基于内容的方法是从新的角度来管理多媒体信息,包括视频媒体的 结构化组织和浏览;图像和音频信号的处理目的不是识别和理解,而是 用于更广泛的信息存取应用方面;综合考虑多种媒体及其关系;强调从 信息技术的角度开展研究;支持其他多媒体信息技术,如超媒体技术、 虚拟现实技术、多媒体通信网络技术等。 北方交通大学硕士学位论文 2 0 世纪9 0 年代初,国际上就开始了对基于内容的多媒体信息检索方 面的研究。从基本的颜色检索,到综合利用多种多媒体特征进行检索, 该项技术已经发展到了高级阶段,大量原型系统已经推出,其中,部分 已投入到实际应用中,以检验其有效性。 下面对多媒体数据基于内容检索的几个主要问题分别介绍。 1 用户获取多媒体信息的方式 在许多情况下,用户习惯于通过概念来提交查询。概念查询的一种 实现是基于文本式的描述,用关键词、关键词逻辑组合或自然语言来表 达查询的概念。 当词语难以足够形象和准确地描述视觉或听觉感知时,例如一种东 西的式样、颜色或纹理,用户就需要利用媒体呈现的视觉和听觉特性来 查询,例如基于颜色、纹理特征进行查询。 用户容易使用的提交视觉和听觉感知方面的主要查询形式是: 示例方式通过浏览选择示例,或通过扫描仪、摄像机、数字相机、 话筒在线输入图像或音频作为查询的样本。 描绘方式在没有现存样本的情况下,可以使用描绘方式。在现实生 活中,为了叙说方便和明确,人们常常用笔勾勒或描绘自己的意图。同 样方式也可以用于提交形象和直观的查询。在听觉方面,通过选择一些 声学感知特性来描述查询要求,例如音调的高低和音量的大小等。 2 多媒体的内容 多媒体数据的“内容”表示含义、要旨、主题、包含和显著的性质、 实质性的东西、物理细节等,它区别于“形式”这个词。对于多媒体数 据来说,其内容概念可以在多个层次上说明: ( 1 ) 概念级内容表达对象的语义。典型地利用文本形式的描述, 通过分类和目录来组织层次浏览,用链来组织上下文关联。 ( 2 ) 感知特性视觉特性,如颜色、纹理、形状、轮廓、运动;听 觉特性,如音高、音色、音质等。 ( 3 ) 逻辑关系音视频对象的时间和空间关系,语义和上下文关联 等。 北方交通大学硕士学位论文 ( 4 ) 信号特性通过信号处理方法获得的明显的媒体区分特征,例 如通过小波分析得出的媒体特征。 ( 5 ) 特定领域的特征与应用相关的媒体特征,例如人的面部特征、 指纹特征。要用到领域知识。 获得媒体内容的方式可以是人工方式和自动方式。有些内容可以自 动提取,但有些内容则很难,即使能够提取,准确度也不高,鲁棒性不 好。因此,可以用半自动方式,使人和计算机各自发挥特长,通过交互 和学习获取媒体的内容。 3 内容处理技术 多媒体内容的处理分为三大部分:内容获取、内容描述和内容操纵。 也可将其看成是内容处理的三个步骤,即先对原始媒体进行处理,提取 内容,然后用标准形式对它们进行描述,以支持各种内容的操纵。 内容获取( p o p u l a t i n g ) 通过对各种内容的分析和处理而获得媒体 内容的过程。多媒体数据具有时空特性,内容的一个重要成分是空间和 时间结构。内容的结构化( s t r u c t u r i n g ) 就是分割( s e g m e n t i n g ) 出图像对 象、视频的时间结构、运动对象,以及这些对象之间的关系。特征抽取 ( e x t r a c t i o n ) 就是提取显著的区分特征和人的视觉( v i s u m ) 、听觉 ( a u d i t o r y ) 方面的感知特征来表示媒体和媒体对象的性质。 内容描述( d e s c r i p t i o n ) 描述在以上过程中获取的内容。目前, m p e g - 7 专家组已经制定出了一系列的多媒体内容描述标准。该标准主要 采用描述符( d e s c r i p t o r ) 和描述模式( s c h e m e ) 来分别描述媒体的特性 及其关系。 内容操纵( m a n i p u l a t i n g ) 是指针对内容的用户操作和应用。有许多 这方面的名词和术语。查询( q u e r y ) 是面向用户的术语,多用于数据库操 作。检索( r e t r i e v a l ) 是在索引( i n d e x ) 支持下的快速信息获取方式。 搜索( s e a r c h ) 常用于i n t e r n e t 的搜索引擎,含有搜寻的意思,又有在大 规模信息库中搜寻信息的含义。摘要( s u m m a r i z a t i o n ,e x c e r p t ) 对多媒 体中的时基媒体( 如视频和音频) 是一种特殊的操作。我们熟知文献摘要 的含义,在内容技术支持下,也可以对视频和音频媒体进行摘要,获得 目了然的全局视图和概要。同样,用户可以通过浏览( b r o w s i n g ) 操作, 北方交通大学硕士学位论文 线性或非线性地存取结构化的内容。另外,基于内容的技术不仅仅用在 多媒体信息的检索和搜索方面,检索仅仅是信息存取的一个方面。过滤 ( f i 】t e r i n g ) 就是与检索相反的一种信息存取方式。用过滤技术可以实现 个人化的信息服务。 4 基于内容检索系统的结构和需要研究的主要问题 个典型的基于内容检索系统的结构如下图l 一1 所示。 图i 1基于内容检索系统结构图 从图1 1 中可以看出,基于内容检索系统有如下三方面问题需要研究: ( 1 ) 特征描述 即利用媒体分割与特征提取来建立媒体对象的结构描述和特征描 述。由于基于内容检索与传统检索手段的主要区别在于融合了媒体理解 技术来对媒体对象的内容进行描述,因此特征描述机制是基于内容检索 系统的关键。在这一模块中,系统首先通过媒体分割对媒体对象结构化, 得到供检索的媒体对象,并根据媒体对象间的关系生成结构描述。之后, 对每个对象利用特征提取技术计算该对象的特征,可构成该对象的特征 描述。出于媒体对象的内容描述是建立在这两种描述基础上的,因此特 征描述机制将直接制约着对予媒体对象内容的描述能力。 北方交通大学硕士学位论文 f2 ) 检索要求的表达 在对媒体对象建立内容描述后,系统还需要有一种将用户的检索要 求转换为内容描述比较操作的检索表达机制。由于用户是通过某种检索 表达机制来提出检索要求的,因此检索表达机制的能力也在很大程度上 决定了一个基于内容检索系统的检索能力。 f3 ) 对内容描述的快速索引 由于基于内容检索是面向大容量多媒体信息库检索的,库中含有大 量的媒体对象,在检索时逐个计算相似度来决定返回对象是不现实的, 难以满足实时检索的需要。因此,需要对媒体对象的内容描述建立一种 快速索引机制,以缩小查找范围,减少等待时间,这对于基于内容检索 系统的实用化是十分必要的。 1 2 视频数据库基于内容检索研究的主要问题 ;由于视频数据有丰富的信息内容、复杂的结构关系和巨大的数据量, 如何用数据库来描述视频数据,如何按一定的查询条件检索视频数据, 这些都是视频数据管理面临的新问题。 与一般基于内容检索结构需要解决的三方面问题相对应的,视频数 据库基于内容检索的研究主要包括以下的问题:建立视频数据的结构模 型:研究快速有效的索引和检索方法;建立视频对象的交互环境。 1 2 1 视频数据模型的建立 传统的文本数据库系统,由于数据类型及数据间的关系比较简单, 所以其数据模型也较为简单。例如,目前广泛应用的关系数据模型是以 = 维“表格”简历数据模型,简单易懂,在中小型数据库系统中得到广 泛应用。其他数据模型如网状数据模型、面向对象数据模型也得到较广 泛的应用。 但是,视频数据由于其信息内容的丰富性、多样性、结构的复杂性, 在视频模型建立中必须考虑一些特殊的问题:视频数据与传统的文本和 数值不同,视频是一种连续媒体,本身不具有结构化特征。要用数据库 的方式对视频数据进行管理,首先要将它分割成基本的可检索单元,然 北方交通大学硕士学位论文 后建立视频结构模型,使它成为一种结构化数据。 1 视频数据的分割 视频分割即将连续的视频流分割为相对独立的视频片段。根据应用 背景的不同,对视频流的分割可以采用不同的标准,比如可以把某一物 体在图象中的出现和消失定义为片段的头和尾。但根据视频信号的产生 原理,我们知道一般的视频信号本身是由多段镜头( 摄象机上从记录 r e c o r d 到停止s t o p 期间所获得的一段连续视频信号) 通过拼接编辑而 成,而每个镜头本身具有一定的独立性和完整性。因此,在实际应用中 多是以视频流中的自然分界一一镜头场景的切换作为视频流的分割依 据。从这个意义上说,视频分割即对视频流中帧图象内容连续性中断的 检测。 目前,镜头变换探测可分为两种情况:突变( a b r u p t ) 景物变换探 测及渐变( g r a d u a l ) 景物变换探测。突变景物变换探测是指视频段的特 征发生突然变化时的视频分段方法,此时由一个视频段到另一个视频段 之间没有过渡,在一瞬间中发生变换。对突变景物变换探测只要测量两 个邻帧之间的差额就可较容易的探测此种变换,这种探测常通过检测被 测图像的某些特征( 这些特征如色度、颜色分布、景深等) 达到。渐变 景物变换所引起的帧特征的变化不是在相邻两帧之间的突变,而是延续 若干帧才完成;常见的景物渐变如淡入( f a d i n g i n ) 、淡出( f a d i n g o u t ) 、 隐现( d i s s o l v i n g ) 、滑a ( w i p i n g ) 、混合( m i x i n g ) 、变形( m o r p h i n g ) 等, 由于渐变景物变换涉及一个画面缓变的过程,要确定景物何时发生变换 就是一个比较困难的问题。目前,突变景物变换探测已有若干较成熟的 方法,变换探测的成功率也可达到9 0 ,渐变景物变换虽然也提出了若 干方法,但探测成功率仍较低,是目前正在研究的问题之一。 2 视频数据模型的基本要求 对于分割后的视频,我们要按定的结构对它们进行组织,也就是 建立视频数据的数据模型。根据视频数据的特点,对于视频数据模型有 以下几方面要求: ( 1 ) 支持多层视频结构抽象 北方交通大学硕士学位论文 在视频流中,有两个固定的抽象层次:整个视频流和单个帧。对大 多数应用来说,整个视频流作为一个抽象层次太粗糙,而一个单独的帧 很少是人们感兴趣的单元。这是因为一个单独的帧的时间跨度很短,并 且即使是一段短的视频,帧数也相当多。于是根据应用情况,把整个视 频流在不同的层次上分段是一个自然的方法。不同的层次从不同的角度 反映了视频所包含的信息。这样就形成了视频流的多层抽象。在每一层, 允许加入附加信息,使得更容易理解所涉及到的视频信息内容,更好地 支持视频浏览,简化视频索引和检索。 在多层抽象中,一般把镜头作为视频段的基本单位。镜头是特征化 视频数据的基本结构元素。正如d a v e n p o n t l 等的定义,一个镜头是由一 个或多个相邻的帧组成,用镜头可表示在定时间和空间内的连续动作, 它包括摄像机从按下“记录”按钮到“停止”之间所记录下的内容。 选择镜头作为基本结构元素是因为在视频流中的镜头是除帧外最细致的 颗粒单位,其它的视频单位都可由镜头组成。 ( 2 ) 支持时空关系 视频数据的一个关键特征是它具有时空语义,这使得视频数据不同 于其它数据。所以视频数据模型应能识别不同的物理对象及它们在时间、 空间上的关系。由于视频流包含了时空信息,一个视频数据库用户能生 成包含时空维度的查询。从用户通过视频操作的视图来看,不同分段间 的时间关系非常重要。它们可能有前后、重叠、相等多种时间关系,这 些时间关系应被用于形式化查询中。 空间关系主要反映一个视频段内各对象间的位置关系。空间关系可 以通过把对象映射到二维或三维坐标来实现。当然,视频数据中各个对 象间的空间关系分析也是一个十分复杂的问题,如对象的识别、跟踪等 也是目前正在研究的问题。 ( 3 ) 支持视频解释 由于目前还不具有全自动图像和语音识别系统,数字视频还不能很 容易的进行特征内容的抽象。目前,已有可能将视频内容的详细解释连 接在任意的帧序列中,称为视频注释。视频注释主要是用文字表示段 视频或规定每一视频段中间的帧为代表帧,来作为对视频段的图像解释。 北方交通大学硕士学位论文 视频注释随人的解释和应用环境动态地改变。在使用代表帧时,视频区 间应较小。 ( 4 ) 视频数据独立性 数据独立性是一个d b m s 应该提供的基本的透明性。数据独立性的 优点之一是可以共享和重用视频数据。由于视频数据量非常大,这一点 在视频数据库管理系统中是一个关键问题,即基本视频素材可以在几个 不同的视频文档中利用。h i e l s v o l d 和m i d 抒a 啪【2 】把视频文档的内容定义 为视频流的逻辑概念,此逻辑单位可映射到称为存储视频段的物理存储 中。目前关于视频数据独立性的问题还没有得到完全的解决,这是视频 数据模型建立中需进一步研究的问题。 1 2 2 视频数据的索引 对于视频数据基于内容的索引将在第二章中进行了详细的介绍和分 析。此处只做简单介绍。 1 视频索引的方式 在传统的字符数值数据库中,只需明确指定一个关键字,即可查询 相应的记录。但是视频数据库却不同。在视频数据库中的一个基本单位 是一个视频单元( 如镜头) ,由于视频数据本身信息的丰富性及内容的模 糊性,人们很难为其指定一个简短、确切的、类似关键字的对视频单元 的描述,以便按此描述查找相应的视频单元。因此,要使用视频数据索 引技术,以建立对视频单元的描述。视频索引涉及到对视频内容的理解, 如果采用全自动的方式进行,需要计算机具有人的智能,这在可以预见 的将来还无法实现,因此视频索引一般采用人机交互的方式进行。目前, 视频索引主要有三种基本方式: ( 1 ) 手工标识索引 这种方式是对已分段的视频单元基本上用手工方式进行交互标识。 显然,这种方式是一种十分耗时费力的工作。通过友好的用户界面及交 互方式,可提高标识的效率。 ( 2 ) 基于特征的索引 这种索引方式是一种自动或半自动的方式,它使用图像或视频的定 北方交通大学硕士学位论文 量特征( 如彩色、光照、纹理等) 作为视频单元的标识。用图像理解方 法由视频单元中可自动抽取这些特征。 ( 3 ) 基于领域知识的索引 这种索引一般是针对某个特定的领域。例如,对于视频新闻,可以 对镜头进行分类( 如主持人镜头、播音员镜头、文本镜头、气象预报镜 头等) ,对这些镜头分别进行索引。这种索引方式只针对某个特定领域, 不是一种通用的索引方法。 2 高维索引结构的研究 已有的对于多媒体数据基于内容的检索主要集中于开发新的特征来 更好的表现媒体内容这方面,因此许多检索算法的实验数据仅仅几百个 或上千个,虽然采用顺序搜索,但感觉不出检索的响应时间。而对于大 型媒体库,则肯定需要建立索引。因为内容特征,尤其是在集成的检索 中,特征矢量高达1 0 2 量级,大大多于常规数据库的索引能力,因此, 需要研究新的索引结构和算法,以支持快速检索。目前,一般采用先减 少维数,然后再用适当的多维索引结构的方法。虽然过去已经取得了一 些进展,例如k - d 树和r 一树以及改进的索引树结构,但仍然需要研究和 探索有效的高维索引方法,以支持多特征、异构特征、权重、主键特征 方面的查询要求。另外,基于内容的检索不是采用传统的点查询和范围 查询,而是相似度匹配。在相似度的计算中,可以采用欧氏和其他距离 公式,甚至采用非距离的度量( 例如直方图的交) 。在这种情况下,除了 采用以上所述的多维索引方法之外,还要结合相似度的定义建立全新的 检索模型。 1 2 3 视频数据的查询及检索 视频数据库管理系统的目标之是使用户对视频数据库进行有效的 存取。视频数据检索的基本过程是:用户通过用户接口向系统提供一个 查询项:然后系统对此查询项进行处理和分析,获得用于与视频数据库 中所存视频数据进行匹配的特征;用所得特征从视频数据库中得到查询 结果并显示于用户接口。由上可见,视频数据检索与视频数据库管理系 统的多方面有关。例如,视频检索与视频数据模型有关,因为视频数据 北方交通大学硕士学位论文 模型中规定了所选用的视频特征;视频检索与视频索引也有紧密的联系, 因为视频索引中标识的特征直接用来与查询匹配,且查询通常通过搜索 索引结构处理。也可以说,视频数据查询及检索的方式即是视频数据库 管理系统综合功能的体现。 用户的查询及检索要求是通过用户接口向系统提出,在视频数据库 中用户接口的设计具有特殊的重要性。用户接口涉及到用户对内容的感 知表达、交互方式的设计、用户如何形成并提交查询等方面。现代多媒 体信息系统的一个重要特征就是信息获取过程的可交互性,人在系统中 是主动的。除了提供示例和描绘查询基本接口之外,用户的查询接口应 提供丰富的交互能力,使用户在主动的交互过程中表达对媒体语义的感 知,调整查询参数及其组合,最终获得满意的查询结果。用户的查询接 口应该是直观易用的,底层的特征选择对用户是透明的。这里涉及到如 何把用户的查询表达转换为可以执行检索的特征矢量,如何从交互过程 中获取用户的内容感知,以便选择合适的检索特征等问题。 在支持内容描述和快速索引技术的基础上,提供一种强大、灵活的 可视化检索手段将是未来基于内容检索表达机制的研究方向。 1 3 几种现有的视频数据模型 与传统的文本和数值不同,视频是一种连续媒体,本身不具有结构 化特征。对它进行管理,首先要将它分割成基本的可检索单元。再建立 视频结构模型,使它成为一种结构化数据,这样就可以用数据库的方式 进行浏览或检索。对一个基于内容的检索系统来说,数据模型是核心, 决定了系统支持的查询类型和检索能力。对于视频数据库而言,研究视 频数据特有的结构模型是一个关键问题,是其他各方面研究的基础。因 此,我们首先介绍已有的几种视频数据库数据模型。 视频数据的重要特征是具有时间及空间两维结构,因此在建立视频 数据模型时,人们首先要把时间维引入模型中。基于这种考虑已有几种 基于时间描述类的模型,如时间线模型、时间p e t r i 网模型、时间关系模 型、基于时态区间的模型等。h a m p a p u r 叫提出了一种基于视频应用及生 成的分段视频模型。此模型通过研究不同视频数据的应用及生成来作为 北方交通大学硕士学位论文 视频数据模型设计的依据。 上述的几个基于时间描述的数据模型主要用来表达线性时间媒体, 并未考虑视频的逻辑结构及视频段之间的层次关系。d u d a 等提出了代 数视频数据模型,此模型中引入了视频段之间层次关系及视频代数操作, 用此模型可由原始视频段经视频代数操作生成新的视频流。 h j e l s v o l d 2 】提出了一种通用的视频数据框架模型。此模型借助传统数 据库模型的表达方式建立了一个较清晰的概念模型,有较广的应用价值。 通用视频数据模型框架借助e r 图建立了个概念模型,模型中提供了 核一i i , 概念及模块,在应用中可以使用其核心概念,也可以使用核心概念 的子集。模型采用视频分段的方法定义视频文档结构,有良好的层次抽 象结构,支持镜头、场景、序列及复合单元等多级抽象。模型中使用了 面向对象技术,每个对象都有唯一的对象标识符,并可具有复杂的属性。 模型中引入了视频数据上下文的概念,借助上下文可把原始视频合成为 新的视频流,并有可能产生新的语义。模型中还定义了视频查询代数, 可对视频数据进行方便的操作。 下面主要介绍两种视频数据模型:面向对象模型和立体塔状模型。 1 面向对象模型 o o m o t o 4 1 把面向对象技术应用于视频数据模型中,提出了视频数据 对象数据模型。 把面向对象技术引入视频数据模型主要有以下几方面优势: 首先,有助于视频数据的表达及管理。借助于面向对象技术中的复 合及概括联系的概念可表达视频数据对象之间的复杂关系。 其次,借助于面向对象技术中数据及相关方法的封装性,可减少视 频数据之间类型及描述的差异对构造模型带来的困难。 最后,借助于基于类层的属性结构及方法的继承性,可解决视频数 据的表达及扩充的问题。 但是,传统的面向对象技术在应用于视频数据模型时还受到以下限 制: 首先,视频数据库中的数据源来自于原始数据,这类数据的获取是 完全独立于其内容及数据库结构的,这就为数据对象的定义带来困难, 北方交通大学硕士学位论文 因此在视频数据模型建立时,首先要确定如何定义对象。 其次,在传统面向对象数据库中,数据模式是静态的,即模式一旦 定义,对象的属性基本上是固定不变的。而视频数据含有丰富的信息内 容,对它的描述与应用密切相关,视频数据的属性很难事先全部定义, 这就意味着视频数据的语义是逐渐加入的。因此,视频数据模型应支持 不确定的属性结构。 最后,传统的面向对象数据库只支持基于类的继承性,而视频数据 对象之间常有时间上的重叠及包含关系,因此要支持区间包含继承性, 以使视频数据共享对视频的描述数据。 为克服传统面向对象技术应用于视频数据模型时的局限,面向对象 视频模型提出了以下的基本思想:定义任意视频帧序列为一独立的实体, 此实体含有本身固有的属性及其值,以表
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 数字人民币对经济危机的影响-全面剖析
- 知识型员工工作生活平衡管理-全面剖析
- 过河钢管施工方案
- 5G技术在花店行业的应用前景-全面剖析
- 泮托拉唑治疗幽门螺杆菌新策略-全面剖析
- 燃气储运设施安全监控技术研究-全面剖析
- 全球视觉传播策略研究-全面剖析
- 互动式出版物设计趋势-全面剖析
- 墓葬搬迁施工方案
- 无人零售市场前景-全面剖析
- 针灸治疗呃逆
- 2024年中考英语复习:阅读七选五 专项练习题汇编(含答案解析)
- 《吸收与解吸》课件
- 综合实践活动(1年级下册)第1课时 走近身边孝顺的好榜样-课件
- 城市道路养护技术规程
- 初中信息技术教学中的项目式学习
- 部编版语文二年级下册第3单元核心素养教案
- DB43-T 1712-2019 银行业金融机构智能预警系统安全防范要求
- 2023年云南省接受军转干部安置考试试题
- 初三英语试卷分析失分原因和改进措施
- 关于在生产过程中物料流转的交接和管理规定
评论
0/150
提交评论