(计算机软件与理论专业论文)计算机辅助视频编目系统的研究与设计.pdf_第1页
(计算机软件与理论专业论文)计算机辅助视频编目系统的研究与设计.pdf_第2页
(计算机软件与理论专业论文)计算机辅助视频编目系统的研究与设计.pdf_第3页
(计算机软件与理论专业论文)计算机辅助视频编目系统的研究与设计.pdf_第4页
(计算机软件与理论专业论文)计算机辅助视频编目系统的研究与设计.pdf_第5页
已阅读5页,还剩48页未读 继续免费阅读

(计算机软件与理论专业论文)计算机辅助视频编目系统的研究与设计.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 数字视频在广播、教育和其他多媒体应用领域发挥着越来越重要的作用。 随着应用的发展,视频数据量也急剧增加,如何高效管理这些海量视频数据使 用户能够快速获取所需的视频数据也越来越受到人们的重视。本文在分析研究 现有一些基于内容和注释的视频分析、处理和检索技术的基础上,结合m p e g - 7 标准的新框架,提出一种自动化和人机交互的手段进行视频编目的方法。主要 的研究工作如下: 1 视频结构化处理技术:基于视频层次化模型,对通用视频的结构化处理 技术进行研究,提出了一种基于特定视频的领域知识来自动化实现视频结构化 处理的方法。 2 视频内容描述:本文在研究m p e g 一7 多媒体描述接口标准的基础上,从视 频数据的特性出发,综合考虑视频的各种特征,包括视觉特征、语义特征、时 空结构,将视频描述分为视觉和语义两个层次,以自动化和半自动的人机交互 模式建立基于m p e g 一7 标准的视频内容描述模型。 3 计算机辅助视频编目系统框架设计:基于j 2 e e 平台采用三层架构设计。 系统能够实现对视频进行分析、索引和基于w e b 的视频检索功能。 关键字:视频编目、结构化处理、m p e g 一7 、内容描述、视频检索、x m l 、 a b s t r a c t 一 a b s t r a c t d i g i t a lv i d e op l a y sam o r ea n dm o r ei m p o r t a n tr o l en o w a d a y si nt h e a r e a so fb r o a d c a s t ,e d u c a t i o na n do t h e rm u l t i m e d i a a p p l i c a t i o n s w i t h t h ed e v e l o p m e n to fa p p li c a ti o n s ,t h ea m o u n t o fv i d e ois i n c r e a s i n g r a p i d l y p e o p l es h o wg r e a tc o n c e r na b o u th o wt om a n a g e e f f i c i e n t l y i m m e n s ea m o u n to fv i d e ot of a c ilit a t eu s e r st oa c c e s sv i d e oc o n t e n tt h e y w a n tt og e t i nt h i sp a p e r ,o nt h eb a s eo fs t u d y i n ge a r li e ra p p r o a c h e s o fc o n t e n t b a s e da n da n n o t a t i o n b a s e dv i d e oa n a l y s i s ,p r o c e s s i n g a n d r e t r i e v a l ,w ed e s c r i b eas y s t e mf o ra u t o m a t i ca n di n t e r a c t i v ev i d e o i n d e x i n g m a i nw o r k si nt h i st h e s i si sa sf o l i o w s 1 v i d e oa n a l y s i sa n dp r o c e s s i n g b a s e do nh i e r a r c h i c a lv i d e om o d e l , s t u d yt h et e c h n o l o g yo fa n a l y s i sa n dp r o c e s s i n go fg e n e r i cv i d e om o d e l p r e s e n ta na p p r o a c ho fa u t o m a t i c a l l yp r o c e s s i n go fv i d e os t r u c t u r e i n s p e c i f i cd o m a i n 2 d e s c r i p t i o n o f v i d e oc o n t e n t b a s e do n m p e g 一7s t a n d a r d , i n t e g r a t i n gav a r i e t yo ff e a t u r e s ,i n c l u d ev i s u a lf e a t u r e s ,s e m a n t i c f e a t u r e s ,a n dt e m p o r a la n ds p a t i a ls t r u c t u r e ,c o n s t r u c tt h ed e s c r i p t i o n s o fl o w l e v e la n dh i g h l e v e lf e a t u r e so fv i d e oc o n t e n tb yh u m a nc o m p u t e r i n t e r a c t i o nm e t h o d s 3 d e s i g no ft h ea r c h i t e c t u r eo ft h es y s t e mo fc o m p u t e ra i d e dv i d e o c a t a l o g i n g d e s i g nt h r e et i e r e da r c h i t e c t u r eb a s e do nt h ep l a t f o r mo f 5 2 e et or e a l i z ev i d e oa n a l y s i s ,i n d e x i n g ,a n dw e b b a s e dr e t r i e v a l w f i a e nb ys 坠望h 坠堕h 塑鱼 ( c o m p u t e rs o f t w a r ea n dt h e o r y ) d i r e c t e db y ) 6 6 塑g 丛i 旦g 旦 k e yw o r d s :v i d e oc a t a l o g i n g ,s t r u c t u r ep r o c e s s i n g ,m p e g 7 ,c o n t e n td e s c r i p t i o n , v i d e or e t r i e v a l ,x m l 独创性声明 y 9 2 9 0 3 2 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的 研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其 他人已经发表或撰写过的研究成果,也不包含为获得南昌史学或其他教育机构 的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均 已在论文中作了明确的说明并表示谢意。 学位雄文作者签名劲、拳绰签字日期加f 年钿螽 学位论文版权使用授权书 本学位论文作者完全了解南昌上学有关保留、使用学位论文的规定,有权 保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借 阅。本人授权查墨叁鲎可以将学位论文的全部或部分内容编入有关数据库进行 检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后适用本授权书) 学位做作者躲讷帚缉翩虢移让 签字目凝:扣( 年6 鹞f 细 学位论文作者毕业后去向: 工作单位: 通讯地址 签字曰期:扣苦年厶,由 电话: 邮编: 第1 章引言 第1 章引言 1 1 课题的来源及其意义 随着电视台视频节目的积累,网上数字视频的增加,以及数字图书馆、视频点 播、远程教学等大量多媒体的应用,如何在海量视频中快速检索出所需要的资料 显得至关重要。而快速检索的基础是大量的编目。由于视频具有数据量大、非 结构化、时空关系复杂等特点,在对海量视频进行编目时,工作量巨大。本课 题根据m p e g 7 标准,研究视频数据层次化模型以及相关人工智能的理论、技 术和方法,实现人机交互半自动化标注的视频编目系统,提高视频编目的工作 效率。 早在2 0 世纪7 0 年代人们就开展了对图像数据库的研究,方法是利用人工 输入图像的各种属性,建立图像的元数据库来支持查询。但是,随着2 0 世纪 9 0 年代多媒体技术的发展,可获取的图像和其他多媒体数据越来越多,数据库 容量不断增大,而这种用人工输入属性和注释的方法就暴露出了它的缺点。一 是人工注释需要消耗大量的人力,尤其是对于大型的多媒体信息库,如电视台 视频数据库、w e b 网络资源、数字图书馆等。在这样的信息环境中,每天都有 大量的新资料出现,需要及时把这些资料归档。没有计算机的自动或辅助处理, 资料的更新周期就不能满足用户的需要。二是视音频媒体信息包含了丰富的内 容,人工注释难以用文字来描述清楚多媒体数据中丰富的内容。三是对于实时 广播流媒体的处理,手工处理是完全不可行的,必须用计算机进行实时的内容 分析【1 1 。 因此,本课题意义在于:通过计算机辅助半自动化的编目技术,减少了对 人力的需求,增加了视频资料的归档速度。并提供对视频内容的描述弥补了关 键字对视频描述的不足。 1 2 课题所在领域的发展历程与发展趋势 随着计算机技术、多媒体技术的发展和信息需求的不断增长,多媒体信息 已经成为各类信启、系统的主要数据来源形式,如大量可获取的图片资料和数字 - - 1 第1 章引言 视频等,它们不仅数据量大,而且包含大量非结构化信息。 对于数据管理来说,8 0 年代偏重于数据库管理系统本身的研究,包括数据 库理论模型、查询语言、调度与处理算法等。9 0 年代,随着计算机硬件、通信 网络技术的迅猛发展,以及全球性i n t e r n e t 网络及其信息环境的普及,多媒体 数字化信息在各个应用领域都得到广泛应用。现在,信息系统及其应用已经超 出了传统的联机事务处理范围,而向着高级复杂的多媒体数据管理及其应用领 域深入和发展,下一代的信息系统需要解决多媒体数据的管理及其应用问题。 数据的形式从简单的字符数据发展到包括视频、图像、声音的多媒体数据, 传统的数据管理技术由于受到自身缺陷和能力的限制,难以支持多媒体数据的 内容管理,因此需要研究新的适合多媒体特性的内容管理方法。 多媒体数据管理的研究已有十多年的历史,例如从早期的扩展关系模型, 到对象一关系和面向对象数据库模型。关系模型采用表格形式和元组表示多媒 体数据的外部属性,而面向对象的模型是通过定义特定的媒体对象( 或通用的 二进制对象) 及其操作方法,对多媒体数据进行存储、索引和查询管理。另外, 超媒体也是一种管理多媒体数据的模型。这些模型解决了多媒体数据集成到数 据库中的数据建模问题,即通过用户自定义的数据类型及其操作,把多媒体数 据集成到数据库中进行管理。但是这些模型只是对其进行了数据建模,而不是 信息建模。如何对多媒体数据在内部进行内容的描述和管理,仍然是个开放 的研究问题1 2 j o 因此,目前在对象一关系模型、面向对象模型方面的研究和数据库产品取得 较大进展的情况下,多媒体信息管理研究的一个重点已经放在研究多媒体数据 的内容管理上【3 j 。信息建模支持的是信息检索,侧重的是考虑对数据内容的描 述,从而支持对内容而不仅仅是对外部一般属性的查询和检索。虽然在基于内 容的检索方面开展了大量的研究,但是这些研究侧重于具体的检索算法方面, 在另一方面,虽然市场上对象一关系数据库管理系统能够集成多媒体数据类型, 但是缺乏对多媒体数据在内容级别上的管理。 基于内容( c o n t e n t 口b a s e d ) 的多媒体信息检索研究伴随着信息时代的到来 而展r 歼i 训。该方法是从新的角度来管理多媒体信息,包括视频媒体的结构化组 织和浏览;图像和音频信号的处理目的不是识别和理解,而是用于更广泛的信 第l 章引言 息存取应用方面;综合考虑多种媒体及其关系;强调从信息技术的角度开展研 究:支持其他多媒体信息技术,如超媒体技术、虚拟现实技术、多媒体通信网 络技术等。 1 3 已有相关研究 2 0 世纪9 0 年代初,国际上就开始了对基于内容的多媒体信息检索方面的研 究5 】【6 】o 从基本的颜色检索,到综合利用多种多媒体特征进行检索,该项技术 已经发展到了高级阶段,大量原型系统已经推出,其中,部分已投入到实际应 用中,以检验其有效性。同时,多媒体内容描述标准m p e g 7 也正在制定当 中。下面介绍其中的几种代表性的原型方法【7 】: _ i b m a l m a d e n 研究中心研究开发的,是基于内容检索系统的典型代表。 q b i c 系统允许使用例子图像、用户构建的草图和图画、选择的颜色和 纹理模式、镜头和目标运动和其他图形信息等,对大型图像和视频数据 库进行查询。 一m i t 的媒体实验室在1 9 9 4 年开发研制的。图像在装入时按人脸、形状 或纹理特性自动分类,图像根据类别通过显著语义特征压缩编码。 一新加坡国立大学开发的一个基于内容的检索机。其显著技术特色包括: 多种特征提取方法、多种基于内容检索方法、使用自组织神经网络对复 杂特征度量、建立基于内容索引的新方法以及对多媒体信息进行模糊检 索的新技术。 一美国哥伦比亚大学图像和高级电视实验室开发的。它实现了互联网上的 ”基于内容”的图像视频检索系统,提供了一套工具供人们在w e b 上搜 索和检索图像和视频。 另外还有许多类似的系统,例如加利福尼亚大学s a n t ab a r b a r a 分校的n e t r a 、 伊利诺依大学的m a r s 、c m u 的i n f o m e d i a 以及哥伦比亚大学的v i d e o q 等。 1 4 本文主要研究内容 本文在分析已有的基于内容的视频检索技术和基于注释的视频检索技术的 第1 章引言 基础上,研究了视频低级视觉特征和高级语义特征提取技术,以及它们的描述 方法,提出了一种人机交互的视频半自动化编目系统的设计方案,以实现多模 式视频检索。本文主要研究内容包括: 一视频数据结构化分析及其技术 一基于内容的图像特征提取技术 _ 基于m p e g 7 标准的视频特征描述方法 - 系统体系结构的设计 第2 章视频结构化分析 第2 章视频结构化分析 2 1 视频数据的特点 视频数据与传统的文字和图片数据有着很大的不同,综合起来有如下几个 方面【7 l 8 1 【9 】: 视频数据量巨大。视频数据量巨大,数据长度的差异也极大,给数据的组 织和存储方法带来复杂性。以我们中国p a l 制式标清视频为例,一秒的标清视 频数据量为:7 2 0 * 5 7 6 ( 视频分辨率) * 2 4 b i t ( 每个像素点的颜色深度) * 2 5 ( p a l 制式每秒播放的帧数) = 3 1 1 0 4 0 0 b y t e ,约为3 1 m 字节,而- - 4 , 时的无压缩视频 素材的数据量高达1 0 0 g 以上。由于数据量巨大,视频中往往采用了高性能的 压缩算法( 如m p e g ,d v ,r e a lv i d e o 等) 。图2 1 比较了不同编码格式下9 0 分钟视频素材所占的存储空间。 s i z ef g b l 1 1 p 踟2 d v4 :i :i d v :二:二d i g i 日c h d ih 【_ ) 【v j5 , 1 b 舡3i i b i s5 0 i b s9 0 i b l s2 7 0m b s【二( ;b s 图2 1采用不同编码格式的视频所占存储空间( 9 0 分钟视频素材) 视频具有时空两方面的属性。视频数据既具有空间属性又具有时间属性。 时间维是指视频是由多个图像帧构成的沿时间轴分布的以图像帧为单位的流结 构,要把视频数据存于数据库中,就要对视频流在不同层次上分段抽象。空间 维是指每一帧图像均是空间二维结构,图像中所蕴含的空间信息十分复杂,很 难建立一种清晰的结构;视频数据的这种非结构化属性,使其表达及建立数据 第2 章视频结构化分析 模型更为困难。 视频数据语义信息的主观性及模糊性。视频数据是连续播放的图像信息, 它所蕴含的信息十分丰富。不同的人对一幅图像或一段视频可能有不同的理解, 这就不像字符数值型数据有完全确切的客观解释,并且视频数据常常因为个人 主观的因素,如感情、心理等,而有不同的理解。由于视频数据的模糊性,当 我们对其进行查询时,就无法像字符数值型数据,用一个指定的字段作为关键 字确切地查询一个特定的纪录。在视频数据库中,常常只能用相似性进行查询, 即只能用近似匹配对视频数据进行查询。这就增加了视频索引和检索的复杂性。 2 2 视频层次化结构模型 视频是一种连续媒体,本身不具有结构化特征。对它进行管理,首先要将它 分割成基本的可检索单元,再建立视频结构模型,使它成为一种结构化数据, 这样就可以用数据库的方式进行浏览或检索。如同一篇文章,我们可以根据它 的语义关系划分为章节、段落、句子、词组、字母等层次化的逻辑结构,这样 就可以基于这些逻辑单元进行检索和查询,同样,我们也可以根据视频内在的 语义关系将一段视频划分为若干个逻辑层次来管理,高层是一个完整的视频节 目或故事,接下来依次为故事单元层、场景层、镜头层。它们的概念如下【8 】 9 】: 镜头:镜头是指摄像机从打开到关闭的过程中记录下来的一组连续的帧 图像,它可由一个或几个代表帧来表示。 场景:节目或素材中背景或场面不变的一段连续视音频部分,由时间或 空间上相关的一个或多个镜头构成。 故事单元:节目或素材中一段连续的视音频,具有完整的语义信息,由 一个以上相互关联的场景构成。如新闻节目中的每则新闻就是一个完整的故事 单元。 节目:具有独立主题意义的、已经制作完成的完整的视音频资料。 镜头是视频在物理层上的单位,而场景是视频在语义层的单位,通常只有场 景才能向观看者传达相对完整的语义信息。故事单元层具有完整的语义信息, 以电视新闻节目为例,故事单元层相当于个新闻条目。 当视频完成结构化处理后,我们就可以在这些视频的每一层中添加属性。 在节目层,可以分配与视频节目相关的题目、作者、创作日期及信息等真实数 第2 章视频结构化分析 据。场景层包含它所有镜头的共同语义特征。镜头特征是由镜头拍摄曰期、拍 摄对象、拍摄地点、动态信息以及代表帧的图像数据和颜色分布等图像统计特 征组成。 如何对上述四个层次进行自动划分,对视频编目系统来说有着重要的意义。 目前,视频镜头的自动分割和代表该镜头内容的关键帧提取技术已经比较成熟, 但在涉及到高级语义层面上的其它三个层次的划分还没找到理想的办法。本课 题将对视频结构自动化分析技术进行研究,把视频底层视觉特征和特定视频节 目的领域知识结合起来,并通过人机交互手段实现视频数据结构化半自动化处 弹。 2 3 视频结构化处理技术 本文采用自底向上的方法对视频进行结构化处理( 如图2 2 所示) ,构造视 频层次化模型。具体步骤如下【l o 】: 1 镜头探测。首先根据视频的物理低层特征,通过镜头边界探测技术将视 频划分为一系列的镜头j 针对每个镜头提取一个或多个能够代表该镜头的视频 帧,代表视频的帧被称为关键帧。 2 场景聚类。视频被划分为基本的镜头单位后,我们就可以利用镜头旷寸 间属性和关键帧的空间属性对视频结构进一步分析,将一些在时间上连续空间 上相关的镜头进行聚类,构成场景层。 3 故事单元构造。完成镜头划分和场景聚类后,我们就可以在此基础上实 现对视频的故事单元的构造。前面两种分析技术主要是利用视频画面的时空特 征通过计算机图像处理技术自动实现的。由于视频的低层视觉特征和高层语义 之间存在着一道以目前的视频处理技术还不能够逾越的鸿沟,因此在故事单元 划分这个涉及到语义理解的层面上的处理仅仅建立在视觉特征上是不够的。对 大量的视频节目研究后我们发现特定视频节目本身就隐含着结构化的特征,这 样我们就可以利用特定视频的领域知识来实现高层次的视频单元划分。本章后 面将对新闻视频的结构进行分析,找出新闻视频的故事单元的构造方法。 第2 章视频结构化分析 视频 故事单元 场景 镜头 镜 头 边 界 探 测 关键帧 2 3 1 镜头分割 图2 2 视频结构化处理流程 分割是把视频序列分成镜头的过程【1 0 】。在摄像间隙的任意一边的相邻帧通 常在内容上都显示着十分重大的量的变化。所以,真正需要的是捕获一对帧之 间差别的一些合适的量化度量,那么如果差值超过了一个给定的阈值,则它被 解释为表明一个分割边界。因此运用它们建立合适的差值度量和技术是自动分 割中的关键问题。 摄像间隙是两个镜头之间的最简单的转换。更复杂的摄像动作包括溶合、 擦洗、渐现和渐隐。这样的具体效果需要相邻帧之间的渐进变化而不是摄像间 隙。由于这些量的变化太小,很难用单个的阈值来检测,因此需要一个更复杂 的方法。 1 、基本的视频分割技术】 镜头检测的关键问题是如何测量帧与帧之间的差别。目前已经提出了许多 帧与帧之间的差值度量方法。最简单的度量是对相邻帧之间的像素与像素的差 值求和。如果和大于一个预定的阂值,则说明在这两个帧之间存在镜头边界, 该方法不是很有效许多错误的镜头检测将会被发现。这是因为由于在对象从 一个帧运动到另一个帧时,一个镜头内的两个帧可能具有很大的像素与像素的 第2 章视频结构化分析 差值。 为了克服第一种方法的局限性,第二种方法测量了相邻帧之间的颜色直方 图距离,这种方法的原理是对象运动几乎不引起直方图差别。如果找到一个大 的差值,则可以肯定出现了一个摄像间隙。 假设e ( ) 表示第f 个帧的直方图,其中是g 的一种可能的灰度级别,则 第i 帧与其后续帧之间的差值可由下列公式表示: s d ,= e ( ) 一m + l ( 川 2 1 j 如果s d ,大于预定的阈值,则可判定为它是一个镜头边界。 对于彩色视频,可修改上述基本技术来考虑颜色成分。一个简单的但有效 的方法是根据从r 、g 和b 成分中推导出的颜色代码比较这两个直方图。在这 种情况下,上述方程的代表着颜色代码而不是灰度级。为了降低计算量,只 选择每个颜色成分的两个或三个最重要的位来写颜色代码。例如,如果每个成 分使用3 b ,则直方图总共含有5 1 2 个二值数。 第三种方法是对第二种方法作出修改。帧距离计算如下: s d ,:i ! 塑韭堡! ! 垃:【2 2 j j h “( 、j 、) 。 在上面的镜头检测技术中,选择合适的阈值是决定分割性能的关键问题必 须分配一个阈值以便它能容忍单个帧的变化但同时又能检测到真实的边界。通 常阈值被选定为帧与帧之差的平均值加上一个小的容忍值。阈值是根据帧与帧 的差值的统计模型来决定的。 2 、用渐进变化检测镜头边界【1 1 】【1 2 】 上面每个镜头检测技术都依赖于镜头检测的单个帧与帧之间差值的阈值。 理想的情况是选择的差值阈值要使所有的镜头边界都能检测到而且没有虚假检 测。事实上,当帧与帧之间逐渐发生变化时,上面的基本检测技术就可能检测 不到镜头边界。另一方面,由于上面的基本技术并没有考虑空间颜色分布,因 此它不会识别出两个不同情景但具有相似颜色直方图的两个帧之间的边界。需 要使用不同的技术来克服这两个问题。 用渐现、渐隐、溶合和擦洗操作等技术产生的视频在镜头边界之间比摄像 间隙具有更渐进的变化。当一个情景逐渐出现时称为渐现:当一个情景逐渐消 失时称为渐隐;当一个情景逐渐消失而另一个情景逐渐出现时称为溶合:当一 第2 章视频结构化分析 个情景逐渐进入帧之间而另一个情景逐渐离开时成为擦洗( w i p e ) 。 惭现、渐隐、溶合和擦洗操作的差值比镜头内的差值高,但是比镜头阈值 要低得多。在这些情况下,单个的阈值不会发挥作用。因为为了捕获到这些边 界,必须对阈值进行大幅度降低,从而可能产生许多错误的检测。为了解决上 述问题,提出了既能检测正常的摄像间隙又能检测到渐进转换的双比较技术。 双比较技术要求使用两个差值阈值,阔值t 用于检测正常的摄像间隙,第二个 较少的阈值t f 用于检测在渐进变换可能出现的地方可能出现的帧。在镜头边界 检测过程中,使用上一节描述的一种差值度量便可对相邻的帧进行比较。如果 差值大于l ,则可宣布存在一个镜头边界。如果差值小于t 但大于t ,则可把 帧标记为一个潜在的变换帧,然后把相邻出现的潜在变换帧的帧与帧之间的差 值加起来。如果相邻潜在变换帧累积在一起的帧与帧之间的差值大于t ,则可 宣布存在一个转换而且可把相邻潜在转换帧当作一个特殊的块。注意,当相邻 帧与帧之间的差值大于t ,则只计算积累的差值,这就是说,在一个转换中, 所有的帧与帧的差值( 当前帧与前一帧之间) 应大于t 。但小于t 。 2 3 2 关键帧提取 所谓关键帧是指具有代表性,能够反映一个图像序列主要内容的图像帧。 视频在经过镜头边界探测后,被分割成一系列的镜头。在此基础上,我们可以 为每个镜头选取关键帧,并用关键帧表达镜头的内容。因为镜头是摄像机在同 一个场景下连续拍摄的,同一个镜头的各帧图像有相当的重复信息,所以,镜 头关键帧能较好的反映该镜头的主要内容。依据镜头内容的复杂程度,可以从 一个镜头中选取一个或多个关键帧。 在视频编目系统中,提取关健帧的目的有如下两个方面:是希望用它来 静态表示视频动态节目的主题和部分内容;二是希望从关健帧中提取颜色、纹 理和形状等特征,以作为多媒体特征库的数据源,而不需要对每一画面都重复 提取。由此看出,关键帧应具有代表性,即对前者,应代表主题方面的特征; 对后者,则视提取特征的不同而不同。 下面介绍几个主要的关键帧提取算法【1 0 】【1 3 】 1 4 1 : 第2 章视频结构化分析 1 、基于镜头边界法 此方法是将每个镜头的首帧作为关键帧。这是由于同一镜头中后面各帧可 以看作是第一帧在逻辑和时间上的扩展。但有时镜头内部变化较大,第一帧并 不能很好地代表镜头的内容,所以在此基础上,一种改进方法就是把每个镜头 第一帧和最后一帧或中间某帧直接作为关键帧选取出来,这样实现起来较为简 单,运算量小,非常适合于内容活动性小或保持不变的镜头,但对于摄像机不 断运动的镜头,该方法不稳定,无法有效地表达镜头的主要内容。 2 、基于颜色特征法 在基于视频图像颜色特征提取关键帧方法中,镜头当前帧与最后一个判断 为关键帧的图像比较,如果有较多的颜色特征发生改变,则当前帧为新的一个 关键帧。按照这个方法,对于不同的视频镜头,可以提取出数目不同的关键帧, 而且每个关键帧之间的颜色差别较大。这种方法的缺点就在于它对摄像机的运 动很不敏感,无法量化的表示运动信息的变化,会造成关键帧提取不稳定。 3 、基于运动分析法 通过计算镜头中帧的每个像素光流分量的模之和作为这一帧的运动量,对 运动量取局部最小值即寻找摄像机运动的局部最小点,将该处对应的帧选取为 关键帧。 前面介绍了几种选取关键帧的基本方法,前两种方法的选取速度相对较快, 但它们不能有效获取镜头的主要内容。第三种方法较为有效地克服了上述问题, 但实现起来,难度和工作量都比较大,而且局部最小值也不一定准确。 2 3 3 场景聚类 虽然镜头可以表示视频的基本结构,但是由于镜头单元太小,而且往往缺 乏完整的语义,因此需要在镜头的基础上提取更高层次的视频单元,从而建立 以场景为单位的语义表示结构。 场景可以通过对镜头的聚类来生成【1 4 j 【1 5 】。一个场景中的镜头不仅在时间上 是连续的,更重要的是它们在内容含义上是一致的,这是镜头聚类的基础。视 频聚类的过程也就是镜头匹配的过程,即在一组特征参数度量下将相似的镜头 合并为镜头组,进而聚类生成对应的场景。这里的特征可以是颜色特征( 视觉 感知到的画面颜色) 、纹理特征( 主观感知的纹理模式) 、目标形状和空间关系 特征( 目标结构和相互位置关系) 以及摄像机运动信息等。很多种方法都可以 第2 章视频结构化分析 用于这里的特征聚类,例如k 一均值法、i s o d a t a 法、松弛迭代法、基于关 联规则的算法和基于模糊图论聚类法等。 在视频数据组织的多层树结构中,场景层比镜头层更抽象,但类似与用关 键帧代表镜头,也可以用有代表性的帧来代表场景。由于场景一般由多个镜头 组成,实际中也可以先确定场景中的关键镜头,再用这些镜头的关键帧来代表 场景。 2 4 新闻视频故事单元探测 2 4 1 新闻视频结构研究 新闻视频与一般的视频数据相比,有其明显的结构特征。如图2 3 所示, 描述了一个简单的新闻视频的时域语义。由该图所知,一段完整新闻节目大概 包括三个部分:片头、片尾和中间新闻内容部分。节目开始部分为新闻片头, 一般其在较长的时间内不会更换;片尾由节目创作人员游滚字幕组成;中间新 闻内容部分是由新闻提要以及一些新闻条目组接而成,而每条新闻又有相对固 定的组成结构,都是由主持人镜头和紧随其后的相关新闻镜头构成。 图2 3 新闻视频结构 数字视频最大颗粒度为视频文件,最小的颗粒度为视频帧,这是其自然具 有的结构属性,而故事单元、场景、镜头这些中间层次是根据人对视频的理解 划分的。我们可以从视频流的最小单位图像帧出发,逐级归纳、分析和提取视 频结构特征,这是目前采用的主要办法。从目前视频结构化分析技术的发展来 看,基于底层特征的视频结构分析技术对镜头和场景层的分析相对成熟而对涉 及到高层语义的单元划分还差强人意。新闻视频内在的结构化特征给我们以启 迪,我们可以充分利用具体视频的领域知识结合底层特征分析技术来完成视频 第2 章视频结构化分析 的结构化处理【。 2 。4 1 基于主持人帧的新闻故事单元划分 由上节对新闻节目的结构研究得知,每条新闻都是由主持人口播镜头开 始,以下一条新闻口播镜头出现前结束,主持人镜头成了新闻故事单元划分的 标志,所以检测新闻主持人口播帧是定位和分割新闻故事单元的有效途径。 相对其它镜头而言,主持人镜头中的帧序列是高度相似的。一般新闻节目 主持人以一到两个为主( 如图2 4 ) ,通过对大量新闻视频的观察发现,几乎所 有主持人镜头中的演播室背景在整个新闻节目中不变,并且在相当长一段时间 演播室背景都保持不变。同时,在主持人镜头的摄制过程中,摄像机的位置和 光照条件也是固定的,主持人的镜头位置和字幕、节目标志的出现位置都有严 格的规定。因此,主持人镜头中背景区域的帧间差别维持一个小而稳定的水平。 图2 4 典型主持人口播画面 图2 5 主持人口播画面背景 图2 5 为主持人口播画面演播室背景示意图,图中我们已经剔除掉了主持 人口播画面中可能会产生运动变化的区域,主持人背景是保持不变的。这样我 们就可以选取这些区域计算它们的颜色平均值或纹理、形状特征作为模板和其 它镜头的关键帧去比较,来探测主持人口播画面。 具体算法流程如图2 7 示: 图2 7 主持人画面探测流程图 算法文字描述如下: l 、对新闻视频进行镜头边界探测,实现镜头分割,并抽取每个镜头的关键 帧。 2 、人机交互抽取口播帧画面的颜色模板( 如图2 6 示,模版1 、模版2 和 模版3 ) 。 3 、比较口播帧模板和其它镜头关键帧相同区域的颜色平均值,根据实验获 得的阈值来判定该镜头是否是i z l 播帧镜头。 第3 章视频索引机制 第3 章视频索引机制 在对视频进行结构化处理形成层次化结构后,下一步就是对视频每一层进 行表示和索引以便实现对视频内容的快速定位和检索。视频索引机制的选择在 很大程度上依赖于查询模型和非格式化数据的内容检索方法。目前主要有两种 检索方法:基于文本的视频检索方法和基于内容的视频检索方法,这两种检索 方法分别对应不同层次的视频特征和索引结构,有着各自的优点和局限性。为 了提供给用户更多的检索方法以及更大的检索灵活性,本文讨论了这两种视频 检索方法以及对应的索引机制。 3 1 基于文本的视频索引和检索 基于文本的视频检索技术( t e x t b a s e dv i d e or e t r i e v a l ) 1 6 1 的历史可以追溯 到2 0 世纪7 0 年代末期。当时流行的图像检索系统是将图像作为数据库中存储 的一个对象,用关键字或自由文本对其进行描述。查询操作是基于该图像的文 本描述进行精确匹配或概率匹配。 完全基于文本的视频检索技术存在着严重的问题。首先,目前的计算机视 觉和人工智能技术都无法自动对视频进行标注,而必须依赖于人工对视频做出 标注。这项工作不但费时费力,而且手工的标注往往是不准确或不完整的,还 不可避免地带有主观偏差。此外,视频中所包含的丰富的视觉特征( 颜色或纹 理等) 往往无法用文本进行客观地描述的。 随着视频数据的急剧增长,上述的问题变得越来越尖锐。为克服这些问题, 基于内容的视频索引和检索技术应运而生。 3 2 基于内容的视频索引和检索 所谓基于内容的视频检索【1 7 】0 8 1 ,是指由计算机对视频的内容进行自动分析, 形成索引,检索时,用户不是用关键词而是通过提交示例图像或视频来查找自 己所需要的视频数据。区别于基于文本的视频检索系统对视频进行人工标注的 做法,基于内容的检索技术自动提取视频的视觉内容特征作为其索引,如色彩、 纹理、形状等。 基于内容的检索方式是一种相似性检索,通过计算查询视频和示例视频的 第3 章视频索引机制 相似距离来完成检索。检索目标可能包含一些不相关的视频,但更重要的是在 检索中不要将相关的视频漏掉。 基于内容的视频检索技术通常需要明确两个问题,一、如何提取特征,二、 特征如何匹配。根据所提取的对象不同,可以分为静态和动态特征两种形式。 静态特征包括:颜色、纹理和形状,描述的是视频镜头关键帧的图像属性。动 态特征描述的是视频镜头的动态属性。 1 基于颜色特征 颜色在基于内容的视频检索中起着重要的作用【1 9 】。颜色的表示可以采用不 同的方案,如三原色法( r g b ) 、亮度色差法( c i e ) 和色度饱和度强度法( h i s ) , r g b 法在显示设备中使用比较多。通常颜色特征的提取是通过计算颜色直方 图,即每一种颜色在整个图像中所占的比例,根据直方图的差异来判断两幅图 像的相似程度,颜色特征的匹配方法常用的有直方图相交法,直方图加权法等, 为了降低运算复杂度,可以对颜色空间进行量化,使用直方图的主要部分,使 用低分辨率的直方图等。颜色直方图的优点是计算简单,缺点是无法表述颜色 分布的空间信息,为了弥补这种缺陷,提出了考虑空间信息的色彩分布表示法。 2 基于纹理 纹理是由大量可见基元均匀地紧密地排列在一起所组成的一种视觉模式, 它在图像中通常表示不同材质的区域【1 8 1 。纹理的建模和分析通常可以分为三类: 结构的、统计的和频谱的。使用纹理特征首先需要将图像进行纹理分割,而这 是一项相当困难且计算量很大的工作,另外基于纹理的技术缺乏有效的纹理模 型,纹理特征与人类感知的相关性还不得而知。 3 基于形状 形状是描述物体轮廓和它们的物理结构的重要特征,在图像检索应用中, 形状特征可以分为全局和局部特征两类【1 9 】。全局特征是从整个形状得出了特性, 如圆度、中心矩和偏心度。局部特征是从形状的部分处理而导出的特性,包括 连续边界段的方向、弯曲点、角点和转角度,形状特性对于像颜色和纹理都类 似的医学图像来说相当重要。然而,基于形状的检索仍然是一个困难的问题, 因为缺乏严格的数学定义来描述人类感知的形状的相似性。 4 基于动态特征 要获得一个镜头的运动信息,需要对所有活动画面进行运动检测,分析和 提取图像中的运动特征。动态视频中的运动主要有两种类型:被拍摄对象的运 动和摄像机运动。 第3 章视频索引机制 所有反映在二维的显示平面上的被拍摄对象的运动都可以用运动方向和运 动幅度等参数描述。这些运动反映在画面的前景和背景的变化上,因此区域划 分和形状检测等技术是目前重视的研究方向。 摄像机运动检测所使用的光流场技术与视频帧间压缩算法中的运动检测相 似。通过计算相邻帧中特定范围或全局范围对应子像素块位置偏移矢量,得到 摄像机的运动适量。一帧画面中所有子像素块( 或所有像素) 的运动矢量构造 了一个光流场。不同的矢量分布对应不同的摄像机运动。 如何实现快速有效地视频检索,关键在于采用何种特征作为索引以及特征 如何匹配,这正是基于内容的视频检索技术的核心,对它的研究具有十分重要 的意义。 3 3 视频特征提取 基于文本注释的视频索引技术提取了视频高级语义特征,能够捕捉感情( 幸 福、悲伤等) 抽象概念,但是不能描述不规则形状和纹理等复杂数据模式,另 一方面,基于内容的视频索引技术抽取了视频的低级内容特征可以捕获这些数 据模式,但不能描述抽象概念。我们要综合利用这两种索引技术,互为补充使 视频对象的描述更为完整。 在视频的分层模型中,对于不同语义级别的视频单元,我们所提取的特征 也不同。在场景级,我们通过文本注释方式提取故事情节;对于镜头层,提取 运动对象基本信息( 定位、形状) 及视频的运动信息( 对象运动、摄像机运动) ; 在关键帧层次上,我们提取颜色、纹理、形状等低级特征。纵观目前的特征提 取方法,有自动方式和手动方式之分。提取低级特征比较简单,往往可以全自 动的进行。而高级语义特征的提取难度相当大,就当前计算机和图像理解的发 展水平来看,这种完全智能化的索引技术正处于研究阶段,与实际应用还有较 大的距离,所以这种特征提取需要更多的人机交互。 3 4 视频数据库技术 由于视频数据非格式化、数据量巨大且不定长等特点,其描述、存储和检 索等诸多方面都与传统数据库处理的对象有很大的差别,不能像管理传统格式 化数据那样对视频数据进行管理。 第3 章视频索引机制 3 4 1 扩充关系型数据库 关系数据模型中平坦化的数据类型不适于表达复杂的多媒体信息,无法处 理文本、声音、图像、音频和视频这些非格式化的数据。简单化的关系也会破 坏媒体实体内的复杂联系,无法表达视频信息丰富的语义。但是出于保护已有 投资和兼容的考虑,将原有的关系型数据库加以扩充,增加若干种数据类型来 管理视频数据,使之在一定程度上支持视频应用。 用关系数据库存储视频信息的方法一般是【2 0 】【2 1 】: l 、用专用字段存放视频数据资料,或者将视频资料分段存放在不同的字段 内,播放时再重新构建。 2 、文件系统与数据库相结合,视频数据以文件系统存放,用关系型数据库 存放视频属性、关键字等元数据。 3 、在关系数据库基础上扩展了x m l 支持模块,从而实现x m l 数据和数 据库之间的格式转换和传输,支持对x m l 数据的操作。 4 、利用高级的搜索和索引枝术,开发运行于关系型数据库上的c m ( 内容 管理) 服务器。 扩充关系数据库可以使现有的基于关系数据库的应用系统通过渐进方式逐 渐演变到视频数据库,对非结构化数据占主要成分的单位来说,能在格式化和 非格式化数据之间取一个合理的折衷,大大减少了整个系统的复杂性,但是, 由于它对关系模型并没有进行彻底重建,因此,在处理复杂对象时比较困难, 效率也比较低,管理多媒体资料仍不尽如人意。 3 4 2 面向对象数据库 从多媒体数据综合性、超介质性等基本特征出发,结合超媒体技术,利用 面向对象方法和机制,开发的新一代面向对象的视频数据库系统【2 2 1 2 3 1 。 面向对象的方法和技术最适合描述复杂对象,它通过引入方法、消息、封 装和继承等概念,可以有效地描述各种对象及其内部结构和联系。在面向对象 的系统中,用对象来描述数据和程序实体,对象按其性质可划分为不同的类, 某一特定类的操作与规则称为方法,对象间的通讯采用消息,每一对象的数据 和操作该类对象的方法被封装在一起,通过继承可以在一个类的基础上建立子 类。这样,视频资料可以抽象为被类型链接在一起的结点网络。利用上述特点 第3 章视频索引机制 就可以方便地描述视频信息,但目前面向对象数据库系统的信念还不足以支持 大规模数据的复杂查询。 3 4 3x m l 数据库 x m l 是一种元语言,是能让使用者建造自己的标记语言的定义工具,成为 目前各种数据的首选格式。由于它具有标记不同字段的能力,使得对内容的检 索变得简单和动态化。 与传统关系数据库相比,x m l 数据库具有如下特点【2 4 】:其数据模型可以是 树、图等层次数据模型,能够对非结构化数据进行有效的存取和管理:提供了 对标签名称的操作包括对路径的操作;查询语言丰富,显示方式多样。但是也 存在检索速度慢,资源消耗大,安全性及并发操作机制有待解决等问题。目前 x m l 数据库产品已有多种类型,这里介绍主要的两类f 2 4 1 2 5 1 : 1 ) x m l e n a b l e d 数据库( 支持x m l 的数据库,简称x e d b ) 。数据库中 存储的不是x m l 文档的原始格式,x m l 文档进入数据库后,必须将x m l 文 档的模式转换成关系数据库模式,存储到一个或若干个关系表中,在检索输出 时,再从这些表中取出数据完成相反的操作,拼接成原状。x e d b 的核心仍然 是关系数据库,只是打了个补丁,加了一层x m l 的转换接口。无论是o r a c l e 公司的o r a c l e ,i b m 公司的d b 2x m le x t e n d e r 、还是微软的s q ls e r v e r2 0 0 0 等 都是典型的x e d b 系统。由于在x m l 文档的树状层次结构与关系数据库的平 面行列结构之间进行来回转换,需要耗费相当多的处理时间,因此, x m l e n a b l e d 数据库一般只适合于结构简单的x m l 文档。 2 ) n a t i v e x m l 数据库( 纯x m l 数据库,简称n x d b ) 。数据库中的数 据和元数据完全采用x m l 格式表示,与其底层的数据存储格式( 如关系模型) 无关。自2 0 世纪9 0 年代末,德国s o f t w a r ea g 公司推出了业界第一个n x d b 产品( t a m i n o ) 以来,已有e x c e l o n ,t e x t m ls e

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论