(通信与信息系统专业论文)基于关键帧的视频内容检索问题的研究.pdf_第1页
(通信与信息系统专业论文)基于关键帧的视频内容检索问题的研究.pdf_第2页
(通信与信息系统专业论文)基于关键帧的视频内容检索问题的研究.pdf_第3页
(通信与信息系统专业论文)基于关键帧的视频内容检索问题的研究.pdf_第4页
(通信与信息系统专业论文)基于关键帧的视频内容检索问题的研究.pdf_第5页
已阅读5页,还剩48页未读 继续免费阅读

(通信与信息系统专业论文)基于关键帧的视频内容检索问题的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 随着通信与多媒体技术的迅速发展,获得几乎无限的视频信息将变得越来越容易, 于是就面临一个新的问题,那就是如何对视频信息进行有效的组织和管理,以便于更好 的使用这些信息。由于视频的信息量大、内容丰富,所以对其进行有效的管理和检索成 为一个迫切需要解决的难题。目前,对于视频的管理和检索主要体现在基于视频文件和 其描述方面,而从视频文件内部进行操作,即对基于视频的实际内容进行处理更是用户 所关心的。因此,视频内容检索技术( c b v r ) 便成为人们迫切关注的热点。本文也正 是围绕着c b v r 中基于关键帧分析和检索问题而展开的研究。 1 、在本文开头的前两章,首先介绍了视频检索技术产生的背景及发展现状。其次, 分析了视频数据的特点和视频数据处理的层次化结构,并介绍了将视频转化为连续图像 帧序列的方法。 2 、本文第三章主要是研究镜头分割处理和关键帧选取问题。这部分内容从介绍镜 头变换的各种类型和特点入手,分析了目前几种典型镜头分割处理方法,在此基础上, 介绍了一种基于灰度分布像素统计直方图检测法,浚方法实现简单,而且能有效地克服 噪声和物体运动所带来的影响,能够很好地解决突变类型镜头起始点的定位问题。此后, 围绕着关键帧选取展开分析,对关键帧的选取,本文采取了一种基于镜头内容的时间自 适应检测法,该方法使关键帧选取数目随镜头变化自适应地确定。该方法选取的关键帧 具有代表性,能全面反映镜头内容。 3 、本文第四章主要围绕关键帧图像库进行基于关键帧的相似检索问题的研究。这 一章主要是分析了图像静态特征及提取方法,并对典型的相似性匹配度量模型及主要匹 配方案进行了介绍。针对h s v 颜色空间模型中色调( h u e ) 不变量的颜色特性,分析了 一种基于色调局部累加直方图检索法。在此基础上,采取了两种利用综合特征进行图像 检索的方法。一种是把色调局部累加统计直方图特征与分块颜色矩特征相结合,这种方 法有效的弥补了基于色调局部累加直方图法不包含颜色空间分布特征的缺点:另一种是 把基于色调局部累加统计直方图特征与描述图像空问形状分布关联信息的m a r k o v 转移 概率矩阵特征相结合,此方法用于图像检索,既考虑到了颜色特征,又兼顾了形状分布 细节。此外,在利用综合特征检索过程中,为使各个子特征的相似距离在进行线性加权 时得到的全局相似度量值具有可比性,本文采用了g u a s s i a n 归一法对子特征距离进行了 归一化处理。最后,本章还对检索率和准确度两个主要检索性能指标进行了介绍。 4 、依据检索性能指标,本文第五章实验部分对三种检索算法的性能进行了详细分 析和评价。 5 、本文第六章总结了全文内容,并就该研究领域今后面临的挑战和发展方向进行 了分析和展望。 关键词:关键帧;直方图;颜色矩;转移概率矩阵;视频内容检索 a b s t r a c t w i t ht h ef a s t d e v e l o p m e n t o fc o m m u n i c a t i o na n dm u l t i m e d i a t e c h n o l o g y ,a l m o s t u n l i m i t e d i n f o r m a t i o nc a nb eg o te a s i l y c o n s e q u e n t l y , an e wp r o b l e mm u s tb ef a c e dt h a th o wt oo r g a n i z ea n d m a n a g et h i si n f o r m a t i o ne f f i c i e n t l ys oa st ou s ei t b e c a u s ev i d e oi n f o r m a t i o ni sh e a v ya n da b u n d a n t ,t h e e f f e c t i v em a n a g e m e n ta n ds e a r c hw i l lb e c o m eas u n e c tt os o l v eu r g e n t l y t o d a y , t h em a n a g e m e n ta n d s e a r c hb a s e do nv i d e of i l e sa n dt h e i r d e s c r i b i n ga r ed o n em a i n l yw h i c hc a n t b eo p e r a t e df r o mt h e i n t r a - c o n t e n to fv i d e o ,h o w e v e r , t h i si s u s u a l l yw h a tt h eu s e r sc a r e s oc o n t e n t - b a s e dv i d e or e t r i e v a l ( c b v r ) b e c o m e s ah o tr e s e a r c ht o p i co fm u l t i m e d i a t e c h n o l o g yt h a tr e s e a r c h e r sc a r ea b o u ts t r o n g l ya n d u n i v e r s a l l yi nr e c e n ty e a r s t h er e s e a r c ho ft h ek e yf l a m e - b a s e da n a l y s i sm a dr e t r i e v a lc a ne x a c t l ym e e tt h e n e e d sm e n t i o n e da b o v e 1 、i nc h a p t e rla n dc h a p t e r2 t h e b a c k g r o u n da n dt h ed e v e l o p m e n ts t a t u s o fv i d e or e t r i e v a l t e c h n o l o g ya r ei n t r o d u c e d a n dt h e n ,t h ec h a r a c t e r i s t i co fv i d e od a t aa n dt h em o d e ls t r u c t u r eo fv i d e o a n a l y s i sa r ep r e s e n t e d i ti se x p l a i n e dh o w t og e tt h es e d a t ei m a g en a m es e q u e n c ef r o mt h ev i d e o 2 、i nc h a p t e r3 ,t od e t e c ts h o tt r a n s i t i o na n dt oe x t r a c tk e yf r a m e sa r er e s e a r c h e d a f t e ri n t r o d u c i n g s e v e r a lk i n d so fs h o tt y p e sa n dt h eb a s i cm e t h o d so fs h o td e t e c t i o n ,ak i n do fm e a n si sa d o p t e d ,t h a ti st h e g r a yl e v e l - b a s e dp i x e ls t a t i s t i cd i s t r i b u t i o nh i s t o g r a md e t e c t i o n b yt h i sm e a n s ,n o i s ea n de r r o rc a u s e db y t h em o v e m e n to fo b j e c t sa r ew e l ls o l v e d ,a n dt h a t ,t h ea r i t h m e t i ci s v e r ye a s y m o r e o v e r , i ti s d i s c u s s e d h o wt oe x t r a c tk e yf r a m e sf r o m e v e r ys h o t am e t h o di sa n a l y z e dt h a tt h en u m b e ro f k e yf r a m e se x t r a c t i o n c h a n g e sa u t o m a t i c a l l y w i t h t i m eo fs h o tc o n t e n t t h em e t h o di s n o t o n l yv e r ye a s y b u tm o r e r e p r e s e n t a t i o n a l ,a n dt h ek e yf r a m e sc a ne x p r e s st h ec o n t e n to f s h o tf u l l y 3 、1 1 1 ek e yf l a m e b a s e ds i m i l a r i t ym a t c h i n gm e a s u r ea n dr e t r i e v a la r es t u d i e di nc h a p t e r4 t h em a i n c o n t e n to ft h i sc h a p t e ri n c l u d e si m a g ef e a t u r e ,e x t r a c t i o nm e t h o da n ds i m i l a r i t ym a t c h i n gm e a s u r em o d e l s e t c b e c a u s et h ec o l o rf e a t u r e - b a s e di m a g er e t r i e v a lm e t h o di s s i m p l ea n di n v a r i a n tf o rt r a n s l a t i o na n d r o t a t i o no ft h ei m a g e s ,a ni m p r o v e dl o c a la c c u m u l a t i v eh i s t o g r a mo ft h eh u ei sd i s c u s s e dt h a ti sb a s e do n t h es p e c i a ld i s p o s a lo nt h eh s vc o l o rs p a c e ,d u et ot h el a c ko fi t s s p a t i a li n f o r m a t i o n ,t w ok i n d so fn e w m e a s u r e sa r ea n a l y z e dt os o l v ei ti nt h ep a p e r t h ef i r s tm e a s u r ei sa oi n t e g r a t e dm e t h o d i nw h i c hb o t h c o l o rh i s t o g r a ma n dc o l o rm o m e n to f p a r t i t i o n so ft h ei m a g eh a v eb e e nt a k e ni n t oa c c o u n t t h es e c o n d m e a s u r ei sn e wc o n t e n t - b a s e di m a g er e t r i e v a lm e t h o d ,i nw h i c hb o t hc o l o rc o n t e n ta n dt 1 1 es h a p ef e a t u r e b a s e do nt h em a r k o vt r a n s i t i o n p r o b a b i l i t y m a t r i xh a v eb e e nr e s e a r c h e d m o r e o v e r , i n m a t c h i n gt h e s i m i l a r i t yo ft h ei m a g e s ,am o d e ln a m e dg u a s s i a ni sa d o p t e dt on o r m a l i z et h ed i f f e r e n ts u b - c h a r a c t e r s d i s t a n c e f i n a l l y , t w ok i r i d so f r e t r i e v a lp e r f o r m a n c ep a r a m e t e ra r ei n t r o d u c e d 4 、a c c o r d i n gt or e t r i e v a le f f i c i e n c ya n dv e r a c i t y , i nc h a p t e r5 ,t h ep e r f o r m a n c eo ft h r e ek i n d so f m e t h o d si sf u l l ya n a l y z e da n de v a l u a t e db y e x p e r i m e n t s 5 、i nc h a p t e r6 ,t h et o t a lt h e s i si ss u m m a r i z e d m o r e o v e r , i nt h ef a c eo ft h ec o m i n g c h a l l e n g ei nt h e f i e l d ,s o m ev i e w sa r cm e n t i o n e d ,a n ds o m es u g g e s t i o n sa r ea d v a n c e d0 1 3f u r t h e rw o r ki nf u t u r e k e yw o r d s :k e yf r a m e ;h i s t o g r a m ;c o l o rm o m e n t s ;t r a n s i t i o np r o b a b i l i t ym a t r i x ;v i d e or e t r i e v a l i i 大连理。f :大学硕士学位论文 1 视频检索研究概述 在信息高度膨胀的现代社会,人类接受的信息约有7 0 来自视觉,视频所携带的信 息量远远大于语音和数据,在对语音通信得到需要的同时,人们更希望看到的是对方的 形象,而且最好是活动逼真的彩色视频。因此,传统的语音通信已远远不能满足人们对 信息的需求。视频图像所具有的具体、直观、生动、高效确切等特点决定了视频通信将 成为取代语音通信成为人类最重要的通信手段之一。 由于视频的数据量巨大,需要用更大的存储空间和传输带宽,因此,在过去的很长 一段时间内,基于内容的视频传输没有得到广泛的应用。随着数字技术和互联网的发展, 数字视频的产生和传播变得越来越容易,视频信息已经开始逐步走入人们的日常生活 中,视频数据在以前所未有的速度增长。对于网上公共社区、网上广告和网上电子商务 等应用领域,视频信息极大地增强了网上站点的吸引力,其作用尤为明显。此外,数字 电视( d i g i t a l t e l e v i s i o n ) 、多媒体广播( m u l t i m e d i ab r o a d c a s t ) 、可视电话( e w t e l e p h o n e ) 、视频会议系统( v i d e oc o n f e r e n c i n gs y s t e m ) 的出现,使数字视频的存储和 传输也不再是一件困难的事,它使人们越来越感受到视频技术发展所带来的无穷魅力。 在视频传输和存储问题得到发展的同时,人们所面l 临的问题己不再是视频内容的匮 乏。对于大多数用户来说,那种仅仅在站点上放置几个m p e g 视频文件供下载的方式 也已经远远不能满足需要了,面对浩如烟海的视频信息,用户希望在w e b 上能像查询 文字信息那样方便快捷地对视频信息进行检索和查询,最终找出自己感兴趣的视频内容 进行播放和浏览。基于内容的视频检索( 简称c b v r ) 技术f 是基于这方面的迫切需求 而迅速发展起来的。所谓视频检索是指从大量的视频数据中找到所需要的视频片断。它 是视频数据库必须具备的基本功能。如果不对视频数据库内的视频数据进行自动及有效 的描述,那么大量的信息将会淹没在视频数据库中,这样会造成资源的巨大浪费。因此, 针对视频检索技术的研究是十分必要的。 我们知道,传统的c b v r 方法主要是借用基于文本数据库的检索方法l l | ,即给视 频数据编号,然后对信息按设计好的格式进行严格统一的加工( 包括分类、标记关键词 或索引词等人工标注工作) ,这些工作完成之后刊请进行有效的检索。这种方法虽然简 单,但在实际应用中却遇到了巨大的难题。一是互联网的普及导致信息量急剧增加:二 是人工标注工作量大且成本太高,不可能对所有视频数据都进行这样的处理;三是视频 内容丰富,很难用文字进行全面的恰当描述;四是人工标注分散进行导致不同人对信息 的主观感知不同,人的主观性、随意性和误差性对标注结果影响较大;五是传统数据库 是以精确匹配为基础,对于大量非结构化的视频数据无法进行相似性检索。以上诸多因 素导致传统方法在寻找多媒体信息时显得越来越难。为了克服传统方法带来的问题,必 须采用一种基于自身内容的能全面、客观地提取视频内容的新方法 2 | 。计算机技术发展 恰恰提供了人们实现这一方法的可能。利用计算机,人们可以方便的对视频数据进行处 理以产生适当的摘要,从而灵活地组织视频数据,进行相应的视频查询。这种方式完全 不同于传统的基于关键词的处理方法,它融合了图像理解和模式识别等新技术 3 。通过 采用这种方式,人们能够更加全面地表示、处理、组织和获取视频数据。c b v r 的研究 正是从这种方法出发,充分利用视频中的各种信息( 包括颜色、纹理、形状、运动矢量、 亮度等等) ,实现自动或半自动的视频检索【4 _ 。 基于关键帧的视频内容检索问题的研究 1 1 该领域的研究现状 从1 9 8 3 年d t s i c h r i t z i s 等人提出了多媒体数据库的概念 5 开始,多媒体数据库就 开始不断渗透和影响着整个社会。近年来,由于数据压缩、宽带网络、海量存储、高速 计算机技术的发展,使得多媒体技术得以广泛普及和应用,并很快成为计算机和通信行 业的热点,同时,数据库作为信息管理的有效手段也成了多媒体研究的重要方向之一。 对于多媒体数据而言,现在的计算机所能处理的信息媒体范围迅速扩大,不仅要求 数据库和其它信息系统能对图像、视频和声音等媒体数据进行存储和基于关键字的检 索,而且要对多媒体数据的内容进行语义分析,以达到更深的检索层次,因此,多媒体 数据库基于内容的检索技术便应运而生。本文所研究的c b v r 中基于关键帧图像分析 和检索方法是一个重要方面。 c b v r 技术是从连续的视频图像中检索出含有特定物体的视频片断。它区别于传统 的检索手段,融合了对视频图像的分析和理解,从而可以提供更有效的检索手段。目前, 国内外的研究开发人员已经对基于内容的视频图像分析和检索作了一定的探讨和研究, 并且都取得了一定的效果。 国外方面,由于该领域的研究工作开展得早,因此,提出的新方法和开发出的实用 检索系统较多。例如,提出用语义联想支撑c b v r 6 的方法;用估算对象质点的二次 多项式系数法描述视频对象运动轨线( o m t ) 【7j ;研究开展了能自动进行视频对象的 分割和运动轨线描述的新型交互式网上全自动视频检索系统v i d e oq 8 等。此外,开发 出的一些实用系统,例如i b ma l m a d e n 的q b i c 系统 9 ( q u e r yb yi m a g ec o n t e n t s y s t e m ) 也非常具有代表性,从相关指标比较看,是一套颇为成功的检索系统,它主要 是通过友好的图形界面为用户提供颜色、纹理、草图、形状等多种检索方法。另外,美 国加州大学伯克利分校与加州水资源部合作进行的c h a b o t 计划,对水资源部的大量图 像和视频信息提供了基于内容检索的有效手段;圣迭戈研究开发的信息透视( i n f o s c o p e ) 工程中着重研究了基于视频图像等多媒体信息管理与检索问题;再有,美国哥伦比亚大 学研究的v i s u a l s e e k 1 0 j 能够通过用户描述目标运动方向查找镜头;美国麻省理工学院 媒体实验室研究的p h o t o b o o k 系统 1 1 能够支持相似性图像的检索,可以利用人脸、形 状、纹理、相片簿等分别对人脸图像、工具和纹理进行基于内容的检索,并随后在v i r a g e 系统l 12 j 中又进一步发展了将多种检索特征相融合的手段;意大利巴勒莫大学研究的 j a c o b 能够基于视频的运动、颜色和纹理进行检索等。 国内方面,由于在该领域的研究起步较晚,技术水平相对滞后,所以,大规模的、 用于相关领域的应用系统还不多,难以满足视频点播、医疗、军事等领域对视频处理的 要求,但这种情况已经引起了国内研究人员的广泛关注,研究氛围十分浓厚。目前,在 关键帧选取方法的研究和改进1 1 3 3 、图像问相似匹配算法优化 14 i 、基于交互式的反馈检 索技术【t 5j 、基于运动轨迹信息捕捉特征检索 1 6 和用高层语义联想支撑检索 1 7 等方面, 都取得了不错的研究成果,同时也实现了由理论研究向实际应用系统的转化。例如,国 防科技大学多媒体研究中心和系统工程系研究开发出了新闻节蟊浏览检索系统( n e w v e d i oc a r ) 和多媒体信息查询和检索系统( m i r c ) 。此外,为提高自身的研究水平, 促进相互间学术交流,达到优势互补,实现共同提高,国内的研究机构还纷纷同国外同 行开展了一系列成功的合作。例如,清华大学计算机系和新南威尔士大学计算机系在图 2 大连理l 人学硕十学位论文 像和视频检索方面进行了合作;浙江大学计算机系和美国伊利诺其大学合作进行的基于 语义联想支撑的视频检索研究 1 7 等,其研究的前沿很多都已经转移到接近人的行为识 别分析、视频语义和情感特征提取等方面。 1 2 涉及到的典型应用 1 8 对c b v r 技术的研究是建立在对视频信息内容的处理、分析和理解基础之上的, 在多媒体应用中占据重要的位置,具有广泛的应用领域。例如,遥感和地球资源信息的 管理和共享、电子图书馆、远程教育、公安和安全监视系统、军事侦察、视频点播( v o d ) 、 计算机辅助设计特别是机械部件设计、制图学、油画复原、艺术目录等领域。此外,在 生物医学、医学分析、研究和远程医疗系统,特别对远程会诊的应用上,基于内容的视 频图像分析检索可以提高效率并节省大量的网络传输费用:在艺术历史、广告、体育运 动等方面检索具有某些要求的视频文档:在电视传媒机构,导演和记者用以编辑节目, 分析视频文档,通过对现有视频和视频片段的重新组合以制作新的电视节目等都要用到 视频图像分析和检索。另外,随着数字摄像机的普及,每个家庭拍摄上百小时的录像将 会很普遍,视频录像的家庭管理也需要借助于视频检索的方法来进行,这将是巨大的、 十分有潜力的应用领域。 1 3 本论文的基本内容 本文以研究c b v r 中基于关键帧分析与检索为主要内容,通过研究视频分割处理、 关键帧选取、特征匹配等问题,实现基于关键帧的视频内容检索。文章先是介绍了视频 的概念、特点以及视频数据处理的层次化结构模型等基本知识,然后,从视频处理的层 次化结构最底层的分析入手,构建了视频的连续帧图像序列,研究了视频镜头的分割处 理,采取了有效的分镜头边界点检测手段,并运用时间自适应检测法对镜头的关键帧进 行了选取,建立了关键帧图像数据库。在此基础上,对图像特征进行了分析和特征提取, 采用了三种图像特征相似匹配检索法实现了基于关键帧的视频内容检索。如图1 1 所示 为研究内容的基本流程框架。 图1 1 基于关键帧的分析与检索研究基本框架 f i g 1 1b a s i cs t r u c t u r eo f t h ek e y f r a c n e - b a s e da n a l y s i sa n dr e t r i e v a l ( 1 ) 本文涉及到的重点问题 视频分镜头处理。针对构建的视频图像帧序列进行镜头分界点检测。此过程 是实现基于关键帧分析和检索研究的第一步,也是最根本的问题。其关键点在于准确地 找到镜头与镜头的交汇处,电下该镜头的起始帧号。 基于关键帧的视频内容检索问题的研究 关键帧选取。选取能反映镜头主要内容的关键帧。 关键帧检索。通过分析研究图像特征,研究基于特征的有效的相似检索方法。 ( 2 ) 全文的内容安排 分析视频数据,介绍将视频转化为连续图像帧序列的方法是接下来的第二章 所要讨论的主要问题。 获得了连续图像帧序列之后,检测镜头分界点和选取关键帧是重要的环节。 在第三章中将着重研究分镜头处理和关键帧选取问题。其中,针对分镜头处理,将介 绍镜头转换的两种方式,在此基础上,采用一种不受镜头间干扰影响的直方图统计分 界点检测法进行镜头分割。对关键帧选取的研究,将从讨论关键帧选取的基本方法入 手,主要介绍一种基于内容变化的时间自适应关键帧检测法。 依据选取出的关键帧所组成的图像库,通过示例样本与图像库图像之问相似 匹配度量,实现基于关键帧的视频内容检索是第四章研究的主要内容,也是全文所要 讨论的重点问题。在这一章里,将主要结合图像特征展开分析,对相似性度量匹配进 行研究,并在分析基于颜色局部累加直方图统计特征图像检索方法的同时,运用特征 综合手段,把颜色局部累加直方图统计特征分别与分块颜色矩特征和m a r k o v 性图像形 状信息特征相结合进行图像检索,其中对于子特征距离的处理将采用g u a s s i a n 归一化 法,并进行加权组合。另外,这一章还将对检索性能的主要评价指标进行介绍。 第五章将通过实验详细评价三种检索算法性能。 第六章将对全文内容进行概括,并提出下一步需要完善和改进扩展的工作。 此外,还要对c b v r 研究领域今后所面临的主要挑战和发展方向进行分析和展望。 4 人连理i :大学硕+ :学何论文 2 视频数据分析与帧图像序列的构建 2 1 视频与视频数据处理的层次化结构 视频是一类重要的视觉信息源,它不仅包含静止图像所包含的内容,还包含场景中 目标运动的信息和客观世界随时问变化的信息。由于视频数据与其它数据在形式、结构、 内涵等方面都不同,所以视频数据有许多特点。与静止图像相比,视频的结构更为复杂, 数据量也更大,对基于内容的检索要求也更高。因此,对视频和视频数据处理层次化结 构的分析是不可或缺的。 ( 1 ) 视频与视频数据的特点 视频是源于广播电视业的术语,原主要用来指模拟的、快速更新的画面序列。为在 计算机中处理加工这些画面序列则需把它们数字化。视频也常常被称为序列图像或图像 序列、连续图像、运动图像等。视频包含的信息量大,内涵比较丰富,但结构比较复杂 特殊,数据量也比较大1 1 8 j 。 像素 e ( x ,y ,t ) 图像帧 幽2 1 视频数据的结构 f i g 2 1 s t u c t u r eo f v i d e os e q u e n c e 如图2 1 所示,视频由一系列图像构成,这里的每幅图像称为一帧,因此,视频可 看作是一个帧序列。一幅图像常用一个2 一d 数组f ( x ,y ) 来表示,这里x 和y 表示2 d 空 间x y 中的一个坐标点的位置。作为多媒体信息罩一种视觉媒体,视频数据与静态图像 有着非常大的区别,即视频数据既有空间属性又有时间特性,因此,一段视频要用一个 3 d 数组e ( x ,n f ) 表示,其中x 轴及y 轴表示水平及垂直方向的空间维,而t 轴表示时间 维,f 的取值范围无太多限制,一般取t 20 ,而f 的上限取决于视频的长度。t 的采样时间 与许多因素有关,例如制式。在p a l 制式中f 的采样间隔为( 1 2 5 ) 秒,而在n t s c 制 中f 的采样间隔为( 1 3 0 ) 秒;,的采样间隔也与应用有关,在高速摄影中( 如一些体育 比赛) ,t 的采样间隔要小得多,而在许多工作监控场合,( 1 1 0 ) 秒或甚至更大的采样 打, ,。 噼 基于关键帧的视频内容检索问题的研究 间隔也常能满足要求。此外,沿时间轴1 ,若一幅图像保持一个时间段r ,利用人眼的 视频暂留作用,可形成连续运动图像的感觉。人眼在亮度信号消失后的亮度感可持续 1 2 0 1 1 0 秒的时间。如果每帧图像交换速度足够快( 一般为每秒2 5 3 0 帧) ,人眼就 感觉不到图像的不连续。 视频作为视频数据库存储的对象,可用幕、场景、镜头、帧等描述。帧( f l a m e ) 是 一幅静态的图像,是组成视频的最小单位;镜头( s h o t ) 是由一系列帧组成的一段视频, 它描绘同一场景,表示的是一个摄像机动作,一个事件或连续的动作;场景( s c e n e ) 包含 有多个镜头,针对同一批对象,拍摄的角度不同,其表达的含义也不同;幕( a c t ) 是由一 系列相关的镜头组成的一段视频,包含一个完整的事件或故事情节。 视频数据与文本数据相比,有许多特点 1 8 : 内涵比较丰富。一是表现在视频数据有较高的信息分辨率;二是它的内容多 样,既有信息内容即语义内容( 事件的高层抽象描述) ,也有声视内容即感知内容( 低 层的视觉感受) 。此外,也表现在对它的理解有模糊性,常无完全确切的和客观的解释。 结构比较复杂。视频数据既有时间属性也有空间属性,但各单元间的关系又 不完全确定。 数据量巨大。视频数据相比字符数据和图像数据而言,它的数据量是非常巨 大的。非结构化的视频数据量大约比结构记录数据大7 个数量级。 ( 2 ) 视频数据模型 视频数据模型的基本类型包括: 时间线模型 时间线模型是视频数据模型中较早就被采用且比较典型的一种。如图2 2 所示。 视频 图形 图像 话音 伴音 ( 播音员) 节日h 头 | 新闻节目 新闻节目 l 引导音乐 准备r :作i 二二至亟蔓二二:二 砸珂 阿匠 蔓蔓垂墅j 条新闻 匪圃 匝至匡:誓新闻 0 12345 6789 t 图2 2 时间线实例 f i g 2 2t h ee x a m p l e o f t i m e l i n e 图2 2 中标出了各信道中不同信息的起终点和次序。时间线可沿时间轴直接地和直 观地表示视频信息。基于时间线,也可以建立一个以时间线为基础的模型,从模型可直 观了解各实体间的关系。如图2 3 所示。该时间模型中定义了派生和时间合成两种关系, 6 人连理i j 火学硕 学位论文 并有媒体( m e d i a ) 、信道( t r a c k ) 、节目( m o v i e ) 矛 1 层( 1 a y e r ) 等4 类实体。 时间合成 图23 时间线模弛 f i g 23t i m e l i n em o d e 时间层次模型 将层次模型引入视频数据模型,可以把较简单的对象递归地组合为较复杂的视频对 象。两个时间段可存在多种关系,如图2 4 所示。 xd u r i n g y x 【 一m s x l 土_ ! 一l 。”5 “。5 。! 。x 幽2 41 3 种时问区间的关系 f i g 2 4 1 3s o r t so fr e l a t i o n si nt i m e z o n e 图中给出两个以时间段x 和y 为例的1 3 种关系,借助它们建立时间层次模型。 代数模型 代数模型是一种有效的视频数掘模型,它考虑到视频的逻辑结构,引入了视频段间 的层次关系和对视频的代数操作。 视频对象数据模型 视频对象是对有意义场景的描述数据,它包括对象标号、时间间隔、一组属性和属 y y x x 一 r l l l i 。、。 “卜厂厂l 基于关键帧的视频内容检索问题的研究 性值。每个视频对象有一个唯一的标号,每个视频对象对应一个视频帧序列,这个序列 内容可用一组属性属性值描述。 对视频对象模型的描述数据或者可从已有视频对象的属性和属性值获得,或者可利 用视频操作从修改它们的属性和属性值获得。建立视频对象模型可进行一系列的操作, 如播放、组合、分解等。 ( 3 ) 视频数据处理的层次化结构和组织 在对视频进行访问时,语义层次上的视频结构化是必要的。在对视频进行处理时, 通常会分成故事单元、场景、镜头和帧四层结构来表示。其中,最高级为故事单元,中 间为场景和镜头,最低一层为帧。对故事单元、场景和镜头需要进行的处理是视频数据 处理结构层次化的基础,例如场景检测、镜头分割等。由于边界是由各种编辑效果模型 生成,所以分割镜头可基于这种模型进行,成为模型驱动方法;也可以基于切换时视频 数据上的变化情况来进行,成为数据驱动方法。最后的帧层的处理实际上就是对图像的 分析处理技术。视频数据处理的层次化结构如图2 5 所示。 图2 5 视频数据处理层次化结构 f i g 2 5t h eh i b e r a r c h yo f v i d e o d a t a 视频数据组织的实现需要从最底层,即帧图像层开始,这层对应原始的视频帧时间 序列。借助镜头检测所得到的上面一层镜头层,这层对应视频的一种基本单元( 物 理单元) 镜头( 按时间连接的一组帧图像) 。在镜头层的基础上,借助高层知识进 行镜头聚类( 相关的镜头组合在一起) ,可得到上面一层场景和故事单元层,这层 对应视频的一种语义单元故事情节。将多个情节有机地结合在一起,即将不同的镜 头合理的组织起来,就得到最上面一层视频文件层。视频组织是一个对视频流不断 进行抽象,逐步获得高层表达的过程。因此,实现帧图像层的视频图像帧序列的构建是 本文的出发点。 2 2 视频图像帧序列的获得 人连理工人学硕十学位论文 对于视频图像帧序列的获得,本文采用了m a c r o m e d i af l a s hm x 创作软件。该软件 是m a e r o m e d i a 公司推出的专业化的w e b 创作工具,它广泛的应用于i n t e m e t 及其他互 动多媒体领域,并且起到了巨大的推动作用。利用m a e r o m e d i af l a s hm x 可以方便的把 视频文件按要求转化成连续的图像帧序列。 ( 1 ) 导入动态数据 该软件允许用户导入视频片断。如果本地计算机上已经安装q u i e k t i m e 4 或其以上 版本,或者安装了d i r e c t x 7 或其更高版本,则用户可以导入m o v 、a v i 或m p g ,m p e g 格式的视频文件。可导入的视频文件格式 1 9 如表2 ,1 和表2 2 所示,其中“”表示可 以导入。 系统中安装q u i c k t i m e 4 表2 1 可导入的视频文件格式 t a b l e21 i m p o r t a b l ev i d e o f i l ef o r m a t 系统中安装d i r e c t x 7 表2 2 可导入的视频文什格式 t a b l e2 2i m p o r t a b l ev i d e of i l ef o r m a t 在安装使用d i r e c t x 7 进行视频导入时,作者在w i n d o w s 系统操作平台上导入的 是w n l v 文件。方法是通过该软件操作界面上菜单i m p o r t ( 导入) 命令,导入视频文件 数据。 ( 2 ) 导出帧图像序列 使用文件中的e x p o r tm o v i e ( 导出影片) 命令可以将m a c r o m e d i a f l a s hm x 中的视 频对象导出为某些类型的文件,可以是f l a s h 影片、位图图像系列、某个帧图像文件、 静态图像或移动图像文件等,可以导出的格式包括g i f 、j p e g 、p n g 、b m p 、p i c t 、 q u i c k t i m e 或a v i 格式。具体可导出的文件格式i 1 9 如表2 3 所示,其中“”表示可 以导出。 9 基于关键帧的视频内容检索问题的研究 动态g i f 、g i f 序列和g i f 图像g i f 本文是在w i n d o w s 系统操作环境下,选择导入的w i n v 视频文件,导出的是b m p 格式的图像序列文件。即应用导出命令,把视频片断中的每一帧都定义为扩展名为b m p 的位图序列图像,形成具有一系列编号的图像帧。导出方法是通过该软件界面菜单中的 e x p o r t m o v i e ( 导出影片) 命令导出b i t m a ps e q u e n c e ( $ b m p ) 格式的帧图像序列。 按照以上方法,对选定的8 段视频进行了帧图像序列的转化,每段视频转化后的帧 图像序列,其位图大小设置不同,图像高度范围在3 0 1 2 0 之间,宽度范围在4 0 ,1 5 8 之 间( 以下表示为( 3 0 1 2 0 ) ( 4 0 一1 5 8 ) ) 。帧图像分辨率( r e s o l u t i o n ) 设定为1 8 d p i 。 帧图像序列采用2 4 位真彩色图像。这样,8 段长度不等w n l v 类型视频文件分别转化 为8 段连续图像帧序列,累计共得到8 9 0 幅帧图像。 人迕理i :人学硕十学位论文 3 镜头分割与关键帧选取 镜头分割和关键帧选取是基于关键- 帧的视频内容检索研究的重要环节。通过将视频 图像帧序列分解成各个不同的镜头,对每个镜头恰当的提取一组关键i 帧作为代表,这样 就可用对静态图像特征提取和相似检索的方法对关键帧进行处理,从而实现视频内容检 索。根据普通视频图像的特点,在一个场景内,色度总是基本一致且单一的,即使是属 于不同镜头的相邻两帧,其色度也不会有太大的变化,考虑到这种情况,在研究镜头分 割处理和关键帧选取过程中,针对人艮对亮度的敏感性,把亮度一个维量的变化作为镜 头分界点检测和关键帧选取的重要依据是可行的( 有关色度、亮度等概念介绍在4 2 1 节中详细阐述) 。因此,对镜头分割处理和关键帧选取方法的研究都是基于时空域的灰 度空间特征展开分析的。这样,不但对最终结果不会造成影响,而且可以减少方法上的 运算量。此外,顺便说明一点,对于图像特征提取和相似检索方法研究,由于样本图像 与被检索的关键帧图像间没有必然的相关性,仅提取灰度特征作为判断相似的依据,其 可靠性就会大大降低,所以,其它特征的提取就显得十分重要,第四章的内容将对此展 开更详细讨论。 3 1 镜头分割处理 为了对视频图像帧序列进行深入分析,需要将其分解为基本单元。一般认为视频的 基本物理单元是镜头( s h o t ) 。一个镜头是由一个摄像机连续拍摄得到的时间上连续的若 干帧图像组成。在研究基于关键帧图像分析和检索问题的过程中,镜头分割处理是首要 的,其核心是识别出镜头的切换点1 2 0 。所谓镜头切换就是一个镜头到下一个镜头的转 换。切换点检测可以看作是镜头的分割问题,即视频的时域分割。考虑到视频的大数据 量的特点,实际中分割常主要采取基于边界的方法,通过检测镜头间的边界来确定镜头 的转换位置。 3 1 1 镜头间转换方式 镜头间的转换方式主要有两大类,一是突变( 切变) ,二是渐变。突变也叫直接切 割,渐变也叫光学切割。突变是镜头问的突然变化,常在两帧图像间完成。渐变则是从 一个镜头缓慢地变化到另一个镜头,常延续十几或几十帧。突变可以认为只有一种类型, 而渐变则有许多种。突变是没有时间长度的,在两帧问发生,突变前的帧属于上一个镜 头,突变后的帧属于下一个镜头;而渐变则与图像分割中的过渡区有对应之处,是在一 定的时间长度中完成的。在一般影片等视频节目中,镜头的变化主要是突变以及淡入、 淡出等类型渐变。 ( 1 ) 突变转换 两个镜头的突变是将两个镜头直接连接在一起得到的,是从一个镜头直接转换到下 一个镜头,画面的情节和动作发生直接跳跃,而中间没有使用任何摄影编辑效果。一般 对应在两帧图像间某种模式( 由于场景亮度或颜色的改变,目标或背景的运动,边缘轮 廓的变化等而产生) 的突变。剥镜头突变的检测目前都采用类似图像分割中基于边界的 方法,也就是利用镜头间切换时的不连续性,表现为对象内容改变、颜色差异增大和运 动轨迹不连续性等,使得帧问差别比较上出现一个峰值。因此,准确地找到峰值点是关 基于芙键帧的视频内容检索问题的研究 键。突变检测主要有两种基本类型,分别是基于全局特征的变化检测和基于局部特征的 变化检测。 基于全局特征的变化检测 基于全局特征的突变检测是将整幅帧图像看作一个单元计算亮度,这样不管是场景 亮度或颜色的改变、目标或背景的运动,还是边缘轮廓的变化等都会造成亮度的突变。 检测相邻帧的亮度变化并进行判断来确定是否是镜头边界。 基于局部特征的变化检测 基于全局特征的突变检测是将整幅图像看作一个单元计算亮度;与此不同,基于局 部特征的突变检测是对图像的不同部分分别对待。这种情况常考虑图像中的边缘或轮廓 信息。当前后两帧间有突变时,新出现的边缘应远离旧边缘的位置,同样旧

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论