(计算机软件与理论专业论文)计算机辅助视频编目关键技术的研究与应用.pdf_第1页
(计算机软件与理论专业论文)计算机辅助视频编目关键技术的研究与应用.pdf_第2页
(计算机软件与理论专业论文)计算机辅助视频编目关键技术的研究与应用.pdf_第3页
(计算机软件与理论专业论文)计算机辅助视频编目关键技术的研究与应用.pdf_第4页
(计算机软件与理论专业论文)计算机辅助视频编目关键技术的研究与应用.pdf_第5页
已阅读5页,还剩49页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 现代多媒体技术的进步导致产生了海量的图像、音频、视频数据。视频的 焉 0数据量很大,需要巨大的存储空间和传输带宽,并且誉据格式是非结构化的, 为了对这些数据进行有效的组织和管理以便于重复使用,需要实现对视频资料 的有效编目。本文主要研究从视频资料中如何提取有效特征以辅助对视频资料 编目的相关技术。 针对本课题所在领域的研究现状,本文对依据视频的多特征包括视频图像 物理特征、视频的音频特征以及视频中的字幕特征对视频进行编目进行了理论 分析。在此基础上主要就镜头分割、关键帧选取、音频特征分类以及视频中文 字区域的检测和分割提出了相应改进的算法。本文在这些方面所做的创新工作 有: 提出了以纹理特征的视频特征曲线来实现对视频镜头的分割; 提出了根据视频中显著对象所包含的熵信息进行关键帧的选取算法; 提出了一种基于阈值的分类框架,较好的实现了音频信号的分类; 0 提出了一种改进的镜头解说字幕区域的分割算法; 关键词:镜头,视频编目,关键帧,字幕,熵差 j a b s t r a c t t h ep r o g r e s so fm o d e mm u l t i m e d i at e c h n o l o g yc a u s e dt o p r o d u c et h e m a g n a n i m o u si m a g e ,t h ea u d i o ,t h ev i d e od a t u ma n dt h ev o l u m eo fv i d e oi sv e r yb i g t h a tn e e d sah u g es t o r a g es p a c ea n dw i d et r a n s m i s s i o nb a n d b e c a u s eo ft h e u n s t r u c t u r e dd a t af o r m a t ,i ti sn e e d e dt oc a t a l o gt h ev i d e om a t e r i a le f f e c t i v e l yi n o r d e rt or e p e t i t i o nu s et h e s ed a t u m t l l i sp a p e rr e s e a r c h e sm a i n l yi nt h et e c h n o l o g y o fh o wt og e tt h ee f f e c t i v ec h a r a c t e r i s t i cf r o mt h ev i d e om a t e r i a lt oa s s i s tt h ev i d e o m a t e r i a lc a t a l o g 1 t h ep a p e ri n v e s t i g a t e sd o m e s t i ca n do v e r s e a sr e s e a r c hs t a t u si nc o r r e l a t i v e f i e l d s ,t h e nm a k e sar e s e a r c ha n da n a l y s i so ft h ee x i s t i n gm e t h o d so fc o n t e n t - b a s e d v i d e oc a t a l o g i n ga c c o r d i n gt om u l t i - c h a r a c t e r i s t i co fv i d e o ,i n c l u d i n gv i d e of r a m e i m a g e c h a r a c t e r i s t i c ,a u d i oc h a r a c t e r i s t i co fv i d e oa n dc a p t i o nc h a r a c t e r i s t i co fv i d e o f u r t h e ri tm a i n l ya i m sa tt h es e g m e n to fs h o t ,s e l e c t i o no fk e yf r a m e ,c l a s s i f yo f a u d i oc h a r a c t e r i s t i ca n dd e t e c t i o no f c a p t i o n r e g i o n i nv i d e oa n d p r e s e n t s c o r r e s p o n d i n gi m p r o v e da p p r o a c h i t si n n o v a t i o n s a tt h e s ea s p e c t sa r ei nb e l o w : p r e s e n t sv i d e oc h a r a c t e rc u r v ef o ri m a g et e x t u r ei no r d e rt or e a l i z et h e s e g m e n to fv i d e os h o t p r e s e n t saa p p r o a c ho fs e l e c t i o no fk e yf r a m eb a s e do u t s t a n d i n go b j e c t s e n t r o p yo fv i d e of r a m ei m a g e p r e s e n t sac l a s s i f i c a t i o nf r a m e w o r kb a s e dat h r e s h o l d 一p r e s e n t sai m p r o v e da p p r o a c hf o rs h o tc a p t i o nr e g i o n w r i t t e nb y x i o n gh u a n l i a n g ( c o m p u t e rc e n e t e r ) d i r e c t e db y 里q 1 6 6 塑gm i 旦g y 垒旦 k e yw o r d s :s h o t ,v i d e oc a t a l o g i n g ,k e yf r a m e ,c a p tio n ,e n t r o p yd i f f e r e n c e i i 独创性声明 y 9 2 9 0 2 6( 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的 研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其 他人已经发表或撰写过的研究成果,也不包含为获得南昌土学或其他教育机构 的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均 已在论文中作了明确的说明并表示谢意。 学位论文作者签名:伽灵动 签字日期,彳年易月j 日 学位论文版权使用授权书 本学位论文作者完全了解南昌大学有关保留、使用学位论文的规定,有权 保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借 阅。本人授权壹璺点鲎可以将学位论文的全部或部分内容编八有关数据库进行 检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后适用本授权书) 学位沧文作者签名 锄头功 导师签名: 签字日期:,卅笋月f 日 签字日期 学位论文作者毕业后去向: 工作单位 通讯地址: 电话 邮编 当匆止 年月 日 第l 章引言 1 1 课题的来源及其意义 现代多媒体技术的进步导致产生了海量的图像、音频、视频数据。这些数 据与日俱增,涵盖领域广泛,包括医疗、遥感、娱乐、教育和在线信息服务等。 在所有这些媒体中,由于视频数据整合文本、声音和图像于一体,能提供比文 本、声音和图像更为丰富和形象生动的信息,因此管理好视频数据也最具有挑 战性。目前由于存储设备成本急剧下降,网络传输速率的迅速提高,以及压缩 技术的显著改进,数字视频应用非常普遍。 视频的数据量很大,需要巨大的存储空间和传输带宽,并且数据格式是非 结构化的,如何对这些数据进行有效的组织和管理以便于重复使用,是一个值 得研究的课题。 对视频编目就是为了有效的组织和管理视频数据,基于内容的视频编目是 基于内容的视频检索的前提和基础,视频检索是视频数据库必须具备的基本功 能。所谓视频检索就是从大量的视频数据中找到所需要的视频片断。传统的视 频检索主要通过快进和快退等顺序的方法进行人工查找,是一件非常繁琐耗时 的工作,显然无法满足查找视频节目的实际要求。 目前大多数商用的多媒体数据库,只能提供基于关键词的检索或分类浏览 功能,检索的单位往往局限于电影或整场比赛,而对于更小的视频片断,如一 个场景或镜头的检索,只能依靠传统的快进、快退等手段。这是因为这些系统 采用人工方式对视频进行分类和关键字的编写,再使用基于文本的索引技术对 关键字进行索引。这种方式不仅无法满足用户多样灵活的检索要求,同时关键字 的编写在很大程度上带有主观性:因此做下面的工作就非常有意义:对视频内 容进行分析,自动或半自动生成不同层次编目结构,摘要关键内容,形成一段 极小且有代表性的视频数据,以方便浏览和检索。用户只要给出例子或特征描 述,系统就能自动地找到所需的视频片断,即实现基于内容的视频检索。 基于内容的视频检索技术的应用领域非常广泛,本质上这种技术将对媒体 的处理和管理深入到了媒体这一级,使得用户可以更自由地操纵和处理各种媒 体信息i l 】,下面是一些应用示例: ( 1 ) 视频点播 第1 章引言 视频点播提供了根据题目选择视频流的可能性,而先进的视频点播更 提供了利用交互选择所需视频片段的可能性。 ( 2 ) 视频搜索,典型的应用例子包括: 体育比赛中,搜索进球的镜头。 在监控录像中,搜索包含特定对象的视频片段。 在艺术历史研究中,检索具有某些主题的视频文档 ( 3 ) 多媒体编辑应用 通过对现有视频和视频片段的重新组合以制作新的节目 在电视台,导演和记者用以编辑节目,分析视频文档 在广告业中,批判地分析当前的广告以创造新的广告 1 2 国内外的研究现状 基于内容的视频检索自正式“冠名f 以来,得到国内外信息领域科技人员 的广泛重视和研究,迅速成为一个非常活跃的热点研究领域。基于内容的视频 检索的发展也得到许多国际学术组织的重视和关注,在国际上每年召开的有关 多媒体技术的学术大会中,有许多重要的系列大会都开辟了基于内容的视频检 索主题和分会,而i e e e 和s p i e 都组织了专门的基于内容的多媒体信息检索 会议。这些都极大地推动了基于内容的视频检索的发展。 虽然当前的c b v r 技术的研究还不成熟,但是作为商业软件包的图像检索 系统已经问世,在网络上的演示版本也相应出现。具有商用价值的著名软件包 系统包括i b m 公司的q b i c f l i c k n e re ta l1 9 9 5 ,v i r a g e 公司的v i r 图像工程 系统 g u p t ae ta l1 9 9 6 ,e x c a l i b u r 公司的e x c a l i b u r 视觉检索产品【f e d e r1 9 9 6 】。 为了演示新技术的可行性,许多研究机构研制了大量的演示软件,主要有 m i t 的p h o t o b o o k 系统 p e n t l a n de ta l1 9 9 6 ,哥伦比亚大学的v i s u a l s e e k 系 统 s m i t ha n dc h a n g1 9 9 7 ,美国伊利诺斯大学的m a r s 系统 h u a n g e ta l1 9 9 7 】 等。这些演示系统在应用已有的商业软件的技术的同时,促进了新理论的应用 探讨。 在我国,从9 0 年代后期至今,基于内容的检索技术逐渐成为研究和应用 的热点。但国内这方面的研究还很初步,尤其对视频的基于内容的检索研究更 少,缺乏大规模的、无领域的应用系统;更无法满足视频点播、医疗、军事等 领域对视频处理的要求。因此还需要做更多的理论和实践的研究,以实现真正 第l 章引言 的基于内容的检索【2 1 。目前国内正研究开发的视频检索系统有: ( 1 ) n e w s v i d e o c a r 国防科技大多媒体研究开发中心研制开发的新闻节目浏览检索系统。 ( 2 ) m i r c 国防科学技术大学系统工程系研制开发的多媒体信息查询和检索系统。 ( 3 ) t v - f i ( t s i n g h u av i d e of i n di t ) 由清华大学开发的视频节目管理系统。可提供视频数据入库、基于内容 的浏览、检索等功能,提供多种模式访问视频数据,包括基于关键字的查 询、基于示例的查询、按视频结构进行浏览以及按用户定义类别进行浏览 等。 1 3 基于内容视频编目的主要技术 基于内容视频编目可按如下过程来实现: ( 1 )根据运动和视觉信息将一段视频分割成镜头序列。 ( 2 )在镜头中提取关键帧来表征镜头或场景的内容。 ( 3 )提取视频结构特征、,视觉特征以及语义特征进行相应的描述,存放 在视频特征库中。 根据以上信息,目前普遍认为视频编目技术难点主要存在于以下几方面: ( 1 ) 视频的结构化。 。 ( 2 ) 特征的标准化描述。 ( 3 ) 综合的多特征编目技术。 本文着重讨论( 1 ) 和( 3 ) 两个方面。 1 、视频的结构化 视频的结构化包含三个方面:镜头分割、关键帧提取以及场景构造。镜头 分割又称镜头变换检测,是视频编目的基础。镜头变换是指视频序列中场景内 容的变化。关键帧起着类似文本检索中关键词的作用,从切分出来的镜头中提 取关键帧用来代表镜头、场景、幕、故事等高层语义及视觉特征,使视频更为 简洁。关键帧提取原则是既能够反映视频内容,又保证数量上的精简。目前关 键帧提取方法有基于颜色特征法、基于边界法、基于运动分析法及基于聚类的 方法。视频重构就是将语义相关的镜头组合到一起,但由于视频分割技术的不 第1 章引言 完善,目前的镜头分割只能探测出镜头的物理边界,而不考虑镜头问的语义联 系。事实上,相同语义镜头组合成的情节是一种比镜头具有更高抽象的层次结 构,同时基于内容的视频编目更为重视视频的高层语义,因此视频分割成镜头 后有必要将镜头重构成场景。 2 、综合的多特征编目技术 i 对视频资料进行自动化的编目,如果只依据于视频物理特征,则编目效果肯 定不甚理想,因此综合视频的多特征进行编目是当前流行的一个趋势。 在对视频进行结构化分析后,可以从视频中得到镜头并从镜头中选取关键 帧作为镜头的代表帧,进而由镜头构造出场景等高层语义单元。除此之外,如 果在编目时,能综合镜头的其他特征,无疑会改善视频编目的效果,因此本文 还探讨了镜头音频特征、镜头中文字内容特征提取的相关技术。 1 4 论文的组织 本论文共分为五章。第一章详细阐述了本论文的来源及课题背景以及目前 国内外研究的现状以及本课题的研究重点和组织情况。第二章首先概括的阐述 了视频镜头边界检测的相关概念和过程,接着较详细地介绍了几种经典的视频 镜头边界检测算法,最后在大量的研究基础上提出了一种新的镜头边界检测算 法。经过镜头分割后,在第三章本文讨论了如何提取镜头关键帧。文章介绍了 关键帧是作为代表镜头的经常被使用的特征,接着介绍了许多研究人员提出的 经典的关键帧提取算法,在本章最后笔者提出了一种新的关键帧提取算法,并 给出了算法的详细步骤和实验结果。在第四章,笔者讨论了镜头音频特征提取 中的音频信号分类问题,提出了一种基于阈值的分类框架,较好的实现了音频 信号的分类。除了视频的图像物理特征、音频特征外,视频中的文字特征对于 视频的编目也很重要。在第五章,笔者探讨了镜头中文字特征的检测和提取相 关技术。 第2 章镜头边界检测及分割算法 第2 章镜头边界检测及分割算法 2 1 镜头边界检测概述 1 、视频结构化相关定义 通常在文本检索中,会用单词和短语作为语句、段落或者文献的索引。类 似地,在视频系统中,需要用视频流中的一些主要图像( 关键帧) 或者图像序 列( 帧序列) 来索引部分场景或者整个视频,使视频用户可以使用这些索引结 构快速浏览或检索视频内容。下面给出一些关于视频序列的基本定义: ( 1 ) 帧( f r a m e ) :帧是由视频流中的基本组成单元,每一帧均可以看成一个 独立的图像。视频数据流就是由连续图像帧组成的,在p a l 视频格式中,视频 采样率为2 5 帧秒,n t s c 制式中,视频采样率为3 0 帧秒。 ( 2 ) 镜头( s h o t ) :由摄像机拍摄下的不间断帧序列组成,它是视频数据流 进一步结构化的基础结构层。镜头是对视频流进行处理的最小物理单元,而视 频帧是视频流的基本单元,它蕴含了少许的语义内容。一般来讲,在同一组镜 头中,属于同一组镜头的图像帧之间的特征保持稳定,如果相邻图像帧之间的 特征发生了明显变化,我们就认为发生了镜头变化,需要对视频数据进行切分。 ( 3 ) 关键帧( k e yf r a m e ) :关键帧是可以用来代表镜头内容的图像。在切分 出来镜头结构后,从这一组镜头的连续帧中,根据某些标准离散采样出某一帧 或者某几帧来代表这一组镜头所表达的主要内容。关键帧是用来代表各个镜头 特征的一个参量,相当于文本文档中标题和注解所起的作用。i ( 4 ) 场景( s c e n e ) :语义上相关和时间上相邻的若干镜头组成了一个场景, 它是视频所蕴含的高层抽象概念和语义的表达。虽然每个镜头所代表的语义差 不多,但是若干镜头所组合成的场景就表达了一个符合人们思维的比较丰富的 语义。 2 、镜头边界检测概述 镜头边界分为突变( c u t ) 和渐变( g r a d u a lt r a n s i t i o n ) 边界,突变也称切变 或直接切割( s t r a i g h tc u t ) ,是最常见的边界类型,两个镜头的切换发生在连 续的两帧k 和k + l 上。而渐变是两个镜头之间的转变是逐渐完成的,通常可能 延续从几帧到几十帧,渐变也称光学切割( o p t i c a lc u t ) 。渐变有许多种,包括 溶解、淡入、淡出、扫换等。淡入( f a d ei n ) 是后一镜头的开始几帧缓慢均匀地 i 第2 章镜头边界检测及分割算法 从全黑屏幕中逐渐出现。淡出( f a d eo u t ) 是前一镜头的结尾几帧缓慢均匀地变 暗直至变为全黑屏幕。溶解( d i s s o l v e ) 是淡出和淡入进行叠加的结果。扫换 ( w i p e ) 是上一个镜头的画面逐渐被后一个镜头的画面所代替,直至全部变为后 一个镜头的画面。 镜头边界的形成是两个镜头进行切换的结果,对于观察者来说,是视频镜 头的内容发生了某种意义上变化,即边界是由于视频内容的不连续造成的。检 测边界的任务即在于此,好的算法检测出的边界应与这种视觉内容上的不连续 一致。图2 1 1 给出了镜头边界的检测过程。 在边界检测中,经常会出现两种情况:错检和漏检。漏检是镜头边界被漏掉, 这是因为所选取的特征对这两帧没有很好的区分能力。错检是把镜头内部的两 图2 1 1 帧判作是镜头边界。为了减少错检和漏检,特征和标准的选择应能很好的区分 以下三种情况: 镜头的突变、缓变: 相机或物体的运动: 光照变化或噪音的干扰。 对于运动的影响,可借助于运动补偿来减少,但运动补偿并不能消除减少 光照的影响。并且对于剧烈的复杂的运动,运动补偿不一定能起到好的效果, 相反的却带来了时间上的代价。 。 尽管无法通过选择好的特征和标准来完全弥补这两种因素带来的影响,但 是我们可以在阈值检测时借助于附加信息来做到这一点口1 。例如,一种由相邻 的几个不连续值所形成的实时模式就可以认为是附加的信息,那么,第k 帧和 第k + j 帧是否有边界出现不仅依赖于这两帧之间的不连续值和选取的阈值, 而且还要比较这一实时模式和己知的边界模式的匹配程度。己知的边界模式是 指某一类边界有它自己特有的特性,这种特性表现在不连续值曲线上,就变成 一种模式,例加,溶解类的缓变边界在选取某种特征和标准的条件下可模型化 第2 章镜头边界检测及分割算法 为抛物线型h 1 。 2 2 镜头边界检测经典方法 现有镜头边界检测方法可分为非压缩域中的方法和压缩域中的方法两类。 1 、非压缩域上的镜头边界检测 ( 1 ) 基于像素比较方法 像素比较方法是最简单的一种计算帧间差别的方法,它计算两帧的对应像 素之间灰度差的绝对值和作为不连续值。首先,记i ( x ,y ) 为像素点在位置( x ,y ) 上的灰度,我们定义对应位置( x ,y ) 上的灰度差为: q 七+ ,_ j 厶( x ,y ) 一厶+ ,x ,y ) | ( 2 1 ) 对于整幅图像求所有点上的灰度差之和得到不连续值z : z ( 蛐+ 肛吉萎荟i 厶( 训) 一厶如y ) l掣 考虑到噪声的影响,这种方法的一个改进是只计算那些灰度变化较大的点 数,如果两帧对应位置点的灰度变化大于某一阈值t 。,则该点被考虑,否则被忽 略,即: = z 时, m 为有效镜头边界,记为矽删州,否则为噪声点,这样即得到一个候选镜头边 界集合 印咖删 。实验证明,使用局部阈值的方法能够有效地滤除噪声产生的局 部极大值点。 、 ( 2 ) 检测突变镜头 在确定镜头边界位置后,可再进一步检测镜头的边界类型,由于镜头突变在 1 维特征曲线上表现为一个阶跃,而且持续时问只有两帧,因此使用一个简单有 效的阈值比较,即可将突变从其他渐变类型中区分出来,而不用计算视频曲线 在奇异点的l i p s c h i t z 指数n 2 】 检测时,首先定位镜头边界的起止点。对于每个候选的镜头边界矿加删,在 低分辨率空间向左右搜索偏离其位移最小的极小值点和影卿,并将其作为镜 头边界的起止点,即将s y 作为第i 个镜头边界区间的起始帧序号,将盯作为 镜头边界区间的结束帧序号。 在b 夕,s j 动1 帧序列区间,计算归一化的1 维特征曲线三”。册口妇d ( ,的差值序 列: 第2 章镜头边界检测及分割算法 d ( 毛尼+ 1 ) = l 厶。删口比胸一z n o r m a l i z 肛+ 叫,k f s 夕,墨动f 一1 】( 1 3 ) 其中,k 为视频帧在视频序列中的序号,定义突变的判定阂值为 矿,e 妒h , 7 1 芸攀0 , 一m a x ( d ( 尼,露+ 1 ) ) 矿= k i 矿孓厂一 ( 1 4 ) 即,判定阈值为舍弃镜头边界区间中最大差值m a x ( d ( 尼,七+ 1 ) ) 后的差值序列 的平均值, m a x ( d ( k ,尼+ 1 ) ) z 时,镜头+ 边界点q d p o 伦刎为一个突变,镜头突变 位置为第k 帧,1 【c u t 为经验值,这样可得到镜头突变集合p l r l - c u t ,。 t , jt ( 3 ) 检测渐变镜头 在确定了突变镜头集后,就可对剩余镜头边界点 b i 肿l 删曲。 一衙w ) 进行进一步 检测。叠化镜头边界在1 维特征曲线中近似表现为上升或下降的坡度,其对应于 小波变换的模值曲线中_ 个单峰,而淡人淡出边界类型在1 维特征曲线中近似表 现为单峰,其对应于小波变换的模值曲线中的一个双峰。 在进行镜头渐变检测时,首先在小波变换的模极大值曲线的低分辨率空间, 通过对镜头边界的起止点进行校验来区分叠化和淡人淡出类型,即当前一镜头边 界的结束帧与后一镜头的起始帧重合时,即跚= 矿7 时,则将两个镜头边界 群洲删删和b p o t “删合并为候选淡人淡出镜头边界,这样就得到候选淡人淡出边界 集合;对存在3 个以上连续边界的镜头边界点,则合并其边界点,并将其作为未 知边界类型集合 掣咖) :将其他镜头边界点集合作为叠化边界集合 矽”。概 。由 于强光( 如闪光灯、爆炸) 产生的现象( 指特征曲线相应位置的形状特征) 与淡人淡 出边界相似,故需要进一步区分。由于强光持续时间较短,而且具有较高的峰值, 因此具有较大的变化率。在实验中,本文通过计算1 维特征曲线三一。册9 妇d ( z ) 在镜 头变化区间s t i e f t ,动f j 的变化率来区分强光和淡人淡出边界 i :些型型芸孚一t e f t 舡舻, 。s 恸一g 驴 r r 1 一1u 圳 第2 章镜头边界检测及分割算法 设。为强光阈值,当i 砀。时,则镜头边界掣一向出为淡人淡出边界,这 样得到的淡人淡出边界集合 矽出 和强光集合( 即强光产生的极大值点集 合) 渺“ 的关系为 b i i “ = 群一够) 一 矿) ,由于强光对其附近极值点的阈值 计算( 步骤1 ) 可能会产生较大的影响,因此需要重新修正强光产生的极大值点 彰碱所在区间 。- w 1 2 ,匕。+ w 1 2 中极值点的阈值t i ( ,为矽”在视频序列 中的帧序) 。镜头类型判断时,首先,在小波变换模局部极大值点序列 m 中, 去除强光产生的极大值点矽”:然后,运用式( 8 ) 重新计算矽”所在区间中所有 极值点的局部阈值t i ,并对新镜头边界点按步骤2 、步骤3 依次判断其镜头类型。 对镜头边界检测结果的评价方法一般使用查全率和查准率两个参数,本文也 采用了这种评价标准。在实验中选取了四种不同类型的视频片段,突变镜头查准 率平均为9 0 ,查全率平均为9 1 ,渐变镜头效果稍差些,查全率平均值为8 7 j 查准率平均为8 5 1 。 实验结果表明,本文算法不仅能有效地检测出镜头边界类型,而且具有较高 的查全率和查准率,但在渐变类型的精确分类上,还需要进一步研究。 第3 章镜头图像特征提取 第3 章镜头图像特征提取 镜头是基于内容进行视频检索的最小单位,视频分割成镜头后,就要对各 个镜头进行特征提取,得到一个尽可能反映镜头内容的特征空间,这个特征空 间将作为对视频进行查询和检索的依据。 3 1 镜头基本特征 视频数据的特征包括基本的视觉特征和一些高层的语义特征,基本特征的 提取可以自动完成,而高层特征的提取则需要人工参与,例如对于“这段视频 中有座1 0 年前建造的桥”这种特征,就很难由计算机自动提取出来【1 3 】。本文 所说的特征提取是指视频基本视觉特征的提取,不包括高层的语义特征。 视频是由一系列图像帧组成的,因此从帧的角度看,图像的内容分析和特 征提取技术完全可以应用于对视频的分析和处理。但是,由于视频是一种时序 媒体,它所包含的图像序列是沿着时间轴分布的,这就使得视频不仅具有静态 图像的特征,而且还有一些动态的视觉特征,这是视频媒体所特有的,因此需 要在空间和时间二个方面对视频进行特征提取,即提取视频镜头的静态特征和 动态特征。 静态特征的提取主要针对于代表帧,可以采用通常的图像处理的方法,如 提取颜色特征、纹理特征、形状特征等。纹理是图像中重要而又难以描述的特 征,很多图像在局部区域内可能呈现了不规则性,但在整体上却又表现出某种 规律性,习惯上把图像中这种局部不规则的,而宏观却有规律的特性称之为纹 理,它适于描述诸如山泳、水纹、植被、云图等图像,而一幅图像也可以看成 是各种纹理区域的拼接图。 视频作为一种时基媒体还具有动态特征,它反映了视频数据的时域变化, 对镜头动态特征的提取主要包括对摄像头运动的分析、运动对象的分析等。对 摄像头的运动分析主要是分析摄像机的操作方式和提取一些相关的运动参数, 如摇镜头、转镜头、跟踪等操作方式以及运动的方向和幅度等。运丈讨象的分 析包括对象在视频序列中的运动轨迹、速度、对象之间的距离关系、对象的出 现与消失等。 第3 章镜头图像特征提取 本文拟研究的镜头特征侧重于静态特征,主要是研究从镜头中抽取具有代 表性的视频帧,这类视频帧也称为关键帧( k e yf r a m e s ) 。关键帧能反映一个镜头 的主要内容,比用原始的视频数据要有效得多。关键帧的选取一方面必须能够 反映镜头中的事件,因而描述应尽可能地准确完整,另一方面为便于管理,数 据量应尽可能地小,且计算不宜太复杂。选取关键帧的主要问题是如何找到一 种可以和感知结合,有丰富语义的方法。当前,一般采用保守原则来提取关键 帧,即关键帧提取“宁愿错,不能少”,同时,在代表特征不具体的情况下,一 般以去掉重复或冗余帧图像为原则。 3 2 关键帧特征提取典型方法 由于关键帧

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论