(信号与信息处理专业论文)基于小波神经网络的镜头检测.pdf_第1页
(信号与信息处理专业论文)基于小波神经网络的镜头检测.pdf_第2页
(信号与信息处理专业论文)基于小波神经网络的镜头检测.pdf_第3页
(信号与信息处理专业论文)基于小波神经网络的镜头检测.pdf_第4页
(信号与信息处理专业论文)基于小波神经网络的镜头检测.pdf_第5页
已阅读5页,还剩69页未读 继续免费阅读

(信号与信息处理专业论文)基于小波神经网络的镜头检测.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 基于内容的视频检索技术是当今信息检索领域的一个研究热点,而镜头边界 检测又是实现视频检索的前提。然而,由于镜头分割问题本身的复杂性,使得至 今都没有任何一套镜头边界检测系统可以做到不仅仅性能可靠,而且适应性强。 本文对其中基于小波变换与神经网络的方法进行了研究,在松散型小波网络的镜 头检测理论方面做了有益的探索。归纳起来,本文的研究成果主要表现在以下几 个方面: 对直方图检测法进行了改进。首先对帧图像进行二维小波变换,然后对其低 频部分进行r g b 到h s v 的空间转换,再运用分块直方图法得到帧问差异,然后 综合窗口法和双阈值法进行镜头转换边界的判断。通过实验分析调整了镜头检测 的自适应阈值参数,最后在对检测结果进行分析后加入了检测容忍度,迸一步提 高了检测的准确性。 运用神经网络的自学习能力,实现了一种无闽值镜头检测法,解决了检测中 不同类型的视频要用不同的阂值,且其相关参数选择困难的问题。在传统的帧间 直方图差异和像素差的基础上,进行二次差运算,在很大程度上消除了渐变及其 他因素对突变检测的影响,然后运用非相邻帧差和神经网络相结合对渐变进行检 测,实验结果说明该方法对渐变检测取得了良好效果。 由于对渐变转换进行分类检测的时候,往往要利用大量的帧间信息,所以计 算量非常的大,检测速度慢,然而检测的效率却并不高,因此,先对各帧图像做 小波变换,然后利用低频部分信息做分块直方图,计算帧间差和二次帧差及非相 邻帧差,再由神经网络对这些特征值分类,做突变检测和渐变转换的粗检;其次 计算各高频部分的边缘,提取帧间差,由神经网络判断淡化转换和融解转换。这 一方法能很好地识别突变,对渐变中的淡入、淡出、融解也有较好的识别率。 关键词:小波变换,镜头边界检测,帧间差异,神经网络 a b s t ra c t a b s t r a c t i nr e c e n ty e a r s ,t h ec o n t e n t - b a s e dv i d e or e t r i e v a l ( c b v r ) i sb e c o m i n go n eo ft h e m o s ta c t i v er e s e a r c ht o p i c si nt h ef i e l do fi n f o r m a t i o ni n d e x i n gi nt h ew o r l d s h o t b o u n d a r yd e t e c t i o n ( s b d ) i st h ek e yt e c h n i q u eo fc b v r u n f o r t u n a t e l y , t h e r ei sn o c o m p l e t ea n dr e l i a b l es y s t e mf o rt h ec o m p l e x i t yo fi t s e l f t h i sd i s s e r t a t i o nf o c u s e so n t h em e t h o d so fs b db a s e do nt h ew a v e l e tt r a n s f o r ma n dn e u r a ln e t w o r k , a n ds o m e u s e f u lw o r k sh a v eb e e nd o n eo nt h el a x - m o d e lw a v e l e tn e t w o r ko fs b d t h em a i n r e s e a r c hf r u i t sa c h i e v e di nt h i st h e s i sa r eg i v e n 鹤f o l l o w s : a ni m p r o v e dh i s t o g r a m d i f f e r e n c e - b a s e dm e t h o dw i 也t o l e r a n c ef o rs b di s r e a l i z e d f i r s t ,t h et w o - d i m e n s i o n a lw a v e l e tt r a n s f o r mr e p r e s e n t a t i o n so ft h e s ef r a m e i m a g e sa r eo b t a i n e d s e c o n d ,t h el o w - f r e q u e n c yp a r t so ft h e ma r ec h a n g e df r o mt h e r g bs p a c ei n t oh s vs p a c e t h i r d ,t h ed i f f e r e n c e so fn e i g h b o rf r a m e sa r ee x t r a c t e d t h r o u g ht h eb l o c k e dh i s t o g r a m a tl a s t ,i n t e g r a t et h ew i n d o wa n dd u a l t h r e s h o l d m e t h o d st od e t e r m i n es h o tb o u n d a r y a d j u s tt h ea d a p t i v et h r e s h o l dp a r a m e t e r sa n da d d t h ed e t e c t i o nt o l e r a n c ei n t ot h em e t h o db a s e do nt h ee x p e r i m e n t a la n a l y s i so fs b d o n ek i n do fn o n t h r e s h o l dv a l u es b dm e t h o d , w h i c hb a s e do nn e u r a ln e t w o r k , i s u s e dt oe l i m i n a t et h ed i f f i c u l to fc h o o s et h r e s h o l d so rp a r a m e t e r sf o rt h ed e t e c t i o no f d i f f e r e n tt y p ev i d e o s o nt h ef o u n d a t i o no ft r a d i t i o n a lh i s t o g r a md i f f e r e n c e sa n dp i x e l d i f f e r e n c e s ,c h a r a c t e r so fa b r u p tc h a n g ea r er e v e a l e de f f e c t i v e l yb yc o m p u t i n gt w i c e f r a m ed i f f e r e n c e t h e nt h ei n t e g r a t i n gt h en o n n e i g h b o r i n gf r a m ed i f f e r e n c ea n dt h e n e u r a ln e t w o r kt od e t e c tt h eg r a d u a lc h a n g e s ,t h ee x p e r i m e n t a lr e s u l t ss h o w st h i s m e t h o di se f f i c i e n t b e c a u s em a s s i v ef l a m e si n f o r m a t i o ni sn e e d e dt oc a r r i e so nt h eg r a d u a lc h a n g e s , a n dt h es p e e di ss l o w , t h ee f f i c i e n c yi sn o tg o o d t h e r e f o r e ,t h ev a r i o u ss u b - b a n d s i n f o r m a t i o no ft h ew a v e l e tt r a n s f o r mi su s e dt od e t e c ts h o tc h a n g e sr e s p e c t i v e l y f i r s t , t h eb l o c k e dh i s t o g r a md i f f e r e n c e so fl o wf r e q u e n c yi n f o r m a t i o na r eo b t a i n e d s e c o n d t h en e i g h b o rf r a m ed i f f e r e n c e s ,t h et w i c ef r a m ed i f f e r e n c ea n dt h en o n - n e i g h b o r i n g f r a m e sd i f f e r e n c e sa r eu s e dt od e t e c ta b r u p tc h a n g ea n dg r a d u a lc h a n g eb yt h en e u r a l n e t w o r k ,t h e nt h ee d g eo fe a c hh i g h - f r e q u e n c yu n i ti sc a l c u l a t e d t h ef a d e st r a n s i t i o n s i i a b s t r a c t a n dd i s s o l v et r a n s i t i o n sa r ej u d g e db yn e u r a ln e t w o r ka c c o r d i n gt ot h et o t a ln u m b e ro f a p p e a r e da n dd i s a p p e a r e de d g ep o i n t s t h ec u t sc a nb ed e t e c t e dw e l l ,a n dt h ef a d ei n , f a d eo u t , d i s s o l v ea r ea l s od i s t i n g u i s h e dw e l l k e y w o r d s :w a v e l e tt r a n s f o r m ,s h o tb o u n d a r yd e t e c t i o n , f r a m e sd i f f e r e n c e s ,n e u r a l n e t w o r k i i i 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作 及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地方 外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为 获得电子科技大学或其它教育机构的学位或证书而使用过的材料。与 我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的 说明并表示谢意。 捌年s 其秀日 关于论文使用授权的说明 本学位论文作者完全了解电子科技大学有关保留、使用学位论文 的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁盘, 允许论文被查阅和借阅。本人授权电子科技大学可以将学位论文的全 部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描 等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后应遵守此规定) 虢蹲参新繇丝 日期:2 年岁月ge t 第一章绪论 1 1 研究背景及意义 第一章绪论 信息是人类社会生活中必不可少的重要资源之一。随着多媒体技术的快速发 展、计算机性能的急剧提高,以及i n t c m e t 的快速增长,使得人类正在步入一个丰 富多彩的信息时代,在每天的生活中,人们不但会接触到大量的文本信息,还会 接触到以图形、图像、视频、声音和动画等形式表现的各种多媒体数据。因而, 信息检索中信息的概念也相应的进行了扩展。信息检索是指用户从大量的文档集 中获取所需要的相关信息,在这里,供检索的文档集就包含了文本信息和其他各 种多媒体信息。 在所有的多媒体数据类型中,视频是最复杂的,所携带的信息量也远远超出 语音和文字信息的信息量,因为视频把图像、语音、文字等都合成到了一个数据 流中了。随着人们对多媒体需求的增长,以及多媒体技术的不断进步,视频信息 的数量、以及视频的种类都在迅速地增长。应用的范围也越来越广泛,那么,如 何对这些种类繁多,结构复杂,体积庞大的视频数据进行有效地组织和表达,以 便对其进行管理、查询,以及检索就成为了当今检索研究领域中的一个热点。 由于视频信息是由众多的视频帧数据所构成,这些视频帧之间的内容都存在 很强的逻辑性,所以,基于内容的视频数据检索系统,首先要解决的问题就是, 如何把复杂而无序的视频数据,变为有序的,可供检索的数据信息。经过前人的 研究证明,在众多的视频组织方式中,结构化的视频数据是其中最为有效的种, 这种方式最利于用户对视频进行管理,以及进行基于视频内容的索引等高层语义 方面的操作。在大多数情况下,如果要想从一个视频流当中,直接将其重组为有 层次( 这种层次通常是按照自顶向下的结构定义为:故事、场景、镜头) 的结构 化数据,实现起来会十分困难。就视频本身而言,大部分视频都是通过编辑一个 个的镜头,然后,把他们连接在一起,形成一个完整的视频,根据这一编辑特性, 在分割视频数据时,镜头理所当然的成为了分割视频的基本单元,所以,在基于 内容的视频检索中,也首先是把视频自动地分割为一个个的镜头( 国际上通用的, 供检索用的基本索引单元) ,这个对镜头进行分割的过程就是镜头边界检澳j j ( s h o t b o u n d a r yd e t e c t i o n :s b d ) 。 电子科技大学硕士学位论文 视频镜头代表的是一个在时间上和空间上连续的事件,它由摄像机从一次摄 像的开始到拍摄结束决定。所以,一个镜头中就包含了一系列连续记录的图像帧, 这些图像帧表示的是在一个时间段内或在相同的地点的连续动作,它们是组成视 频的最基本的元素。镜头检测的目的就是要通过镜头的某种特征来获取视频的最 基本的元素,从而将视频分成时间和空间上的最小逻辑单元,这也是为后续的视 频抽象,以及高语义层次的视频分割,视频修复等提供基础【l 】。在视频编辑时,是 根据视频的内容和衔接关系来确定镜头的转换位置,转换方式的,镜头检测就是 要能够恢复这些镜头转换的位置和类型,以帮助计算机推导视频检索用的高层的 语义信息。 1 2 基于内容的视频检索技术的研究进展及现状 在信息检索技术中,基于内容的视频检索( c o n t e n tb a s e dv i d e or e t r i e v a l c b v r ) 是一种新的检索技术。它与传统的w e b 搜索引擎技术相结合,可用来检索 h t m l 网页中的丰富的多媒体信息;若是与传统数据库技术相结合,就可以很方 便的完成对海量多媒体数据的存储,以及管理等工作。 在视频检索方面,国内外的许多研究机构和单位都开展了相应的研究。在国 内,有很多大学和研究所在做这样的工作,如清华大学、复旦大学、西安电子科 技大学、浙江大学、中科院实验室、上海交通大学、北京交通大学、武汉大学和 香港科技大学等;国际上也有不少的机构在做类似的研究,如m 研究院、微软 研究院、北卡州立大学、南洋理工大学等。 目前,在基于内容的视频检索技术方面,相关研究工作都取得了一些研究成 果。国内比较知名的系统有:由清华大学计算机系与中央办公厅警卫局联合开发 并完成,于2 0 0 1 年1 2 月2 7 日通过了鉴定的“基于内容的视频信息管理系统 ; 由微软中国研究院开发的“智能视频浏览器 ,“智能搜索引擎 ;由清华大学 计算机系吴士强教授等开发的基于w e b 的t v - f i ( t s i n g h u av i d e of i n di t ) 视频节目 管理系统【2 】;中科院自动化研究所研制的“图像视频检索系统【3 5 】 ;浙江大学庄 越挺教授主持的国家自然科学基金项目:“基于内容的w e b 视频检索关键技术的 研究 ;华南理工信息网络中心研制的视频检索系统v i d i l i b ;西安电子科技大学 高新波教授的课题组研究设计的n e w s e y e 系统;此外,上海交大、武汉大学、中 国科学院等在这方面也作了大量的研究工作。在国外,有关的系统包括:i b m 研 究中心研发的q b i c ( q u e r yb yi m a g ec o n t e n t ) 系统。其系统结构由图像库、特征计 2 第一章绪论 算、查询阶段三个部分组成;在索引技术方面,采用的是基于图像的颜色、纹理、 形状和手绘草图的索引方式;颜色特征采用了r g b ,y i q ,l a b 和m t m ( 孟塞尔数 学变换q b i c ) 坐标,k 维颜色直方图等;纹理特征采用了改进的t a m u r a 纹理;形 状特征为形状的面积、离心率、圆形度、主轴方向。q b i c 系统极少考虑到用高维 特征索引问题,在新版本中,实现了基于文本的关键词的查询和基于内容的相似 性的查询两者相结合的查询;美国哥伦比亚大学的图像和高级电视实验室开发的 v i s u a ls e e k 系统,支持基于视觉特征的查询和基于空间关系的同时查询,还开发 了w e bs e e k 系统,它主要包括三个模块:图像视频采集模块,主题分类和索引 模块,查找、浏览、检索模块;哥伦比亚大学的v i d e o q 系统,该系统扩展了传统 的文字和主题浏览式的搜索方式,它允许用户输入丰富的视觉特征和时空关系来 搜索视频,其独有的特征包括:集成了文本和视觉方面的搜索方式,自动的视频 对象的分割和跟踪,还有颜色,纹理,形状等丰富的视频特征库,还支持时域和 空域对象查询,以及在压缩域进行视频操作:另外,还有加利福尼亚大学的s a n t a b a r b a r a 分校的n e t r a 、伊利诺依大学的m a r s ,以及m i t r e 公司的b n n 系统,剑 桥大学的m e d u s a 系统等【2 ,销】。 特别是t r e c v i d ( t r e cv i d e or e t r i e v a le v a l u a t i o n ) 的产生,更是推动了这一领 域的发展,t r e c v i d 作为影视检索领域中的国际性权威评测,得到了的美国多个 政府部门的支持,包括美国国防部高级研究计划局在内,并由美国国家标准技术 研究所来组织实施。影视检索的子项目是2 0 0 1 年,由美国国家标准技术研究所在 t r e c 中加入的。由于影视检索的重要性,在2 0 0 3 年发展成为了一个独立的评估 项目。t r e c v i d 每年举行一次,分成4 个子任务:一是镜头边界检测;二是情节 分割;三是高层特性抽取;四是搜索。 1 3 镜头边界检测方法的研究进展及现状 大部分的视频都是通过编辑一个个镜头,然后再按一定的要求或情节连接而 成的,所以镜头是视频数据的基本单元。因此,基于内容的视频检索首先就要把 视频分割为一个个的镜头,然后才能方便地对每个视频段落作出相应的分类标注 来,从而得到相应的基本索引单元。所以,作为视频检索的底层的镜头分割,其 分割效果的好坏将直接影响到更高一级操作,也就会影响到视频结构化,以及后 续的视频浏览和检索,乃至于整个检索系统的成败,因此,镜头边界检测算法的 研究在基于内容的视频检索中具有着极其重要的意义。 电子科技大学硕士学位论文 1 3 1 基本概念 在视频检索系统中,视频镜头边界的检测是对视频进行组织和建立起视频索 引的关键步骤。通常情况下,根据镜头的转换情况不同,把镜头的转换方式分为 突变( c u tt r a n s i t i o n :常简称为c u t ) 和渐变( g r a d u a lt r a n s i t i o n :g t ) 两大类。 按照视频编辑的方式不同,可得到几种不同的镜头数学模型 7 1 。 首先,令,k y ,f ) 和g ( x , y ,f ) 分别表示镜头转换前和转换后的场景图像,镜头 的转换过程发生在 0 ,t 】内,则渐变镜头转换中的视频序列图像可表示如下: h g ,y ,f ) = 口( f 扩g ,y ,f ) + ( f ) g b ,y ,f ) o t t ( 1 1 ) ( 1 ) 如黝) = 骺三:器确) = o 蓦黝- 1 ) 式姚的 就是突变转换的数学模型o ( 2 ) 如果在 o ,t 】中,口o ) 是由1 到0 的单调减小函数;而o ) 则是由0 到1 的 单调增加函数,那么( 1 1 ) 式对应的是融解转换的数学模型; ( 3 ) 如果口( f ) = 0 ,那么h k y ,f ) = o ) g g ,y ,f l0 t t ,是淡入转换的数 学模型; ( 4 ) 如果o ) = 0 ,那么日g ,y ,f ) = 口( f 扩k y ,f l 0 f t ,是淡出转换的数 学模型; ( 5 ) 扫换是指前一个场景的图像逐渐被后一场景的图像取代的过程。被取代的 扫换区域用尺表示,则转换中的视频图像可表示如下: 砘) - f ( x , y , t 至渊篡( 1 - 2 ) 选择不同r 区域,将对应不同类型的扫换,常见的是线性扫换和自适应扫换 两种,其中,又以线性扫换较为常见,也更为简单,比如从上到下、左到右、由 内而外、由外向内的转换等。 以上这些模型都是线性的,实际情况可能有不同,但是分析它们也有助于镜 头边界检测问题的研究。 1 3 2 镜头边界检测算法 在镜头检测中,其关键问题之一便是要找到一种合适的特征,用来描述视频 中帧图像的内容,再通过帧间的特征值的差异来判断是否存在镜头的转换。目前, 4 第一章绪论 用于镜头检测的图像特征大致包括:像素、颜色、灰度、直方图、边缘,以及其 它基于信息学的特征,运动特征,能表示图像内容差异的视觉特征等【9 1 。 现有的镜头边界检测算法主要分为两个大类:一是像素域( 非压缩域) 中的 方法,二是压缩域中的方法。这两类方法中,像素域中的方法由于计算量相对较 大,其运算速度较慢,但由于可用的信息丰富,所以准确率较好,对运动也就敏 感;压缩域中的方法计算量相对较小,运算速度较快,其准确率较差,对运动较 敏感【2 】。 i 基于像素域( 非压缩域) 的镜头检测方法 ( 1 ) 像素差异法( p i x e ld i f f e r e n c e sm e t h o d ) ,首先选择帧间对应像素点的差异特 征,计算出连续两帧图像的帧间差,然后与预先设定的阈值作比较,若大 于该阈值,则认为发生了镜头转换。若要同时检测渐变镜头,一般采用双 闺值法,用高阈值分割出突变镜头,用低阈值确定渐变镜头。该方法对运 动敏感,计算复杂度高,而且容易受到干扰,难以区分小区域中的大变化, 或者大区域中的小变化【7 ,1 啦! 1 1 。 ( 2 ) 统计量法( s t a t i s t i c a lm e t h o d ) ,首先利用像素的统计特征得到帧间差异,然 后用阈值检测出镜头转换【1 2 1 。该算法不易受干扰,但是对运动敏感,且计 算复杂,所以很少单独使用,一般都是与其它方法结合起来用,可以得到 高性能的检测算法。 ( 3 ) 直方图方法( h i s t o g r a m - b a s e dm e t h o d ) ,首先计算直方图的距离,得到帧间 图像差异,这一方法利用灰度直方图或彩色直方图的比较代替了逐像素的 比较【1 3 之0 1 。这类方法又分为两种:( 1 ) 计算两帧图像直方图之间的差异,这 种方法对场景中的局部运动不敏感,但是对全局运动敏感;( 2 ) 是计算两帧 图像差值的直方图,这种方法却是对场景中的局部运动敏感,但是对全局 运动不敏感。但两种方法都对亮度变化非常的敏感,在一个镜头内有亮度 发生变化时( 例如闪光灯) ,对应的直方图会发生突变,也就容易错检为 突变转换。因此,用该方法进行检测时必须做去除闪光灯类影响的处理。 ( 4 ) 块匹配法( b l o c km a t c h i n g - b a s e dm e t h o d ) ,首先以相同的方式把每一帧图 像分成m 个块,然后比较连续帧之间对应块的特征值,得到用于检测的帧 间差,这种图像的局部特征抑制了噪声、摄像机、物体运动的影耐2 0 2 1 】。 该方法对运动不敏感,计算复杂度也低,且不易受干扰。 ( 5 ) 边界变化率法( e d g ec h a n g er a t i om e t h o d ) ,首先得到帧图像的边缘,然后 电子科技大学硕士学位论文 计算相邻帧的边界的变化程度,再根据这一变化程度确定镜头边别2 2 1 。这 一方法中,可以对全局运动信息的进行估计,从而确定出摄像机的运动参 数,消除摄像机运动参数对边缘比较产生的影响。该方法对运动不太敏感, 计算相对较复杂。 ( 6 ) 距离差异法( d i s t a n c ed i f f e r e n c e sm e t h o d ) ,该方法在得到帧图像的边缘后, 用h a u s d o r f f 距离计算出各个小区域新出现的边界点,以及消失边界点的 数量之和,用这种差异体表征镜头变化【2 3 】。该方法不易受干扰。 ( 7 ) 聚类法( c l u s t e r i n gm e t h o d ) ,利用同一镜头内的各帧的内容的相似性很强, 且各帧在时间上是接近的特征,通过聚类法实现镜头检测【2 ,8 ,1 0 - 1 1 , 州。聚 类算法对运动敏感,目前,这种方法仅对突变的检测较为有效,无法用于 渐变镜头的检测。 在上面这些像素域方法中,大多数情况下都需要根据经验来选择检测阈值, 由于普适的阈值不存在,所以找到一种自适应阈值是非常重要的。还有一个很重 要的问题是如何识别出镜头的全局和部分的运动,从而提高检测精度。 i i 压缩域中的镜头检测方法 ( 1 ) 基于d c t 系数的方法( d c tc o e f f i c i e n t b a s e dm e t h o d ) ,首先计算相邻帧间 的d c t 系数差值,然后用阈值法检测镜头边界【2 5 1 。该方法对运动敏感, 计算复杂度高,且易受干扰影响。 ( 2 ) 基于小波变换的方法( w a v e l e t - b a s e dm e t h o d ) ,首先将帧图像进行小波分解 后,然后分别对其低频部分和高频部分进行分析和处理。用低频部分检测 突变,用高频部分检测渐变。在该算法中,如果加入适当的平滑滤波可以 很好的消除噪声的干扰,同时,又可以抑制低速的摄像机和物体的运动对 检测的影响,从而提高检测效率 8 , 2 2 , 2 铊引。该算法的优点是计算复杂度比 较低,对运动不敏感,也不易受干扰影响。 ( 3 ) 空时分析法( s p a t i o t e m p o r a lm e t h o d ) ,这种方法利用前后帧图像在空间上 的特点以及在时间上的相关性来检测渐变转换【6 2 9 】。对运动敏感,计算复 杂度较高,但不易受干扰影响。 ( 4 ) 矢量量化法( v e c t o rq u a n t i z a t i o nm e t h o d ) ,该方法通过构造相似性函数来计 算帧间相似性,从而检测出镜头边界【3 0 】。该方法对运动敏感,但好处是计 算复杂度相对较低,且不受干扰影响。 ( 5 ) 运动矢量法( m o t i o n v e c t o r m e t h o d ) ,根据同一镜头中视频序列的运动矢量 6 第一章绪论 是相对连续的,而在不同镜头之间则是不连续的,估计出视频序列中的运 动矢量也就能检测出渐变镜头脚5 3 1 3 引。该方法对运动较敏感,计算复杂 度较低,但是易受干扰影响。它可以很好地识别出渐变镜头,但是无法确 定出镜头的边界【刀。 上述方法的检测精度都不太高,但是速度相对较快【2 7 】。 1 3 2 镜头边界检测中的主要问题 运动问题:摄像机的运动、视频序列中物体的运动等都能造成视频帧图像的 视觉内容剧烈变化,而镜头检测的基本原理就是检测帧间的视觉差异。因此,运 动通常会造成镜头检测算法的误检。现有的方法中采用了运动补偿的特征,以及 通过运动检测来对视频序列中的物体运动进行运动补偿,这些方法对于慢速运动 取得了较好的效果,但是,对于较剧烈的运动仍然没有非常有效的办法。单就摄 像机运动方面而言,现在也有很多研究,但对于摄像机较大的运动还是不能很好 地检测出来。 光照:光照的变化,物体的反光、闪烁等都极易造成误检测。通常情况下, 若是采用的灰度、直方图特征,则对全局的光照变化比较敏感,因此很容易造成 误检测,于是有研究人员采用基于光照不变的特征来进行镜头检测( 例如用颜色比 值直方图) ,这种方法在对全局的光照变化进行补偿方面起到了很好的作用,但是 对于局部的光照变化,尤其是镜头渐变过程中的局部光照变化,至今,仍然没有 非常有效的处理方法。 特征向量的选择:如前所述,正确的特征选择对镜头边界的检测有着十分重 要的意义。在常用特征中,像素差和边缘改变率对运动和噪声都比较敏感,容易 造成误检测;而颜色直方图又丢失了位置信息,所以两幅完全不同的图像可能具 有相同的直方图,从而造成漏检测。所以。找到更好的特征,或者是特征组合将 有利于镜头边界的检测。 阈值的选择:在利用帧间差进行镜头边界检测的算法中,阈值的选择是一个 很重要的问题。如果阈值过大,就会漏掉镜头转换;反之,阈值太小又会引起误 检测,即把镜头或物体的运动( 此时帧间差值增大) 误检为镜头转换。而且,对于不 同类型的视频,还应该要选择不同的阈值,如体育比赛中的镜头运动较多,应选 择较大的阈值,而在新闻类节目中,主要是主持人的镜头,运动较少,就应选择 较小的阈值,因此,阈值应根据视频的内容来自适应地选定。目前,大多数文献 7 电子科技大学硕士学位论文 中的算法都是依靠经验来选择阈值,不利于实现镜头边界的自动检侧。 精度问题:通常情况下,对镜头突变的检测其精度都能达到9 0 左右。但是, 镜头渐变的检测精度却比较低。这是因为视频编辑特效层出不穷,而通常的镜头 渐变检测方法都只适用于某一种情况下,或者某一种特定的镜头渐变类型。 速度问题:由于视频数据量巨大,就是按每秒钟约2 5 帧计算,一般的视频长 度为两小时左右,也就可以达到2 1 6 0 0 帧之多,所以,检测过程中的计算量非常 大。现有的算法都是逐帧计算帧间相似度,运算速度慢,还达不到实时检测的要 求。 压缩域的视频检索:由于视频数据量大,因此,直接在压缩域内实现数据处 理,进行镜头检测,对减少计算量和存储量具有很大的意义【引。但是识别的正确性 很差,不能很好的完成镜头检测。 不明显的镜头变换对检测的干扰:这种不明显的变换对镜头的准确检测,以 及精确定位都带来比较大的影响,如何有效地提高镜头边界检测算法的鲁棒性仍 然值得进行研究【3 引。 正确性问题:在镜头转换中,并非所有特征均能反应出镜头变化的规律,如 何选择、提取合适的特征,以保证检测结果的正确性,仍旧是一个值得研究的问 题【1 9 1 。 同时识别突变和渐变的问题:在现有的方法中,大多数只能对某一种转换类 型的镜头做出有效的检测,而对其他类型的镜头转换,检测得到的结果却很差, 或者根本不能做出正确的检测。 1 4 论文的主要工作和章节安排 本论文的主要研究内容是基于小波和神经网络的视频镜头检测技术,为该方 面的视频镜头边界检测做一些有益的尝试。针对镜头检测研究中存在的问题,如 特征的选择、约简、阈值的选择等内容进行了分析和研究,结合小波变换与神经 网络在检测方法上做了相应的研究。本论文的主要工作和章节安排如下: 第一章:介绍了本文研究的背景和意义,概述了基于内容的视频检索,以及 镜头边界检测的研究进展及现状,分析了镜头边界检测研究中存在的问题,以及 研究的意义,最后给出了本文主要的研究内容,以及各章节的内容安排。 第二章:介绍了视频的数据层次,以及视频镜头边界的分类和摄像机的运动, 对视频镜头检测中常用的特征进行了归纳总结;然后从一维连续小波变换的定义 第一章绪论 入手,介绍了小波的性能指标,并对小波神经网络进行了简要介绍,为后续研究 提供了必要的理论基础。 第三章:首先分析了镜头检测中常用的双阈值法和直方图法后,然后介绍了 小波变换中m a l l a t 算法及其信号的分解过程,以及二维小波变换及其分解,突出 了二维小波变换减少图像数据的作用,在此基础上改进了传统的双阈值法,实验 证明,该方法比一般的双阈值检测法在检测的准确性有了提高。 第四章:在对像素比较法和二次差法进行介绍的基础上,针对不同类型的视 频镜头检测中阈值选择困难的问题,运用神经网络的自学习能力,实现了无阈值 突变镜头检测。最后运用非相邻帧差和神经网络对非线性数据较好地处理能力相 结合对渐变进行检测,实验结果说明该方法对渐变检测取得了良好的效果。 第五章:本章说明了对渐变转换进行分类检测的困难,以及用边缘特征进行 检测的原理和方法,然后尝试性地给出了一种结合小波变换和神经网络的镜头检 测方案,这一方案不但能很好地识别突变,对渐变中的淡入、淡出、融解也能较 好地识别,同时对线性扫换的识别率也较好。 9 电子科技大学硕士学位论文 第二章视频镜头边界检测相关理论 作为视频检索中的核心环节,视频镜头边界检测包括有:对镜头边界进行定 位,即确定视频镜头转换的起始和终止的帧号;视频镜头转换类型的检测,即确 定出镜头是突变还是渐变转换,甚至能更为精确的确定出渐变是属于哪种类型的 渐变。通常情况下,处于视频镜头转换边界附近的帧会表现出视觉内容的不连续 性,这一特点就是实现镜头边界检测的基础。 2 1 视频数据的层次 把视频数据按照从高到低的层次顺序,可以依次划分为视频、场景、镜头、 图像帧四个,如图2 1 所示。一段视频往往是由若干个场景( 也叫作故事单元) 构成 的,其中的每个场景都是对一个完整事件的描述;每一个场景又包含有一个及一 个以上的镜头,这些镜头都是由摄像机在一次连续拍摄过程中得到的,代表了在 一个时间段或在相同地点的连续的动作;每一个镜头都是由一系列的图像帧组成 的,在这里,图像帧是构成视频数据的最小单位,其本质就是一幅幅的静止的图 像。任何视频节目都是一个个镜头通过编辑衔接起来的,因此,镜头才被作为了 视频检索的基本单元,这也是国际通用的检索单元。那么,要实现对视频的检索 只有先将视频序列中的镜头分割出来,然后才能进行下一步的结构分析等工作。 图2 - 1 视频结构图 l o 第二章视频镜头j 立界检c 相关理论 22 镜头分类 2 12 镜头转换类型 前面说过,根据镜头的转换情况不同,可将镜头转换分为突变和渐变转换两 个大类,如图2 2 所示。其中,突变是指由前个镜头直接转换成后,个镜头,没 有空间或者是时间上的延迟。渐变转换则是前一个镜头是逐步过度成为f 一个镜 头的,在转换的过程巾加入了一些空间或时间e 的编辑特效。由于编辑方式多种 多样,渐变的类型也就很多,比较常见的有淡入( f a d c 叫转换、淡持t ( f a c l eo u t ) 转 换、融解( d i s s o l v e ) 转换和扫换( w i p e ) 等。淡入指一个画面不断加强,直至全部显 现;演出则相反,是指一幅画面逐渐减弱,直到消失;融解是在上个镜头的画 面逐渐减弱的同时,下一个镜头的画面在逐渐加强,就是淡出和淡入的组合;而 扫换是从前一个画面中的某一部分开始以拉幕的方式逐渐过度到f 一个画面。 曲突变 蜊 篱溪蛹笺- 藜嘲 【b 1 渐变 圈2 - 2 突变和渐变示例 2 12 镜头运动类型 视频镜头内的运动包括两者,一是出视频中的对象运动产生的局部运动,二 i 醛霍 电于科技大学硕士学位论文 足由拍摄时的摄像头的运动导致的全局运动。 i 对象运动:视频中对象的运动是千变万化的,根据实际情况的不同而有很 大的不同,但是运动特性又是视频检索中的另一个重要方面,特别的,在现代 监控视频十分常见,视频监控运用广泛的情况f ,对视频的运动进行检测更是有 着重要的意义例如,用户可能需要在监控视频中检索出某个物体被移动的视频 片断,特别是道路监控中汽车移动的视频片断,案件侦破中特定物体或人的运动 视频片段。针对这种情况,c o u r l n e yjd p ”归纳r 以下儿种对象运动,并对其进 行了分析说明: ( 1 ) 出现:指一个对象在镜头中突然出现: ( 2 ) 消失:指一个对象从镜头中运渐消失或是突然消失; r 3 1 进入:指一个运动的对象在镜头中出现; ( 4 ) 退出:指一个运动的对象从镜头中消失; ( 5 ) 放置:把一个本身不能动的对象添加到镜头中; f 6 ) 移动:把一个本身不能动的对象移出镜头; r n 运动:指一个原先静止的对象开始运动; ( 8 ) 停止:指一个原先运动的对象停止不动; 摄像头的运动:摄制视频时,在拍摄过程中,为了达到特定的拍摄效果, 摄像头可以按以下几种( 如图2 - 3 所示) 不同的方式运动”1 : cl 圈23 相机运动示意图 ( 1 ) 上下摇镜头( t i l t ) :摄像头的中心位置固定不变,上下转动实现拍摄方位的 口 伊 p u 第二章视频镜头边界检测相关理论 改变; ( 2 ) 左右摇镜头( p a n ) - 摄像头中心的位置固定,通过左右转动的方式改变拍摄 方位; ( 3 ) 转镜头( z r o t a t i o n ) :以拍摄对象为中心,摄像头从不同的位置角度进行拍 摄; ( 4 ) 移动镜头( t r a n s l a t i o n ) :摄像头紧跟拍摄对象移动,但是,不旋转角度。 移动又可分为水平移动和垂直移动两类。 ( 5 ) 推镜头( z o o mo u t ) :镜头从远处开始拍摄,镜头逐渐推近到拍摄对象; ( 6 ) 拉镜头( z o o mh 1 ) :镜头从近处开始拍摄,逐渐拍成全景画面。 在镜头检测中,当一个镜头内包含几种不同的摄像头运动时,一般都只需要 对其中的主要运动进行分析。 2 3 镜头检测中的特征 在视频镜头检测过程中,如何提取优良的视频数据底层特征也非常的重要, 因为,在大多数情况下,特征提取的好坏,将直接决定镜头检测的效果。因此, 在提取检测特征时,一般要求注意三点:一、尽可能选取能明显体现出帧间视觉 差异的特征;二、所选的特征对摄像机的运动,物体的运动都有着比较好的鲁棒 性:三、选取那些能有效地克服或消除光照变化对镜头检测的影响的特征。 2 3 1 像素特征 在所有特征中,视频帧图像上的每个像素点的灰度或亮度值是最能直接反映 图像的视觉内容的特征。因此在镜头检测中灰度或亮度是使用得最为普遍的特征。 计算帧间差异度的最简单的方法,就是计算第k 帧和第k + 1 帧的帧图像中所有对应 像素的灰度或亮度的差值,这种方法虽然能够反映出帧间的视觉信息差异度,但 是,这种方法用的是像素差,也就决定了它很容易受到噪声的干扰,从而容易造 成镜头的误检测,为此,很多文献对其进行了改进。 2 3 2 直方图特征 所有利用帧图像的像素点求差异度的方法都存在一个问题,就是对镜头的运 动和物体的运动都极敏感,也就容易造成误检,于是,有研究人员用灰度或亮度 电子科技大学硕士学位论文 的直方图来提取特征【3 8 删。由于在同一个镜头内,一般来说,其相邻帧间会都有 全局视觉相同的元素,所以,在同一个镜头内的相邻帧将具有相似的颜色分布。 这一特点用直方图上反映出来就是:在同一个镜头内,相邻帧间的直方图差异较 小;而属于不同镜头中的帧间的直方图差异度就会比较大。当然,也可能有这样 的情况,就是两帧图像的直方图相似,甚至是相同的,但是两幅图像的视觉内容 却完全不同,这就会使得依靠直方图特征进行检测的算法产生误检测。但是,在 实际的视频序列中,发生这种情况的概率是非常非常小的。相对来说,基于直方 图特征的方法是最简单的,也是比较有效的高检测率方法,正因为如此,它才被 广泛采用。但是,基于直方图的方法有着其固有的特点,就是没能用到图像中像 素的空间信息,在渐变过程中,由于相邻帧的直方图的变化相对较小,要很好地 检测出镜头渐变也就相对困难很多,然而,就是因为直方图差异法没用到图像中 像素的空间信息,因此,较缓慢的物体运动也就不会对检测产生明显的影响,从 而能很好地减少由物体运动产生的误检测。 2 3 3 运动特征 在视频序列中,视频信息中的动态行为主要是由其运动矢量来描述。在同一 镜头中,由视频序列估计出的运动矢量是相对连续的,在不同的镜头中时,这种 连续性就会被破坏掉,由此可以检测出镜头转换边界来。 基于块匹配的方法、基于光流的方法、像素递归的方法,贝叶斯方法等都属 于用视频数据的运动特征进行分析的方法,所有这些方法均可以描述出视频序列 的运动信息。比如,在基于块匹配的算法中,首先,每帧图像都按照相同的方法 分成k 个二维像素子块,然后假设每个子块内的像素都是作的相等的平移运动, 那么,当前帧中的某个子块,必定可以在上一帧的对应子块邻域内搜索到与之最 匹配的子块,则,当前子块与匹配块在二维平面上有一定的位移,该位移就是运 动估计得到的运动矢量。 有文献表明,单一依靠运动特征的镜头检测方法结果并不理想,其试验结果 不如简单的直方图差的方法】,其主要原因在于,运动估计的难度太大,远远大 于检测帧与帧之间的视觉差异的难度。但是,运动预测方法对于那些直方图法难 以检测的渐变镜头边界,往往能发挥出特有的优势。 1 4 第二章视频镜头边界检测相关理论 2 3 4 边缘特征 图像的边缘或者是轮廓信

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论