(通信与信息系统专业论文)基于视频文本检测和视频对象分割方法研究.pdf_第1页
(通信与信息系统专业论文)基于视频文本检测和视频对象分割方法研究.pdf_第2页
(通信与信息系统专业论文)基于视频文本检测和视频对象分割方法研究.pdf_第3页
(通信与信息系统专业论文)基于视频文本检测和视频对象分割方法研究.pdf_第4页
(通信与信息系统专业论文)基于视频文本检测和视频对象分割方法研究.pdf_第5页
已阅读5页,还剩106页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要摘 要 本文围绕与 m p e g - 7相关的关键技术之一- 一视频文本检测、定位和抽取方法进行了研究,由于视频文本的检测、定位、抽取和识别受背景的复杂度、对比度、分辨率、字体大小、排列方向、字形、运动方式等因素的影响,需考虑的因素较多,算法比较复杂。本文的主要工作即是针对国内外涉足较少的视频文本检测进行了较为深入的研究,为实现如何降低算法的复杂度、提高算法的鲁棒性和准确性这一目标,本文做了如下的工作: 1 . 提出了一种基于边缘信息和 l h的方法检测视频帧文本所在的位置,边缘检测用 s o b e l 算子,将检测到的边缘,经强度、密度检测后,计算其 l h的值,经凸台检测后,得到文本区域的定位结果。实验表明这种方法计算简单,能快速地定位文本区域,且不受文本颜色、字形等的限制。对水平或垂直方向排列的视频文本,检测和分割效果良好。 2 提出一种基于小波和 l h的检测算法,采用多分辨率的分析方法,不但考虑了水平和垂直方向的高频分量,也考虑了对角方向的高频分量,用具有良好时频局部特性和变尺度特性的小波分析方法提取出不同空间分辨率、不同方向的边缘子图象后经过强度和密度检测,用 l h的方法进一步定位文本目标区域。实验表明这种方法由于采用多分辨率的分析方法,可对字体大小差别较大的视频文本进行检测, 且不受文本颜色、 字形等的限制。 对水平或垂直方向排列的视频文本,检测和分割效果良好。 3 . 提出用形态学进行视频文本检测的两种方法。 第一种方法结合了小波多分辨率的分析方法及形态学具有几何形状分析的特点,用小波分析方法提取文本的高频分量后,用形态学的方法进行进一步的处理,这样可不受文本排列方向的限制。第二种方法是提出一种基于形态学的方法提取边缘子图像,所提取的边缘具有 良好的形状保持性。 在提取到边缘子图像后, 再通过区域标记、 连通分量分析、形态后处理等一系列步骤对视频帧进行滤波,得到视频文本检测结果,最后再对其进行二值化处理,把文本字符从复杂背景中分离出来。实验表明这种方法可以检测各种不同方向、各种形变的视频文本,不但适合字幕文本的检测,也适合场景文本的检测。 4 . 提出一种用小波和模糊聚类神经网络相结合的方法检测视频文本。神经网络采用一种无监督的自组织神经网络,网络通过自身训练,自动对输入模式进行分类,这样可以较少用人工干预,更有利于开发一个完全自动的系统,此外,由于不同的特征之间并没有一个明显的分界线,所以,我们考虑用模糊聚类的神经网络。 首先用小波分析方法提取图象中的尺度一 空域特征, 经神经网络分类器进行分类后,自动检测视频数据中的文本区域。这种方法不但能检测字幕文本,也能检测场景文本。实验表明这种自动检测方法效果良好。 5 . 提出一种利用文本时域信息的方法,实现了文本区域的跟踪,并利用文本的多帧信息, 增强文本字符, 实现了文本字符从复杂背景中的有效分离, 并用 o c r软件进行识别,得到了最终的识别结果。实验表明,这种方法计算简单,可实现文本区域的自动跟踪,文本识别效果良好。 6 . 本文还对与 m p e g - 4相关的关键技术一视频对象自 动分割进行了研究,提出了一种时域和空域信息的融合方案,时域分割采用基于假设检验得到初始的变化检测模板,然后与基于形态学的空域分割进行融合获得最终的运动对象。实验结果表明,该方案计算较简单,能较好地将前景运动对象从背景中分离出来,定位精度较高。关键词文本检测:文本定位:文本跟踪;视频对象分割ab s t r a c tab s t r a c t t h i s d i s s e r t a t i o n i s f o c u s o n o n e o f t h e k e y t e c h n i q u e s r e l a t e d t o mp e g - 7 s t a n d a r d s一一t h e m e t h o d s o f v i d e o t e x t d e t e c t i o n , l o c a t i n g , a n d s e g m e n t a t i o n . b y t h e a f f e c t i o no f t h e c o m p l e x i t y o f t h e b a c k g r o u n d , t h e c o n t r a s t o f t h e t e x t w i t h t h e b a c k g r o u n d , t h es i z e o f t h e t e x t , t h e o r i e n t a t i o n o f t h e t e x t , t h e s h a p e o f t h e t e x t a n d m o t i o n m e t h o d o ft h e t e x t , e t c . , t h e r e a r e mu c h f a c t o r s mu s t b e c o n s i d e r e d , s o t h e a l g o r i t h m i s c o m p l e x .t h e ma i n p u r p o s e o f t h i s w o r k i s t o d e c r e a s e t h e c o mp l e x i t y o f t h i s k i n d o f me t h o d ,i n c r e a s e i t s r o b u s t i c i t y a n d a c c u r a c y . s e v e r a l w o r k h a s b e e n d o n e t o a c h i e v e t h i s g o a l : 1 . a t e x t d e t e c t i o n me t h o d o f v i d e o f r a m e b a s e d o n e d g e a n d l h h a s b e e n p r o p o s e df i r s t , t h e e d g e i m a g e i s a c q u i r e d b y s o b e l o p e r a t o r , t h e n i t s l h i s c a l c u l a t e d a f t e ri n t e n s i t y a n d d e n s i t y d e t e c t i o n , t h e n t h e h o r i z o n t a l a n d v e r t i c a l c o n v e x i s d e t e c t e db a s e d l h , f i n a l l y t h e t e x t i s l o c a t e d . t h e e x p e r i m e n t a l r e s u l t s d e m o n s t r a t e t h es i m p l i c i t y a n d e f f e c t i v i t y o f t h e a p p r o a c h , w h i c h i s f r e e o f t h e r e s t r i c t i o n o f t h e t e x tc o l o r , t h e t e x t s h a p e , a n d e t c . t h i s m e t h o d w o r k s w e l l i n t h e h o r i z o n t a l a n d v e r t i c a lt e x t . 2 . a t e x t d e t e c t i o n me t h o d o f v i d e o f r a me b a s e d o n wa v e l e t a n d l h h a s b e e np r o p o s e d . t h i s m e t h o d , w h i c h b a s e d m u l t i s c a l e a n a l y s i s , n o t o n l y t a k e h o r i z o n t a l a n dv e r t i c a l h i g h f r e q u e n c y c o m p o n e n t i n t o c o n s i d e r a t i o n , b u t a l s o c o n s i d e r e d t h e d i a g o n a lh i g h f r e q u e n c y c o m p o n e n t . f i r s t , t h e e d g e i m a g e i s a c q u i r e d b y wa v e l e t a n a l y s i s w h i c hh a s f i n e t e m p o r a l - f r e q u e n c y l o c a l f e a t u r e a n d m u l t i s c a l e f e a t u r e , t h e n i t s l h i sc a l c u l a t e d a f t e r i n t e n s i t y a n d d e n s i t y d e t e c t i o n , t h e n t h e h o r i z o n t a l a n d v e r t i c a l c o n v e xi s d e t e c t e d b a s e d l h , f i n a l l y t h e t e x t i s l o c a t e d . b y a d o p t i n g m u l t i s c a l e m e t h o d , i t c a nd e t e c t v a r i a b l e f o n t s i z e . t h e e x p e r i m e n t a l r e s u l t s d e m o n s t r a t e t h e s i m p l i c i t y a n de f f e c t i v i ty o f t h e a p p r o a c h , w h i c h i s f r e e o f t h e r e s t r i c t i o n o f t h e t e x t c o l o r , t h e t e x ts h a p e , a n d e t c . t h i s m e t h o d a l s o w o r k s w e l l i n t h e h o r i z o n t a l a n d v e r t i c a l t e x t . 3 . t w o a p p r o a c h e s b a s e d o n m o r p h o l o g y t o d e t e c t v i d e o t e x t a r e p r o p o s e d . i n t h ef i r s t a p p r o a c h , t h e h i g h f r e q u e n c y c o m p o n e n t o f t h e t e x t i s f i r s t a c q u i r e d b y w a v e l e tm华南理工大学工学博士学位论文a n a l y s i s , t h e n b y u s i n g m o r p h o l o g i c a l o p e r a t o r s t o t h e h i g h f r e q u e n c y i m a g e , t h e f i n a lt e x t i s l o c a t e d . i n t h e s e c o n d a p p r o a c h , t h e e d g e i m a g e i s d e t e c t e d b y m o r p h o l o g i c a lo p e r a t o r s , i n w h i c h t h e e d g e s h a p e i s f i n e k e p t . a f t e r b y c o n n e c t e d c o m p o n e n t a n a l y s i sa n d g e o m e t r i c f i l t e r i n g , t h e f i n a l s a t i s f a c t o r y r e s u l t s a r e a c q u i r e d . t h i s a p p r o a c h c a nd e t e c t v a r i o u s o r i e n t a t i o n , v a r i o u s c h a n g e d s h a p e t e x t , w h i c h c a n d e t e c t n o t o n l yc a p t i o n t e x t b u t a l s o s c e n e t e x t . 4 . a n a p p r o a c h w h i c h c o m b i n e d w a v e l e t a n d f u z z y c l u s t e r i n g n e u r a l n e t w o r k t od e t e c t v i d e o t e x t i s p r o p o s e d . t h e n e u r a l n e t w o r k , w h i c h a d o p t e d u n s u p e r v i s e ds e l f - o r g a n i z a t i o n n e u r a l n e t w o r k , c a n a u t o m a t i c a l l y s o r t t h e i n p u t p a t t e r n s b ys e l f - t r a i n i n g . t h i s n e t w o r k n e e d e d l e s s h u m a n i n t e r f e r e n c e , t h u s c a n m o r e s u i t a b l e t od e v e l o p a f u l l y a u t o m a t i c s y s t e m. o t h e r w i s e , t h e r e i s n o c l e a r b o r d e r b e t w e e n d i f f e r e n tf e a t u r e , s o w e c o n s i d e r e d t o u s e f u z z y c l u s t e r i n g n e u r a l n e t w o r k . f i r s t l y , t h e w a v e l e ta n a l y s i s i s u s e d t o e x t r a c t s c a l e - s p a t i a l f e a t u r e , t h e n t h e n e u r a l n e t w o r k i s u s e d t o s o r t .t h e e x p e r i m e n t a l r e s u l t s d e m o n s t r a t e t h e e f f e c t i v i t y o f t h e a p p r o a c h , w h i c h c a n d e t e c tc a p t i o n a n d s c e n e t e x t . 5 . a n a l g o r i t h m o f t e x t t r a c k i n g i s p r o p o s e d b y u s i n g t e x t t e m p o r a l i n f o r m a t i o n , i nw h i c h b y u s i n g m u l t i p l e f r a m e s i n f o r m a t i o n , t h e t e x t i s e n h a n c e d a n d t h e c o m p l e x i t y o ft h e b a c k g r o u n d i s l e s s e n e d a n d b y f u r t h e r p r o c e s s i n g o f c o n n e c t e d c o m p o n e n t a n a l y s i sa n d g e o m e t r i c f i l t e r i n g , t e x t c h a r a c t e r s c a n b e s e g m e n t e d f o r m c o m p l e x b a c k g r o u n d .t h e n t h e t e x t i ma g e i s f e d t o o c r s o f t w a r e t o r e c o g n i z e . t h e e x p e r i m e n t a l r e s u l t sd e m o n s t r a t e t h a t t h i s m e t h o d c a n r e a l i z e t h e t e x t t r a c k i n g a n d i m p r o v e t h e r e c o g n i t i o ne f f e c t i v e n e s s . 6 . t h i s d i s s e rt a t i o n h a s a l s o r e s e a r c h e d o n e o f t h e k e y t e c h n i q u e s r e l a t e d t o mp e g - 4 s t a n d a r d s 一一a u t o m a t i c v i d e o o b j e c t s e g m e n t a t i o n . a n a p p r o a c h b a s e d o n t e m p o r a l a n d s p a t i o u n i o n i n f o r m a t i o n i s p r o p o s e d . i n s p a t i o d o m a i n , m o r p h o l o g i c a l o p e r a t o r s s u c h a s m o r p h o l o g i c a l fi l t e r s , m o r p h o l o g i c a l g r a d i e n t o p e r a t o r a n d w a t e r s h e d a l g o r i t h m a r e u s e d , m o r p h o l o g i c a l fi l t e r s a r e u s e d t o s i m p l i f y t h e i m a g e , m o r p h o l o g i c a l g r a d i e n t i s u s e d t o m a r k h o m o g e n e o u s r e g i o n s , t h e w a t e r s h e d o p e r a t o r i s u s e d t o d e c i d e s p a t i o b o u n d a r i e s . i n t e m p o r a l s e g me n t a t i o n d o m a i n , t h e i n i t i a l c h a n g e d e t e c t i o n m a s k i s g o t t e n b y u s i n g f - t e s t , t h e n b y c o m b i n i n g i t w i t h t h e r e s u l ti v ab s t r a c t一.一.里 里一巴巴 一巴一巴一里o f s p a t i a l s e g m e n t a t i o n , t h e f i n a l r e s u l t i s g o t t e n . t h e e x p e r i m e n t a l r e s u l t s h o w s t h ee f f e c t i v e n e s s o f t h e m e t h o d : i t c a n s e p a r a t e t h e f o r e g r o u n d f r o m s t i l l o r m o t i o n ,s i m p l e o r c o m p l e x b a c k g r o u n d s a t i s f a c t o r i l y , p r e f e r a b l y l o c a t e a n d s e g m e n t t h e v i d e oo b j e c t .k e y w o r d s t e x t d e t e c t i o n ; t e x t l o c a t i n g ; t e x t t r a c k i n g ; v i d e o o b j e c t s e g m e n t a t i o nv华南理工大学学位论文原创性声明 本人郑重声明:所呈交的论文是本人在导师的指导下独立进行研究所取得的研究成果。除了文中特别加以标注引用的内容外,本论文不包含任何其他个人或集体己经发表或撰写的成果作品。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律后果由本人承担。作者签名:李朝晖奋 令 豁崛)日期: 2 0 0 4年 3月 1 0日学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权华南理工大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。 保密口,在年解密后适用本授权书。 本学位论文属于 不保密网。 ( 请在以上相应方框内打 “ j )作 者 签 名 : 李 朝 晖 涛如 嗯 ) 日 期 : 2 0 0 4 年3 月 1 。 日导师签名日 期 : , 冲 年 今 月 2 日第一章 绪论第一章绪论1 . 1 研究背景 由于多媒体技术的不断更新和发展,通信、计算机与电影、电视等娱乐业迅速融合,对多媒体业务提出了高效率、高交互性等要求,i s o的m p e g系列标准的颁布对信息技术产业产生了深刻影响。 m p e g -1 掀起了v c d 的发展高潮: m p e g -2使人们进入到由模拟电视向数字式高清晰度电视过渡的时代;而 m p e g -4 则能实现人们在个人通信中 “ 闻其声”且 “ 见其人”的愿望;m p e g -7预见到由文本信息时代向多媒体信息时代过渡的必然,其构想的基于内容和语义的多媒体搜索引擎使人们真正置身于随心所欲的多媒体世界。1 . 1 . 1 m p e g - 4 标准: i s o 的m p e g -4 标准 1 4 - 2 2 1 是1 9 9 3 年提出的用于解决多媒体环境下音、 视频高效存储等问题并于 1 9 9 9 正式公布的国际标准. 其设计之初是为了在电话线上传输视频和音频数据,是一个超低比特率运动图像和语音的压缩标准,但是随着研究工作的深入,它所包含的内容和所起的作用己经远远超出了最初的设计思想。由于第一代编码技术( m p e g - 1 , m p e g - 2 , h . 2 6 1 ) 未考虑图像内容只将图像分成固定的块进行处理,未考虑人类视觉系统仅利用信号的统计分析来消除图像内的空间冗余、 利用运动估计和补偿技术来消除图像间的时间冗余, 而m p e g - 4 则采纳了基于对象 ( o b j e c t - b a s e d ) 和基于内容 ( c o n t e n t - b a s e d ) 的编码技术, 被人们称为第二代编码技术,成为m p e g - 4 标准的主要特征, 。 m p e g - 4 结合了人类的视觉系统来进行编码。 人类的视觉系统具有如下几个特点 2 3 1 : ( 1 ) 边缘和轮廓信息对人类视觉系统的贡献很大,影响我们的感知系统;( 2 ) 纹理具有相对重要的特性,与轮廓信息一起影响我们的感知系统;( 3 ) 许多自然物体图像可由许多自相似的集合构成。利用这些特性,m p e g - 4采用基于对象(2 4- 2 6 1 、基于模型2 7 -2 9 ) 、 基于分形的 压缩方法3 0 1其中 基于对象的编码方法是根据 华南理工大学工学博士学位论文.硬一.日 里 一.巴 里 一. 一一图 像内 容把图 像分成 不同 对 象, 其所谓的 对象是 在一个场景中 能 够访问 和操纵的实体, 对象的 划分可以 根据其独特的 纹理、 运动、 形状、 模型和高层语义为依据,将图 像序列中每一帧的场景看成由不同的视频对象平面( v o p ) 组成, 同一对象连续的v o p 称为视频对象( v o ) ,在编码过程中对每个v o 分别编码,将属于同一v o 的v o p 形状、运动、纹理信息,均在一个分开的视频对象层 ( v i d e o o b j e c t l a y e r ,v o l ) 内编码传输, 将标志每一个v o l的相关信息以及在接收端各个v o l 的任意组合和重构完成的原始图像的信息均被包括在码流中, 因而可实现对每个 v o的单独解码,并对视频序列进行灵活的操作。其过程如图 1 - 1 所示。 图 1 - 1 m p e g - 4 视频编码器和解码器的方块图p i 在编码过程中,对不同对象可采用不同的编码策略:对于前景对象采用压缩比较低、 损失较小的办法, 尽可能地保留视频对象的细节并使对象尽可能地平滑,而对人们不太敏感的背景对象,采用压缩比较高、损失比较大的办法进行编码,这样就在压缩效率和解码图像质量间得到较好的平衡。这要求对图像和视频进行更多的分析,甚至是理解。这是一种基于内容的数据压缩方式,同以前的只是去掉帧内和帧间冗余的压缩算法相比,这种基于对象的编码不仅解决了高压缩编码产生的块效应,而且使得对任意形状的对象进行操作成为可能。 基于对象的编码除了能提高数据的压缩比,还能实现基于内容的交互功能,如基于内容的多媒体数据存取、游戏或多媒体家庭编辑、网上购物和电子商店、远程监控、医疗和教学等.这实际上是信息处理的更高阶段,更加向人自身的信息处理方式靠近.因为人的信息处理并不是基于信号的,而是基于一个比较抽象的、 能够直接进行记忆和处理的方式. 如果多媒体数据也能做到基于内容的处理、压缩、存储和传输,这样,人使用起来就更具亲和力,也更简单方便.m p e g - 4 就 第一章 绪论一., . 里 一.巴 一里一. 里 里一.一里是为适应这种发展趋势而制定出来的新一代多媒体压缩标准。 较之m p e g 前两个图像压缩标准而言, m p e g -4 为多媒体数据压缩提供了一个更为广阔的平台,它更多定义的是一种格式和框架,而不是具体的算法.m p e g - 4的出发点就是希望建立起一个更自由的通信与开发环境,人们可以在系统中加入许多新的算法,为用计算机软件做编码、解码提供了更大的方便.它可以将各种各样的多媒体技术充分用于编码中,除包括压缩本身的一些工具、算法,还包括图像分析和合成、计算机视觉、计算机图形、虚拟现实和语音合成等技术.1 . 1 . 2 m p e g - 7 标准: 为了推动 由文本信息时代 向多媒体信息时代的过渡,i s o继 m p e g -1 , 2和4 之后又推出了m p e g - 7 3 1 2 1 , 其正式名称为“ 多媒体内容描述接口”( m u l t i m e d i ac o n t e n t d e s c r i p t i o n i n t e r f a c e ) 。它提出了一种适用于现实生活中的各种多媒体内容的标准化描述方案,这种描述以提取待描述对象的各方面特征为基础,便于人们对所需的多媒体材料进行快速、有效的检索。 m p e g - 7 描述的多媒体己脱离了传统意义的图像、声音、文本的局限,而与现实生活结合更为密切。它所定义的 “ 多媒体”特征十分广泛,包括: 客观特征:反映视听数据本身具备的特性。如对象的颜色、形状、纹理、音频频率等。 主观世界:人对视听数据的主观感知。如对情绪( 快乐、愤怒) 和风格的描述。对事物 / 事件的概括、人的感性色彩、价值取向。 合成信息:各种元素之间的有机结合,以构成一个真正意义上的多媒体演示,如场景合成、编辑信息、用户的喜好等。 概念:用于描述事件和活动等概念。 产品特征 如记录作者、生产者、导演信息等。 除了以上内容的描述,还需要包含其他有关多媒体数据类型的信息,如上下文资料记录的场合,例如 “ 2 0 0 0 年奥运会女子 1 0 。米决赛” 中描述的时间和地点等。 在m p e g -7 中, 人的面部表情、 性格特征以至一段电影的主题思想都是m p e g - 7第一章绪论是为适应这种发展趋势而制定出来的新一代多媒体压缩标准。较之m p e g 前两个图像压缩标准而言,m p e g - - 4 为多媒体数据压缩提供了一个更为广阔的平台,它更多定义的是一种格式和框架,而不是具体的算法m p e g 一4的出发点就是希望建立起一个更自由的通信与开发环境,人们可以在系统中加入许多新的算法,为用计算机软件做编码、解码提供了更大的方便它可以将各种各样的多媒体技术充分用于编码中,除包括压缩本身的一些工具、算法,还包括图像分析和合成、计算机视觉、计算机图形、虚拟现实和语音合成等技术1 1 2m p e g 一7 标准:为了推动由文本信息时代向多媒体信息时代的过渡,i s o 继m p e g 一1 、2 和4 之后又推出了m p e g 一7 ”1 ,其正式名称为“多媒体内容描述接口”( m u l t i m e d i ac o n t e n td e s c r i p t i o ni n t e r f a c e ) 。它提出了一种适用于现实生活中的各种多媒体内容的标准化描述方案,这种描述以提取待描述对象的各方面特征为基础,便于人们对所需的多媒体材料进行快速、有效的检索。m p e g 一7 描述的多媒体己脱离了传统意义的图像、声音、文本的局限,而与现实生活结合更为密切。它所定义的“多媒体”特征十分广泛,包括:客观特征:反映视听数据本身具备的特性。如对象的颜色、形状、纹理、音频频率等。主观世界:人对视听数据的主观感知。如对情绪( 快乐、愤怒) 和风格的描述。对事物事件的概括、人的感性色彩、价值取向。合成信息:各种元素之间的有机结合,以构成一个真正意义上的多媒体演示,如场景合成、编辑信息、用户的喜好等。概念:用于描述事件和活动等概念。产品特征如记录作者、生产者、导演信息等。除了以上内容的描述,还需要包含其他有关多媒体数据类型的信息,如上下文资料记录的场合,例如“2 0 0 0 年奥运会女子1 0 0 米决赛”中描述的时问和地点等。在m p e g 一7 中,人的面部表情、性格特征以至一段电影的主题思想都是m p e g 一73华南理工大学工学博士学位论文中的数据类型之一。为此,m p e g 一7 定义了一个“标准描述符集合”( s t a n d a r ds e to fd e s c r i p t i o n ) 用于描述各种类型的多媒体数据和相应的“描述方案”( d s d e s c r i p t i o ns c h e m e s ) 用于规范多媒体描述符的生成和不同描述符之间的有机联系。这些描述符与所指定的多媒体对象的内容紧密联系,采用提取对象特征的方法为实现基于内容和语义的准确检索提供接口。在此基础上,m p e g 一7 定义了一种新的语言一“描述定义语言”( d d l d e s c r i p t i o nd e f i n i t i o nl a n g u a g e ) 用于指定和生成描述方案。m p e g 一7 所解决的问题是扩展目前有限的内容识别和标识能力,增加更多的数据类型。也就是说,m p e g 一7 指定一系列各种多媒体信息的标准描述子并标准化一些方法,来定义扩展描述子以及描述子结构( 描述方案) 和各种描述子之间的关系。这样,只有当整个描述( 实际上是描述子和描述方案的结合) 和内容直接相关时,i n t e r n e t 上的用户才可以对各种素材进行高速有效的查询。如图卜2 所示是m p e g - 7 的一种抽象表示。其中图中解释了m p e g 一7 在实际系统中的位置。圆角框表示处理工具,矩形框表示静态元素,阴影部分包含m p e g 一7标准的规范元素:d d l 提供建立描述模式的机制,以描述模式为基础,产生一个描述。图1 - 2m p e g 7 应用的一种抽象表示】m p e g 一7 标准范围的高度抽象示意图如图卜3 所示”“。它包括特征抽取( 分析) 、描述本身和搜索引擎( 应用) 。其中标准的描述部分已被标准化了,可根据语义划分为各个不同层次,包括低层次的颜色、纹理、形状轮廓、运动等描述,以及高层次的基于对象或基于内容的语义描述。为了全面开发m p e g 一7 描述的潜力,4第一章绪论自动特征( 或描述子) 的提取是极其有用的。然而,自动提取并不总是可能的,抽象层次越高,自动提取的难度就越大,这时可以采用交互提取工具。但无论是自动的或半自动的提取,都不包括在标准范围之内,而是留有竞争的余地。换句话说,m p e g 一7 标准规定了内容描述的方法,但没有规定如何从原始的多媒体资料中提取内容的方法,从而为不同的应用保留了极大的灵活性。图l 一3m p e g 一7 的范围在与m p e g 其它标准的联系方亟,m p e g 一1 、m p e g 一2 是基于象素的表示,而m p e g - 4提出的基于对象而不是视频帧的表示和编码使得基于内容的应用成为可能。这是m p e g 一4 最重要的创新。而m p e g 一7 则在此基础上更进一步,提出基于语义的表示。m p e g 一4 基于对象( o b j e c t b a s e d ) 的思想与m p e g 一7 的构想非常一致,成为对多媒体数据库中的视频对象进行处理( 包括特征提取、压缩编码) 的基本手段;反之,m p e g 一7 的多媒体内容描述模块对m p e g 一1 、2 起到性能提高和功能扩展的作用。简言之,m p e g 一1 、2 和4 既是m p e g 一7 的工具和手段,亦是m p e g 一7 的应用对象。基于对象和基于语义的有效表示,使得视频内容的互操作上升到一个新的水平。但值得注意的问题是:无论是m p e g 一4 的视频对象提取还是m p e g 一7 基于语义的特征提取,均不包含在m p e g 标准范围之内,而是作为一个开放的环节,有待进一步深入研究。1 。2 课题的研究意义如前所述,m p e g 一4 和m p e g 一7 的提出给人们展示了一个信息量极其丰富的多媒体时代。但无论是m p e g - 4 还是m p e g - 7 ,其定义的更多是一个大概的框架,较少涉及具体的算法和技术,其中的一些关键技术比如m p e g 一4 基于视频对象的提取,m p e g 一7 基于语义特征的分析和提取,目前还很不成熟。涉及到诸如图像和视频处理和分折、计算机视觉、计算机图形学、模式识别、神经网络、心理学、信息论、等前沿学科的交叉,作为开放的部分留待进一步研究。而视频在多媒体中是很常见的一种媒体,是目前信息量最丰富的数据,广泛存在于娱乐业( 如:数字电影、数字广播电视等) 、商业通信( 如视频会议) 、医疗5华南理工大学工学博士学位论文i i i l _ e ! ! j e 目e l ! ! ! s 目_ l - e l ! ! e ! ! ! e ! ! ! j _ - _ e ! ! ! ! ! ! ! ! ! ! ! ! l _ e ! ! ! ! ! ! g ! ! i i e !图像、监视系统等,在日常生活中起着越来越重要的作用。然而,目益庞大的视频数据也带来了个新的问题,即如何检索的问题。因为大多数当前视频数据是以象素的形式来存储和播放的。若没有如制片商、导演、演员、地点位置等附加信息,很难实现基于语义内容的检索( c b r ,c o n t e n t b a s e dr e t r i e v a l ) 。基于内容的视频检索要求在大量的视频数据中根据语义、特征找到所需要的视频片断,语义特征包括节目类型( 连续剧、电影、体育等) 、地点位置、人物( 政治家、电影明星、连续剧演员等) 、活动( 跑步、大笑、谈话、辩论等) 等。这与m i ,e g 一7提出的基于语义的表示非常一致。它的用途非常广泛,包括新闻视频信息的检索,各类比赛节目、卫星云图变化情况的检索等等。目前,基于内容的视频检索( c b v r ,c o n t e n t b a s e dv i d e or e t r i e v a l ) 正成为研究的热点。但由于视频内容繁多且复杂,对视频的语义检索目前仍然十分困难,其主要的难点之一是如何提取视频中的语义特征。对于静止的图象捡索,有不少研究者进行了大量的研究。第一个图像检索系统起源于1 9 8 0 年,n 一s c h h a n g 和k 一s f u 基于l a n b s a t 图像库建立了一个关系型数据库【”1 ,引入了图解示例查询( q u e r y b y p i c t o r i a l e x a m p l e ,q p e ) 的初始概念,后来发展成著名的示例查询( q u e r y b y e x a m p l e ,q b e ) 。此后,基于内容的视觉信息检索系统得以迅速发展。在已实现的基于内容的图像检索系统中,i b m 的q b i c 计划便是其中引人注意的一个,它通过友好的图形界面提供了多种检索方法。美加州大学伯克利分校( u ,c b e r k l e y ) 与加州水资源部( d w r ,s t a t eo fc a l i f o r n i ad e p a r t m e n to fw a t e rr e s o u r o e s ) 合作进行了c h a b o t 计划,以便对水资源部的大量图像提供基于内容检索的有效手段。此外,麻省理工学院( m i t ) 、纽约州立大学布法罗分校( s u n y ,s t a t eu n i v e r s i t yo f n e wy o r k ,b a f f u l o ) 等以及其他研究机构都有类似的计划在进行之中。以上基于内容的图象检索中,通过提取用于检索的特征如颜色( c o l o r ) 、纹理( t e x t u r e ) 、形状( s h a p e ) 等,通过特征的相似性程度来进行浏览和检索。然而,由于视频内容繁多且复杂,并且随时间动态变化,基于内容的视频检索与基于内容的图像检索方法在很大程度上不同,其特征很难用一般的静态特征来描述。而且,即使能用底层的特征如颜色、纹理、形状、运动等来描述,由于设计者需要事先抽取对象期望的几何、形状、纹理、颜色等特征,然后与用户所描述的特征进行匹配,这就要求用户了解相关的内部机制并能较好地估计特征值,这给用户增加了使用的难度,况且设计者事先抽取的特征并不一定适合种类繁多的不同视频源的要求,从而给基于视频内容的检索带来很大困难。因此,单纯利用底层的视频内容,诸如颜色、纹理、形状、运动等特征,目前还很难实现纂于内容、基于语义的视频检索,需要寻找一种更直接的方式,为基于内容、基于语义的视频检索提供索引。6第一章 绪论 视频数据中的文本对视频流提供了高度概括的语义,比如视频新闻报道中的字幕一般都概括叙述了所报道新闻发生的时间、地点、人物和主要事件等重要信息;故事片中字幕中的人物对话提供了重要的主题信息:景物中的街道路牌、商店名称等提供了事件发生的地理位置信息;在体育节目中,运动员衬衫上的文字可用来识别和跟踪运动对象等,这是单靠底层特征如颜色、纹理、形状、运动特征等很难表达的。此外,视频文本还具有意义明确的特点,图像和视频数据对不同的人具有不同的感知效果,而文本信息则不然,很少对不同的人产生歧义,而且使用文本信息查询,不需要对使用者进行专门培训。因而,利用视频文本所提供的语义信息,可实现基于语义视频的浏览和检索,这对视频的分析和理解发挥重要作用。此外,文本检测还在其他方面,比如:工业自动化中的零件辨识、车牌检测系统以及技术文献处理中的版面分析等方面,都有着重要的应用。然而,如果采用视频检索的传统方法,从视频中用人工方法提取出文本信息 ( 如标题、关键词等等),然后基于这 一 关键字集上回答用户的查询。这种用人工的方法需要花费大量的时间,效率低、极其烦琐,且主观性强。这在实际应用上是不现实的。因而,如何自动地从视频数据中检测和提取文本,在基于内容的语义视频检索中有着重要的意义。 然而,视频文本的检测和抽取是一件具有挑战性的事情 1 0 7 3 。首先,视频文本嵌入在复

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论