(模式识别与智能系统专业论文)基于估计学习模型的视频分析与内容表征研究.pdf_第1页
(模式识别与智能系统专业论文)基于估计学习模型的视频分析与内容表征研究.pdf_第2页
(模式识别与智能系统专业论文)基于估计学习模型的视频分析与内容表征研究.pdf_第3页
(模式识别与智能系统专业论文)基于估计学习模型的视频分析与内容表征研究.pdf_第4页
(模式识别与智能系统专业论文)基于估计学习模型的视频分析与内容表征研究.pdf_第5页
已阅读5页,还剩54页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中田科学技术大学硕士论文 摘要 随着数字摄录设备的发展和影像技术的进步,在越来越多的场合下,人们开始使用视频摄 像设备来记录相关的经历和场景,如家用视频、影视媒体、视频监控等,因此各种类型的视频 数据量呈现出快速增长的趋势同时,伴随着同络搜索技术的发展,越来越多的研究人员也在 积极探索更加鲁棒和高效的面向图像和视频的搜索引擎,来提高搜索的精度和效率但是,由 于视频数据量大、空间维数高,而且内容多样,因此视频分析和内容表征已经成为了一个重要 的研究课题基于估计学习模型的视频分析和内容表征技术,就是针对不同类型的视频序列, 利用图像处理知识和估计学习方法,实施物体和区域分割、识别,并在此基础上,分析图像中 的内容和事件,最终将其以一种紧凑、直观和艺术化的形式将视频内容呈现出来。该技术涉及 到计算机视觉、信号处理和模式识别等多个领域和学科,是一个新的交叉应用学科随着计算 机技术的发展,视频分析和内容表征在视频监控、可视化媒体、网络搜索等领域的应用将更加 广泛信号处理,尤其是图像处理以及估计学习方法的研究还有助于推动视频领域的机器学习、 语义建模和事件检测等相关课题的发展由此可见,基于估计学习模型的视频分析和内容表征 方法研究具有重要的理论和应用价值 视频分析和内容表征可以从其关键问题和处理流程上分为三个层次。即物体识别、内容理 解和内容表征,目标是实现一个自动识别、理解和表征的视频处理系统对于结构化的视频分 析,物体识别是一个基本步骤内容理解主要解决对视频内容中的物体识别得到的语义概念进 行建模。处于较高的层次而内容表征则是基于物体识别和内容理解的结果,它处于最高的层 扶这三个层次组成了视频分析和内容表征的一个相对完整的框架 本论文主要包含如下内容: 1 系统阐述了视频分析和内容表征的基础知识,讨论了视频图像处理、估计学习理论和视 频结构分析的基本原理和方法,并且对国内外相关研究工作进行了系统的概述 2 针对第一个层次,即物体识别,研究了基于局域灰度分布的背景建模方法,从图像处理 的角度入手,基于局域灰度分布建立背景的离散概率模型,根据机器学习理论和参数估计方法, 可以对各种场景下的背景进行建模和更新,从而提取和识别出运动物体 3 结合第一个层次和第二个层次,着重从视频物体分割理解的目的出发,介绍了基于无偏 卡尔曼滤波器模型的运动分割方法,包括基本线性卡尔曼滤波器模型、扩展卡尔曼滤波器模型 以及无偏卡尔曼滤波器模型,设计参数估计算法,还介绍了在运动分割中如何对阴影区域建模 和检铡。为在视频序列中快速准确的分割运动物体和理解视频内容奠定了基础 v 中国科学技术大学硕士论文 a b s t r a c t w i t ht h er a p i da d o v ( i o no f c o n s l l l n e rd i g i t a lr e c o r d e a ba n dd e v c l o p m e n to f t e e l m o l o g yo f d i g i 协i i n l a g ca n dv i d e o ,i nn l o l ca n dm o s i t u a t i o n s p e o p l eh 毽mt ol j s cd i g i t a ld e v i c e st oe a p t u r ea n d d o c u m e n te x p c r i e c c sa n d9 m 鹤a ss p p l i e a t i o n , s u c ha sh o m ov i d e o , v i d e om e d i a , v i d e os a n v e - i l l n n c e a n ds oo n , s ot h eq u a n t i t yo f v a r i o u st y p e so f v i d e od a t ai st c r c a s i n g 出锄n 胡c a i l 弘i nt h e $ a 1 1 1 et i n 坞 1 0a s s o c i a t e w i t h t h e t r e n d so f d e v e l o p m c l t to f i n t e m c ts e a r c h t e c h n i q u e s , m o l ea n d m o l er e l r e l m s a 聆t r y i n gt h e i rb 鳅t oe x p l o r ea n dp r o d u c n l o r cr o b u s ta n de f f i c i e n t 靼岫e n g i n e , f o c u s i n go n j m a g ca n dv i d e os e a r c h , t oi m p r o v et h ea c c u r a c ya n de f l f i e i d l e yo fm u l t i m e d i a 砒i - i o w c v c i , m i 出她t l a ol a r g em o u n to fv i d e od a 切,h i g hd i m e n s i o no fv i d e od a t aa n dv a r i a n c eo fv i d e o e o n m l t , t h el - i ,l e s r c ho nv i d e o d a m a t n ga n dc o n t e n tr e l 鹏s 倒删衄h a sb c c , o m e 姐i m p o r t a n t i l l s l l e v i d e ou n d e r s t a n d i n ga n dc o n t e n tl p r e s e n t a f i o nt e e l a n o l o g yi s , f o rd i f f e r e n tt y p 璐o fv i d e o s e q u e n c e s ,b a s e do n m ec o n s t r a i n t sa n dc r i t e r i o n s , t os e g m e n ta n d 托粤:l i z co b j e a sa n dr e g i o r t s t h e r lb a s e d s u c hr e s u l t s i ta n a l y z e st b ec o n t e n ta n de v e n to fv i d e o s a n df i n a l l y , 峙v i d e oi s r e p r e s 蜘t e c lb yac o m p a c t i n t u i t i o n i s t i ca n da l t i 蚯cl a y o u t s u c ht o p i cc o m b i n e sk n o w l e d g ef r o m m a n y 嘲sa n dd i s c i p l i n e ss l l d i c o m p u t e rv i s i o n s i g n a l 珥“熘i n ga n dl m t t e a r e c o 鲥t i o n t y p i c a l l ya s 锄i n t c c d i s e i p l i n a r ya p p l i c a t i o nt o p i c a st h ee o m p l a c rt e c h n o l o g ye v o l v e sq u i c k l y , 枷m a p p l i e a t i o mo fv i d e ou n d e r s t a n d i n ga n dc o n t a l t 旭p r 髓部枷锄b ef o u n di nt i e l d so fv i d e o s u r v e i l l a n c e , m c d i s , v i s u a l i z a t i o na n dl m e m e ts e a r c h v i d e ot , n d e r a a d i n ga n dc o n i tr e p r e s e i a l a t i o n r e s e a r e l ac 姐a l s oe n l l a n e et h ed e v c l o p m e n to f - e l 砒e di s s u e si nv i d e ot l m o l o g y , s u c ha ss c l n a n l j c m , x l c t i 咯m a c h i n el e a r n i n ga n di n f o r m a t i o nr e t r i e v a l l 铡o r e , t h er c n - e l ao nm e t h o d so f v i d e o 蛐d i g a n de o n t tr e p r o n t a t i o nh a sb o t hi m p o r t a n tt h e o r e t i e a la n da p p l i e dv a l u e s t h i sl t a e s i si n v e s t i g a t e st h ek e y1 ) r o b l c m so fv i d e ou a 懿t a n d i a ga n dc o n t e n tn t a t i o na t t h r e e d i t t 研e n t l e v e l s i ns c q u o n e e :o b j tr o g n i ( i o n , c o n t c l 吐删l d 留蛐m d i n g a n d c 嘲吐糟p i 鹤酬曲五o a a i m i n ga tt h ei m p l e m e n t a t i o no fav i d e o 弘口站j 1 坞3 y s t 锄f o ra t o - r c c o g n i t i o n 哪l d a 鳓砌n g 拙d r e p r e s e n t a t i o n f o rt h e 蛐卫d i 删v i d e oa n a l y s i s , o l , j e c tr e c o g n i t i o ni st b ef t m d a m e n t a ls t c p c o n t e n t u n a c r s u m d i n ge n a b l e sm o i l i n go f m a l i i i ce o e e g t sa tah i g h e rl c v d , b a s e do i lt h er e s u l t sf r o mt h e o b j e c tr e c o g n i t i o n 船i n p u tc o n t e n t 珥髓吲e o r 娲p o n d st ot h eh i g h e s ta p p l i c a t i o nl e v e lt i i 砒 c 锄p r o v i d eac o m p a c ta n de f f i c i e n t 糊t s f i o no fv i d e oc o n t e n tt r e e d0 1 1 o u t c o m t ! sf r o mo l , j e c t r e c o g n i t i o na n d 伽删枷恤1 d 豇吼a n d i l i 参a sar e s u l t , t h e s e 缸ec o m p o n e 曲b u i l dl 巾ar e l a t i v e l y e o m p r e h e m i v ef r a r a e w o r kf o rv i d e ou n d e r s t a l 她a n dc o n 眦删t a t i o n n l i st l a c s i si n c l u d e s : 1 i n t r o d u e ct h eb 矗s i ct o n e o i l so fv k l e o 埘l d 靠武咖m n ga n dc o n t c 虹tr e p r e s e n t a t i o n 出s 伽b 蝤 f u n d a m e - l l t a l so fi m a g e v i d e op r o a m i 8 e 鲥i l n 砒i a n dl 础r n i n gm 甜a o d s , 鹄w e l li t sv i d e o 剐n 扯咖a n a l y s i s a n d 加a k e sag e n e r a l i z e do v e r v i e wo f r e l a t e dw o r k s 中国科学技术大学硕士论文 2 r e s e a r c h0 9t h eb a c k g r o u n dm o d e l i n gb a s e do i ll o c a lg r a yd i s t r i b m i o na c c o r d i n go nt h el o c a l g r a yd i s t r i b u t i o n , c o n s t r u c tt h ep r o b a b i l l s t i cp e r a m e t r i cm o d e lf o rb a c k g r o u n d , a n de s t i m a t et h e m o d e lp a r m n e t e r so fd i s c r e t ep r o b a b i l l s t i cm o d e ls i m i l a rt ot h eg a e s s i a nm i x t o r em o d e l b a s e d o l lt h e s em o d e l sa n dm a c h i n el e a m i n ga p p r o a c h , u l d 啦b a c l 喀r o n n di nv a l i o t l s 爆t o5 1 1 b t r a 璇 a n dr e c o p t z em o t i o no b j e a s 3 i n t r o d u c e m o t i o n 踺掣n c m d 姐m e t h o d s b a s e d o n u n s c e n t e d k a l m a n f i l t e r , m c l u d i l l g b a s i c l i n e a f k a h n a nf i l t e r , e x t e n d e dk a h m nf i l t e ra n du n s c e n t e dk a l m a nf i t o r i na d d i t i o n ,t h es h a d o w m o d e la n dd e t e c t i o ni sa l s oe x p l o r e di nm o t i o ns e g m e n t a t i o n , w h i c hi st h eb a s i sf o rf a s ta n d a c c u r a t e 删e 吐s e g m e n t a t i o ni nv i d e o 转q i l 朋o c 4 。p r o p o s ean o v e lv i d e oc o n t e n tr e p r e s e n t a t i o ns c l l 锄e 、厅d c o l l a g eb a s e d0 9v i d e os 舡u c t u r e a n a l y s i sa n dc o m p e e rg r a p h i c s , w h i c hi su s e df o rh 觑埘s 6 ce n e r g ym i n i m i z a t i o n , t oo b t a i nt h e s a t i s f i e dc o n t e l l ts m m n a r i z a t i o na n da x 管嚣e 娅c a 妇r e s u r f u r t h e r m o r e , an l o t 皂r e m o n a b l ea n d r o b u s tm d h o d sf r o mm a r k o vc h a i nm o n t ec a r l oa n db a y e s i a na p p r o a c hi si n u o d u c e df o rg i o b m o p t i m i z a t i o n t os o l v e t h e k e y p r o b l e m s i n v i d e o c o l l a g e 5 r e s e a r c ho nf a s tv i d e os t a b i l i z a t i o na l g o r i t h mb yi m a g ef e a t t w ea n da f l i n em o d e l c o m b i n e dw i t h g l o b a la n dl o c a lm o t i o ne 懿i m 砒i o na n df e m e r er e g i o nm m l y s l s ,t h es e q u e n c ec a nb es t a b i l i z e d v e r ye f f i c i e n t l y c o m p a r e dw i t ho t h e ra p p r o a c h e s t h i sm e t h o dh a so b v i o u s l yi m p r o v e m e n t s , w h i c hc a na l s ob ea p p l i e di nv i d e os u r v e i l l a n c e , v e h i c l ed e s i g na n ds oo i l k e y w o r d s :v i d e o u n d e r s t a n d i n g , c o n t e n tr e p r e s e n t a t i o n , m o t i o ns e g m e n t a t i o n , i m a g es t a b i l i z a t i o n 中国科学技术大学学位论文相关声明 本人声明所呈交的学位论文,是本人在导师指导下进行研究 工作所取得的成果。除已特别加以标注和致谢的地方外,论文中 不包含任何他人已经发表或撰写过的研究成果。与我一同工作的 同志对本研究所做的贡献均已在论文中作了明确的说明。 本人授权中国科学技术大学拥有学位论文的部分使用权, l l p :学校有权按有关规定向国家有关部门或机构送交论文的复印 件和电子版,允许论文被查阅和借阅,可以将学位论文编入有关 数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、 汇编学位论文。 保密的学位论文在解密后也遵守此规定。 作者签名:赴 晰哆上僻5 月1 日 中厦科学技术大学硕士沦文 致谢 在本篇硕士学位论文完成之际,向所有关心支持我的老师、同学和朋友表示诚挚的瘟谢l 首先要感谢所有的老师们,他们多年的教导为我打下了坚实的基础,在此特别感谢我的导 师周荷琴教授她为我提供了优越的工作条件和良好的学术研究环境,在她悉心的指导和亲切 关怀下,我顺利的完成了硕士论文的工作周老师宽广深厚的学识,严谨的治学态度,献身科 研和教育事业的忘我精神以及对工作的一丝不苟的态度将使我终身受益 感谢信息工程实验室的全体同学,和大家相处的三年中我们在学业上共同进步,在生活 上相互关心,度过了很多茭好快乐的时光特别感谢刘勃博士、梅涛博士、王继康博士、严捷 丰、陈功,徐雪、刘学亮等等报高兴能向你们讨教学术问题,以及刘芷敏、武海澄、谌家喜, 很高兴能和你们一起共同工作学习 我还要感谢s a 0 4 1 0 的所有同学,三年来的朝夕相处,共同学习,共同进步,这必将成为我 们共同的美好回忆特别感谢我的室友徐雪、程新策、张真波,谢谢大家在生活和学习上给予 我的关心和支持 最后,特别感谢支持我的家人,以及所有关心和帮助过我的肘友们,他们始终如一的支持 和鼓励才使得本论文顺利完成 i v q , r a 科学技术大学硕士论文 第一章绪论 第一章绪论 随着数据获取、传输和存储技术的快速发展,多媒体数据,尤其是视频,在家用、教育、 监控、商业和娱乐等领域越来越普及为了实现对视频数据的分析、描述、组织和管理,视频 分析和内容表征研究由此而来,因此视频分析和内容表征已经成为了一个重要的研究课题基 于估计学习模型的视频分析和内容表征技术。就是针对不同类型的视频序列,利用图像处理知 识和估计学习方法,实施物体和区域分割、识别,并在此基础上,分析图像中的内容和事件, 最终将其以一种紧凑、直观和艺术化的形式将视频内容呈现出来 1 1 研究意义 近年来,随着计算机视觉,模式识别,尤其是机器学习理论的发展。越来越多的研究者将 注意力集中于借助统计方法,提出和改进传统的概率模型和学习算法o i 同时,在计算机视觉 领域,尤其是在运动提取与分割的过程中,从信号处理的角度出发,参数估计方法也已成为目 前盼研究热点之一曲从理论创新出发,本论文的主要精力将集中- t - e 提出的新的视频背景模 型下,从统计学习的机制。改进传统的参数学习方法同时,本论文从原理角度,分析和改进 了机器学习中的模型,以此得到更好的视频中的运动物体分割对于视频背景和运动分割的研 究在当前也具有实际的应用意义在智能监控、智能交通等重要应用领域c 习,实时而准确的背 景建模和运动分割是系统正常工作的首要保证。同时也是系统中的技术关键之一 随着计算机视觉、图像处理等相关理论的完善和发展,多媒体计算研究也正在全世界范围 内成为新的研究热点,尤其是对于视频内容分析的理论、视频表征方法的研究 4 1 综合图像和 视频技术、心理学方法以及媒体科学等研究成果,已经形成了蓥套视频结构分析、内容解析、 视频融合等成熟理论本论文将在此基础上。提出一种新的视频表征方法,从图像处理基础, 来研究视频的内容和结构,并进行视频表征从当前的应用角度分析,视频内容分析和表征已 经逐步应用于网络搜索 5 1 、视频相册1 6 1 等业界产品 1 2 国内外研究现状 目前,对于视频处理和分析,从计算机视觉的原理,主要研究的课题包括:背景建模和提 取硼、目标识别和分类阴、运动分割f ”、鼹踪“”以及事件行为检测“而在整个研究过程中, 背景建模作为所有后续处理的前提和关键,越来越受到更多的关注背景提取是当前机器视觉 研究领域的首要任务背景提取步骤的输出可以作为后续高层处理的输入,如跟踪等。同时, 背景提取的性能关键依赖于背景模型的建立,尤其在普通的自然场景中,背景建模面临着很多 中田科学技术大学硕士论文第一章绪论 挑战,如光照的变化、背景的多模态性以及阴影等诸多干扰因素同时,鲁槔的背景建模方法 还应能够处理动态背景,如运动物体融入背景或背景物体转化为运动。在此情况下,能及时准 确的原踪背景变化更重要的是,运动物体的阴影也会影响到背景的提取为了保证系统的实 时性,背景提取还需要达到一定的计算效率对于背景提取的方法文献中已经给出了很多成 熟有效的方法:( 1 ) 从对单个象素值建模的角度,文瓤【1 3 】提出利用卡尔曼滤波模型,可以适 应光照的变化,但是该模型不能解决动态背景的更新问题;文献【1 4 】采用了非常通行的高斯假 设,认为视频中的每一个象素值都遵循高斯分布,并采用帧间平均的方法,得到均值和方差; 为了解决多模态的背景建模问题,鼬耐静叩借助于混合高斯模型,为每个独立的象素值建立一 个带有相应权值的混合高斯模型,这种模型非常有助子解决类似于树木、旗帜的摆动和水面的 波动引起的多模态背景此类模型中的参数估计可以采用增量最大( e x p e c t a t i o nl t a x j m l m l ,e m ) 方法求解;( 2 ) 除对单一象素值建模的方法外,还可以对图像中的整体区域建模,包括区域的 纹理特征和边界特征等文献【s 1 采用图像局部区域的纹理特征( l o c a lb i n a r yp a t t e 瓶,l b p ) 。 并对l b p 建立相应的混合概率模型,采用监督学习的方法进行参数估计和判决,最终得到背景; 文献 1 5 1 则从图像区域边界的角度分析背景模型,通过将连续视频中的第一帧划分为大小均等 的图像块,并计算每个图像块边界的直方图,并为这些边界直方图建立相应的概率分布模型, 从而可以提取出背景;c 3 ) 除了可以以视频中的单幅图像作为研究对象外还可以从视频对应 的图像序列入手,通过随机过程的转移概率关系,分析和建立相应的背景模型在文献【1 6 】中, 利用隐马尔可夫过程来对背景过程建模,序列中的每个时刻被认为是随机过程中对应于场景模 态的某个状态,这些状态可以根据场景的复杂程度来预先指定 直方图具有抵抗旋转等重要特性,并且运算简单,快速,符合运动检测的实时性要求耗 n u n u n k l r o 等人将色彩直方圈用于运动物体跟踪p 2 。剜。本论文在此基础上,提出了一种基于局域 灰度分布的自适应运动检测算法,从图像直方图思想出发,借助于局域的灰度分布来反映图像 块自身的特征,并构造相应的离散概率模型来适应具有多个模态的背景,采用自适应的模型参 数更新方法实验表明,在多模态背景、动态背景,光照变化以及遮挡情况下。该算法都能准 确的提取运动物体,并且初始化过程快,对每帧的处理时间短,能够满足实时性的要求 视频图像中的运动物体分割,作为计算机视觉研究领域的又一热点问题,对于视频分析和 理解也有着非常重要的意义,比如在视频监控、视频检索、人机交互等应用中。正确而高效的 运动分割将有助于提高物体跟踪、识别、分类和行为分析的性能运动分割中的关键问题是: ( 1 ) 背景建模和运动物体的提取,这是整个运动分割过程的首要步骤,也是关键之一对于这 个部分,前面已经对当前的研究现状进行了详细的介绍;( 2 ) 运动物体分类,即将提取的运动 物体,按照预先定义的准则或者通过学习方法,将提取出的物体分成不同的类别,文献【l7 】提 出了一种基于单目图像序列的车辆检测和分类算法,分别从三个不同的层次进行处理:原始图 2 中田科学技术大学硕士论文 第一章绪论 像层次、区域层次和车辆层次这种算法是基于区域与车辆位置之间的关联行和车辆在序列中 运动的特性提出的;( 3 ) 阴影检测,在运动分割的过程中,阴影是一个非常重要的考虑因素 目翦,主要的解决方法是从阴影区域的图像特征入手,将其加以区分,从其颜色特征和灰度特 征,文献【1 8 】从r 、g 、b 在色彩空间的分布和区域灰度分布特性,来确定阴影区域 视频序列中的运动物体分割是许多计算机视觉和视频分析应用中的基础任务,如视频监控 【,5 j q ,多媒体索引”。感知人机交互等准确而实时的运动分割将极大的提高物体跟踪、识别、 分类和行为分析的性能在运动分割过程中,背景提取被认为是关键的步骤而背景提取的质 量很大程度上又依赖于背景建模的方法和性能尤其是在自然场景中,很多动态条件给背景建 模带来了挑战,如光照的变化、恶劣的天气状况等一种鲁棒的背景建模算法应该能够处理各 种情形,包括:新的物体引入背景和原先的背景物体消失同时,在运动分割过程中,还必须 能够检测和分割出阴影区域,从而去除阴影对运动物体识别的干扰而且即使是在完全静态的 场景中,相邻帧之间也会由于噪声和摄像机的抖动产生一定的背景变化 已经有很多学者在文献中提出了检测运动物体的方法其中最为常见的是对于象素点灰度 值的分析一种常见的方法是对视频帧中的每个象素值赋以高斯分布模型这种假设对于许多 背景提取算法都是有效的可以通过一种简单的方法,计算出场景的均值图像,然后将视频序 列中的每帧图像与之进行消减,并用一定的阈值对结果过滤,从而可以分割出运动。为了提高 算法的自适应性。需要采用一种自适应的滤波器来递归更新和调整模型中的参数,包括均值和 方差嗍但是在动态自然场景下,先前的模型假设并不能很好的发挥作用通过为每一个象素 点,运用多维高斯分布,我们就可以处理这种复杂的动态场景川,每一个象素值可以用带有相 应权值的混合高斯分布组合来建模。而这些权值则表示对应的分量属于该模型的归属度混合 高斯模型参数的自适应估计可以通过增量最大算法,即e m 算法实现 然而,对于象素值,高斯分布的假设也并不是总是成立的。为了能够处理这种参数方法的 局限性,有学者提出了一种用来建模背景的非参数方法嗍该方法利用一种非参数核函数密估 计方法来建立场景模型的统计表征这种针对单个象素点的概率密度函数可以直接通过数据来 估计,而不需要依据任何模型分布特征的假设 此外,每一个图像中的象索值也可以通过卡尔曼滤波模型来建模删算法可以适应场景中 的光照变化,但是对于复杂的动态场景仍然存在一定问题。这种方法已经在自动交通监控中 得到应用【1 3 】除此之外。动态的纹理背景也可以通过a 】强n 模型来建模一种鲁棒的卡尔曼滤 波算法可以用来递归估计动态纹理和运动物体的内在形态 目前,对于视频内容分析与表征的研究,正在处于飞速发展和不断创新的时期当前,对 于该课题的研究热点主要集中在以下几个主要方面:( 1 ) 基于内容分析的视频内容表征和归纳, 该研究旨在通过分析视频中的主要情节和内容,并提取相应的表征分量,从而实现对视频的归 3 中国科学技术大学硕士论文 第一章绪论 纳动a f 培在文献f 4 】中给出了基于视频内容分析的解决方案和框架。文献同通过分析视频内容, 提取出最能反映视频内容和故事情节的图像序列,作为视频归纳同时,在视频袭征的过程中, 用户可以选择合适的背景和模板,将这些视频序列予以展现;( 2 ) 视频标记,通过设计相应的 分类器和学习算法,实现对视频内窖的自动标记,从而可以实现视频检索在文献【7 1 中,作者 提出了一种全新的核函数分类器。并采取相应的半监督学习策略。对视频内容进行学习,从而 实现自动视频标记;( 3 ) 视频内容分析,从计算机视觉和视频处理的角度,从图像中分析提取 出能够表征故事情节、事件和重要性的参数,并采用一定的学习燕喀,从而形成对视频内容的 定义当然这样的特定定义。可以是量化的对于内容表征度的溯量或是对于场景或事件的定义 具有代表性的如文献1 2 0 提出的基于注意力模型的视频内容分析和表征方法,综合分析摄像机 运动参数、局部运动矢量、色彩和分辨率信息等,对视频内容进行表征 随着数字摄像器材的普及,近些年来,多媒体数据量飞速增长在多媒体计算领域,对于 高效的视频数据浏览,所需要的一项关键技术就是视频表征但是,如何高效而准确的表征隐 藏在视频当中的内容数据,同时去除足够多的冗余数据,仍然是一个很大的挑战 一个好的视频表征不仅能够有效的归纳视频内容,同时还需要具有出色的视觉效果和紧凑 的表现形式为了达到这一目标,已经有很多研究人员在此问题上进行了富有成效的探索由 微软亚洲研究院华先胜等 6 1 提出的视频书签系统,从视频序列中选取并产生一个微缩图像集, 然后将它们以多种模式打印在预先设定的模板画扳上。尽管非常引人注目,但是这种预先定义 的书签模板通常缺乏紧凑的轮廓,因为视频书签的重点是支持艺术化的模板的个性化的表达 另一种高度密集的视频归纳技术是在文献 4 3 1 0 0 提出的染色玻璃可视化技术在该系统中具 有感兴趣区域的关键帧被放置和展现为一组形状不规则并具有可视化的染色玻璃效果尽管它 具有紧凑的外观轮廓,但是可视化的染色玻璃,由于形状的不规则和图片之问过渡的不平滑, 仍然无法达到视觉的美观性在文献t 4 4 1 中,y e u n g 等提出了一种对于视频内容的图片型归纳方 法该技术按照时间线的顺序组织视频序列中的关键帧展板来表达视频内容和内在情节每一 个视频展板都是幅图像,该图像用来归纳在事件单元中的故事情节视频快厢h ”,作为一种紧 凑的静态视频归纳方案,集成了系列的视频内容分析方法,如注意力模型、图像质量分析、 视频结构化以及信息检索和可视化技术来支持这种高效的视频图片归纳然而,无论是图片归 纳型还是快照型。它们都缺乏合适的视频表征轮廓换句话说,视频内容的时域结构无法得到 很好的保留,这将会导致低效率的浏览和对整个视频内容的理解 在交通监控中摄像机通常安装在路边的立柱、跨线龙门架或者桥粱、高楼等建筑物上, 容易受到各种户外干扰警如,当风力达到一定量级,或者有载重车辆从附近经过时,会使摄 像机跟随其安装支持物一起震动,导致监控视频的不稳定更为重要的是,随着图像处理与模 式识别技术的发展,监控系统还承担着各种交通信息数据的采集任务,如不经适当处理,不稳 4 中国科学技术大学硕士论文 第一章绪论 定图像产生的干扰误差将会在后期应用处理( 如车速估计、运动分割、事件检测等) 中进一步 传递扩散因此,图像稳定系统( i m a g es t a b i l i z a t i o ns y s t e m ,i s s ) 已经成为监控应用中必不可 少的组成部分 一个良好的图像稳定算法应该能够有效的过滤掉动态环境引起的摄像机干扰运动,校正恢 复出原圈像,并在算法速度上满足实时需要目前图像稳定系统的研究主要围绕着它涉及的两 个关键技术:运动估计与判别算法,运动校正算法在运动估计与判别方面,文献 5 2 1 采用基 于特征点的算法在相邻两帧闻进行特征点匹配这类方法简单易行,在场景变化轻微情况下能 获得很好的效果,但缺陷在于它依赖于精确的图像特征检测算法,当图像特征缺少时窖易失败。 且由于特征点包含的整体运动信息有限,运动判别较难,必须人工干涉或借助卡尔曼潞波等时 域算法,这会引入需要人工设定的经验参数和运算延时文献 5 3 ,5 8 ) 采用标准块匹配技术来进 行运动估计,可以直接利用视频编解码的处理结果,加强了和其他图像处理模块的通用集成性 但也增加了后期处理的计算复杂度,每两帧之间都需要通过空间纹理、矢量捧序、时域滤波等 手段来判别并优选运动矢量在运动校正方面。主要着眼于构建合理的摄像机运动模型和快速 的模型参数求解方法虽然文献 5 2 , 5 3 ,5 8 】的模型求解过程相对简单,但文献【5 2 】中的模型有8 个参数,文献 5 3 。5 3 1 中模型也有6 个参数,面参数的个数是影响算法性能的重要因素文献 5 5 】 中的模型虽然只有5 个参数,但其求解过程需要傲复杂的光流计算 1 3 内容安排 视频分析和内容表征是一项应用性很强的基础科学研究,本论文工作是基于计算机视觉、 信号处理和模式识别理论,结合视频结构分析,主要研究视频中的运动分割、内容理解和表征 本论文主要涉及的研究领域包括计算机视觉中的2 维和3 维图像识别,图像特征描述:包括边界 特征、区域纹理特征等,模式识别和机器学习:包括混合高斯模型、直方图概率模型、贝叶斯 最大后验判决,信号处理t 扩展和无偏卡尔曼滤波、信号和参数估计,以及基于注意力模型的 视频内容评价分析、视频结构归纳和表征相应涉及到的理论基础包括:随机过程、信号处理、 概率论和数理统计和模式识别论文的结构和内容大致上是这样安捧的t 第一章绪论对视频分析和内容表征做了一个整体的概括,分析了视频分析和内容表征在当前 多媒体技术颁域的必然性和重要性,介绍了视频分析和内容表征的意义和国内外的研究 现状 第二章视频分析和内容表征研究基础介绍了用于视频分析和内容表征的基础知识,包括:视 频图像处理基础,估计学习理论,视频内容分析和理解等。以及二维和三维图像模型 5 中田科学技术大学磺士论文第一章绪论 第三章基于局域灰度分布的背景建模方法采用局域灰度分布特征,结合类似混合高斯方法, 构造相应的离散概率模型,并采用自适应的参数估计和更新算法,从而实现对背景的建 模和提取: 第四章一种新的准确实时的运动分割算法基于线性卡尔曼滤波器模型,提出一种无偏卡尔曼 滤波器模型的运动分割算法,同时结合阴影检测,实现鲁棒而高效的运动分割 第五章一种全新的视频内容表征技术一视频拼图将内容表征问题表述为一个能量优化问 题,并从视频结构分析着眼,结合计算机图像学图像拼接方法,最终生成出视频拼图, 实现对视频内容的归纳和表征 第六章基于特征提取和运动判别的快速图像稳定分别提取和分析全局以及局部运动估计。并 选取特征区域。结合三维仿射模型,进行运动判别,运用最小二值法,实现图像序列的 快速稳定 第七章总结与展望对本论文的工作进行了总结,并对视频分析和内容表征的下一步应用进行 了展望相信随着这些方面的研究工作的深入开展,视频分析和内容表征技术必将获得 长足的进步,l :上达到实用的目的 6 中国科学技术大学硕士论文第二章视频分析与内容表征研究基础 第二章视频分析与内容表征研究基础 本章主要介绍在视频分析和表征研究中的一些基础性知识,包括图像处理基本概念和方法, 估计学习的理论以及视频结构内容分析的概念和方法 2 1 视频处理基础理论 2 1 1 数字视频技术介绍 数字视频可以通过采样光栅扫描或直接用数字视频摄像机获得目前,所有的数字摄像机 都使用c c d 传感器与模拟摄像机一样,数字摄像机把成像景物采样成离散的帧1 2 ”每一帧由 水平和垂直都离散化的c c d 阵列的输出值组成数字视频是由帧率、行数和每行的样点数定义 的。根据这些参数可以求出时间采样问隔或帧间隔、垂直采样间隔和水平采样间隔 数字视频的另一个重要的参数是用于表示一个象素值( 只是亮度,或是三个彩色值) 的比 特数传统的做法是用8 比特或者2 5 6 个级指定亮度和憾三个彩色值的每一个彩色。一般来说, 对于视频信号的亮度和色度分量,时间和空间的采样率可以不同在这种情况下,象紊的比特 数应该反映在亮度采样分辨率下用于每个象素的等效比特数 2 1 2 图像直方图理论 图像的灰度直方图提供了一幅图像中,灰度值的频率统计特性对于带有l 个灰度级的圈 像,其灰度直方图可以用一个带有l 个分量的一维向量表示嘲由于图像本身可以看作是随机 过程的采样,因此可以为每个象素值赋予相应的概率密度函数,也可以从信号估计的角度。来 估计图像的直方圈分布 另外,直方图通常只能反映出图像的全局灰度分布特性,往往可以用来进行图像整体的增 强、灰度变化以及面向物体和背景的图像分割。 2 1 3 图像色彩基础理论 描述人类彩色感觉的属性有两个伫1 l :亮度和色度亮度是指被感知的光的明亮度,它是与 可视频带中的总能量成正比的色度描述被感知的光的颜色和深浅,它是由光的波长成分决定 的色度进一步由两个属性表征:色调和饱和度色调是指彩色的颜色,它是由光的峰值波长 决定的,而饱和度值的是颜色有多纯,它是由光谱的范围或带宽决定的实验表明人类视觉系 统中存在一个处理阶段,它把三个彩色值转换成一个与亮度成正比的值和另外两个相应于色度 赙觉的值,这就是所谓的i - i v s 反彩色模型 7 中国科学技术大学硕士论文第二章视频分析与内容表征研究基础 通常用于彩色显示的r g b 基色混合了光的亮度和色度属性在许多应用中,为了能够更高 效的处理和传输彩色信号,希望将亮度与色度分量分离开来描述一种彩色为了达到这个日的, 人们开发了各种三分量彩色坐标。其中一个分量反映亮度,另外两个分量共同表示色度和饱和 度 2 2 估计学习理论 2 2 1 机器学习概述 假定一组输入如下:五,毛,毛,定义( 1 ) 有监督学习:学习器同时也被给定希望的输 出m ,弘,目标是学习在给定新的输a 伸t s t ,产生正确的输出;( 2 ) 无监督学习:目标 是建立关于输入的模型,用来进行决策推理和事件判断等;( 3 ) 强化学习:学习器可以产生一 定的行为序列q ,a 2 ,a j ,同时得到相应的反馈量如“收益q * 惩罚”,目标是通过学习产生使 得“收益,最大化的行为序列嘲 常见的学习策略都是基于统计学习方法,对数据进行概率建模在此当中,贝叶斯后验判 决是一种常用的学习方法。贝叶斯判决是综合了先验信息和样本信息的判决。通常称为后验判 决:p ( eid ) o cp ( o ) p ( d10 ) 后验判决始终是和先验判决以及似然判决联系在一起的似然 判决,即在给定参数下,给定数据的似然函数:烈dj 缈,先验概率,即模型参数的概率分布: p 妒) 在模式分类中。基于模型的无监督学习是一种自动学习的方式,不需要对学习样本做类别 标记,利用已知的数学模型遥过逐步逼近的方法,使给定数据集与数学模型之间达成最佳拟合 在许多实际的机器学习问题框架中相关实例特征中只有部分可以被观察到,我们常常只能 根据所观察到的样例去推断未知的数据也就是说,在许多现实世界中的问题存在着隐含变量。 是指在学习过程中未完全观察到的数据事实上,某些变量有时可以观察到,有时不能,通常 的方法是:使用已经观察到的该变量的实饲,在一定范围内估计出未被观察到的实例中的变量 的值隐含变量的出现能够大幅度减少参数的数目。但是在大幅度减少数据量的同时需要设置 学习参数,从而使学习闯题变得复杂聚类分析也称为数据分割,具有多个目标,但是都

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论