




已阅读5页,还剩54页未读, 继续免费阅读
(计算机软件与理论专业论文)足球视频中的精彩事件检测方法研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
大连理工大学硕士学位论文 摘要 足球视频影响着人们的日常生活,人们对足球视频的关注更多地体现在对其中进 球,射门,罚牌等精彩事件的关注。然而用人工的方法从大量的比赛视频数据中查找人 们感兴趣的精彩事件是件比较乏味和低效的工作。因此就需要找到一种有效的方法来实 现足球视频中精彩事件的自动检测。 本文就如何实现足球视频中的精彩事件自动检测这一问题进行详细探讨,现有的方 法或只是针对精彩场景进行检测,或利用底层特征直接表示或检测精彩事件。基于贝叶 斯网络和动态贝叶斯网络的检测综合利用的底层特征,中层语义和事件取得了很好的效 果。本文给出的精彩事件检测方法包括两个步骤:首先对物理镜头进行语义标注从而形 成语义镜头序列,然后建立隐马尔可夫模型进行事件的推理检测。在语义标注过程中, 在现有语义镜头分类的基础上,根据关键帧图像的纹理特征把近镜头进一步分成球员特 写和场外观众这两种语义镜头,场外观众镜头往往表现为较强的纹理特征,而球员特写 镜头则比较平滑,利用边缘检测和闭运算等数字图像处理技术可以很好的区分这两种语 义镜头。在使用隐马尔可夫模型进行事件检测过程中,以语义镜头作为模型的观察节点, 要检测的目标事件作为隐藏状态节点,来构建模型。根据足球视频镜头的编辑规则和领 域特征,从大量的训练素材中计算出初始模型参数,并使用b a u m w e l c h 算法进行训练, 不断调整参数,直到确立最终模型。最后使用v i t e r b i 算法进行事件的推理检测,只要 把语义镜头序列输入到检测系统中,就可以得到状态节点序列,从而检测出是否有精彩 事件发生。 实验表明本文给出近镜头分类算法准确率可达9 8 以上。针对足球视频中的迸球和 判罚两种精彩事件,利用隐马尔可夫模型进行检测,也取得了很好的效果,比以往的方 法具有更高的查准率和查全率。 关键词:事件检测;隐马尔可夫模型;镜头分类;足球视频 大连理工大学硕士学位论文 r e s e a r c ho f h i g h l i g h td e t e c t i n gm e t h o di ns o c c e rv i d e o a b s t ra c t s o c c e rv i d e oi m p a c t so np e o p l e sd a i l yf i f e ,a n dp e o p l e sc o n c e r nf o rf o o t b a l lv i d e oi s m u c hm o r er e f l e c t e di nt h ea t t e n t i o nt oh i g h l i g h t ss u c ha sg o a la n dp e n a l t y n e v e r t h e l e s si ti s as t u f f ya n di n e f f i c i e n tj o bt of i n dt h eh i g h l i g h t st h a tp e o p l ei si n t e r e s t e di nf o r mm a s ss p o r t s v i d e od a 饥t h e r e f o r e i ti sn e c e s s a r yt of i n da ne f f e c t i v em e t h o dt od e t e c tt h eh i g h l i g h i si n s o c c 盯v i d e oa u t o m a t i c a l l y i td i s c u s s e st h ei s s u eo fa u t o m a t i ch i g h l i g h td o m i n gi n 翻) l x 材v i d e oi nd e t a i li nt h i s p a p e r e x i s t i n gm e t h o d se i t h e rd e t e c to n l yt h ei n t e r e s t i n g 翻m0 1 r e p r e s e n ta n dd e t e c t h i g h l i g h t su s i n gl o w - l a y e rf e a t u r e s m e t h o db a s e do nb a y e s i a nn e t w o r ka n dd y n a m i c b a y e s i a nn e t w o r ku s i n gl o w - l a y e rf e a t u r e s ,m i d g es e m a n t i ca n de v e n ta c h i e v e sv e r yg o o d r e s u l t s h i g h l i g h t 出赦她m e t h o dp r o p o s e di nt h i sp a p e rt a k e st w os t e p s :f i r s t l yi ta n n o t a t e s o r i g i n a ls h o t si n t os e m a n t i cs h o t ss e r i a la n dt h e nb u i l d sh i d d e nm a r k o vm o d e lt oi n f e ra n d d e t e c th i o a i g h i s w h e ns e m a n t i ca n n o t a t i n g ,b a s e do ne x i t i n ga c h i e v e m e n t si ns h o t c l a s s i f i c a t i o nr e s e a r c h , i tc l a s s i f i e ss h o r ts h o tf u r t h e ri m op l a y e r sc l o s e u ps h o ta n do f f - f i e l d a u d i e n c es h o tw i t ht e x t u r ef e a t u r eo fk e yf r a m ei m a g e o f f - f i e l da u d i e n c es h o th a sad i s t i n c t t e x t u r ec h a r a c t e r i s t i cw h i l ep l a y e r sc l o s e - u ps h o tt a k e sas m o o 也o n e ,t h e r e f o r ei ti se a s yt o d i s t i n g u i s ht h e m 、 ,i 也d i g i t a li m a g ep r o c e s s i n gt e c h n o l o g ys u c ha se d g ed e t e c t i o na n dc l o s e o p e r a t i o n w h e nr e a c h i n gt h ee v e n td e t e c t i n g ,i tc o n s t r u c t st h eh m m w i t hs e m a n t i cs h o t sa s e v i d e n c en o d e sa n do b j e c te v e n t sa sh i d d e ns t a t en o d e s a c c o r d i n gt ot h ee d i tr u l eo fs o c c e r v i d e oa n dd o m a i nf e a t u r e ,i tg e t si n i t i a lm o d e lp a r a m e t e r sf r o mp l e n t i f u li r a i n i n gm a t e r i a l , t r a i n st h em o d e lt oa d j u s tt h ep a r a m e t e r sc o n t i n u o u s l yu s i n gb a u m - w e l c ha l g o r i t h mt i l lt h e e s t a b l i s h m e n to fu l t i m a t em o d e l a tl a s t , i tu s e sv i t e r b ia l g o r i t h mt oi n f e ra n dd e t e c tt h e h i g h a g h t s ,t h a ti s ,i n p u tt h es e m a n t i cs h o ts e r i a l si n t ot h ec l e t e e t i n gs y s t e ma n d i ti st og e ts t a t e n o d e ss e r i a l s ,a c c o r d i n g l yi tf i g u r e so u tw h e t h e rt h e r ea l es o m eh i g h l i g h t so rn o l e x p e r i m e n tr e s u l tp r e s e n t sav e r a c i t yr a t i ou pt o9 8 o ft h ec l a s s i f i c a t i o nm e t h o d p r o p o s e di nt h i sp a p e r , a n dh i g h e rp r e c i s i o na n dr e c a l lu s i n gh m m t od e t e c tt h et w o h i g h l i g h t so f g o a la n dp e n a l t y k e yw o r d s :m e , m i g h td e t e c t i n g ;h m m ;s h o tc l a s s i f i e a t i o n ;s o c c e rv i d e o - i i i - 独创性说明 作者郑重声明:本硕士学位论文是我个人在导师指导下进行的研究工 作及取得研究成果尽我所知,除了文中特别加以标注和致谢的地方外, 论文中不包含其他人已经发表或撰写的研究成果,也不包含为获得大连理 工大学或者其他单位的学位或证书所使用过的材料。与我一同工作的同志 对本研究所做的贡献均已在论文中做了明确的说明并表示了谢意。 作者签名: 警辞魄卑 大连理工大学硕士研究生学位论文 大连理工大学学位论文版权使用授权书 学位论文作者及指导教师完全了解“大连理工大学硕士、博士学位 论文版权使用规定”,同意大连理工大学保留并向国家有关部门或机构送 交学位论文的复印件和电子版,允许论文被查阅和借阅。本人授权大连理 工大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,也 可采用影印、缩印或扫描等复制手段保存和汇编学位论文。 作者签名:邋) 作者签名:! ! ) 导师签名 年j 劲卫日 大连理工大学硕士学位论文 引言 随着i n t e m e t 及多媒体技术的迅速发展,人们对多媒体信息的需求日益增加,包括 图像、音频、视频等多媒体数据大量涌现,视频作为一种主要的媒体类型在丰富人们的 生活、教育、娱乐等方面起到了越来越突出的作用。随着视频类型的增加和数据量的日 益庞大,如何有效地组织和管理这些数据,如何有效地按照多媒体数据的特性去存取这 些数据,使人们能够方便地从大量视频数据中找到自己感兴趣的相关视频片段已成为 一种迫切的需求。这一技术就是目前人们普遍关注的基于内容的视频检索技术( c b v r , c o n t e n t - b a s e dv i d e or e t r i e v a l ) 。准确地说,基于内容的检索是指根据媒体对象的语义、 特征进行的检索,如图像中的颜色、纹理、形状,视频中的镜头、场景、镜头的运动, 声音的音调、响度、音色等。在基于图像的检索( c b m , c o n t e n t - b a s e di m a g er e t r i e v a l ) 方面,已经取得了大量的研究成果,也有一些比较著名的基于内容的图像检索系统问世, 如商用的q b i c ,v i r a g e ,研究性的p h o t o b o o k ,c y p r e s s ,v i s u a l s e e k 等l ”。然而,在基 于内容的视频检索方面,无论是在理论和实现上都存在很多问题尚未彻底得到解决,也 没有比较完善的基于内容的视频检索系统出现。视频摘要是实现基于内容视频检索的有 效工具,近年来受到了视频研究领域的广泛关注【2 】。 足球运动是世界上最广泛的体育运动,足球视频在很大程度上影响着人们的日常生 活。然而每场足球比赛的视频会持续很长时间,数据量也非常大。人们更多的关注于足 球视频中一些精彩事件,比如进球,射门,犯规,角球等等。事件检测作为正在发展的 视频语义检索方式,已被广泛的研究并应用于包括足球视频在内的不同领域。足球视频 由于场地和摄像机数量的限制,往往具有相对的结构性,足球视频领域的精彩事件检测 需要结合足球视频的编辑规则和比赛规则,有其固有的特点。 本文源于国家自然科学基金资助项目( 6 0 2 7 3 0 6 6 ) 。项目的研究目标是探索从足球视 频序列中发现隐藏的结构模式和知识,即从信息和知识发现的角度,探讨智能技术和数 据挖掘的概念应用到足球视频信息处理当中,改善视频信息组织、检索和索引。本文探 索找到一种从足球视频数据流中自动检测其中精彩事件的方法一综合使用视频处理, 数字图像处理等技术来完成视频数据流中的语义镜头提取,并利用概率论模型,结合足 球视频的编辑规则和足球比赛规则实现精彩事件的检测,是基于内容的视频检索研究的 一个子课题。 事件检测是一项复杂的工作,需要足球视频语义分析和视频概要方面的研究。国内 外的研究人员已取得一定的成果。d u a n 等提出了足球视频中的中层语义表示框架,并 详细描述了体育视频中语义镜头分类的统一框架 3 , 4 1 。t o n g 等提出了三层事件检测框架, 足球视频中的精彩事件检测方法研究 并阐述了其在足球视频领域中的应用。即建立底层特征中层语义单元事件的三 层结构来表示事件检测框架,通过建立贝叶斯网络由中层语义单元推理出精彩事件 f l 。 n a p h a d e 等提出了一种由多节点和多网络组成的概率论框架【6 j 。l i 提出了一种通用的地 事件+ 非事件框架用于体育广播节目的索引和概要提取r ”。v a s c o n c :e l o n s 利用贝叶斯网络 来提取视频语义特刎叼。z h o n g 使用领域模型分析了台球和棒球【9 】。x u 提出了基于草色 占有率和动作强度的足球视频结构分析和事件检测方法【1 0 1 。e k i n 提出了利用电影的和基 于对象的特征进行足球视频自动分析和概要提取的系统【1 1 1 。s n o e k 等利用时间间隔最大 熵对多种视频中的事件进行分类【1 2 1 。h e m 和g o n g 等使用三方面特征概要来建立足球视 频索引i l3 。s h i h 提出一种多级语义网络( m s n 。m u l t i - c l a s ss e m a n t i cn e t w o r k ) 来解释棒 球视频中的的精彩事件l l 习。其他的语义镜头标注和精彩事件检测方法采用从视频流中估 计的视觉线索如球场区域,球员位置以及球员队服的颜色【1 6 】。陈忠克等通过提取音频特 征区分解说员与观众欢呼声,并通过概率融合来提取精彩片断【i7 】。文军等则是先进行镜 头探测和分类,然后根据视音频特征进行提取融合,从而实现精彩镜头分析i l 剐。 底层特征用于表示不同的精彩事件,例如物体,颜色,纹理特征等被用来表示精彩 事件【例。w a n 检测并追踪重要活动如足球视频中的持球,这与摄像机的地球场画面密切 相关例。z h o u 提出一种使用影片和物体描述符混合的基于规则的视频分析和索引系统 【2 l 】。t a k a g i 提出了一种针对广播体育视频的基于内容的视频分类方法,使用了摄像机动 作参数i 捌。s a d l i e r 结合了音频域的波段强度跟踪和视频域的主色调模式识别进行足球视 频中的事件检测】。w u 提出基于知识的语义推理方案用于体育视频中的事件检测,表 示为三层语义推理方案j 。 p e t k o v i c 提出了一种鲁棒的音视频特征提取方案和文本检测、识别方法。该文献提 供了一个基于语音和视频分析的自动的体育视频自动索引系统,并在特征提取过程中引 入了动态贝叶斯网络【2 5 】。h u a n g 等在足球视频精彩事件检测过程中构造了三层动态贝叶 斯网络,并引入了时间介入网络,取得很好的检测效果闭。w a n g 等首先动态贝叶斯( d b n ) 模型来解释由足球视频底层参数构成的高层语义事件,然后选择一组鲁棒的底层统计特 征作为输入,从而推理计算出最可能的事件序列1 2 h 。 也有研究人员使用隐马尔可夫模型进行足球视频语义结构分析,刘宇驰等【2 8 1 提出足 球视频的语义结构,并把事件区分为精彩事件和一般事件,以场地比率,人脸比率,边 缘,运动强度四种特征作为m n i 的观测输入,分析语义事件并进行语义标注。 综合现有的研究成果,足球视频语义分析从底层特征开始,综合场地占有率,人脸, 纹理,标题,球门等视觉特征和欢呼声来提取视频中的语义单元,语义单元的定义又各 不相同:有语义镜头、语义场景、也有语义片段等,尚未形成完整统一的体系,本文使 一2 一 大连理工大学硕士学位论文 用语义镜头的概念。对于精彩事件检测研究,从早期的直接使用底层视觉和听觉特征来 区分和检测精彩事件,到现在底层特征中层语义高层事件的三层架构,并引 入贝叶斯网络,动态贝叶斯网络,隐马尔可夫模型等等概率论模型来检测,国内外的研 究人员作了大量的工作,并取得了丰硕的成果。 课题组在足球视频概要分类【2 9 】,足球视频结构分析和镜头分类1 3 0 1 方面取得了一定的 成果,在此基础上,在本文首先给出对近镜头进一步语义划分的方法,从而识别出球员 特写和场外观众镜头。重点介绍了如何引入隐马尔可夫模型,根据语义镜头序列检测精 彩事件,详细描述了初始模型的建立,训练和推理检测过程。本文引入就种语义镜头分 别是:中场,前场,禁区,中镜头,球员特写,场外观众,裁判。慢动作回放镜头( s m r ) 和未定义类型作为隐马尔可夫模型的观察节点参数,以进球事件,判罚事件,比赛进行 和比赛暂停四种状态作为隐藏状态节点,运用b a u m w e l c h 算法进行模型训练,v i t e r b i 算法很好的解决了模型的推理问题。通过分别对近镜头分类和事件检测作了大量的实验 和结果分析,得到了令人满意的结果,其中近镜头分类的平均准确率达到9 8 以上,事 件检测的查准率和查全率也较前人有一定的提高。 本文结构组织如下: 第一章是视频分析及其相关技术,简要介绍了分析视频数据所需要的基本理论与技 术。 第二章是贝叶斯网络和隐马尔可夫模型,简单地介绍这两种常用的概率论模型。 第三章是语义镜头分类,介绍了如何从足球视频数据流中检测物理镜头,物理镜头 的语义标注并重点讨论了近镜头的分类方法,最终得到视频数据流对应的语义镜头序 列。 第四章是精彩事件检测,分别描述了利用( 动态) 贝叶斯网络模型和隐马尔可夫模型 进行事件检测的方法。着重介绍隐马尔可夫模型的建立、训练以及如何根据语义镜头序 列进行精彩事件推理检测。 第五章是实验结果,分别对近镜头分类的实验结果和利用隐马尔可夫模型进行事件 检测的实验结果进行分析。 最后总结己取得的成果,分析本文尚待完善之处,并介绍了以后的研究方向。 足球视频中的精彩事件检测方法研究 1视频分析及其相关技术 视频媒体类型在丰富人们的生活、教育、娱乐方面起到越来越突出的作用。人们每 天都在接触大量的视频信息,如收看电视广播,观看电影以及观看录像和视频光碟等。 i n t e r n e t 的飞速发展,尤其是宽带网的建设使得人们交互访问视频信息的机会越来越多, 一些新兴的视频服务正悄然走向人们的生活,如视频点播、新闻点播、远程教学、数字 图书馆、数字城市等。世界上的视频信息制作者,如电视台、电影制片商、广告制作商 等,每时每刻都在源源不断地生产制作出新的视频材料。各种各样的数字捕捉设备已走 入平常百姓家,如数码相机、数码摄像机等。伴随着计算机性能的不断提离,数字电视 的普及,数字广播电视台的发展,高速宽带网在i n t e m e t 上所占比例的进一步提高,数 字视频媒体已开始大量充斥人们的生活空间。数字电视、数字电影、i n t e r a c t 上丰富多 彩的视频服务已逐渐成为人们日常生活必不可少的组成部分。但是,目前整个i n t e m e t 环 境就像一个大型的分布式数据库,而这个数据库是无人管理的。如何组织、表达、存储、 管理、查询和检索这些海量的数据,是对传统数据库技术的一个重大挑战。如果没有对 图像及视频数据的自动和有效的描述,大量信息将淹没在信息的海洋之中,无法在需要 时被检索出来。因此,如何将数字图像处理、模式识别技术、计算机视觉技术与传统数 据库技术结合起来,建立基于内容的描述和检索机制,成为目前迫切需要解决的问题。 1 1图像内容 由于视频是连续帧的集合,在进行视频分析时,不可避免的要对视频的每一幅画面 进行分析,因此图像内容的处理也是必须借鉴的。相对于字符数字等结构化数据来说, 原始的图像数据是非结构化的数据,以前所使用的常规信息描述方法显然已经不能满足 需要,需要新的基于内容的描述模型。新的内容模型描述图像的视觉特征、空间结构及 其关联特性。图像内容模型表示图像中感兴趣的实体、它们的特征和属性值、图像对象 之间的关系,给出图像数据的逻辑视图。 1 1 1 图像的属性 颜色、形状和纹理这些物理特征反映了图像的视觉特性。图像中还包含其他语义信 息和空间结构信息等。例如在房地产信息系统中,用户可能在关心房子颜色、地板纹理 的同时,还关心房间的结构、布局等,这时需要空间结构信息,还有一般的价格、面积、 房间数等信息。因此应该对图像内容属性进行全面的描述。 ( 1 ) 元属性 一4 - 大连理工大学硕士学位论文 从图像的外部导出的不依赖于其他内容的图像属性。如拍摄图像的日期、图像识别 码、图像设备的风格、图像的大小等。 图像对象是应用领域内有意义的语义实体,是图像中的一块语义区域,例如室内图 中的家具和墙上的饰物是图像对象。从微观看,图像像素的一个子集构成了图像对象; 从宏观看,表示一定语义的区域构成了图像对象。当元属性作用于整幅图像时称为元图 像属性,作用于图像中的对象时称为元图像对象属性。 ( 2 ) 逻辑属性 从总体看,描述一个图像的实体和对象集合的性质称为图像逻辑属性,如一幅图像 中包含的对象数,对象间的空间关系等。用于描述图像中的具体对象的性质称为图像对 象的逻辑属性,如每个对象的最小边界矩形,对象的空间位置等。它们与元属性不同, 是一种结构表示。 最小边界矩形:指完全框起整个给定对象的最小矩形。图像边界不规则的情况下考 虑最小边界矩形是非常有效的。最小边界矩形可以作为一个有效的测试,来决定两个对 象是否交叉,这是一个必要但不充分的条件。 ( 3 ) 物理属性 指图像客观存在的视觉能够区分的性质,如一幅图像的颜色、图像对象的形状、纹 理等。针对整幅图像的物理属性为图像物理属性,针对图像中对象的物理属性为对象物 理属性。以上三种属性都是图像客观存在的,不以人的意志为转移的属性。 ( 4 ) 语义属性 语义属性是用于描述图像所表明的高层领域概念的属性。语义属性的说明常包含主 观、个人的印象,具有很大的不确定性。针对整幅图像的语义属性为图像语义属性,而 针对图像中构成对象的语义属性称为图像对象语义属性。语义属性是因人而异,因人在 不同场合、不同心情而异。 1 1 2 数字图像处理技术 在内容描述中,图像中的空间关系与传统的图像分割出来的区域在概念上是有区别 的。用户关心的是感兴趣的区域和对象,而不是机械的分割区域。分割是几十年来计算 机视觉和图像处理中的一个主题。在传统上,图像分割定义为把图像分为同构的区域, 通常边缘检测是其中的一个重要技术。但是,获得像素级精度的边缘和分割,对于内容 模型来说是不充分的,因为重要的是表示用户感兴趣的区域、对象及其关系。另外,兴 趣区域是因个人的目标不同而变化的,例如一幅公园图片,一个用户可能对花草感兴趣, 而另一个用户对游人感兴趣。因此需要一种层次化的包含多层分割的结构组织。这种分 足球视频中的精彩事件检测方法研究 割层次考虑到多种模型( 颜色、纹理、对象等) ,并引入用户与系统的交互;用户给出感 必趣区域的示例,并当系统选择其他相似区域时给出的反馈。当用户与系统交互时,系 统动态确定哪些模型或模型的组合最佳描述了兴趣区域,并由此指导自动的对象分割。 数字图像是由像素组成的,但是像素不能直接表达图像的内容,因而需要从中提取 颜色、纹理、形状等特征,作为视觉特征的表示。 ( 1 ) 颜色内容特征 颜色是图像、景物、图像对象在视觉方面的主要特性,是一幅图像最直观、最明显 的特征。与其他底层的视觉特性相比,颜色特性不会因为缩放、方向、透视等变换而变 化。对于图像使用颜色特征来说,一些普遍需要考虑的问题是: 选择一种合适的颜色空间来表达图像的颜色内容。 可能需要选择一种颜色量化机制,在具有足够的区分能力的前提下,减少颜色 特征的维数。 需要选择一种合适的相似性、距离度量方法,用于搜索过程的特征匹配。 常用的颜色特征有颜色直方图、颜色矩、颜色相关矢量等。 颜色直方图是一种广泛应用的表示图像视觉颜色的特征,它适合表示图像的全局颜 色分布,而不能表示图像内部的对象组成。有许多不同的颜色量化方法。例如矢量量化、 聚类和神经网络等。如果对图像数据库中所有的图像或至少是大部分代表性图像进行聚 类,那么基于聚类的量化方法就可以根据图像库的颜色分布来进行量化,合理的非等间 隔的安排量化区间,达到优化的量化矢量。量化的越细,维数就会越高,那么颜色直方 图的区分能力就越强。另一种减少直方图柄的有效方法是仅仅选择最大的柄作为初步计 算的特征。这里是假设少数的主要颜色柄可以代表图像的大部分像素。因此,可以利用 这种特征对图像库进行初步的过滤处理,减少仔细搜索过程的搜索图像数,然后在过滤 后的图像集合进行全维度的直方图相似性比较。实验证明,这种方法不会降低直方图匹 配的性能,甚至在某些方面增强了性能,因为较小的直方图柄可能是噪声,在这种情况 下,这些噪声自然被过滤。 颜色矩可以作为非常有效的图像检索特征。不像直方图特征,颜色矩特征不需要量 化过程。这种特征的数学基础是:图像的任何颜色分布特性可以用它的矩来表示。大部 分颜色分布信息可以由低阶矩来表示。仅仅用一阶( 平均颜色) 、二阶( 颜色方差) 和三阶 矩( 颜色的偏移性) ,就可以近似表示颜色的分布特性。 ( 2 ) 纹理内容特征 纹理是另一种基本的底层图像特征,也常用于基于内容的图像特征。纹理是图像对 象表面的特性,例如云、木、草席和纤维的表面纹理。一幅图像可以看成是各种纹理区 大连理工大学硕士学位论文 域的拼接图。与这些区域对应的纹理可以表示该区域的特性。例如,用户可以通过纹理 对时装图像库进行查询,检索出它指定的面料和质地的服装。 纹理特征是模式识别和计算机视觉中常用的特征,大量的研究给出了各种纹理特征 的计算方法,这些纹理特征应用到图像数据库中的信息检索。 ( 3 ) 形状及其相关特征 对于图像内容的表示来说,对象的形状和感兴趣区域是另一种重要的特征。与颜色 和纹理特征相比,形状特征的抽取需要好的形状或区域分割算法作为处理的第一步,检 测出对象或区域的边界。 把形状特征分为两大类:一种是基于边界;另一种是基于区域。基于边界的形状特 征包括直线段形状、多边形近似、有限元模型和基于傅立叶的形状描述等。统计矩是一 种有效的基于区域的形状特征。由于图像分割的准确性和鲁棒性难以保障。另外,形状 相似性度量仍然是困难的,是一个需要解决的问题,这是因为一种好的形状特征表示, 应该能够对平移、旋转和缩放后的形状保持不变,而这样的特征是难以提取的。而且困 难的问题还是图像中的对象和区域的准确分割。于是不用对象分割的方法被提出来。一 种典型的方法是把图像分割成子块( 可以有重叠) ,用图像特征来表示每一个子块,每个 子块带有位置信息。这种方法可以支持简单的空间关系以及图像特征的匹配,例如每个 子块的颜色和纹理。 一种较为成功的方法称为颜色对方法。这种方法的基本出发点是对图像分块,基于 每个子块的颜色特征,获取子块图像之间的颜色差,用于描述图像中对象的位置和布局 特征。所谓颜色对特征,就是将一幅图像分成若干小块,对相邻的两个小块,计算它 们各自颜色值( 例如直方图的像素平均值) 。如果两个平均值之间的欧式距离大于某一阈 值,则认为这两个小块构成颜色对,把它们作为颜色对特征。它的基本过程是: 首先把一幅图像分成若干个小块,对每一小块抽取颜色特征( 例如直方图特征) 。 计算子块与子块之间的距离。 设置一个距离阈值,选择出那些具有较大距离的子块对,作为颜色对的候选距 离值。 统计不同距离值的颜色对个数,形成颜色对直方图,作为图像的布局特征进行 检索。 这种特征模型在于能反映颜色公布的空间特征。如果用直方图特征,两幅图像是没 有区别的。但是如果用颜色对特征,两幅图像的颜色对列表可以看出,虽然它们的总体 颜色分布特征相同,但是颜色对特征不同,颜色对特征反映出颜色的空间位置和对象的 布局特性。对象的空间结构的变化就表现为颜色对数目的不同。对于每一幅图像,如果 足球视频中的精彩事件检测方法研究 考虑每个小块与周围8 个小块的距离,那么对象的平移、旋转将不影响颜色对特征。而 且,如果采用归一化的处理,特征描述更适应图像对象的缩小、放大和图像的照明变化。 然而这种方法也有其固有的缺点,因为大部分图像的空间关系不是规则子块的空间约 束。因此,基于多区域特征和空问相似性的图像检测问题仍然是基于内容的图像检索中 的一个难题。 1 。2 视频内容描述 从电信号传播的角度看,一般把电视系统产生或传输的动态图像称为视频。根据每 一帧产生的形式不同,又分为不同的种类。当每一帧图像是人工、模型或计算机产生的 图形时,就称为动画;当每一帧图像为实时获取的自然景物图像时,称为影像。因为计 算机处理的是电信号,因此用视频这个名词代表计算机处理的动态图像。 视频是由一系列图像帧组成,因此从帧的角度看,图像内容分析和特征提取技术可 以扩展地应用到视频检索中去。但是,仅仅使用这种扩展技术是不够的,因为视频的时 基特性,使得视频包含比图像更丰富的内容。例如故事情节、事件和行为等。因此需要 在空间和时间两个方面对视频内容进行分析。 视频浏览是视频内容存取的一种非常重要的方式。需要一种浏览机制,能够“一目 了然”的浏览长视频的内容,而不是用常规的v c r 式的快进和快退的浏览方式。称这 种新的浏览方式为基于内容的浏览。为了实现这种方式的浏览,需要建立新的视频表示, 通过摘要或概要方式,呈现视频的结构和视频的信息全景。 对于视频信息的检索来说,它涉及到三种主要的内容分析和处理: ( 1 ) 视频结构分析。 ( 2 ) 视频特征抽取。 ( 3 ) 视频概要。 这三种处理与图像检索中的处理方法差别很大,而且更复杂。视频结构分析就是视 频在时间结构上的分割处理,抽取视频的结构信息,检测和标识视频表示的边界。视频 特征抽取过程与图像特征抽取相似,但是需要把特征抽取扩展到对视频对象的特征抽取 上,包括运动、事件、行为等特征的抽取和描述。视频提要是一种对原始视频数据进行 抽象的过程,提要的结果可以是关键帧、关键序列( 镜头、场景、故事) 、时间轴和空间 轴上的分布等。具体的提要处理可以是摘要、概要( 总结) 、筛选、过滤等。提要处理的 输出是基于内容浏览的基础“”。 1 2 1 视频的基本性质 除了与图像一样是视觉媒体以外,视频还具有以下显著的特点: 大连理工大学硕士学位论文 ( 1 ) 时基媒体 因为它是一种时基媒体,因此非常适合表现事件的过程,交待事件的始末,具有非 常丰富的信息内涵,具有生动自然的信息表现力。 ( 2 ) 数据量大 视频是连续的图像序列,当然它的数据量非常大,这给视频的存储、处理和检索提 出了新的问题,例如如何对海量视频数据进行存储和检索。 ( 3 ) 压缩需求 视频的存储必须要经过压缩,因为它的数据量太大了,现阶段再大的存储容量业难 以存储稍长时间的未压缩的视频。视频帧与帧之间的相关性( 即冗余性) 给视频压缩提供 了基础条件。如何直接对压缩的视频进行存取和检索也是信息检索系统中需要解决的问 题。 ( 4 ) 时间结构 从微观上看,视频是二进制位流形式的流数据,没有数据信息单元,不利于信息检 索。其实,视频流中隐含时间结构,反映出视频的不同颗粒度的数据信息单元:视频帧、 镜头、场景、视频节目、视频对象及其关系。另外,视频中还包括丰富的视频对象和镜 头运动特征。这种时间结构和视频单元的属性是信息检索的主要对象。 视频媒体包括电影、电视节目、录像等,是存储动态信息及其事件的时基媒体。视 频不仅在空间维上,而且在时间维上具有逻辑结构,由此构成了丰富的视频内容 1 2 2 视频结构 对于文本文档来说,它可以划分为章、节、段、句子、词组等逻辑结构。这样就可 以基于这些逻辑元素进行检索和查询。同样,对于长视频来说,也可以按层次划分为视 频的逻辑段,高层是一个完整的视频节目或故事,每个视频节目或故事由一组场景构成, 而场景又可以进一步划分为镜头。把视频划分为以上逻辑单元的过程就是视频结构的分 析,又称为视频的时间划分。 视频结构分析的方法可以分为数据驱动和模型驱动两大类: 数据驱动的方法。是根据视频数据本身的分析,根据数据的变化,包括视觉特 征的变化、运动特征的变化,来进行视频分段( 镜头分割和场景组织) 。 模型驱动的方法。是根据视频边界的编辑模型、故事构造模型、拍摄的规则等 先验知识来对视频结构进行分析,获得视频的分段结构。 ( 1 ) 视频数据的结构单元 足球视频中的精彩事件检测方法研究 视频数据是具有一定结构的一段视频流,自顶向下可分为视频节目( v i d e o ) 、场景 ( s c e n e ) 、镜头( s h o t ) 和帧( f r a m e ) ,如图1 1 所示。 图1 1 视频数据层次性结构 f 蟾1 1h i b e r a r c h yo f v i d v od a t a 视频帧 帧是一幅静态的图像,是组成视频的最小逻辑单元,将时间上连续的帧序列按等间 隔连续播放,便形成了动态视频。 视频镜头 镜头是由一系列帧组成的一段视频,一个摄像机的连续拍摄动作形成了一个镜头, 即由单个摄像机操作产生的一系列帧,它描述一个事件或场面的一部分。 视频场景 场景可能包含多个镜头,针对的是同一环境下的同一批对象,但拍摄的角度和技法 不同,它是一个有意义的故事单元,通过组织形成一个故事情节。极端的情况下,一个 场景可以只包含一个镜头。 视频幕 幕又称为视频节目,它是由一系列相关的场景组成的一大段视频,包含一个完整的 事件或故事。 ( 2 ) 镜头边界 镜头之间的衔接处称之为镜头边界。为了让视频中镜头的衔接更加自然或反映故事 情节的发展,目前的视频中都采用了许多镜头编辑方法把镜头连接起来。 大连理工大学硕士学位论文 镜头切换是一个镜头到另一镜头的转换,镜头的切换点即视频序列中两个不同镜头 之间的分割和衔接,是在导演切换台上或特技发生器上做出来的。镜头切换主要有突变 和渐变两种。 突变 突变是指一个镜头与另一镜头之间没有过渡,由一个镜头的瞬间直接转换到另一个 镜头的方法,即一个镜头猛然切换到另一镜头,也叫直接切换。直接切换可使画面的情 节和动作发生直接的跳跃,不存在时间上的过渡。 渐变 渐变是指一个镜头到另一镜头的渐渐过渡过程,没有明显的视觉跳跃。渐变包括淡 入淡出、渐隐渐出、划入划出等。将画面逐渐加强称为淡入,将画面逐渐关闭并消失称 为淡出;一个画面消失的同时另一个画面逐渐出现称为渐隐渐出:图像从画面的某一部 分开始逐渐的被另一画面取而代之的方法称为划入划出。划入划出是由特技发生器产生 出来的,方式有三百种。 这些镜头切换的技巧使得镜头之间的连接更加紧密。从视频编辑的角度看,渐变主 要通过色彩编辑和空间编辑得到。色彩编辑就是通过视频帧的色彩的逐渐变化过渡到下 个镜头的处理,如渐隐等转换;空间编辑是通过对视频帧的空间位置的逐步调整过渡到 下一个镜头的处理,如翻页、划入等转换。 1 2 3 视频运动 镜头内的运动包括由对象运动导致的局部运动和由摄像头运动导致的全局运动“。 ( 1 ) 视频镜头的运动 在拍摄视频时根据剧情的需要,一个镜头可以采用多种摄像机拍摄方式,这样就得 到具有不用运动形式的镜头。由于摄像机操作而引起的镜头运动主要有以下几种形式i 摇镜头 摇镜头是指摄像机的拍摄位置不变,在拍摄过程中,以云台为轴心改变拍摄方位而 引起的镜头运动形式。摇镜头是观察者在不改变观察位置的情况下,转动眼球或颈项观 看对象方式的再现。镜头向一个方向移动,逐步拍出更广的场景。 俯摄和仰摄 俯摄是指摄像机在高处,从上向下摇动拍摄的镜头。仰摄是指摄像机在低处,而从 下往上摇动拍摄的镜头。 推拉摄影 足球视频中的精彩事件检测方法研究 从远处开始,逐渐推近到拍摄对象,这种镜头运动称为“推”;从近处开始,逐渐 的拍成全景,这种镜头运动称为“拉”。这两种方式可以用运动摄影的方式实现,也可 以用变焦的方式实现。 跟踪 镜头跟踪着被拍摄对象移动,形成追踪的效果,称为跟踪拍摄。 镜头运动方式很多,其他还有水平、垂直的移动,仰视、侧视拍摄,近摄、远摄等。 ( 2 ) 视频对象的运动 在摄像机不动的情况下,一个镜头也可以反映很多动态情况,如对象的进入进出、 对象的运动以及对象间相对位置的变化等。 所谓视频对象运动,就是在一段时间内,视频中的对象运动的情况,可以用运动对 象的运动方向、运动对象的轨迹以及多个运动对象间的相对位置来描述。 人类视觉具有抽取独立于对象的运动信息的能力,所以可以在不识别对象的情况 下,从视频序列中抽取运动信息及其轨迹来表示视频的运动特性,例如对于具有行人往 左走而汽车往右开的视频序列,可以不考虑人和汽车,而只追踪运动对象的特定位置和 轨迹。 对于具有运动对象的镜头,当对象运动时,其背景相对对象来说变化是缓慢的,而 对象不论在平面方向还是在深度方向的运动都要比背景的变化快得多,所以可以首先不 考虑背景的变化来讨论对象运动的情况。 运动对象的大小变化反映了视频镜头中的对象的运动方向( 走近或走远) ,也反映了 摄像机的运动过程( 如拉近或推远) ,但两者的背景变化情况不一样,对于摄像机推拉引 起的对象大小的变化,其背景也是同样变化的。大小上的不断变化在图像帧中表现为像 素色彩的扩张或收缩;位置上的不断变化在图像帧中表现为某一色彩像素的不断移动。 针对这种情况,c o m m c y 归纳了以下几种对象运动并进行了分析:一个对象出现于镜头; 一个对象从镜头中消失;一个运动的对象出现于镜头;一个运动的对象从镜头中离去; 一个原本静止的对象开始运动;一个原本运动的对象停了下来。通过对以上对象运动的 分析可实现对监控视频的基于内容的检索阐 1 2 4 视频的内容模型 ( 1 ) 层次化内容表示 根据以上视频内容的分析和视频结构描述,将视频这种层次化结构分为四层,最高 层为视频节日( 幕) ,第三层为故事单元,下一层为镜头,最低一层是帧。对帧的内容描 述可以采用类似图像描述方法,而中间层的内容需要充分考虑时间和运动特性。 大连理工大学硕士学位论文 ( 2 ) 空间和时间结构描述 对于视频这种时间序列数据来说,内容表示的一个非常重要方面是时间结构的描 述。按照逻辑结构,视频序列可以结构化为帧、镜头、场景。故事单元用场景表示,各 个场景单元之间存在叙事关联,对场景集合或场景子集的时间遍历就形成一个视频故 事。场景是由一系列按照视觉顺序接续的镜头组成,镜头可以用代表帧来表示,并且在 镜头中可以获得并描述对象运动和镜头运动的特征。帧的描述可以采用与图像相似的表 示方法,它具有空间逻辑结构。 ( 3 ) 叙事组织 从某种角度看,图像和视频库有其共同点,如从视频中提取关键帧,把关键帧对应 于静态图像,但是不能把视频仅仅看成是图像的集合,重要的不同在于视频中包含时间 元素。长视频包含大量的数据,需要很长的时间观看。图像库的内容可以用拇指图来概 括表示,但是对于视频来说,还需要表示视频中的过程性内容。 视频按照叙事结构进行组织是一种有效的方法。叙事模型用于视频数据的组织。在 镜头结构和运动描述的基础上,根据视频库中的语义来组织视频场景的关联,构造的多 层结构支持叙事内容的视图,在这个结构上,叙事的起点和经过点都由各层的顶点和节 点来表示。故事可用模板事先限定和组织。 可以采用层次的场景转移图来组织视频的叙事结构。场景转移图是一个有向图,它 把一个场景或一段视频中的所有相似的镜头用一个节点来表示,在这个节点中包含多个 镜头。节点之间根据视频的情节转移形成链接,节点和链组成场景图。整段视频可以构 成一个完整的多层场景转移图。 对于视频来说,它是一种应用非常广泛的媒体形式,例如新闻、记录片、电视节目、 影片、监控视频、商品介绍等。从这些数据中获得大量的信息,但是从中得到的知识相 对匮乏。视频是一种视觉时基媒体,其中蕴含着大量潜在价值的信息和知识。在多媒体 数据库、数字图书馆和多媒体信息处理领域,过去大量的研究是放在基于内容的视频信 息检索的研究方面,虽然在某种程度上解决了信息搜索和信息资源发现的问题,但是信 息检索只能获取用户要求的“信息”,而不能从视频数据中找出和分析出蕴含的有价值 的“知识”。为此需要研究比视频检索更高层次的新方法,即视频挖掘。视频挖掘就是 从大量视频集( 数据库) 中,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 二年级数学下册 三 生活中的大数第6课时 比一比(1)教学设计 北师大版
- 人教部编版(2024)七年级2025年卖油翁教案及反思
- 人教版生物八年级上册6.1.1《尝试对生物进行分类》教学设计
- 人教部编版 九年级历史下册第10课 《凡尔赛条约》和《九国公约》教学设计
- 人教 版五年级美术下册《第3课 抽象的雕塑》教学设计
- 人教版历史八上第22课科学技术与思想文化教学设计2份 (2份打包)
- 专题11 标点符号之问号(教案)-2024-2025学年高考语文一轮复习之语言文
- 九年级英语上册 Unit 4 I used to be afraid of the dark Section B(1a-1e)教学设计(新版)人教新目标版
- 专题四第1课一、《智能家居》教学设计 2023-2024学年青岛版(2018)初中信息技术八年级上册
- 人教部编九年级上册历史第21课《马克思主义的诞生和国际工人运动的兴起》教学设计
- 废旧锂电池回收利用技术课件
- 区域医学检测中心的建设与管理V3
- 北京市矢量地图-可改颜色
- 技术转移案例
- 旅游公司抖音代运营合同范本
- 草莓水果课件教学课件
- 医生护士家长进课堂助教儿童医学小常识课件
- 中学生廉洁教育课件
- 八上第三单元《红星照耀中国》纪实作品阅读课公开课一等奖创新教学设计(表格式)
- 汇率超调模型
- 减数分裂和受精作用-2025年高考生物一轮复习练习(新人教新高考)
评论
0/150
提交评论