(控制理论与控制工程专业论文)基于内容的新闻视频检索.pdf_第1页
(控制理论与控制工程专业论文)基于内容的新闻视频检索.pdf_第2页
(控制理论与控制工程专业论文)基于内容的新闻视频检索.pdf_第3页
(控制理论与控制工程专业论文)基于内容的新闻视频检索.pdf_第4页
(控制理论与控制工程专业论文)基于内容的新闻视频检索.pdf_第5页
已阅读5页,还剩77页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

上海大学硕士学位论文 摘要 新闻视频中包含了大量的有用的信息,如何对新闻视频信息进行分类、组 织和索引已成为多媒体技术领域的一个重要研究课题。新闻视频拥有巨大的信 息量,采用人工分类方法太耗时且易受主观评判的影响,因此,开发自动的新 闻视频检索方法便成为当前多媒体信息系统中一个很重要的研究内容。通过对 新闻视频的结构化分析和语义提取,其中结构化分析包括镜头聚类、镜头检测 和关键帧提取;语义提取则包括口播帧检测、新闻字幕提取等为基础研究新闻 视频的检索。 新闻单元的自动分割处理是新闻检索和自动标引的核心内容,口播帧检 测、新闻字幕提取为其重要环节。本文首先提出了一种新的口播帧检测方法。 该方法具有模板动态提取功能,并依据新闻节目播出特点,实现了从双人口播 帧模板中提取单人口播帧模板。在匹配算法上,采取了分阶段匹配做法,提高 了检测效率。该口播帧检测方法在通用性、实时性和准确性等方面均具有较显 著的特点。同时针对新闻字幕在新闻视频中特殊的作用,本文还提出了一种实 时的新闻字幕检测方法。该方法有效得排除了滚动字幕、旁白文字以及出现在 视频中的场景文字,迅速定位出新闻字幕所在位置。在文字分割算法上,考虑 到了新闻字幕具有的空间相关性,剔除了背景、噪声等产生的干扰,在不损伤 文字笔划的基础上提高了分割的准确性,为进一步文字识别奠定基础。在新闻 视频结构上,结合新闻视频流中出现这两个特殊的标志可以精确的分割新闻故 事单元。 关键词:新闻视频检索;新闻单元;口播帧;新闻字幕; v 上海大学硕士学位论文 a b s t r a c t n e w sv i d e oc o n t a i n sl o t so f u s e f u li n f o r m a t i o n , s oh o wt oc l a s s i f y , o r g a n i z ea n d r e t r i e v en e v c sv i d e oh a sb e c o m ea l li m p o r t a n tr e s e a r c hf i e l d d u et ot h el a r g ea m o u n t o fd a t ai n v o l v e d ,i t sq u i t et i m e - c o n s u m i n ga n ds u b j e c t i v e - j u d g e m e n ts e n s i t i v et o c l a s s i f y n e w sv i d e ow i t hm a n u a lw o r k t h e r e f o r e ,d e v e l o p i n ga na u t o m a t i c a n a l y z i n gm e t h o dh a sb e c o m eas i g n i f i c a n tr e s e a r c hs u b j e c t n e w sv i d e or e t r i e v a li s d i v i d e di n t os t r u c t u r i z e da n a l y s i sa n ds e m a n t i ce x a c t i o no fv i d e oi n f o r m a t i o n t h e f o r m e ri sc o m p o s e do fs h o tc l u s t e r i n g , s h o tc h a n g ed e t e c t i o na n dk e yf r a m e e x t r a c t i o na n dt h el a t t e r i sc o m p o s e do fn e w sc a p t i o ne x t r a c t i o n , a n c h o r p e r s o n f r a m e sd e t e c t i o n ,w h i c hp r o v i d e sag o o dt e c h n o l o g i c a lf o u n d a t i o nf o rf u r t h e r r e s e a r c ho nn e w sv i d e or e t r i e v a l t h ea n c h o r p e r s o nf l a m e sd e t e c t i o na n dn e w sc a p t i o ne x t r a c t i o na r em o s t i m p o r t a n tt ou n i tp a r t i t i o no fn e w s ,w h i c ha r et h ec o r ec o n t e n to f n e w ss e a r c h i n g a n da u t o m a t i ci n d e x i n g t h i si s s u ef i r s t l yp r e s e n t san e wa n c h o r p e r s o nf r a m e s d e t e c t i o nm e t h o d t h em e t h o dc a ne x t r a c tt h et e m p l a t e so fa n c h o r p e r s o nf r a m e s d y n a m i c a l l y a n dc u t s i n g l e - p e r s o na n c h o r p e r s o nf r e m e st e m p l a t e f r o mt h e d o u b l e - p e r s o na n c h o r p e r s o nf r a m e st e m p l a t ea c c o r d i n gt ot h ec h a r a c t e ro fw o r k i n g f l o wo fn e w sp r o g r a m a tt h es a m et i m e ,t h em u l t i l a y e rt e m p l a t em a t c h i n g a l g o r i t h mb r i n g sar e m a r k a b l ei n c r e a s eo ft h ed e t e c t i o ne f f i c i e n c y i nt o t a l ,t h e d e t e c t i o nm e t h o dg i v e nb yt h i sp a p e rh a ss i g n i f i c a n ti m p r o v e m e n ti ns e v e r a la s p e c t s s u c ha sc u r r e n c y , r e a l t i m er e s p o n s e ,a c c u r a c ya n de t c an e wc a p t i o nd e t e c t i o n m e t h o di sa l s op r o p o s e di nt h i sp a p e ra i m sa tt h ei m p o r t a n c eo ft h ec a p t i o ni nn e w s v i d e o t h i sm e t h o di se f f e c t i v et oe l i m i n a t et h es c r o l lc a p t i o n 、a s i d ec a p t i o na n d s c e n ec a p t i o ni nn e w sv i d e oa n df i n dt h ep o s i t i o no ft h en e w sc a p t i o na r e a c o n s i d e r i n gt h ee x t e n s i t yo f n e w sc a p t i o n , t h et r o u b l e sc a u s e db yb a c k g r o u n da n d y a w pc a nb ee l i m i n a t e da n dt h ev e r a c i t yo f t e x ts e g m e n t a t i o nc a nb ei m p r o v e db a s e d o nt h en od e s t r o y i n gt h ec h a r a c t e r s ,w h i c hi st h eb a s i so f t e x tr e c o g n i t i o n a c c o r d i n g v i 上海大学硕士学位论文 t ot h es t r u c t u r eo fn e w sv i d e oa n ds p e c i a ls i g ni nn e w sv i d e o ,i tc o u l dd e t e c tn e w s s t o r yu n i ta c c u r a t e l y k e y w o r d s :n e w sv i d e or e t r i e v a l ;n e w su n i t ;a n c h o r p e r s o nf r a m e ; n e w sc a p t i o n ; 上海大学硕士学位论文 图2 1 图2 - 2 图3 1 图3 2 图3 3 图3 _ 4 图3 5 图3 - 6 图3 7 图3 8 图3 - 9 图3 1 0 图3 1 l 图3 1 2 图3 1 3 图3 1 4 图3 1 5 图4 1 图4 _ 2 图4 _ 3 图 图4 5 图“ 图斗7 图4 _ 8 图禾9 图表目录 新闻视频分析体系1 3 新闻视频的分层结构1 5 子块位置选择2 3 二阶段模板匹配方法2 5 新闻视频结构2 7 新闻节目的叙事结构2 8 口播帧检测流程图3 0 口播帧模板提取3 l 动态提取模板的流程3 2 口播帧模板3 4 单人与双人口播帧单人区域灰度直方图3 4 四点平滑后的灰度直方图3 5 异常情况3 6 9 个子块位置选择3 7 灰度均值比较3 9 带字幕的9 块直方图比较4 2 带画中画的9 块直方图比较4 3 新闻字幕条检测、定位流程5 0 基于连通成分的文字定位流程5 3 文字区域的连通成分分析过程5 4 基于小波神经网络的文本检测模型图5 5 灰度差分分布图5 8 边缘二值图像6 0 曲线6 0 标注字幕6 2 边影检测6 3 x 原创性声明 本人声明:所呈交的论文是本人在导师指导下进行的研究工作。 除了文中特别加以标注和致谢的地方外,论文中不包含其他人已发 表或撰写过的研究成果。参与同一工作的其他同志对本研究所做的 任何贡献均已在论文中作了明确的说明并表示了谢意。 签名:日期: 本论文使用授权说明 本人完全了解上海大学有关保留、使用学位论文的规定,即: 学校有权保留论文及送交论文复印件,允许论文被查阅和借阅;学 校可以公布论文的全部或部分内容。 ( 保密的论文在解密后应遵守此规定) 签名:一导师签名: i i 匆白日期:丸7 jf期:塑! :垒j5 。 上海大学硕士学位论文基于内容的新闻视频检测 1 1 课题来源 第一章绪论 本课题来源于广州市纽帝亚资讯科技有限公司委托开发的项目新闻视频 检索系统,通过对新闻视频检索技术广泛深入的调研,收集现有的资料,进行 对比分析和进一步的理论研究,明确了开发此系统的技术和思想。本课题是该 公司新闻视频检索系统的一个重要理论基础。新闻视频检索系统的设计 架构是能对数字视频新闻的内容进行分析,自动浓缩,生成摘要,在此基础上 达到对视频信息有效管理的目的。系统主要性能和技术特点包括自动完成对数 字视频新闻单元的切分,自动完成视频新闻中的镜头提取,自动识别新闻字幕, 自动生成新闻的图像摘要,并提供分类、分层次的新闻浏览,如全视频、图像 摘要、文字摘要,以适应不同带宽要求,同时可快速检索并定位到新闻的各个 内容层次,如新闻、场景、镜头。该系统可广泛应用于电视台数字视频新闻检 索与制作;视频网站的视频新闻管理与服务;图书馆、情报所、档案馆的视频 新闻资料管理与检索;以及个人家庭视频资料的管理与检索等“1 。 1 2 课题研究背景及研究目的 九十年代初,多媒体数据呈爆炸性增长,文本、图像、语音、视频等各种 形式的多媒体信息都将被放到网上,人们正在快速进入一个信息化的社会。其 中视频作为一种集视觉、听觉和文本信息于一体的综合性媒体信息在人们的生 活、学习、工作、娱乐等方面所起的作用越来越突出,并不断地产生了许多原 来没有的新功能和新概念,出现了数字图书馆、数字博物馆、虚拟博物馆、数 字电视、会议电视、视频点播、远程教育、远程医疗等许多新的服务形式和信 息交流手段。各种视频服务对人们生活方式和社会的发展所产生的影响越来越 大。其中新闻视频作为视频数据中有代表性的一种媒体,在视频资源中占有重 要比例,相对于文本新闻,视频新闻生动、直观、易于理解、信息量大,广泛 上海大学硕士学位论文基于内容的新闻视频检测 地受到人们的关注。从广义角度而言,新闻视频是指含有新闻内容的视频资料, 如电视台播放的新闻节目、尚未编辑整理的新闻采访片段、新闻录像片等等。 然而对于一般用户,新闻节目只是一次性消费,收视完之后很难有机会看第二 遍。但是对于电视台节目编辑制作人员来说如果想看专门的报道或是想制作一 个专题,只能在一堆录像带中手工查找。造成这种现象的根本原因在于视频数 据是一种无序数据,不象文本那样定义有良好的索引、摘要、关键词、标题等 内容路标。视频数据的最大颗粒度是整个文件,最小颗粒度是单个帧,中间没 有自然的过渡层次。有效的检索手段的匾乏,造成新闻节目这种宝贵、真实的 视频资料的巨大浪费。过去对新闻视频的研究多是从新闻视频处理的角度去分 析,目的是为了实现对视频资料的快速浏览与检索。而事实上,新闻视频的可 利用价值远远超出了浏览与检索的范畴。从情报分析的角度而言,新闻视频具 有如下特征: 首先,新闻视频具有真实准确、内容丰富、信息量大的特点。相比其它的 情报源媒体,新闻视频声像并茂,能够提供更多有价值的信息。 其次,新闻视频具有时效快的特点。新闻节目报道的一般都是近两日内发 生的消息,能够及时地反映世界各地发生的情况。 第三,新闻视频作为一种公开的情报源,易于获取,且很少受到国界的限 制。尽管美国的航空航天以及其它侦察技术己经非常发达,但美国中央情报局 至今仍把收听、收录其感兴趣的国家的广播和电视作为情报分析的一项重要工 作。而在战争时期,新闻视频又成为了信息传递的平台。 第四,新闻视频能够反映各国的政治、经济、军事和外交政策,在很大程 度上表明了各国的政治态度和立场”1 。 新闻视频的上述特征可以提供给我们更多更及时的情报信息,便于战略决 策分析。因此,研究新闻视频对于情报分析工作具有非常重要的意义。 传统的数据检测技术能够解决大量数据中的知识发现问题,但对于新闻视 频这样的多媒体数据,不仅数据量巨大,而且具有高维、非结构化等关系型数 据所不具备的特征,蕴含着丰富的内容信息,直接采用传统的数据检索方法是 非常困难的。传统的视频信息检索办法主要是依靠人的记忆来回忆视频的内容, 2 上海大学硕士学位论文基于内容的新闻视频检测 然后再用文字描述出来;或者是采取“快进”和“快倒”这种耗时的方式进行 线性浏览来寻找感兴趣的视频片段。传统的基于关键词或文件名的检索方法显 然不适用于数据量庞大,又不具备数据结构的视频信息,比如“在这段新闻片 中找出有胡锦涛主席讲话和有胡锦涛主席出现的镜头片段”,这种形式的检索 是传统检索方法难以胜任的工作。由于缺乏智能化视频检索与处理,使得数字 化媒体资料的管理和节目资料的有效利用面临许多困难,这已成为制约数字电 视形成产业化规模发展的瓶颈。如何对新闻视频数据进行分析与特征提取,使 之能够适用于传统的数据检索方法,是需要解决的一个问题。 1 3 国内外研究概况 视频是一种含有动态图像序列及声音的多媒体数据。因此,视频数据库本 质上一种多媒体数据库,它是继承多媒体数据库系统的研究成果发展起来的。 自视频检索概念提出以来的几十年间,国内外信息科学领域的众多科研人员已 经相继开发出了一批视频检索系统,其中极具代表意义的原型系统包括: 1 q b i c 系统0 1 它是由i b ma l m a d e n 研究中心研究开发的第一个商用基于内容检索系统。 此系统提供了对静止图像及视频信息基于内容的检索手段,是第一个功能较齐 全的视频数据库系统,其系统结构及所用技术对视频数据库发展有较远的影响。 2 c o r e 系统 新加坡国立大学开发的一个基于内容的检索机。其显著技术特色包括:多种 特征提取方法、多种基于内容检索方法、使用自组织神经网络对复杂特征度量、 建立基于内容索引的新方法以及对多媒体信息进行模糊检索的新技术 3 v i s u a l s e e k 系统“1 美国哥伦比亚大学图像和高级电视实验室开发的基于内容的图像视频检 索系统。它的显著特点是实现基于互联网的应用,即提供了一套供普通网络用 户在w e b 上检索图像和视频信息的解决方案。 从上述研究来看,视频检索已成为了近年来国内外研究的热点之一,主要 3 上海大学硕士学位论文 基于内容的新闻视频检测 集中于特定的应用领域,如电影、交通视频、医学视频、新闻视频等等。而新 闻视频检索是一个新兴的研究领域,它隶属于多媒体数据检索的范畴。有关新 闻视频检索的概念、技术和方法在国内外的研究还处于萌芽阶段。尽管如此, 与新闻视频检索相关的新闻视频处理技术、新闻视频摘要技术己经有了较长时 间的积累。 新闻视频的处理与服务技术可简称为n o d ( n e w so nd e m a n d ) ,对它的研究 开始于上世纪9 0 年代初。最先人们希望通过对媒体感知层的物理特征( 如颜色、 运动等) 进行分析,得到媒体数据的内容信息,进而支持基于内容的检索。这种 建立在低层特征基础上的内容分析技术部分地摆脱了传统的基于关键词检索的 限制,为媒体的内容检索开辟了一条崭新的道路。然而,单纯地依赖感知层的 物理特征,很难获取媒体的语义内容,也很难满足人们语义层的检索需求。于 是,更多的研究开始倾向于媒体多模态的融合分析,即综合媒体中的多种信息 线索( 如音频中的语音、视频中的字幕等) ,利用尽可能多的信息从多种渠道去 获取媒体的语义内容。信息服务的需求引发了许多新技术的产生,如媒体流的 分割、多媒体摘要等等。这些技术可以广泛地应用于新闻传输、分布式远程教 育、智能视频监控系统以及军事情报信息系统中。 视频摘要,即以自动或半自动的方式对视频的结构和内容进行分析,从原 视频中提取出有意义的部分,并将它们以某种方式进行组合,形成简洁的、能 够充分表现视频语义内容的概要。它是对长视频内容的简短总结,通常用一段 静态或者动态的图像序列来表示,并对原始信息予以保留嘲。有关视频摘要技 术的研究最早可以追溯到c m u 大学开发的i n f o r m e d i a 工程”3 ,其目标在于通 过抽取重要的视音频信息生成视频摘要,其研究重点是新闻视频。他们从语音 文档以及字幕中抽取文字并对其进行重要度排序,与查询文本相关的重要的音 频片段将生成音频缩略接下来,选择满足下列条件的视频帧生成图像的缩略, 即包含人脸或字幕的帧、摄像机运动后的静止帧、包含摄像机运动以及人脸或 文本的帧、场景的开始帧,这些帧的优先权从高到低呈递减趋势,得到视频帧 的集合,最终通过综合分析文本、音频以及图像缩略来生成完整的视频缩略。 国内方面,由于在该领域的研究起步较晚,技术水平相对滞后,所以大规 4 上海大学硕士学位论文基于内容的新闻视频检测 模的、用于相关领域的应用系统还不多。但近几年来市场需求非常强劲,已经 引起了国内研究人员的广泛关注,研究氛围十分浓厚。在国内,微软亚洲研究 院对视频的场景分割嘲、字幕检测与识别n 町m 2 m ”等技术进行了研究;中科院 王伟强、高文等人对压缩域下新闻视频的分割以及字幕检测技术“州“1 进行了研 究;清华大学马宇飞、白雪生等对镜头分割、关键帧提取“”,播音员镜头检测 “”等技术进行了研究;此外,武汉大学周洞汝“”、浙江大学庄越挺、潘云鹤“”、 复旦大学黄萱箐、吴立德”1 对视频镜头的分割与检索技术进行了研究;国防科 技大学多媒体实验室在这方面开展研究比较早,在视频内容结构化分析等方面 做了许多工作,并且开发出了视频分析与检索原型系统。 新闻视频检索作为一种新兴的应用,目前还存在以下问题需要解决:一是 新闻视频检索的体系问题,有关新闻视频检索的概念、技术等体系还远未成型; 二是新闻视频检索的技术问题,包括与新闻视频检索密切相关的新闻视频处理 技术、新闻视频摘要技术的研究还有待深入,新闻视频检索的一些特殊方法也 值得进一步的探讨;三是新闻视频检索技术的应用问题,如何将新闻视频挖掘 技术应用于各个领域,开发出真正实用的新闻视频检索系统尚有漫长的路要走。 1 4 本文工作 新闻视频节目的结构与电影、故事片等相比有明显的不同:新闻节目由一 个个内容相对独立的称为新闻故事单元的新闻段组成。我们希望在视频处理技 术以及检索技术的基础上,能够着眼于对新闻视频本身的组织结构进行研究, 充分利用其结构特点,达到对新闻视频进行分割的目的。在研究传统的视频检 索3 步骤:关键帧提取、镜头检测、镜头聚类的基础上,辅助以主持人检测和 新闻字幕检测等特征检测方法,形成一个比较完整的新闻视频智能检索和浏览 系统。 对于口播帧的检测来说目前虽然提出了各种各样的算法,但基本上都需要 事前预学习,为以后的匹配建立一些标准模板。因此本文在讨论各种算法之前 首先分析了新闻节目的播放流程并结合口播帧本身具有的诸多特点,提出了动 上海大学硕士学位论文 基于内容的新闻视频检测 态提取模板的概念,有效的摆脱了标准模板带来的通用性差等缺点。除此之外, 文章还提出了分阶段匹配算法,提高检测速度,故该口播帧检测方法在通用性、 实时性和准确性等方面均具有较高的参考价值。 系统还分析了字幕帧出现的各种可能情况,并提出了一种基于空间相关性 的方法用于字幕帧的定位。根据字幕帧出现的普遍规律,结合现有的算法,提 出了效果更为显著的定位算法。在实际的视频中,特别是电视新闻视频播出中, 不但会有噪声和运动对检测的干扰,而且还会出现滚动文字、旁白文字等问题 都会降低检测的准确率。所以文章同时提出了一种改进算法,可以更有效的排 除滚动字幕、旁白文字以及出现在视频中的场景文字,提升了整个新闻字幕检 测的准确性。针对新闻视频中出现的特殊情报的研究,完成从新闻视频流中获 取部分语义内容。 对于以上所讨论的研究内容,本文设计并实现了基于内容的视频单元的分 割。开发和实现都是基于m i c r o s o f t 的v i s u a lc + + 开发工具的。 1 5 论文安排 本文共分五章,各章的主要内容如下: 第一章介绍课题研究的背景,指出新闻视频检索技术的研究意义。对相关 领域的研究状况进行了综合分析,提出了本文研究的主要内容。 第二章分析了基于内容的新闻视频检索体系中的理论问题,指出研究有关 新闻视频检索的有效技术及难点。在介绍了新闻视频与一般视频相比具有特殊 特征的同时,对新闻视频结构特征分析,着重阐述从口播帧检测、新闻字幕检 测等方面对新闻的组织索引和检索提供了有效的手段。 第三章在详细介绍他人方法的基础上,总结提出了一种动态提取模板的分 阶段匹配检测口播帧的方法,该方法无需事先定义标准的口播帧模板库,综合 利用灰度值、直方图和口播帧序列延续时间性的三方面特征,充分考虑图像的 统计特征和结构特征,因此可以快速、准确的检测。 第四章提出了一种实时的字幕检测定位方法,根据新闻字幕帧的特征,如 6 上海大学硕士学位论文基于内容的新闻视频检测 新闻字幕笔划边缘与背景有很强的对比,同时利用新闻字幕普遍具有边影,而 且连续视频帧持续不变等特点,排除不可能的文字区域或非新闻字幕的其他文 字区域,最后确定新闻字幕区域。 第五章对本文的工作做了总结和展望,以指导后续的研究工作。 7 上海大学硕士学位论文基于内容的新闻视频榆测 第二章基于内容的新闻视频检索 2 1 基于内容的视频检索 1 9 5 1 年,c a l v i nm o o r e s 首次提出了信息检索( i n f o r m a t i o nr e t r i e v a l , 简称i r ) 的概念嘲,认为对视频信息检索而言,就是用户提交一个找寻视频信 息的请求,然后通过某种转换或计算,得到与用户请求相似或相关的视频资料 的过程。 视频信息检索的发展大致可以分成两个阶段,即传统的基于文本注记的视 频检索和新一代基于内容的视频检索( c o n t e n t b a s e dv i d e or e t r i e v a l ,简称 c b v r ) 。嘲 传统的视频信息检索方案是借助对视频的人工注记来进行视频的查询。为 实现检索,先给视频加上一个对其描述的文字或数字注记,然后在索引时对注 记进行检索。这样一来实质上是将对多媒体本身的检索转化为基于文本描述的 检索,这种方法固然简单,但存在着几个根本性的问题影响对视频信息的有效 使用。使用传统的方法不仅不能自动、完整地概括视频的内容,在一些情况下 由于个人认识上的不同而产生错误的检索,因此在很多情况下不能满足用户的 需要。 在探索新一代基于内容的检索期间,1 9 9 2 年“基于内容的图像检索 ( c o n t e n t _ b a s e di m a g er e t r i e v a l ) ”概念首先被提出了。它其实是传统检索 和新一代检索的过渡期,基于内容的视频检索正是受到它的启发发展而来的。 人们意识到视频是运动的图像,视频实际上属于图像的范畴,而图像和视频的 检索同属于视频信息检索的范畴,视频检索方法归根到底还是要结合图像的基 本特征进行,人们可以利用图像的基本特征,如颜色、纹理、形状等视觉特征。 但只认识到这一点是万万不够的,人们利用视频更重要的是揭示它们所表达的 内容、语义,只有根据内容才能达到更深层次的检索,才可能有效地获取所需 的视频,同时能对数据库中的视频资料进行有效管理。所以同年突破性的提出 了“基于内容的视频检索”一词。 上海大学硕士学位论文基于内容的新闻视频检测 基于内容的视频检索( c o n t e n tb a s e dv i d e or e t r i e v a l 。c b v r ) 是根据媒 体或媒体对象的内容语义以及上下文联系进行检索。具体来说它是指从视频数 据中直接提取出对象的语义特征,如:图像的颜色、纹理、形状、镜头、场景、 镜头的运动,然后根据这些线索从大量存储在数据库中的视频流进行查找,检 索出具有相似特性的视频数据来。c b v r 能从大型分布数据库中,以用户可以接 受的响应时间,查询到所要求的信息,它不需要理解或识别视频中的对象,可 快速地发现信息。基于内容的视频检索具有如下特点。”: 1 从视频数据中提取信息线索 基于内容的检索突破了传统的基于表达式检索的局限,它直接对图像、视 频、音频内容进行分析,抽取特征和语义,利用这些内容特征建立索引,并进 行检索。 2 基于内容的视频检索是一种近似匹配 由于对内容的表示不是一种精确描述,因此,c b v r 采用相似性匹配的方法 逐步求精,以获得查询结果,即不断减少查询结果的范围,直到定位于要求的 目标,这是一个迭代过程。 3 大型数据库( 集) 的快速检索 实际的视频数据库( 集) 数据量巨大,因此要求c b v r 技术也像常规的信息检 索技术一样,能快速实现对大型库的检索。基于内容的视频检索主要利用视频 的视觉和听觉特征进行检索。在许多应用中,基于注释的检索也是行之有效的 检索方法,因此,完整有效的信息查询和检索系统应该包括常规的基于客观属 性( 注释关键词等) 的检索、基于视听特征的检索、对象关联检索及在这些检索 之上的概念查询。 2 2 基于内容视频检索技术的难点 基于内容的视频捡索是- - f 3 涉及面很广的交叉学科,需要利用图像处理、 模式识别、计算机视觉、图像理解等领域的知识作为基础,还需从认知科学、 人工智能、数据库管理系统、人机交互、信息检索等领域引入新的媒体数据表 9 上海大学硕士学位论文基于内容的新闻视频检测 示和数据模型,从而设计出可靠、有效的检索算法、系统结构以及友好的人机 界面。 在传统的数据库系统中,信息的检索一般以数值和字符型为主,而在多媒 体数据库中集成图像、视频、音频等非格式化信息,这些数字视频数据与文本、 图像等数据的结构有很大的不同,由于这些特性导致了视频检索无法有长足的 进展,这主要体现在以下方面”1 : ( 1 ) 视频数据既有空间属性又有时间属性。文本数据是一种纯字符数值型 数据,它不牵涉空间及时间双重属性;图像数据是一种具有空间属性而无时间 属性的静态数据;音频数据则是一种没有空间概念但具有时间属性的无结构数 据:而视频数据不但有空间属性而且还有动态时间属性,因此有时称其为三维数 据。空间维是指每一帧图像,它均是空间二维结构,图像中所蕴涵的空间信息 十分复杂,很难建立一个清晰的结构;时间维是指视频是由多个图像帧构成的 沿时间轴分布的以图像帧为单位的流结构。准确地来说视频本质上是文字、图 像和音频等多模态信息在时空上的综合体,所以其数据形态非常复杂。视频数 据的这种时间及空间多维动态无结构特性,使其表达及建立数据模型更为困难。 ( 2 ) 视频数据有复杂的逻辑结构。视频数据流的一个重要特点是它有很强 的情节发展性。由于视频数据采用的不是符号文字而是一种更生动形象的视频 语言,如何分割视频的结构单元以及定义一种能充分反映视频数据单元各种特 性的较好的视频数据模型和索引结构是比较困难的。 ( 3 ) 视频数据内容的多样性。视频数据可分为两个层次。一层是低级或中 级特征的数据,如颜色、纹理、形状、空间关系、运动等,以及它们的组合, 这种数据是视频所固有的物理属性,一般与视觉、听觉因素有关,能被人的感 官觉察出来,视频内容是客观的。另一层是高层语义内容的数据,这种数据关 心视频实体和客观世界实体的关系,或者与感觉符号和场景相联系的时间事件、 感受和意图的联系。 ( 4 ) 视频内容解释的多样性及模糊性。视频数据是连续播放的图像帧序列, 在图像帧流中所含的信息十分丰富。不同的人和同一人在不同的情况下对同一 幅图像或同一段视频可能有不同的解释,这就不像字符数值型数据有完全确切 1 0 上海大学硕士学位论文基于内容的新闻视频检测 的客观的解释,视频数据常常有个人主观的因素,如感情、心理及生理等。由 于视频数据的模糊性,视频数据单元之间关系不明确,当对其进行查询时,就 无法像字符数值型数据那样,明确的描述出来。在视频数据库中,常常只能用 相似性进行查询,即用近似匹配方法对视频数据进行查询。 现有c b v r 技术的主要特点是首先通过视频分析提取视频本身包含的客观 视听觉特征,主要包括颜色、纹理、形状、时空关系、运动信息、时间顺序、 时间跨度等特征”侧来描述视频内容,这些视频特征是一些可以独立、客观地 直接从视频中获得的信息,通常用各种统计方法豳驯来描述。然后在视频分析 的基础上建立数据模型提供一种非线性的视频浏览框架,典型内容包括关键帧 抽取。1 等。最后用视频片段相似性比较来进行感兴趣视频片段查询、检索, 如检索相似视频、定位相似视频段和检索相似镜头”侧等。上述方法是2 0 世纪 9 0 年代视频检索技术研究的主流。但人们判断视频的相似性并非仅仅建立在视 频视觉特征的相似上。用户在进行视频检索时总是存在一个大致概念,这个概 念建立在视频所描述的对象、事件、情节以及表达的情感等含义上。理想的状 况下,用户主要根据视频的含义,即一些高层的抽象的概念性的内容,而不是 颜色、纹理、形状等特征,直观地进行分类并判别视频满足自己的需要程度。 这些视频的高层的抽象的概念性含义就是视频的高层语义,它包含了人对视频 内容的理解,这种理解是无法直接从视频的视觉特征获得的,而要根据人的知 识来判断。人与计算机的本质不同就在于人观看视频时结合了日常生活中积累 的大量的经验,观看视频的过程同时也是一个利用知识推理视频语义的过程。 因此,语义视频检索是更合理的视频检索方式。 视频必须附加上包括语义在内的各种内容信息,才能真正支持语义检索, 而前提则是要能够提供建立这些语义内容信息的过程。利用计算机视觉和机器 学习的方法来让系统对于某些特定情况做出特定反应,是长期以来很多研究者 努力的方向,对象识别和场景识别即是其中的一部分。使计算机检索视频的能 力接近人的理解水平,这就是语义视频检索的目的。 为了更为有效的描述视频中的内容,需要从低层次的视觉听觉特征中提取 高层次的语义信息,如何建立这些低层的特征与高层语义概念的关联,使计算 上海大学硕士学位论文基于内容的新闻视频检测 机自动抽取视频语义是目前研究的难点所在:怎样综合运用各种知识指导及用 户反馈,不断提高视频检索的有效性,是c b v r 系统设计和实现过程中的又一难 点;第三个难点则是如何在视频镜头分段的基础上,进行不同层次不同目的的 基于语义的分段。而这三个方面的难点归根溯源就是一个问题,即有效的视频 语义分析理论和方法。目前关于视频内容的语义分析或者是针对于特定领域的 应用研究,或者是通过人机交互来提高性能。这方面研究工作主要集中在视频 分类、视频语义分析等。使用的低级特征往往是多种信息的融合,包括视觉信 息、音频信息、文字信息、运动信息等。为了语义概念建模,常常采用语义模 板啪1 、隐马尔可夫模型4 ”、支撑矢量机“2 1 、神经网络“”等建模方法,在用户 交互的基础上,建立从低层特征到高级语义的映射,进而实现有效的基于语义 视频分析和检索。 2 3 基于内容的新闻视频检索 视频是一个源于广播电视业的术语,原来主要指模拟的、快速更新( 利用 人的视觉暂留效应产生动感) 的画面序列,早期主要用于电视台等媒体产业。电 视新闻是目前人们接触最多的视频类型之一,它可以为我们提供大量内容丰富、 直观、形象生动的新闻节目。但是长久以来观众一直处于被动地位,人们必须 严格按照时间表来观看节目,久而久之单一模式使观众对某些新闻失去的兴趣。 而且由于电视信息量巨大对视频的储存、利用带来麻烦。如何对新闻视频信息 进行分类、组织和索引已成为多媒体技术领域的一个重要研究课题。 2 3 1 新闻视频分析 新闻节目中,视频是按照一条条内容相对独立的新闻组织起来的。因此, 这里加入另一层次新闻单元。它处在场景与视频文件之间。不同新闻单元 的现场报道场景在地点、人物等方面都有较大的差异,但每个新闻单元的场景 都为说明该新闻单元的一个新闻主题而服务。新闻单元是具有指定含义的一组 1 2 上海大学硕士学位论文 基于内容的新闻视频检测 连续镜头,在内容上讲述一个较完整的语义,它可能包含多个场景,也可能只 包含一个场景。在新闻视频中,新闻单元是新闻视频自然具有的内容结构单位, 新闻单元之间相对独立,人们往往只需要检索新闻视频中的一个或几个新闻单 元,因此新闻单元的分割具有极重大的意义。新闻视频是属于视频类型的一个 分支,它具有视频数据普遍具有的特点,同时新闻视频检索同样面临着视频检 索的难点。但与一般的视频检索相比,新闻视频的管理和检索有其特殊性根据这 些特征可以简化单元分割。 新回视频服务器 、 ( 镜头聚类) u 图2 - 1 新闻视频分析体系 1 层次化的结构 同其它类型的视频类似,新闻视频也存在着层次化的结构,其最高层是整 个视频流,按照颗粒度从大到小的次序依次以视频流、场景、镜头、关键帧来 排列。新闻视频分层结构是在镜头分割的基础上,利用镜头间的相似性,获取 结构方面的信息,将视频组织成更高层次的结构的过程。其间需要用到镜头检 测、场景检测、关键帧提取等关键技术。 2 语义内容分析 在新闻视频中,一些事件的出现往往蕴涵着丰富的语义内容,称之为语义 事件。例如新闻视频中出现的标题事件,对于人们理解新闻故事的语义内容具 上海大学硕士学位论文基于内容的新闻视频检测 有非常重要的作用;又如新闻视频中出现的人物特写,很容易引导人们产生各 种联想。当然,这样的关联是建立在一定的知识辅助的基础之上的。同时新闻 视频一般都以播音员镜头作为新闻故事的开始,以新的播音员镜头的出现作为 上一个新闻故事的结束。也就是说,每条新闻的内部多半以“口播帧一新闻故 事一口播帧”的结构排列。 传统的多媒体信息检索技术没有得到进一步推广和应用的很大一部分原 因就是未能有效地解决低层的物理特征和高层语义之间的关联问题,从而造成 了低层的特征与高层的语义之间存在鸿沟。如何发现低层特征和高层语义之间 的关联是多媒体数据检索需要解决的一个问题。 从新闻视频的角度去考虑,低层特征与高层语义之间的有互补的联系。低 层的物理特征指的是视频数据本身所固有的一些特征,如镜头关键帧的颜色、 纹理、形状、边缘、背景等等;中层的逻辑特征在物理特征的基础上略带了一 层语义,例如播音员对象,它表现在物理特征上就是镜头的运动量小、背景比 较固定。字幕对象在物理特征上表现为边缘变化较为剧烈,一般会在固定区域 周期性出现。这说明视频低层的物理特征与中层的逻辑特征之间存在某种隐含 的关联。同样的,在中层的逻辑特征与高层的语义特征之间也存在隐含的关联。 例如,如果一个视频中出现了多个播音员镜头,且在整个视频的分布中具有一 定的周期性。之间的互补关系还体现在新闻视频的语义内容分析可以辅助新闻 视频的结构分析。例如新闻视频中口播帧的检测可以辅助新闻视频故事单元的 切分。新闻视频的结构分析则为新闻视频的内容分析奠定了一个良好的基础。 所以说在研究传统的视频结构特征的基础上,结合新闻视频自身的特殊性,比 如口播帧镜头、台标、主持人的播音、新闻字幕等等特征的研究,对于进行新 闻的组织索引和检索提供了一个有效的、简化处理手段。 2 3 2 视频数据结构化 新闻视频数据从表面上来看是高度非结构化的数据流,其最高层是整个新 闻视频流,最低层是一帧帧图像,要想对其进行有效组织、表达、管理、浏览 和检索,首先必须对其进行合理的结构化处理以进行后续的分析工作。若从它 1 4 上海大学硕士学位论文 基于内容的新闻视频检测 的拍摄和情节的组织上来讲,新闻视频是有结构的。 视频流 场景 梳头 帧 图2 2 新闻视频的分层结构 将视频数据划分成从高到低的4 个粒度:视频流场景镜头关键 帧。视频流由成千上万的图像帧组成,帧是组成视频的最小单位,视频可以看作 是一个连续静态图像的序列,如果对每一帧都进行单独处理,则索引和检索的效 率会很低。幸运的是,视频通常是由大量的逻辑单位或分块组成,我们称这些分块 为视频镜头。镜头是由一个摄像机拍摄过程中的一串连续的帧序列,它描绘同一 场景,表示一个摄像机动作,一个事件或连续的动作。任何视频都是由镜头衔接起 来的,镜头是视频检索的基本单元。此外,还可把语义上相关和时间上相邻的若干 组镜头组成一个场景,它能表达视频所蕴涵的高层抽象语义。所以场景与镜头有 所不同,场景可以理解为是有意义的镜头组合,它描述一个独立的事件,而镜头 仅仅是从拍摄的角度得到的而且人们在检索视频中关心的不是单个独立的镜头, 而是这种相同或相似的语义镜头,即场景,我们也把场景认为是一个高层概念。 视频结构化过程就是把一个视频帧序列流按情节的发展分成若干段,这些段可分 成若干级的层次结构,分别建立索引。 2 3 3 传统的基于视频结构检索技术 传统的视频检索都是基于视频结构的研究,主要分文3 种技术:镜头检测、 关键帧提取、视频镜头聚类。 1 视频镜头检测 镜头检测主要是将原始连续视频流分割成长短不一的镜头单元,对后续视 上海大学硕士学位论文基于内容的新闻视频检测 频分析处理提供基础。目前视频镜头分割技术主要根据镜头发生切换突变时,其 视频数据所反映的变化来分割。由于在镜头突变时,突变点前后两个相邻帧通常 在内容上都显示着很大的变化,而如果特征差值超过了给定的阈值,则意味着出 现一个分割边界。国内外在这方面已开展了大量的研究,由于视频镜头衔接方式 的不同,镜头之间的切换有突变和渐变两种,突变是两个镜头之间的最简单的切 换,没有过渡。渐变指一个镜头向另一个镜头渐渐过渡的过程。没有明显的镜头跳 跃,包括淡入淡出、溶合和擦洗等。早期的工作主要集中在镜头突变的检测上, 近年来更多地分析镜头渐变的情况。 镜头检测是视频结构分析的第一步,也是非常关键的一步,它是接下来故 事单元检测的基础。镜头检测效果的好坏,将直接影响到后续的结构化分析过程, 对高层视频摘要的生成以及检索也会产生相当大的影响。 2 视频关键帧提取 视频数据中的很多图像帧之间都存在时间和空间的冗余度,如果能从

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论