(信号与信息处理专业论文)基于高校图书馆学术讲座视频的快速浏览技术研究.pdf_第1页
(信号与信息处理专业论文)基于高校图书馆学术讲座视频的快速浏览技术研究.pdf_第2页
(信号与信息处理专业论文)基于高校图书馆学术讲座视频的快速浏览技术研究.pdf_第3页
(信号与信息处理专业论文)基于高校图书馆学术讲座视频的快速浏览技术研究.pdf_第4页
(信号与信息处理专业论文)基于高校图书馆学术讲座视频的快速浏览技术研究.pdf_第5页
已阅读5页,还剩66页未读 继续免费阅读

(信号与信息处理专业论文)基于高校图书馆学术讲座视频的快速浏览技术研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独 立进行研究所取得的成果。除文中已经注明引用的内容外,本论文不 包含任何其他个人或集体已经发表或撰写过的科研成果。对本文的研 究作出重要贡献的个人和集体,均已在文中以明确方式标明。本声明 的法律责任由本人承担。 论文作者签名: 关于学位论文使用授权的声明 本人完全了解山东大学有关保留、使用学位论文的规定,同意学 校保留或向国家有关部门或机构送交论文的复印件和电子版,允许论 文被查阅和借阅;本人授权山东大学可以将本学位论文的全部或部分 内容编入有关数据库进行检索,可以采用影印、缩印或其他复制手段 保存论文和汇编本学位论文。 ( 保密论文在解密后应遵守此规定) 论文作者签名: 导师签名砷堑蠡期:独山2 山东大学硕士学位论文 摘要 目录 a b s t r a c t 第一章前言 i 1 1 1 研究背景1 1 2 各类视频的研究现状1 1 2 1 新闻视频的研究现状1 1 2 2 体育视频的研究现状2 1 2 3 家庭娱乐视频的研究现状4 1 3 学术讲座视频的介绍5 1 44 、结6 第二章视频摘要及文本提取技术。7 2 1 视频摘要的概念和分类7 2 2 各类视频摘要的生成算法9 2 3 视频的字幕提取算法1 3 2 3 1 视频文本的分类1 3 2 3 2 各类视频的字幕提取算法1 4 2 44 、结16 第三章基于关键帧的学术讲座视频快速浏览1 7 3 1 视频数据的典型结构1 7 3 2 学术讲座视频特点17 3 3 学术讲座视频快速浏览1 9 3 3 1 学术讲座视频快速浏览框架2 0 3 3 2 关键帧的提取原则2 l 3 3 3 关键帧提取2 2 3 4 关键帧提取仿真2 8 3 5 小结3 0 山东大学硕士学位论文 第四章基于字幕提取的学术讲座视频快速浏览3 l 4 1 学术讲座视频中的字幕文本3 1 4 2 学术讲座视频中字幕提取的应用3 2 4 3 基于帧差的字幕提取算法3 3 4 4 字幕文本提取仿真4 0 4 5 小结一4 2 第五章基于内容的学术讲座视频浏览系统4 3 5 1 学术讲座视频快速浏览系统4 3 5 1 1 系统功能介绍4 3 5 1 2 视频快速浏览系统概述4 3 5 2 学术讲座视频段落定位:4 8 5 2 1 根据关键帧定位视频段落4 8 5 2 2 根据关键词定位视频段落4 9 5 3 小结5 0 第六章总结和展望5 1 6 1 总结5l 6 2 展望一5l 参考文献 致谢 5 3 5 7 攻读硕士学位期间发表的学术论文目录5 8 山东大学硕士学位论文 c o n t e n t s a b s t r a c ti nc h i n e s e i a b s t r a c ti ne n g l i s h i i c h a p t e r l i n t r o d u c t i o n 1 1 1b a c k g r o u n d 1 1 2r e s e a r c h e so nv a r i o u st y p e so fv i d e o 1 1 2 1r e s e a r c h e so nn e w sv i d e o l 1 2 2r e s e a r c h e so ns p o r t sv i d e o :2 1 2 3r e s e a r c h e so nh o m ee n t e r t a i n m e n tv i d e o 4 1 3i n t r o d u c t i o no fl e c t u r ev i d e o 5 1 4s u m m a r y 6 c h a p t e r 2 r e s e a r c h e so nv i d e oa b s t r a c ta n dc a p t i o ne x t r a c t i o n 7 2 1t h ec o n c e p ta n dc l a s s i f i c a t i o no fv i d e oa b s t r a c t 7 2 1 2s c h e m e so fv i d e oa b s t r a c t 9 2 3s c h e m e so fv i d e oc a p t i o ne x t r a c t i o n 1 3 2 3 1c l a s s i f i c a t i o no fv i d e oc a p t i o n 1 3 2 3 2c a p t i o ne x t r a c t i o nf o rv i d e o 1 4 2 4s u m m a r y 1 6 c h a p t e r 3 q u i c kb r o w s i n gt h el e c t u r ev i d e ob a s e d o nk e yf r a m e s 17 3 1s t r u c t u r eo fl e c t u r ev i d e o 1 7 :;2f e a t u r e so fl e c t u r ev i d e o 1 7 3 3q u i c kb r o w s i n gt h el e c t u r ev i d e o 1 9 3 3 1f r a m e w o r ko fq u i c kb r o w s i n gt h el e c t u r ev i d e o 2 0 3 3 2p r i n c i p l e so fk e yf r a m ee x t r a c t i o n 2 1 3 3 3k e yf r a m ee x t r a c t i o n 2 2 3 4e x p e r i m e n t so nk e yf r a m ee x t r a c t i o n 2 8 3 5s u m m a r y 3 0 1 1 1 山东大学硕士学位论文 c h a p t e r 4 q u i c kb r o w s i n gt h el e c t u r ev i d e ob a s e do nv i d e oc a p t i o ne x t r a c t i o n 31 4 1 c a p t i o ni nl e c t u r ev i d e o 3 1 4 2a p p l i c a t i o no fc a p t i o ne x t r a c t i o n 3 2 4 3 a l g o r i t h m so nc a p t i o ne x t r a c t i o n 3 3 4 4e x p e r i m e n t so nc a p t i o ne x t r a c t i o n 4 0 4 5s u m m a r y 4 2 c h a p t e r 5 c o m e n t b a s e dl e c t u r ev i d e ob r o w s i n gs y s t e m 4 3 5 1l e c t u r ev i d e oq u i c kb r o w s i n gs y s t e m 4 3 5 1 1i n t r o d u c t i o no ft h es y s t e mf u n c t i o n s 4 3 5 1 2o v e r v i e wo ft h es y s t e m 4 3 5 2v i d e os h o t sl o c a t i o no f l e c t u r ev i d e o 4 8 5 2 1s h o t sl o c a t i o nb a s e do nk e yf r a m e s 4 8 5 2 2s h o t sl o c a t i o nb a s e do nk e yw o r d s 4 9 5 3s u m m a r y 5 0 c h a p t e r 6 c o n c l u s i o na n de x p e c t a t i o n 5 1 6 1c o n c l u s i o n 5 1 6 2 e x p e c t a t i o n 5 1 r e f e r e n c e s ! ;:; a c k n o w l e d g e m e n t 5 7 p u b l i c a t i o n ! ;8 山东大学硕士学位论文 摘要 目前,学术讲座视频已经成为读者获取知识的一种重要途径。然而,学术讲 座视频的数量每天都在增长,面对大量的学术讲座视频,读者找到自己感兴趣的 视频进行快速浏览并定位关注的部分就成了亟待解决的问题。学术讲座视频的快 速浏览技术也就应运而生,成为目前视频处理领域的研究热点之一。 基于关键帧的视频摘要和视频的字幕提取是实现视频快速浏览的两种重要技 术。本文在分析前人研究的基础上,提出了基于内容的学术讲座视频快速浏览方 案和基于关键帧、基于关键词的学术讲座视频段落定位方法。主要成果概括如下: 1 、提出了基于镜头的关键帧提取算法。该算法基于学术讲座视频的镜头变化 多采用突变方式的特点,采用已有的算法并根据镜头内容的多少确定提取关键帧 的数量。 2 、分析了基于视觉变化的关键帧提取算法和基于等间隔的关键帧提取算法。 3 、提出了基于帧差的字幕提取算法,该算法基于学术讲座视频的字幕文本一 般只在视频帧底部1 4 处,而且字幕与背景对比明显的特点,采用帧差法只比较 该处相邻两帧的直方图差异率,大大减少了计算量。 3 、提出了基于镜头结合字幕比较的关键帧提取算法。该算法基于学术讲座视 频的字幕文本在视频底部的特点,先根据镜头内容多少提取关键帧,再采用帧差 法只比较视频帧的底部,从而删除字幕重复的视频帧。 4 、提出了基于关键帧和字幕定位的学术讲座视频快速浏览方案。该方案一方 面可以根据关键帧快速定位感兴趣视频段落,另一方面也可以根据关键词快速定 位包含关键词内容的视频帧。 关键词:高校图书馆;学术讲座视频;快速浏览;关键帧;字幕提取 山东大学硕士学位论文 a b s t r a c t a tp r e s e n t ,t h el e c t u r e v i d e oh a sb e c o m ea ni m p o r t a n tw a yt oa c q u i r e k n o w l e d g e h o w e v e r ,w i t hm o r ea n dm o r el e c t u r ev i d e o s ,i ti sap r o b l e m , w h i c hw es h o u l ds o l v eu r g e n t l y ,f o rt h er e a d e r st ob r o w s et h ev i d e ow h i c h t h e ya r ei n t e r e s t e di nq u i c k l ya n d l o c a t et ot h es p e c i f i cc li p s s ot h e q u i c kb r o w s et e c h n o l o g ye m e r g e d ,a n dh a sb e c o m eo n eo fh o t s p o t si nt h ea r e a o fv id e op r o c e s s i n g k e yf r a m e s “b a s e dv i d e oa b s t r a c ta n dv i d e oc a p t i o ne x t r a c t i o na r et w o i m p o r t a n tt e c h n o l o g i e s t oa c h i e v eq u i c kv i d e ob r o w s i n g b a s e do nt h e p r e v i o u sr e s e a r c h e s ,t h i st h e s i sp r e s e n t sac o n t e n tb a s e ds c h e m et ob r o w s e l e c t u r ev i d e o sq u i c k l y ,a n dak e yf r a m e sa n dk e yw o r d sb a s e ds c h e m et ol o c a t e c li p si nt h e v i d e oo fa c a d e m i cl e c t u r e s t h em a i nc o n t r i b u t i o n sa r ea s f o l l o w s : 1 ak e yf r a m ee x t r a c t i o na l g o r i t h mb a s e do nl e c t u r ev i d e oi sp r e s e n t e d a c c o r d i n gt ot h a tt h es h o t si nt h el e c t u r ev i d e o sc h a n g ea b r u p t l y ,t h ek e y f r a m ee x t r a c t i o nd e p e n d so nt h ec o n t e n to ft h es h o t si nt h i sa l g o r i t h l 2 ak e yf r a m ee x t r a c t i o na l g o r i t h mb a s e do nc a p t i o nd e t e c t i o ni s p r e s e n t e d c o n s i d e r i n gt h a tt h ec a p t i o nc a nd e s c r i b et h ev i d e oc o n t e n t e x a c t l y ,t h ef r a m ed i f f e r e n c em e t h o di su s e dt od e l e t et h ef r a m e sw i t h o u t c a p t i o ni nt h i sa l g o r i t h n l 3 ak e yf r a m ee x t r a c t i o na l g o r i t h mb a s e do ns h o t sa n dc a p t i o n c o m p a r i s o ni sp r e s e n t e d b e c a u s et h ec a p t i o n sa r e a tt h eb o t t o mo ft h ev i d e o f r a m e s ,t h ef r a m ed if f e r e n c em e t h o diso n l yn e e d e dt ob eu s e dt oc o m p a r e t h eb o t t o mo ft h ev i d e of r a m e si no r d e rt od e l e t et h ev i d e of r a m e sw i t h s a m ec a p t i o n 4 as y s t e mf o rq u i c kb r o w s i n gt h el e c t u r ev i d e ob a s e do nk e yf r a m e s a n dc a p t i o nl o c a t i o ni sp r o p o s e d i nt h es y s t e m ,t h ei n t e r e s t e ds h o t sc a n 山东大学硕士学位论文 n o to n l yb el o c a l i z e da c c o r d i n gt os e l e c t i o no fk e yf r a m e s ,b u ta l s ob e l o c a liz e db a s e do nt h ek e yw o r d si n c l u d e di nt h ec a p t i o n k e y w o r d s :u n i v e r s i t yl i b r a r i e s ,l e c t u r ev i d e o ,o u i c kv i e w ,k e yf r a m e , c a p t i o ne x t r a c t i o n i i i - 山东大学硕士学位论文 1 1 研究背景 第一章前言 随着互联网和视频处理技术的迅猛发展,人们不再满足于传统的从纸本文献 中获取信息的方式,从网络上获取信息已经成为人们生活中必不可少的需求。因 此,数字化视频越来越多的应用到学术讲座、新闻、家庭娱乐以及监控领域,成 为人们获取信息的一种重要载体。其中,学术讲座视频在高校图书馆馆藏资源中 占有非常重要的地位,学术讲座视频已经成为读者获取学科前沿信息的一条重要 途径。 然而,面对图书馆资源中的大量学术讲座视频,读者只能通过快进、快退等 简单操作进行视频的浏览,读者在其中找到自己感兴趣的视频并通过快速浏览找 到自己关注的部分是十分困难的。因此,学术讲座视频的快速浏览技术也就应运 而生,而且正在成为当前视频处理领域的研究重点。 1 2 各类视频的研究现状 视频摘要是对一段视频内容的简短总结,对实现基于内容的视频快速浏览有 着非常重要的作用。因此,视频摘要的研究成为近年来视频信息处理领域的研究 热点。 1 2 1 新闻视频的研究现状 新闻节目历来是人们关注的重点,全国的上千家电视台每天都在生产大量的 新闻节目,形成了海量的新闻视频。面对如此之多的新闻节目,人们急需在新闻 视频中找到自己的关注点所在片段,节约浏览视频的时间。而新闻视频摘要可以 帮助人们通过快速浏览找到关注的新闻节目。因此,新闻视频摘要的研究成为人 们近年来的研究热点之一。 目前,基于新闻视频快速浏览研究的主要有建立统一的、可扩充的视频摘要 山东大学硕士学位论文 模型、视频频摘要生成策略研究以及关键帧提取方法的研究。 栾悉道等n 1 提出了实体一描述一效用模型。根据该模型,以新闻视频为例,通过 对新闻视频编辑方式的特点进行分析,认为新闻视频中不存在“场景”这一层次, 直接把镜头作为新闻故事摘要的基本实体,该模型从视频实体出发,经过描述得 到效用,并最终根据效用来生成新闻视频摘要。 早在1 9 9 9 年,q i a n 刖a n q 雎1 等人就设计了一个适用于新闻视频的视频摘要系 统进行视频内容分析和研究。姜帆等口1 为解决新闻视频的检索途径问题,利用新闻 节目标题条出现的时空位置作为线索,结合对标题关键词的识别,建立了一个层 次化的新闻视频索引结构,提出了基于标题条检测的新闻场景分段索引方法。此 外,还阐述了基于镜头时间的全局摘要和基于场景对象选取的重点摘要两种策略, 以适应不同用户的不同需要。 天津大学的纪旭h 1 认为:新闻视频与一般的视频数据相比具有特殊的四层结 构:视频帧、镜头、故事单元、整个视频。提出了基于自适应阈值聚类、基于协 方差和基于条件熵的三种关键帧提取方法。此外,为了适应人的主观感受,提出 了一种基于分层的静态视频摘要方法,该方法可根据不同人群的观看需求来决定 关键帧的提取数量。 美国卡内基一梅隆大学的i n f o r m e d i a 系统隅1 首先通过t f i d f ( t e 瑚 f r e q u e n c y i n v e r s ed o c u m e n tf r e q u e n c y ) 技术对声频的文字脚本进行处理,提取 出关键词及与关键词相关的音频片段。然后,选择与音频等长的视频帧序列形成 多个镜头视频。最后,系统按照顺序从关键词所在镜头中选择其对应的视频帧, 经过综合分析得到视频摘要。需要说明的是,在视频帧的提取过程中,优先选用 静止帧、人脸帧和字幕帧作为关键帧。 1 2 2 体育视频的研究现状 随着社会的不断进步,各种各样的体育比赛越来越多。体育节目已经成为观 众喜爱的视频种类之一。然而,众多体育节目爱好者面对大量的体育视频迫切需 要快速浏览视频找到自己喜爱的项目并欣赏其中的精彩片段。体育视频摘要很好 的概括了视频的主要内容并且包含了其中的精彩镜头。因此,体育视频摘要的研 究也越来越受到人们的关注。 2 山东大学硕士学位论文 目前,基于体育视频快速浏览技术研究的主要有基于压缩域体育视频摘要研 究、基于用户需求的精彩视频摘要研究、基于镜头边界检测的体育视频摘要研究 以及针对足球视频摘要的研究。 中国科学研究院的欧阳建权阳1 提出了一种基于重放场景,利用压缩域特征生成 体育视频摘要的方法。由于基于压缩域特征生成视频摘要时不需要全解码,避免 了代价昂贵的反d c t 变换,速度上比基于像素域特征生成视频摘要大大提高,所 以,该方法根据宏块、运动矢量规则和镜头渐变规则定出重放镜头边界,并依据 重放场景中l o g o 的对称性识别重放场景。在此基础上,比较摄像机镜头运动相似 性和镜头关键帧的相似性,利用重放动作镜头探测原精彩片段从而生成体育视频 摘要。该方法解决了教练员或者运动员需要实时对比赛过程进行分析的问题,实 现了对体育视频的快速处理。 中国科学研究院的邢丽媛盯1 认为体育视频中绝大多数是各种各样的项目比赛 视频,大部分观众往往希望通过快速浏览视频找到比赛结果,而且这些项目比赛 视频具有周期性结构的特点。因此,提出了有监督音频分类和无监督场景聚类的 通用型体育视频摘要框架,应用该框架生成可长可短的精彩视频摘要,满足不同 容量的电脑、手机、掌上电脑等移动终端的要求。 卜庆凯等阳1 在视觉信息和音频信息中提取底层特征,建立其和用户兴奋之间的 映射关系,得到整段视频的用户兴奋时间曲线。在此基础上,用曲线的极大值和 极小值确定每个精彩片断的位置及其长度,达到从用户角度可以有效的检测到大 部分体育视频的精彩片段,实现快速浏览视频的目的。 中国科学院的王扉阳1 提出了一种基于重放的精彩事件检测方法。该方法认为视 频中重放的事件是最精彩的,目前已有的精彩事件视频摘要大多只是表明了一些 观众或者工作人员的主观感受,没有固定的统一的评价标准,全凭人的主主观感 受,不能充分表达视频底层特征和视频内容之间的语义联系。因此,该方法在一 定程度上给出了一个对精彩事件较为客观的评价方法。 南京理工大学的王建宇口们以羽毛球和网球比赛视频为例,在解压缩域内提出 了一种改进的基于时空切片的镜头边界检测算法,实现了对突变和滑变镜头的检 测。在压缩域内,还提出了一种基于宏块信息的镜头边界检测算法,实现了阈值 3 山东大学硕士学位论文 的自动选取和镜头转换点的准确定位。西南大学的李秀强n 妇在视频镜头边界检测 中应用符合人类视觉系统的新颖特征,用支持向量机作为分类工具,完成了视频 的镜头边界检测。 华中科技大学的郑刚n 2 1 看到目前的足球视频在体育视频甚至在数字视频中都 占有很大的比重,解决大量足球视频的快速浏览问题可以满足大批足球爱好者的 需求,提出了通过w e b 服务方式组织起来一个足球视频摘要生成系统的方法。 周艺华等n 3 1 提出了一种基于双投影法的球门镜头检测算法和基于球门检测的 精彩事件提取算法。吉林大学的刘锟n 钔设计了一套基于m p e g 足球视频的镜头分割 和关键事件提取系统。b a o x i nl i 等n 酗通过分析足球视频中的慢镜头、特写镜头的 特征,首先融合慢镜头、球员特写镜头的检测结果以及主色比例、切变镜头的检 测结果完成对足球精彩事件的检测,然后检测出现比分的字幕,最后将文字识别 结果与相应的精彩足球事件对应起来形成足球视频摘要。 1 2 3 家庭娱乐视频的研究现状 计算机技术和数字摄录设备的发展使得现代家庭可以轻而易举的录制视频并 存入家庭电脑。随着时间的推移,电脑中的视频越来越多,快速浏览这些视频就 成了家庭用户急需解决的问题,而家庭娱乐视频摘要就提供了一种快捷的视频浏 览方式。 浙江大学的沈江n 叼在分析家庭视频特点的基础上,给出了面向家庭视频的静 态视频摘要生成方法,设计了一套家庭视频摘要生成系统。 陈静n 力根据家庭视频的特点,提出了一种基于场景代表帧的家庭视频摘要生 成方法,给出了基于内容的家庭视频摘要系统。 电影视频作为家庭视频的重要组成,目前对此进行的研究主要是检测观众关 注的精彩镜头。比如电影视频中的实时爆炸或枪击场景。m o c a ( m o v i ec o n t e n t a n a l y s i s ) 系统n 町主要是从原视频中抽取出一段能够保留原始视频主要内容的动 态图像序列,也就是缩略形式的视频摘要。该系统探测视频中的特殊事件,如主 要演员的特写镜头、爆炸镜头、枪响等重要场景片段,把它们作为电影片段中最 有代表意义的场景片段来自动生成预告片。在m o c a 系统中,场景片段提取过程分 为:视频分割和分析( v i d e os e g m e n t a t i o na n da n a l y s i s ) 、场景镜头切分( c l i p 4 山东大学硕士学位论文 s e l e c t i o n ) 、选择场景并剪辑( c 1 i pa s s e m b l y ) 。 西安理工大学的程远n 鲫根据电影视频中爆炸场景的主色和音频特点,提出了 一种基于声像特征的实时爆炸场景检测算法;通过捕捉电影视频中枪击事件发生 瞬间的帧间变化信息和相应的音频信息变化,提出了一种基于声像特征的实时枪 击场景检测算法。赵亚琴等啪1 提出了一种基于运动注意力模型的电影视频摘要生 成方法。 总之,对家庭视频、电影视频快速浏览方式的研究主要还是探测其中的精彩 镜头或者特殊事件形成一段缩略形式的视频摘要。这和体育视频快速浏览方式研 究的出发点有点类似。只不过由于两类视频的特点有所不同,视频摘要所包含的 精彩片段的事件类型特点不同。 1 3 学术讲座视频的介绍 l 、学术讲座视频的概念 所谓学术讲座视频,就是把学术讲座讲解的全部过程以电信号形式加以捕捉、 记录、处理、储存、传送,以平滑连续的图像并配以声音展示给观众的视觉画面。 也就是说,学术讲座视频就是把人工实时拍摄到的学术讲座全过程处理加工后, 在电视或者网络上可以播放的一类视频。 2 、学术讲座的发展历程 讲座制是德国大学的发明 2 1 o 所谓讲座制一般是在大学里制定出其教学研究 的专攻领域也就是该大学的教学研究方向,并为其专攻研究方向配备一定数量的 教师进行授课与科研。由此看来,这种讲座制既反映了新出现学科的发展方向, 也反映了讲座教授在该领域的权威性,同时讲座制也赋予了讲座教授极大的权力。 因此,讲座制是作为一种基层学术组织而存在的。也就是说,开始发明的讲座并 不是现在意义上的讲座。随着中世纪大学的兴起,在整个亚洲、非洲和拉丁美洲, 讲座组织一直是比学系组织重要得多的学术组织嘲。 随着现代高等教育的发展以及信息传播的迅速发展,讲座的含义发生了重大 改变。首先,讲座的形式变得多样化。原来的讲座是某一专业领域的权威教授专 山东大学硕士学位论文 门开办的,形式固定而且单一:而现在的讲座形式变得多样化,有学术报告、科 技前沿、学术论坛等形式。第二,讲座的内容也发生了翻天覆地的变化。原来的 讲座都是某一专业研究领域的权威教授开办,讲座内容非常具有专业性,面向的 听众也比较固定;而现在的讲座内容变得更加多样化、更加细化,专业性不是很 明显,内容浅显易懂,更加注重对大多数用户的知识普及需求。第三,讲座的传 播形式和速度都发生了巨大变化。随着网络的发展和视频处理技术的发展,讲座 内容的传播不再是由教授一遍遍的重复讲演,讲座的过程可以制作成视频,在网 络上传播,传播速度大幅度提高。当然,为了使学术讲座视频达到吸引观众和方 便观众理解讲座视频内容的效果,视频编辑人员在学术讲座视频后期制作时加入 了字幕以及动画等。 随着大学的发展,学术讲座的内涵不断得到丰富,经过几百年的演变和发展, 已经被很多学者称为高校不可或缺的“文化大餐”。现在的学术讲座视频大部分被 高校图书馆作为馆藏资源通过校园网络提供给读者。在学术讲座视频这个自由的 学习空间中,任何专业、任何年级的读者都可以选择自己感兴趣的学术讲座视频 来看。这样不但可以让读者自由的选择知识,而且也可以从专家学者的讲座中学 会多角度分析本专业的知识。 随着数字图书馆时代的到来,越来越多的学术讲座视频作为非常重要的馆藏 文献被各大高校图书馆收藏,在图书馆资源建设、服务科研、培养人才的过程中, 发挥着越来越重要的作用。以山东大学图书馆电子资源中的学术报告厅为例,存 储着超过1 0 ,0 0 0 多小时的学术讲座视频,并且每天都在增加。面对学术讲座视 频的海量增长,读者迫切需要通过视频的快速浏览,在海量的学术讲座视频中找 到自己所关注的视频,并能定位到感兴趣的视频段落。而这正是本文进行学术讲 座视频快速浏览技术研究的意义所在。 1 4 小结 首先介绍了学术讲座视频快速浏览研究的背景,接着分析了各类视频的研究 现状,最后介绍了学术讲座视频并分析了其快速浏览研究的必要性。 6 。 山东大学硕士学位论文 第二章视频摘要及文本提取技术 2 1 视频摘要的概念和分类 实现视频快速浏览的关键是实现基于内容的视频查询与检索,而实现基于内 容的视频查询与检索的前提是从连续的视频数据流中提取出视频的语义结构,即 视频摘要。 所谓视频摘要,就是以自动或半自动的方式,由计算机生成紧凑的、能充分 表现视频语义内容的媒体缩略形式。也就是说,通过对视频结构和内容的分析, 从原始的视频数据中提取有意义的部分,将它们以某种方式生成紧凑的、能充分 表现视频语义内容的视频概要形式。视频摘要的目的就是用几句“话 或者一段 简单的“语句一把整个视频的内容表达出来,实现基于内容的视频快速浏览。 图2 1 视频摘要的分类 视频摘要可以有多种媒体形式和表现形式,它既可以是一段文字、多幅图像 的组合,也可以本身就是一段视频。视频摘要按表现形式可以分为:静态视频摘 要( v i d e os u m m a r y ) 和动态视频摘要( v i d e os k i m ) i r a 其详细分类如图2 1 所 示。 所谓静态视频摘要,又称为视频概要,是从原始视频中提取的一小部分静止 图像的集合,以静态的方式来表现视频内容。其中代表了原始视频的静止图像称 7 山东大学硕士学位论文 为关键帧( k e yf r a m e ) 。 所谓动态视频摘要( v i d e os k i m ) ,是一些图像序列及其对应音频的集合,它 本身也是一段视频,但时间上比原始视频要短很多。缩略视频由于含有丰富的时 间以及音频信息,更加符合用户的感知。 1 、标题( t i t l e s ) 所谓标题就是对视频内容的一段简短的文字描述,是最紧凑、简洁也是一种 很抽象的视频摘要表达形式。因此,标题形式的视频摘要一般是由人工来完成的, 计算机很难自动生成比较准确表达视频内容的标题。但是,标题形式的摘要非常 便于用户理解和建立基于文本的视频查询、视频检索,在一定程度上可以实现基 于文本的视频快速浏览。 2 、关键帧( k e yf r a m e ) 关键帧又称为代表帧,是一幅幅从原始视频中抽取的静态图像。关键帧形式 的视频摘要可以从视觉的角度提供较为直观的可视信息,但它反映的内容是静态 的,不能反映视频随时间变化、场景变化等的动态特性。 3 、故事板( s t o r yb o a r d ) 所谓故事板就是由一组从原始视频中抽取的图像按照一定顺序排列组成的视 频序列。故事板可以给用户提供视频的总体描述,在浏览的过程中也可以方便地 定位用户感兴趣的视频段落。故事板形式的视频摘要同时表达了视觉上的信息和 视频的时间信息,因而能更全面的体现视频内容。 4 、缩略视频( v i d e os k i m ) 缩略视频是由原始视频剪辑而成的一个视频片段,是高度压缩原始视频数据 的音视频片段。由于缩略视频具有内容丰富、直观,表现力强的特点,又保留了 原始视频的基本风格,家庭视频、电影视频一般采用这种视频摘要形式。 卡内基梅隆大学的i n f o r m e d i a 项目胁1 中的视频摘要生成系统是最早的。该系 统可以从原始视频中抽取出最重要的视频段落生成视频摘要,可以比较简洁地、 生动形象地表达原始视频的内容。该系统包括了视频分段( v id e os e g m e n t a tio n ) 、 视频文字识别( v i d e oo c r ) 、语音分析与识别( s p e e c ha n a l y s i sa n dr e c o g n i t i o n ) 、 8 j 一 - 山东大学硕士学位论文 自然语言处理( n a t u r a ll a n g u a g ep r o c e s s i n g ) 、人脸检测( o b j e c td e t e c t i o n : f a c ea n dt e x t ) 等多方面的内容。 5 、多媒体影片摘要( m u l t i m e d i af i l m ss u m m a r y ) 多媒体影片摘要是由多种媒体形式组成的影片内容表现形式,它将文字、镜 头图像等其他信息加在缩略视频摘要中来表现原始视频的主要内容。 l 2 2 各类视频摘要的生成算法 1 、新闻视频摘要的生成算法 随着网络和视频处理技术的高速发展,网络上的多媒体信息呈指数级增长, 为此,用户迫切需要视频制作者对这些信息进行有效的组织、总结,以便用户可 以方便快捷、有选择地使用这些信息。那么,新闻视频的快速浏览就成为了人们 研究的热点之一。新闻视频摘要为建立视频的查询、检索提供了必要前题,而摘 要的生成算法是提高视频摘要质量的必要手段,视频摘要质量的好坏直接影响视 频快速浏览时对视频内容的理解。 目前,新闻视频摘要的生成算法主要有:基于关键帧的静态视频摘要生成算 法和基于多种信息的新闻视频摘要生成算法。 西安电子科技大学的张婵汹1 提出了具有典型性和抗噪性的可能性c 一模式 ( p c p ) 聚类算法来提取关键帧,结合主色调和次色调描述视频图像特征的方法, 设计了基于语义和基于半语义的视频关键帧提取方法,用户可以有选择的浏览不 同方法提取的关键帧,实现视频的快速浏览。 天津大学的纪旭 4 利用图像分割技术中的分水岭算法和o t s u 算法设计出自 适应阈值,再用聚类的方法提取关键帧,利用协方差和条件熵的方法减少提取的 关键帧冗余,实现了基于内容的视频快速浏览。 p a t r i z i oc a m p i s i 汹1 等早在1 9 9 9 年就提出了一种基于小波变换的关键帧提取 方法,用户通过浏览关键帧可以快速的浏览视频,了解视频的基本内容。 y a n n i ss a v r i t h i s 1 提出了一个基于即e g 视频数据库计算机视觉与图像理 解的关键帧提取框架,该框架基于递归最短生成树( r s s t ) 算法,采用模糊多维直 9 山东大学硕士学位论文 方图提取关键帧。由于该框架的设计是针对m p e g 视频的,而现实中,视频的数据 类型很多,因此该方法具有一定的局限性。 s h u p i n gy a n g 等啪1 提出了一个基于统计模型采用无监督聚类的关键帧提取方 法。该方法首先利用无监督聚类方法把视频帧分类,然后每一类提取一个关键帧 作为候选帧,最后使用统计模型来统计计算最后的关键帧形成视频摘要。 一般情况下,新闻视频中的主持人是其中的重要人物。因此,检测主持人帧 作为新闻视频的关键帧生成摘要,也是目前研究较多的一种算法。 西安电子科技大学的张婵啪1 在对主持人帧特征分析、音频检测、特征

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论