




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、论文写作不是一朝一夕,更不能胡编乱造。需要切身研究、调查.分析与归纳,需要大量的数据处理与查阅资料。本论文不求带给你多大的帮助,只愿做您脚下之石。该文档为word格式,方便复制修改打印,写论文就是这么简单以下是正文数字视频信息的索引研究(作者:单位:邮编:)引言视频(video )是源于广播电视业的术语,指内容 随着时间 变化的图像(picture )序列,也称为活动图像(motion picture 广 义的视频有电影、电视和计算机动画等不同类型,狭义上的视频主 要是指电视类视频。视频是一种重要的视觉信息源。随着各种数字影像设备的发 展与遍及,以及多媒体技术和internet的发展,人们面对
2、的视频信 息种类迅速地增长,如电影、电视、视频会议、监控录像等。仅中央 电视台(cctv )截至xxxx年就保存有约30万盘视频节目,目前 cctv开设有15套节目(日播岀量超过300小时,其中约有1/3是 首播节目x 6套付费电视频道,以每天保# 80-90h的首播节目计算,每年新增节目将会达到3万小时以上口。面对如此巨量的视频 信息,人们迫切希望改进传统的对视频数据的线性查找方式,研发出 能够快速定位和部 分析 取的视频数据获取技术。要达到这样的目 标,首先需要将视频数据有序化,即对视频信息进行有效的索引,使 之便于检索2。从目前来看,数据库信息、文本信息、图形图像信息的检索已 进入成熟期
3、,已有许多实用的检索工具和产品,而视频信息的检索目 前还处于研究阶段,虽然已有一些实验原型和个别针对特定领域的 检索工具,但目前还无普遍实用的工具和产品。其主要原因是,与其 他信息(如文本、图像等)相比,视频信息主要有如下一些特点:(1 )信息内涵丰富;(2 )无“显式”的结构;(3)存档方式、视频格式和编码标准较多;(4 )数据量大。近年来,许多研究人员在文本信息、图形图像信息检索技术的基础上,对视频信息检索技术进行了大量的研究,研究内容涉及视频信息的存储组织、内容分析、特征抽取、索引方法、匹配算法、检索算法、检索结果的评估和视频信息的表现形式等诸多方面。本文在 分析视频信息的隐含结构基础上
4、,研究视频信息的索引对象、索引模 型和索引结构。2、视频信息的隐含结构与索引对象目前的视频文档都是以节目(或称为作品)为单位表现某个主题, 其数据在组织时无“显式”的结构和索引信息(如同一本无目录和章节 标题的书籍),用户只能采用线性方式观看和欣赏。传统的视频信息 的消费往往是以节目为单位进行的,即查找某一电视节目(电视片、 广告片、某场 体育比赛等),但不同类型的用户(消费型、研究型、 创作型和 应用 型),在不同的场合下(通过电视、网络、pda、 移动电话等)可能有不同的视频消费要求,即可能需要以镜头、场景 或故事单元为单位进行消费。例如,篮球教练需要查找“姚明进攻”的 视频镜头、司机在“
5、塞车”时利用pda收看某场足球比赛的精彩片段 或画面等等。所以,对视频信息进行“结构化”,并针对不同的结构层 次对象进行索引,是实现基于内容的视频信息检索的基础。2.1视频信息的隐含结构从形式上看,视频信息本身是一种无“显式”结构的流媒体,即数据流本身无明显的“章节、段落”结构,但从构成和语义上看,视频 信息蕴涵着帧、镜头、场景、故事单元和节目这样的层次型结构。其 中,帧、镜头和节目是视频信息的物理组成成分,而场景和故事单元 则是语义上的逻辑组成成分。视频是内容随着时间变化的图像序列,其最小组成单位是帧(frame ),即一幅幅静止图像;针对一个对象或事件的、摄像机一次拍摄产生的帧集合称为一个
6、镜头(shot);发生在某一场地的、针 对某一对象、具有相对独立的叙事情节的一个或多个连续镜头构成一 个场景(scene );故事单元(story unit)是指针对某一事件的、具有相对完整的故事情节的一个或多个连续场景的集合,例如电视连续 剧中的每一节节目、nba比赛中的每一节比赛;节目(program )是 独立的完整的视频文档,通常表述一个完整的故事或事件。视频信息 的这种隐含结构,可用如下的数学模型表述:shot = frame , i | i > 1 scene = sho圳 |i>1 story_unit = scene, i问 program = story_unit
7、 , i | i>1 2.2视频索引对象的分割与选取视频信息蕴涵着帧、镜头、场景、故事单元和节目这样的层次 型结构,为了满足不同的应用需求,视频信息的索引应在各个层次上 分别展开,即对视频信息的索引,不仅要以节目为对象,而且需要在 视频分割的基础上以帧、镜头、场景和故事单元为对象分别进行索引。节目和帧是视频信息有的自然层次,而镜头、场景和故事单元则要通过对视频内容的分析、采用各种算法进行分割才能得到。(1)帧对象的选取虽然帧是视频信息固有的自然层次,但一个视频文档由太多的 帧组成(每秒2530帧),且帧之间存在大量的信息冗余以及用户 不感兴趣的帧图像,这就需要采取一定的策略进行帧的
8、9;选取”,找出定数量的“代表帧”(也称为“关键帧d目前代表帧的选取大多是在镜头分割的基础上,以镜头为单元分别进行代表帧的选取,选取算法主要是以镜头的首帧、尾帧或中间 帧为代表帧。笔者认为,代表帧的选取还应考虑两个方面:一是对于 不同体裁(类型)的视频,应采用不同的选取方法,且代表帧的数量 也应区别对待;二是可以通过帧图像的相似性比较,对帧进行聚类, 从帧数最多的类中选取代表帧(因为持续时间长的画面往往更具有代 表性l(2)镜头分割镜头是视频节目构成的基本单元,也是视频消费时的最小逻辑单元。一个完整的视频节目通常由若干个镜头组成,例如一部2小时 的电影通常由数百个镜头组成。镜头之间的切换形式主
9、要有突变和渐 变两大类,渐变又可分为隐现(dissolve x淡入/淡出(fade )和擦除(wipe )等不同类型,文献4列出了常见的10种镜头变换形 式,在实际的应用中可能有上百种镜头变换效果。采用人工方式进行视频分割是十分费时的。近十多年来,电子工程和计算机 科学 等领域的学者从不同的角度研究出了多种自 动镜头检测的方法,其基本思想大多为比较相邻帧之间的相似性。目 前镜头检测技术的方法分类主要有以下三种: 根据所处理的视频是否为压缩数据进行分类,如文献4所述,将镜头变换检测方法分为基于解压的全图像序列的识别方法、直接基于压缩视频的识别方法和基于确定变换模型的识别方法; 根据检测的镜头变换
10、类型进行分类,如文献 所述,将镜 头变换检测方法分为突变检测(hard cut detection '淡入/淡出检 测(fade detection )和隐现检测(dissolve detection )等类型; 根据检测时所采用的视频特征进行分类,可以将镜头变换检 测方法分为基于亮度/颜色(intensity/color )的检测、基于纹理 (texture )的检测、基于边缘(edges/contours )的检测、基于运 动(motion )信息的检测,等等。镜头突变检测的技术相对比较成熟,一般采用基于颜色直方图 比较法即可得到较高的准确率。但对于形式多样的渐变切换检测,通 常需
11、要采用多种检测手段进行综合检测,这也是目前镜头检测研究的 难点和热点之一。(3) 场景分割场景是发生在某一场地或针对某一对象(或动作)的、具有相 对独立的叙事情节的一个或多个连续镜头的集合。有时一个场景就是 一个镜头,有时一个场景是从不同角度反映同一场地(或对象或动作) 的多个镜头的组合。目前场景分割(也可称为场景构建)一般是在镜头分割的基础 上,采用镜头聚集的方式实现。文献6提出了一种通过构造层次型 “场景变换图”的方法实现场景分割的思路,场景变换图中的结点表示 镜头、边表示变换,基于场景变换图,利用颜色的相似性计算对镜头 进行层次聚类,形成的每一个子图即为一个场景;文献7提出了一 种在镜头
12、分割基础上,利用运动信息(包括摄像机运动和对象运动 镜头长度和颜色属性进行场景检测的方法。(4)故事单元分割在影视制作过程中,导演根据剧本的内容,按照叙述的逻辑并 根据创作意图,合乎逻辑地、富有表现力地、有节奏地把镜头连接起 来,构成完整的银幕形象,形成比镜头更高一级的结构故事单元 8o故事单元是指针对某一事件的、具有相对完整的故事情节的一个 或多个连续场景(镜头)的集合。故事单元分割的基本思想也是在镜 头分割的基础上,结合领域知识对镜头(或场景)进行聚类分析。故事单元的理解主要是从语义层次上进行的,其长度(大小) 并没有确切的定义和界限,需要更多地考虑视频节目的类型、体裁等 领域知识。对于不
13、同类型的视频节目,其故事单元的划分有不同的形 式。例如,对于电视连续剧,可以将每一集看作一个故事单元;对于 体育节目,可以根据其本身所固有的时间间隔进行分割,或根据主要 事件(如得分、进球等)进行分割等。2.3视频索引对象的数据结构数据模型是直接面向计算机系统(数据库数据的逻辑结构。在常见的数据库系统中,根据实体集之间的不同结构,通常把数据模 型分为层次模型、网状模型、关系模型和面向对象模型四种。目前成 熟的、主流的数据库管理系统绝大多数是采用关系模型,并在此基础 上扩展了面向对象的程序设计功能。鉴于这种情况,可以考虑视频索 引对象的数据结构采用如下的关系数据模式:节目program (节目号
14、pno ,索引信息p )故事单元story unit(节目号pno ,故事单元号uno ,索引信 息u )场景scene (节目号pno ,故事单元号uno ,场景号eno , 索引信息e)镜头shot (节目号pno ,故事单元号uno ,场景号eno ,镜 头号sno ,索引信息s )代表帧keyframe (节目号pno ,故事单元号uno ,场景号 eno ,镜头号sno ,帧号fno ,索引信息f)在实现时,节目号由分类号和编号两部分组成,其中分类号应 采用类似于中图分类号的编码体系,分类方法可 参考tv - anytime 论坛制定的分类策略(sp003v1312);故事单元号、场
15、景号、镜头 号和帧号可采用视频片段的起止时间码(smpte使用的时间码格式 为:v小时:分钟:秒:帧);各索引对象的索引信息可根据后续 讨论的索引模型创建。3、视频信息的索引模型3.1视频信息的内容模型视频包含有丰富的信息内容,针对同一段视频,不同的人、在不同的情形之下观看,通常有不同的感受,即使是同一个人多次观看同一段视频,往往也会有不同的感受。针对视频所包含的信息内容, 许多学者从不同的学科出发,对其进行了较为深入的研究。其中, 较有代表性的是 文献9提岀的视频内容分类模型,如图2所示。该模型根据人类视觉感知和认识事物的规律,将视频内容分为三个层次:第一层(低层)为用户观看视频时首先感知的
16、视觉信息, 如颜色、纹理、形状、运动等;第二层(中间层)为通过逻辑推理而 得的、基于对象(object)的感知信息,如视频中包含(描述)的人 物、地点、时间等;第三层(高层)为通过智能推理而得的、基于知 识(knowledge )的感知信息,它反映了视频本身的语义,以及由此 而来的感受,如某视频片段为暴力镜头、欢庆场景、劫机事件等等。这种视频内容建模方式为基于内容的视频信息索引提供了有益的指 导。3.2视频信息的描述需求与索引模型视频信息内涵的丰富性、用户检索需求的多样性,决定了在对 视频信息进行索引时,应尽可能地从各个层次和侧面进行全方位的描 述。根据mpeg-7的目标要求10,对视频信息的
17、描述至少应包括 如下的信息:(1)有关内容的产生和发展进程的描述信息(如导演/作者、 标题、版本等);(2)与内容使用有关的信息(如版权、使用历程、宣传计划 等);(3)有关内容存储特性的信息(如存储格式、编码等);(4)有关内容的低层特性的信息(如颜色、纹理、音质、音 调描述等);(5)从内容捕捉到的实体的概念化信息(如对象和事件,对 象间的交互作用等);(6)利于浏览视频内容的信息(如概要、变更、空间和频率 等);(7)关于用户和内容交互作用的信息(如用户选择、使用历 史等l根据mpeg - 7提出的描述要求及视频内容分类模型,可以考 虑采用如图3所示的视频索引模型。在该索引模型中,视频信
18、息的索引分为外部信息索引和基于内 容的索引。外部信息索引是指基于视频文档外部的、不依赖于其内容的信 息索引,用于视频文档的标识和检索,如标题、作者、时间、文档大 小、存储格式与编码格式、使用信息(软硬件要求、使用要求、版权 等)等等。基于内容的索引又可以分为结构索引、低层特征索引、中间层对象索引和高层语义索引,后三种索引与图2所示的视频内容模型相 对应。结构索引是指节目、场景、镜头、帧之间的层次结构与关系等; 低层特征索引是基于视频信息的物理特征信息(如颜色、纹理、运动、 音质、音调等)进行索引;中间层的索引是对视频中可识别对象(如 时间、地点、人物等)的索引;高层语义索引用于描述视频中包含的
19、事件及相关的感受。3.3视频对象与索引类型的关系不同(层次)的视频对象对应着不同的索引,其对应关系如表 1所示。帧的索引包含低层特征索引、中间层对象索引和高层语义索 引。其中,低层特征可以自动地提取,中间层对象可以采用人工或半 自动化(基于图像识别技术)的方式进行标引,高层语义可以采用人 工输入方式进行标引。表1视频对象与索引类型索引外部信息对象结构索引索引低层特征中间层对象索引高层语义索引索引(代表帧)vv7镜头vv场景vv故事单元vv节目镜头的索引主要是中间层对象索引和高层语义索引。其中,镜 头的中间层对象描述是在帧的中间层对象描述基础上进行扩充,高层 语义可以采用人工输入与自动提取(主要
20、是指利用语音识别与文字识 别等技术直接从视频信息中提取)相结合的方式生成。场景和故事单元的索引主要有结构索引和高层语义索引。其结 构索引用于描述镜头之间的关系,高层语义索引描述的是在镜头语义 基础上形成的叙事(故事)情节。节目的索引包含外部信息索引、结构索引和高层语义索引。3.4索引类型与检索方式的关系视频信息的检索主要有三种类型,即结合在线相关反馈机制的 基于示例的检索(query-by-example )、基于关键词检索 (query-by-keyword )和基于导航机制的视频浏览(video browsing ),它们与索引类型的对应关系如表2所示。表2检索方式与索引类型索引外部信息
21、结构索引 低层特征 中间层对 高层语义索引索引 象索引索引检索方式示例的检索vv关键词检索 vvv4、存在的问题及探讨面对急剧增长的视频信息,如何高效且合理地对其进行索引是视 频信息重用和消费的基础。虽然近年来的研究已取得不少的进展,但 仍然存在许多有待解决的问题。有些问题是属于“技术”层面的,如视 频分割、代表帧提取、图像理解、文字识别、语音识别等,有些问题 是属于“非技术”层面的,如视频元数据标准、文本描述的规范性、视 频作品的规范化等。下面就一些“非技术性”问题进行探讨。4.1视频信息的元数据标准信息的索引描述是信息的元数据,索引项的确立依赖于元数据标准的制定。针对不同的资源类型、不同的
22、用途、不同的机构建立了 多种不同的元数据标准。随着数字视频技术的发展,针对数字视频信 息的元数据研究也在不断地深入,并已出现了一些基于不同目标的元 数据模式或标准,如数字电视元数据标准(dvb-sk tv-anytime和smpte等)、视频软硬件厂商推出的元数据标准(apple公司的quicktime、microsoft 公司的 windows media 等)以及 mpeg-7 等11o由于视频信息本身固有的复杂性,使得视频信息在创建、存储、传输和使用等过程中需要不同的管理信息(元数据)笔者认为,根 据视频元数据的发展现状,在研究和制定元数据标准时应注意三点: 一是这些元数据标准应整合在统
23、一的框架之内,在统一的视频元数据 框架基础上形成面向不同 应用 的子集;二是视频元数据标准应适应 mpeg制定的侈媒体描述框架”mpeg-7标准;三是采用通用的 xml语言语法。4.2文本索引信息的规范性虽然基于示例的视频检索是最简便的检索手段,但用户往往不 会有现成的示例,且目前现有技术很难高效地为普通用户提供一个 初始查询示例。目前来看,利用文本信息对视频信息进行索引(即基 于关键字的视频检索),既符合一般用户的检索习惯,又可借助日趋 成熟的文本检索技术。文献3较为深入地探讨了基于文本信息的视 频索引及其相关技术,特别是文本信息获取的途径。在采用文本信息对视频信息进行索引(包含外部信息索引
24、、中 间层对象索引和语义索引)时,无论这些文本信息是人工输入的,还 是自动提取或生成的,均需要考虑文本描述的规范性,即如何对视频 信息的某种特征和属性(如视频节目的类型、流派等)进行表述。对 此应从两个方面进行研究并制定相关的标准:一是对于一些可面向所 有视频文档的通用属性,应建立相关的分类标准和词汇表,目前tv -anytime论坛在这方面已做出了开创性工作,在其已制定的元数据 规范(sp003v13 )中已经定义了一个独特的文档结构来综合节目描 述、用户描述、分类策略12;二是对于特定类型的视频节目(如各 体育比赛),应建立相关的对象、事件描述标准和词汇表。4.3视频文档的规范化目前文本文
25、档的论文格式规范和著录标准(例如章节、标题的 格式,每一篇论文均需要给出标题、作者、摘要、关键词,等等), 为文本文档的管理、索引、检索和浏览等带来了极大的便利。对于视频作品(文档)来说,也应该且急需制定出相应的视频 文档规范,这包括两个方面:一是规定视频作品必须有著录标准,应 能提供相应的视频摘要(文本的、图像的、视频的).关键词(关键 帧)等元数据,作者和相关的制作人员对作品的理解最深、主题把握 最准,由这些人员给出的相关信息(元数据)显然是最为有效的视频 索引信息;二是应制定视频文档的格式规范,也能像文本文档一样提 供结构化的信息,包括视频的组织、结构层次等信息。要解决视频文 档的规范化问题,需要从两个方面努力:一是各种规范和标准;二是 开发相应的视频"写作”
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 三年级上美术教学设计-幸福乐园-湘美版
- 2024年五年级数学上册 五 多边形面积的计算 2三角形的面积教学设计 西师大版
- 20陀螺教学设计-2024-2025学年四年级上册语文统编版
- Module 10 教学设计 2023-2024学年外研版七年级英语下册
- 关系营销企业内部关系
- 竞凭幼儿园园长述职报告
- 2024-2025学年高中生物 第1章 第4节 基因工程的发展前景教学设计 浙科版选修3
- 2024六年级语文下册 第二单元 习作:写作品梗概教学设计 新人教版
- 七年级英语下册 Module 3 Making plans Unit 1 What are you going to do at the weekends第1课时教学设计(新版)外研版
- 2024-2025学年高中化学 第一章 第二节 原子结构与元素的性质 第2课时 元素周期律(一)教学设计 新人教版选修3
- 班组工程量结算书
- 生产件批准申请书
- 环境监测考试知识点总结
- 爵士音乐 完整版课件
- 嘉兴华雯化工 - 201604
- 冀教版七年级下册数学课件 第8章 8.2.1 幂的乘方
- XX公司“十四五”战略发展规划及年度评价报告(模板)
- 计算机辅助设计(Protel平台)绘图员级试卷1
- 除法口诀表(完整高清打印版)
- 河北省城市建设用地性质和容积率调整管理规定---精品资料
- 讲课实录-洛书时间数字分析法
评论
0/150
提交评论