（机械工程专业论文）dvdvideo中的视频检索技术研究.pdf

上传人：活*** IP属地：宁夏上传时间：2019-12-15 格式：PDF 页数：72 大小：2.57MB 积分：0 举报 版权申诉

已阅读5页，还剩67页未读，继续免费阅读

（机械工程专业论文）dvdvideo中的视频检索技术研究.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

摘要，信息内容的越来越丰富。最早计算机据信息，对人类来说显得不够直观。人们渴望获得更加丰富形象的信息内容。多媒体技术的引入使得计算机能够处理诸如图像、视频、声音、图形等信息。其中视频作为多媒体信息中最接近自然、表现最为生动的信息媒体而被广泛应用。然而，对视频数据进行有效地存储和管理还存在一定困难。近年来d v d 技术的发展使得信息存储有了新的突破，尤其是d v d - v i d e o ，它不仅能以更好的质量保存多媒体信息，同时在用户交互方面具有比以往其它碟片更方便更逼真的优点。而且d v d - v i d e o 还增加了许多用户查询视频内容的功能。如通过时间码查找，通过播放前的几个随机画面查找，以及d v d v i d e o 中的章节查找等等。但这些方法对用户来说仍受到很大限制：时间码用户很难记住，从仅有的几个画面中难以找到实际需要的内容，d v d 的章节分割又太粗糙。因此，这些均无法实现基于用户需要的镜头的检索。本文希望通过加入一些人性化和语义化的内容，来提高d v d v i d e o 的检索功能，也即能够实现基于内容的检索，使得检索能够基于镜头进行。 d v d 影片的镜头查询，就是可以让用户根据对影片的某些镜头的印象来查找出与其相似的镜头在整个影片中的确切位置。这样的话，用户由于某些特殊的需要或者想观看酬i 次观看而中断的后续内容，就可以将镜头快速而方便地查找出来f ) 本文就d v d 的检索，提出一种双直方图比较法来分割视频镜头以及自校正镜头聚类方法实现场景聚类，这是实现d v d 影片检索的基础。同时，文中结合d v d 数据结构与d v d 编辑制作方法，提出了基于d v d 的p g c ( 节目链) 来实现d v d v i d e o 影片内容的检索。最后，本文还研究了视频自动摘要生成技术与方法，自动视频摘要不仅能够方便用户检索，使用户快速掌握一段视频的大意，而且可以快速定位到感兴趣的视频片段上。簿露黧j 瑟，u 。一j 蠢醛爹。? ：一讨“o j a b s t r a c t a st h es o u r c eo fi n f o r m a t i o nb e c o m em o r ea n dm o r ew i d e ，t h ec o n t e n tb e c o m e m o r ea n dm o r er i c h c h a r a c t e rn u m e r i c a ld a t at h a te a r l yc o m p u t e rc a nb ep r o c e s ss e e m s t o or i g i d p e o p l eh o p et ou s em o r ev i s u a li n f o r m a t i o n m u l t i m e d i at e c h n o l o g i e sm a k ei t p o s s i b l et op r o c e s si m a g e ，v i d e o ，a u d i oa n dg r a p hi nc o m p u t e r e s p e c i a l l yv i d e ow h i c h i st h em o s tn a t u r a la n dd r a m a t i cm e d i aa n dw a su s ew i d e l y , b u tt h e r e r es t i l im a n y d i f f i c u l t i e st os t o r ea n dm a n a g ev i d e od a t a r e c e n t l y d v d t e c h n o l o g i e s b r e a kt h eb o t t l e n e c ko fm u l t i m e d i ai n f o r m a t i o n s t o r a g e ，e s p e c i a l l yd v d - v i d e o ，w h i c hc a ns a v em u l t i m e d i ai n f o r m a t i o n i nh i g hq u a l i t y m e a n w h i l ei ti sm o r ee x c e l l e n ti ni n t e r a c t i o na n dm o r ec o n v e n i e n ti os e a r c h i n gv i d e o c o n t e n t s u c ha ss e a r c h i n gb yt i m e c o d e ，s e a r c h i n gb ym e n us u b p i c t u r ea n ds e a r c h i n g b yc h a p t e r s b u ta l lt h e s em e t h o d s a r es t i l ll i m i t e d ，a su s e r sc a n tl o c a t et h ee x a c tp o i n t t h a th e s h en e e d t h i sb e c a u s eu s e r sc a l l tr e m e m b e rt h ee x a c tt i m eo ft h ev i d e os h o t t h a th en e e d ，a l s oc a n tf i n dt h ee x a c tc o n t e n tb y b r o w s i n g s of e w s u b p i c t u r e si nm e n u a n df u r t h e rm o r e ，t h ec h a p t e ro rc e l l s e g m e n t a t i o ni n d v di sv e r yr o u g h s ot h e p r e s e n td v d v i d e o c a n tr e a l i z er e t r i e v a lb ys h o t c o n s i d e r i n go ft h i s ，am e t h o do fi m p r o v i n gd v d v i d e o sr e t r i e v a la b i l i t y i s p u t f o r w a r d b ya d d i n gs o m en a t u r a la n ds e m a n t i cc o n t e n t ，c o n t e n t b a s e dr e t r i e v a l ，w h i c h c a ns e a r c hv i d e oc o n t e n tb a s e do os h o t ，c a nb er e a l i z e dq u i c k l y q u e r yb yd v d v i d e os h o t ，w h i c hm e a n st o l e tu s e r st os e a r c hs h o tb yt h e p r o b a b l ei m p r e s s i o ni nt h e i rm i o d ，a n df i n da l is i m i l a rs h o t si nt h ew h e l ev i d e oa n d t h e nl o c a t ef u r t h e rt ot h ee x a c tp o i n t t h i sw i l lm a k eu s e r st of i n dw h a tt h e ye x a c t n e e dq u i c k l y i nt h i s p a p e r ，a m e t h o dt o s e g m e n t v i d e os h o tc a l l e d d o u b l e - h i s t o g r a m c o m p a r i s o na n d as c e n ec l u s t e rm e t h o dc a l l e d a u t o a d j u s t s h o t c l u s t e r i n g i s p u t f o r w a r d m e a n w h i l ec o m b i n i n gw i t ht h ed v ds t r u c t u r ea n dd v dc r e a t em e t h o d ，a r e t r i e v a lm e t h o db a s e do nd v d - p g ci s p r o p o s e d f i n a l l ya u t o m a t i cv i d e oa b s t r a c t t e c h n o l o g yi sd i s c u s s e di nt h i sp a p e r , w h i c hc a l ll e t u s e r sn o to n l yg r a s pt h et e n o ro f v i d e ob u ta l s ol o c a t et h ei n t e r e s t e dv i d e o c l i pq u i c k l y 。糍j ，一- 簟i 簿”繁爨孵挚 1 、d v d 概述第一章概述第1 节d v d 与d v d v i d e o d v d 是英文d i g i t a l v i d e od i s c ( 数字视频光盘) 的缩写。实际上d v d 不仅可以存储影视节目，也可以存储其他数据，如音频和计算机数据等等，因此后来又将d i g i t a l v i d e od i s c 更名为d i g i t a lv e r s a t i l ed i s c ( 数字通用光盘) 。d v d 的目标是用一种专用数字格式存放用于家庭娱乐、计算机以及商业信息等领域的多种数据，并希望能够取代音乐c d 、录像带、l d 、c d r o m 甚至视频游戏盘。d v d 的推出在电子领域、计算机硬件领域以及电影和音乐领域得到了广泛的支持。 d v d 实际上有一系列内容，并不是单一的只读光盘。目前已制定或正制定的d v d 标准就包括【i 2 】：计算机用的d v d r o m ，是由b o o ka 描述的d v d 标准，主要用于装计算机用的数据格式；由b o o kb 描述的以视频内容为主的d v d v i d e o 标准，主要是用来存储影片，它可将以往一部1 3 3 分钟的影片存储于一张碟内( v c d 则需要2 张盘) ，当然d v d v i d e o 还可存储其它以视频数据为主的内容，如卡拉o k ， m t v ，游戏等。d v d a u d i o ，由b o o kc 描述的音频标准，可存储7 5 首以上音乐作品。另外还有将用b o o kd 描述的可写一次的d v d r ，以及由b o o ke 来描述的可多次读写的d v d r w ( 以及d v d r a m ， d v d + r w ) 。因此可见d v d 产品将是一种全方位的光盘产品，从音频到视频、从只读到可重写，这些光盘产品均包含在d v d 中。虽然d v d 类似予以前用的c d 光盘，但它们的内部格式以及制作工艺等都非常不同。d v d 的容量远远高于c d 的6 8 0 m ，仅单面单层 d v d 就有4 7g b 的容量，而双面双层可达到1 7 0g b 。按单l 面单层，单面双层，双面单层以及双面双层，d v d 可分为四种：d v d 5 ，d v d 9 ， d v d 1 0 ，d v d 1 8 ，这四种d v d 格式以及d v d r 和d v d r a m 的容量分别如表1 1 所示：表1 - 1d v d 的容量及其层面数名称容量( g b ) 层数面数 d v d 一54 71l d v d 一98 5 42l d v d - 1 09 4l2 d v d 1 81 7 0 822 d v d r3 9 5 7 91lo f2 d v d r a m2 6 5 2l1o r2 d v d 比c d 更优秀的原因在于它的制作过程和内部结构设计。d v d 的基本制作过程除了有些地方不同外，基本与目前的c d 类似。制作一个d v d 需两种注塑模型，包括两片0 6m m 的衬底。另一个不同的制作过程是热融胶粘合( 单层) 或u v 粘合( 双层) 。对于双层设计，加入了一个半反射层，使得信息能够从盘片的一面读出。d v d 还用高分辨率激光束来写玻璃母盘，再加上新型的半反射层面，而不是用传统c d r o m 中的铝层。内部设计的改进是d v d 比c d 更好的主要方面。为了提高双层的清晰度和可读性，单层d v d 的最小凹凸坑长度为0 4 微米，而c d 是 o 8 3 微米。另外，d v d 的轨道间距为o7 4 微米，比c d 的1 6 微米少图l - i 四种d v d 格式的激光读取一半多。因为容量与坑数是等同的，d v d 降低了槽与坑的间距而产生了四倍于 c d 的坑数目。 d v d 的另一个有趣特征是d v d 的第二面的数据层能够从盘片里面朝外读，也可从外面往里读。而在标准密度的c d 中，信息总是存储在最接近轴中心处，这与 d v d 中的单层与双层一样，但每个盘的第二层可包含“向后”记录的数据或反向旋转的轨道。由于这种特性，从一个反射层到另一个反射层的聚焦只在瞬间。四种d v d 格式的激光读取方式如图i - 1 所示从物理格式来说，d v d 相对于c d 的主要改进在于： ( 1 ) 采用了0 6m m 衬底，这使得它能用于数据值孔径更大的物镜； ( 2 ) 信道间距和最小记录长度减小，因此信息记录密度增加； ( 3 ) 光学头号物镜的数值孔径增大，使得聚焦光斑更小： ( 4 ) 激光器波长变短； ( 5 ) 使用e f m + 编码方案。所有这些改进都提高了光盘的存储容量，同时d v d 无论在数据传输率上还是盘片转速上都比c d 有很大的提高。 d v d v i d e o 便是以这样的存储和读写格式记录视频数据的。现在市面上最常见的是d v d v i d e o ，人们常说的d v d 通常也是指d v d v i d e o 。它应该包括d v d - d e o 片子( d v d v i d e o t i t l e ) 与d v d v i d e o 播放机( d v d v i d e o p l a y e r ) 。本文主要研究与d v d 盘片有关的格式、制作以及d v d 处理的新方法。 2 、d v d v i d e o 基本原理 d v d 具有广播级质量的视频和比c d 好的音频，其质量远远高于录像带和l d 然而d v d 的质量还有赖于生产因素，如压缩经验和技术等。 d v d 视频采用m p e g - 2 格式，它的编码处理是用有损压缩的方法，去掉信息冗余( 如图像序列中不变化的部分) 以及肉眼不易察觉的信息。压缩以后的视频可能包含视觉缺陷，这取决于处理质量和压缩量。视频的平均码流速率为3 5 m b p s 高的码率使得视频质量也高，而m p e o 压缩技术改进以后，低码率也可产生很好的图像质量。d v d 的码率是可变的，为0 9 8 m b p s d v o - v i d e o 标准采用一种称为u d f 桥的文件系统。它的数据流用于存贮音视频序列，每个序列包含四种数据类型，如表1 2 所示1 1 i ：，舔溪辘舔一”、r 表1 2o v d - v i d e o 的数据流数据类型流的数量最大数据速率编码格式视频 19 8 m p e g 1 或m p e g 一2 视频包括静态图像。音频最多8 种 6 1 4 4 数字杜比声、m p e g 、l p c m 等子图最多3 2 种 3 3 6 2 b i t p i x e l 的游程编码导航 1 提供交互节目链其中，传输视音频和子图的最大码率为9 8m b s ( 如果包含控制信息，最大码率为l o 0 8m b s ) 。对于普通的播放时间为1 3 3 秒的影片，所需的平均码率为4 7m b s ，实际的视频平均码率依赖于音频轨道数和所采用的编码，但必须接近4m b s 才能获得很高的质量。子图是用于字幕及菜单中的一种图片，覆盖于视频图片或视频序列上，子图可以是任何大小。它的文本显示可达3 2 种语言，以弥补音频语言的不足。语言字幕以独立的文本图片方式存贮，这样有利于用户选择字幕语言。而菜单则是供用户选择具体内容的一种子图，包含一些菜单按钮，通过显著亮度显示来表示所选中的项目。导航数据便包含菜单与视频具体内容的链接等信息。为限制不同地区问的盘片在不同机器上互放，也即为防止非法复制，保护电影版权，d v d v i d e o 采用了区域码，这种区域码系统把全球分成6 个发行区域，如表1 3 所示【3 l ：表1 3d v d - v i d e o 的地区编码 j 区号包括区域区号包括区域l l 1 美国和加拿大 4 中南美洲、墨西哥、新西兰及澳大利rf l 2 欧洲、中东、南非和日本 5 非洲、俄罗斯、印度、巴基斯垣1 i 3 东南亚、台湾 6 中国大陆i 一般情况下，所有的播放机要求有区域码，但并不是所有的盘片都有区域码。有些盘片可以是全区域( a l l ) 的，即任何播放机上都可放映。同一影片的d v d 在不同区域发行时加入对应区域的密码，不同区域的d v d 播放机采用对应区域的密码解码，从而实现分区发行，不同区域之间不能通过直接拷贝来复用。d v d v i d e o 还可通过 c s s ( c o n t e n ts c r a m b l i n gs y s t e m ) 来进行反拷贝。但这两种方法现都已被人破译，因此已不可靠。 d v d v i d e o 的视频编码可用m p e g 2 也有用m p e g 1 的。按闺际上电视制式的不同，其m p e g 1 和m p e g 2 的编码参数如下：表1 - 4d v d - v l d e o 上m p e g 1 和m p e g 2 编码参数 m p e g - 2睢p e g - 1 n t s c ( 5 2 5 线) 分辨率 7 2 0 x 4 8 03 5 2x 4 8 0 ( 水平x 垂童) 7 0 4x 4 8 03 5 2x2 4 0 3 5 2x 4 8 0 3 5 2x 2 4 0 p a u s e c a m ( 6 2 5 线) 分辨辜 7 2 0 x5 7 63 5 2 x 5 7 6 ( 水平x 垂童) 7 0 4 x 5 7 63 5 2 x 2 8 8 3 5 2x5 7 6 3 5 2x 2 8 8 可变，匿码率( v b r c b r ) v b r & c b r 仅c b r p a u s e c a m 帧速率2 5 f p s n t s c 帧速率( 磁盘上) 2 4o r 2 9 9 7 f d s 由于采用可变比特率v b r 编码，使得可用较低的平均码率来编码质量较高的图像，而将剩余的部分用于编码那些更复杂的视频序列，甚至不压缩它们。而恒码率c b r 编码必须用足够高的视频数据率来保证视频质量完好。 m p e g 2 是针对c c i r 6 0 1 标准而设计的分辨率为7 2 0 x4 8 0 ( n t s c ) 或7 2 0 x 5 7 6 ( p a u s e c a m ) 的数字视频信号压缩编码。它提供了v b r 变长码率以及交镨显示方式，压缩率可达4 0 ：1 。而m p e g 一1 虽然可使播放时间更长，但质量较差，且不允许交错显示，图像分辨率也较低，为3 5 2x2 4 0 ( n t s c ) 或3 5 2x2 8 8 ( p a w s e c a m ) ，只能用恒定码率 c b r 。 d v d - v i d e o 既可压缩成p a u s e c a m 也可压缩为n t s c f 自i j 式，帧速率分别为2 4 ，2 5 以及3 0f p s ( f r a m e sp e rs e c o n d ) 播放机可根据盘片的制式自动调整。由于d v d v i d e o 所采用的m p e g 2 编码方式，其质量要比l d ，v c d 大有提高，各种性能比较如下【2 】：表1 5d v d 与其他格式光盘的比较特征 l dv c ds v c dd v d 编码格式模拟混合 m p e g ( c b r )m p e g - 2 ( v b r )m p e g 2 ( v b r ) 混合混台混合图像大小( 最大)3 5 2x 2 4 0 2 8 84 8 0x 4 8 0 5 7 67 2 0 x 4 8 0 5 7 6 视频码率1 1 5m b s2 6m b s ( a v e )35m b s ( a v e ) 图缘质量好一般好很好音频声轨2 5 1 2 2 51 语言 112 个立体声歧4 个单声道最多8 个播救时间( 分钟) 6 0 最多7 4按量大码率为3 7一般情况下1 3 3 。“一掣* 嘲糕斓湖瞵淤警j 同时，d v d 的屏幕大小也可根据需要自动调整。由于电视画面的长宽眈为4 ：3 ，而电影通常有更宽的银幕，最多可达2 3 5 ：1 ，现在对宽霹幕窀税率凡常采用种折衷的格式1 6 ：9 。所以d v 0 - v i d e o 可适用于 4 ：3 及 8 ：g 的霹幕，并显还增掘了一种称之为l e t t e r b o x 的霹幕稽式，即对4 ：3 的屡纂在上下去撵两个黑边。 d v d v i d e o 还提供多角度攒放功能，用户可选择任一是己喜欢躲爱度来观看影片。角度不同但并行的序列被交叉地排列在光盘上，可快速查我并播放。第2 节d v d 的预母化( p r e m a s t e r in g ) l 、d v d v i d e o 预母亿系统框架1 4 l d v d 上的数攒必须进行压缩、编辑和组织之后刁，胄去做母盘，这个过程常称作预母化( p r e - m a s t e r i n g ) 或预处理。而要对d v d 数据源进芎亍颈母化，必须商适当翡工矮，这种工其即是颈母盘铺作系统，或称作d v d 缡辑剑传系绞( d v d a u t h o r i n g 绒d v d c r e a t o r ) 。整个d v d 预母化处理过穰可用图l 一2 楚单地撼述： m p e g l i 文件图l ，2d v d 编辑创作系统一般构架 d l l r 戏 d v d r 僵麓实际应甭中，5 1 声道的母带菲常少，所以也可不需要数字录音橇，焉直接从数字录像梳中获取两声道或举声道的声音，通过数宁凋音台来铡馋虚拟鲍5 1 声遂或a c 。3 誊乐。整个系统哥通过图l 一3 所示方式合成。这葶申构架为制作真正的5 1 声邋时踬殿，虽影像毂声若是存放在不同的节目带中的，如果影像和声音都存放在录像礅中，则视频和音频可采用一台工作站，甚至连编辑也可在同一台工作站上进行。 6 图1 - 3 系统集成框架但那样的话，视频压缩和音频压缩不能同时进行，虽然省掉了网络传输及硬件的费用，但整体的效率与产量会降低。 2 、预母化过程 d v d v i d e o 的预母化过程即是d v d 视音频的创作编辑过程。这个过程非常复杂、需要技术和艺术的专门人才来协同完成。它包括：工程准备( 即准备素材等) 、位流预算( 包括音视频编码参数的选择、设计音轨数和视频轨道) 、制作字幕和菜单、设定父母锁定、交互功能、时阍搜索、无缝播放、暂停等控制功能，然后进行音视频m p e g 编辑，最后经合成输出到d l t 带。整个过程如图1 - 4 所描述 4 0 l 。幽1 4d v d 预母化过科 d v d 节目的素材包括视频、音频、静态图像和子图等。视频一般是从电影胶片转录到数字磁带上的符合c c i r 6 0 1 格式的视频节目，其帧频率为3 0 帧秒( n t s c ) 或者2 5 帧，秒( p a l ) 。音频素材包括多轨道环绕立体声和多达8 种不同语种的声音节目，一般是视频节目带上的，也可另外录音。所有的语种轨道必须要经过统一的电平、混合和均衡等处理，以便在各种语种之间进行无缝切换。静态图像主要用于提供节目中的断点，以便实现搜索功能和其他一些交互功能。静态图像的准备确定视频中的断点、定义图像的显示时间、从视频源中生成或由美术师创作的静态图像。子图是迭加在视频帧上的位图，子图的格式必须是标准计算机图像格式，如t i f f ，g i f ，b m p 等格式。在完成子图制作后，还必须指定每个子图显示的起始时间和结束时间，以便与其相应的音视频完全同步。素材准备好以后，就需要确定视音频压缩所需要的参数，如：音频通道数、语种数、子图通道数、视频中的断点数、节目额定版本数及级别、每一断点使用的静态图像数、父母锁定类型、音频编码方法等等。这些参数确定以后，便可进行视音频压缩。视频压缩编码采用 m p e g 2 压缩技术、可变码率方案。视频的最大码率不超过1 0 0 8 m b p s d v d v i d e o 的音频编码有三种方法：d o l b ya c 3 ，m p e ga u d i o 和线性 p c m 。对于n t s c 制式的视频，必须采用m p e ga u d i o 和或线性p c m 作为音频压缩编码方法，而d o l b ya c 一3 只作为可选的方法。子图或静态图像需要另外制作，子图可存为计算机图像格式文件。在压缩过程中，按游程编码( r u n 1 e n g t he n c o d e ) 方式将其编码成2 b i t s p i x e l 的位图格式，静态图像编码成m p e g 全参考帧，并合并到视频流中。上述步骤完成以后，需将所有内容合并成一个数据流，并定义节目控制、播放节目流图等。它规定了各种媒体元素如何呈现在用户面前以及用户如何与节目进行交互等。节目流图被翻译成浏览命令后，再插到节目单元和节目链中。这样完成的数据流可形成一个映像文件，通过对该映像文件的模拟仿真，可检验控制流是否正确，音视频质量是否达到要求，如果达到要求，即可输出到d l t 带上，以供母盘制作使用。第3 节d v d - v j d e o 的特点 1 、d v d - v i d e o 的一般特点7 】从以上对d v d - v i d e o 的介绍中可以看到，d v d v i d e o 具有以下特点： 1 1 3 3 分钟的影片可以放在一张盘中，存储高质量m p e g - 2 视频和多通道环绕声音频 2 视盘画面输出比例( 16 ：9 和4 ：3 ) 变换功能。可选择三种屏幕播放格式：w i d e s c r e e n ( 1 6 ：9 的宽银幕) ，l e t t e rb o x ( 将 1 6 ：9 的宽银幕留出上下黑边) 以及p a n s c a n ( 用4 ：3 的屏幕来播放宽银幕) 用户可通过操作遥控器在系统设置的菜单中选择输出视频的比例格式。 3 多音频格式、多音频通道播放的功能。dvd 视盘机可播放线性pcm 音频、杜比ac 一3 压缩音频和mpeg 压缩音频等三种记录格式音频节目，并能进行多达八通道的音频播放。 4 予画面功能。d v d - v i d e o 中的“子画面( s u bp i c t u r e ) ”是指叠加在播放主画面上的一种画面，诸如叠加在主画面上的电影字幕、可选择的菜单项目等。用户通过操作遥控器或机器面板上“子画面( s u b p i c t u r e ) ”按键选择某号子画面输出，这种子画面可有3 2 种，即可支持3 2 种语言的字幕。 5 多角度选择功能。有的d v d 光盘有多角度视频信息记录，即对同一对象有不同摄像角度dvd 视盘机在播放此类光盘时，准许用户随意选择相同时间平等记录的不同角度画面中的一个。用户操作遥控器或机器面板上“角度( a n g l e ) ”按键选择所需角度画面即可。 6 用户可交互的菜单和节目链结构，采用章节分割，可按章节查询访问影片内容，也可通过时间码( t i m e c o d e ) 查询影片。可对影片进行编程播放或随机播放。由此具有光盘节目断点恢复功能。dv d 播放机能从上一次停止点恢复播放。 7 数字和模拟拷贝保护功能。dvd 视盘机对每种输出格式的视频信号设置了若干种防拷贝保护功能，用户操作遥控器对系统菜单中拷贝保护项予以设置即可实现。 9 8 超强数据纠错能力。光盘在生产过程中，由于压模粗糙、翘益等引起数据出错。dvd 视频对这类问题有超强的数据纠错能力，纠错数据范围和数据量大，能消除错误，恢复原有的正确数据。对于突发错误数据纠错的轨迹长度6 厘米，远远大于超级vcd 和v cd 。 9 对儿童用户可通过父母控制来设计播放流。等等。 2 、用户控制特点交互性是计算机与多媒体应用中的关键特性，在d v d v i d e o 中体现为允许用户自己控制音视频序列的表现方式而不仅仅是按顺序地线性观看。d v d 中的交互性可表现在从菜单的简单选择到游戏似的主动参与，用户与光盘的交互可通过具有标准控件的摇控器进行，也可通过更多样化的菜单进行。对于电影来说，可用一个或多个菜单来提供给用户对单个场景的直接访问，个场景可用一章( c h a p t e r s ) 来表示，用户还可选择一些诸如演员介绍、内容简介等相关信息。用户可通过菜单选择顺序播放还是交互播放等。当然，d v d v i d e o 的交互性并不是无限制的，它不可能像复杂的视频游戏或课件那样随意控制。从目前可有的d v d 交互上来看，用户可控制的交互特点有： 1 、元标题选择：如果一张盘片上包含多个标题的，用户可自由选择，如一张盘上有两部影片，则可用两个标题来表示，当然也可将部影片分成两个标题等。 2 、章场景选择：一个t i t l e 可分成多个c h a p t e r ，如一张卡拉o k 的影碟，每一首歌可作为一个c h a p t e r ，当然一部影片也可按场景内容分成多个章节( 有关t i t l e 和c h a p t e r 等概念将在下章介绍) 。 3 、书签标记：在某个章节处为下一次访问作一个标记。 4 、快进和慢进控制以及倒向播放控制。 5 、角度选择：使用户能从不同角度观看碟片。 6 、父母控制功能可让用户设定某些不能播放的场景。 7 、声轨数可最多达8 个通道、字幕达3 2 种。 8 、图像长宽比选项可让用户自由选择其所喜欢的长宽比。 9 、菜单控制：菜单控制一般包括：标题、菜单、上、下、左、右和确定按钮。 l o 、视频控制：视频控制包括播放，静止、跳跃、停止、慢放等。 l l 、其他控制包括：字幕、音频、角度、重置或开关等。 o 其中可通过菜单和导航进行交互的菜单控制内容有： l 、标题菜单( t i t l em e n u ) ：用于选择盘片上的任一标题。每个标题可以是一部影片或一个影片片断，大部分盘片只包含一个标题。 2 、章节或场景菜单( c h a p t e ro rs c e n em e n u ) 通过菜单按钮或遥控器选择特定的c h a p t e r 或场景。 3 、音轨菜单( a u d i ot r a c km e n u ) 选择需播放的音轨( 如所需要的语言等) 4 、字幕菜单( s u b t i t l et r a c km e n u ) 选择合适的语言字幕。另外用户还可通过特意制作的屏幕上的菜单来交互控制一些特定内容。屏幕上的菜单是由静态图像做成的，也可用动态m p e g 序列以及音频信息来完成。屏上菜单可分为按钮( 热点) 区域、m p e g 静态图像以及其他要显示的菜单。按钮通常是矩形的，可通过突出显示来表示当前的状态。它作为子图覆盖在m p e g 静态图像的上面。用户通过遥控器上的上，下，左，右( u p d o w n l e f t r i g h t ) 箭头来选择按钮，然后按确定( r e t u r n ) 来激活此按钮。按钮( 或子图) 可用四种颜色( 其中一种为透明色) 来表示其所处状态：未被选中、选中、突出显示。用户利用这样的交互界面( 遥控器和屏幕上的菜单) 来完成交互操作。 3 、从d v d v i d e o 的特点看影片镜头的检索由于d v d v i d e o 按章节安排的结构以及很强的交互性等特点，意味着d v d v i d e o 中对视频的处理方式不同于以往v c d 或v h s 的线性方式，而是一种非线性模式。这种模式为影片内容的视频表现与管理提供了新的方法，也使更完善的检索方法在d v d v i d e o 中完全可以做到。在目前的d v d 盘片上已经可以做到的视频查找主要有三种方法：一是通过时间代码( t i m e c o d e ) 查找，二是通过菜单查找，三是通过场景( 章节) 查找。时间代码是d v d 中按视频播放顺序来记录时间的代码，它就是视频在整个播放过程中的尺度。如果用户能大致记住所需查询的内容在整个影片中的时间，可直接在遥控器上按时间代码来查找。一般情况下，只需定位于大致的时间代码上，然后通过快进行或快倒观看来查找。其实这种方法是传统的线性查找方法，如果用户没有记住时间，冀1 _ 乱0 t 。鬈一蒸溅这样快进或快倒就很肓目，也容易错过所需的内容。菜单查找是目前舂部分d v d 影碟中都提供的一种方法。即在菜单中设好片断浏览，为此，在制作菜单时，随机地提取影片中的些静态图像作为断点，一般情况下，对整部影片等间隔提取9 幅画面，并列于一个菜单上，如果用户需进行片断浏览，可从这几个画面进入视频内容。但这种方法是被动的，制作者提取了哪个片断，用户也就只能从这个片断切入内容。这是原来v c d 也具有的功能。第三种方法便是d v d 特有的，即允许用户通过标题查找或单元查找来进行。d v d 中的查找功能设置中，有按t i t l e 找的，也有按c h a p t e r 找的，其中t i t l e 一般是指一部影片，对于只有一部影片的d v d ，只有一个t i t l e ，当然也可以分成两个，如上下集影片等；也可按p t t 查找，因为一个p t t 即有一个断点，从任何断点处都可进入到相应的视频片断；但c h a p t e r 往往是由制作者划分的，很多情况下有多少个c e l l 便分为多少章。如一部影片分成1 2 章，则可有一个视频管理器( v m g ) ，一个视频标题集( v t s ) ，一个v o b 标题，里面包含一个v o b ，而v o b 下面有1 2 个单元( c e l l ) 。则查找便只能针对这1 2 个单元进行。如果分得更细一点，则p t t 和c e l l 就不一样了，又可分两个层次来查找。从这三种查找方法来看，用户都是被动的。如果在菜单查找中，提供给用户的菜单上的断点是基于内容的而不是随机( 或等间隔) 的，那么用户查找的精确度就会大大增加：如果在章节划分时，制作者能基于内容进行划分，那么用户在按章节查找时也会更有效。本文下面几章将讨论基于内容的视频划分或基于内容的断点选择。第4 节小结本章介绍了d v d 的基本概况，主要讨论了d v d v i d e o 的制作和生产过程以及d v d v i d e o 的一些交互性特点。从这些特点出发，研究了d v d 中对视频进行检索的可能方法。并给出了一般性的结论：利用 d v d 的交互特点以及其它视频处理方法可以实现d v d 中视频镜头的基于内容的检索。第二章d v d v i d e o 中的视频处理技术第1 节d v d - v ；d e o 的结构及其视频流的g o p 结构 1 、d v d - v i d e o 的结构 d v d 定义了一种适合于所有d v d 光盘应用的特定文件格式，它的定义在d v db o o ka - - d 中作了说明。为克服c d 的多文件系统格式的一些弱点，d v d 采用了一种单文件系统格式。这种文件系统采用 u d f ，| s o 9 6 6 0 桥格式，u d f ( 通用磁盘格式) 是专门为光媒体设计的一种i s o 一9 6 6 0 的演变格式。这种单文件系统格式使得d v d 媒体可在一般的播放机及p c 机上播放。一张d v d 盘片称作一卷( v o l u m e ) ，它分成三个存储区域：卷标和文件结构区域，d v d 视频区域和d v d 其他数据区域。卷标和文件结构区域存放两种类型的信息：一是文件系统与地址区域，存放节目链、导航命令和链接所在的位置与顺序；另一区域存放u d f 桥，u d f 桥提供在不同播放机或不同计算机平台上播放此盘片时所需要的信息。 d v d 视频区域的数据包含视频管理器( v m g - - v i d e om a n a g e r ) 与视频标题集( v t s - - v i d e ot i t l es e t s ) 。其中，视频管理器是存放诸如版权信息、反拷贝信息、父母管理权限等信息，也可存放节目链信息；视频标题集则由一个标题及一个视频标题集菜单组成。一张d v d 影片至少包含一个视频标题与一个视频标题集菜单，也可包含多个 v t s 。每个v t s 又包括含有控制信息的视频标题信息( v t s i ) 和视频对象( v o b ) ，视频对象有v o b 菜单和v o b 标题。一个v o b 标题可分成几个p t t ( p a r t & t i t l e s ) 。p t t 对应于视频的片断，在d v d v i d e o 中也称章( c h a p t e r ) 。一个v o b 由视频、音频、子图以及导航数据组成。当一个v o b 被播放时，它不仅播放视频序列，同时还要依照导航指令进行，以显示菜单、用户选择等。d v d 结构的最底层是单元( c e l l ) ，每个v o b 可分成一个或多个c e l l ，c e l l 可指向视频对象v o b 本身，也可指向v o b 的子部分。它是可交互控制的最小单元。 d v d 的其他信息区域存放着一些应用软件，它们与d v d 本身没有关系，只是一些用于w i n d o w s 下播放的信息。整个盘片的数据结构如图2 1 所示。所有这些数据都包含在d v d v i d e o 的文件中，如果我们用计算机打开一张 d v d 光盘的卷标，可以看到如表2 - 1 的文件：视频对象和其它数据包含在v i d e ot s 目录下的文件中，上面表格只给出了只有一个标题集的盘片，最多可用9 个标题v o b 文件，每个小于1 g 对于 2 1d v d v i d e o 的结枇 d v d 一5 来说，最多只有5 个v o b ，而d v d 一9 可允许9 个v o b 。v o b 对于盘片来说是最基本的媒体文件要素。表2 1d v d - v i d e o 文件文件名描述 v i d e ot s i f o 视频管理信息文件( v m g i ) v i d e o j s v o b 用于v m g 菜单的v o b 文件 v i d e o j s b u p v m g i 备份文件 v t s0 10j f o 视频标题集信息文件( v t $ 1 ) v t s0 10 v o b 用于v t s 菜单的v o b 文件 v t s0 10 b u p v t s l 备份文件 v t s0 11 v o b 第一个v o b 文件 v t s0 12 v o b 第一个v o b 文件 v t s0 1nv o b 第n 个v o b 文件( n 1 0 ) 2 、视频流的g o p 结构 d v d v i d e o 采用m p e g - 2 视频压缩标准。对于d v d 一5 来说，4 7 g 的容量可把一部1 3 3 分钟的影片的视音频信号高质量地存放其中。当然如果用d v d 一9 ，d v d - 1 0 ，d v d - 1 8 等，则张碟可放几部影片。而且m p e g 一2 不仅具有高效的压缩率，而且具有非常好的视音频质量。它的压缩视频流具有c o p ( g r o u po fp i c t u r e ) 结构，这样，d v d - v i d e o 可利用这种结构进行恰当的场景c h a p t e r 分割。 m p e g 一2 视频流由三种类型的帧组成，即i 一帧，b 一帧和p 一帧。i 一帧 ( i n t r a f r a m e ) 即内部编码帧，是仅使用自身信息进行编码的图像帧： p 一帧( p r e d i c t i v ef r a m e ) 即预测编码帧，是从过去的i 一帧和p 一帧通过使用运动补偿预测进行编码的图像帧；而

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（机械工程专业论文）dvdvideo中的视频检索技术研究.pdf

文档简介

温馨提示

最新文档

评论

（机械工程专业论文）dvdvideo中的视频检索技术研究.pdf

文档简介

温馨提示

最新文档

评论

相关文档