MPEG_7标准的介绍_第1页
MPEG_7标准的介绍_第2页
MPEG_7标准的介绍_第3页
MPEG_7标准的介绍_第4页
MPEG_7标准的介绍_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 . . 8/8第三章 MPEG-7标准介绍MPEG-718的正式名称为“多媒体容描述接口”(Multimedia Content Description Interface)。其制定目标就是通过制定一组标准的描述符(Descriptor) 与其描述方案(Description Scheme)来为不同类型的多媒体信息提供一套描述多媒体容数据的标准化工具集, 使得容描述与媒体容结合, 构造一个统一的、标准的多媒体检索平台来支持基于容的快速、高效的检索, 满足实时、非实时以与推拉应用的需求。本章介绍了MPEG-7目标和对象、体系结构、描述工具、描述定义语言与系统工具。3.1 MPEG-7 目标和对

2、象MPEG-7标准的目的是要制定一种针对各类多媒体信息的描述标准。该描述与容有关,并能够达到快速高效地搜索用户感兴趣的素材。无论描述的形式如何,描述都可以附在任何一种多媒体素材之后。具有此种附加信息的存储素材就可以被方便地索引和搜索了。尽管MPEG-7描述与被描述容的表达方式无关,但在一定程度上还是依赖于MPEG-7标准,在该标准中提供了一种将声音图像容作为在时间(同步)和空间(屏幕)上有一定联系的对象来编码的方法。MPEG-7定义的“多媒体”含义十分广泛,包括:客观类:图像、图表、文本、三维模型、音频、语音、视频等。主观类:对对象事件的概括、人的感性色彩等。合成类:各种元素之间的有机结合以构

3、成一个真正意义上的多媒体演示。如人的面部表情、性格特征、以至一段电影的主题都是MPEG7中的数据类型之一。为此,MPEG-7定义了“标准描述子集合(Standard Set of Descriptors)”用于描述各种类型的多媒体数据,与之相应的“描述方案(Description Schemes)”用于规多媒体描述子的生成和不同描述子之间的有机联系。这些描述子与所指定的多媒体对象的容紧密联系,采用提取对象特征的方法为实现基于容的语义的准确检索提供了接口。在此基础上,MPEG-7定义了一种新的语言“描述定义语言(Description Definition Language)”用于指定和生成描述

4、方案。和VHDL语言在超大规模集成电路应用中所扮演的角色一样,DDL语言是MPEG-7的核心。要充分地利用多媒体信息描述,特征(描述符)的自动提取是十分有用的。但是根据MPEG一贯坚持的“制定最少的、最有用的”原则,MPEG-7主要集中在对便于多媒体信息分类的表达方法进行标准化。而特征提取算法、声音图像容识别工具不属于MPEG-7标准的界定围。同样,搜索机制和音频或视频回放技术也不包括在MPEG-7标准中,而只确定描述与搜索机制之间的接口。开发声音图像容识别工具、特征抽取工具、搜索和音频视频回放工具是工业界的任务,他们会生产销售符合MPEG-7的产品。符合MPEG-7标准的描述可以是手工输入的

5、,也可以是自动提取的,标准中对此并不作规定。但某些特征最好自动提取(如色彩、纹理),但另一些特征则很难甚至不可能自动提取,所以要根据描述的容和层次来决定。MPEG-7可以独立于其它MPEG标准使用,例如符合MPEG-7标准的描述甚至可以附在非数字模拟影片之后。但是MPEG-7标准也利用了MPEG-4标准提供的用对象来描述声音图像数据的方法,这一表达方法是多媒体信息分类过程的基础。同时,MPEG-7描述又可以帮助改进以往MPEG标准编码的性能。所以各MPEG标准是相互独立又相互联系的。MPEG-7所主要讨论的应用可分为3大类:索引和检索类应用(也称“PULL”应用),例如视频数据库的存储检索、商

6、标的注册和检索、向专业生产者提过图像和视频、商用音乐、音响效果库等;选择和过滤类应用(也称“PUSH”应用),例如个人化电视服务(IPTV等)、智能化多媒体表达;与传统的面向媒体的应用不同,是与MPEG-7中要定义的“元(meta)”容表达有关的专业化的应用,例如远程购物、教学教育、保安监视等。3.2 MPEG-7 体系结构MPEG-7标准主要单元包括:描述工具:定义了各个特征的语法与语义的描述符(D),详细说明了各部分(包括描述符和描述规)之间联系的结构和语义的描述规(DS)。描述语言(DDL):定义MPEG-7描述工具的语法,允许建立新的描述规和描述符。必要时,也允许扩展和更改己经存在的描

7、述规。系统工具:支持有效存储、传送的二进制码的表示法,支持播放机制(文本或二进制形式)、多路技术支持、描述容同步,管理和保护在MPEG-7中描述的知识产权等。保护在MPEG-7中描述的知识产权等。MPEG-7描述工具不依赖于己经被编码或为存储所做的描述,是满足各种需要的描述音视频信息的标准。MPEG-7标准是建立在其它标准描述法如MPEG-1,MPEG-2,MPEG-4等的基础上。MPEG-7标准的泛函性在于它提供了合适的接触这些标准的某一部分的方法。MPEG-7允许在它的描述中采用不同的梯度,提供尽可能多的不同水平的分辨率。尽管MPEG-7采用几种不同观点描述容,但建立在这些观点上的这一套描

8、述工具现在作为一个整体的几个部分。它们在很多方面是相互联系的,是可以相互结合的。使用MPEG-7描述工具进行容描述时,与描述容自身有关,允许快速和有效的进行查询。按照使用者的意愿进行过滤。MPEG-7在不同的环境有不同的应用,意味着它必须提供灵活的和可扩展的结构来描述视听数据。而且,MPEG-7没有提供单一模式的容描述系统,而是提供了一套根据不同的观点描述视听容的方法和工具。根据这些要求,MPEG-7被设计成考虑或包含其他标准的所有观点的一种标准。同时MPEG-7已经尽可能往通用的方面发展。MPEG-7没有把目标定在任何特殊的应用,相反,MPEG-7标准尽可能的支持最大围的应用。图3-1 MP

9、EG-7 各部分关系图图3-1显示了上面介绍的MPEG-7各个部分的关系。DDL定义了MPEG-7的描述工具描述符和描述规,提供了将描述符转化成描述规形式的方法。必要时,DDL也允许扩展特殊的描述规。由于DDL建立在XML规上,描述工具示例使用文本模式(XML)。二进制形式的获得是通过定义在系统部分的BIM得到的。通过手工或半自动的提取,可以得到视听形式的多媒体容的描述。音视频的描述可以直接存储或传送。如果我们考虑客户端主动提出要求的环节,客户端提交需求给搜索引擎,收到一套匹配的描述进行浏览(仅是为了检查、操作、重现描述容)。对于服务端主动发给客户端的环节,过滤器将会从得到的描述中进行选择,进

10、行程序操作(如转换广播通道或记录描述数据)。在这两种环节中,所有的指令可以以MPEG-7的形式操纵描述编码,只有在显示一致点时需要MPEG-7结构(当它们作为信息服务器和信息用户应用时显示的界面)。MPEG-7的重点在于提供了音视频数据描述的新的方法。3.3 MPEG-7 描述工具描述工具是MPEG-7中最重要的部分,可以分为三个功能块:多媒体描述规(MDS)、视频和音频。多媒体描述规描述规提供了XML中与AV容的描述相关的重要概念。采用标准化的描述方式使查询、检索、过滤和访问操作变得灵活。描述结果能以文本的形式(如便于编辑、查询和过滤的XML形式)表示或压缩为二进制形式(便于存储或传送)。M

11、PEG-7指定了四种标准元素:描述符、描述规、描述定义语言(DDL)和译码规。MPEG-7描述符主要被用来描述低水平的音频或视频特征如颜色、纹理运动等,还可以用来描述音视频容的属性,如位置、时间、性质等。在应用软件多数描述低水平特征的描述符可以自动提取。另一方面,MPEG-7描述规主要被设计用来描述高水平的AV特征如领域、片段、目标、事件和其它与创作、生产、使用有关的永恒元素等。描述规通过结合多样的描述符和描述规以与声明描述成分之间的关系,提供了更加复杂的描述。在MPEG-7中,描述规根据分别适于多媒体、音频或视频领域可分为6组:基本元素,容描述,容管理,导航和访问,容组织,用户交互。如图3-

12、2MPEG-7中的多媒体描述方案框架和描述工具18。容描述:描述知觉信息。容管理:多媒体特征建立和使用AV容的信息。容组织:描述许多AV容的分析和分类。导航和访问:摘要的详细说明和音视频容的变化。交互使用:使用者参数选择的描述和适合消费的多媒体材料的使用历史。MPEG-7提供了描述规来描述AV容的结构和语义。结构工具从结构上根据视频片段、框架、静止和动态区域以与音频片段来描述AV容的结构。语义工具从现实世界的语义和概念想法的角度描述已经被AV容捕获的现实世界的目标、事件和概念。图3-2 MPEG-7中的多媒体描述方案框架和描述工具容管理工具描述了以下信息:(1)创作和成果;(2)媒体编码、存储

13、和文件格式;(3)容的用法。MPEG-7提供了描述规来组织和建模收集到的音视频容、片段、事件和目标,描述它们的共同性质。为了表现收集成员的属性,使用不同的模型和统计表进一步描述收集。通过定义概要、分割和分解以与变更音视频材料,MPEG-7提供了可以测览和检索音视频容的描述规。其中,摘要描述规描述了AV容的语义意义的概要和抽象,以便更有效的浏览和检索;空间和频率观点描述规描述了在空间或频率领域的AV信号的结构观点,以便多条件访问和进一步检索;变化描述规描述了不同变化的AV节目之间的关系,以便在不同的终端、不同的传送方式以与不同的使用习惯下改变选择。用户交互描述规描述了消费多媒体材料的使用者的参数

14、和使用历史。像匹配用户参数和MPEG-7容描述,以提供方便的个性化访问。MPEG-7视频MPEG-7视频描述工具包括基本结构和描述符。描述符包括如下基本的视频特征:颜色、纹理、外形、运动、位置和脸部识别。每一类包含基本的和高端的描述符。(1)基本结构与视频有关的基本结构有五种:栅格布局、时间级数、多维视图、空间2D坐标和时间插补。栅格布局:栅格布局把一幅图像分割为一系列大小相等的矩形区域,每一个区域可以被分别描述。时间级数:在视频片段中定义了时间级数描述符,提供了与视频帧匹配的图像和帧间的匹配功能。可以得到两类时间级数:规则时间级数和非规则时间级数。多维视图:指定2D描述符的结构,这些2D描述

15、符描述了从不同角度观察3D目标得到的视频特征。空间2D坐标:定义了2D空间坐标系统和在其它相关的D/DS中涉与使用的个体。支持两种坐标体系:局部的和全局的。时间插补:描述了使用连续多项式的时间插补。(2)颜色描述符有七种颜色描述符:颜色空间、颜色量化、主颜色、可升级的颜色、颜色布局、颜色结构、结构群体图像群体的颜色。颜色空间:在通用的描述中,支持下列颜色空间:R,G,B;Y,Cr,Cb;H,S,V;HMMD;R,G,B的线性矩阵变换;单色。颜色量化:定义了颜色空间的统一量化。量化产生的比特位数是可设定的。主颜色:这种颜色描述符最适合描述目标或图像区域的局部特征,在这里几种颜色足够表现感兴趣的区

16、域的颜色信息,也适用于整个图像。可升级的颜色:可升级的颜色描述符是在HSV颜色空间中的颜色直方图,是经过哈尔转换编码的。颜色布局:以紧凑的形式有效的描述了视频信号颜色的空间分布。颜色结构描述符:是捕获颜色容(与颜色直方图类似)以与容的结构信息的颜色特征描述符,它主要的功能是图像对图像的匹配。结构群体图像群体颜色:结构群体图像群体颜色描述符扩展了为视频片段静止图像颜色描述或收集静止图像而定义的可升级颜色描述符。(3)纹理描述符有三种纹理描述符:均一纹理、边缘纹理和纹理浏览。均一纹理描述符:均一纹理是作为在具有相似模式的大量多媒体材料中进行搜索和浏览的一种重要视频基元而出现的。纹理浏览:纹理浏览描

17、述符对浏览类型使用的均一纹理描述是有用的,只需要12比特(最大),提供了感性的纹理描述。边缘直方图:边缘直方图描述符描述了空间分类的五种边缘,即四种方向边缘和一种非方向边缘。它的主要目标是图像对图像的匹配(通过示例或草图),特别是对没有统一边缘分类的自然图像。(4)外型描述符有三种外型描述符:区域外型、轮廓外型和 3D外型。区域外型:一个目标的外型可以包含单一的区域或者一系列的区域,目标上的孔洞也是如此,区域外型描述符不仅能使用单一的描述符有效的描述多样的外型,而且对沿着目标边界的微小变形也能有效描述。轮廓外型:轮廓外型描述符捕获以轮廓为基础的目标或区域的典型的外型特征。(5)运动描述符有四种

18、运动描述符:摄像机运动、运动轨迹、参数运动和运动行为。摄像机运动:此描述符描述了3-D摄像机的运动参数。它建立在3-D摄像机运动参数信息的基础上,这些信息能够被捕获设备自动的提取或产生。运动轨迹:目标的运动轨迹是简单的高水平的特征。它定义了这个目标在时间和空间的典型的定位点。参数运动:参数运动模型包括以运动为基础的分割和估计、全球运动估计、镶嵌和目标跟踪。运动行为:运动行为描述符捕获在视频片段中的“行为强度”或“行为速度”的感性概念。(6)定位有两种定位描述符:区域描述符和时空描述符。区域描述符:能够通过使用简短的和成比例的矩形框或多边形描述指定区域,定位它们在图像或视频帧中的位置。时空描述符

19、:描述在视频序列中的时空区域,如运动目标区域,提供了定位功能。(7)脸部识别脸部识别描述符能够被用来检索与该查询的脸部图像相匹配的脸部图像。它描述了把脸部向量投影到一套跨越可能的脸部向量空间的基本向量。脸部识别特征组是从规格化的脸部图像中提取的。通过把一个空间脸部向量投影到被一套基本向量定义的空间,计算脸部识别特征组。MPEG-7音频MPEG-7音频在描述其容时提供了以MDS中一些基本结构为基础的结构方式。这些结构是指一系列底层描述符,用来描述在很多应用中都用到的音频特性(例如光谱参数和一个信号的临时特性等),以与在某些应用中特定的高层描述符工具包括音频信号描述方案、乐器音质描述方案、为辅助旋

20、律而用的旋律描述工具、一般声音辨认和标识描述工具、口语部分描述工具。MPEG-7音频框架包括:结构、特性、基础、基础谱、信号参数、音色临时音色谱、谱基础、静音片断。高层音频描述符工具包括:音频信号描述符摘要、乐器音色描述符工具、旋律描述工具、一般声音辨认和检索描述工具、语音容描述工具。 3.4 MPEG-7 描述定义语言(DDL)DDL是MPEG-7标准的核心之一,它提供了用户可以建立自己的描述规和描述符的实体描述基础。DDL定义了表达和融合描述规和描述符的语法规则。根据MPEG-7的需求文件定义的DDL是:允许建立新的描述规和描述符的一种语言,也允许扩展和修改存在的描述规。DDL不是建模语言

21、,而是表示音视频数据建模结果如DS和D的规性语言。DDL语言满足MPEG-7对DDL的需求。它能表达DS的元素之间和DS之间的空间、时间、结构和概念的关系。它提供一个或多个描述与它们所描述的数据之间连接和涉与的模型。另外,它的平台和应用是独立的,易于人和机器阅读。(非标准的)DDL解析器的应用需要DDL确认描述规(容和结构)和描述符的数据类型(简单的整数、原文、日期、时间和合成的柱状图、列举类型)。DDL解析器必须能够依靠确认的MPEG-7描述规确认MPEG-7的描述或例示。XML Schema总论规的目的是通过指定特殊的结构来定义XML文件的一个类,约束文件的容和结构。可能的约束包括:元素与

22、它们的容、属性与属性值。基数和数据类型。XML Schema提供了扩展DTD集的能力。由于XML Schema语言的稳定性,潜在的广泛应用,工具和解析器的实用性以与可以满足MPEG-7绝大部分需求的能力,所以采用XML Schema语言作为DDL的基础。由于XML Schema语言不是专门为音视频容设计的,所以必须进行一定程度的扩展。DDL可以被分解为下列合理的标准化部分:XML Schema结构部分, XML Schema数据类型部分, MPEG-7扩展XML Schema部分。XML Schema结构XML Schema结构是XML Schema规的两部分中的第一部分。它提供灵活描述结构,约束XML1.0文件的容。XML Schema由一套可以被分成三组的结构规组成。基本的组成是:第一部分:规围绕定义和声明的包装,包括简单类型定义、复杂类型定义、属性声明、元素声明。第二部分:属性组定义、一致性约束定义、命名组定义、符号声明。第三部分:由不能独立存在、协助其它部分的“帮助”成分组成,包括置换组、注解、通配符。XML Schema数据类型XML Schema数据类型是XML Sc

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论