媒资管理07-多媒体数据库技术_第1页
媒资管理07-多媒体数据库技术_第2页
媒资管理07-多媒体数据库技术_第3页
媒资管理07-多媒体数据库技术_第4页
媒资管理07-多媒体数据库技术_第5页
已阅读5页,还剩101页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第7章:多媒体数据库技术第7章多媒体数据库技术多媒体数据库技术是数据库技术与多媒体技术结合的产物。多媒体数据库要解决三个难题。第一是信息媒体的多样化,多媒体数据的存储、组织、使用和管理。第二要解决多媒体数据集成或表现集成,实现多媒体数据之间的交叉调用和融合,集成粒度越细,多媒体一体化表现才越强,应用的价值也才越大。第三是多媒体数据与人之间的交互性,也就是多媒体数据的检索问题,其中包括基于元数据的检索模式和基于内容的检索模式。MEDIAASSETMANAGEMENTMEDIAASSETMANAGEMENT第7章多媒体数据库技术关系数据库概述1多媒体数据库概述

2面向对象数据库技术

3分布式多媒体数据库

4检索技术简介

5§7.1.1关系数据库基本知识数据库的数据模型先后经历了网状模型、层次模型、关系模型和面向对象模型等阶段。其中关系模型因为有完整的理论基础,取代了网状模型和层次模型,目前关系数据库在实际应用中居于主导地位。MEDIAASSETMANAGEMENT面向对象模型关系模型层次模型网状模型§7.1.1关系数据库基本知识1.关系数据库的特征数据结构化。按照某种数据模型组织成为一个结构化的数据整体。它不仅描述了数据本身的特性,而且描述了数据与数据之间的各种联系,这使数据库具备了复杂的内部组织结构。实现数据共享。实现了多个应用程序、多种语言及多个用户共享一个库中的数据,甚至在一个单位或更大的范围内共享,因而大大提高了数据的利用率,提高了工作效率。MEDIAASSETMANAGEMENT§7.1.1关系数据库基本知识减少数据冗余度。由于数据库实现了数据共享,因而减少了数据的重复存储,节省了存储空间,减少了数据冗余。数据独立性。数据库技术中的数据与程序相互独立,互不依赖,不因一方的改变而改变另一方,这大大简化了应用程序设计与维护的工作量,同时数据也不会随程序的结束而消失,可长期保留在计算机系统中。MEDIAASSETMANAGEMENT§7.1.1关系数据库基本知识姓名

地址年龄月薪工龄张非北京

2750004李奎上海2965003王西风广州38800010MEDIAASSETMANAGEMENT数据库示例2.关系数据库的基本组成关系数据库由一组数据表组成。表中的每行称为记录,每列称为字段。表是一组彼此相关的记录的组合。例如,有一张包含公司中员工信息的表。每条记录里都存储了公司一名员工的姓名、地址和月薪等数据。§7.1.1关系数据库基本知识3.DBS和DBMS数据库系统(DBS)是采用了数据库(DB)技术的计算机系统。DBS是一个实际可运行的,按照数据库方法存储、维护和向应用系统提供数据支持的系统,它是数据库、硬件、软件和数据库管理员的集合体。数据库管理系统(DBMS)是指数据库系统中对数据进行管理的软件系统,它是DBS的核心组成部分。对DB的一切操作,包括定义、查询、更新及各种控制,都是通过DBMS进行的。MEDIAASSETMANAGEMENT§7.1.2关系数据库管理系统RDBMS通常利用数据库管理系统来处理诸如人们用文件柜来完成的那样一些任务。从某种意义上来说,数据库就像一个大文件柜,只不过是一个内建的文件编排系统而已。电子化处理记录相对手工处理记录有很多优点:MEDIAASSETMANAGEMENT§7.1.3关系数据库的数据模型关系数据库是一些相关的表和其他数据库对象的集合。该定义表达了三部分含义:第一,在关系数据库中,信息被存放在二维表格结构的表(table)中,一个关系数据库包含了多个数据表,而每一个表又包含行(记录)和列(字段),可以将表想象为一个电子表格,其中与行对应的是记录,与列对应的是字段;第二,这些表之间是相互关联的,表之间的这种关联性是由主键和外键所体现的参照关系来实现的;第三,数据库不仅包合表,而且包含了其他数据库对象,如视图、存储过程、索引等。MEDIAASSETMANAGEMENT§7.1.3关系数据库的数据模型主关键字(primarykey,也称主键)是指表中的某一列,该列的值可唯一标识一行。外部关键字(foreignkey,也称外键)是指如果表中含有与另一个表的主关键字相对应的列组,那么该列组就被称为外部关键字。从该定义可以看出,外部关键字也是由一个或多个列组成。如果两个表中具有相同的列或列组,那么该列或列组就被称为这两个表的公共关键字(commonkey)。如果公共关键字是其中一个表的主关键字,那么该公共关键字在另一个表中就被称为外部关键字。MEDIAASSETMANAGEMENT§7.1.4RDBMS的特点RDBMS的特点如下:数据完整性:所有RDBMS都使用SQL或其变体来控制包含在任意数据库中的数据。RDBMS必须保证数据的完整性。数据的安全性:多数RDBMS都坚持把实际数据和业务逻辑区分开,以确保数据库中的数据可以保持持久状态。MEDIAASSETMANAGEMENTMEDIAASSETMANAGEMENT第7章多媒体数据库技术关系数据库概述1多媒体数据库概述

2面向对象数据库技术

3分布式多媒体数据库

4检索技术简介

5§7.2多媒体数据库概述多媒体数据库(MMDB)与传统的关系数据库相比,具有数据量大、数据类型多、数据类型之间差距大、多媒体数据的输入和输出复杂的特点。当今时代,网络技术与信息传输技术的发达,更增加了多媒体数据的复杂性。一般来讲,多媒体数据有静态与动态之分,静态数据有字符、数值、文本、图形、图像等静态的数据,而动态数据有音频、视频、动画等。

MEDIAASSETMANAGEMENT§7.2.1多媒体数据的特点多媒体数据库信息媒体的多样性MEDIAASSETMANAGEMENT§7.2.1多媒体数据的特点(1)数据量大图像、声频和视频对象一般需要大的存储容量。(2)数据长度可变多媒体数据的数据量大小可变,且无法预先估计。(3)多数据流多媒体展示时涉及多种数据类型的静态和连续媒体的集成及显示。(4)数据流的连续记录和检索多媒体数据要求连续记录(存储)和播放(检索),否则将导致严重失真,大大影响效果,使用户无法接受。MEDIAASSETMANAGEMENT§7.2.2MMDB的主要需求多媒体数据库(MMDB)就是要实现对结构化和非结构化的多媒体数据的存储、管理和查询,其主要需求有:1.MMDB应能够表示多种媒体的数据,如图形、图像、声音等。非结构化数据表示起来比较复杂,需要根据多媒体系统的特点来决定表示方法。

2.MMDB应能够协调处理各种媒体数据,正确识别各种媒体数据之间在空间或时间上的关系。3.除必须满足物理数据独立性和逻辑数据独立性外,还应该满足媒体数据独立性。

MEDIAASSETMANAGEMENT§7.2.2MMDB的主要需求4.更强的数据查询和操纵。多媒体数据既有其外在的表现形式,又有其自身内在的结构。

5.媒体的集成和编辑。媒体的有机组合(集成)是多媒体数据库系统的一项重要而且难度较大的功能。6.网络功能。应解决分布在网络上的MMDB中的数据的定义、存储、操作问题,并对数据的一致性、安全性、并发性进行管理。7.多媒体数据库系统(MMDBS)应具有开放功能,提供MMDB的应用程序接口API。

MEDIAASSETMANAGEMENT§7.2.2MMDB的主要需求8.交互性强。最常见的是用鼠标选择调用有关的信息,供用户观察、决策。9.MMDB还应提供数据和版本管理功能。MEDIAASSETMANAGEMENT§7.2.3MMDBS的层次结构

MEDIAASSETMANAGEMENT§7.2.3MMDBS的层次结构(1)物理存储层:描述如何在文件系统中存储多媒体数据。(2)数据描述层:也是核心层。这一层负责对原始信息的解释和描述,并处理索引提出的数据快速存取请求。(3)网络层:媒体对象可能存储在不同的系统中,用户可以在计算机网络上进行数据存取。(4)过滤层:负责分析和处理用户的查询要求。用户可以用不同的方法查询数据库,这取决于用户所需要信息的类型。(5)用户层:应用和用户之间的接口,负责实现数据库中数据的浏览以及人机交互。MEDIAASSETMANAGEMENT§7.2.4多媒体数据模型(1)支持结构化数据(如字符数值)和非结构化数据(如视频、声音、图象等)的表示及其属性特征的描述。(2)支持多媒体的表现(Presentation)建模,即多媒体数据模型应能表示各媒体对象间的语义关系、时态关系和空间关系。MEDIAASSETMANAGEMENT§7.2.4多媒体数据模型目前开发出来的MMDBS大多是专用的MMDB,对信息的处理进行了折中,缺乏通用性。在多媒体数据模型方面主要存在以下问题:(1)没有表示多媒体数据模型经典完善的理论及技术。在建立多媒体数据模型时,虽然可能借助其它方面的研究成果,但表示多媒体数据的统一完善的理论还没有形成。(2)目前研究者各自从不同的方向对多媒体数据模型进行探讨,所建立的多媒体数据模型一般也只能反映和强调多媒体数据的某一类特征,其应用也侧重于某一类领域。(3)受目前图像理解、计算机视觉、人工智能等学科发展水平的限制。图像数据自动语义识别和视频数据自动分段,以及抽取高级语义特征还存在不少困难。MEDIAASSETMANAGEMENT§7.2.4多媒体数据模型建立多媒体数据模型的方法可以概括为如下几种:扩充关系的模型:在传统关系数据库的基础上加以扩充,使之支持多媒体数据类型。基于面向对象语言的模型:在面向对象语言中嵌入数据库功能而形成MMDB。

基于超文本或超媒体的模型:此种模型由节点和链组成,节点是信息单位(信息元),链用于组织信息,表达信息间的关系,把节点连接成网状结构。

开发全新的数据模型:该方法从低层来实现MMDBS,首先建立一个包含面向对象数据库核心概念的数据模型,然后设计相应的语言和相应的面向对象数据库管理系统的核心。MEDIAASSETMANAGEMENT§7.2.4多媒体数据模型1.扩充关系的模型:传统的关系模型结构简单,是单一的二维表,很难用于空间数据和时态数据,缺乏演绎和推理操作,表达数据特性的能力有限。在基于RDB的MMDB中,必须对现有的关系模型进行扩充,使它不但能支持结构化数据,也能处理非结构化数据,分为以下三种扩充方式:

MEDIAASSETMANAGEMENT§7.2.4多媒体数据模型(1)扩展现有的数据类型

一般是利用标准扩展字段(General)来描述多媒体数据。在Oracle和Sybase系统中采用二进制大对象(BLOB)存放各种多媒体数据(可达2GB)。常规数据用关系数据库处理,多媒体数据则存储在数据库之外的图像或视频服务器上,关系数据库中包括了BLOB的位置信息,这些位置信息相当于指向多媒体文件的指针。MEDIAASSETMANAGEMENT§7.2.4多媒体数据模型(2)扩充用户自定义的数据类型用户自定义一个抽象数据类型作为另一关系的值,而不仅仅是采用系统己定义的数据类型。

例如,用函数定义的扩展系统允许用户将程序加到一个关系上,使系统的查询语言具备调用程序的能力。这种方法旨在扩充关系数据库,使之支持ADT(抽象数据类型)的定义和使用。以极小的代价拓宽的对多种媒体的管理能力。但由于基于二维构造的多媒体数据模型无法反映各媒体之间的空间、时间和语义关系,有关的处理必须用其它应用程序来实现,所以在多媒体数据的同步和集成方面存在很多问题,且对多媒体数据的基于内容的检索和查询更加难以实现。MEDIAASSETMANAGEMENT§7.2.4多媒体数据模型3)扩充嵌套语义,采用NF2数据模型。传统的关系模型要求关系数据库中的所有关系必须满足第一范式(FirstNormalForm,1NF),即一个关系中的所有属性都必须是原子型的,表中不能有表。由于MMDB具有各种各样的媒体数据,格式、大小都不相同,因此必须打破关系数据库中关于范式的要求,允许表中有表,即采用非第一范式(NonFirstNormalForm,NF2)模型,也叫嵌套关系数据模型。NF2模型提供描述属性嵌套定义的手段,一个对象的值也可以是一个对象。虽然NF2方法可以利用关系数据库传统优势,延用关系数据库语言或其他通用语言。但无法增强建模能力,不能较好地反映多媒体数据所特有的时空关系,同时多媒体对象的存取、检索或其它处理上仍存在相当大的困难。MEDIAASSETMANAGEMENT§7.2.4多媒体数据模型2.面向对象的数据模型面向对象数据库建立在对象模型的基础上,以定义对象的属性、集合、行为、状态和联系等为主要描述方式,引入了类、对象、方法、消息、封装、继承等概念。面向对象的方法为新一代的多媒体数据模型打下了良好的基础,许多多媒体资料可以抽象为被类型链连接在一起的结点网络,可以自然地用面向对象方法所描述。这种机制可以很好地满足MMDB在建模方面的要求,并且能更好地实现数据库的存储、查询以及其他操作。MEDIAASSETMANAGEMENT§7.2.4多媒体数据模型其特点主要表现为:(1)面向对象模型支持“聚合”与“概括”的概念,从而可以更好地处理多媒体数据等复杂对象的结构语义。(2)面向对象模型支持抽象数据类型和用户定义的方法,便于系统支持定义新的数据类型和操作。(3)面向对象系统的数据抽象、功能抽象与消息传递的特点使对象在系统中是独立的,具有良好的封闭性,封闭了多媒体数据之间的类型及其它方面的巨大差异,并且容易实现并行处理,也便于系统模式的扩充和修改。(4)面向对象系统的对象类、类层次和继承性的特点,不仅减少了冗余和由此引起的一系列问题,还非常有利于版本控制。MEDIAASSETMANAGEMENT§7.2.4多媒体数据模型(5)面向对象系统中实体是独立于值存在的,因而避免了关系数据库中讨论的各种异常。(6)面向对象系统的查询语言通常是沿着系统提供的内部固有联系进行的,避免了大量的查询优化工作。MEDIAASSETMANAGEMENT§7.2.5MMDBMS的体系结构1.组合型结构通过整合技术连接的。如图,组合型结构中可以拥有多个独立的媒体数据库,每一种媒体数据库的设计都有自己独立的数据库管理系统。MEDIAASSETMANAGEMENT§7.2.5MMDBMS的体系结构2.集中统一型结构各种媒体被集中统一地建在单一的MMDB里,由单一的MMDBMS统一管理和操纵。实际较难实现。MEDIAASSETMANAGEMENT§7.2.5MMDBMS的体系结构3.客户/服务型结构各种单媒体数据仍然相对独立,各用一个服务器来实现管理和操纵,客户与服务器之间通过特定的中间件系统连接。MEDIAASSETMANAGEMENT§7.2.5MMDBMS的体系结构4.超媒体型结构数据库分散到网络上,把它看成一个信息空间,只要设计好访问工具就能够访问和使用这些信息。在多媒体的数据模型上,通过超链接建立起各种数据的时空关系。MEDIAASSETMANAGEMENT§7.2.6MMDBMS的查询管理数据库的查询是数据库最重要的功能之一。MMDBMS查询系统需完成以下几个方面的设计:用户查询接口、多媒体数据提交、提交过程干预。用户查询接口应允许用户根据内容、实例、时间、空间及其可能的组合进行查询。对实例查询,用户接口需从适当的设备中获得实例对象(如实例对象可通过扫描仪或存储的文件获得)。MEDIAASSETMANAGEMENT§7.2.6MMDBMS的查询管理查询生成器产生一个适当的可被查询处理器处理的查询;查询处理器访问需要的元数据并作出反应;响应表示模块向用户提供显示和反馈。如果用户对响应不满意,可重新设计并生成新的查询。MEDIAASSETMANAGEMENTMEDIAASSETMANAGEMENT第7章多媒体数据库技术关系数据库概述1多媒体数据库概述

2面向对象数据库技术

3分布式多媒体数据库

4检索技术简介

5§7.3面向对象的数据库技术面向对象数据库系统(OODB)的思想产生于上世纪80年代初。结合特定应用领域,分为:多媒体数据库(结合多媒体技术)、空间数据库(结合空间信息学和GIS)、演绎数据库(结合人工智能)、工程数据库(结合软件工程)等。与传统数据库相比,它们既具有多样性(学科交叉的必然结果),又有统一性,建立它们的主要目的是为了处理海量信息和复杂数据结构。MEDIAASSETMANAGEMENT§7.3面向对象的数据库技术与扩充的RDB不同,OODB倾向于以数据模型入手,重新考虑系统结构、对象类层次的存储结构、存取方法和继承性的实现方法、用户定义的数据类型和方法的处理策略、必要的版本控制和友好的用户界面,建立一个全新的DBMS。对于大型应用而言,OODB技术是解决多媒体数据库中复杂关系的最根本的解决办法。MEDIAASSETMANAGEMENT§7.3.1OODB的特点首先,它是一个数据库管理系统,具有数据库管理系统的基本功能:一是永久性,数据库中的数据永久保存;二是存储管理,包括索引管理、数据聚集、数据缓冲、存取路径选择、查询优化等;三是能并发控制,提供高于当前已有数据库管理系统同样级别的、对多个用户并发操作的支持;四是故障恢复能力,提供不低于当前已有的数据库管理系统同样级别的、将数据库从故障后的错误状态中恢复到某个正确状态的功能;五是交互式查询功能,且是非过程化的、高效的、独立于应用的。MEDIAASSETMANAGEMENT§7.3.1OODB的特点其次,它是一个面向对象的系统,具有支持OODB模型,支持复杂对象,具有运用各种构造机制从简单对象组成复杂对象的能力。复杂对象构造能力加强了对客观现实世界的模拟能力,且方法自然、易理解、具有对象标识,对象标识独立于其值而存在的特性,可以极大地加快查询速度。对象既封装了数据,又封装操作,实现了信息隐藏,使用户不必知道操作的实现细节,只利用设计者提供的消息即可访问对象。MEDIAASSETMANAGEMENT§7.3.1OODB的特点OODB与传统的RDB相比,其优势主要体现在:1.OODB更易于掌握OODB可基于面向对象程序设计语言,如C++。熟悉面向对象程序设计语言的人能很方便地掌握并使用这类系统。2.支持复杂应用面向对象模型主要用于复杂应用。将特定对象放入高缓冲区或内存,使系统性能得到优化。3.存储大型数据结构OODB不仅能存储复杂的应用数据,而且还能存储较大的数据结构。OODB不会因为有大量对象的存在而降低了性能。4.直接引用对象OODB支持对象的直接引用,减少了系统的数据冗余,提供了数据共享能力,有利于数据完整性维护,同时还大大提高了搜索和导航访问能力。MEDIAASSETMANAGEMENT§7.3.1OODB的特点5.优良的应用开发环境RDB的应用开发离不开数据操作语言和相应的宿主语言等。OODB的应用开发并没有这些限制。6.简化并发控制在RDB中,并发控制理论实现起来却比较复杂。而OODB的并发控制以对象为封锁单位,相关数据由对象本身的结构决定,一些控制可由对象的方法和触发器完成,并发控制简单而有效。7.实现无缝连接OODB的产生主要是为了解决“阻抗失配”,它强调高级程序设计语言与数据库的无缝连接。由于实现了无缝连接,使得OODB能够支持非常复杂的数据模型,从而特别适用于工程设计领域。MEDIAASSETMANAGEMENT§7.3.1OODB的特点OODB技术可望成为继RDB技术之后的新一代数据管理技术。存在的问题如下:1.性能方面:由于OODB中数据被存放在许多地方,因此,有效对象聚集是性能好坏的关键因素。2.模式修改:当需要OODB的升级或新版本时,数据库的模式修改或重构将是个问题。3.标准化:标准化和形式化是OODB研究和发展的一个重要方向。4.技术仍须趋向成熟:OODB的发展有赖于面向对象语言的发展。随着面向对象语言的发展,OODB将趋于成熟。MEDIAASSETMANAGEMENT§7.3.2OODB的系统结构现有OODB管理系统功能各异,因而有各种不同的系统结构。下面介绍一种由美国MCC公司研制的ORION系统的系统结构。ORION系统由4个子系统构成:MEDIAASSETMANAGEMENT§7.3.2OODB的系统结构ORION系统由4个子系统构成:(1)消息处理子系统:处理发送到系统中的所有消息。(2)对象子系统:提供高级数据管理功能,包括查询优化、模式管理、长数据管理(包括全文检索),以及支持版本对象、复合对象和多媒体对象。(3)存储子系统:完成对存储在磁盘上对象的存取,它包括两个子系统——页缓冲区管理和磁盘段管理,分别负责内存页缓冲区管理和磁盘中页段管理。(4)事务管理子系统:采用锁和日志技术协调系统的并发控制与恢复机制。MEDIAASSETMANAGEMENT§7.3.2OODB的系统结构ORION系统的客户机/服务器视图

:MEDIAASSETMANAGEMENT§7.3.3OODBS的存储管理存储管理是一个数据库系统的物理实现层,存储管理设计与实现的好坏直接影响着系统的性能、安全与恢复,并与整个系统的总体结构和数据模型息息相关。存储管理主要涉及对象存储、聚簇策略和索引等内容。MEDIAASSETMANAGEMENT§7.3.3OODBS的存储管理1.对象存储(1)对象数据的存储结构对象的存储由两部分组成第一部分是数据库类的结构信息和语义关联,包括数据项构成、函数动作及与其它类的语义关联等。同一类的所有对象具有相同的结构和行为,因此这些信息只需存储一次,我们把它们存放在该类的数据字典中。函数体的源代码和目标代码则分别存于系统的源代码库和目标代码库中。第二部分是该类对象的实例数据,它们被一一存放在对象库中。MEDIAASSETMANAGEMENT§7.3.3OODBS的存储管理(2)对象数据的存储一个OODB系统包含若干个磁盘卷,每个磁盘卷包含若干个页面,对象存储在页面上。页面包含一个页首和一组页槽。对象的物理地址由磁盘卷号、页面号和页槽号组成。页槽用于记录对象在页面中的位置,也就是距离页面开始处的偏移量。当向一个空页面中插人第一个对象(即对象0)时,对象0紧接页首位置,其位置由页槽0记录。对象标识符(ObjectIdentifier,OID)被用来唯一标识数据库中的每个对象,对象标识符分为物理对象标识符和逻辑对象标识符。MEDIAASSETMANAGEMENT§7.3.3OODBS的存储管理通常,根据对象的大小,将对象进行分类,如果对象大小超过页面的大小,那么称其为大对象;否则,称为小对象。大对象的存储方法主要分为两种:基于块的大对象存储方法和基于段的大对象存储方法。目前,许多对象存储系统都采用基于段的大对象存储方法。基于段的大对象存储方法是将大对象存储在物理上相邻的若干磁盘块上的存储方法。对于合成对象,OODB系统采用把主体对象与成员对象分开存储的策略。主体对象中相应位置存放成员对象的标识符(OID),成员对象则存放在其对应的数据文件中。MEDIAASSETMANAGEMENT§7.3.3OODBS的存储管理对象的分开存储策略具有以下优点:(1)查询效率高,尤其是对那些从某个类中找出满足条件的所有对象这样的查询。(2)能很好地支持对象变迁。如某一对象在某一时刻变为其子类中的一个实例或退化为其超类的一个实例,此时只需增减某些片段,只对某一类的数据文件进行修改而不会影响其他抽象类的存储。(3)方便大对象的处理。一个大对象在按抽象类分割后就变成了一些较小的片段,这些片段具有相对的独立性,可以单独调入内存处理。(4)能为不同版本的对象提供共享机制。如果一个对象的不同版本在某些数据片段上没有差异,则这两个版本在这些数据片段上可以共享同一份存储。MEDIAASSETMANAGEMENT§7.3.3OODBS的存储管理2.聚簇策略聚簇是指将相关对象组合起来的过程。聚簇过程的基本意图是为了当用户程序存取一个对象时,可以在相同或相邻物理页中很快找到该对象或其相关对象。聚簇的基本目标是将频繁相互引用的对象彼此相近地存放在内存或外存上,物理存储单元通常都作为聚簇的容器,这些容器的参数决定了聚簇的大小尺寸,从而减少查询处理所需要的I/O操作数。MEDIAASSETMANAGEMENT§7.3.3OODBS的存储管理聚簇策略有静态和动态之分:(1)静态聚簇:此种聚簇是在对象创建时实施的,当对象之间的链被更新时,不重新进行。(2)动态聚簇:此种聚簇是在运行时实施的,在做聚簇的同时还可以并发地访问对象。一个聚簇策略到底选取静态技术还是动态技术,这取决于对象库的行为方面的特征,包括更新操作频度的高低、读写比率的大小等。动态聚簇技术需要一定的CPU时间开销,它对写者的响应速度要慢些,对读者的响应速度要快些。仅当一个系统读操作的次数远远超过写操作的次数时,动态聚簇技术才可能提高系统的整体性能。MEDIAASSETMANAGEMENT§7.3.3OODBS的存储管理3.索引在OODB中,索引是加速查询操作的一种重要技术。与传统的关系数据库在一个属性或一组属性上建立一个索引有所不同,OODB引入三类新的索引:类层次索引、嵌套属性索引和复杂的二维索引。其中嵌套属性索引建立在一个聚集类层次上,又可分为嵌套索引、路径索引和多重索引。嵌套索引维护比较困难,但检索性能最好,适用于对象的反向引用存在的情况;路径索引不需要反向游历,实现起来较方便,检索性能次之;多重索引结构简单,维护最方便,但检索性能不理想。选用何种索引,须对索引性能、维护代价和实现技术复杂度综合权衡而定。MEDIAASSETMANAGEMENTMEDIAASSETMANAGEMENT第7章多媒体数据库技术关系数据库概述1多媒体数据库概述

2面向对象数据库技术

3分布式多媒体数据库

4检索技术简介

5§7.4.1DDBS的基本概念

分布式数据库系统(DDBS)是数据库技术与网络技术相结合的产物,在数据库领域已形成一个重要分支。分布式数据库的研究始于20世纪70年代中期。世界上第一个DDBS是由美国计算机公司(CCA)于1979年在DEC计算机上实现的。20世纪90年代以来,DDBS进入商品化应用阶段,传统的关系数据库产品均发展成以计算机网络及多任务操作系统为核心的分布式数据库产品,同时分布式数据库逐步向客户机/服务器模式发展。MEDIAASSETMANAGEMENT§7.4.1DDBS的基本概念

MEDIAASSETMANAGEMENT网络CMGDBMSLDBMSCMGDBMSLDBMSCMGDBMSLDBMS全局用户GDD/GDB局部用户LDDLDB全局用户GDD/GDB局部用户LDDLDBGDD/GDB局部用户GDD/GDB全局用户

分布式数据库系统的系统结构§7.4.1DDBS的基本概念

DDBS系统组成如下:1.硬件:分布式系统所依赖的硬件环境是分布的。这需要多台计算机设备,计算机网络设备,并由计算机网络连接。2.软件:每个场地必须选择一个适合的操作系统,还必须配备高层的DDBMS(分布式数据库管理系统),它包括GDBMS(全局数据库管理系统)、LDBMS(局部数据库管理系统)和CM(通信管理器)。3.数据:DDBS中的数据是以DDB为核心的,包括GDB(全局数据库)和LDB(局部数据库),以及对应的LDD(局部数据目录)和GDD(全局数据目录)。4.管理员:DDBA(分布式数据库管理员),它可分为两级,一级为GDBA(全局数据库管理员),另一级为局部或自治场地数据库管理员,称为LDBA(局部数据库管理员)。MEDIAASSETMANAGEMENT§7.4.1DDBS的基本概念

分布式数据库(DDB)是计算机网络环境中各场地(Site)或节点(Node)上数据库的逻辑集合。它是一组结构化的数据集合,逻辑上属于同一系统,而物理上分布在计算机网络的不同节点上,具有分布性和逻辑协调性的特点。分布性是指数据不是存放在单一场地为单个计算机配置的存储设备上,而是按全局需要将数据划分成一定结构的数据子集,分散地存储在各个场地(节点)上。逻辑协调性是指各场地上的数据子集,相互间由严密的约束规则加以限定,而在逻辑上是一个整体。MEDIAASSETMANAGEMENT§7.4.1DDBS的基本概念

一个分布式的数据库系统应满足以下四个假设条件:1是数据存储在一些场所(任意地理位置)中,每个场所逻辑上假定为单个处理器;2是场所中的处理器由计算机网络互联。松散互联的处理器有它们自己的操作系统,并可进行独立操作(独立计算机);3是分布式数据库不是一个能在每个网络节点上单独存储的文件的汇集,而是一个实实在在的数据库(独立数据库)。4是系统具有DBMS的完备功能,它不仅包括事务处理和分布式文件系统,还有查询处理和结构数据组织等功能(完备的管理功能)。MEDIAASSETMANAGEMENT§7.4.2DDBS的数据分片在构成DDBS的运行环境时,必须考虑构成DDBS所应用的各个组成部分各自如何使用数据的问题,所以,DDBS同样存在着分布式数据库(DDB)的设计问题,这就是数据分片。它包括了分布式数据库的逻辑划分和物理分配,以及用户对分布式数据库的划分或分配的感知程度(透明度)。数据分片的主要目的是提高访问的局部性。当然,既然是分布式数据库,就不可能使所有数据的访问都局部化。一个成功的DDBS的设计应使访问的局部性能更好,尽量减少远程访问,这就是数据分片的目的。MEDIAASSETMANAGEMENT§7.4.2DDBS的数据分片数据分片包括两个步骤:数据分割和数据分配:先从逻辑上将全局关系模式划分成若干逻辑片断(子关系)——分割;再按一定的冗余度将片断分配到各个节点上,这时逻辑片断就成为具体的物理映象(数据存储)——分配。分割后的各逻辑关系之间应遵循下列原则:1.完整性原则:全局关系的所有数据项必须包括在任何一个片断中。不允许出现某个数据项属于全局关系,但却不属于任何片断。2.重构性原则:所有片断必须能重构(逆操作)成全局关系。3.不相交原则:不相交原则不是必须的,但有这条原则可以使分割不致引起太复杂。分割时不相交,则分配时的冗余可以得到控制。MEDIAASSETMANAGEMENT§7.4.2DDBS的数据分片1.水平分割将关系R按行分为若干个互不相交的子集R1,R2,……,Rn,每个子集Ri

称为一个水平片段。一个水平片段可以看成是关系上的一个选择:R=R1∪R2∪…∪Rn通过对全局关系施加选择运算得到,并可通过对这些片段执行合并操作来恢复该全局关系。2.垂直分割将关系R按列分为若干属性子集R1,R2,……,Rn,每个子集Ri

称为一个垂直片段。一个垂直片段可以看成是关系上的一个投影。关系的重构可以通过连接运算来实现:R=R1∧R2∧…∧RnMEDIAASSETMANAGEMENT§7.4.2DDBS的数据分片3.导出分割导出水平分割,分割的条件不是关系本身属性条件,而是其它关系的属性条件。4.混合分割混合分割是水平分割和垂直分割的混合操作,即对关系的选择和投影视应用需要进行操作。MEDIAASSETMANAGEMENT学号姓名出生年月籍贯入学时间毕业时间200414013001张菲1986河北20042008200512312001吴空1987陕西20052009200710213001李奎1988山东20072011201010013012朱各良1990河南2010在读201110124025伍永1991广东2011在读201210235058赵盖1992北京2012在读已毕业学生表在读学生表§7.4.2DDBS的数据分片MEDIAASSETMANAGEMENT水平分割垂直分割§7.4.2DDBS的数据分片分割的输出是分配的输入。显然,分割与分配有着天然的联系,二者的区别仅在于分割着眼于全局,分配则考虑片断关系。分割是在逻辑上对数据库进行分解,所以分割的片段称之为逻辑片段;而分配的内容是考虑物理上数据表的存储,因此称为物理映象。MEDIAASSETMANAGEMENT§7.4.2DDBS的数据分片数据分配一般有以下几种方式:1.集中型数据虽经分片,但所有逻辑片断完全集中在一个场地上,仍然像一个集中数据库一样。2.分割型数据被分片后,所有逻辑片断各自分配在一个场地上,所有场地上分配的只是全局关系的一个子关系。3.混合型数据被分片后的逻辑片断根据需要分配,共享的片断在需要共享的场地上重复设置,高度私用的片断只设置在所需要的场地上。MEDIAASSETMANAGEMENT§7.4.2DDBS的数据分片为了保证数据分片的有效性,需满足以下几项条件:1.完备性条件:必须把全局关系的所有数据映射到片段中,决不允许有属于全局关系的数据却不属于它的任何一个片段。2.可重构条件:必须保证能够由同一个全局关系的各个片段来重建该全局关系。对于水平分片可用并操作重构全局关系;对于垂直分片可用联接操作重构全局关系。3.不相交条件:要求一个全局关系被分割后所得的各个数据片段互不重叠(对垂直分片的主键除外)。MEDIAASSETMANAGEMENT§7.4.3DDBS的一些特点1.数据的物理分布性与逻辑整体性这种逻辑整体性也可以称之为数据的分布透明性。也就是用户不必关心数据的逻辑分片,不必关心数据物理位置的分布细节,同时也不必关心数据的冗余处理、不必关心具体某个场地的数据库类型。在用户看来,所有的这些不同的数据库都是一个完整的整体。

MEDIAASSETMANAGEMENT§7.4.3DDBS的一些特点2.场地自治和协调

数据的共享分为两个层次,局部共享和全局共享。局部共享是指局部场地上存储的该场地上用户之间的共享数据,在本地用户之间共享这些数据;全局共享则是DDBS中各个场地存储的供其它场地用户使用的共享数据,支持全局的应用。所以,DDBS常采用集中和自治相结合的控制策略。局部的DBMS可以管理该场地的数据库,具有自治功能;同时,系统中又设置有全局集中控制机构,来对各个独立的数据库进行协调,执行全局应用。

MEDIAASSETMANAGEMENT§7.4.3DDBS的一些特点3.数据的冗余及冗余透明性

在DDBS中,常常需要增加冗余数据,在不同的场地存储数据的多个副本。通过增加冗余数据,可以提高系统的可靠性,当某个场地的数据出现故障之后,可以利用其它场地的数据进行操作;另外也提高了系统性能,用户可以选择最近的副本,减小网络开销。这种冗余对用户来说是透明的,但是,数据冗余也增加了分布式数据库更新维护方面的操作成本,需要着重处理数据的不一致问题。

MEDIAASSETMANAGEMENT§7.4.3DDBS的一些特点4.事务管理的分布性

数据分布性造成事务执行和管理的分布性。在DDBS中,全局的应用需要涉及到两个以上的节点,而全局的事务则可能由不同场地上的多个操作组成。这样,如果在一个某一个节点发生故障,操作失败了,那么就会有这样的一些问题:如何执行事务的回滚,如何通知其它节点撤回操作,或者是其它节点不必执行事务其它操作等等。

MEDIAASSETMANAGEMENT§7.4.4DMDBS的特点传统的DDBS提倡有一定的数据冗余,以增加数据通信量为代价,增加局部数据库的自治性。但是,分布式多媒体数据库系统(DMDBS)已不再提倡这种数据冗余,这是因为多媒体数据的尺寸庞大,冗余存储这样的数据会造成严重的资源浪费。传统DDBS的其它特点仍适用于多媒体的情况,除此之外,DMDBS还增加了一些新的特点:MEDIAASSETMANAGEMENT§7.4.4DMDBS的特点1.实时性多媒体数据的展示具有实时性,即数据按一定的速率进行展示,传统的DDBS总是将查询的结果一并传送到用户所在结点,对于具有实时性的多媒体数据已不再适合,其原因有两方面:用户的等待时间过长:具有时序属性的多媒体对象的尺寸巨大,一次性地传输会花费很长的时间。用户所在结点的存储容量有限:用于存储连续媒体的节点计算机一般都要采用磁盘阵列,但网络系统中不可能每个节点都具有这样的存储容量。连续媒体需要高速、等时的传输,而对于传输时所产生的误码并不特别敏感;传统数据对传输的正确性要求较高,但对传输时的延时与抖动并不敏感。这种要求对传统的网络通信协议提出了新的挑战。MEDIAASSETMANAGEMENT§7.4.4DMDBS的特点2.同步性对于传统的DDBS,其查询结果的输出,一般只考虑各片段的联结运算。对于多媒体数据而言,不但要考虑内容上的合成,而且还要考虑各多媒体对象在时序以及空间上的合成。所以,分布式MMDB需要在同步的描述和同步的实现这两个层次上考虑多媒体对象的同步集成。MEDIAASSETMANAGEMENT§7.4.4DMDBS的特点3.服务质量QoS系统的资源是有限的,不可能满足无限多用户的需求。各个用户针对自己的具体应用,并不一定需要严格按存储数据的原始的分辨率、播放速率和展示尺寸提供。为了能够得到系统的服务,用户一般容许有一定的质量降低,这与用户对传统数据的需求有很大差别。例如,字符数值串所反映的含义会因为串中某一码的丢失或错误而不能被理解。但对于视频、声频、图像等多媒体数据,即使其分辨率降低、部分码丢失,用户一般也能理解其展示的含义。所以,为了尽量多地增加用户数量,充分满足不同用户的需求,系统应提供服务质量(QoS)的描述接口。MEDIAASSETMANAGEMENT§7.4.5DMDBS的系统结构分布式MMDBS的典型结构。全局模式管理完成数据的一致性维护,进行必要的模式变换以及对全局事务的并发控制,使数据的结构、物理存储、分布性等对外透明,向上提供一个统一的多媒体操作接口。MEDIAASSETMANAGEMENT§7.4.6DMDBS的实现途径1.远程调用范型对于DDBS,RPC(远程调用)是实现Client/Server结构的最原始的方法。但是传统的RPC方式一般只适合于短消息的通信控制,而连续媒体的操作则要求批量数据的均匀的、长时间无干扰的通信控制。因此,RPC接口标准中应增加对多媒体数据时序同步描述的定义。另外,RPC接口标准应该能够处理用户对服务质量的定义,以便尽可能多地增加用户数。远程调用方式的不足:企业可能有多个数据库服务器,用户必须了解它们所提供的不同接口、数据的分布情况,以协调对各个服务器的调用;软件的复用性差,企业的各个数据库服务器可能是在不同时期建立的,当需要利用各服务器中的数据共同完成某项任务时,用户不得不在RPC接口层上重新编辑应用程序,这样就极大地浪费了人力和物力。MEDIAASSETMANAGEMENT§7.4.6DMDBS的实现途径2.中间件(Middleware)技术为了提高分布式系统构造的灵活性和软件的可复用性,屏蔽各厂家数据库服务器接口的不统一,现在多采用中间件技术。中间件的作用是为了屏蔽不同操作系统接口的差异及分布性,为用户提供一个统一的应用开发接口。MEDIAASSETMANAGEMENT§7.4.6DMDBS的实现途径分布式面向对象范型是另一类中间件技术,这一范型标准充分利用面向对象模型的优点,屏蔽了由于对象所在平台的不同、位置的不同以及对象的迁移等所带来的问题,为用户提供了一个一致的、分布透明的面向对象接口。因为MMDB一般倾向于采用面向对象的范型实现,所以这种接口方式对于MMDB的分布式构造较为平滑。这一范型的工业标准较多,如Microsoft公司的COM(ComponentObjectModel)、IBM公司的SOM(SystemObjectModel)、国际标准组织(CommonManagementGroup,CMG)的CORBA等。MEDIAASSETMANAGEMENT§7.4.6DMDBS的实现途径3.Agent技术利用Agent模型构造分布式系统。Agent技术是分布式人工智能领域中发展起来的一种新型计算模型,具有智能化程度高、分布式系统构造灵活、软件的复用性强等优点。Agent能够感知外界发生的消息,根据自己所具有的知识自动做出反应。利用这一技术实现DMDBS时,应考虑:(1)如何将已有的计算实体(多媒体对象、元组、一般的数据文件等)构造成Agent;(2)如何实现Agent之间的通信。Agent技术还有待进一步标准化。MEDIAASSETMANAGEMENTMEDIAASSETMANAGEMENT第7章多媒体数据库技术关系数据库概述1多媒体数据库概述

2面向对象数据库技术

3分布式多媒体数据库

4检索技术简介

5§7.5.1

全文检索全文检索也称为自然语言检索,是指不对信息资源进行人工标引,由计算机直接对文本正文进行匹配查找。全文检索解决了一般非结构化文字信息内容的查询问题,有效解决了关系数据库管理系统不能很好查询非结构化信息的问题。全文检索通常有两种方式:一是文本正文用分词词典进行自动切词,使用停用词表排除无检索意义的词语,将所有有用的词建立索引,实际检索时,不是在文本中检索,而是在词语索引中检索。二是不建立索引,直接对检索文本逐字进行匹配。MEDIAASSETMANAGEMENT§7.5.1

全文检索文本检索系统的系列检索的技术方法:(1)精确检索。就是要与用户的检索词精确匹配。在英文检索中对大小写敏感。(2)布尔检索。即按照布尔逻辑,采用逻辑运算符将检索提问转换为相应的逻辑表达式进行检索。一般包括逻辑与(概念的限定)、逻辑或(概念的联合)、逻辑非(概念的排除)。(3)截词检索。采用截断的方式,利用词的片段进行检索。截词检索是一种用字面相似检索相关资料的检索方法,在西文检索中使用较为普遍,例如在西文中利用词根进行检索。中文检索系统中的模糊检索实际上就是一种截词检索。

MEDIAASSETMANAGEMENT§7.5.1

全文检索(4)限定范围检索。可以通过限定检索范围(或字段),缩小检索范围,使检索更具有针对性。几个字段的逻辑组合检索及位置检索也属于限定范围检索。(5)相关检索。即提供各种相关资料检索的手段。包括:在显示检索结果时,也显示相似检索结果,供用户扩大检索范围;在显示检索结果的同时显示相关词,只有当用户点击这些相关词时,系统才利用这些相关词检索并显示相关检索结果。(6)二次检索。这是目前的全文检索系统中使用最为广泛的一种检索方法。就是对检出的结果进一步加以限定,改进查准率。MEDIAASSETMANAGEMENT§7.5.1

全文检索另外,在全文检索系统中,检索结果的显示也是影响检索效果的一个重要方面。检索结果的排序方式有很多种,如:按时间排序、按检索词在命中资源中的词频排序、按范畴分组排序等。目前,较多的是采用相关度排序。它以检索词与信息资源的相关性为依据对检索结果排序,相关性是对词频、词语在信息资源中出现的位置以及其它的一些因素加权得到的结果。MEDIAASSETMANAGEMENT§7.5.1

全文检索衡量全文检索系统的优劣,主要包括如下几个方面:(1)查全率:指系统在进行某一检索时,检索出的相关资料量与系统资料库中相关资料总量的比率。(2)查准率:指系统在进行某一检索时,检索出的有用资料数量与检索出资料总量的比率。(3)响应时间:指的是从提交检索课题到查出资料结果所需的时间。最基本的检索速度是应该达到“千万汉字,秒级响应”。(4)用户负担:指用户在检索过程中付出精力的总和。(5)输出形式:指全文检索系统的检索结果的排序方式和显示方式。MEDIAASSETMANAGEMENT§7.5.1

全文检索在全文检索系统中查全率并不是一个很突出的问题。查准率却显得日益重要。查全率与查准率是互为消长的。也就是说,当要保证系统有较高的查全率时,必然会牺牲系统的查准率,反之亦然。当信息量非常大时,查全率高不仅要牺牲系统的查准率,还会给用户带来比较大的负担。因为,用户需要从数量巨大的检索结果中挑选其真正需要的信息。虽然,系统可以通过改进相关性排序的算法,来减少用户的挑选时间,但是对于相关性的判断却具有很强的主观性,不同知识结构和不同需求的用户对同一资源的相关性判断可能会不同。因此,提高系统的查准率是非常重要的。MEDIAASSETMANAGEMENT§7.5.1

全文检索2.后控词检索“后控”是相对于“先控”而言的,是指在标引阶段不进行控制,而在检索阶段进行控制,一般的后控检索在后台都有一个后控词表。在标引阶段,类似于自然语言的标引阶段,通过自由标引,利用作者语言或标引员的语言来描述文本,也可以不标引。在检索阶段,抛弃了自然语言不作任何控制的作法,而是借鉴了先控语言的思想,在用户概念化其信息需求,形成自己的检索表达式之后,由检索系统自动用事先已经建立好的后控词表,进行同义检索、等级检索和相关检索。MEDIAASSETMANAGEMENT§7.5.1

全文检索在全文检索系统中使用后控词检索技术,是因为:(1)在全文检索系统中,由于没有进行同义控制,同一主题文献在检索系统中大量分散,系统的查全率相应降低。(2)在全文检索系统中,非同一主题的文献由于没有区分多义词和词义含糊词,只是一种简单的字面匹配,必然会造成在检出的条目中有大量的无用信息,这样在很大程度上降低了检索系统的查准率,增加了用户的检索负担。(3)由于自然语言检索所用的词语都是相互独立的,词语之间缺乏关系的控制与揭示,所以,在全文检索系统中难以灵活地进行扩检、缩检和改变检索范围。(4)在全文检索系统中,由于对检索者的要求相对较高。检索输出的条目信息数量非常大,也增加了检索者判断和挑选的时间,从这个角度讲,也增加了检索者的智力负担。MEDIAASSETMANAGEMENT§7.5.1

全文检索利用后控词表进行检索,既可以提高查全率,又可以提高查准率。后控词表主要通过进行词间关系控制,来实现检索时的后控作用。包括:(1)等级关系控制:指上下位概念之间的关系。作用是用于揭示主题词之间的分属关系,通过对它们的显示,引导用户扩大和缩小检索范围,提高检索的灵活性。(2)等同关系控制:作用是通过对同义关系词的联结,增加检索入口,提高检全率。等同关系涉及的类型包括:语义同义词之间、近义词之间、学称与俗称之间、全称与简称之间、外文与中文名之间以及短语和它的各种组配形式之间等多种情况。MEDIAASSETMANAGEMENT§7.5.1

全文检索(3)相关关系控制:指主题词之间除等同关系、等级关系之外,语义相关的一种关系。相关关系是揭示主题词之间各种联系、扩大检索范围、进行相关资料查找的重要手段。相关关系涉及范围广、种类多、灵活性大,很难严格界定,一般无法也没有必要做到完全意义上的相关关系控制。在有后控词检索的全文检索系统中,当用户输入检索词后,系统不直接进行检索,而是先与后控词表里的词进行匹配,如果词表中有这个检索词,系统将自动利用这个词及其等同词进行检索,同时在检索结果中显示等级关系词和相关词,供检索用户参考、选用。这样将大大提高检索系统的查全率和查准率。MEDIAASSETMANAGEMENT§7.5.2多媒体数据的检索对于多媒体数据检索而言,从其检索模式来看,经历了从上世纪70年代到80年代的基于元数据(文本)的多媒体检索,发展到上世纪90年代初的基于内容的多媒体检索,再发展到上世纪90年代末的基于语义和内容相结合的混合多媒体检索,最后发展到目前正在研究的跨媒体检索。其中前两者是针对单一类型的媒体对象的检索,后两者则针对多种类型媒体对象的综合检索。MEDIAASSETMANAGEMENT§7.5.2多媒体数据的检索1.基于元数据(文本)的检索模式文本信息检索技术在过去的几十年中得到了充分的研究,并已成功运用于诸如Google、Lycos等商用搜索引擎中。在

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论