【网格存储技术在数字图书馆中的应用分析13000字(论文)】_第1页
【网格存储技术在数字图书馆中的应用分析13000字(论文)】_第2页
【网格存储技术在数字图书馆中的应用分析13000字(论文)】_第3页
【网格存储技术在数字图书馆中的应用分析13000字(论文)】_第4页
【网格存储技术在数字图书馆中的应用分析13000字(论文)】_第5页
已阅读5页,还剩17页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

网格存储技术在数字图书馆中的应用研究摘要随着数字图书馆建设进程的加快和存储技术的发展,在资源存储方面取得了长足的进步,存储容量、数据传输速度、扩展性和共享性等方面得到了很大的改善。但是由于现代数字图书馆信息资源呈现出数据量大、数据类型复杂、服务器平台种类多、读者需求复杂等新特点,传统的集中服务系统(如硬盘存储、光盘塔存储、磁带库存储)或者现有的网络存储系统(如NAS,SAN)都无法从根本上满足数字信息迅猛增长的存储需求。而网格技术擅长解决数据密集型、吞吐量密集型的应用问题,基于网格的存储技术擅长解决海量、分布的存储问题。鉴于此,本文提出了基于网格的数字图书馆资源存储方案,并对其理论和技术进行了较系统的研究。关键词:网格存储;数字图书馆;资源存储;目录TOC\o"1-3"\h\u54441引言 引言网格是构建数字图书馆的新的思维方式和新的概念,由计算网格层、信息网格层以及知识网格层构成的三层网格框架结构,从下到上逐层解决了新型数字图书馆面临的3个难题,而网格存储技术是解决这些难题的基础。基于网格的存储技术有三大优点:更高的容错与冗余度、在负载波动的情况下有更好的性能和更低的成本。显然,构建基于网格的数字图书馆存储环境不仅能全面有效地解决其资源存储问题,而且为其网格用户方便、快速、高效地访问数据提供了支持和保障。2数字图书馆资源存储现状2.1数字图书馆资源存储需求2.1.1数字图书馆资源的界定数字图书馆的研究开发,是伴随国际互联网的发展和普及而兴起的,数字图书馆是20世纪90年代社会需要的直接产物。通常,数字图书馆是指:“利用计算机技术、网络技术、数字化技术形成的跨地区、跨国家的信息空间、信息系统,并以数字化方式将信息资源存储在具有海量存储能力的存储系统中,通过计算机和网络将信息资源传递给不同地域的用户,从而做到不受时间、空间限制的信息资源共享”。数字图书馆不仅仅是传统图书馆资源的数字化,也不是简单的互联网上的图书馆主页,而是一整套面向对象的、分布式的、平台无关的数字化资源的集合。与传统的图书馆相比较,数字图书馆具有信息资源数字化、信息传递网络化、信息资源共享化、信息组织存储标志化、信息管理分布化、信息实体虚拟化、馆员素质综合化等特点。2.1.2数字图书馆资源的特点与传统图书馆的馆藏资源相比,数字图书馆信息资源有其自身的特点。从存储的角度来考虑,数字图书馆资源具有以下特点。(1)存储容量大。近几年来,图书馆数字资源呈几何级数增长,数字图书和全文数据库是数字图书馆藏资源的重要增长点。数字图书馆的各种数字化信息如流媒体、数字仓库与挖掘等的增长也将一直持续下去。存储信息的度量单位由MB,GB向TB,PB转变,其存储的数据总量达到了海量规模。如:美国国家数字图书馆1999年数字化馆藏资源的总量就达到了100TB。(2)媒体形式多。数字图书馆馆藏包括数字化的图书、新闻、美术、照片、雕塑、电影、软件、电子出版物、互联网内容、卫星数据、气象数据、地理数据、政府文件等各种各样的人文与科学数据资源。其存储媒介已不限于印刷体,它包含文本、声音、图像、影视等多种媒体形式,数据类型复杂。(3)强分布性。数字图书馆海量数据资源存储在物理上分布的存储器设备上,存储设备包括磁盘阵列、磁带库、光盘库等,并且存储的物理路径复杂,分本地存储和远程存储。(4)动态性。数字图书馆系统在不同时刻对资源的需求是不同的,白天或某段时间内可能因为访问人数激增造成对某部分的计算资源需求增加,一段时间后可能需求又有所下降,而这些都是无法预知的。所以资源需求具有很高的动态性。另外数字图书馆的信息资源己从静态的文本格式发展到动态链接,而且动态链接不确定,更新频率高。(5)异构性。数字图书馆存储资源类型不一,系统现有的主机系统和存储系统也具有多类型的特点,操作系统包括Unix,Linux、Windows等,主流类型硬件设备的主机厂商和存储厂商来源不一。2.1.3数字图书馆存储要求要求实现数据资源的动态存储;要求实现对异构的数据进行同构的访问。对存储系统而言,必须要满足以下要求。(1)海量数据的存储;(2)7X24小时的高可用性;(3)存储系统尽可能冗余,排除单点故障;系统的升级和维护尽可能地在线进行;系统发生故障后,能被自动地切换到其他系统。(4)提供跨平台、跨部门、跨区域、甚至面向全世界的数据存取机制和管理机制;(5)为用户提供一个虚拟世界,即在给定的权限下可以不受限制地自由取用;(6)面对多用户并发的快速响应机制:(7)高质量的流媒体服务;(8)多用户实时的远程监测和设备控制机制;(9)同时满足大数据量的并发访问和传输,同时确保数据安全;(10)良好的交互性、可视化、可参与性和实时性;(11)系统的容灾能力强,即如果本地的数据发生灾难后,系统能不受或少受影响;(12)对现有存储设备的利用,保护现有投资。2.2数字图书馆资源存储现存问题在实际应用过程中由于数字图书馆对存储和数据的管理、异构平台的数据共享、系统的可用性和可扩展性、存储设备的管理、访问控制和安全性等方面的要求越来越高,所以在存储方面仍存在以下问题:数据扩充性能差,无法满足数据资源爆炸式增长的需求:多用户、异构性与跨平台导致数据兼容性和共享性较差;存储系统智能性较差,不能满足动态存储、按需存储的要求;数据的批量传输、移动和复制能力较差;数据的存储速率无法满足大数据量、大并发访问的要求。尽管目前数字图书馆广泛应用新的网络存储方案,如NAS,SAN和ISCSI等,但是由于这些存储方案适应的层面各不相同,不能全面有效地整合存储资源,也就是说这些存储方案没有达到性价比最优、存储效率最优的效果。3网格存储概述3.1网格存储3.1.1网格存储的概念存储网格是指运用网格思路和技术,包括虚拟化和开放标准,实现分布、异构的存储和数据一体化,为各类网格应用服务[33],如图3-1所示。存储网格是一种新的技术模式,是分布存储资源的有机融合。它将将存储从外围设备变成了一种共享的IT资源,并带来了全新的效率、可扩展性和可用性。图3-1储存网格网格存储就是存储网格的实现机制、方案。网格存储[32】是网格技术发展的重要组成部分,它将存储和存储引擎整合成内部相连的网格,通过网络以一种灵活的、透明的方式分配资源,依照单位的存储策略和程序,高效地管理资源,以保护大容量信息资产的安全,即实施存储网格的最终目标。网格存储是以节点之间的备份为基础,可以在多重节点上进行内容管理与储存,也可以在存储环境上的多重节点进行数据转移与传输。正因为这样,它可以将网络连接存储伽AS)和存储局域网(SAN)两种不同的技术、不同的管理工具、不同的存储应用融合在一起。网格存储使存储简单化,兼容不同的网络协议,支持不同的系统平台,在各个分布系统上运行而且同步。3.1.2网格存储的特点网格存储具有以下特点:(1)模块化存储数据;(2)共同管理,可以处理所有节点上数据资源,包括数据保护、资料行动化与移植,以及供应与需求的分配;(3)共同虚拟层,利用逻辑资源池,支持用户的各种动态交互服务;(4)简化平台与管理架构。总之,网格存储能很好的解决各类资源的自动优化、自动配置、自我保护和自动恢复等功能。3.2网格存储架构一个好的网格存储架构,主要考虑以下因素:(1)良好的全局管理特性。存储系统是个动态性的系统,所有的服务器、客户端和应用程序都在不断变化,用户则需要一个能很好地适应不断更新的灵活平台。(2)好的网格存储架构必须支持资源的动态集成,具有良好的自适应性。(3)高性能。网格存储架构平台具有良好的可扩展性,在良好调度算法的配合下,可保持全局性的负载均衡。(4)安全性。网格存储架构不仅需要对所有实体进行认证和授权,而且需要通过一次登录获得对所有经授权资源的访问。基于这些考虑,本文给出了高性能的网格存储架构,如图3-2所示。图3-2网格存储架构此网格存储中心由目录服务器、调度服务器和CA认证中心等构成。目录服务器登记并动态反映所有可用的存储服务器和RAID-M(RedundantArrayofIndependentDisk)存储器的状态;调度服务器对存储资源进行统一管理,具有负载均衡和就近服务功能。存储服务器接受来自用户或应用的存储访问请求,并利用目录服务器中所保存的全局信息,将请求转化为对若干台RAID-M存储器的具体访问;CA认证中心进行所有服务器、存储器和客户端的安全认证和授权。3.3网格存储的优势网格存储整合了SAN和NAS等存储系统的优点,并结合网格计算技术,而且融合了虚拟化技术、智能存储技术和开放性标准,不仅能满足大容量、网络化、容错性和高效性这些基本存储需求,还能满足非集中控制(自主控制)、透明访问、异构性、协同化、动态性等特殊存储需求。网格存储不是对原来存储技术的否定,而是继承了它们的优点,并可将SAN,NAS以及ISCSI相统一,所以具有其它存储不可比拟的优势。网格存储比起老一些的存储方法至少有三大优点:更高的容错与冗余度、在负载波动的情况下有更好的性能、以及更低的成本。具体而言,网格存储有六大优势。(1)透明管理网络存储。用户最典型的应用环境是多厂商设备的共同使用,存储网格可以管理这种复杂环境,其管理系统可以同时管理SAN和NASo(2)透明扩展容量与性能。网格可以动态增加存储系统的容量而不影响其他任何应用,通过增加文件服务器的数量而自动提高系统的整体性能。(3)平衡成本与数据关键性关系。网格可以根据数据对用户业务的关键性设定一定策略,从而决定数据的存储位置,这样可以避免低价值数据浪费昂贵的高端存储空间,可以为用户节约成本。(4)保障业务连续性。在文件服务器集群中,每个流量路径都有备份节点来保障其高可靠性,当出现故障时,备份节点自动接管原有存储流量,不会造成用户业务的中断。(5)透明无缝管理。网格存储环境下,无论后端的物理存储设备是什么,服务器及其应用系统看到的都是物理设备的逻辑映像。即使物理存储发生变化,这种逻辑映像也不会改变,系统管理员不必再关心后端存储。(6)统一数据管理。网格提供的是一个统一的管理界面,它以用户最为重要的数据为管理对象,而并非存储环境中各种各样的存储设备,从而使管理过程大大简化。4数字图书馆网格存储关键技术4.1异构存储技术4.1.1虚拟存储技术在网格存储环境中,可以将物理分布的各类存储系统和设备虚拟成单一的存储系统,提供统一的、透明的、安全的访问和管理机制,从而使物理上分布的存储、服务器、网络设备可以自主地接入到网格中,通过中间层的存储虚拟化技术,网格应用层形成统一的访问接口。存储虚拟化是网格中实现存储与数据虚拟化的最底层。它是一种将服务器操作系统的存储描述与实际物理存储设备相分离的技术。存储虚拟化的首要任务是在多个物理存储设备或存储系统上创建一个抽象层,屏蔽复杂性,尤其是可以解决异构环境资源存储的问题。图4-1是数字图书馆虚拟化资源存储系统的结构模型。虚拟化存储系统在原有存储系统结构上增加了虚拟化层,将多个存储单元抽象成一个虚拟存储池。存储单元既可以是物理存储设备,也可以是各种存储系统。存储用户通过虚拟化层提供的接口向虚拟存储池提出虚拟I/O请求,虚拟化层对这些请求进行处理后将相应的请求映射到具体的存储单元。虚拟化技术可以减少存储系统的管理开销,将多个独立的存储单元统一成一个逻辑的存储系统,有效实现多个存储系统的数据共享。数字图书馆采用NASISAN的存储模式只能实现存储资源与计算资源的物理层面分离,而无法实现逻辑层面的分离。而基于网格技术的统一虚拟存储系统结构将不同厂商的DAS,SAN,NAS,IP-SAN等各类存储资源整合起来,形成一个统一管理、监控和使用的公用存储池。这样数字图书馆虚拟层就可以将不同的磁盘阵列、自动磁道库和光盘库逻辑上转换为同一设备,使不同主机的用户和应用程序可以连接该庞大的集中化存储池并共享存取数据。图4-1虚拟化资源存储系统的结构模型4.1.2管理存储网格的标准规范在构建数字图书馆网格存储环境时,有三个网格存储标准可以运用。(1)WSRF和WSNoStorageResourceManagers(SRM)是异构存储的中间件组件,其功能是在网格中提供动态空间分配和共享存储组件的文件管理功能。它们通过提供存储预约和有关存储可用性的动态信息来进行网格作业的规划和执行,从而对ComputeResourceManagers和NetworkResourceManager进行了补充完善。而WSRF和WSN是为SRM提供接口标准的协议,它们能解决数字图书馆不同存储系统之间的互操作问题。(2)GFS。数字图书馆海量的数据中,其中有很大的比例都是以文件形式存储的。对于异构文件系统,GFS除其提供一层抽象外,它还提供了一个可以扩展现有的文件系统(或子单元)来启用无缝数据共享和管理的命名空间。利用此标准协议,可以建立一个中间件框架,它使客户机可以无缝地实现数据在分布式异构服务器之间的传输。在建立网格文件系统的基础上,再建立网格文件系统目录服务(资源命名空间)来管理通用的命名空间,它涵盖了所建立的异构文件系统和联邦化、虚拟化的数据。(3)SMI-SoSNIA的SMI-S可以用来管理异构的、与位置无关的存储和存储服务。SMI-S是作为一个基于CIM的Profile进行组织的,它在高层可以分为3类:存储、光纤和主机。SMI-S为网格存储管理提供了第一个必需的层次:通过标准接口和管理模型来管理异构存储网络,即将不同的存储网络NAS.SAN和IP存储系统融合一起进行统一管理。4.1.3网格存储数据的传输机制数字图书馆网格中已有许多大型的存储系统,这些存储系统往往侧重于不同的需求,为客户提供不同的服务:如高性能存储系统侧重于实现快速传送存储设备和并行机或群聚计算机之间的庞大文件;分布式文件系统则侧重于支持海量存储与负载平衡。由于采用了不同的软件及数据访问协议,大部分存储系统并不兼容。若要访问多个存储系统,应用程序必须采用多种方法来检索所需数据,这显然是低效的。而在数字图书馆具体的应用中,许多地理上分布的应用程序或用户需要访问大量数据,要求各种存储系统之间能快速而有效地传输大量数据。以前的解决办法是通过建立一个客户层或者网关,给用户提供统一接口以打破由相互不匹配的存储系统协议所造成的分区。这种方法虽不要求供应商支持一种新的协议,但由于增加了一个抽象层,所以实现跨系统数据传输的代价较大,且实现这种方法是一项很复杂的工作。为此,数字图书馆采用Globus的GridFTP机制。该机制基于标准FTP协议,并对其进行了全面扩展,可实现对多种存储系统的支持,并提供统一的用户访问界面GridFTP协议相对于FTP协议有许多新的特点(1)GridFTP支持灵活可靠的安全鉴别和完整性检查,而且用户可以控制GridFTP在不同层次上的数据完整性。(2)GridFTP支持第三方控制的数据传输。为了管理分布式通信中的大数据集,必须提供经过鉴别的第三方控制的数据传输。由于在GridFTP实现中,增加了安全认证,所以可以可靠和安全地支持第三方数据传输功能。(3)在数据传输方面,GridFTP不仅支持多个并行数据流的传输,而且还支持大规模的数据分布放置在多个存储点的条状数据的传输。特别是当用户需要访问某个远程节点上的文件一部存储数据时,GridFTP支持从远程文件的任意位置开始传输,可有效地支持部分文件传输。(4)GridFTP可以自动优化缓冲器的大小来提高数据传输性能,而且还支持容错的数据传输和重传。4.2动态存储技术由于网格可以根据数据对用户业务的关键性设定一定策略,从而决定数据的存储位置,所以数字图书馆存储可以灵活、动态地选择网格节点中的物理存储设备,这样可以避免低价值数据浪费昂贵的高端存储空间。也就是说利用智能数据迁移将日访问量不是很大的大部分数据保持“脱机”,但又不“离线”的状态。智能分级存储管理技术就可以实现这种存储数据动态的迁移。下面具体给出了一个数字图书馆网格存储数据迁移系统的硬件设备连接方案[[30],如图4-3。文件服务器分别连接了三个海量存储设备,即磁盘阵列、光盘库和磁带库。磁盘阵列所存储的为全在线数据,即第一级数据:光盘库所存储的是不常用数据,一般为超过30天没有被访问过的数据文件;磁带库用于存储在正常情况下基本不怎么读取的数据文件,通常这些文件或是具有保留的价值,或是超过90天还没有被人读取过。本系统迁移系统包含以下几个部分:(1)数据迁移服务器。它主要担当整个存储网格的数据管理员,当数据达到某一事先规定的标准时,此服务器便将数据从一级存储设备(磁盘阵列)向下一级存储设备(光盘库和磁带库)复制,并且释放一级存储设备中存储空间。同时,此服务器管理所有数据迁移策略的制定和负责磁带库设备的驱动和管理。(2)存储系统。存储系统提供在线的实时的数据存储服务和离线的存储管理。(3)客户端。其实就是网格中的一台计算机系统,而这台计算机上的许多数据需要通过数据迁移服务器来实现从其本地磁盘被复制到数据迁移服务器上。图4-2数字图书馆网格存储数据迁移系统5.数字图书馆网格存储的应用5.1网格存储应用模型数字图书馆网格存储模型是基于网格服务的思想来构建和设计的,其功能模块能为用户层提供资源存储描述、存储组织、存储监控与发现、存储调度、存储作业管理、存储副本管理、数据传输管理和数据迁移管理等服务。在应用层中,统一检索系统、资源发布系统、远程传送系统、期刊数据库系统、本地/异地备份等系统的普通用户或者管理员需要存取资源时,他们可以通过模型软件系统的网格存储服务点进入数字图书馆网格存储系统,该系统的服务层就能为他们提供所需的存储服务。图5-1数字图书馆网格存储应用模型5.2存储服务过5.2.1存储描述DL网格存储资源具有不同的物理特性和逻辑特性,因此各类存储资源的描述文档也不同。存储描述是基于元数据模型来实现的。图6-2描述了元数据模型的各个部分以及它们之间的相互关系:图5-2网格存储元数据模型1、用户元数据用户元数据用来描述网格用户的信息。如用户名称,密码,身份等,用于验证用户身份的合法性以及控制用户对数据的操作权限。其中,用户名是用户登陆DL网格存储使用的m,密码用于验证用户的身份,身份用于确定用户对数据的访问权限。对于已经注册进行了权限认证的普通用户来说,通常具有以下权限:(1)向网格存入数据,将数据共享,提供给其他用户使用;(2)对存入网格中的数据进行修改或删除。(3)对属于自己的存储节点(即存储节点的拥有者是用户本人)信息进行修改,例如改变存储节点的共享目录,可共享空间的大小,甚至将节点退出网格,不再作为共享资源;(4)将某一存储资源加入网格,共享该资源,使其成为网格存储节点;(S)查看其他存储节点资源的信息。管理员是比普通用户更高一级的用户,除上述普通用户所拥有的权限,还可以对DL资源网格存储进行管理,具体如下:(1)对于所有的存储节点资源,可以根据当前网格运行的状态和存储需求,做出必要的资源调整和分配。例如增大节点的共享存储空间,改变网络传输速率,改变存储节点的。ache大小,改变存储节点的副本管理策略等等;(2)对于用户,可以设定或修改用户对网格资源的使用权限,改变用户身份等等;(3)对于网格中所有的存储数据以及元存储数据,管理员都拥有查询、浏览、读、写、修改以及删除的权利。2、存储节点元数据描述与DL网格存储节点相关的信息,如存储节点的名称,IP地址,地理位置,存储节点所有者,存储系统,存储可用空间,存储副本节点,网络状况等。其中存储节点的名称指存储节点的逻辑名称;存储节点的地理位置指当前所处的物理位置;存储节点所有者指有权限修改存储节点的信息;存储系统指节点使用何种存储系统,如NAS存储系统或者SAN存储系统或者IP存储系统或者集群存储系统等等;可用空间指节点中还有多少空间可供存储;存储副本节点指该节点是记录与数据副本有关的信息,如文件与具体存储系统之间的映射信息;网络状况指当前数据存储的速度、传输数据的速度和是否拥堵的状态。存储节点元数据有以下用途:(I)当用户向网格中存入数据,或系统根据用户使用状况、网格资源状况将数据从一个节点复制到另一节点时,存储节点元数据可以提供存储空间信息,例如目前可用的共享空间的大小,系统根据该信息选择合适的节点存储数据;(2)帮助系统在访问数据时做出正确的决策。为了保证用户对数据的高效访问,网格在将数据传输给用户时会采取一定的数据访问策略。例如根据“就近访问”原则,在同一数据拥有多个数据副本的情况下,选择距离用户最近的节点进行访问;或者根据当前网络状况,选择网络速度快,无网络拥堵状况的节点来读取数据;或者综合多项性能,选择访问代价最小的节点。3、应用元数据应用元数据是与具体应用相关的文件逻辑结构或语义信息,如存储数据的内容和结构、应用元数据之间的兼容性、存储应用需求的信息描述等。存储数据的内容和结构是指数据存储是选用关系型数据库还是面向对象的数据库还是文件系统结构,是结构化的存储还是非结构化的存储。数字图书馆业务管理系统、馆藏书目数据OPAC系统、数字图书数据库等是以关系型数据库存储为主,属于结构化的存储。而数字图书馆中的各种电子文档资料,网站的各种元素、图片、扫描影像、多媒体视频、音频信息以文件存储为主,属于非结构化的存储。应用元数据之间的兼容性是指元数据与其他相关应用是否兼容。存储应用需求的信息描述是指和资源存储具体需求相关的信息。它包含存储的类型(一级存储/二级存储/三级存储或者副本存储/备份)、存储所需要的空间、存储的时间(暂时存储火或者永久存储)、存取速度要求、访问的频率和存储安全级别(是否需要异地备份)等。5.2.2存储组织DL资源网格存储组织决定了系统采用何种方式存取资源。采用LDAP目录服务器和全局命名服务器来进行元数据的组织管理。1.LDAP目录服务器LDAP目录服务器是通过使用LDAP协议,在信息目录的正确位置存取数据的服务器。轻量目录访Ip协议LDAP(LightweightDirectoryAccessProtocol)是独立于厂家和平台的开放网络协议标准,它是在X.500标准进行简化的基础上,基于TCP/IP定义了一个目录服务标准。LDAP目录也是一种类型的数据库,但不是关系型数据库。它主要优化了数据存取的性能,主要优点有(1)LDAP是跨平台的协议,可以在任何平台的计算机上,用LDAP客户端软件去访问LDAP服务器;(2)对LDAP的读操作的完成速度比普通的数据库访问要快很多;(3)LDAP服务器可以是分布的,用户访问到的信息可以是本地的LDAP服务器,也可以是全局的;(4)LDAP的存储是一条条记录存储的,各条记录存储的属性是可变的。LDAP目录服务器使用层次化的树型结构对资源存储进行组织。在LDAP目录信息树结构中清楚地体现了不同类型资源的差异以便定位数字图书馆资源存储的位置、副本存储的位置等等。数字图书馆元数据集包括了用户和用户工作组描述信息、存储网格节点描述信息、数字图书馆的任务描述信息。利用LDAP目录信息树将它们进行组织管理,如图6-3所示。图5-3数字图书馆网格存储层次组织结构2、全局命名服务器为了有效地组织管理数字图书馆网格资源存储,需要有一个全局的命名空间,对系统中的存储信息资源(包括数据库、文件系统、存储设备等)进行统一命名。为了将信息资源的物理特征与逻辑视图独立开,使物理层次上的变化不会对逻辑层次产生影响,逻辑层上的变化不会影响物理层次的变更,系统采用了分层次的三种命名空间:用户资源名、逻辑存储资源名和物理存储资源名。(1)用户资源名是指向用户、在用户逻辑视图中所使用的资源名称,它可以按用户的习惯自由拟定。它和系统资源名的关系是多对一的关系。(2)逻辑存储资源名是在系统内部使用的资源名,具有全局唯一性。每个逻辑资源名对应一个物理资源名,由它代表该资源在系统内部被系统进行存储、操作、访问、属性建立和检索等活动。(3)物理资源名是该资源在存储系统中的实际唯一标识符,它和存储设备相关。在某个独立文件系统上,它是一个文件的完整路径,在网络文件系统中,它是可对该文件进行访问的系统路径。5.2.3存储监控与发现在DL网格环境下,如果没有存储监控与发现机制,存储服务请求者就不能知道哪些存储设备可以存储,哪些为最优存储,哪些存储服务器的能力己经增强或减弱等,也就满足不了存储服务请求者的存储需求。所以存储监控与发现是存储服务请求者与存储资源服务之间必要的桥梁,而且它是存储调度的基础。存储监控与发现就是监控整个数字图书馆网格存储状态(包含存储服务器的状态、存储系统的状态、存储设备的状态等),并且根据用户的需求信息描述在网格存储环境中查找到与需求匹配的存储资源后,将结果返回给存储服务用户,用户就可以选择自己所需要的存储资源了。DL应用服务器经存储监控与发现服务器MDS(moitoringanddiscoveryserver)的认证过程如图6-4所示,简答概括为以下几个步骤f521.(1)当DL应用服务器需要网格存储服务设备时,它就发出一个存取请求给MDS。同时网格存储系统使用描述语言对用户需求进行信息资源描述。(2)DLMDS中保存了记录所有网格存储设备状态的网格存储设备表。通过资源存储发现机制,将用户需求信息资源描述与网格存储服务设备相匹配后,MDS发出一个存储请求给要选择的网格存储服务设备。(3)如果选择的网格存储服务设备能够工作,它就给发送确认信息;如果不能工作,它就不发送确认信息。(4)MDS决定哪一个网格存储服务设备是最好的,它发送一个存取接受指令给应用服务器。(s)应用服务器发送一个存取初始化指令给己经选择好的网格存储服务设备。(6)从网格存储设备服务设备接到允许的指令后,应用服务器就完成了认证,被选择的网格存储服务设备就转变为这个应用服务器的数据存储设备了。图5-3MDS存储服务认证5.2.4存储调度DL网格信息资源存储调度的作用就是根据当前网格存储系统负载状况,对系统内的任务进行动态调度,其调度策略有至关重要的作用。DL网格存储调度包含存取智能排队和动态任务调度两个方面。首先,DL网格存储调度结合存储监控与发现智能地综合分析应用的特征、存储系统的性能、可用的存储容量、网络的带宽、存储的缓冲等等。然后,DL网格存储调度算法在需求和整个网格存储状态之间进行合理匹配,根据网格存储的负载情况、空闲空间的大小、文件本身的特点、存储响应的速度要求等因素决定存储的分配。最后在实现过程中不断微调和优化。调度的基本原则是保障完成尽可能的存取任务,另外还需要考虑优先级、自动调度(减少人工参与工作量)、存储空间预留、响应速度等因素。5.3存储管理5.3.1存储质量管理数字图书馆网格环境中的动态存储备份就是异构存储系统之间进行动态的数据备份,从而优化大数据备份传输和大用户量的备份访问效率,减少用户的访问延迟和网络带宽消耗,达到改善系统的负载平衡和数据的安全性的目的。数字图书馆利用一种基于最小代价的动态副本管理模型〔55]将客户端请求按照存储节点服务能力进行调度,实现了更有效的负载平衡调度。模型的基本思想是以最小的代价获取最大化的整体系统性能。该模型包括副本创建、副本选择和副本一致性更新三种策略。(1)副本创建策略。该模型在用户进行数据访问后,统计副本访问颇率和用户访问代价,计算副本创建代价和副本创建后副本访问代价,从副本访问代价与副本创建代价之和低于现副本访问代价的存储代理中,选择代价最小的存储代理创建副本。(2)副本选择策略。该模型计算副本的服务能力,从符合用户期望的副本中选出服务能力最小的副本为用户提供数据传输服务。副本选择策略获得符合用户期望的数据访问效率的同时,为高要求用户预留了符合要求的副本访问,使系统能够为更多用户提供服务,提高了整个系统存储效率。(3)副本更新策略。该模型采用软状态服务,对主副本和副本更新代价小的存储代理优先访问原则进行副本松散一致性更新,避免了松散一致性更新中可能存在的冲突问题。为了避免一致性更新的冲突问题,文件在创建时被指定为主副本,其他创建的副本被指定为从副本。主副本更新后向从副本发送状态更新通知,从副本维护着主副本更新的软状态拷贝,直到更新完成。副本更新时按副本更新访问代价进行排序,优先对访问代价小的节点进行更新。5.3.2存储安全管理数字图书馆网格存储系统安全认证系统利用Globus项目中的GSI(GridSecurity-Infrastructure)认证技术,提供了一种能够适应网格环境下身份认证和授权访问要求的安全模型。该模型身份认证不仅是用户、管理员登陆之后才能进行存取、管理操作,而且设备在加入存储网格之前也必须登陆注册。授权指每个管理员或用户只能执行某些特定的操作,存储设备对每个I/O操作进行检查,防止非法的数据源写入数据。在通常情况下,用户之间或者管理员之间或者存储设备之间建立联系之前,都必须通过相互鉴别的过程。原来鉴别的方法是需要多次访问保存私钥的文件,即需要多次输入密码,使得相互认证的过程很繁琐,安全效率也降低了。数字图书馆网格存储认证系统了采用单点登录、多级代理认证的安全策略。一个用户只需由CA(certificateauthority)认证一次即可获得允许在其资源范围内、在一段特殊时间内存取和管理的权利。通过“Grid-ID”一次签名并生成代理证书,然后提交给“用户代理1”完成认证,实现对站点资源的第一层访问;再通过“用户代理2”完成对站点资源访问的第二层认证,从而构成一个多级代理链,如图5-4所示,实现了多级代理认证。图5-4多级安全信任链此多级安全认证具有以下优点:(1)通过使用层次CA认证架构在广域全局范围内发放证书。同时,密钥的管理、分配、存储都采用证书的方式。(2)实现了一次性签放的机制,所有签放票据都有一个有效期。(3)使用访问控制服务器,有效加强本地域内安全策略的实施。(4)支持双向的身份认证。总结基于网格的数字图书馆研究内容很广泛,包含体系结构、互操作性、组织、检索和存储等方面

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论