云存储在数字资源长期保存中应用探讨_第1页
云存储在数字资源长期保存中应用探讨_第2页
云存储在数字资源长期保存中应用探讨_第3页
云存储在数字资源长期保存中应用探讨_第4页
云存储在数字资源长期保存中应用探讨_第5页
已阅读5页,还剩1页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数字1, 1国家科学馆2院3邮电大学计算机学院】介绍云的技术架构和应用原理,分析传统的几种技术在数字资源长期保存应用中的及云所采取的应对策略,并以长期保存领域中两个云研究项目为例,进一步探讨云在数字资源保存领域中】云数字资源长期保存案例研究A1, 1, 0019,2o,1009,d3,no 8,dpe 】wd, gepe】en引可靠的环境是一个机构开展数字资源长期保存活动的基础保障数资长保工的键于数字信息的永久性和真实性,其失介障时构安全可靠带来严峻。当前数字化进程的加快和数字资源的式增长,给人们带来便利的同时也给保存带来了,系统必须具备足够的空间以及灵活的可扩展性,才能长期应对海量数据的保存需求数字资源长期保存任务繁重,任何一个机构都无法独立完成全部的保存任务因此数字资源的长期保存需要实现跨地域、跨机构的协同工作;为了保障数字资源的永久可获得性和可性,数字资源长期保存还需要进行合理的备份和迁移另外,开展数收稿日期:20004收修改稿日期:200 期保多数馆校非性机构,力、物力等成本也成为保存机构的基本需求之一。因此,从可扩展性、支持协同共享、支持备份和迁移、降低成本代价等几个方面出发探索合理的解决方案,是数字资源长期保存领域的关键问题之一。云是在云计算基础上延伸和发展出来的一个新概念,一经提出,就得到了许多数字资源长期保存机构研究专家的关注。本文通过对云的技术架构和应用案例进行分析,进一步探索云在数字资源长期保存中的应用,为国内提供参考。系统等功能,将网络中大量不同类型的设备通过应用软件集合起来协同工作,共同提供数据和业务访问功能的一个系统1。从根本上说,云是网络设备、设备、服务接口

统和网格计算等技术保证各个设备之间协同工同时利用数据压缩、重复数据删除、数据加密等技应用层不同的云开发不同的应用服务接口提供不同的服务。基于层、基础管理层和应用层的保障,户在层不再需要了解底层的硬件设施类型、所存放的物理位置等细节,只需要获得云服务的,然后调用标准就可以申请所需的空间,享受云用户使用云时,可以选择公有云、私有云或混合云。公有云服务是由第云服务商提供,用户可以通过互联网服务,按需使用,按使用支用,典型的如的3、的、、等私有云是在企业 搭建的云环境,面 用户或者外部客户提供服务,企业拥有整个环境的自主权,并可基于自己的需求改进服务。,容量的时候,,多个部分的组合1。 意味 可以作为一服务,

云的4层架构如图1所示图1云架构层通过广域网、互联网或者光纤通起来,用虚拟化技术掉底层的硬件差异,以资源池的方式对外提供服务,通过统一的管理逻辑和接口,进行设备的逻辑虚拟化管理、多链路冗余管理,以及硬件设备的状态和故障。

完整性、真实性和可理解性,数字资源长期保存系统必须具备更高的可靠性和可信赖性。目前,在面对级的海量需求时,传统方式的缺陷愈见凸显,不仅在容量和性能的扩展上会存在瓶颈,在性能上、经济,使存储资源以分布式共享的形式存在,通过网络将软硬件资不同于传统的方式,将为数字资源领域带来更的和,利用分离的文件系统或数据库管理支持串行扩容,在系统规模较小时性能较好,但是随着数字资源数量的不断增大,存受服务瓶颈约而降低云集成使用了支持大规模的集群技术、2技术和网格技术,允许服务器和节点同时增加,进行并行扩容。因此,在扩展时不会遇到兼容性的问题,的性能还会随着节点的增加而无缝增长。另外,云实现了资源的集中和动态管理,每个应用所使用的存储空间可随意伸缩、实时调整。因此,在开展数字资源长期保存任务时,机构可以根据保存的资源状况,在初期申请较小的空间开展试验性研究,随着保存资源的增加,动态调整空间大小。因此,不必担心系统在上的可扩展性问题,也避免了原来由于空间长期空闲而造成的资源浪费。在使用统的A时,数字资源往往被在单个保存机构 ,不能实现协同工作和资源享式虽然过在一定程度上实现了跨异构平台的文件共享,于/络进行抽象,通过虚拟技术强化数据保护机制和管理功能,在节点之间提供分布式锁管理和缓存一致性功能,然后通过集中元数据控制节点,形成一个多设备用、享构此,在云环境中,分布在不同地域的机构不需要太高的技术要求,只需要通过网络,就可以进行服务的创建、布、理,松、高效地实现与其他机构的协同工作和互补式资源共享,有利于数字资源长期保存任务的分担和服务能力的增强。传统方式是使用磁盘或磁带库进行备份,备份效率差,管理也极其复杂。如果要实现异地备份,则需要耗费的代价在对发生介质故障或介质过时的硬件实施媒介刷新或硬件迁移时,也往往需要中断系统服务,进行复杂的硬件部署。云的物理设备可能分布在世界上的不同地点,通过虚拟化将硬件资源进行逻辑抽象,划分给各个逻辑分区,逻辑分区之间的隔离,同时提供多个分区之间的通信功能。因此,云可以以服务方式根据用户需求高效地执行备份策略,方便地帮助用户形成多个异地备份。在实施迁移的过程中,由于在真实的物理资源之上进行了抽象,因此将虚拟机的运行状态从一台物理服务器迁移到另一台物理服务器的整个迁移过程是平滑的,用户不会察觉虚拟机在池内的自由移动,也不需要像原来的物

理服务器那样关闭服务器和中断系统服务,从而为数字资源长期保存系统实施硬件升级提供了更好的方式。传统的,即使采用大容量,下,因此刚刚开数资源长保研究的比磁带驱动或移动的质等器和务器,高用光通道交机和管理软件,在拥有相同的空间时,比和多群和网格是利用统网络中散布的大量普通节点进行大规模运营,允许节点之间设备的差异化,管理的复杂性较低,能够人员等运行费用。相比之下,云从初期投资、运行两个方面降低了成本。首先,由于云可以动态扩展灵活配置数字资源长期保存机构可以根据实际需求申请规模,不需太多初期投资就可以迅速开展保存任务其次,由于不必拥有基础设施,用户无需对底层进行管理和,也不再需要机房、硬件设备、制冷设施等,相比于传统的方式降虽然云具有诸多优势,但目前许多数字资源长期保存机构并没有正式把大量数据移交到云台上。因为将保存的数据放到云端,在获得便利的同时,将不再控制数据的物理位置,所有数据的将依赖于云商所提供的服务,这甚至意味着对数字资源的保存责任的部分转移,也将带来数据隐私保护和安全上的隐忧:上开放获取的资源,也包括等。对于后者,往往只有订购数据库的用户才能够,并且需要受到的保护。如果将这些类型的数据内容以方式存放到云端,必然会用户对数据隐私保护的担忧。目前,在云技术研究领域,有研究者提出可以通过加密或文件“碎片”方式用户的 但这是否适用于数字资源长期保存的流程、是否还能够保证数据的完整性,有待于进一步研究。损毁,在云端的数据丢失后,云服务商可以通过赔付方式补偿,但是却不能够为用户找回丢失的数据。因此,数字资源长期保存机构在使用云过程中应该建立冗余和备份,如将云作为替代磁带备份的辅助池来使用,或者同时使用两个或多个云平台。综上所述,传统的技术在应对数字资源长期保存时存在局限,而云能够解决其中的一些题,表现出一定的优势,提供了一种可能的解决方案。但是,由于云技术目前尚不够成熟,其可能存在的目前,国际上已经有一些数字资源保存机构开展了相关的研究,2009年在召开的“数字资源保存架构设计”会议上,、、K究3云和是目的在于为大规题找到一种合理的解决方案从而提高英国高等教育与继续教育'采用的技术思路是ey+b2+EBS+S3)=”,的云平台上部署a在计算层2上,,部署仓储软件的运行环境和相关配置,包括所需的服务器型等,过将实例运行时的数据存放到的简单服务S3上。在保存层将数据备份2所示。与传统的本地方式相比,只需要在上同时启动多个实例,就可以解决大规模数据的问题,不像用本地的样,随着 量

图23易扩展,用户不需要操心和部署硬件设施,不需要担心未来磁盘空间不足的问题,不需要配备专门的硬件管理人员,直接将注意力集中在如何开展数字资源保存研究上K备份方式比单纯的磁带备份更加可靠除此之外,任何其他的机构都可以从任一地点登录其nWeb,选择提供的公共,在几分钟内迅速启动自己的仓储服务,大大降低了机构开展数字资源长期保存的项目关注的重点之一是使用成本。通过一年来在云端数据的试验,现在云端搭建和运行一个仓储并不难,并且能够明显节约成本。如果只是持续运行一个仓储的演示版本,每月需要支付的费用约8一年约100如果需要把它作为正式的版本,为避免重启后丢失数据,可以再支付额外的费用,用进行持久性。这种做法能够有效地减轻本地仓储管理人员的负担,但是总体成本会随着时间增加而增加,运行仓储的政策、200810月结束形成了一系列技术指导文档和成本分析报告,作为底层仓储的机构研究云起到了很好的示范作用。但是,项。与仅在上进行云应用不同,发起为期一年的试验,将云平台扩展到多个,并关注如何在不同的云架构本的需求交由最好的云服务提供者负责,在此基础上增加一些额外的功能来完善解决方案,保证数据的长期可用性和易用性。所示,共包括三个模块系统管理模块和管理模块。3平台工作流程图在系统通过

功能时只要提供同样的接口就可以方便地进行扩展。互,实现内容的上载删除,元数据和的创建,内容空间的创建删除等功能。,能够将应用请求转换成对不同平台的接口调用。的一个显著特点在于为每个支持的云平台有n、和C开发了相应的,节,云在。同时,可以方便地增加新的云平台。20097月启动,将于2010年夏完成。目前,正在积极组织自愿加入的机构、生物多样性遗产馆和波士顿广播电台1所示:站为用户提供一个可以交互的图形化界面 机作为独立的应用运行在云服务器

·备份所有的TIFee上,通过cr用相应的T直接与管理模块和服务管理模块交互。a采用了,因此可以利用UR识别ee

NYPL为 rr

JPEG2000格式 ,能够更灵活地扩展服务,更好地负责管理和部署所提 成服务的部署和卸载服务配置提供服务属性列表。负责把请求递交给,由理。考虑到在运行过程中,需要动态启动、终止或者重新配置服务,而不去重启整个应用,采用了作为服务托管环境。同时,它还管理着一个,所有可提供的服务以e服务支持文档方式存放其中,根据用户需求将这些服务安装到中。不论底层服务是一个纯应用、命令行操作、应用,还是一个外部计算实例,都需要包装成OS

BHL·实现多个备份包括在欧洲 文件提供·在云端进行WGBH备份并创建描述关联文件· 上,各个机构不仅可以根据自身情况选用不同的云可以实现跨平台的多重备份,避免一个云提供商发生断电故障、时导致数据丢失,提高了数据的可靠性;同时,通过云提供商的控制、应用安全、通道安全、实例,对数据的安全性实施提供尽可能的保障除此之外,还可以利用云平台对海量数据的处理能力进行大规模计算,如将图像从JPEG2000结作为一种新的技术,云虽然着应用中的诸多问题,但它的出现还是为数字资源长期保存的体系提供了一种新的选择。随着云技术的不断发展和多个实践项目的逐步开展,云将成为数字资源长参考文献[]百科[EBOL].[20004 20]:w2044736.hm.[2],金涬,,等虚拟化与云计算[M]电子工,2009:8

[3][EBOL].[2000420].htp:nrm09.[4]OL].[2000420]:.kspx[5]n[EBOL].[2000603]:k426[6][EBOL].[2000420].htp:.[7],,Shawec n[EBOL].[2000420].htp:[8][EBOL].[2000420].htp:.b0.pt.作 @世界上最大的海洋科学馆海洋学 馆约10万馆藏已被数字化,现可以通过/.。这是G、加州大学以及加州大学圣迭戈分校馆之间合作的一部分。2008年,加州大学圣迭戈分校成为与G合作对世界上著名馆的馆藏进行数字化的第一个南加州的大学。自那时以来,加州大学圣迭戈分校的国际关系与太平洋研究馆、东亚语言集,以及海洋学馆的约30万册图书及其他材料已经被数字化。加州大学早年便与G有合作关系,2006年就加入了检索项目,并同意提供加州大学馆的数百万册供电子化。迄今为止,加州大学馆已有超过200万册被电子化。据海洋学 馆馆长所讲,由G电子化的材料包括大量的和期,以及科学考察报告。海洋学 馆的馆藏涵盖了海洋学、海洋生物学、海洋地质学、海洋技术

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论