版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
图书馆网络文献的保存与保护研究
网络文献(又称网络信息资源)作为一种新兴的文献,逐渐被世界各国的图书馆确定为收集和保存网络文件的对象。国家图书馆于2003年开始尝试保存网络文件。网络文献作为数字信息资源的一种存在形式,它的管理与传统文献管理有什么异同,在业务流程中将会出现何种问题?本文就WICP项目实施过程中发现的一些技术问题和制度问题逐一进行分析。这些问题包括文献采集、文献组织与服务、馆藏管理与长期保存等问题。1文献收集1.1采集对象的版权关系著作权问题已经成为关系图书馆这一社会公益事业发展的一个大问题。毋庸置疑,图书馆的馆藏发展和服务工作应该在包括著作权法在内的法律框架范围内开展,这就要求图书馆在面对和处理网络文献这一新型文献时必须处理好著作权的相关事宜。著作权处理是在著作权人明确的前提下进行的。WICP项目在实施信息采集时确定了对象网站的域名和目录后,拟对这些信息进行版权处理,但是通过实际调研发现采集对象的版权关系非常复杂,即使在同一个html文件内,图像和文本的著作权也有分别隶属于不同著作权人的情况,可以发现网络信息涉及更多的利益主体。另外由于网络信息更新频繁,URL变更等采集对象的重要属性变化后合同内容也必须变更,这无形之中加大了版权处理的成本。很多情况下网络信息的著作权人是无法明确的,有些甚至是匿名的,这给著作权处理带来了更深的难题。《中华人民共和国著作权法》第一条明确规定“鼓励有益于社会主义精神文明、物质文明建设的作品的创作和传播,促进社会主义文化和科学事业的发展与繁荣”,然而作为社会主义文明成果一部分的网络文献正在消失,如何平衡保护著作权人的利益和保护网络文献本身这个关系,是一个值得深入探讨的问题。基于目前的法律环境等因素,本试验项目采取了变通的做法,在本项目主页(/)上发布了版权声明,同时国家图书馆对正在制定中的《中国图书馆法》提出了修改意见,为了使有价值的网络信息资源免于丢失,建议该法保障国家图书馆对网络文献收集和保存的权利。1.2数字遗产的资料分享方面,应将网络文献纳入法定缴送的法律规范联合国教科文组织2003年8月19日发表的《保存数字化遗产宪章草案》第八条中提出为了保护数字化遗产,各会员国须有必要的法律框架,仅依靠市场的力量是不行的。同时建议会员国制定的国家遗产保存政策应该保证图书馆等公共文献保存机构可以在缴送法制或其他法律强制力的作用下获得数字化遗产。著作权及相关权利的法律应保障这些机构合法地开展数字化遗产的保存工作。目前有些国家已经修改了出版物缴送方面的相关法律,将网络文献定为法定缴送对象。如1997年6月丹麦修改缴送制度,明确规定网络上的静态作品(StaticWork)属于正式的缴送对象;2002年5月瑞典制定了《皇家图书馆数字文化遗产计划的个人信息处理相关法令(2002年第287号)》,规定皇家图书馆有获得网络文献的权利。另外日本、法国、澳大利亚、芬兰等国家正在积极进行法律准备,计划将网络文献作为法定缴送对象。我国还没有一部系统的新闻出版法,国家图书馆接受各类图书文献资料缴送的权利是由国务院和新闻出版总署颁布的相关法律和法规规定的。我国文化部起草的《中国图书馆法(征求意见稿)》对网络文献等数字化信息的缴送问题有了比较明确的规定。《电子出版物管理暂行规定》对于电子出版物的定义不包括网络文献,而《互联网出版管理暂行规定》并没有规定互联网出版机构向国家图书馆的缴送义务。因此可以说,现在还没有一部法律和法规涉及网络文献的缴送问题。国家图书馆正在进行的WICP项目是在没有解决相关版权问题的基础上开展的实验项目。1.3总括性采集原则对于网络文献的采集有两种方式,一种是总括性采集,一种是选择性采集。图书馆对于传统文献的收藏一般都采取选择性的方针,按照文献的类型、语言、载体形式、出版地等文献的自然属性和文献内容价值来选择文献是否入藏,但是这些选择的依据并不足够充分和有效,因为图书馆人今天的任何选择都不能完全保证符合明天的读者的需求,因此对于网络信息的采集,有些国家便采取了总括性采集的原则,更有像美国InternetArchive这样收集全球网络信息资源的机构。网络文献的选择方针应该与纸质出版物的采选方针不同,需要考虑网络信息存在消失的风险这一重要的问题,需要考虑一些技术问题,比如CGI等因素会导致某些网页无法被采集。《国家图书馆文献采选条例》第四十四条规定了网络文献选择性采选的原则,本试验项目确定的采集对象是公共信息、学术信息和政府信息,但是把网络文献的组织管理作为图书馆常规业务这一系统的观点来看,总括性采集的原则更加有利于将来的读者服务,更加有利于降低成本。1.4不在网络信息采集时存在统筹规范问题作为采集对象的网络文献的发掘不是一件容易的事情。目前WICP使用商业搜索引擎和网络链接通过人工检索来发现采集对象,因此时效性和效率相对低下。美国和丹麦等国家开展的基于事件的专题性网络信息采集项目,据悉他们在开展信息采集时也无法获得关于某事件的最新的URL。原因在于,搜索引擎无法实时地捕获新开通的网站和网页,其检索服务总是滞后几周的时间。有人提出,基于信息发行(出版)者或其他第三者的通知推荐制度是解决搜索引擎不能实时检索问题的辅助措施。比如在丹麦就规定了出版发行者必须向国家图书馆通报发布信息,但是其结果并不奏效。笔者认为通知推荐制只能作为对象发掘的一种辅助手段。2组织与服务2.1有相对单位的单位信息单元(Granularity)即对网络文献实施采集、组织、保存等业务处理的单位。由于网络文献很难人为地界定多少信息量是一个单位,所以不存在一个绝对的信息单元。信息单元是一个相对概念,在具体实施业务过程中,还将面临信息采集的单元、信息组织的单元、长期保存的单元等问题。2.1.1网站单元网络采取选择性收集(SelectiveApproach)原则的项目,比如美国国会图书馆的MINERVA项目按网站(Website)单元进行网络信息采集。然而,何谓一个网站并不是一个十分明确的概念。网站和“域名”不是同一个概念,某些大型网络信息发行者的域名下存在多个网站,另外还有多个域名构成一个网站的情况。因此,网站单元可以理解为同一域名下的所有信息,或者理解为某起始URL下的全部信息。采取总括性采集(BulkApproach)原则的项目大多采取“国家”为一个信息单元进行网络信息的采集。但是在网络上界定一个国家是非常困难的,按照域名、语言、服务器位置、管理者的物理地址,这些网站属性都仅仅是一个参照系,都不足以确定网络上的“国家”这一概念。WICP项目是分两种信息单元进行网络文献采集的。我们把一个域名下的全部网页认为是一个网站单元,把一个HTML文件内的全部文字和图片信息认为是一个网页单元,这两种信息单元进行采集的数据分别形成镜像存档和专题存档。2.1.2有利于提高服务的检索能力组织网络文献时的信息单元和采集网络文献时的信息单元应该区分对待。信息采集可以按照“网站”和“国家”的单元来进行,而网络信息组织如果按照“网站”和“国家”单元来进行就不足以满足服务的需求。学术研究等检索需求要求在进行网络文献的组织管理时越是采用较小的信息单元就越有利于存档信息的管理和服务,比如要对每一篇论文、每一个网页甚至每一个图片进行编目和标引。WICP的专题存档对每一个HTML文件进行自动编目和标引,可以实现全文检索。镜像存档只对存档网站进行人工编目,没有对网站内的全部网页进行编目和标引。2.1.3保存元数据的报告数字信息的长期保存涉及数据格式,硬件环境、软件环境等问题,因此需要一种全新的文献保存和保护的观念和方法。2002年6月美国OCLC(0nlineComputerLibraryCenter)和RLG(ResearchLibrariesGroup)共同发表了一个保存元数据方面的报告《AMetadataFrameworktoSupportthePreservationofDigitalObjects》,该报告并没有对元数据处理的信息单元给出明确的答案,而是将该问题作为下一阶段的研究任务。目前国家图书馆还没有开展网络文献长期保存方面的试验,网络文献的保存单元也在研究和探讨过程之中。2.2网络机器人的改良和升级需要和网页页面发展名和使用机器人性能是网络信息采集的一个关键因素。WICP使用Wget进行网络信息的采集,在实验过程中发现在某些情况下Wget无法进行网络链接的解析,比如script,pdf文件内的链接,html文件存在语法错误,文件没有扩展名,包含中文的URL等情况。正如丹麦人亨利克森先生指出的那样,对网络机器人的性能要求和对网络浏览器的要求是一样的,因此网络机器人的改良和升级需要和网页浏览器同步进行。对于一个实时更新的网站,收集其全部“版本”将是不可能的事情,收集到的信息必将是缺乏时间连续性的“切片”,因此需要进行二次采集。二次采集策略的制定,即采用什么样的频率进行二次采集较为合理,这需要平衡两次采集之间损失的信息的质和量,与高频率采集所付出的成本的权重关系。2.3德国图书馆将接受激发营造一种丰富的电子资料采集从网络信息生产的趋势看,越是价值高规模大的信息往往越存在于数据库中,而现在大部分的网络机器人都无法对Flash和Script等动态网页和数据库中的深层网页进行采集。为了解决深层网页的采集这一问题,很多国家的国家图书馆开始采用制度和技术手段保障深层网络信息的采集和保存。荷兰皇家图书馆和ElsevierScience公司已经签署协议,接受了该公司缴送的1500种超过7TB的电子期刊。2002年8月在格拉斯加举行的国际图联大会上这一合作作为出版商和图书馆合作开展数字信息保存的实质性案例被广为宣传,这可以说是首例国家图书馆接受缴送的深层网络信息并进行长久保存的项目。德国图书馆计划采用“Push”和“Pull”两种方式进行网络信息的采集。对于静态网页等的浅层网页通过HarvestingSystem进行采集,对于数据库中的深层网页将开通联机登记系统接受缴送。丹麦皇家图书馆正在研究一项称作filming的技术,将通过该技术实施对电子商务和在线服务等网络信息的收集。法国国家图书馆开展了小规模深层网页自动采集的实验。芬兰国家图书馆开始着手修改缴送法,计划将深层网页纳入缴送对象。国家图书馆已经开始了深层网页的试验性采集,通过模拟检索等方法进行了专题内容的采集试验并初步获得了成功,同时就网络数据库的缴送问题同相关生产商家进行了接洽。2.4流通方式的并存。在网络图书馆是向广大读者无偿提供有偿出版物(图书、期刊、报纸、音像资料等)借阅服务的场所。从市场的观点来看,各类出版物的流通存在两种途径,即通过书店的有偿流通和通过图书馆的无偿流通。从市场经济的原理来看,出版物是非常特殊的社会财产,图书馆属于社会公益性的事业,其服务范围仅局限于馆内,这一特点决定了这两种流通方式可以并存。随着互联网的发展,信息在全球范围内的流通变得非常容易和可能,图书馆服务范围的拓展和出版物流通市场的竞争关系初显端倪。WICP项目目前只收集免费的网络文献,如果将来实施对有偿信息的采集和保存,就必须平衡图书馆的服务和出版商的商业利益的关系。2.5网络信息长期保存元数据在海量的对象信息中发现并获得目标信息,元数据的作用不可忽视。DublinCore作为网络文献描述和组织管理的标准已被图书馆界广为接受和运用,它包括15项元素(elements)和限制属性(qualifiers),但是DC元数据的产生是为了实施对存在于网络上的信息进行组织和管理,并不是对存在于本地的网络信息存档的管理而制定的。网络信息存档不仅仅是网络信息的链接,而是在不同的时间将存在于网络上的信息采集形成网络的时间切片保存到本地系统,这些信息是按照时间列表来管理的。这就需要一套数字信息长期保存的元数据,应该包括内容信息、存档描述信息、封装信息、内容描述信息。目前网络信息存档的众多研究项目已提出若干元数据格式,据笔者调查,现在还没有一套标准的网络信息长期保存的元数据体系。国家图书馆正在制定本馆的元数据方案,WICP项目将跟踪元数据技术的发展动态,开发一套符合国家标准的元数据体系。2.6对象标识的标准要实现存档信息的长久且稳定的访问就要有一套可靠的信息标识体系,唯一标识符的作用就在于此。像国际标准连续出版物号码ISSN那样,它可以用来长久定位某一信息,它可以保证网络信息存档中的信息可以被稳定地引用或参照。目前存在URN(UniversalResourceName)和DOI(DigitalObjectIdentifier)等多种的数字对象标识的标准。WICP项目采用的对象信息标识为/collection/书目ID/信息单元ID/原始URL,从根本上说这仅仅表示一个采集到的信息单元的定位,并不是一个可靠的永久标识符。北欧各国的网络存档项目多采用MD5等函数发散数值作为存档信息的标识符,而澳大利亚的PANDORA项目采用的标识体系为:collectionID/系统标识符/收集日期/原始URI/版本号。2.7文明检索和全文检索。我国现代网络信息的主要分为5所示网络信息保存的根本目的是提供服务,那么海量的网络存档信息通过何种接口提供检索和服务就是一个需要解决的问题。总的来说,网络存档信息的服务分为三种方式,即主题型,URL型,全文检索型。主题目录型:WARP和PANDORA均采用选择性采集的方针,这些网络存档都是人工进行主题分类,提供读者浏览。这种方法的最大缺点就是如果读者不熟悉主题的知识就无法找到所需信息。URL型:美国InternetArchive和北京大学WebInfomall采用的服务方式。当读者指定所要查找信息的URL后就会检索到一个时间列表,可以浏览历史网页信息。但是如果读者无法知道要找网页的URL,就无法检索目标网页。这种方式的致命缺点就是不能通过关键词和主题词检索存档的信息。全文检索型:网络存档信息的全文检索与普通的全文检索不同,不仅仅要实现对“空间”的检索,还要实现对“时间”的检索。NordicWebArchivingProject已经开发了系统内专用的浏览器,可以实现历史网络信息的穿梭。InternetArchive正在研究全文检索服务,2003年开通了部分存档信息的全文检索。PANDORA项目由于存档信息数量较少已经实现了存档信息的全文检索。WICP项目的“镜像存档”属于主题目录型,“专题存档”属于全文检索型。3存储、维护和长期保存3.1图书馆馆藏文献资料法律性质的规范有些国家的图书馆法或相关法律规定了图书馆馆藏文献资料的性质,而我国尚无一部法律来界定和规范国家图书馆馆藏文献资料的性质。网络文献是否属于图书馆馆藏文献?对于非实体的网络文献的定性将是比较困难的。网络文献的性质是否属于国家财产,其使用和服务应该遵循什么样的法律规定都是一个值得思考的问题。3.2存储数据的共享对于收集到的数据如何进行数据压缩?如何处理索引数据?如何保证存档数据的整体性?如何选择数据的保存载体?如何管理长久保存用数据(保存本)和服务用数据(流通本)?这些都是需要考虑的问题。各国项目管理数据所采取的措施不尽相同,这将给未来图书馆间的合作,比如数据交换,带来不可避免的麻烦,因此需要联合制定一个存档数据管理的标准。目前由于WICP项目的数据总量较小,还没有开展系统的数据管理的研究和实践。3.3信息保存和网络文献的内在性与搜索引擎以检索为目的的信息搜集不同,以存档为目的的采集必须对采集到的信息进行质量管理。由于网络通讯和网络服务器等方面的问题,很难实现完整的采集。对于海量的网络文献,如果采用人工校对的方法进行质量管理几乎是不可能的事。因此存档信息的质量管理应该尽量地通过计算机程序自动实现。美国的电子期刊保存机构LOCKSS采用称作“LCAP”的程序进行存档信息的质量管理。LCAP是一个独立的门户,可以比较来自不同成员馆的保存数据,并且对有问题的数据进行自动修复。质量管理还必需考虑成本问题。数字对象的全息保存和仅仅保存对象信息本身相比,其成本存在天壤之别。网络文献的价值是否可以匹敌其保存成本,这是涉及到网络信息保存根本意义的问题。国际上一般认为,图书馆的纸质馆藏文献具有法律的佐证效力,因为图书馆没有对所存文献的内容和形式进行人为的修改和改变。国家图书馆在进行网络文献的保存时,也不应修改或改变其内容和形式,应该保障其原始面貌和真实性。事实上,网络文献较之传统文献更容易被人为地有意无意地变更。如何保证网络文献的原本性就是一个复杂的技术问题。电子商务领域已经对网络信息的原本性进行了大量研究和实践,一些认证技术和加密技术得到发展和运用。芬兰和瑞典的网络信息存挡项目大都采用MD5等方法保障存档信息的原本性。WICP在这方面还没有采取任何措施。3.4采用高效的网络带宽,确保数据安全网络信息存档需要对采集到的网络信息不加任何更改地进行收藏,这就需要大量的磁盘空间来存储数据。根据CNNIC(中国互联网络信息中心)2003年7月9日发布的统计数据显示,全国网页总量在2.87TB,因为网络信息存档需要二次采集,所以总括采集至少需要10TB的存储空间。为了保证数据安全,还需要进行数据备份,又将增加一倍的存储空间。为了实施高效的网络文献采
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 策划公司前台工作总结
- 运输物流行业顾问工作总结
- 2024新年寄语汇编(32篇)
- 制冷技术转让协议书(2篇)
- 创业合作投资协议书(2篇)
- 2024年计算机专业实习心得体会
- 易错点08 中国近代史时间问题-备战2023年中考历史考试易错题(解析版)
- 地理中国的世界遗产课件中图版选修
- 2025届陕西省咸阳市武功县中考生物全真模拟试题含解析
- 《公共政策过程》课件
- 房地产估计第八章成本法练习题参考
- 2023年广东罗浮山旅游集团有限公司招聘笔试题库及答案解析
- 《社会主义核心价值观》优秀课件
- DB11-T1835-2021 给水排水管道工程施工技术规程高清最新版
- 《妊娠期糖尿病患者个案护理体会(论文)3500字》
- 解剖篇2-1内脏系统消化呼吸生理学
- 《小学生错别字原因及对策研究(论文)》
- 便携式气体检测报警仪管理制度
- 酒店安全的管理制度
- (大洁王)化学品安全技术说明书
- 2022年科学道德与学术规范知识竞赛决赛题库(含答案)
评论
0/150
提交评论