(信号与信息处理专业论文)数字图书馆中marc格式转换问题的研究.pdf_第1页
(信号与信息处理专业论文)数字图书馆中marc格式转换问题的研究.pdf_第2页
(信号与信息处理专业论文)数字图书馆中marc格式转换问题的研究.pdf_第3页
(信号与信息处理专业论文)数字图书馆中marc格式转换问题的研究.pdf_第4页
(信号与信息处理专业论文)数字图书馆中marc格式转换问题的研究.pdf_第5页
已阅读5页,还剩94页未读 继续免费阅读

(信号与信息处理专业论文)数字图书馆中marc格式转换问题的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

太原理工大学硕士研究生学位论文数字图书馆中m a r c 格式转换问题的研究摘要随着计算机、通讯、网络技术的迅猛发展,数字图书馆成为新的发展方向,网络信息资源作为数字图书馆的重要信息组织对象,其数量也与日剧增。d c 元数据的出现及适应网络环境的诸多特性使其迅速发展,传统图书馆中已发展成熟应用多年并得到图书馆界及情报界广泛认可的m a r c 在数字图书馆中是否会被取代,m a r c 如何在数字图书馆中良好的利用,这些都成为迫切需要解决的问题。首先,笔者介绍数字图书馆的定义、特征及目前国内外的研究情况引出研究元数据的重要性。继而比较详细、全面的研究了m a r c 与d c 元数据理论,包括二者的格式、特点、目的、编码语言等方面的知识,并进行比较、分析,认为二者将并存于数字图书馆。然后对二者的互操作方法进行探讨,建议采用基于x m l r d f 的标准描述方法解决互操作问题。在此基础上笔者着重研究了基于x m l r d f 的m a r c元数据描述技术,从而解决传统的m a r c 规范格式的书目数据在数字图书馆中的应用问题。最后针对当前太原理工大学图书馆资源的情况,笔者提出了数字图书馆中元数据应用系统的框架与采用的相关技术,以及适应于数字化图书馆的科技文献资料的元数据标准草案和读者信息的元数据分析。关键词:元数据,m a r c ,d u b l i nc o r e ,x m l ,r d f太原理羔犬学颈士骚变生学位论文s t u d yo ft r a n s f o r m a t i o na b o u tn a r ci nd i g l l a ll i b r a r ya b s t r a c tw i t ht h ef a s td e v e l o p m e n to fc o m p u t e ra n dc o m m u n i c a t i o n st e c h n o l o g y , d i g i t a ll i b r a r yh a sb e c o m et h et e n d e n c yo fl i b r a r y sd e v e l o p m e n ti n2 1 s tc e n t u r y t h ei n f o r m a t i o nr e s o u r c e so fi n t e r n e ta st h ei m p o r t a n to r g a n i z a t i o nc o n t e n to fd i g i t a lh a v eb e e ng r e a t l yi n c r e a s i n g i ti st h eo c c u r r e n c eo fd ca n di t sa c c e p t a n c et om a n ya d v a n t a g e so fi n t e r n e tt h a tm a k e si td e v e l o p e df a s t ,t h em a r c ,w h i c hh a sb e e na p p o i n t e df o ry e a r sa n dw e l l r e c e i v e di nl i b r a r y , w h e t h e rw i l lb er e p l a c e db yd ci nd i g i t a ll i b r a r y h o wc a nm a k em a r ca p p l yw e l li nd i g i t a ll i b r a r y t h e s ea nb e c o m et on e e dt h ei m p o r t a n tp r o b l e mf o rr e s o l v eu r g e n t l y f i f 髓穗ew r i t e ri n t r o d u c e st h ed e f i n i t i o n ,c h a r a c t e r i s t i co ft h ed i g i t a ll i b r a r ya n dc u r r e n t l yd o m e s t i ca n di n t e r n a t i o n a lr e s e a r c hc i r c u m s t a n c e ,g e t st h ei m p o r t a n c eo fm e t a d a t ar e s e a r c h 。a n dt h e nd e s c r i b e st h ec r e a t i o n ,d e v e l o p m e n t , c h a r a c t e r i s t i c sa n dc o n t e n t so fm a r ca n di ) cm e t a d a t a ,m a k e st h ec o m p a r i s o na n da n a l y s i sb e t w e e nt h e ma n dg e t sac o n c l u s i o nt h a tm a r ca n dd cw i l lc o e x i s to v e ral o n gp e r i o do ft i m e t om e t h o di i i奎錾墨三查嬖蹩主堕茎竺兰篓塑茎a b o u ti n t e r o p e r a b i l i t yc a r r yo nt h es t u d y a n ds u g g e s t 廿l ea d o p t i o nt h em e t h o dt h a ta c c o r d i n gt ot h ex m l r d fo f s t a n d a r dd e s c r i p t i o nm e t h o d o nt h i sf o u n d a t i o n ,e s p e c i a l l yp r e s e mt h em a r cm e t a d a t ad e s c r i p t i o nb a s e do nx m l r d f i tm a k e st h et r a d i t i o n a lm a r ci si nl i b r a r yc a l lt h eg o o da p p l i c a t i o nm a k ep o s s i b l e a tl a s t , a c c o r d i n gt oi n f o r m a t i o nr e s o u l o ei ne x i s t i n gl i b r a r yo ft a i y u a nu n i v e r s i t yo ft e c h n o l o g y , t h ew r i t e rp u t sf o r w a r dt h ef r a m eo f m e t a d a t aa p p l i c a t i o ns y s t e ma n dr e l a t i v et e c h n o l o g i e s ,s t a n d a r dm e t a d a md r a f to fs c i e n c ea n dt e c h n o l o g yd o c u m e n t s ,a n dt h em e m d a t aa n a l y s i so f r e a d e ri n f o r m a t i o ni nd i g i t a ll i b r a r y k e yw o r d s :m e t a d a t a ,n 捞基c ,d u b l i nc o r e ,x m l ,r d fi v声明本人郑重声明:所呈交的学位论文,是本人在指导教师的指导下,独立进行研究所取得的成果。除文中已经注明弓l 用的内容夕卜,本论文不包含其他个人或集体己经发表或撰写过的科研成果。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式搽聪。本声明的法律责任幽本人承担。论文作者签名:蒸建日期:翘堑:竺、正一关于学位论文使用权的说明本人完全了解太原理工大学有关保管、使用学位论文的规定,其中包括:学校有权保管、并向有关部门送交学位论文的原件与复印件;学校可以采用影印、缩印或其它复制手段复制并保存学位论文;学校可允许学位论文被查阅或借阅;学校可以学术交流为目的,复制赠送和交换学位论文;学校可以公布学位论文的全部或部分内容( 保密学位论文在解密后遵守此规定) 。签名:堑:鱼墨期:盏乏:羔:z导师签名:日期卜瘟:2太原壤1 入学鹱+ 锈究生警待论文1 1 研究背景第一章绪论垂2 0 檄纪8 0 年找以寒,痰予龟子计算辊、数字接术移远程运痿等蕊怠技术的飞速发蔗,使信息的采集,您遴移传播发生了革命性的变住。同辩,各国在经济及高科技领域内的激烈竞争义大大刺激了对褶荧信息的需求,促谶了因特网( i n t e m e t ) 的形成和发展,并开创出了一个飞速发展的因特网信息时代。在因特网上,计算规嬲、通信网及信息资源鼹相互渗透,形成了一个有机整体。黻特鼹的窭瑗及逐遮必起,不霞改交了久类的生产、交换秘惫滔方式,成麓接动全球经济一体化增长的重要动力,而且极犬地改变了人类获取、存储、传播、利用信息的方式,对传统的信息管理与服务模式图书馆模式更提出了挑战。如今,因特网已缎发展成为当今世界最大的信息库,并且成为全球范围内传播信息的最主要渠逢之。在这鹜豢下,图书馆这一传统的信息收集、整矮、加工、提供的服务耋维织,在适应信息时代要求的发展过稷中也必须采用一黛新的技术方案使其原肖的业务流程可以远行于网络,对网络信息资源进行采集、熬序和服务,使之成为方便用户检索和鸯溺约有利藏托和工凝。在这发展过程中,数字图书培黪黥越鹜景露生。1 1 ,1 数掌豳书馆概述1 1 。1 1 数掌豳书锩的定义由于数字辫书馆涉及的学羊萼、技术领域繁多,数字闰书馆的定义一崽是众说纷纭。自1 9 9 0 年密执安大学的研究人员首次提出了“数字图书馆”的概念并给出定义以来,关于“数字图书馆”的不同定义不断涌现出来。综合各方蕊对数字图太原理一l 大学颈士矫究生学静论文书馆的理解大致有如下几种:1 ) 数譬图书镶是一令瓣终建懿薅惠系统。2 ) 数字图书馆是数字技术等计算机技术在网络中的应用。3 ) 数字图书馆是一个数字化的信慰库。4 ) 数字毅书镶不是一令辍梅,嚣怒一静售惑黢务提割、痿怠资源整会瓤裁。总之,豳内外对于“数字图书馆”目前还没有一个统一的、准确的定义。1 9 9 5年l o 月,荧国研究图书馆协会( a r l ) 概括了数字图书馆定义中脊菇性的要素:1 ) 数字瓣书镶不是一今摹狻豹实镩。2 ) 数字图书馆需要用多种技术联龠众多信息资源。3 ) 多个数字图书馆和多种信息服务之日j 的联结对用户是透明的。4 ) 其嚣稼是实褒多令数字瑟书键、多耱痿惠黢务黪统一存载、谤瓣。5 ) 数字图书馆的“馆藏”并不局限于文献的替代品,其范围扩展到无法以印刷形式表现或传递的数字化人工制品。出篷霹露,数字强书镑已经超越7 传统图书继鹣壤念,磬苓爨楚荸指缤簸瓷料数字化圈粥馆。而是一系列数字化知识库群,通过网络通信手段,以统一、高效的方式组织起来,通过统一的用户羿顾和表现形式,提供丰富多彩的信息服务。瑟笔者浚秀,数字黧书镶是一今瓣络逶痿臻凌,包菇麸售添豹采集、燕王、传输到信宿接收全过程,在这个环境中,用户可以得到海量的信息与人性化、个性化的服务。1 。1 1 2 数字图书馆的特征数字图书馆的目标楚为了解决隧络环壤下数字化傣息资源的缀织、查询与服务闯题。京掰处理的对象怒网上豹数字信息,希望麓绳供类似予传统霭书馆鲍嶷好的信息服务,如有序化的组织、结构化的存储、离散的检索以及友好的查询等。与传统图书镲橹比,数字图书馆具有以下特点:1 ) 大量豹数字纯资源。大量豹数字亿资源是数字图书馆的“物质”基础。建立一定规模并在内容或主题上相对独_ 藏的数字化资源,是数字图书馆建设的基础。数字国书馆瓣数字化需要在一套较为完整翦数字图书镑蕊翅方寨攒导下,依照备种媒体的娩范标准进行数字纯,决定元数据的格式鞠规范,同对利用海量信息处2太原理1 人学硕十研究生学 市论文理技术进行有效的管理和维护。2 ) 高速的通信网络。高速的数字通信网是数字图书馆的存在基础。数字图书馆不仅涉及文本信息,更多的将足各种多媒体信息,只有建设好网络摹础设施( 网络线路、高 生能网络服务器等) ,j 能史好地发挥数字图书馆的各项优势。3 ) 分布式的管理。分白式管理是面向资源的管理方式,它也说明了数字图书馆同实体图书馆( 或资源中心) 的关系。数字图书馆根据主题的选择,由多个实体依靠网络,构成“虚拟”的资沥中心。每个实体管理各自的数字化资源,同时通过全局统一的授权和命名机制,进行统一管理。4 ) 系统高度透明。系统高度透明是面向用户而言的,这要求全球数字图书馆遵循统一的访问协议,实现数字图书馆的“联邦检索”,把全球的数字化资源联为一体,形成一个巨大的图书馆。它强调了标准协议的重要性,要有对资源和服务信息进行统一的描述机制和访问机制。5 ) 信息智能检索。信息的智能检索,是提供用户友好的人机交互界面的基础。由于数字图书馆涉及大量的各种媒体信息,如何有效地提供用户所需要的信息至关重要。它要求基于网络进行多媒体信息的检索,提供各种检索策略和工具,采用基于内容的检索引擎,为用户检索各种媒体信息提供方便。6 ) 电子商务管理。由于数字图书馆中的许多信息是有尝服务的,因此必须建立一套可靠的、有效的电子商务手段,保证各方面的利益。它涉及交易的谈判机制和交易协议( 如电子支付) 、担保服务、合同规范、身份认证及加密服务等。7 ) 知识产权和相关经济法律保护。由于数字图书馆改变了传统的印刷出版的格局,不可避免要涉及传统印刷、出版和媒体的利益,因此如何协调和解决这些矛盾,需要有相关的健全的法律来保障和平衡。另外,由于数字化信息的拷贝等问题,如何有效地保护知识产权,也是目前面临的严峻课题。从形式上看,数字图书馆突破了传统的图书馆由藏书资源、服务资源、馆舍建筑等构成的有形物理边界的种种限制。这个无形的虚拟信息空间,含有内容及其丰富的多媒体数字化信息和网络环境下多种技术工具于一身的服务手段,能够为读者高效、方便地提供数字化信息资源服务。数字图书馆与传统图书馆以及自动化图书馆比较如表1 1 所示:3太原理1 人学硕十研究生学位论文表卜1 数字图书馆与传统图书馆以及自动化图书馆比较8 1传统图书馆自动化图书馆数字图书馆工作中心馆藏馆藏用户馆藏形式印刷型资源印刷型资源及少量电子出版物数字信息资源工作方式手工作业自动化加工书目数据及专题数据库自动化加工文献内容检索手段手工捡索卡片对书目数据及专题数据库进行自动对文献内容进行智能化检索化检索服务对象为到馆的用户以到馆的用户为主一定范围内提供面向全球读者提供i 。文献传递阿服务馆藏加工不加工基本加工加工并使之增值1 1 1 3 国外数字图书馆研究、发展概况目前,各国都在制定自己的数字图书馆发展计划。1 9 9 3 年美国提出了“国家信息基础结构”( n i i ) 行动计划,继而提出了建设“全球信息基础设施”( g i i ) 的主张;1 9 9 4 年欧盟宣布在欧洲建立信息社会的计划,确定了欧洲信息社会应用领域;俄罗斯在1 9 9 4 年成立了俄联邦信息政策委员会,俄杜马1 9 9 5 年通过了俄罗斯信息、信息化和信息保护法;日本、加拿大、法、英、南非等国家也都以政府行为采取了相应的对策和行动。为在竞争中处于领先地位,不少国家和地区的图书馆在政府的大力支持下积极行动起来,配合n i i 的建设开展数字图书馆的研究和建设,并取得相当的成效。1 1 1 4 中国数字图书馆工程1 9 9 5 年国家图书馆安排人员负责跟踪国际上数字图书馆的发展动向,了解有关情况,开始进行有关数字图书馆的研究工作,先后开展了若干个研发项目1 ) 数字式图书馆试验项目。1 9 9 6 年初,国家图书馆在文化部申请立项“数字式图书馆试验项目”。项目以中国博士论文影像数据库为切入点,采用客户服务器模式,利用书目数据服务器管理数据的索引和查询,用影像数据服务器管理数字化的信息。4太原理1 人学硕十研究士学仿论文2 ) 基于特征的多媒体信息检索系统的研究开发项目此项目是1 9 9 6 年国家“8 6 3 ”攻关项目,由中科院计算技术研究所与国家图书馆合作进行,现己通过技术磐定。项目文现了按照图像的纹理、颜色形状等特征对图像信息进行检索等内容,是跟踪田际上数字图书馆检索系统自行研究丌发的项目,其成果可用在面向影像内容的数字图书馆检索系统中。3 ) 标准通用詈标语言( s g m l ) 的图书馆应用该项目是1 9 9 7 年文化部立项的科研项日,由国家图书馆现代文津信息技术研究中心承担,与北京大学订算机研究所合作丌发。国家图书馆的文津信息技术研究中心参照国外利用s g m l 的情况,丌发了基于s g m l 的图书馆应用系统,使用户可以通过因特网的w w w 浏览器直接存取s g ml 应用系统的数据。该系统于1 9 9 8 年2 月开始在国家图书馆提供用户使用。1 9 9 9 年7 月通过文化部组织的技术鉴定,与会专家高度评价了该项目,认为该项目在我国首创了图书馆基于s g m l 的w e b 公共查询通道,具有九十年代末国际先进水平,为2 1世纪我国建设数字图书馆的宏伟工程做了前瞻性技术储备。4 ) 中国试验型数字式图书馆项目1 9 9 6 年5 月,国家图书馆提出了该项目,经文化部组织与协调,上报国家计委,并于1 9 9 7 年获得批准立项,成为国家计委重点科技项目。项目以国家图书馆为组长单位,有上海图书馆、辽宁图书馆、南京图书馆、广东省中山图书馆和深圳图书馆等参加。项目拟建立一个多馆合作、互为补充、联合一致的中国试验型数字式图书馆。实现由多类型、分布式、规范化资源库组成的一个试验型数字图书馆,为我国建设规范化数字图书馆提交一份初步成形的、实用的实现技术。5 ) 知识网络数字图书馆系统工程项目它是1 9 9 8 年国家“8 6 3 ”攻关项目,由国家图书馆与北京曙光天演信息技术有限公司合作完成。该项目要实现一类数字图书馆体系结构的设计与开发。该系统要构筑在因特网环境上,其体系结构包含多个分布式数字资源库。系统将采用人工智能技术,实现横跨多个资源库的快速查询。数字资源建设要符合当前数字图书馆研究和实践的相关规范,以便为在互联网上建设一批中文资源库提供一种有效的实施方案。5太原理i :天学硕+ 研究生学衙论文6 ) 中关村科技园区数字图书馆群软课题研究1 9 9 9 冬6 秀,峦j 寒审售怠纯王穆办公室爹遮,国家整参锫牵头,联含j l 东市有关单位和北大、清华、中科院联含进行。该课题将通过备种方式对该地聪现有资源进行调研,结合该地区的特点,探讨建设数字图书馆群的方法和路线,最终提出参窃实霹霉魏襄簸方案,务怒孛关薅秘缎强嚣数字委豢镶嚣建莰残梵孛国数字图书馆示范性工程奠定基础。7 ) 中阑数字图书馆正程,1 9 9 8 帮7 男翟家图书镶在经过多年筹备爱,委式瘫文往零撬出了实藏“孛霪数字图书馆工程”的立项申请。该项圈得到了国家领导人和有笑主管部门的高度重视。2 0 0 0 年4 月,成也了以文化部为召集单位、由2 1 个部娄单位参加的“中国数字鹫书锫主程建设载窿会议”,据惠着孛器数譬图书镶工程掰经及年豹筹螽,正式启动。2 0 0 0 年1 2 月在海南召开了“中国数字阁书馆工程资源建设工作会议”,标志着中圈数字图书馆置程资源建设工作开始起步。8 ) c a l i s中国尚等教育文献保障系统( c h i n aa c a d e m i cl i b r a r y i n f o r m a t i o ns y s t e m ,简称c a l l s ) ,是经国务院批准的我国高等教育2 l l 工程”总体靓划中两个公挟疆务髂系之。穆秀鼙豢经费支势瓣夺莺蹇校瑟豢镶联逡,c a l l s 戆宗旨莛凌教育部的领导下,把国家的投资、现代豳书馆理念、先进的技术簪段、高校丰寓的文献资源和人力资源整念起来,建设以中国高等教育数字图书馆为核心的教商文献联会保簿俸系,实臻露惠资源共建、:共魏、共事,爨发挥最大豹社会藏蕊秘经济效益,为中国的高等教育服务。设在北京大学的c a l l s 项目管蠼中心联合各参建单位,建设了文理、工程、农学、医学滔令全国文献信悫孛心,牮东蔻、华东南、华中,髯巍、覆袭、嚣癀、东北七个地区中心和一个东北地区国舫信息中心,发展了1 5 2 个高校成员馆,建立了一系列国内外文献数据库,包攒联合目录数攒麾、中文现列曩次库等自建数据淳帮萼| 遴静国终数黎纛,采焉独立鑫生牙发与雩| 爝渣铯葙结金豹遴路,嚣发了联机合作编目系统、联机公共检索( o p a c ) 系统、馆际互借与文献传递系统椁,形成了较为完整的c a l l s 文献信息资源服务网络。在此基础上拜展了公共盛录奁诲、蕾惠梭索、镑际蔓借、文藏黄递、疆络导航等黼络纯、数字亿文献信惠黻务,6太原理1 人学颧+ 弼究生学傍论文对保障“2 1l 工程”各高校的熏点学科建设、培养商鼷次人才、支持科研创新等发挥了重要的作用。112 数字阉书谊赍彝组织与元数据的关系对于数字黼书馆束旌,数据不仪仅包括各释媒体内容信怠本身,对僚患酌描述、对信息访问的控制甚至对信息本身的操作等等都魁以数据的形式表现出来的。因此,在如此丰富的数据内容面曲,有必要建立对所有数字资源的统一表示,建立数字对象摸黧,提拱与数据具体内容无关豹通用离麓功鼗。这些通塌高堪功能包括对数字辩象静存取、出霭户或代理送 亍数字辩蒙鹣发瑰、对内容售患浆发舞或表示,以及送行知识产权保护的访问控制等等。这种高层操作的一致憔将允许具有独立结构和内容的多个对象穰分布的数字图书馆巾以某种方式进行络台,向上层应用以及熊他离层协议中间件系统提供清晰统一的接日。所以在对数譬豳书键酝包含豹数撵逶霉统一建摸表零逡符考察之兹,骜燕爨要考察爱萎零懿镲惠攀元,即所谓的“元数据”。数字图书馏中的元数据包括攒述数据内容的元数据和描述服务的元数攒,元数据不但可以满足数字图书馆的信息检索服务要求,述可以支持数字图书馆的知识发现。所戳元数据技术是数字鬻书锫中菲鬻重要豹一个鼹究领域,元数爨阕题解决鲍质蕈熹羧彰响数字匿书馆瀚建设。1 1 3 数字圈粥馆中元数据组织的现状及面临的问题目蓠,圉弗馈正处在纸质文献资源与数字信息资源共存的“混合型凰秣馆”辩健,簧统豹举攒垄文麸餐然是鬻漤镕信患资源黪蘩癸缝残部分秘终誊鼹务豹重要物质基础,图书馆编目标准是以姒r c 为主的局面。m a r c 是图书馆中历史最悠久、应用最广、发展最成熟的元数据格式,大多数图粥馆都存有数以万计的m a r c格式的书目数据。然丽,随着网络的发展,m a r c 的黪端逐渐显现,d c 的出现及其适应瓣终戆诸多特瞧霞其逐逮发袋莠褥囊瓣终器豹广泛获虿。囊戳,数字嚣书馆建设中m a r c 是否会被d c 取代? 还是采取二者并存? 以及二者如何实现互操作这些都成为数字图书馆中元数据组织所面临的生襄问题。7太原理i 。人学硕十研究生学位论文1 2 选题的目的及意义随着网络的迅速发展,数字图书馆已经成为网络发展的必然趋势,数字图书馆不仅具备了传统图书馆的所有功能,并能提供海量信息,更融合了网络所提供电子商务、电子会议等等的新的个性化服务,各国都已投入巨资建立数字图书馆。而数字图书馆建设的一个基础问题便是元数据的组织问题。m a r c 是否在数字图书馆中应用? m a r c 如何更好的得以利用? 笔者认为对这些问题的研究不仅对数字图书馆的建设具有重大意义,而且对目前传统图书馆中大量m a r c 数据资源的利用也同样具有重大意义。1 3 主要工作1 ) 笔者通过对m a r c 与d c 元数掘的概念、起源、发展、特点的深入研究和全面比较,认为两者将在数字图书馆中互补共存。对元数据互操作方法进行分析,指出元数据映射方法的不足,建议采用基于x m l r d f 的标准描述方法解决数字图书馆中元数据互操作的问题。2 ) 重点研究基于x m l r d f 的m a r c 格式的描述,从而解决传统m a r c 格式在数字图书馆中应用的问题。这对目前广大图书馆中现存的大量的m a r c 数据在数字图书馆中的应用具有重要意义。,3 ) 主要针对太原理工大学图书馆实际情况提出适应太原理工大学数字图书馆的科技文献资料的元数据标准草案和读者信息的元数据分析,设计在数字图书馆中元数据应用框架,并对相关技术进行研究。1 4 本文组织结构第一章绪论。主要通过介绍数字图书馆的定义、特征、国内外发展状况及数字图书馆资源组织与元数据的关系,引出笔者研究数字图书馆中元数据问题的目的及意义。第二章m a r c 与d c 较为详细、全面的地介绍了m a r c 与d c 元数据的概念、起源、发展、特点、格式,并且进行了深入全面的比较,得出两者将在数字图书馆中互补共存的结论。对元数据互操作方法进行介绍和分析,指出元数据8太原瑾 人导疆+ 疆究生学 奇论文映射方法的不足,建议采用基予x m l r d f 的标准描述方法解决数字图书馆中元数据互操作的问题。第三章m a r c 格式的转换。介绍了x m l 语高及r d f 语言,并以大原理工大学学摄m a r c 茹息为史铡,以x m l r d f 对m a r c 穆式进行撼透,鳃庆传统m a r e 格式在数字匿书涫中的应用湾题。第四章太原理工大学数字图书馆中的元数据应用系统的设计。主要针对太原理丁大学图书馆实际情况提出通戍太原理一】二大学数宁阁书馆的科技文献资料的元数捌标准孳繁和读名信息的几数掘分板,坟计在数字嬲书薅中元数据应用摧絮,劳霹耀关蔹零邂霉亍援透。第五章结语。9太原理i :人学硕十研究生学位论文2 1m a r c2 1 1m a r c 的产生及其标准第二章m a r c 与d c机读目录( m a c h i n e r e a d a b l ec a t a l o g u e ,简称m a r c ) 格式是“图书馆自动化系统之问传输和交换机读目录数据时共同遵循和使用的标准记录格式,又称机读目录交换格式”。它是一种为描述、存储、交换、处理及检索信息资源而精密设计的标准,它规定了书目数据在机读介质上的表示和标识方法。制定m a r c 标准的目的是为了实现书目数据的规范,充分开发和利用文献资源,从而推动国际图书情报部门之间的书目信息交流与共享。机读目录格式也是发展历史最悠久、最成熟的元数据格式之一。2 1 1 1u s m a r c ( 美国机读目录格式)u s m a r c 或称l c m a r c 产生于美国国会图书馆。作为一种计算机技术发展早期形成的数据格式,这一格式在定义时比较充分地照顾到图书馆书目数据在文献形式描述、内容描述、检索等方面的需要。,近几年,l c 和o c l c 对u s m a r c 进行了多次局部的修改,以使其可用于网络信息资源的编目。这使得图书馆除了能整理既有各类资料外,也能整理网络资源。这也是图书馆参与网络信息整理的首项工作。1 ) 增加字段0 0 8 2 6 位元的代码。电脑档案的形态十分复杂,0 0 8 2 6 位元的代码己无法满足现实的需求大多数图书馆应用时,往往以代码“m ”( c o m b i n e d ) 或“z ”( o t h e r ) 来表示。9 3 - 4 号建议书提议增加“书目资料”( b i b l i o g r a p h i c d a t a ) 、“字型”( f o n t ) 、“游戏”( g a m e ) 及“声音”( s o u n d ) 等四种代码。2 ) 扩大网络信息的涵盖范围。原来u s m a r c 对网络资源的涵盖范围小,只包括电脑文件和软件等。网络技术的不断发展,u s m a r c 也不断修改,现己扩大1 0太器理l + 入学硬+ 研究生学搏沦文到不仅包含电子资源资料( 如电脑文件、软件、数掘蓐、书目数据库簿) ,还包括联机系统与服务资源( 如f t p 文件传输地点、远程徽录地点、电子向告栏、校园信息系统等) 。3 ) 采用5 一字段匠录负源揍武敬内容。网络负繇翁臻式呈现多样纯,攘式不嗣,萁文献类受魂不翔,u s m a r c 鬈耀5 - 字段柬范录资源格式的内容,鸯助予提高书目的获取能力和满足用户的枪索要求。4 ) 增加了8 5 6 字段。为了实现从书目信息剿文献本身全部信息的检索,u s m a r c 增设了8 5 6 亨段。该字段已载了破链接的电子资源的主机地址、电子资滚名等具蠢竣索、获致意义瓣爨爨,建立了麸豢嚣激象自全文、多爨搭惫子资源的链接。8 5 6 字段的设置,开创了编目的新时代,它的超文本链接有助予厢户获得和链接网上资源。随着i n t e r n e t 的发展,8 5 6 字段将不断修改和完善。2 。1 。2l i n i m a r c ( 国际襁读晷录掺式)。1 9 7 1 年8 月,国际图联i f l a ( i n t e m a t i o n a lf e d e r a t i o no fl i b r a r ya s s o c i a t i o n )开始设计一种通用格式,以实现各国机读目录数据的按享。1 9 7 3 年,国标标准化组织( i s o ) 将m a r c 格式结构作为国际标准( i s 0 2 7 0 9 1 9 7 3 ) 正式颁布。为了使各国m a r c 之闯能够对应,嚣踩标准纯组织予围零制订了磁带上文献鳝录信惠交换穆蕊0 s 0 2 7 0 9 ) ,要求蘸蠢戆m a r c 穆式郝符合i s 0 2 7 0 9 。i s 0 2 7 0 9 捂密:一条m a r c 记录必须由一些具有字段指示符的变长孕段组成。该记录由四个部分构成:记录熬标区、记录日次区、记录数字区和记录分割区。为了防止失控和方便国际交换,灏际图联1 9 7 7 年研制出“u n i v e r s a l m a r c f o r m a t , 简称u n i m a r c 。1 9 8 0 年公套了宅熬筹2 叛。;各匿m a r e 格式的发震程使u n i m a r c 静持续发震。首先,u n i m a r c 被税作一种交换格式,各国的书目机构各自根据自身的嚣贾分别编制翻译软件,以实现u n i m a r c 格式与本国m a r c 格式记录之间的自由转换,如此各国书目机构就可以通过转换弓| 进其它国家的书髓数据,同封还可淘潮强输出本国豹移掰数据。藐终,毒些述没蠢形成m a r c 掺式豹蓬家彝蘧区就霹叛鑫接采餍u n i m a r c 终为标准。2 1 ,1 3c n m a r c ( 中国机读目录格式)太原理1 人学硕十研究生学付论文1 9 9 3 年3 月,中国文化部科技司下达了文化行业标准中国机读目录格式的研究任务,其目的是推进中国的书目数据规范与统一,加速文献信息网络的建设,实现国内各单位之间以及国内与国外之间书目信息的交换与共享。1 9 9 5 年1 2 月出版了中国机读目录格式使用手册作为机读目录格式标准的使用工具书,1 9 9 6 年2 月正式发椎了w h t 0 5 0 3 9 6 格式作为文化行业标准在我国推广使用。该书中指出,中国机读目录格式“主要用于中国国家书目机构同其它国家书目机构以及中国国内图书馆与情报部门之间,以标准的计算机可读形式交换书目信息”。该格式“在数掘规范方面为书目数据库的建立和书目数据处理提供参考或依据”。中国机读目录格式及中国机读目录格式使用手册是我国图书馆学专家依据1 9 9 4 年版u n i m a r c 手册集体编写的成果,为我国计算机编目提供了统一的格式标准。鉴于国际图联i f l a 近年来对u n i m a r c 所作的补充和修改,为使中国机读目录格式跟上国际发展,近一步适应国内编目工作的需求,我国于2 0 0 0 年7 月开始对中国机读目录格式使用手册进行了修订,并依据u n i m a r c 和编且实践对c n m a r c 进行了修改和补充。经过1 0 年的应用,c n m a r c 已经得到了进一步的完善。2 1 2m a r c 的结构m a r c 格式主要由三部分组成( 如图2 1 ) :头标区、目次区和数据区。1 ) 头标区:位于每条记录开端,共有2 4 个字符长度,提供此记录的必要参数。2 ) 目次区:m a r c 记录中每个可交长字段的索引,由一系列固定长数据项目组成,包括每个可变长字段的字段标识符、字段长度和字段起始字符位置,每项占1 2 个字符位。3 ) 数据区:由多个可变长字段组成,字段之间由字段分隔符隔开,是著录资料信息的具体内容。2 1 3m a r e 的特点m a r c 用于描述、存储、交换、控制和检索著录数据的一套机读书目数据标准,经过近5 0 年的发展,它具有严格的语义规则和完整的信息描述手段,尤其是1 2太原理i 人学硕十研究生学侍论文对检索点的选取,能够确保其数据元素组成具有统一性。可以说是目前系统最完善、结构最复杂、标准最严谨的元数掘格式,已成为世界上流行最广的书目数据标准。运用m a r c 著录的信息,具有可靠性、完整性、精确性等特j 占。2 2d u b ii 1 3c o r e2 2 1d o 简介图2 - 1 m a r c 的结构示意图2 4 1s k e t c hm a po f t h es t r u c t u r eo f m a r cd u b l i nc o r e 是元数据的一个标准集都柏林核心元素集的简称( 以下简称d c ,国内称为都柏林核心) 。是为网上资源的辨识、检索而制定的一种著录格式。d c 元数据规范是一项描述信息资源的国际标准,1 9 9 5 年3 月1 日至3 日,第一届元数据研讨会在美国俄亥俄州的都柏林镇( d u b l i n ) 召开( d u b l i nc o r e 也有此而得名) 。这届研讨会最主要的成果是设定了一个用于揭示网络资源类文件对象的最小元数据元素集,即都柏林核心元数据元素集,简称d c 。它由如下1 3 个元素组成( 这1 3 个元素在以后的d c 发展中从名称到内容都有了很大的变化) :s u b j e c t ( 主题) 、t i t l e ( 题名) ,a u t h o r ( 作者) 、p u b l i s h e r ( i l l , 版者) 、o t h e ra g e n t ( 相关责任者) 、d a t e ( 出版日期) 、o b j e c tt y p e ( 对象类型) 、f o r m ( 格式) 、i d e n t i f i e r ( 标识符) 、r e l a t i o n ( 关联) 、s o u r c e ( 来源) 、l a n g u a g e ( 语种) 、c o v e r a g e ( 覆盖范围) 。会议还指出了元数据发展的原则:内在性( i n t r i n s i e c a l i t y ) 指描述对象的内在属性,如对知识内容和格式;可扩展性( e x t e n s i b i l i t y ) 指d c 允许元素应不同团体和d c 本身发展的需求进行扩展;独立句法结构( s y n t a xi n d e p e n d e n c e ) 指d c 应该拥有自己的独立句法结构( 目前,已经形成了d c 语法) 、可选择性( o p t i o n m i t y ) 目p 指1 3太缀理l 天学莰+ 研究生学位论文可以在插述资源时只选用其中几个元素;可重复性( r e p e a t a b i l i t y ) 是浇d c 的所有元素都是可以黛复使用的;可修饰性( m o d i f i a b i l i t y ) 指咒素可以被修饰词修饰,它们语义上是必摹的。并且还规定d c 发展的原则要像元索集一样,要尽可熊地少。夔着i ) c 影响范嚣豹不颧扩大,在壶u k o l n 和o c l c 在英国兹w a r w i c k ( 沃维克) 召开懿第二藩元数据磅讨会( 1 9 9 6 年4 胄l 霹至3 秘) 上,与会考裁娄拜尊潮络资源揭示中需黉不同元数据来描述不同资源的现实情况( 如有的需要用m a r c 描述书目) 提出了沃维克框架( w a r w i c k f r a m e w o r k ) 。它鼹为了适应各种不同类燮元数掇包的容器结构的概念模式。这个撵絮积m e t a c o m e n t ( m c f ) 框架,成为资源描述疆絮r d f ( r e s o u r c ed e s c r i p t i o nf r a m e w o r k ) 发震豹捩,洛。勇矮,在原柬l 善令嚣素的基础上新增两个元素:d e s c r i p t i o n ( 说明) 和r i g h t s ( 权限) 。1 5 个元索的形成标志着都柏林核心集发展的结束和威用阶段的开始。2 2 20 0 的缩捻d c 整个元豢郝是可扩震酶,每个元素具有可重簸性和选择性。虽然d c 允许自定义元素的存在,但是为了顾及信息交流和交换的需要,使用上仍以麓本的1 5 个元素为撼础,然后利用新的修饰词来容纳新的要求。在第五届都柏林元数据研讨会上,s t u a r tw e i b e l 褰j n h ah l a k a l 涛这1 5 个元素袄褥其瑟接述内容的类嬲秘范围分茺3 缌廷素帮标识翔表2 - l 掰精:表2 - 1 都柏林核心元素集2 6 1d u 6 1 i nc o 障内容撼述知识声较岁 形描述题名t i t l e龟逡番c r e a t o r秘期d a t e主题s u b j e c t出版者p u b l i s h e r类型t y p e说明d e s c r i p t i o n其他责任者c o n t r i b u t o r格式f o r m a t 来源s o u r c e投陵r i g h t s椽识i d e n t i f i e r语静l a n g u a g e关联r e l a t i o n覆盖蒗嘲c o v e r a g e1 4太藏理 人学疆十疆究生学劈论文2 2 3i ) c 元繁的含义d c 的1 5 个元索依据其所描述内容的类型和范围分为三组:一是对资源内容的描述。宵车,丁燧、主题、描逊、束繇、出二、丈系和埕次:二足对知识产权的描透。有罄建卷、蠢舨考、授菝者鞠投阪;三是霹於邦臻往豹接述。舂蠢麓、类型、格式和标识。d u b o l i nc o r e 分为简单d c 与复杂d c ,简单d c 指的是未限定的d c ,包含1 5 个核心元素。现根掘都柏林核一心元数扼元素凭11 版中的描述,对都柏林软,玉d c 豹1 5 个元素定义痒遵一步浆篱要 翌弱;元素:骶t l e统一资源标识符:h t t p :p u r l o r e , d c e l e m e n t s d i 1 t i t l e名称:资源名栎麓:豫i e定义:赋予资源静名称演释:一般而言,这一名称指的是资源对苏的正式公开的名称。+元素:c r e a t o r统资源标识符:h t t p y p u r l ,o r g d c e l e m e n t s l + i c r e a t o r名称:翻建者标谈:c r e a t o r定义:创建资源内容的斑要责任者。没释:创建者的实例包括个人,组织或某项服务系统。一般而嵩,一般镬建耆表示一个实体。元素:s u b j e c t统一资源标识符:h t t p :p u r l o r g d e e l e m e n t s l l 1 s u h j e c t名称:主题和关键词标熬:s u b j e c t定义;骞关资源蠹容豹囊麓箍透。注释:如果要描述特定资源的某一主题,一般而言,采用关键词、关键词短语或分裟号。主题和关键词最好是取自于一个辫控词或是一个规范的分类体系。l s太原理l 又学颟十研究生学静论文元素:d e s c r i p t i o n绕羹潦蠢谈耱:h t t p :p u r l 。o r b d d e l e m e n t s 1 。1 d e s c r i p t i 鼹名称:说明标签:d e s c r i p t i o n定义:霹资漯蠹褰懿遴鹱。注释:说明元豢可以包括但不限于以下部分;摘要、掰录、对以图形揭示内容的资源而言的文字说明或者个有关资源内容的自由文本描述。元素:p u b l i s h e r统一资源标识符;h t t p :p u r l o r g d c e t e m e n t s 1 1 p u b l i s h e r名称;出版者繇签:p u b l i s h e r定义;使资源成为可获得并可用的责任者。敬释:出版者的实例包括个人、组织或浆项服务系统。一般而言,用爨舨者戆名称来标识这一条嚣。元素:c o n t r i b u t o r统一资源标识符:h t t p :p u r l o r g d e e l e m e m s 1 1 c o n t r i b u t o r名稼:其蘧责媛学。标签:c o n t r i b u t o r定义;对资源内容创建作出烫献的其他责任者。注释:其蘧责酝蠹豹实铡惫糕令天、缝缓绫莱疆疆务系绫。一簸嚣富,用其他责任者的名称来标识这一条目。元素:d a t e绕一资深标谈襁:h t t p :p u r l + o r g d c e t e m e n t s 1 1 d a t e名称;日期一一一标簇:d a t e定义:与资源零身生会溺麓巾静一个事搏稳关的丑麓。注释:一般而害,日期应与资源的创建或可获得的日期相关。建议采用的日期格式虚符合i s o8 6 0 1 【w 3 c d t f 规范,并使孀y y y y - m m - d d 的格式。元素:t y p e1 6太原理1 人学硕十研究生学付论文统一资源标识符:h t t p :p u r l o r g d c e l e m e n t s 1 1 t y p e名称:资源类型标签:t y p e定义:有关资源内容的特征和类型。注释:资源类型包括描述资源内容的一般范畴、功能、种属或聚类层次的术语。建议采用来自于受控词表中的值( 例如d c m i 类型词汇表 d c m i t y p e 】o 要描述资源的物理或数字表现形式,请使用格式( f o r m a t )

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论