（信号与信息处理专业论文）数字图书馆中统一检索系统的研究与开发.pdf

上传人：伐*** IP属地：宁夏上传时间：2019-12-08 格式：PDF 页数：56 大小：1.98MB 积分：0 举报 版权申诉

已阅读5页，还剩51页未读，继续免费阅读

（信号与信息处理专业论文）数字图书馆中统一检索系统的研究与开发.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

数字图书馆中统一检索系统的研究与开发摘要随着网络信息资源的迅速增加，为检索这些资源而丌发的检索系统的数目也在增加，而且功能变得更加强大。但是这些检索系统在用户界而、检索模型和元数据等诸多方面存在差异，这些差异使得用户难以迅速而准确地查找到自己所需要的信息。目前解决这一难题的主要途径就是丌发统一检索系统，其工作原理是将多个检索系统采用紧耦合或松耦合技术集成在一起，使得用户可以通过一个界面同时完成对多个检索系统的检索。本论文首先对统一检索系统涉及到的元数据、 x m l 语言和元数据的互操作等问题进行了详细的分析，接着对比分析了紧耦合的集成技术和松耦合的集成技术，然后采用j a 、，a 技术结合m v c 设计模式提出了一种新的统一检索模型：s e r v l e t + j s p + j a v a b e a n 模型。这种模型不但可以方便地集成已有的各种检索系统，而且还具有开发难度适中、易于维护和升级等优点。本论文最后按照统一检索系统模型结合西安电子科技大学图书馆资源现状，设计和开发了本校图书馆的统一检索系统。关键词：数字图书馆j s ps e r v l e t 检索系统模型一视图一控制器鍪主燮j ! 麓主竺二笙窒墨篓塑整篓兰茎茎一一一 a b s t r a c t w i t ht h er a p i di n c r e a s eo fi n f o r m a t i o nr e s o u r c e si ni n t e r n e t ，m o r ea n d m o r er e t r i e v a l s y s t e m sa r ed e v e l o p e da n dt h e i rf u n c t i o n sb e c o m em o r es o p h i s t i c a t e d i t o w e v e r , t h e u s e ri n t e r f a c e ，r e t r i e v a lm o d e la n dm e t a d a t ao f t h er e t r i e v a ls y s t e m sa r ed i f f e r e n tf r o m e a c ho t h e r , w h i c hm a k e si td i f f i c u l tf o ru s e rt og e tw a n t e di n f o r m a t i o na c c u r a t e l ya n d r a p i d l y t h i sp a p e r d i s c u s s e sm e t a d a t a ，x m l ，m e t a d a t ai n t e r o p e r a b i l i t y ，t i g h t l yc o u p l e d i n t e g r a t i o n ，l o o s e l yc o u p l e di n t e g r a t i o n a n dz 2 9 5 0p r o t o c o li nd e t a i l b a s e do nt h e a n a l y s i s ，t h i sp a p e rp r e s e n t san e wi n t e g r a t e dr e t r i e v a ls y s t e m m o d e l ，w h i c hc a l le a s i l y i n t e g r a t ee x i s t i n gr e t r i e v a ls y s t e m s 。f i n a l l y , a r ti m p l e m e n t a t i o no fi n t e g r a t e dr e t r i e v a l s y 蠡e mi nx i d i 赫u n i v e r s i t yl i b r a r yi sp r e s e n t e d 。 k e y w o r d ：d i g i t a ll i b r a r y j s ps e r v l e tr e t r i e v a ls y s t e m m o d e lv i e wc o n t r o l l e r 创新性声明 y 5 8 3 8 2 z 本人声明所呈交的论文是我个人在导师的指导下进行的研究工作及所取得的研究成果。尽我所知，除了文中特别加以标注和致谢中所罗列的内容以外，论文中不包含其它人已发表或撰写过的研究成果；也不包含为获得西安电子科技大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志为本研究所做的任何贡献均已在论文中做了明确的说明并表示了谢意。申请学位论文与资料若有不实之处，本人承担一切相关责任。本人签名：丛虚型i 日期：i ! ! ! ! f ：! f 关于论文使用授权的说明本人完全了解西安电子科技大学有关保留和使用学位论文的规定，即：研究生在校攻读学位论文期间论文工作的知识产权单位属西安电子科技大学。本人保证毕业离校后，发表论文或使用论文工作成果时署名单位仍然为西安电子科技大学。学校有权保留送交论文的复印件，允许查阅和借阅论文；学校可以公布论文的全部或部分内容，可以允许采用影印、缩印、或其它复制手段保存论文。( 保密的论文在解密后遵守此规定) 。本学位论文属于保密，在一年解密后适用本授权书。本人签名：导师签名：日期：圭竺兰型! 日期：醴壁i ：1 2 ：! ! 第一章绪论第一章绪论 1 1 课题研究背景随着网络技术的发展，网络应用的类型也在不断扩大，互联网e 信息的类型也变得越来越丰富，可以列举的类型包括文本、图形、图像、视频、音频和动l 嘲等。计算机、网络以及通信的发展使得产生、处理和传播数字信息的能力大大增加，而数字信息在存储、传输和处理时比其他形式存储的信息更方便，加之在过去的几十年中产生了海量的数字信息资源，所以技术上需要一种系统技术来管理数字信息资源。怎样合理和有效地对各类海量数字信息进行组织、检索、访问和利用? 怎样有效利用互联网的优势向用户提供海量数字信息服务? 互联网技术领域面临一系列问题。针对这些问题，美国科学家在二十世纪九十年代初提出了数字图书馆这一概念。数字图书馆是一个驱动多媒体海量数字信息组织与互联网应用问题各方面问题研究的技术领域。简单的说，数字图书馆是以电子格式存取储海量的多媒体信息并能对这些信息资源进行高效的操作，如插入、删除、修改、检索、提供访问接口和信息保护等。数字图书馆拥有大量的数字资源，这些资源在物理位置上可能在起，也可能是分布式的。一般的，这些资源分别有自己的检索系统，这些检索系统各有各的检索界面和检索引擎，当一个用户想检索某一资料时，很可能必须分别在各个检索系统上进行检索才能得到所需要的结果，这样既费时又费力，检索效率比较低。例如在我校图书馆中，电子图书就有：超星电子书、书生电子书，将来还会有其它电子书。论文库有：馆藏电子期刊、特种文献数据库、电子科技文献综合数据库和万方数据库等，将来肯定还要继续引进其它数字化资源( 视频。图片，图像，音频等) 。当然还有我们最常用的书目数据库。这么多的数字化资源，如何组织和管理才能更好的为用户服务，现在已经成为数字化图书馆研究的热点和难点。 1 2 研究现状数字图书馆系统的信息资源是由分布在各处的大大小小的异构子系统构成，每个予系统都是一个相对独立的信息空间，具有各自的信息组织方式，处理方式，为用户提供不同的查询方式，不同的权限保护和收费策略。用户信息的需求往往需要查询多个信息子系统才能得到满足。由于了解每一个子系统的特性并掌握其检索技术都需要花费时间，所以造成检索效率的低下。如何屏蔽分布的各子系统间的差别，提供一致的检索界面和检索技术，出系统自动执行跨系统的检索，在系统间不同的信息格式，检索方式等方面进行转换，然后对检索结果进行整理去重，最后通过表格或图形进行显示。这就是1 7 t 前数字图书馆统一检索研究的内容。数字图啪馆中统一检索系统的研究与开按对数字图书馆的研究，美国在各领域均处于领先地位。他们早先在统一检索领域的研究成果之一就是提出了三个数字图书馆系统模型。第一个是伊利诺依大学的i n t e r s p a c e 系统；第二个是斯坦福大学的h l f o b u s 系统；第三个是密执根大学的u m d l 系统。要实现全球范围内的统一检索，现在还很难做到。因为这涉及到许许多多的学科领域，要解决很多难题。目前关注的主要有：元数据、分布式、用户界面、智能检索和互操作等问题。在数字图书馆系统中i f l 前常用的元数据有d c 和 m a r c ，常用协议有h t t p 、o a i 和z 3 9 5 0 等。随羞w e b 服务研究的深入，许多学者开始研究w e b 服务在数字图书馆中的应用，这必将会给数字图书馆的研究带来新的活力。我国对数字图书馆的研究起步比较晚，1 9 9 5 年，国家图书馆开始跟踪国际上数字图书馆的发展动向，了解相关标准、规范和技术，形成对数字图书馆整体框架的认识。目前国内对数字图书馆系统体系结构进行研究的项目有中国高等教育文献保障系统( c a l i s ) 、中国实验型数字式图书馆项目和中国数字图书馆工程项目。国内著名高校和中科院已经开始设计和开发统一检索系统，目前投入使用和测试的有：清华大学的同方异构统一检索平台、北京大学数字图书馆资源统一检索平台和中国科学院文献情报中心开发的集成检索系统等【2 】 a l 4 l 5 1 。这些统一检索系统都是基于h t t p 协议的松耦合集成。 1 3 本论文的主要工作针对数字图书馆在发展中出现的上述问题，本论文首先对统一检索系统涉及到的元数据、x m l 语亩和元数据的互操作等内容进行了详细的阐述，接着对比分析了紧耦合的三种集成技术和松耦合的集成技术z 3 9 5 0 协议、h t t p 协议和w e b 服务。基于这些讨论结合j a v a 技术，按照m v c 设计模式论文提出了一个新的统一检索系统模型：s e r v l e t + j s p + j a v a b e a n 模型，这个检索模型可集成按照h t t p 协议、x m l 和7 _ 3 9 5 0 协议开发的检索系统。由于采用了m v c 模式。所以系统的可维护性和可扩展性很好。最后作者按照这个模型结台西安电子科技大学图书馆的现状，设计和开发了本校的统一检索系统。该系统开发平台为j b u i l d e r8 e n t e r p r i s et r i a l ，应用服务器为t o m c m4 1 ，数据库服务器为s o ls e r v e r2 0 0 0 。作者开发的检索系统具有开发效率高，执行速度快和跨平台的优点。用户利用这个平台后，可以大大提高检索时的查全率和查准率。第二章元数据与标记语青第二章元数据与标记语言 2 1元数据元数据”是英文单词”m e t a d a t a ”的中文意译。元数据直译为关于数据的数据。我们可以用一个简单的例子来说明：有一本书信息检索，我们对它的书名、作者、出版社等信息做一个简单的摘要，那么这个摘要信息就可以称作元数据。同样的，关于物质世界的和初始事物的简单( 相对于源) 再描述所得到信息都可以称作元数据，这就是元数据的一般定义。元数据最基本的用途就是管理数据，从而实现查询、阅读、交换和共享。由于网络上的信息资源种类繁多，有些资源比较简单，有些则相当复杂，有些只需要简单描述即可，而有些是面向专业人士使用的，需要很详细的描述。因此，网络资源的丰富性和用户需求的多样性就决定了元数据的多样性。经常遇到的元数据有m a i k 、d u b l i nc o r e 、t e i 、r d f 等等。元数据是信息检索的基础。元数据对信息资源的描述能力越强，那么我们就越可能开发出功能强大的检索系统。数字图书馆作为庞大的数字化资源库，对元数据的要求很高，同时广泛的用户群又要求元数据尽量简单。这切都使得图书馆的元数据有其特殊性。 2 1 1m a r c 格式【6 】对于印刷体的图书和期刊采用历史悠久的机读目录( m a r c ) 来编目，国内现在一般采用c n m a r c 和u s m a r c 两种标准分别针对中文馆减和西文馆藏。在这里，图书目录数据( m a r c 数据) 就是元数据，而m a r c 就是编目标准。m a r c 以其详细和严谨的风格可以准确的描述图书和期刊，提供管理和检索。国内通过 l o 年的发展，在图书馆领域的m a r c 建设已经比较完善，可以实现联合编目和目录共享等区域合作。m a r c 数据的交换和共享通过z 3 9 5 0 协议实现。 m a r c ( m a c h i n er e a d a b l ec a t a l o g u e ) 即机器可读目录，是美国国会图书馆二十世纪六十年代图书馆自动化编日研究的成果，现在世界各国都开发出了本国特色的m a r c 格式，如我国c n m a r c 。按m a r c 存储的数据可分为3 个区：第一个区( 头标区) ：头标区是对一条记录的总体说明，包括记录长度、状念和数据的起始位置等。头标区的长度是2 4 个字符。第二个区( 目次区) ：目次区每个字段固定为1 2 个字符，每个字段包括3 个项目：字段标识( 3 个字符) 、字段长度( 4 个字符) 和起始字符位置( 5 个字符) 。第三个区( 数据区) ：具体存放第二区字段的数据，每个数据区以a s c i i 码c h r ( 2 9 ) 为结束符，每条记录的结束符为a s c i i 码c h r ( 3 0 ) 。数字图书馆中统一检索系统的研究与开发下面是一条题名为信息检索的书的m a r c 记录 0 0 7 0 8 n a m 2 2 0 0 2 6 54 5 0 0 0 1 0 0 1 t 0 0 0 0 0 0 1 0 0 0 2 5 0 0 0 1 1 0 9 0 0 0 1 8 0 0 0 3 6 1 0 0 0 0 4 1 0 0 0 5 4 1 0 1 0 0 0 8 0 0 0 9 5 1 0 2 0 0 1 5 0 0 1 0 3 1 0 5 0 0 1 8 0 0 11 8 1 0 6 0 0 0 6 0 0 1 3 6 2 0 0 0 0 5 9 0 0 1 4 2 2 1 0 0 0 3 3 0 0 2 0 1 2 1 5 0 0 1 6 0 0 2 3 4 3 0 0 0 0 1 7 0 0 2 5 0 6 9 0 0 0 1 1 0 0 2 6 7 6 9 2 0 0 1 3 0 0 2 7 8 7 0 1 0 0 1 7 0 0 2 9 1 8 0 1 0 0 4 1 0 0 3 0 8 9 0 5 0 0 3 9 0 0 3 4 9 9 4 5 0 0 1 8 0 0 3 8 8 9 4 5 0 0 1 8 0 0 4 0 6 9 4 5 0 0 1 8 0 0 4 2 4 0 1 9 3 0 1 6 6 0 3 一a 7 1 1 1 - 0 8 1 9 9 4 d c n y l 8 一 a 3 7 2 1 6 5 5 b c 8 9 一a 0 0 1 2 1 3d 2 0 0 0k my o c h i y l 0 2 1e a 一0 a c h i a c n b 1 1 0 0 0 0 a y z 0 0 0 y y a r 1a 信息检索a x i n x i j i a n s u o f 张惠惠主编 f z h a n g h u i h u i z h u b i a n a 北京c 机械工业出版社d 2 0 0 0 ，8 a 2 9 8 页一 d 2 0 c m a 高等学校教材a g 2 5 2 7 a 3 7 2 1 6 5 5 0 a 张惠惠4 主编一0 a c n b 西安电子科技大学图书馆e 2 0 0 0 1 2 1 3 a 2 6 1 0 5 0 b 1 0 9 8 7 9 8 6 8 8 d 3 7 2 1 6 5 5 e c 8 9 一 b 1 0 9 8 7 9 8 6 1 m y s b 1 0 9 8 7 9 8 7 l m l s b 1 0 9 8 7 9 8 8 l m l s - m a r c 格式的特点： m a r c 格式一直是用在印刷型资源上面的，随着i n t e m e t 的迅速发展，出现了更多的资源类型，象电子书，电子期刊等。m a r c 格式也增加了一些新的字段用来描述新出现的资源类型，但是有一些力不从心。编目复杂。每条m a r c 格式的记录包括几十个字段，如何把一本书的信息对应到m a r c 字段中，这个过程只有专业人员才可以完成。一般人员难以使用它来描述资源。姒r c 格式的复杂性m a r c 格式有一定编码规则，这些规则虽然是符合国际标准的，但是一般的技术人员难以读取和分析。 m a r c 格式虽然在网络时代的资源描述中遇到了一些困难，但是它在将来很长的一段时间内仍然是资源描述的主要工具，这主要的原因是：历史上已经积累了大量花费人力物力建立起来的m a r c 数据库，如果停止使用，代价太大；m a r c 格式描述的资源相对于其他描述工具来说，它的检索功能很强大，可以通过资源的各个特征进行检索。 2 1 2d u b l i nc o r e ( d c ，都柏林核心集) u i 从前面对m a r c 的叙述中，我们知道m a r c 格式适合在专业领域内使用，可是随着互联网的迅速发展，越来越多的数字化资源加入到互联网中，这些资源如何描述，使用那一种元数据? 这些问题突出地摆在我们面前。d c 在解决网络资源描述和组织方面已经脱颖而出。 d u b l i n c o r e 是1 9 9 5 年在都柏林召开的第一次元数据会议上被提出的。它的目的是生成个简单的、并且在网络中为各个拥护团体所接受的标准化元数据元素集。d c 能较好地解决网络资源的发现、控制和管理问题。 d u b l i nc o r e ( d c ) 被认为是网上最有发展前景的元数据之，它是由十五个核第二章元数据与标记语言心元素构成的，可以分为资源内容，知识产权和外部属性三部分描述( 见表2 1 ) 。 d c 易于生成，不需要专业的编目人员来创造，就是一般的网页作者也能自己创造出d c 元数据来。另外为了满足比较高级的编目要求，d c 还可被扩展或与其它元数据进行桥接。d c 元数据的表达有多种方式，一些简单的表述可以采用d c 在 h t m l ，x m l 和用x m l 格式的r d f 结构中的镶嵌形式。d c 目前已成为简单描述因特网资源的首选。国内开发的“c a l l s 高校学位论文全文数掘库”规定必须采用d c 格式。下面简单介绍一下这十五个元素。资源内容元素： 1 题名( t i t l e ) 是由创建者或出版者提供的资源的正式名称。 2 主题( s u b j e c t ) 能够揭示资源对象主题内容或学科内容的关键词，通常用来描述资源的关键词或分类号，来自一个受控词表或正式的分类体系。 3 描述( d e s c r i p t i o n ) 包括文摘、目次表、内容图示参照或者自由文本的内容描述等。 4 语种( l a n g u a g e ) 资源对象所用的语言类型。 c o n t e n ti n t e l l e c t u a lp r o p e r t yl n s t a n t i a t i o n 资源内容知识产权外部属性 f i t l ec r e a t o rd a t e s u b j e c t p u b l i s h e r t y p e d e s c r i p t i o n c o n t r i b u t o rf o r m a t s o u r c e r i g h t s l d e n t i f i e r l a n g u a g e r e l a t i o n c o v e r a g e 表2 1d c 都柏林核心集元素 s 来源( s o u r c e ) 资源的出处，当前资源可以从来源资源中获取。一般的元素只包含当前资源的信息，如果对于揭示当前资源是必要的话，该项可包含二次资源的闩期、创建者、形式、标识或其他元数据。 6 关联( r e l a t i o n ) 相关资源的参照，是指这一资源与其它资源问的关系。每个资源都有一个独立的元数据描述，每一个元数掘描述所包含的元素必须与一个单独的资源有关联，该元素允许在相关资源和资源描述间建立关联。例如再编目、翻译自、节选自、格式转换自等。 7 ，覆盖范围( c o v e r a g e ) 该元素的应用是为支持资源的守问参考，反映资源知识内容的时空特征。 6数字图书馆中统一检索系统的研究与开发知识产权元素：利用四个元素项声明创建并捌有信息的个人或机构，对信息操作的权限。 8 创建者( c r e a t o r ) 对创造资源知识内容负主要责任的个人或机构。 9 出版者( p u b l i s h e r ) 负责使资源成为当f ；i 形态的责任者，例如出版社、大学的系或者公司实体等。 1 0 其他责任者( c o n t r i b u t o r s ) 指没有在c r e a t o r 元素中列出的对资源的知识内容具有重要贡献的个人或组织，其贡献次于创建者。 1 1 权限( r i g h t s ) 一个权限管理的陈述，或者是指向一个权限管理称述的标识，或者是指向提供资源权限管理信息内容的服务的标识。外部属性元素：用四个元素项声明资源出现的形式。 1 2 日期( d a t e ) 指与创建或使资源成为可利用状态相关的日期。 1 3 类型( t y p e ) 资源的类别，例如小说、诗歌、报告、论文、词典等 1 4 标识符( i d e n t i f i e r ) 唯一标识资源的字符串或数字。例如网络资源标识中的u r l 和u r n ，其它通用唯一性标识如图际标准书号i s b n 等。 1 5 格式( f o r m a t ) 资源的数据格式，用于注明需要什么软件或硬件来显示和执行这一资源。 d u b l i nc o r e 只有1 5 个元素，与m a r c 的数百个字段相比，确实很简洁，定义也很清楚。它的题名、创建者、主题项是重要的检索点出版者、其他责任者、标识符、来源、关联这五个元素是辅助检索点或关联点，其余元素是必要的描述性信息。同时，学术界对m a r c 到d c 的数据转换理论研究已经完成，国内也开始对 c n m a r c 到d c 的理论和实践研究【7 】，如西安交通大学图书馆用d e l p h i 丌发了一套d c 编目系统，有一个子功能就是完成c n m a r c 到d c 转换的。 2 2 标记语言和d u b l i nc o r e 2 2 。lx m l 标记语言是使用标记对资源进行标识，生成文档，便于标记文档被机器识别。标记是用来描述文档的一个块或一部分的内容，以标志的格式附加在文档中。 s g m l ( s t a n d a r d g e n e r a l i z e dm a r k u pl a n g u a g e ，标准通用标记语言) 是所有标记语言的鼻祖。s g m l 最早是为了解决将文档从一个平台和操作系统环境下转移到另一个平台和操作系统中的问题，使用特殊的符号对文档进行标记，以使文档容易的进行共享。尽管s g m l 是一种强大的语言但是它过于复杂，实现和维护难度很大。所以在后来，就从s g m l 衍生了很多简单的其它标记语言，如h t m l 、 w m l 、s m l l 和x m l 等。网络上目前广泛使用的h t m l ，主要是用来数据表示。它编写简单，语法检第二章元数据与标记语言查也不严格，这是它流行的主要原因，但是随着网络技术的发展，它也暴露出来很多的缺点，例如不能表示内容的含义，扩展性较差。这使得网络检索难以精确实现。 x m l i 8 ) 【9 l 【( e x t e n s i o n m a r k u p l a n g u a g e ，可扩展标记语言) 是国际互联网联盟( w 3 c ) 丌发的用于网络环境下网页设计和数掘交换、管理的新技术，并已成为推荐标准，具有很好的应用和发展前景。x m l 是国际标准s g m l 的一个子集、种压缩形式，或者说是s g m l 一种实用形式。x m l 是用结构化的办法处理过去认为难以处理的非结构化的信息。x m l 是创建文档结构的工具，而不单单是将结构用于界面显示。它所创建的文档结构可以使管理系统精确地识别信息所在位置。 x m l 可以将数据的存贮与数据的显现分开，即内容与形式分离。x m l 表示的数据一般由x s l ( e x t e n s i b i l es t y l e s h e e tl a n g u a g e ，可扩展样式语言) 语言负责显示给用户。x m l 设计人员可以创建和管理自己定义的标记，它的语法是固定的但它的符号集是开放的。 x m l 的重点在于表示信息内容，包括超文本链接。x m l 的功能大大超过h t m l ( 超文本标记语言) 。x m l 全面支持i s o 肛c l0 6 4 6 ( 即u n i c o d e ) 大字符集，包括c j k 汉字和世界上其它各种文字。 2 2 2x m l 标识d u b l i nc o r e i 1 d u b l i nc o r e 的1 5 项元数据若是以x m l 形式组织与表示，则更充分体现出它的实用价值。 x m l 语法：信息内容，前面为信息内容的丌始标记，后面为信息结束标记，二者成对出现。开始标记中的”属性”，提示计算机处理用的参考信息。下面以建立d u b l i nc o r e 模式书目文档为例，并结合电子版x m l 技术大全这一电子资源的书目，列出其x m l 形式： d u b l i nc o r ex m l 形式 ? x m l v e r s i o n = ”1 0 ”e n c o d i n g = ”u t f - 1 6 ”? ) ( ! d o et y p e b i b l i o g r a p h i cb i b l i o d t d ) ( b i b l i o g r a p h y ) ( h e a d ) ( t i t l e ) d u b l i nc o r e 形式书目( t i t l e ) ( p r e r e e qc l a s s i f i c a t i o n = “c o m p u t e r - b a s l e “) ( h e a d ) ( b o d y ) ( d e ：t i t l e ) x m l 技术大全( d e ：t i t l e ) ( d c ：c r e a t o rr o l e = ”e d i t ( 编著”) 威廉逊( d e ：c r e a t o r ) 数字幽伟馆中统一检索系统的研究与开发 d c ：c r e a t o rr o l e = ”研翻译) ”智慧东方工作室( d e ：c r e a t o r ) ( d e ：s u b j e c t ) x m l 语言( d e ：s u b j e c t ) ( d e ：d e s c r i p t i o n ) 本书详细介绍x m l 技术，涉及x m l 的方方面面，例如解析器、校验器、大纲、文档类型定义、样式表、名字空间、x l i n k 、x p o i n t e r 等内容，本书内容翔实，实例丰富，不仅介绍x m l 的基本概念，而且涉及x m l 高级功能，例如脚本语言的应用、文档对象模型、x m l 子语言等。( d e ：d e s c r i p t i o n ) ( d e ：p u b l i s h e r ) 机械工业出版社( d e ：p u b l i s h e r ) ( d e ：c o n t r i b u t o r ) 美国麦格劳希尔国际公司合作出版( d e ：c o n t r i b u t o r ) ( d e ：d a t e ) 2 0 0 2 0 1 ( d e ：d a t e ) ( d c ：t y p e ) 计算机图书( d e ：t y p e ) d c ：f o m a t ) 电子图书( e b o o k ) ( d c ：f o m a t ) ( d e ：i d e n t i f i e ri d - - - x y z ”s c h e m e = “i s b n ”) 7 1 11 - 0 9 4 3 3 6 ( d e ：i d e n t i f i e r ) ( d e ：s o u r c e ) 超星数字图书馆( d e ：s o u r c e ) ( d e ：s o u r c e ) h t t p ：s s r e a d e r 1 i b x i d i a n e d u c n ( d e ：s o u r c e ) ( s i t eh r e 仁”x m l ：l i n k = ”s i m p l e ”) ( s i t e ) ( d e ：l a n g u a g e ) c h i n e s e ( d e ：l a n g u a g e ) ( d e ：r e l a t i o n ) i n t e m e t 新技术丛书( d e ：r e l a t i o n ) ( d e ：r i g h i t s ) 由机械工业出版社和美国麦格劳希尔国际公司( d c ：r i g h i t s ) ( ，b o d y ) ( b o d y ) ( ，b o d y ) ( 另一条书目) ( b o d y ) ( 另一条书目) ( ，b o d y ) ( b i b l i o g r a p h y ) 说明 1 这是一个仅表示文档结构和数据结构的x m l 标记形式，即未标识数据显示和打印时所使用的字号( 体) 以及排版格式。这种形式仅供系统处理用。因为x m l 是可以将信息的存贮与显现分开的。书目数据的显现格式可通过另外的应用程序实现。 2 前六行为文档的定义部分。第七行丌始至第一个结束，为x m l 技术大全这条书目标记。其后的为其余各条书目标记，此处省略。 3 x m l 对元数据的标记信息不需人工录入，完全可以通过各项数据录入格式自动霞标。因而它比m a r c ( 机读目录) 形式数据输入标引更为简单。第二章元数据与标记语言 4 书目信息与全文版电子资源的链接是通过，或实现的。 5 每项元数据是可重复标记的，数据是可以变长的。结论 1 d u b l i nc o r e 的1 5 项元数据集，既包含了电子资源重要的检索点和超文本链接信息，也包含了有关电子资源的描述性信息，它是读者通过目录检索、阅览最终电子资源的有效手段与桥梁。其应用范围广泛，不仅涵盖图书馆，更涵盖政府机关、电子商务以及博物馆等众多领域的信息处理，它应是数字图书馆采用的重要技术，它的作用远远超过m a r c 格式。 2 由于传统的图书馆目录信息与d u b l i n c o r e 元数据集有对应性，故图书馆的目录模式可以向d u b l i nc o r e 靠拢。主要考虑是，在许多文献已经实现电子化数码化的情况下，图书馆的目录著录已没有必要那么详尽，采 n d u b l i n c o r e 简明扼要数据集可以满足应用，而且节省了著录的人力、物力。而且m a r c 的有关字段是可以自动转为d u b l i n c o r e 元数据的。向d u b l i n c o r e 靠拢有利于图书馆的文献信息参加网络环境下更大范围的统一处理与共享。 3 x m l 是网络环境下对电子资源进行处理的一种行之有效的新技术。它适用于多种领域各种电子资源( 如全文、多媒体) 的处理，同样也适用于简洁明晾的目录信息处理，如d u b l i nc o r e 的元数据集或m a r c 中的各字段的处理。而且d u b l i n c o r e 与x m l 相结合，则把x m l 在多种特定行业里需要处理的数据语义词汇繁杂性予以简化约定和规范了，使x m l 的广泛应用十分成功。 4 交换式书目数据。m a r c 格式仅仅用于图书馆系统间数据交换，m a r c 格式不能取代系统的内部格式。这些异构系统要想在网络环境下实现互联，还必须采用z 3 9 。5 0 协议。旺恰恰从数据与文档的底层实现格式化，这就保证了从里到外、从处理到交换的一致性，因而有利于网络环境下采用通用的检索引擎等软件工具。 5 建设未来的的分布式数字图书馆，d u b l i nc o r e 与x m l 不可少。广泛采用 d u b l i nc o r e 与x m l 的信息系统和电子出版物将会愈来愈多。开发x m l 应用的各种工具和开发包已经很多了。如i b m 的x m ls p y 和s u n 公司的，艄硝。微软的浏览器l e 也开始支持x m l 显示了。 2 3 检索模型【2 1 信息检索是数字化图书馆的核心业务之一。广义的信息检索包括文本、音频、图像、视频的检索。狭义的信息检索特指文本内容的检索。本论文中的信息检索都是指狭义的信息检索。文本信息检索主要的工作是将用户提交的查找请求与数掘库中的信息进行相 o数字图辂馆中统一检索系统的研究与开发似度比较，然后将“最相似”的信息反馈给用户，完成信息检索的任务。当然。所谓“最相似”的标准由检索系统定义，一般可以将关键字匹配程度作为相似度的衡量标准。一般的检索系统包括用户界面、检索模型、元数据库和对象数据库。之问关系见图2 1 。用户界面用来获取用户的检索参数，例如：检索字段，输入的检索词，数据源选择等；检索模型是检索系统的核心部分，它的好坏直接关系着检索结果的好坏；元数据是描述和管理对象数据的数据，对象数据是指数字化了的文本、声音、图像和视频等数据。图2 1 抽象的检索系统 2 3 1 常用检索模型 t 3 l 布尔( b o o l e a n ) 模型是基于集合论和布尔代数的一种简单检索模型。布尔逻辑的基本运算有三种，即逻辑加、逻辑乘、逻辑非。逻辑加( o r ) 。给定两个命题a 、b ，对它们进行逻辑运算后构成的新命题为s ，若a 、b 两者有一个成立或同时成立，s 就成立：否则s 不成立。则这种a 、 b 间的逻辑运算叫做逻辑加，也叫“或”运算。构成的新命题s ，叫做a 、b 的逻辑和。记作a u b = s 或记作a + b = s 。均读作“a + b ”。逻辑加相当于集合运算中的 “并集”。如果我们想检索有关计算机方面的知识，我们就可以使用下面的检索表达式：计算机o r 电脑。逻辑乘( a n d ) 。给定两个命题a 、b ，对它们进行逻辑运算后构成新的命题p 。若a 、b 同时成立，p 就成立，否则p 不成立。则这种a 、b 间的逻辑运算，叫做逻辑乘，也叫“与”运算。构成的新命题p 叫做a 、b 的逻辑积。记作a n b = p ，或记作a x b = p ，也可记作a b = p ，均读作a 乘b 。逻辑乘相当于集合运算中的“交集”。如果我们想了解信息检索中布尔模型的有关资料，就可以使用下面的检索表达式：信息检索a n d 布尔模型。逻辑非( n o t ) 。给定一个命题a ，对它进行逻辑运算后，构成新的命题为第二章元数据与标记语言 f ，若a 成立，f 就不成立：若a 不成立，f 就成立。这种对a 所进行的逻辑运算，叫做命题a 的逻辑非，构成的新命题f 叫做命题a 的逻辑非。a 的逻辑非记作“”，读作“a 非”。逻辑非相当于集合运算的求“补集”。如果我们想了解信息检索的有关资料，但是不包括检索模型，则可以使用下面的检索表达式：信息检索n o t 检索模型。布尔模型是目前最常用的检索模型。此外还有向量模型和概率模型 1 4 1 。 2 3 2 检索结果的质量和性能评价对信息内容检索的质量评价有两个基本指标：查准率和查全率。查准率是检出的文档之中真正符合需求的文档所占的比率，公式为：查准率= 符合需求的文档数检出文档总数查全率是指真正符合需求的文档之中被检出的文档所占的比率，公式为：查全率= 符合需求且比检出的文档数符合需求的文档总数查准率和查全率反映了检索质量的两个不同的方面，两者必须综合考虑，不能偏废。性能评价主要是检索系统响应时间。特别是在网络环境下，由于同时访问的用户数量可能很大，造成服务器响应时间过长，使得检索效率很低。所以对网络检索系统来说响应时间也是非常重要的一个质量指标。 2 4 元数据的互操作 1 5 l 由于不同的领域( 甚至同一领域) 往往存在多个元数据格式，当在用不同元数据格式描述的资源体系之间进行检索、资源描述和资源利用时，就存在元数据的互操作性问题( i n t e r o p e r a b i l i t y ) 。这涉及多个不同元数据格式的释读、转换和由多个元数据格式描述的数字化信息资源体系之间的透明检索。统一检索就是要对来自于不同信息系统的数据进行检索，然后对检索结果进行整理，最后呈现给用户。不同的信息系统如果采用的元数据不同，那我们的统一检索系统要对这些元数据进行“归一化”：转换成一种元数据显示给用户。目前处理这个问题的方法有：元数据格式映射【1 6 j 利用特定转换程序对不同元数据元格式进行转换，称为元数据映射( m e t a d a t a m a p p i n g c r o s s w a l k i n g ) 。目前已有大量的转换程序存在，供若干流行元数据格式之间的转化，例如d u b l i nc o r e 与u s m a r c ，d u b l i nc o r e 与e a d ，d u b l i nc o r e 与g i l s ；g i l s 与m a r c 和t e l ，h e a d e r 与m a r c ，f g d c 与m a r c 。也可利用一种中介格式对同一格式框架下的多种元数据格式进行转换，例如u n i v e r s e 项目利用( ；r s 格式进行各种m a r c 格式和其它记录格式的转换。格式映射转换准确、转换效率较 1 2数字图书馆中统一检索系统的研究与开发高。不过，这种方法在面对多种元数据格式并存的开放式环境中的应用效率明显受到限制。标准描述框架解决元数据互操作性的另一种思路是建立一个标准的资源描述框架，用这个框架来描述所有元数据格式，那么只要一个系统能够解析这个标准描述框架，就能解读相应的n e t a d a t a 格式实际上，x m l 和r d f 从不同角度起着类似的作用。 x m l 通过其标准的d t d 定义方式，允许所有能够解读x m l 语句的系统辨识用x m l d t d 定义的m e t a d a t a 格式，从而解决对不同格式的释读问题。 r d f 定义了由r e s o u r c e s 、p r o p e r t i e s 和s t a t e m e n t s 等三种对象组成的基本模型，其中r e s o u r c e s 和p r o p e r t i e s 关系类似于e r 模型，而s t a t e m e n t s 则对该关系进行具体描述。 r d f 通过这个抽象的数据模型为定义和使用元数据建立一个框架，元数据元素可看成其描述的资源的属性。进一步地，r d f 定义了标准s c h e m a ，规定了声明资源类型、声明相关属性及其语义的机制，以及定义属性与其它资源问关系的方法。另外，r d f 还规定了利用x m l n a m e s p a c e 方法调用已有定义规范的机制，数字对象方式建立包含元数据及其转换机制的数字对象可能从另一个角度解决元数据互操作性问题。c o r n e n f e d o r a 项目提出由内核( s t r u c t u r a lk e r n e l ) 和功能传播层( d i s s e m i n a t o rl a y e r ) 组成的复合数字对象。内核里，可以容纳以比特流形式存在的文献内容、描述该文献的元数据、以及对这个文献及元数据进行存取控制的有关数据。功能传播层，有主功能传播器( p r i m i t i r ed i s s e m i n a t o r ) 支持有关解构内核数据类型和对内核数据读取的服务功能，还可有内容类型传播器 ( c o n t e n t - t y p ed i s s e m i n a t o r s ) ，它们可内嵌元数据格式转换机制。例如，在一个数字对象的内核中存有m a r c 格式的元数据，在功能传播层装载有请求d u b l i n c o r e 格式及其转换服务的内容类型传播器。当数字对象使用者要求读取以d u b l i n c o r e 表示的元数据时，相应的内容类型传播器将通过网络请求存储有d u b l i nc o r e 及其转换服务程序的数字对象，然后将被请求数字对象中的m a r c 形式元数据转换为d u b l i nc o r e 形式，再输出给用户。第三章统一检索技术研究第三章统一检索

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（信号与信息处理专业论文）数字图书馆中统一检索系统的研究与开发.pdf

文档简介

温馨提示

最新文档

评论

（信号与信息处理专业论文）数字图书馆中统一检索系统的研究与开发.pdf

文档简介

温馨提示

最新文档

评论

相关文档