(教育技术学专业论文)基于soa的异构数据源统一检索系统的设计与实现.pdf_第1页
(教育技术学专业论文)基于soa的异构数据源统一检索系统的设计与实现.pdf_第2页
(教育技术学专业论文)基于soa的异构数据源统一检索系统的设计与实现.pdf_第3页
(教育技术学专业论文)基于soa的异构数据源统一检索系统的设计与实现.pdf_第4页
(教育技术学专业论文)基于soa的异构数据源统一检索系统的设计与实现.pdf_第5页
已阅读5页,还剩74页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 随着网络技术和通信技术的发展,用户越来越倾向于通过网络来查找自己所需 要的资源,这在一定程度上促进了数字图书馆和各种教育资源库的发展,针对各种 资源所开发的检索系统也随之增多。对于用户来说,需要频繁的登陆各个数据源获 取信息,消耗了大量的时间和精力。这就需要有一个统一的检索平台,能够集成各 个分布的异构数据源,提供统一的检索界面,以统一的格式展示不同数据源的信息。 面向服务的体系结构( s e n ,i c c o r i 锄t e d 删t e c t u ,s o i a ) 是一种新兴的粗粒 度、松耦合的软件架构模式。作为s o a 的实现技术之一,w e b 服务技术具有跨平 台、跨语言、可扩展性强等特点。基于w 曲服务的s o a 非常适合应用系统的集成 和跨平台数据通信等工作。 基于以上背景,本文首先对异构数据源统一检索系统的相关理论和技术作了简 要的阐述,接着采用面向服务的体系架构,提出了一个异构数据源统一检索系统架 构。为了规范和统一处理异构数据源的检索服务以及方便检索结果的统一展示,提 出了检索服务统一模型和元数据模型,详细阐述了统一检索算法、检索结果融合算 法和元数据更新算法,然后对于系统的功能、数据库结构、系统各部分之间的关系 以及系统的核心模块进行了详细的设计。最后,本文实现了原型系统,详细阐述了 各个模块的实现细节,包括用户管理、服务注册、检索请求处理、检索服务分发和 调用、检索结果融合、统一检索、元数据更新、服务管理以及数据源端检索服务开 发样例。 基于s c i a 的异构数据源统一检索系统结合元数据整合模式和中间件模式的优 点,采用边检索边充实本地元数据库的检索策略,同时能够保持元数据库与数据源 的同步,具有较高的检索效率。系统具有较高的集成能力,能够实现异构数据源检 索接口的透明集成,数据源可以“即插即用 ,具有跨平台、可扩展、可维护等优 点,具有较高的实用价值。 关键词:异构数据源;检索;元数据;s o a a b s t r a c t w i t l lt h ed e v e i o p m e n to f 球出m d d 【锄dc ( m m 谢c a 蛀o nt e c h o l o 西骼,啦;e 瑙m o 锄d m o r et 锄dt 0 丘1 1 dr e s o u r c m 舢g hn e t w 咄w l l i c hc a 璐镐n o to n l yt l l ei n c r e a s i n go f d i g i t a ll i b 谢e s 锄d 妣a 吐o n a lr 髓o u r c el i b 枷锱b u ta 1 s ot h ei n c r e 蕊n go f a 劬 s 、,s t 锨sc 0 珊e s p 伽d i n gt 0m ed i 西t a l 他s 伽l r c 铬1 1 1o r d e rt 0r e t r i c 、他也er e s o i l l r c e s1 坞贫s n e e d ,也e yh a v et 0l o g m 觚dl 0 9 0 u te a c hd a t as 伽e 丘铷u e n n y 砌c hc 0 l l s 哪鹳也e i r t i i i l e 锄de n 嗡rt 0 0m u c l l t os o l v e 也伪ep r o b l 锄s ,i ti sn c c e 鼹a r yt 0d e s i g nal l l l i 丘o d s e a r c hp l a t 如册w h i c hc o l l l d 证e g 豫t et h ed i s 臼曲u t e d 纰s o l m c e s ,s u p p l 如n gl 瑁e 岱w i m t h el l i l i f 0 ms e a r c hp a 霉r e s 孤l dd 髓瑚瞻i s l 哦血n gm es e a l l c | hr e s u l t st ou s e r s i nu n i f 孤f 0 衄a :t s e r ,i c e o e n t e da r c h i t e c t 珈i san e ws o r w a r ea r c l l i 妣t i i r ew k c hi sc o a r s e 罢乒咖 觚d1 0 0 s e l yc o u p l e d a so n eo ft l l et e c l l i l o l o g i e sw 量i i c hi 瑚【p l e m e n ts o a ,w e bs e r v i c eh a s l ec h a r a c t e r so fp l a t f 0 册一i l l d 印e 1 1 d 朗c e ,l 孤g u a g e i n d e p d e n c e ,戗p a i l s 戤1 咄e t c s o a 州c hi sb 弱e d w e bs e r y i c ei se 印e c i a 】l ya p p l i c a b l et 0s y s t e mi n t e g r a t i o n 锄d c r o s s - p l a t f o md a t ac o m m u n i c a t i o n s b 硒e do n 廿l ea b o v e 蛳sp a p e rf i r s ti 玎打o d u c 鼹m et l l 硎e sa n dt e c h n 0 1 0 西e sw l l i c h a r er e l a t e dt 0m el l l l i f i e ds e a r c hs 1 烙t 锄t h e n ,b a s e d0 ns o a ,i tb r i n g sf b r w a r dt l l e a r c h i t e c t u r co fh c t e r 0 2 衄e ( m sd a :t as o u r c eu n i 矗e ds e 盯c hs y s t e m t b 曲m d a r d i z e 锄dm a k e l l n i f o mp r o c c s 咖gt o 廿l es 伽r c hs e r v i c eo f h e t e r o g 雎e 0 璐d a l a u r c e sa n dt 0d i s p l a y 也e a r c hr e s u l t si n 证f o mf 0 瑚1 a t ,i tg i v 伪也el l n i f 0 m ls e a 砒s e n ,i c em o d e l 雒d 也e m e t a d a t am o d e l :b e s i d e si te la :b o r a t e so nt h ca l g c 啦也m so ft h el l i l i f i e ds e 鲫c h ,s e a r c h r e s u h s 如s i o na n dm e t a d a t au p d a t e t h e n ,也eh e t 锄目m e o u sd 【a t as o 删- c el l | 1 i 丘e d a r c h s y s t 锄b 勰e do ns o ai sd e s i g n e d i nd e t a i l ,i n c h l d i i l gt h ed c s i g n so f 也es y s t 锄 内n :t i s ,出出出a s e 咖l c t l l r e ,t h er e l a 位o n sb e t w e e nt h es 明栅m o d l i l e s 弛dt l l ek e y m o d 眦e s0 f t :h i ss y s t e m f i l l a l l x i ti m p l 翩嘲豳t h e 脚t y p es y s t 锄锄d 乱如o r a 枣瞄o nk y w t 0i i r l p l 翩且e n tf 0 re a c hm o d u l e ,i n c l u d i l l g 吐l e 硒l l 潲gm o d l l l e s :u s e rm 锄a 舭n e n t ,s e a r c h s e r v i c er e 西s t e r a 虹o n ,鲫c hr e q u e s tp r o c e s s i i l g ,s e a r c hs e 州c ed c l i v e 巧a n dc a l l i l l g ,a r c h r e s u l t s 向b i o n ,廿l e l i 矗e ds e a r c h ,m e t a d a t au p 诎e ,踺:习岫s e n 五c em 赳拾鲫c n j t a r i da s i m p l es 锄p l eo f s e a r c hw e bs e n ,i c ed e v e l o p i l l gf 0 rt 1 1 e 搬口o g e n 璐d a t as o u r c 懿 t h i ss y s t e mt a k e sa d v a n t a 星r co ft h em c t a d a t ai n t e 星即t i o np a t t e ma n dm e l i d m 蹦a 坞 p a n e ma n d 惦e st h es 啾e g yo f 酬c t l i n g 血e l o c a lm e t a d a l ad a t a b 弱e 、) l ,_ l l i l e 形t r i e v i n g i t 1 v e st h ep r o l b l e mo f m 妇gm em e t a d a :t a 出出出硒ek e e pi i ls t e p 、加t ht i l e 幽l as o u r c 豁s o 垴s 删r c he 伍c i e n c yi sh e i 曲既i tl 粥l l i g l l 缸e g r 撕c 印a b i l i t y 锄dc 姐a c :h i e v e 缸a n 印a 僦ti n t e 星,a t i o nt 0d a t a 跚i u r c e s a r c h 缸e r f 犯e s s oi tc a ns 俄毗锄y 讹跚i u r c e 勰1 0 n g 弱i t ss e a r c hs e r v i c ei sr e 西s t e r e d 1 i l i ss y s t 锄i sc r 0 鲻- p l a t f 0 眦,e x p a 璐i v e ,粗d e 觞yt om a i 渤i 1 1 ,s oi tb 硒k g hp r a c t i c a lv 甜u e k e yw o r d s :h c t e r o g 饥e o 璐d a t as 删旺e ;s e 鲫c h ;m 比i d a t a ;s o a i i 华中师范大学学位论文原创性声明和使用授权说明 原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师指导下,独立进行研究工作 所取得的研究成果。除文中已经标明引用的内容外,本论文不包含任何其他个人或 集体已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体,均已在 文中以明确方式标明。本声明的法律结果由本人承担。 作者签名:涨殇冽 日期:卅年月沙日 i 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:学校有权 保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借 阅。本人授权华中师范大学可以将本学位论文的全部或部分内容编入有关数据库进 行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。同时授权 中国科学技术信息研究所将本学位论文收录到中国学位论文全文数据库,并通 过网络向社会公众提供信息服务。 作者签名:彩墙涮 日期:v 唧年细日 导师签名: 日期:附万月。日 本人已经认真阅读“c a l i s 高校学位论文全文数据库发布章程弦,同意将本人的 学位论文提交“c a l i s 高校学位论文全文数据库 中全文发布,并可按“章程中的 规定享受相关权益。回童途塞握銮蜃溢厦;旦坐生;旦= 生;旦三生蕉查: 作者签名:彩珞堪 日期:训年月、日 导师签名: 日期矽咿矽月日 72 岛 磺士擎往丧- 蕞 五静疑靖i 辩g z 硅您g l 暴 1 绪论 1 1 课题来源 本课题来源于以下项目: “十一五国家科技支撑计划重大项目课题,数字教育公共服务示范工程,项 目编号:2 0 0 6 b 撇a 2 4 ; 教育部国家外国专家局高等学校学科创新引智计划,教育数字媒体与可视化创 新引智基地,项目编号:b 0 7 0 4 2 ; 教育部科技创新工程重大项目培育资金项目,国家知识服务体系支撑技术研究, 项目编号:7 0 5 0 3 8 ; 湖北省自然科学基金项目创新团队计划,知识服务理论及若干关键技术研究, 项目编号:2 0 0 6 a b c 0 1 1 。 1 2 课题研究背景和研究意义 近年来,随着网络技术和信息化建设的发展,包括高校图书馆和科研机构在内 的各个信息情报部门以及各大企业内部都在建设自己的数字化资源,其中数字图书 馆和教育资源库的建设尤为突出。 数字图书馆作为下一代网络资源管理的核心技术,近年来取得了长足的发展。 数字图书馆以图书馆及互联网上的各类数字资源或非数字资源为中心,为用户提供 方便、快捷的知识服务机制,为数字资源的存储和管理、数字资源的访问和服务提 供高效、实用的解决方案。数字图书馆包括各种电子期刊数据库、电子图书数据库、 自建的特色数据库等,它的建立,给全国各大中小图书馆增添了丰富的数字资源。 作为专为学习和教学而设计的结构化的资源库,教育资源库已成为教育信息化的重 要组成部分。目前各个学校纷纷建立自己的教育资源库,对于每个资源库都有自己 的资源检索系统。教育资源库建设中的数字教育资源包括文本、图像、音频、视频、 动画等多种格式,数字教育资源在种类和数量上基本能够满足用户的需求。实践证 明,教育资源库能够有效促进网络教学和教育信息化的发展。可以看出,数字图书 馆和教育资源库提供了丰富的数字资源,在一定程度上满足了用户的信息需求。但 是由于数字资源建设所采用的技术和标准不同,各个数据库都有自己独特的检索系 统,它们在数据结构、组织方式、检索方式、检索接口以及显示界面等方面都有差 异,结果是各个数据库之间缺乏必要的联系,造成了“信息孤岛 现象。对于用户 来说,用户在检索不同的数据库时不得不频繁的登陆和退出,造成使用上的不便和 时间精力的浪费,降低了用户的积极性。目前各图书馆和教育资源库的数字资源还 在不断增加,用户要获取全面而准确的资源信息更加不易。而且随着网络技术的发 展,图书馆和教育资源库的资源越来越分散,用户获取信息而必须承担的检索负担 正在日益增加。数字资源是数字图书馆和教育资源库建设的核心,而资源的整合则 是非常重要的环节。基于此,如何整合数字资源,使来自不同类型、不同格式的数 字资源实现无缝整合,提供一站式检索服务,就成为目前迫切需要解决的问题,此 问题已成为数字图书馆和教育信息化建设中的主要瓶颈问题,在数字图书馆和教育 资源库建设中越来越受到人们的关注。 异构数据源统一检索系统正是针对这一问题而出现的。它可以在一个统一的界 面和查询环境下并发的对不同数据源的信息统一进行查询,并对检索结果加以整合, 以统一的界面显示不同数据源的信息。异构数据源统一检索系统的业务处理范围应 该非常广泛,系统地使用范围包括各大高校、图书馆、信息情报部门、各大企业等, 所处理的信息资源种类涉及文本、图片、音视频、报表等多种形式,信息的承载形 式包括关系型数据库、文件系统等。其最终目的就是通过将不同类型、不同结构、 不同环境、不同用法的各种异构数据库纳入统一的检索平台,为用户提供一个统一 的资源应用平台和接口,让用户能够方便地使用各种资源,进行多方位应用。异构 数据源统一检索系统在一定程度上解决了分布式异构数据源的检索问题,它可以节 省用户获取资料的时间,提高查准率和查全率,将不同媒体不同类型的数据源以整 合的方式显示,实现数字资源的充分共享,在一定程度上也提高了数据库的利用率。 异构资源检索技术引起了国内外情报界和企业界的广泛关注,多种相关的解决 方案和整合检索系统也应运而生。虽然目前已有很多成型的统一检索系统,实现了 不同数字资源之间的沟通,然而都有其各自的特点和适用范围,普遍存在稳定性差、 可扩展性不强、不具备平台透明性、开发过程比较复杂等问题。面向服务的体系结 构( s e r v i c eo r i e n t e da r c h i t e c t u r e ,s o a ) 的出现,为应用系统的整合提供了全 新的解决方案,可以促进松散耦合的应用系统,能够方便的解决应用系统集成的困 难,有效解决“信息孤岛现象。作为s o a 的实现技术之一,w e b 服务技术具有完好 的封装性、松散耦合、使用规范协议、跨平台、高可集成性等特点,能够在异构数 据源统一检索领域得到广泛应用。将s o a 设计模式和w e b 服务技术应用于异构数据源 统一检索系统,能够实现系统跨网络、跨平台数据通信以及系统间灵活集成。因此, 基于s o a 的异构数据源统一检索具有实现简单、可跨平台、跨语言及较强的扩展性 等特点,为数字资源的整合利用提供了全新的解决方案,相信在数字资源的建设中 2 具有广阔的前景和巨大的应用价值。 1 3 国内外研究现状 1 3 1 国内研究现状 国内对异构数据源统一检索技术的研究虽然起步比较晚,但发展较快。已有的 主要研究项目n 1 有:国家8 6 3 数据库重大专项课题“基于帆的数据集成、共享与 交换“,国家8 6 3 高技术研究发展计划计算机软硬件主题“支持w c bs e r v i c e 的数据 集成和中间件 ,国家9 7 3 重点基础研究发展规划项目“万维网上的数据集成、数 据仓储及知识发现的有效算法与软件系统 等等。通过这些专项课题的研究,积累 了大量的关于异构数据源共享的科研和开发经验,为异构数据源统一检索的研究和 开发提供了很好的理论和技术支持。近几年,越来越多的研究机构和个人开始研究 和开发异构数据源统一检索系统,并且取得了一定的成果。相关学术研究有: 华中科技大学王亮、郭一平乜1 在“异构电子资源统一检索协议一文中,从制 定标准化协议入手,就解决大规模分布式异构数据库的统一检索的问题提出了一个 有效的方法。该协议首先分析现有的各种元数据标准和数据库,给出了一个标准化 检索服务,各个数据库均可依据此标准服务发布统一的检索服务。然后对现有的 咖i 标准进行了一定的扩展,提出了一种发现和选择信息检索服务的方法。另外文 中提到信息融合问题仍然是一个亟待解决的关键问题。 北京交通大学潘晓玲嘲在其2 0 0 6 年硕士学位论文“数字图书馆非标准数据资源 整合检索系统的研究与实现 中,给出了基于网页代理检索模式的非标准数据资源 整合检索系统的实现模型,解决了非标准数据资源统一检索的问题,并将研究成果 应用在对维普科技期刊库等数据资源的整合检索过程中,初步实现了对非标准数据 资源的整合检索服务。基于网页代理检索模式通过模拟用户请求,到数据源的网站 上提交查询信息,然后通过结果分析器解析返回的查询页面,进行元数据信息的抽 取,最后把获取的整合信息返回给用户。这一模式通常对只提供有限的元数据或极 少提供标准接口的数据源比较适合。文中最后提到系统整体的健壮性、扩展性与执 行效率有待提高,性能有待优化。 西安电子科技大学李海军在其2 0 0 5 年硕士学位论文“跨库检索系统的研究与 开发 中,通过对跨库检索系统可以采用的紧耦合的三种集成技术,松耦合的h t t p 协议和w e bs e r v i c e s 进行分析比较,得出采用m t p 协议来实现系统,结合西安电 子科技大学图书馆的现状,基于m c 模式设计开发了该校图书馆的跨库检索系统。 该系统采用的检索模式是基于网页代理的检索模式。文中最后提到该系统没有采用 3 磺士擘谊螽交 m 脚e j r s1 堪e s i 爵 较好的m v c 实现框架,不具备通用性,数据的查重处理有待进一步研究。 西安电子科技大学付红帜网在其2 0 0 7 年硕士学位论文“集成检索系统的研究与 开发 中,结合学校图书馆资源的现状,采用h t t p 协议、虚拟集成模式和m v c 模 型,对电子图书资源和馆藏书目数据库进行检索集成。该系统采用网页代理的检索 模式,对检索结果的网页内容进行分析,提取元数据存入本地数据表。该系统也提 出了自己的检索结果去重的方法。对于每一次用户检索,该系统实际上进行了两次 检索:远程页面检索和本地数据库检索。系统没有采用较好的m v c 实现框架,不具 备通用性。 南京理工大学魏洁嘲在其2 0 0 6 年硕士学位论文“基于w e bs e r v i c e s 的异构数 据源统一检索中,在分析仿真资源库需求背景和研究当前异构数据源统一检索技 术的基础上,采用w e b 服务技术设计了一个异构数据源统一检索系统框架。分析了 基于w e b 服务的异构数据源统一检索的组成结构和各部分的主要功能,针对检索服 务分发和结果融合提出了检索服务统一模型、基于x m l 的结果记录元数据模型,以 及相应的服务分解和结果融合算法,并给出了原型系统的具体实现。该系统的主要 特点是:利用w e b 服务实现异构数据源检索接口的透明集成;基于) 眦统一来自各 数据检索源返回的异构数据记录。 北京机械工业学院端木瑜订3 在其2 0 0 6 年硕士学位论文“基于数字图书馆的异构 资源检索中,设计并实现了一个基于z 3 9 5 0 的异构资源检索系统,能够检索基 于z 3 9 5 0 标准协议的资源库。该系统的设计和应用主要针对馆藏书目数据库的统 一检索,而且要求各被检索的资源库必须基于z 3 9 5 0 标准协议,对于不遵守该标 准协议的资源库的跨库检索未进一步探讨。因为该系统主要针对馆藏书目数据库, 在查询结果的处理中给出的查询结果去重的方法也仅仅是对于书目数据而言的。 华东师范大学钱大君、吴健平嘲等在“基于元数据和w e bs e r v i c e 的分布式异 构数据共享平台的体系与实现力一文中,提出了一种基于元数据和w e bs e r v i c e 的 分布式异构数据共享技术方案,并将其应用于上海市资源与环境科学数据共享平 台。该方案的主要思想是:设计一个元数据库用来存放分布式异构数据元数据信息, 然后由分布式异构数据的数据提供部门进行元数据的采集,为实现分布式异构数据 共享提供前提。各分布式异构数据提供w e b 服务,根据请求参数对相应数据进行处 理。这样,用户查询时,可以直接检索本地的元数据库,将不同部门的元数据信息 展现给用户。用户在下载文件时,跟据元数据信息参数的不同调用不同的w e b 服务, w e b 服务返回服务处理后的压缩文件u r l 地址,从而实现分布式异构数据的共享。 该方案的关键在于元数据的注册,如何进行元数据注册、以及如何保持元数据库中 4 磋士譬往论文 划脚e 辩s r 联e g i g 的元数据与分布式异构数据库中的元数据的同步和更新,文中没有涉及。另外,文 中最后也提到了元数据的标准的制定相对困难,有待进一步研究和解决。 各科研机构和高校也相继设计和开发了自己的异构数据源统一检索系统,目前 投入使用和测试的异构数据源统一检索系统有嘲:c a l i s 统一检索系统,清华大学的 同方异构统一检索平台,华中科技大学的u n i o n s e a r c h 统一检索平台,南京大学图 书馆网络数据库一站式检索系统,西安交通大学的跨库检索系统,北京大学数字图 书馆资源统一检索平台,中国科学院文献情报中心开发的集成检索系统,上海图书 馆上海科学技术情报研究所的数字资源服务平台,重庆尚唯信息技术有限公司开发 的尚唯异构资源统一检索平台,江苏汇文一站式检索平台,t r s 资源整合门户,国 家科学数字图书馆跨库检索系统,上海交大跨数据库检索系统等等。 1 3 2 国外研究现状 国外开展多数据源集成检索系统的研究比较早,主要应用于数字图书馆领域, 已提出多种解决方案并已开发出多种异构数据源统一检索系统n0 | 。如: 比利时根特( c h e n t ) 大学的赫佰特( h e r b e r t ,v a nd es o m p e l ) u u 等人在d l i b m a g a n i n e 杂志上发表的“复合图书馆中的参考链接2 :s f x ,一种基本的链接解决方 案中,提出了在o p e n u r l 框架下的数字资源参考链接的解决方案,并开发了s f x 链 接服务器软件。由于s f x 全面考虑了数字资源的整合方案,目前全球许多机构采用 了s f x 链接技术。 美国新墨西哥州洛斯阿拉莫斯国家实验室研究图书馆( l o sa l 锄o sn a t i o n a l l a b o r a t o r yr e s e a r c hl i b r a r y ,l a n lr l ) 开发的f 1 a s h p o i n t n 削,目前可以统一检 索包括网络数据库、图书馆目录、电子杂志在内的1 4 个数据源;美国国立医学图书 馆( n l m ) 下属的李斯特希尔国立生物医学交流中心( l i s t e rh i1 ln a t i o n a lc e n t e r f o rb i o m e d i c a lc 咖u n i c a t i o n s ,l h n c b c ) 研发的跨库检索系统n l mg a t e w a y u 引, 是一个允许用户同时对位于n l m 内的多个检索系统进行搜索的系统,它允许具有n u l 服务的用户从一个w e b 接口进行搜索,对n l m 内的信息资源或数据库提供一站式检 索,目前可以跨库检索2 3 个数据源;o c l cr e s e a r c h ( o r ) 研发的o c l cs i t e s e a r c h u 铂 开放源代码项目为在w w w 环境下管理分布式图书馆信息资源提供了一个综合式的解 决方案,它可以整合电子资源和服务到一个w e b 接口下,提供对资源的灵活访问,可 以建立独立的数据库。另外还有美国加利福尼亚大学的数字图书馆开发的跨库检索 系统s e a r c h l i g h t ,国立墨西哥大学细胞生理学研究所开发的h e 瑚e s ,美国得克萨 斯保健科学中心大学( t h eu n i v e r s i t yo ft e x a sh e a l t hs c i e n c ec e n t e r ) 医学系 临床情报学教研室主任r b a d g e t t 等人开发的s 删s e a r c h 跨库检索系统,美国俄勒冈 5 卅立大学( 0 r e g o ns t a t eu n i v e r s i t y ) 图书馆开发的开源软件l i b r a r y f i n d 跨库检 索软件,爱荷华州大学研究开发的n d u s ( i n t e l l i g e n t d a t au n d e r s t a n d i n gs y s t e m ) 系统,英国曼彻斯特研究开发的t a 姬i s ( t h et r a n s p a r e n ta c c e s st ol l u l t i p l e b i o i n f 0 瑚a t i c si n f o 硼a t i o ns y s t e m ) 系统等等。 此外还有一些软件生产厂商开发了商业化的异构数据源统一检索系统n 司。如 w 曲f e a t 公司的w e b f e a t ,f r e t w e l l d o 帅i n g 公司的z p o r t a l ,e x l i b r i s 公司的 m e t a l i b ,c o p e r n i c 公司的a g g r e g a t o r 以及e n d e a v o r 公司的e n c 唧a s s 等。 1 3 3 国内外现状总结 通过对国内外研究现状的分析和总结可以看出,统一检索的主要实现模式主要 有元数据整合模式、中间件模式、网页搜索代理模式。相比较而言,国外对于统一 检索的研究更加注重检索协议的研究和应用,开发的系统已相对成熟。国内对于统 检索的研究虽然也取得了一定成果,但在研究和应用的深度上尚有一定差距。另 外,s o a 的优势为解决统一检索提供了新的解决方案,采用s o a 和w e bs e r v i c e 技术 实现统一检索将成为今后统一检索研究和开发的新方向。总的来说,目前国内外的 统一检索普遍存在如下问题:系统稳定性差,不易扩展;检索时间过长,效率低下; 所采用的检索协议不一;很多系统未能对检索结果进行合并、去重等。 1 4 课题研究目标和研究内容 异构数据源统一检索系统旨在对各异构数据源中的资源进行整合,能够统一检 索各异构数据源并且将检索结果统一展示给用户,以提高资源的利用率。本课题的 研究目标是在研究已有异构数据源统一检索技术的基础上,采用s o a 设计模式和w e b 服务技术,设计和实现异构数据源统一检索系统,该系统能够方便集成各异构数据 源,实现数据源的“即插即用 。 本课题的研究内容有:基于耽bs e r v i c e 的不同数据源的互联互通;统一检索 算法;检索结果融合算法;元数据更新算法;在这些研究和实践的基础上设计和实 现基于s o a 的异构数据源统一检索系统。 1 5 论文安排 全文共分七章。 第一章是前言,说明了本课题的来源,介绍了异构数据源统一检索的研究背景 和研究意义、异构数据源统一检索在国内外研究和发展的现状、课题研究目标和主 要研究内容、以及论文安排。 6 第二章主要介绍了相关理论和技术基础,包括d c 元数据标准、w e b 服务技术、 s o a 、以及j 2 e e 框架技术j s f 、s p r i n g 、h i b e r n a t e 。 第三章给出了基于s o a 的异构数据源统一检索系统架构。本章首先说明了统一 检索的基本思路,然后介绍了异构数据源统一检索系统常用的三种实现模式以及本 系统将采用的模式,在此基础之上给出了基于s o a 的异构数据源统一检索系统拓扑 结构以及系统架构。 第四章给出了系统的相关规范模型和关键算法,包括元数据模型、检索服务统 一模型、统一检索算法、检索结果融合算法以及元数据更新算法。 第五章给出了基于s o a 的异构数据源统一检索系统的设计,包括系统功能设计、 数据库逻辑结构设计、系统类图、服务注册模块设计、检索结果融合模块设计、统 一检索模块设计以及元数据更新模块设计。 第六章给出了基于s o a 的异构数据源统一检索系统的实现,分模块说明了每个 模块的具体实现细节,包括用户管理模块、服务注册模块、检索服务分发和调用模 块、检索结果融合模块、检索模块、元数据更新模块、服务管理模块,最后给出了 一个数据源端w e b 服务开发样例。 第七章总结了论文所做的工作,指出了系统的特点和存在的不足,提出了今后 需要改进的方向。 7 j 鹰士攀往论文 翻强震i 嚣骚,s 豫酪r 骞 相关理论与技术基础 2 1d c 元数据标准 由于各异构数据源的资源类型多种多样,所采用的元数据标准也可能各不相 同。统一检索系统要实现对检索信息的统一展示,需遵循一个统一的元数据标准, 以便能够实现各异构数据源端元数据到统一检索系统元数据的映射。 元数据被称为关于数据的数据,用来描述数据的特征和属性。元数据最基本的 用途是对数据进行定位和管理,从而实现查询、阅读、交换和共享。元数据不仅为 各种形态的数字化资源提供规范的描述和检索工具,而且为分布的由多种数字化资 源有机构成的信息系统提供整合的工具和纽带。因此,在异构数据源统一检索系统 中,元数据是基础的技术支持。 d c ( d u b l i nc o r e ,都柏林核心集元素) h 1 是1 9 9 5 年在都柏林召开的第一次元 数据会议上被提出的。它的目的是生成一个简单的、并且在网络中为各个用户团体 所接受的标准化元数据元素集。d c 能较好地解决数字资源的发现、控制和管理问题。 d c 的简练、易于理解、扩展性及能与其它元数据形式兼容等特性,使它成为了一个 良好的网络信息资源描述元数据集。 d c 有简单d c 和复杂d c 之分,简单d c 指的是d c 的1 5 个核心元素,如标题、 主题等。复杂d c 则是在简单d c 的基础上引进修饰词的概念,来进一步明确元数据 的特性。d c 元数据格式的主要功能侧重于信息资源的著述或描述,而非信息资源的 评价。简单d c 的1 5 个核心元素可以分为资源内容、知识产权和外部属性三部分描 述( 见表2 1 ) 。 资源内容知识产权外部属性 t i t l ec r e a t o rd a t e s u b j e c t p u b l i s h e r t y p e d e s c r i p ti o n c l d n t r i b u t o rf o r m a t s o u r c e r i g h t s i d e n t i f i e r l a n g u a g e r e l a ti o n c o v e r a g e 表2 1d c 核心元素 对各部分内容的含义简述如下: ( 1 ) 资源内容描述部分 8 标题( t i t l e ) :资源的名称。 主题( s u b j e c t ) :揭示资源主题内容的关键词。 描述( d e s c r i p t i o n ) :资源内容的文本描述。 来源( s 0 u r c e ) :二次资源的出处信息。 语言( l a n g u a g e ) :资源对象使用的语言类型。 关联( r e l a t i o n ) :二次资源及其与当前资源关系的标识。该元素允许在相关 资源和资源描述间建立关联。例如再编目( i s v e r s i o n o f ) 、翻译( i s b a s e d o n ) 、节选 自( i s p a r t o f ) 、格式转换自( i s f o r 腿t o f ) 等。 覆盖范围( c o v e r a g e ) :资源内容的空间或时间方面的特征。空间范围指物理 区域,如经度纬度、规范的地名等;时间范围指资源内容( 时间段) 而非资源产生的 时间( 时间点) 。 ( 2 ) 知识产权描述部分 作者( c r e a t o r ) :创造资源内容的个人或机构。 出版者( p u b l i s h e r ) :负责使资源成为当前形态的责任者,如出版社、大学、 公司实体等。 合作者( c o n t r i b u t o r ) :没有在c r e a t o r 元素中列出的对资源的知识内容具有 重要贡献的个人或组织,其贡献次于作者( 如编辑、誊写员、插图作者等) 。 权限( r i g h t s ) :拥有资源权利的信息。 ( 3 ) 外部属性描述部分 日期( d a t e ) :指与创建或使资源成为可利用状态相关的日期。 类型( t y p e ) :资源所属的类别。 格式( f o r 腮t ) :资源的数据格式,如文本、图像、音频、视频等。 识别符( i d e n t i f i e r ) :唯一标识资源的字符串或数字。 目前,d c 元数据已成为描述各种领域的数字资源的元数据标准,也日益成为国 际通用的适用于资源发现系统的元数据标准。d c 由于其简易性,降低了描述信息的 成本并增强了信息的互通性。本系统的元数据模型将以d c 元数据为基础来构建。 2 2 相关技术基础 2 2 1w 曲服务技术 目前,大多数异构数据源检索系统在编程语言、运行平台、通信协议及数据交 换格式等方面都存在差异,导致很难实现真正意义上的异构数据源统一检索。因此, 如何有效解决语言差异、平台差异、协议差异、数据差异成为解决网络环境下异构 9 磺壬攀锤论文 翻巍甏f 5 辩s 嘣e g l s 数据源统一检索问题的关键。 ( 1 ) w e b 服务概述 w e b 服务作为一个崭新的分布式计算模型,正在网络中得到广泛的发展和应用。 w e b 服务是完全基于x m l ( 可扩展标记语言) 、x s d ( ) n 也s c h e 腿) 等独立于平台、 独立于软件供应商的标准,是创建可互操作的、分布式应用程序的新平台。w e b 服 务提供一个与编程语言无关、与操作系统无关、与运行环境无关的平台,通过网络 实现不同应用系统之间的整合和远程过程调用。对于w e b 服务的理解可以从多个方 面进行简c 瑚: w e b 服务是一套标准,定义了应用程序如何在w e b 上搭建可互操作的分布 式应用程序的平台,实现跨平台的互操作性。 w e b 服务是一组应用程序。它通过w e b 向外界提供了如何调用自身功能或 服务的说明。这可以让任何人从任何地方使用它所提供的这些服务,实现 信息资源共享。 w e b 服务是一组功能集合。w e b 服务具有自包含、自描述、以及模块化的特 点,可以通过u r l 定位并自动将信息返回需要它的客户端。 w e b 服务是一个服务平台。w e b 服务是集部署、发现、安全、认证等功能为 一体的服务平台,并具有一系列相关的技术标准。 w e b 服务是指一套软件工具,用来将已有的应用进行拼装组合,实现信息 共享和系统集成。 通过从不同方面对w e b 服务的认识和理解,可以看出w e b 服务的主要目标是通 过使用统一的标准,能够统一封装数据、消息、行为等,在无需考虑具体应用环境 下让不同系统跨越平台,彼此兼容,进行无缝通信和数据共享n 刀。这决定了b 服 务技术将在异构环境得到广泛的应用,是解决异构数据源统一检索问题的有效工 具。 ( 2 ) w e b 服务的协议 w e b 服务的最大特点是跨平台的通用性。w e b 服务通过一系列的标准和协议n 叭啪 来保证w e b 服务的标准化和通用性。 捌l 是w e b 服务数据交换和描述的标准。) 咖。是一种被广泛接受的、用于描述 数据和交换数据的一种描述语言,已成为开放环境下描述数据的标准技术。w e b 服 务中的全部规范、技术都是以x i j l 为底层的核心和架构基础,w e b 服务的调用( s o a p 技术) 、w e b 服务的描述( w s d l 技术) 、w e b 服务的发现( u d d i 技术) 都使用x m l 作 为信息描述和交换的标准手段引。 1 0 s o a p ( 简单对象访问协议) 是在应用程序和w e b 服务之间传输消息和进行r p c 通信的协议。s o a p 不针对某一具体的编程语言、产品或者硬件平台,所以任何应用 程序都可以使用它。s o a p 以x m l 格式实现信息交换,一个s o a p 消息实际上是一个 儿文档,它用来传输其他的x 儿文档以及路由处理、安全性、事务处理等服务的 相关信息。s o a p 包括三个部分:s o a p 封装( e n v e l o p ) 、s o a p 编码规则( e n c o d i n g r u l e s ) 和s o a pr p c 表示( r p cr e ”e s e n t a t i o n ) 。s o a p 可以简单的理解为 瑚l + r p c + h t t p ,即采用h t t p 作为底层通讯协议,采用r p c 作为统一调用的途径, 采用x 札作为数据传递的格式。s o a p 为应用程序和w e b 服务提供了一种简单而便捷 的通讯手段。 w s d l ( w e b 服务描述语言) 是一个基于x m l 格式的定义服务的实现和接口的基 础标准。w s d l 提供了对w e b 服务具体实现的基本描述,包括:w e b 服务提供的操作, w e b 服务的数据格式和协议信息,w e b 服务地址信息等。服务提供者通过服务描述 才能将w e b 服务调用的相关信息传送到服务请求者,因此,服务描述是实现w e b 服 务松散架构的关键。 u 叻i ( 统一描述、发现和集成) 是一套基于w e b 的、分布式的、为w e b 服务提供 信息注册的标准规范。它支持w e b 服务的创建、描述、发现和调用,为建立动态w e b 服务机制提供了规范。u d d i 定义了一个基于s o a p 的w e b 服务,用于定位w s d l 描述的 w e b 服务。w e b 服务描述信息需要通过u d d i 规范进行发布和查找。通俗地讲,u d d i 可 以理解为w e b 服务的目录。 ( 3 ) w e b 服务的体系结构 w e b 服务的体系结构是基于三种角色( 服务提供者、服务注册中心和服务请求 者) 之间的交互。交互涉及发布、查找和绑定操作n 9 1 嘲。服务提供者定义w e b 服务 的服务描述,并将它发布到服务请求者或服务注册中心。服务请求者通过在本地或 服务注册中心查找服务描述,然后通过服务描述和服务提供者进行绑定,实现w e b 服务调用或进行互操作。图2 1 显示了这些操作、角色以及它们之间的交互口妇嘲。 图2 1h b 服务体系结构模型图 ( 4 ) a 】【i s 2 介绍 a p a c h ea x i s 是较受欢迎的w e bs e r v i c e 开发平台之一,它是a p a c h ew e b s e r v i c e 的子项目,其核心是一个s o a p 处理器,用于开发包括客户端、服务器端、 s o a pg a t e 髓y 等各种应用。a x i s 2 是最新一代的a p a c h ea x is 。a x i s 2 基于新的体系 结构进行了全新编写,与上一代的a x i s 相比,a x i s 2 具有更强的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论