基于OAI和METS远程收集数据的课件_第1页
基于OAI和METS远程收集数据的课件_第2页
基于OAI和METS远程收集数据的课件_第3页
基于OAI和METS远程收集数据的课件_第4页
基于OAI和METS远程收集数据的课件_第5页
已阅读5页,还剩59页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于OAI和METS远程收集数据的方法和流程

赵阳zhaoyang@清华大学图书馆学位论文项目组2007.09.27南京基于OAI和METS远程收集数据的课件1主要内容:“CALIS学位论文全文数据库”服务体系架构基于OAI和METS数据收割模式基于OAI和METS数据收割实施步骤NOW主要内容:“CALIS学位论文全文数据库”服务体系架构NOW2“CALIS学位论文数据库”服务体系架构参建馆本地系统CALIS数字图书馆门户计费中心认证中心资源调度中心CALIS-OID解析中心纸本扫描加工CALIS中心学位论文提交与发布系统DRM阅读器读者DRM数字版权保护浏览器CALIS高校学位论文数据库分中心“CALIS学位论文数据库”服务体系架构参建馆CALIS数3CALIS学位论文参建馆本地系统涉及到三个层面:本馆层面满足提交、审核、编目、标准化、回溯、发布、检索、管理、存储等需求符合相关标准、规范开放架构CALIS子项目(分中心)层面纳入“CALIS高校学位论文数据库”服务体系CALIS中心层面纳入“CALIS高等教育数字图书馆”服务体系CALIS学位论文参建馆本地系统涉及到三个层面:本馆层面4学位论文参建馆本地系统结构图Web检索全文检索引擎专业编目文档标准化论文回溯发布管理论文元数据库论文(PDF)对象库服务接口层应用层存储层学位论文提交与发布系统安全通信层DRM版权保护系统(PDF)纸本扫描加工系统MQ服务器METS接口模块OAI-DP服务器认证接口计费接口CLRCOpenURL接口对象安全访问接口CALIS-OID本地解析学位论文参建馆本地系统结构图12345678读者浏览器DRM阅读器Web审核Web提交学位论文参建馆本地系统结构图Web全文专业文档论文发布论文元5参建馆本地系统与CALIS子项目中心的互操作关系服务接口层安全通信层MQ服务器METS接口模块OAI收割服务器CALIS-OID访问数字对象请求中心论文元数据仓库论文(前16页)对象仓库仓储层服务接口层应用层存储层学位论文提交与发布系统安全通信层DRM数字版权保护系统MQ服务器METS接口模块OAI-DP服务器认证接口计费接口CLRCOpenURL接口对象安全访问接口CALIS-OID本地解析12345678参建馆CALIS学位论文分中心参建馆本地系统与CALIS子项目中心的互操作关系服务安全MQ6学位论文提交与发布系统与CALIS中心的互操作关系CALIS中心CALIS-OID解析中心认证中心计费中心资源调度中心CALIS数字图书馆服务门户服务接口层应用层存储层学位论文提交与发布系统安全通信层DRM数字版权保护系统MQ服务器METS接口模块OAI-DP服务器认证接口计费接口CLRCOpenURL接口对象安全访问接口CALIS-OID本地解析12345678参建馆学位论文提交与发布系统与CALIS中心的互操作关系CALIS7本地系统升级的主要接口OAI和METS数据收割接口,实现元数据和对象数据的收集;CALIS_OID解析接口,实现数字对象的解析和获取;数字对象安全下载接口,实现数字对象的安全下载;CALISODL接口,实现CADLIS各系统之间的统一检索;CADLIS认证/计费接口,实现认证计费。本地系统升级的主要接口OAI和METS数据收割接口,实现元数8本地系统升级的主要接口本地系统升级的主要接口9主要内容:“CALIS学位论文全文数据库”服务体系架构基于OAI和METS数据收割模式基于OAI和METS数据收割实施步骤NOW主要内容:“CALIS学位论文全文数据库”服务体系架构NOW10基于OAI和METS数据收割模式模式一:OAI-DP/METS-DP+MQ联动模式二:仅采用OAI-DP基于OAI和METS数据收割模式模式一:11模式一:OAI-DP/METS-DP+MQ联动

---收割方式(1)实时自动收割元数据通过OAI-DP发布。OAI-DP所发布出来的OAIRecord采用“CALISOAIRecordV1.0”数据格式;本地系统的数字对象通过METS-DP+MQ发布。METS-DP负责将数字对象封装成METS数据包,然后通过MQ服务器发布出去,数据格式记为“CALISMETSRecordV1.0”;元数据和数字对象之间的关系通过OAIRecord中的CALIS_OBJ:objInfo子元素所包含的MetaID进行关联;学位论文中心系统接收到

OAI-DP或METS-DP+MQ请求,自动收割参建馆本地系统中的数据;模式一:OAI-DP/METS-DP+MQ联动

12模式一:OAI-DP/METS-DP+MQ联动

---收割方式(2)手动收割用OAI数据导出工具将OAI-DP中的元数据导出成为包含OAIRecord数据的XML文件,该文件称为OAI记录文件,数据格式为“CALISOAIRecordV1.0”;用METS数据导出工具将METS-DP中的数字对象数据导出成为包含METSRecord数据的XML文件,该文件称为METS记录文件,数据格式记为“CALISMETSRecordV1.0”;本地系统管理员手工将上述两类文件通过FTP上传至CALIS学位论文中心,由其完成数据汇总、统计工作;

模式一:OAI-DP/METS-DP+MQ联动

13模式一:OAI-DP/METS-DP+MQ联动

---数据格式(元数据)CALISRECORDV1.0用于维护元数据与METS一致的四项信息模式一:OAI-DP/METS-DP+MQ联动

14模式一:OAI-DP/METS-DP+MQ联动

---数据格式(对象数据)模式一:OAI-DP/METS-DP+MQ联动

15模式一:OAI-DP/METS-DP+MQ联动

---实际收割测试2006.03月---2006.07月学位论文和特色库项目验收前,采用模式一方式收割学位论文本地系统在部分参建馆完成升级、数据迁移和发布工作;在厂商和参建馆配合下,CALIS技术中心和学位论文子项目组共同进行数据收割;参加测试的学校:TPI:中国人民大学,中国农业大学TRS:清华大学北大方正:北京大学杭州麦达:北京大学医学院模式一:OAI-DP/METS-DP+MQ联动

16模式一:OAI-DP/METS-DP+MQ联动

---实际收割测试收割结果实时自动收割:本地系统和数据都存在问题中心系统对本地系统的自动收割难以有效进行手工收割:本地系统能顺利提交数据但所上传的数据仍存在问题本地系统存在的主要问题系统bugs数据问题模式一:OAI-DP/METS-DP+MQ联动

17模式一:OAI-DP/METS-DP+MQ联动

---实际收割测试(系统bugs)OAI-DP本身的bugs比较容易发现。但本地管理员仍缺乏有效易用的工具;METS-DP本身的bug问题以及MQ配置问题难以由本地管理员自行发现;OAI-DP+METS-DP+MQ联动问题厂商技术人员和本地管理员都难以测试和发现;其他问题著录和导入工具不完备;本地DP所在机器软硬件系统的不稳定;DP本身的稳定性和可靠性问题;METS包传输丢包问题;模式一:OAI-DP/METS-DP+MQ联动

18

模式一:OAI-DP/METS-DP+MQ联动

---实际收割测试(数据问题)数据不符合schema导出的OAI和METS包文件,其数据不符合schema数据必备性问题很多数据项缺乏,不符合子项目组的数据规范性要求CALIS元数据schema本身不支持必备性机制,而厂商本地系统也未能提供相应的必备性检测功能数据内容不一致问题(尤其是OAI记录和METS记录之间的不一致)OAI记录中的about内容不合逻辑如:有时间戳或类型而没有calis-oid;有calis-oid而没有时间戳。元数据时间戳应该不小于数字对象时间戳;更新数字对象时应同时更新元数据时间戳,才能保证联动收割时对这条记录重收。METS包中的时间戳应与OAI-about中的时间戳一致等。数据的语义问题张冠李戴

模式一:OAI-DP/METS-DP+MQ联动

19

模式一:OAI-DP/METS-DP+MQ联动

---实际收割测试(问题原因)本地系统的著录工具问题单条入库的元数据和数字对象在必备性、一致性等方面存在问题。本地系统的批量导入工具问题批量入库的元数据和数字对象在必备性、一致性等方面存在问题;批量导入的数据的时间戳都为同一个时间点,这给OAI-DP带来很大压力。统计结果的一致性问题本地OAI-DP、METS-DP实际发布的记录数与本地系统的数据库查询模块提供的记录数不一致,给管理员造成困惑。

——由内部检索机制不一致因素所造成。本地系统缺乏有效的“数据质量检测工具/模块”在OAI-DP和METS-DP发布之前,系统本身对数据没有进行这种质量检测(包括必备性、一致性等)。管理员无法自行发现上面的“数据问题”。

模式一:OAI-DP/METS-DP+MQ联动

20模式二:仅采用OAI-DP收割

为解决模式一收割中的系统和数据问题,CALIS管理中心于2006年10月招集厂商开会,提出模式二;厂商依据规范要求,改进和完善系统;模式二:收割方式实时自动收割手动收割模式二:仅采用OAI-DP收割21模式二:仅采用OAI-DP收割

---收割方式(1)实时自动收割元数据和数字对象仅通过OAI-DP发布。发布出来的OAIRecord采用“CALISOAIRecordV2.0”数据格式;学位论文中心系统接收到OAI-DP或METS-DP+MQ请求,自动收割参建馆本地系统中的数据;模式二:仅采用OAI-DP收割22手动收割用新的OAI数据导出工具将本地系统中的元数据和数字对象合并为一条OAI记录导出为OAI记录文件。该文件中的数据格式为“CALISOAIRecordV2.0”;METS-DP中的数字对象数据无需再单独导出;本地系统管理员手工将上述两类文件通过FTP上传至CALIS学位论文中心,由其完成数据汇总、统计工作;

模式二:仅采用OAI-DP收割

---收割方式(2)手动收割模式二:仅采用OAI-DP收割23模式二:仅采用OAI-DP收割

---数据格式CALISRecordV1CALISRecordV2模式二:仅采用OAI-DP收割

24模式二:仅采用OAI-DP收割

---数据格式CALISRecordV2,无Mets模式二:仅采用OAI-DP收割

25模式二:仅采用OAI-DP收割

---实际收割测试2007.09月参加测试的学校:TPI:中国农业大学TRS:清华大学北大方正:北京大学杭州麦达:北京大学医学院模式二:仅采用OAI-DP收割

26比较:模式一与模式二

----在系统部署和维护方面类型模式1模式2说明部署内容部署OAI-DP服务器部署METS-DP服务器部署MQ服务器只需部署OAI-DP服务器前者部署、培训、管理成本都较大数据校验和错误排查OAI文件METS文件OAI文件和METS文件对应关系(如相关文件个数一致、ID一致等)OAI文件(可含METS数据)对两类文件之间的对应关系的问题,模式1排查工作量很大,排查难度很大系统故障排查OAI-DP服务器METS-DP服务器、MQ服务器以上三个系统之间的联动OAI-DP服务器前者工作量和难度(尤其是系统之间联动)都很大厂商技术支持工作量较大,当出现复杂问题时,需厂商和CALIS全力配合才能发现大为降低比较:模式一与模式二

----在系统部署27比较:模式一与模式二

----优缺点比较类型模式1模式2优点OAI-DP无需考虑大容量数据记录的传输问题,因此,模式1对OAI-DP在性能和超时处理等方面的要求较低;只需部署与OAI-DP,无需部署METS-DP和MQ服务器;OAI记录和METS记录不再分离,一般不会出现一致性问题;系统出现故障或数据出现问题时,管理员利用相关工具能够自己检测出来;缺点需要部署METS-DP和MQ服务器,需要这两个服务器与OAI-DP服务器联动;OAI记录和METS记录之间的一致性较难维护;特别是:当上述三个服务器联动出现故障或者当OAI记录和METS记录之间出现不一致性时,系统管理员没有有效的问题排查手段,厂商也难以为管理员开发出来这种有效的检测工具;对OAI-DP在性能方面有较高要求,OAI-DP应能对超大容量的数据记录予以正确响应。比较:模式一与模式二

28比较:模式一与模式二

----结论“模式二”是对”模式一”的简化,相应的系统改造、升级、部署、维护等。工作量和难度都得大为减少,模式二的易用性和可管理性都大为提高;其中“模式二”的手动收割,更为安全稳定,CALIS特色库的大批量数据收割均采用该方式;学位论文本地系统的收割模块:TPI:支持模式二的实时自动收割、手动收割;北大方正:支持模式二的实时自动收割、手动收割;麦达:支持模式二的实时自动收割、手动收割;TRS:支持模式二的手动收割;比较:模式一与模式二

29主要内容:“CALIS学位论文全文数据库”服务体系架构基于OAI和METS数据收割模式基于OAI和METS数据收割实施步骤NOW主要内容:“CALIS学位论文全文数据库”服务体系架构NOW30基于OAI和METS数据收割实施步骤

---针对模式二(手动收割)1)现有系统升级----公司介绍2)数据导出----公司介绍3)数据质量检测4)通过FTP方式提交基于OAI和METS数据收割实施步骤

---31

谢谢大家!谢谢大家!32基于OAI和METS远程收集数据的方法和流程

赵阳zhaoyang@清华大学图书馆学位论文项目组2007.09.27南京基于OAI和METS远程收集数据的课件33主要内容:“CALIS学位论文全文数据库”服务体系架构基于OAI和METS数据收割模式基于OAI和METS数据收割实施步骤NOW主要内容:“CALIS学位论文全文数据库”服务体系架构NOW34“CALIS学位论文数据库”服务体系架构参建馆本地系统CALIS数字图书馆门户计费中心认证中心资源调度中心CALIS-OID解析中心纸本扫描加工CALIS中心学位论文提交与发布系统DRM阅读器读者DRM数字版权保护浏览器CALIS高校学位论文数据库分中心“CALIS学位论文数据库”服务体系架构参建馆CALIS数35CALIS学位论文参建馆本地系统涉及到三个层面:本馆层面满足提交、审核、编目、标准化、回溯、发布、检索、管理、存储等需求符合相关标准、规范开放架构CALIS子项目(分中心)层面纳入“CALIS高校学位论文数据库”服务体系CALIS中心层面纳入“CALIS高等教育数字图书馆”服务体系CALIS学位论文参建馆本地系统涉及到三个层面:本馆层面36学位论文参建馆本地系统结构图Web检索全文检索引擎专业编目文档标准化论文回溯发布管理论文元数据库论文(PDF)对象库服务接口层应用层存储层学位论文提交与发布系统安全通信层DRM版权保护系统(PDF)纸本扫描加工系统MQ服务器METS接口模块OAI-DP服务器认证接口计费接口CLRCOpenURL接口对象安全访问接口CALIS-OID本地解析学位论文参建馆本地系统结构图12345678读者浏览器DRM阅读器Web审核Web提交学位论文参建馆本地系统结构图Web全文专业文档论文发布论文元37参建馆本地系统与CALIS子项目中心的互操作关系服务接口层安全通信层MQ服务器METS接口模块OAI收割服务器CALIS-OID访问数字对象请求中心论文元数据仓库论文(前16页)对象仓库仓储层服务接口层应用层存储层学位论文提交与发布系统安全通信层DRM数字版权保护系统MQ服务器METS接口模块OAI-DP服务器认证接口计费接口CLRCOpenURL接口对象安全访问接口CALIS-OID本地解析12345678参建馆CALIS学位论文分中心参建馆本地系统与CALIS子项目中心的互操作关系服务安全MQ38学位论文提交与发布系统与CALIS中心的互操作关系CALIS中心CALIS-OID解析中心认证中心计费中心资源调度中心CALIS数字图书馆服务门户服务接口层应用层存储层学位论文提交与发布系统安全通信层DRM数字版权保护系统MQ服务器METS接口模块OAI-DP服务器认证接口计费接口CLRCOpenURL接口对象安全访问接口CALIS-OID本地解析12345678参建馆学位论文提交与发布系统与CALIS中心的互操作关系CALIS39本地系统升级的主要接口OAI和METS数据收割接口,实现元数据和对象数据的收集;CALIS_OID解析接口,实现数字对象的解析和获取;数字对象安全下载接口,实现数字对象的安全下载;CALISODL接口,实现CADLIS各系统之间的统一检索;CADLIS认证/计费接口,实现认证计费。本地系统升级的主要接口OAI和METS数据收割接口,实现元数40本地系统升级的主要接口本地系统升级的主要接口41主要内容:“CALIS学位论文全文数据库”服务体系架构基于OAI和METS数据收割模式基于OAI和METS数据收割实施步骤NOW主要内容:“CALIS学位论文全文数据库”服务体系架构NOW42基于OAI和METS数据收割模式模式一:OAI-DP/METS-DP+MQ联动模式二:仅采用OAI-DP基于OAI和METS数据收割模式模式一:43模式一:OAI-DP/METS-DP+MQ联动

---收割方式(1)实时自动收割元数据通过OAI-DP发布。OAI-DP所发布出来的OAIRecord采用“CALISOAIRecordV1.0”数据格式;本地系统的数字对象通过METS-DP+MQ发布。METS-DP负责将数字对象封装成METS数据包,然后通过MQ服务器发布出去,数据格式记为“CALISMETSRecordV1.0”;元数据和数字对象之间的关系通过OAIRecord中的CALIS_OBJ:objInfo子元素所包含的MetaID进行关联;学位论文中心系统接收到

OAI-DP或METS-DP+MQ请求,自动收割参建馆本地系统中的数据;模式一:OAI-DP/METS-DP+MQ联动

44模式一:OAI-DP/METS-DP+MQ联动

---收割方式(2)手动收割用OAI数据导出工具将OAI-DP中的元数据导出成为包含OAIRecord数据的XML文件,该文件称为OAI记录文件,数据格式为“CALISOAIRecordV1.0”;用METS数据导出工具将METS-DP中的数字对象数据导出成为包含METSRecord数据的XML文件,该文件称为METS记录文件,数据格式记为“CALISMETSRecordV1.0”;本地系统管理员手工将上述两类文件通过FTP上传至CALIS学位论文中心,由其完成数据汇总、统计工作;

模式一:OAI-DP/METS-DP+MQ联动

45模式一:OAI-DP/METS-DP+MQ联动

---数据格式(元数据)CALISRECORDV1.0用于维护元数据与METS一致的四项信息模式一:OAI-DP/METS-DP+MQ联动

46模式一:OAI-DP/METS-DP+MQ联动

---数据格式(对象数据)模式一:OAI-DP/METS-DP+MQ联动

47模式一:OAI-DP/METS-DP+MQ联动

---实际收割测试2006.03月---2006.07月学位论文和特色库项目验收前,采用模式一方式收割学位论文本地系统在部分参建馆完成升级、数据迁移和发布工作;在厂商和参建馆配合下,CALIS技术中心和学位论文子项目组共同进行数据收割;参加测试的学校:TPI:中国人民大学,中国农业大学TRS:清华大学北大方正:北京大学杭州麦达:北京大学医学院模式一:OAI-DP/METS-DP+MQ联动

48模式一:OAI-DP/METS-DP+MQ联动

---实际收割测试收割结果实时自动收割:本地系统和数据都存在问题中心系统对本地系统的自动收割难以有效进行手工收割:本地系统能顺利提交数据但所上传的数据仍存在问题本地系统存在的主要问题系统bugs数据问题模式一:OAI-DP/METS-DP+MQ联动

49模式一:OAI-DP/METS-DP+MQ联动

---实际收割测试(系统bugs)OAI-DP本身的bugs比较容易发现。但本地管理员仍缺乏有效易用的工具;METS-DP本身的bug问题以及MQ配置问题难以由本地管理员自行发现;OAI-DP+METS-DP+MQ联动问题厂商技术人员和本地管理员都难以测试和发现;其他问题著录和导入工具不完备;本地DP所在机器软硬件系统的不稳定;DP本身的稳定性和可靠性问题;METS包传输丢包问题;模式一:OAI-DP/METS-DP+MQ联动

50

模式一:OAI-DP/METS-DP+MQ联动

---实际收割测试(数据问题)数据不符合schema导出的OAI和METS包文件,其数据不符合schema数据必备性问题很多数据项缺乏,不符合子项目组的数据规范性要求CALIS元数据schema本身不支持必备性机制,而厂商本地系统也未能提供相应的必备性检测功能数据内容不一致问题(尤其是OAI记录和METS记录之间的不一致)OAI记录中的about内容不合逻辑如:有时间戳或类型而没有calis-oid;有calis-oid而没有时间戳。元数据时间戳应该不小于数字对象时间戳;更新数字对象时应同时更新元数据时间戳,才能保证联动收割时对这条记录重收。METS包中的时间戳应与OAI-about中的时间戳一致等。数据的语义问题张冠李戴

模式一:OAI-DP/METS-DP+MQ联动

51

模式一:OAI-DP/METS-DP+MQ联动

---实际收割测试(问题原因)本地系统的著录工具问题单条入库的元数据和数字对象在必备性、一致性等方面存在问题。本地系统的批量导入工具问题批量入库的元数据和数字对象在必备性、一致性等方面存在问题;批量导入的数据的时间戳都为同一个时间点,这给OAI-DP带来很大压力。统计结果的一致性问题本地OAI-DP、METS-DP实际发布的记录数与本地系统的数据库查询模块提供的记录数不一致,给管理员造成困惑。

——由内部检索机制不一致因素所造成。本地系统缺乏有效的“数据质量检测工具/模块”在OAI-DP和METS-DP发布之前,系统本身对数据没有进行这种质量检测(包括必备性、一致性等)。管理员无法自行发现上面的“数据问题”。

模式一:OAI-DP/METS-DP+MQ联动

52模式二:仅采用OAI-DP收割

为解决模式一收割中的系统和数据问题,CALIS管理中心于2006年10月招集厂商开会,提出模式二;厂商依据规范要求,改进和完善系统;模式二:收割方式实时自动收割手动收割模式二:仅采用OAI-DP收割53模式二:仅采用OAI-DP收割

---收割方式(1)实时自动收割元数据和数字对象仅通过OAI-DP发布。发布出来的OAIRecord采用“CALISOAIRecordV2.0”数据格式;学位论文中心系统接收到OAI-DP或METS-DP+MQ请求,自动收割参建馆本地系统中的数据;模式二:仅采用OAI-DP收割54手动收割用新的OAI数据导出工具将本地系统中的元数据和数字对象合并为一条OAI记录导出为OAI记录文件。该文件中的数据格式为“CALISOAIRecordV2.0”;METS-DP中的数字对象数据无需再单独导出;本地系统管理员手工将上述两类文件通过FTP上传至CALIS学位论文中心,由其完成数据汇总、统计工作;

模式二:仅采用OAI-DP收割

---收割方式(2)手动收割模式二:仅采用OAI-DP收割55模式二:仅采用OAI-DP收割

---数据格式CALISRecordV1CALISRecordV2模式二:仅采用OAI-DP收割

56模式二:仅采用OAI-DP收割

---数据格式CALISRecordV2,无Mets模式二:仅采用OAI-DP收割

57模式二:仅采用OAI-DP收割

---实际收割测试2007.09月参加测试的学校:TPI:中国农业大学TRS:清华大学北大方正:北京大学杭州麦达:北京大学医学院模式二:仅采用OAI-DP收割

58比较:模式一与模式二

----在系统部署和维护方面类型模式1模式2说明

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论