版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于OAI和METS远程搜集数据的方法和流程赵阳zhaoyang@清华大学图书馆学位论文工程组2007.09.27南京主要内容:“CALIS学位论文全文数据库〞效力体系架构基于OAI和METS数据收割方式基于OAI和METS数据收割实施步骤NOW“CALIS学位论文数据库〞效力体系架构参建馆本地系统CALIS数字图书馆门户计费中心认证中心资源调度中心CALIS-OID解析中心纸本扫描加工CALIS中心学位论文提交与发布系统DRM阅读器读者DRM数字版权维护阅读器CALIS高校学位论文数据库分中心CALIS学位论文参建馆本地系统涉及到三个层面:本馆层面满足提交、审核、编目、规范化、回溯、发布、检索、管理、存储等需求符合相关规范、规范开放架构CALIS子工程〔分中心〕层面纳入“CALIS高校学位论文数据库〞效力体系CALIS中心层面纳入“CALIS高等教育数字图书馆〞效力体系学位论文参建馆本地系统构造图Web检索全文检索引擎专业编目文档规范化论文回溯发布管理论文元数据库论文(PDF)对象库效力接口层运用层存储层学位论文提交与发布系统平安通讯层DRM版权维护系统(PDF)纸本扫描加工系统MQ效力器METS接口模块OAI-DP效力器认证接口计费接口CLRCOpenURL接口对象平安访问接口CALIS-OID本地解析学位论文参建馆本地系统构造图12345678读者阅读器DRM阅读器Web审核Web提交参建馆本地系统与CALIS子工程中心的互操作关系效力接口层平安通讯层MQ效力器METS接口模块OAI收割效力器CALIS-OID访问数字对象恳求中心论文元数据仓库论文(前16页)对象仓库仓储层效力接口层运用层存储层学位论文提交与发布系统平安通讯层DRM数字版权维护系统MQ效力器METS接口模块OAI-DP效力器认证接口计费接口CLRCOpenURL接口对象平安访问接口CALIS-OID本地解析12345678参建馆CALIS学位论文分中心学位论文提交与发布系统与CALIS中心的互操作关系CALIS中心CALIS-OID解析中心认证中心计费中心资源调度中心CALIS数字图书馆效力门户效力接口层运用层存储层学位论文提交与发布系统平安通讯层DRM数字版权维护系统MQ效力器METS接口模块OAI-DP效力器认证接口计费接口CLRCOpenURL接口对象平安访问接口CALIS-OID本地解析12345678参建馆本地系统晋级的主要接口OAI和METS数据收割接口,实现元数据和对象数据的搜集;CALIS_OID解析接口,实现数字对象的解析和获取;数字对象平安下载接口,实现数字对象的平安下载;CALISODL接口,实现CADLIS各系统之间的一致检索;CADLIS认证/计费接口,实现认证计费。本地系统晋级的主要接口主要内容:“CALIS学位论文全文数据库〞效力体系架构基于OAI和METS数据收割方式基于OAI和METS数据收割实施步骤NOW基于OAI和METS数据收割方式方式一:OAI-DP/METS-DP+MQ联动方式二:仅采用OAI-DP方式一:OAI-DP/METS-DP+MQ联动
---收割方式(1)实时自动收割元数据经过OAI-DP发布。OAI-DP所发布出来的OAIRecord采用“CALISOAIRecordV1.0〞数据格式;本地系统的数字对象经过METS-DP+MQ发布。METS-DP担任将数字对象封装成METS数据包,然后经过MQ效力器发布出去,数据格式记为“CALISMETSRecordV1.0〞;元数据和数字对象之间的关系经过OAIRecord中的CALIS_OBJ:objInfo子元素所包含的MetaID进展关联;学位论文中心系统接纳到OAI-DP或METS-DP+MQ恳求,自动收割参建馆本地系统中的数据;方式一:OAI-DP/METS-DP+MQ联动
---收割方式(2)手动收割用OAI数据导出工具将OAI-DP中的元数据导出成为包含OAIRecord数据的XML文件,该文件称为OAI记录文件,数据格式为“CALISOAIRecordV1.0〞;用METS数据导出工具将METS-DP中的数字对象数据导出成为包含METSRecord数据的XML文件,该文件称为METS记录文件,数据格式记为“CALISMETSRecordV1.0〞;本地系统管理员手工将上述两类文件经过FTP上传至CALIS学位论文中心,由其完成数据汇总、统计任务;方式一:OAI-DP/METS-DP+MQ联动
---数据格式(元数据)CALISRECORDV1.0用于维护元数据与METS一致的四项信息方式一:OAI-DP/METS-DP+MQ联动
---数据格式(对象数据)方式一:OAI-DP/METS-DP+MQ联动
---实践收割测试2006.03月---2006.07月学位论文和特征库工程验收前,采用方式一方式收割学位论文本地系统在部分参建馆完成晋级、数据迁移和发布任务;在厂商和参建馆配合下,CALIS技术中心和学位论文子工程组共同进展数据收割;参与测试的学校:TPI:中国人民大学,中国农业大学TRS:清华大学北大方正:北京大学杭州麦达:北京大学医学院方式一:OAI-DP/METS-DP+MQ联动
---实践收割测试收割结果实时自动收割:本地系统和数据都存在问题中心系统对本地系统的自动收割难以有效进展手工收割:本地系统能顺利提交数据但所上传的数据仍存在问题本地系统存在的主要问题系统bugs数据问题方式一:OAI-DP/METS-DP+MQ联动
---实践收割测试(系统bugs)OAI-DP本身的bugs比较容易发现。但本地管理员仍缺乏有效易用的工具;METS-DP本身的bug问题以及MQ配置问题难以由本地管理员自行发现;OAI-DP+METS-DP+MQ联动问题厂商技术人员和本地管理员都难以测试和发现;其他问题著录和导入工具不完备;本地DP所在机器软硬件系统的不稳定;DP本身的稳定性和可靠性问题;METS包传输丢包问题;
方式一:OAI-DP/METS-DP+MQ联动
---实践收割测试(数据问题)数据不符合schema导出的OAI和METS包文件,其数据不符合schema数据必备性问题很多数据项缺乏,不符合子工程组的数据规范性要求CALIS元数据schema本身不支持必备性机制,而厂商本地系统也未能提供相应的必备性检测功能数据内容不一致问题〔尤其是OAI记录和METS记录之间的不一致〕OAI记录中的about内容不合逻辑如:有时间戳或类型而没有calis-oid;有calis-oid而没有时间戳。元数据时间戳应该不小于数字对象时间戳;更新数字对象时应同时更新元数据时间戳,才干保证联动收割时对这条记录重收。METS包中的时间戳应与OAI-about中的时间戳一致等。数据的语义问题张冠李戴
方式一:OAI-DP/METS-DP+MQ联动
---实践收割测试(问题缘由)本地系统的著录工具问题单条入库的元数据和数字对象在必备性、一致性等方面存在问题。本地系统的批量导入工具问题批量入库的元数据和数字对象在必备性、一致性等方面存在问题;批量导入的数据的时间戳都为同一个时间点,这给OAI-DP带来很大压力。统计结果的一致性问题本地OAI-DP、METS-DP实践发布的记录数与本地系统的数据库查询模块提供的记录数不一致,给管理员呵斥困惑。
——由内部检索机制不一致要素所呵斥。本地系统缺乏有效的“数据质量检测工具/模块〞在OAI-DP和METS-DP发布之前,系统本身对数据没有进展这种质量检测〔包括必备性、一致性等〕。管理员无法自行发现上面的“数据问题〞。方式二:仅采用OAI-DP收割为处理方式一收割中的系统和数据问题,CALIS管理中心于2006年10月召集厂商开会,提出方式二;厂商根据规范要求,改良和完善系统;方式二:收割方式实时自动收割手动收割方式二:仅采用OAI-DP收割---收割方式(1)实时自动收割元数据和数字对象仅经过OAI-DP发布。发布出来的OAIRecord采用“CALISOAIRecordV2.0〞数据格式;学位论文中心系统接纳到OAI-DP或METS-DP+MQ恳求,自动收割参建馆本地系统中的数据;手动收割用新的OAI数据导出工具将本地系统中的元数据和数字对象合并为一条OAI记录导出为OAI记录文件。该文件中的数据格式为“CALISOAIRecordV2.0〞;METS-DP中的数字对象数据无需再单独导出;本地系统管理员手工将上述两类文件经过FTP上传至CALIS学位论文中心,由其完成数据汇总、统计任务;方式二:仅采用OAI-DP收割---收割方式(2)方式二:仅采用OAI-DP收割
---数据格式CALISRecordV1CALISRecordV2方式二:仅采用OAI-DP收割
---数据格式CALISRecordV2,无Mets方式二:仅采用OAI-DP收割
---实践收割测试2007.09月参与测试的学校:TPI:中国农业大学TRS:清华大学北大方正:北京大学杭州麦达:北京大学医学院比较:方式一与方式二
----在系统部署和维护方面类型模式1模式2说明部署内容部署OAI-DP服务器部署METS-DP服务器部署MQ服务器只需部署OAI-DP服务器前者部署、培训、管理成本都较大数据校验和错误排查OAI文件METS文件OAI文件和METS文件对应关系(如相关文件个数一致、ID一致等)OAI文件(可含METS数据)对两类文件之间的对应关系的问题,模式1排查工作量很大,排查难度很大系统故障排查OAI-DP服务器METS-DP服务器、MQ服务器以上三个系统之间的联动OAI-DP服务器前者工作量和难度(尤其是系统之间联动)都很大厂商技术支持工作量较大,当出现复杂问题时,需厂商和CALIS全力配合才能发现大为降低比较:方式一与方式二
----优缺陷比较类型模式1模式2优点OAI-DP无需考虑大容量数据记录的传输问题,因此,模式1对OAI-DP在性能和超时处理等方面的要求较低;只需部署与OAI-DP,无需部署METS-DP和MQ服务器;OAI记录和METS记录不再分离,一般不会出现一致性问题;系统出现故障或数据出现问题时,管理员利用相关工具能够自己检测出来;缺点需要部署METS-DP和MQ服务器,需要这两个服务器与OAI-DP服务器联动;OAI记录和METS记录之间的一致性较难维护;特别是:当上述三个服务器联动出现故障或者当OAI记录和METS记录之间出现不一致性时,系统管理员没有有效的问题排查手段,厂商也难以为管理员开发出来这种有效的检测工具;对OAI-DP在性能方面有较高要求,OAI-DP应能对超大容量的数据记录予以正确响应。比较:方式一与方式二
----结论“方式二〞是对〞方式一〞的简化,相应的系统改造、晋级、部署、维护等。任务量和难度都得大为减少,方式二的易用性和可管理性都大为提高;其中“方式二〞的手动收割,更为平安稳定,CALIS特征库的大
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 村里饭桌改造方案
- 村级法治小屋建设方案
- 村内监控设备安装方案
- 京东供货合同模板
- 合同模板模板里查询
- 咨询类合同合同范例
- 外墙保温技术标投标方案文件
- 清洁服务业劳务派遣合同要素
- 2024年企业信息安全评估合同
- 托班老师一日流程培训
- 医院管理医院应急调配机制
- 西游记 品味经典名著导读PPT
- 金坛区苏科版四年级心理健康教育第1课《我的兴趣爱好》课件(定稿)
- 心肌缺血和心肌梗死的心电图表现讲义课件
- 小学生性教育调查问卷
- 学历案的编写课件
- 旅游行政管理第二章旅游行政管理体制课件
- 卫生院关于召开基本公共卫生服务项目培训会的通知
- 有机化学ppt课件(完整版)
- 管理咨询公司关键绩效考核指标
- 最新人教版三年级上册数学期中考试试题以及答案
评论
0/150
提交评论