下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
学科信息门户建设中深层网页资源采集的方法与策略
随着网络技术的日益发展,网络信息资源正以人们难以想象的速度增长,网络也日渐成为人们获取信息的主要途径之一。搜索引擎为人们从海量网络信息资源中查找所需信息提供了便捷途径,但由于其返回的信息资源在查准率和查全率上都无法得到保证,人们经常会得到许多无用信息,反而降低了信息资源的使用效能。因此学科信息门户顺应时代发展需要应运而生,用户可通过学科信息门户快捷、有效地发现高质量的网络信息,同时使他们尽可能多地获得有价值的信息和信息资源。本文认为高质量学科信息门户建设应注重深层网页资源的收集与整合利用,并应重视深层网页资源采集的方法与策略。1学科门户网站建设现状学科信息门户(SubjectInformationGateway,SIG)是“提供可检索和可浏览的互联网资源目录的联机服务系统,一般集中于某一相关的学科领域,提供对经图书馆工作人员遴选和按学科组织的互联网资源的利用。”[1]它致力于将特定学科领域的信息资源、工具与服务集成到一个整体中,为用户提供一个方便的信息检索和服务入口。从本质上讲,学科信息门户是含有不同分类主题的网页及相关链接的网上图书馆。主要特点是有较多的人工参与,通过质量标准规范资源的选择,并提供对资源的丰富描述;提供依据学科体系结构和资源类型分类的浏览和检索入口;有对资源的管理和长期发展的政策、元数据应用与标引规范、资源共享与互操作机制等[2]。
自1996年DESIRE一期工程开始,学科信息门户就在欧洲范围内逐渐普及,一大批面向数学、工程科学、医学、社会科学的学科信息门户相继建立,到2001年DESIRE项目进入第二期时,学科信息门户已经在世界范围内呈“燎原”之势,在美洲、欧洲、大洋洲广泛实施。并且在2000年以后逐渐从单个的研究项目向大规模的建设项目转化,模块化的功能组件又使学科信息门户呈现出丰富多彩的形态,并且在组织上、商业模式上同其他的企业信息门户、知识门户相互交融,出现了形式和内容的统一态势[3]。国际上比较权威的学科信息门户网站有英国的RDN、SOSIG,欧洲的RENARDUS,美国的LII等。
随着国外大规模的学科信息门户建设以及国内学者对学科信息门户的研究,学科信息门户建设的思想和理念逐步为国内业界接受。国内最早是上海图书馆于1999年开始建设的“数字图书馆资源总汇表”,现在已发展成为“数字图书馆”资源门户。2002年3月开始至今,在中科院知识创新工程科技基础设施建设专项“国家科学数字图书馆(CSDL)项目”的子项目资助下,我国已建成的有生命科学、化学、数字物理、资源环境、图书情报、长江流域资源生态环境、天然药物、微生物、科技政策与管理等9个学科信息门户和中心门户[4]。热点门户是国家科技图书文献中心组织建设的一个网络信息资源门户类服务栏目,目前已建成纳米科技、认知科学、食物与营养、艾滋病预防与控制等四个热点门户。其它的学科信息门户还有武汉理工大学图书馆的“材料复合新技术信息门户”,中国林业科学研究院科技信息所和中国林科院图书馆合作建设的“林业学科信息门户”等。
国内学科信息门户在软件平台的完善性、数据标准化、数据共享性、高质量信息资源数量、描述对象数量等方面存在着一定的不足[5],有些学科信息门户缺乏高质量的有效网络信息资源。除材料复合新技术信息门户、数字图书馆资源门户、微生物特色学科信息门户、青藏高原研究专题信息门户等能管理网络信息资源和本地实体信息资源外,其它门户均只链接网络信息资源。这种现状不利于信息资源的整合、服务和信息资源开发,不能适应数字图书馆集成服务的发展方向,也不能满足用户对信息资源一站式服务的要求。2深层网页资源的价值由于目前标准的搜索引擎只能发现互联网上的静态网页并建立索引,无法对被深埋在动态产生的网站之下的大量信息资源进行搜索。因此,有许多信息由于其身处网络深层而无法被发现。对于这些处在网络深层的信息资源,有学者称其为不可视网络、隐蔽网络[6](invisibleweb,hiddenweb)、深层网页资源(DeepWeb,DeepInternet)[7]。
自1994年Dr.JillEllswonh提出Invisibleweb这个概念以来,国外针对深层网页资源的研究相当热烈,且成果众多。内容涉及理论研究、检索软件、搜索引擎等,形式有专著、论文、软件及博客等。深层网页资源的潜在价值及商机还引起了商界的重视,2004年9月14日下午,微软亚洲研究院负责互联网搜索和数据挖掘的马维英向记者演示微软在网络搜索技术方面的三大新近展,其中一个就是从表层万维网到深层万维网,充分利用大量隐藏的高质量信息[7]。雅虎推出了“内容获取项目”,该项目意在为公共数据库中的数十亿个网页提供搜索索引[8]。与此形成鲜明对比的是,国内学者并不太重视这个问题,相关论述较少,极少有学科信息门户网站将这部分极具学术研究价值的网络信息资源作为特色信息资源加以收集整合。
根据BrightPlanet对深层网页资源的范围、数量及相关性调查结果表明,深层网页资源有以下特点[9]:
(1)信息量大。深层网页的信息量达7500TB,是WWW资源的400~550倍。它拥有近5500亿个文档,而表层网络只有10亿个。2000年深层网页站点已超过20万个,2004年达到30.7万个,其中60个最大的深层网页站点收集的信息约有750GB,超过表层网络范围40倍。
(2)利用率高。深层网页站点的访问率很高,月访问量是表层网络站点的150%,且经常被其它网络资源链接;但是许多典型的深层网页站点不为大众所熟知。(3)发展迅速。深层网页资源是互联网上新生信息增长最大的一个种类,2000年~2004年间增长了3-7倍。
(4)信息质量高。深层网页站点倾向于学科范围更狭窄、内容更深入的方向发展。信息内容与每个所需信息、市场及领域具有较高的关联性,且大部分(54%)深层网页资源存放在专题数据库(topic-spe-cificdatabases)中,经统计分析其高质量内容比表层网络多1000-2000倍。
(5)免费开放。95%的深层网页资源对公众免费开放,即无需支付费用或订购使用。付费资源前3位分别是DBTOnline、Lexis-Nexis和DIALOG,占付费资源的71%;免费开放资源的前3位分别是美国国家气象数据中心(NationalClimaticDataCentre)、美国国家航空与宇航局(NASA)和美国国家海洋数据中心(NationalOceanographicDataCenter),占开放资源的92%。
因此,将这部分资源收集整理到学科信息门户网站中来,有利于进一步提升学科信息门户网站的学术指导价值、利用价值,对于当前学科门户网站的建设是非常有意义的。3深层网页资源采集的方式学科信息门户建设,要从大量的网络资源中选出有价值的资源,要在较短的期限内达到信息的规模效应,在人员的安排上仅靠有限的学科专家和相关的专业人员是难以达到预期目的的。因此,深层网页资源的采集应遵循多元化策略,主要可采取以下措施:
3.1人工采集
由工作人员查阅各种文献、浏览互联网或向有关专业人员请教获得相应的信息源,定期对这些信息源进行跟踪检索获取数据。人工采集方式的工作效率较低,而且所收集的信息不全,带有一定的随机性和随意性。常用的信息源有:(1)对公众免费开放的数据库资源,如PubMed、GenBank、DOAJ等。(2)目录指南(directories),如Librarians'IndextotheIntemet中的invisibleweb资源。(3)搜索“InvisibleWeb”的网站,如TheInvisibleWebDirectory、Directsearch、CompletPlanet(BrightPlanet公司经营的网站)、InfoMine、A等。(4)专业搜索引擎:Incywincy、Singingfish、GoogleNews、Scirus、S等。(4)利用普通搜索引擎如Google、Yahoo!Search、Yahoo!Directory和Teoma等搜索,检索策略为“主题词或关键词+database”,这样就可以搜索到这些搜索引擎所收录的该主题词或关键词方面的相关数据库链接。如toxicchemicalsdatabase。
3.2自动化采集
即利用蜘蛛或机器人自动到网站去搜索。由于绝大多数深层网页资源为蜘蛛程序无法访问或索引的数据库,自动化采集深层网页资源需要使用专门的深层网页数据挖掘软件。
门户网站建设可计划自行研发具有自主知识产权的深层网页资源采集软件,但技术难度较大,会占用学科门户网站建设过程中大量的人力资源和财政资金,对普通图书馆或机构来说不是最佳方案。另一种方式是采用专用商业软件,这类软件可实现对深层网页资源的检索,它可以将用户的检索请求同时推送到多个相关网络数据库中进行检索,而后把结果送回给用户。如BrightPlanet开发用于检索深层网页资源的专业软件LexiBot2.0,用户可将其下载到自己的计算机上,采用关键词串检索,可同时对2200多个网站和数据库进行检索,检索过程可采用后台操作模式,不影响用户做另外事务。目前BrightPlanet公司已停止销售该软件,取而代之的是DQM2(BrightPlanet'sDeepQueryManagerTM),可根据用户的指令对超过70000个深层网页专业数据库同时进行检索,并实时进行跟踪和监测为用户返回最新研究进展提示,用户也可根据自己的学科特色进行限制检索,检索到的结果可根据用户需要进一步管理制作,后续资料可进行追加,是一个较为理想的门户网站建设深层网页资源采集软件[10]。另外可供参考的还有普渡大学(PurdueUniversity)的EduMed,专门用于搜索医学多媒体数据库[11],该软件前身是一个多媒体管理系统VDBMS。
自动化采集的工作效率较高,可以确保查全率。但所收集的资料良莠不齐,质量难以保证,而且所收集的信息量太大,容易使系统难以承载。4深层网页资源的整合4.1网络导航
即以网络导航的形式将深层网页资源信息发布到学科信息门户网站,用户通过门户网站提供的链接即可访问相应的深层网页搜索引擎、目录或数据库。网络资源的组织方法有按学科、资源类型、字顺、主题树和数据库组织等,有学者认为后两种方式相对科学、合理,用户可通过主题浏览和关键词查询找到相应的网络资源[12]。
4.2深层网页资源的跨库检索整合
这是一种基于系统的整合方法,通过检索软件可实现对多种不同结构的数据库同时检索并返回检索结果。这种跨平台或异构平台的开发与应用在国内已有一定的发展,在图书馆数字资源的集成检索系统方面成功案例较多,如CALLS和北京大学图书馆共同开发的统一检索平台,该平台提供了基于异构系统的跨库检索服务,用户可按学科、按数据库名称、按文种同时检索多个平台上的多种资源,输入一个检索式,便可以看到多个数据库的查询结果,并可进一步得到详细记录和下载全文。目前,国内的微生物特色学科信息门户的数据库集成检索引擎实现了网络数据库跨库检索,它可对945个生物信息学热门数据库同时进行跨库整合检索。
4.3深层网页资源的保存
由于网络资源的动态性,许多有价值的网站信息稍纵即逝,如果不加以及时保存这些信息将无法找到和再现。学科信息门户网站如能根据学科专业特点保存相应的深层网页资源,以某种方式呈现给本学科专业用户,不仅可对这部分资源起到保存作用,而且能够提高深层网页资源的利用率实现其真正价值。
通过自动化采集软件获得的深层网页资源,其保存是一种基于数据的整合方式,核心是数据加工要标准化,与其它网络数据的组织和处理要同步接轨,也就是要将广泛应用于网络数据加工处理的元数据应用到深层网页资源中来,这样有利于整个学科信息门户资源的统一整合利用。2003年度ALCTS(AssociationforLibraryCollection&TechnicalService)的年度会议项目“MetadataHarvesting:UsingtheOpenArchivesInitiativeProtocoltoExposetheDeepWeb”,提出利用OAI协议把元数据的思想应用于深层网页,利用元数据来标注深层网页资源,可获得更高的检索效率[13]。这个会议精神给学科门户网站建设过程中开展深层网页资源的整合工作提供了技术设想。
对深层网页资源进行加工整合应遵循以下策略:(1)标准化策略。要求提供规范和深入的知识化描述,能够支持开发集成和个性化定制服务。标准化是实现跨学科信息门户互操作和数据共享的基础,是实现学科门户可持续发展的必然要求。(2)开放性策略。要求在信息结构、元数据描述、知识组织体系、用户界面、用户使用后管理等各个层面具有良好的开放性机制,支持个性化定制和开放集成。(3)及时性策略。要求信息的更新和维护必须及时、准确、有效。(4)权威性策略。要求优化选择学科信息门户的深层网页资源,以保证门户的资源质量。
4.4深层网页资源整合涉及的法律问题
因为主页对网站的重要性不可低估,人们习惯于将重要的广告放置在主页上,以此实现应有
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 二零二五年石油化工产品购销合同6篇
- 二零二五年度汽车报废车辆运输合同3篇
- 二零二五年度环保节能型建筑材料安装与检测合同范本2篇
- 二零二五版海运出口运输代理合同货物跟踪协议3篇
- 二零二五版网络安全项目反担保合同规定3篇
- 二零二五版二手房买卖合同贷款流程解析3篇
- 二零二五年数字电影后期制作聘用合同2篇
- 2025年度国际承包工程合同安全责任及防护措施规定3篇
- 二零二五版工业园区消防安全管理综合服务合同3篇
- 二零二五版建筑工地劳务人员临时住宿及伙食合同3篇
- 2025寒假散学典礼(休业式)上校长精彩讲话:以董宇辉的创新、罗振宇的坚持、马龙的热爱启迪未来
- 安徽省示范高中2024-2025学年高一(上)期末综合测试物理试卷(含答案)
- 安徽省合肥市包河区2023-2024学年九年级上学期期末化学试题
- 《酸碱罐区设计规范》编制说明
- PMC主管年终总结报告
- 售楼部保安管理培训
- 仓储培训课件模板
- 2025届高考地理一轮复习第七讲水循环与洋流自主练含解析
- GB/T 44914-2024和田玉分级
- 2024年度企业入驻跨境电商孵化基地合作协议3篇
- 《形势与政策》课程标准
评论
0/150
提交评论