网络信息资源采集_第1页
网络信息资源采集_第2页
网络信息资源采集_第3页
网络信息资源采集_第4页
网络信息资源采集_第5页
已阅读5页,还剩40页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第3讲 网络信息资源采集3.1 爬行器与搜索引擎3.2 收割器3.3 语义化数据的采集3.1搜索引擎与爬行器 搜索引擎发展史:人们将搜索引擎划分为四代:以经典信息检索理论为基础的第一代(1994-1996):代表技术是信息检 索技术以分布式为特征的第二代(1996-1998):代表技术是分布式爬行器与分 布式数据技术以人工智能为特点的第三代(1998-现在):主要技术包括主题搜索、数 据挖掘、自动分类等技术。主题搜索引擎为第四代(下一代):主要特点是主题覆盖率高、智能化程 度高、检索对象多样化、服务个性化与专业化。3.1搜索引擎与爬行器 搜索引擎分类:根据基于的技术原理不同,搜索引擎可以分成三

2、种类型: 爬行器式搜索引擎 目录(Directory,也叫做Catalog)式搜索引擎 元搜索引擎。3.1搜索引擎与爬行器 爬行器式搜索引擎原理: 搜索引擎系统结构一般有爬行器(Crawler)、页面数据库(Page Repository)、索引器(Indexer)、检索引擎(Query Engine)等几个部分。3.1搜索引擎与爬行器 爬行器式搜索引擎原理:爬行器类型:普通爬行器 深层网络爬行器 语义web爬行器爬行策略:起始URL集合 IP地址爬行协议:robots.txt与sitemap.txt3.1搜索引擎与爬行器 爬行器式搜索引擎原理:爬行器 (1) user-agent:* 不允许

3、所有的Robot爬行任何网页 disallow:/ (2) user-agent:* 允许所有的Robot爬行任何网页 disallow: (3)user-agent:WebCrawler 不允许WebCrawler爬行器爬行任何网页 disallow:/ (4)user-agent:* 任何爬行器都不能爬行下述三个目录中的网页 disallow:/project disallow:/web disallow:/team3.1搜索引擎与爬行器 爬行器式搜索引擎原理:爬行器Mercator爬行器结构组成3.1搜索引擎与爬行器 爬行器式搜索引擎原理:爬行器深层网络爬行器 见基于通用搜索引擎的深层网

4、络表面化方法研究3.1搜索引擎与爬行器 爬行器式搜索引擎原理:爬行器步骤1):从多个线程共享的URL队列(URL Frontier)中移出绝对路径的URL来。绝对路径的 URL中指明了这个URL采用什么方式下载;步骤2):系统选择了相应的协议,通过了DNS解析并从web上下裁了页面;步骤3):将页面放入RewindInPut Stream(RIS),RIS相当于一个缓存,能够多次快速地读内容;步骤4):一旦文件被放进RIS,这个工作线程就启动内容检测模块看是否此页面已经被采集过, 如果采集过,系统就抛弃此页并跳至步骤1),如果此页没有采集过,就进入步骤5);步骤5):Processing Mo

5、dules,在这里对页面进行初步的分析,比如提取标题、摘要和链接。 缺省状况下,页面中的所有链接都被提取出来,并转换成绝对URL。然后进行步骤6);步骤6):根据用户要求对URL进行过滤(Filtering),如果URL通过了过滤器,则检查此URL是否 已经在URL待采集库中(步骤7),如果此URL没有,则将它加入到URL Frontier中,等 着被选中进入下一轮循环(步骤8)。3.1搜索引擎与爬行器 爬行器式搜索引擎原理:爬行器设计一个性能良好的爬行器应该考虑一下几个问题:爬行器应该下载什么网页?爬行器不可能下载所有的网页,小心地选择高质量网页优先下载就显得很重要了,如何评价网页质量是爬行

6、器的一个关键技术。爬行器怎样刷新网页?因为Web上网页变化迅速,爬行器需要仔细决定哪些网页重新访问,哪些网页跳过,这些决定了页面文档库的新鲜度。怎样降低被爬行网站的负担?因为是对别人的服务器进行爬行,索引爬行器应该降低被爬服务器的负担,遵循Robot Exclusion协议即使就是一种方法。怎样使得爬行过程并行化?并行化可以使得在合理的时间内下载大量的网页,但必须作到准确地协同工作。3.1搜索引擎与爬行器 爬行器式搜索引擎原理:页面数据库页面数据库也称存储器,它是一个具有可扩展能力的存储系统,管理超大规模的Web页面。它有两个基本功能:其一是为爬行器提供存储接口,其二是为索引器和检索引擎提供有

7、效的访问API。3.1搜索引擎与爬行器 爬行器式搜索引擎原理:索引器索引器的作用是理解搜索器所搜索的信息,从中抽取出索引项,用于表示文档以及生成文档库的索引表,通过牺牲存储器空间来换取响应时间。3.1搜索引擎与爬行器 爬行器式搜索引擎原理:检索引擎信息检索的基本任务是根据用户的信息需求,在文档集合中检索出符合信息需求的文档。在这里需要注意的有三点:(1)怎样表达用户的信息需求?(2)怎样表示文档?(3)用户需求表示与文档表示之间如何匹配?。在经典信息检索模型中,都是用词(terms)来表示文档和信息需求的,只考虑了词法,而没有考虑语法,更没有考虑语义。但是词并不能真正将文档的内容表达出来,同样

8、,也无法真正将用户的信息需求明确表示出来。同时,更没有考虑用户的上下文特性。同一个查询词(式)在不同的上下文中,得到的结果应该是不一样的。3.1搜索引擎与爬行器 爬行器式搜索引擎原理:检索引擎检索引擎的作用是接收用户查询提问,检索网页数据库,相关度匹配计算,显示查询结果,提供用户相关性反馈机制等。在实际的信息检索中,很多返回的检索结果与用户信息需求无关,主要原因有三:用户提交的查询式不能反映用户的信息需求;文档的逻辑表示不能真正反映其内容;匹配公式计算出的相关度大小并不能完全反映真实文档与真实需求之间的相关程度。3.1搜索引擎与爬行器 目录式搜索引擎:Yahoo目录3.1搜索引擎与爬行器 目录

9、式搜索引擎:3.1搜索引擎与爬行器 元搜索引擎:3.1搜索引擎与爬行器 注意开源搜索引擎和开源爬行器的区别开源搜索引擎的常用语言:Python、Java、Perl、C+,其中以Java居多较好的开源搜索引擎:Lucene和Oxyus ,均用java书写关键技术:爬行、全文索引(包括文本解析)、全文检索类型:完整型如Oxyus,工具包型如lucene具体的安装、调试:由于开源软件一般不是exe文件,其安装调试需要一定的相关知识3.2 OAI协议及收割器MARC数据的分发方式:ISO2709 基于OAI的方式3.2 OAI协议及收割器 OAI数据模型:仓储(repository)是一种可被访问的网

10、络服务器,由数据提供者管理,可将元数据发布给收集器(harvester)。OAI数据模型包括三个层次:记录、条目、资源。OAI Protocol for Metadata Harvesting (OAI-PMH)3.2 OAI协议及收割器 OAI数据模型:仓储(repository)是一种可被访问的网络服务器,由数据提供者管理,可将元数据发布给收集器(harvester)。OAI数据模型包括三个层次:记录、条目、资源。OAI Protocol for Metadata Harvesting (OAI-PMH)3.2 OAI协议及收割器 OAI数据模型:Dublin Coremetadata M

11、ARCXMLmetadata MPEG-21DIDL recordsOAI-PMH identifier = entry point to all records pertaining to the resourceMETS metadata pertainingto the resourcemodeled representation of the resourcesimplemodelmore expressivemodelcomplexmodelcomplexmodelresourceitem3.2 OAI协议及收割器 OAI数据模型:记录(Record):是具有特定元数据格式的元数据。

12、在对一个OAI-PMH请求的响应中,记录以XML编码的字节流的形式被返回,它是从基本组织单元中返回的特定元数据。 包括三个部分: header 部分:唯一标识符,如oai:arXiv:cs/0112017 记录的时间戳,如2002-02-28 记录所属的集合,如math metadata部分:记录实际的资源的元数据内容; about部分: 非必备部分,提供有关资料的相关说明,如版权声明等。条目(Item):all records pertaining to the resource。条目是仓储的基本组织单元。概念上,一个条目是用来存储和以多种形式动态产生元数据的关于单个资源的容器,其中每个条目

13、均可以通过OAI-PMH协议以记录的形式获得。每个条目有一个标识符,在由这些条目组成的仓储的范围内,该标识符是唯一的。资源(Resource):是一个对象或有元数据说明的资料。OAI-PMH不考虑资源的本质,即不管它是物理的还是数字的,也不管它是存储于仓储中的还是存在于其他数据库中的。3.2 OAI协议及收割器 数据收割原理:3.2 OAI协议及收割器 数据收割原理: 收割器以POST或GET方式将OAI请求提交给数据提供者,数据提供者对请求进行处理后,将结果信息包装成XML文档返回给收获器。收获器收到结果数据后,要对XML文档进行解析,生成本地存储格式的数据,然后建立本地索引,提供检索服务。

14、为实现大规模数据的连续传送,OAI定义了一个数据流控制机制。同时,OAI还定义了意外与出错等信息类型。OAI-PMH实现OAI数据库与收获器之间的协议解释与转换。OAI-PMH是基于HTTP之上的协议。收割器的请求按通过HTTP协议按GET 或 POST方式发出。OAI-PMH支持六类请求,基本格式如下所示:?verb=ListRecords&from=2002-11-01数据提供者给出的响应被包装成格式良好的XML文档,该文档由三部分组成,即XML声明、附带三个属性的根元素、三个子元素(响应日期、请求、错误/请求命令)。 3.2 OAI协议及收割器

15、数据收割原理: 2005-02-22T00:21:48Z /oai/oai.php /根据请求不同,此处还可以是ListRecords、ListSets、 GetRecord、ListIdentifiers和ListMetadataFormats 3.2 OAI协议及收割器 数据收割原理:OAI-PMH包括6个请求方法,其中一些方法包括一些必备参数与可选参数。 Identify查询关于仓储的信息,包括管理、标识、社团的专门信息。 ListMetadataFormats查询仓储的元数据格式。 ListSets得到仓储的集合结构。 GetRecord从仓储中

16、获取单条记录。 ListRecords从仓储中获取多条记录。 Listldentifiers查询可以从仓储中得到的记录的标识符。3.2 OAI协议及收割器 数据收割原理:动词的用法如下:/oai?verb=Identify/oai?verb=ListMetadataFormats/oai?verb=ListMetadataFormats&identifier=oai:HUBerlin.de:3000218/oai?verb=ListSetsht

17、tp://oai?verb=ListIdentifiers&metadataPrefix=oai_dc/oai?verb=ListRecords&metadataPrefix=oai_dc/oai/oai2.php?verb=ListRecords&resumptionToken=992/dice/oai?verb=ListRecords&metadataPrefix=marc21http:/www.div

18、/dice/oai?verb=ListRecords&metadataPrefix=oai_dc3.2 OAI协议及收割器 数据收割原理:/dice/oai?verb=ListRecords&metadataPrefix=oai_dc的返回结果见oai.xml3.2 OAI协议及收割器 OAI技术架构:OAI包含两类角色,即数据提供者和服务提供者,前者负责生成元数据,并提供基于OAI-PMH的元数据收割服务,后者负责利用OAI-PMH协议从多个数据提供者那里收割元数据,合并、索引并为用户提供检索服务。数据

19、提供者和服务提供者之间完全通过OAI-PMH协议进行交互。另外,在数据提供者和服务提供者之间还可以存在身兼二任的aggregator。 3.2 OAI协议及收割器 OAI技术架构:Data ProviderData ProviderRepositoryRepositoryRepositoryData ProviderOAI VerbRecordRequestResponseData ProviderData ProviderService ProviderUser(a)基本结构官方登记3.2 OAI协议及收割器 OAI技术架构:Harvestingbased onOAI-PMHService

20、providersdata providers(b)DP与SP之间的关系3.2 OAI协议及收割器 OAI技术架构:AggregatorService providersdata providers(c)DP与SP之间的关系3.2 OAI协议及收割器 OAI技术架构:数据提供者数据提供者的必备条件:元数据 数据库(或文件系统) 能通过Internet访问的Web server 编程接口(Perl, PHP, Java-Servlet,asp等) archive identifier和base URL 每个item都具有一个库内唯一的identifier 元数据格式 (one or more;

21、at least: unqualified Dublin Core).datestamps for metadata (created / last modified) logical set hierarchy (may have) 流控制机制 3.2 OAI协议及收割器 OAI技术架构:服务提供者的前提条件服务提供者的前提条件:an Internet-connected server ;a database system (relational or XML) ;a programming environment. (The programming environment must be

22、one that can issue HTTP requests to web servers, can issue database requests, and includes an XML parser.)3.2 OAI协议及收割器 OAI资源:相关工具相关工具:目前,常用的OAI工具软件有很多种,包括使用不同语言开发的(如C、JAVA、PERL、VB等)、面向不同系统平台的(如windows、Unix或linux)、支持不同数据库系统的(如Oracle、SQLserver、MySQL等)软件。著名的有Dspace、Eprints、CDSware、i-Tor、MyCore、DP9、Arc

23、等。根据功能组成,可以将其分为三类: 数据提供者使用的软件数据提供者使用的软件。它包括全文数据收集与组织、元数据管理及与收获器的访问接口等功能,如OCLC的OAIcat、Dominion University大学的DP9等。 服务提供者使用的软件服务提供者使用的软件。主要包括收获器、存储模块、索引模块、用户检索接口等功能,如Old Dominion大学开发的Arc软件,它包括元数据收获、索引、Web检索接口、系统管理接口等功能模块,在Oracle、MySQL等关系数据库的支持下,提供跨库检索服务。 集成软件集成软件。为适应科学信息组织、管理与服务需求,有些软件同时集成以上两项功能,并将OAI功能集成到一个完整的信息管理系统中。如Southampton大学的Eprints、荷兰科学信息服务研究院开发的i-Tor等。3.2 O

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论