版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第4章搜索引擎
内容引言搜索引擎网络蜘蛛搜索引擎搜索引擎工作原理抓取网页处理网页提供检索服务搜索引擎搜索引擎工作原理1.抓取网页每个独立的搜索引擎都有自己的网页抓取程序(spider,蜘蛛程序)。Spider顺着网页中的超链接,连续地抓取网页,被抓取的网页被称之为网页快照。由于互联网中超链接的应用很普遍,理论上,从一定范围的网页出发,就能搜集到绝大多数的网页。搜索引擎搜索引擎工作原理2.处理网页搜索引擎抓到网页后,还要做大量的预处理工作,才能提供检索服务。其中,最重要的就是提取关键词,建立索引文件,其他还包括去除重复网页、分词(中文)、判断网页类型、分析超链接、计算网页的重要度/丰富度等。搜索引擎搜索引擎工作原理3.提供检索服务用户输入关键词进行检索,搜索引擎从索引数据库中找到匹配该关键词的网页;为了用户便于判断,除了网页标题和URL外,还会提供一段来自网页的摘要以及其他信息。搜索引擎搜索引擎核心算法网页抓取程序(网络蜘蛛)关键词提取索引文件创建方式重复网页合并结果排序算法中文分词算法(如:理念和服务)网页类型判断(语言判断:meta标签、字符编码、内容分析等)超链接分析网页重要性与丰富度计算搜索引擎搜索引擎组成部分搜索引擎一般由搜索器、索引器、检索器和用户接口四个部分组成:搜索器:其功能是在互联网中漫游,发现和搜集信息;索引器:其功能是理解搜索器所搜索到的信息,从中抽取出索引项,用于表示文档以及生成文档库的索引表;检索器:其功能是根据用户的查询在索引库中快速检索文档,进行相关度评价,对将要输出的结果排序,并能按用户的查询需求合理反馈信息;用户接口(HTML页面):其作用是接纳用户查询、显示查询结果、提供个性化查询项。搜索引擎搜索引擎组成部分搜索引擎搜索引擎组成部分搜索器搜索器的功能是在互联网中漫游,发现和搜集信息。它常常是一个计算机程序,日夜不停地运行,它要尽可能多、尽可能快地搜集各种类型的新信息,同时因为互联网上的信息更新很快,所以还要定期更新已经搜集过的旧信息,以避免死连接和无效连接。目前有两种搜集信息的策略:(1)从一个起始URL集合开始,顺着这些URL中的超链接(Hyperlink),以宽度优先、深度优先或启发式方式循环地在互联网中发现信息。这些起始URL可以是任意的URL,但常常是一些非常流行、包含很多链接的站点(如Yahoo!)。(2)将Web空间按照域名、IP地址或国家域名划分,每个搜索器负责一个子空间的穷尽搜索。搜索引擎搜索引擎组成部分搜索器搜索器搜集的信息类型多种多样,包括HTML、XML、Newsgroup文章、FTP文件、字处理文档、多媒体信息。搜索器的实现常常使用分布式、并行计算技术,以提高信息发现和更新的速度,商业搜索引擎的信息发现可以达到每天几百万网页。搜索引擎搜索引擎组成部分索引器索引器的功能是理解搜索器所搜索的信息,从中抽取出索引项,用于表示文档以及生成文档库的索引表。索引项有客观索引项和内容索引项两种:客观项与文档的语意内容无关,如作者名、URL、更新时间、编码、长度、链接流行度(LinkPopularity)等等;内容索引项是用来反映文档内容的,如关键词及其权重、短语、单词等等。搜索引擎搜索引擎组成部分索引器内容索引项可以分为单索引项和多索引项(或称短语索引项)两种。单索引项对于英文来讲是英语单词,比较容易提取,因为单词之间有天然的分隔符(空格);对于中文等连续书写的语言,必须进行词语的切分(分词技术)。在搜索引擎中,一般要给单索引项赋与一个权值,以表示该索引项对文档的区分度,同时用来计算查询结果的相关度。使用的方法一般有统计法、信息论法和概率法。短语索引项的提取方法有统计法、概率法和语言学法。搜索引擎搜索引擎组成部分索引器索引表一般使用某种形式的倒排表(InversionList),即由索引项查找相应的文档。索引表也可能要记录索引项在文档中出现的位置,以便检索器计算索引项之间的相邻或接近关系(proximity)。索引器可以使用集中式索引算法或分布式索引算法。当数据量很大时,必须实现即时索引(InstantIndexing),否则不能够跟上信息量急剧增加的速度。索引算法对索引器的性能(如大规模峰值查询时的响应速度)有很大的影响。一个搜索引擎的有效性在很大程度上取决于索引的质量。搜索引擎搜索引擎组成部分检索器检索器的功能是根据用户的查询在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并实现某种用户相关性反馈机制。
检索器常用的信息检索模型有集合理论模型、代数模型、概率模型和混合模型四种。搜索引擎搜索引擎组成部分用户接口用户接口的作用是输入用户查询、显示查询结果、提供用户相关性反馈机制。主要的目的是方便用户使用搜索引擎,高效率、多方式地从搜索引擎中得到有效、及时的信息。用户接口的设计和实现使用人机交互的理论和方法,以充分适应人类的思维习惯。搜索引擎搜索引擎组成部分用户接口用户输入接口可以分为简单接口和复杂接口两种。简单接口只提供用户输入查询串的文本框;复杂接口可以让用户对查询进行限制,如逻辑运算(与、或、非)、相近关系(相邻、NEAR)、域名范围(如.edu、.com)、出现位置(如标题、内容)、信息时间、长度等等。目前一些公司和机构正在考虑制定查询选项的标准。搜索引擎搜索引擎的技术发展趋势提高搜索引擎对用户检索提问的理解对检索结果进行处理确定搜索引擎信息搜集范围,提高搜索引擎的针对性将搜索引擎的技术开发重点放在对检索结果的处理上,提供更优化的检索结果搜索引擎的分类专家系统网络蜘蛛网络蜘蛛基本原理网络蜘蛛网络蜘蛛基本原理网络蜘蛛即WebSpider,是一个很形象的名字。把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页,从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。如果把整个互联网当成一个网站,那么网络蜘蛛就可以用这个原理把互联网上所有的网页都抓取下来。网络蜘蛛网络蜘蛛基本原理蜘蛛是一种半自动的程序,就象现实当中的蜘蛛在它的Web(蜘蛛网)上旅行一样,蜘蛛程序也按照类似的方式在Web链接织成的网上旅行。蜘蛛程序之所以是半自动的,是因为它总是需要一个初始链接(出发点),但此后的运行情况就要由它自己决定了,蜘蛛程序会扫描起始页面包含的链接,然后访问这些链接指向的页面,再分析和追踪那些页面包含的链接。从理论上看,最终蜘蛛程序会访问到Internet上的几乎每一个页面,因为Internet上几乎每一个页面总是被其他或多或少的页面引用。
网络蜘蛛网络蜘蛛基本原理许多搜索引擎的网络蜘蛛只是抓取那些重要的网页,而在抓取时评价网页重要性的主要依据之一是某个网页的链接深度。在抓取网页的时候,网络蜘蛛一般有两种策略:广度优先和深度优先。网络蜘蛛网络蜘蛛基本原理广度优先是指网络蜘蛛会先抓取起始网页中链接的所有网页,然后再选择其中的一个链接网页,继续抓取在此网页中链接的所有网页。这是最常用的方式,因为这个方法可以让网络蜘蛛并行处理,提高其抓取速度。网络蜘蛛网络蜘蛛基本原理深度优先是指网络蜘蛛会从起始页开始,一个链接一个链接跟踪下去,处理完这条线路之后再转入下一个起始页,继续跟踪链接。这个方法有个优点是网络蜘蛛在设计的时候比较容易。网络蜘蛛网络蜘蛛关键问题HTML分析:需要某种HTML解析器来分析蜘蛛程序遇到的每一个页面。页面处理:需要处理每一个下载得到的页面。下载得到的内容可能要保存到磁盘,或者进一步分析处理。多线程:只有拥有多线程能力,蜘蛛程序才能真正做到高效。确定何时完成:不要小看这个问题,确定任务是否已经完成并不简单,尤其是在多线程环境下。网络蜘蛛网络蜘蛛程序实现Java实现:创建智能网络蜘蛛——如何使用Java网络对象和HTML对象C#实现:VB实现:网络蜘蛛简单模拟第一步:通过蜘蛛抓取页面蜘蛛:Googlebot、baiduspider、Yahoo!Slurp、Msnbot;如何抓取页面?以文本形式下载,送回服务器;可能会做一些预处理,比如:压缩等网络蜘蛛简单模拟第二步:网页文件处理首先过滤所有HTML标签、CSS样式表、JS代码。网络蜘蛛简单模拟第二步:网页文件处理网络蜘蛛简单模拟第二步:网页文件处理网络蜘蛛简单模拟第三步:识别文字内容通过对过滤后文字内容的分析,来判断网页的核心内容。搜索引擎程序通过对上面文字的分析,发现以下信息:一共有95个字符;其中57个中文字符。“百度”出现4次,共8个中文,占16个字符。8÷57≈0.14≈14% 16÷95≈0.168≈17%判断结论:本页面和关键词“百度”有密切关系。网络蜘蛛简单模拟第四步:进行权重分值计算假设关键词重复1次得
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 中考数学复习三角形、四边形与图形变换综合课件
- 肠梗阻的外科治疗
- Unit1MyschoolPartBReadandwrite课件人教PEP版英语四年级下册
- 技术开发合同格式(31篇)
- 胆囊结石疼痛护理
- 白血病的相关
- Unit2AgreatpictureLesson2(课件)人教PEP版(一起)级上册
- 尺桡骨骨折的康复治疗
- 常用中药鉴定
- 节假日人流高峰防踩踏预案
- 脊柱损伤固定搬运术
- 医院质控员管理办法
- 肯德基餐饮连锁经营总部组织结构设计
- 企业事故管理规定(标准)
- 啤酒企业税收筹划研究
- 代表怎样写好建议
- 数独骨灰级100题
- 以体制机制改革激发创新活力-国家首批14家协同创新中心案例综述
- 车身部品件中英文对照表
- 细菌分类表(按界门纲目科属种分类)
- 市政工程单位(子单位)工程观感质量检查记录附表43
评论
0/150
提交评论