下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
搜寻引擎的工作原理大致可以分为三个阶段:爬行和抓取、预处理、排名一、爬行和抓取搜寻引擎用来爬行和访问页面的程序被称为蜘蛛(spider),也称为机器人(bot)。搜寻引擎蜘蛛访问网站页面时类似于一般用户使用的扫瞄器,蜘蛛程序发出页面访问恳求后,服务器返回HTML代码,蜘蛛程序把收到的代码存入原始页面数据库。为了提高爬行和抓取速度,搜寻引擎都是使用多个蜘蛛并发分布爬行。蜘蛛访问任何一个网站时都会先访问网站根名目下的robots.txt文件,吐过robots.txt文件禁止搜寻引擎抓取某些文件或者名目,蜘蛛将遵守合同,不抓取被禁止的网址。所以robots.txt文件对一个网站来说是至关重要的。为了抓取网上尽量多的页面,搜素引擎蜘蛛会跟踪页面上的链接,从一个页面爬行到下一个页面,就似乎蜘蛛在蜘蛛网上爬行一样,这就是搜素引擎蜘蛛名称的由来。最简洁的爬行遍历策略分为两种:深度优先、广度优先深度优先:蜘蛛沿着发觉的链接始终向前爬行,直到前面再也没有其他链接,然后返回到第一个页面,沿着另一个链接再始终往前爬行。广度优先:蜘蛛在一个页面上发觉多个链接时,不是顺着一个链接始终向前,而是把页面上全部第一层链接都爬一遍,然后再沿着其次层页面上发觉的链接爬向第三层页面。通常这两种爬行策略时混合使用的。吸引蜘蛛的方法:♦提高网站和页面的权重,♦提高页面更新度,♦高质量的导入链接,♦与首页点击距离近为了避开重复爬行和抓取网址,搜寻引擎会建立一个地址库,纪录已经被发觉还没有抓取的页面和已经被抓取的页面。地址库来源:♦人工录入的种子网站,♦蜘蛛从抓取页面获得的地址库中没有的网址,♦站长通过搜寻引擎网页提交表格提交进来的网址蜘蛛爬行的时候也会进行简洁的复制内容检测,假如遇到权重很低的网站上大量转载或抄袭内容时,很可能不再连续爬行,这也是许多权重低的网站页面更新的许多很快但却没有被收录的缘由之一。二、预处理•提取文字:搜寻引擎预处理首先要做的就是从HTNL文件中去除标签、程序,提取出可以用于排名处理的网页文字内容(还包括META标签中的文字、图片替代文字、FLASH文件替代文字、链接锚点文字等)。・中文分词:这一步在中文搜寻引擎中才会用到。中文分词一般分为两类:字典匹配、基于统计。字典匹配:将待分析的一段汉字与一个事先造好的词典中的词条进行匹配,在待分析汉字串中扫描到词典中已有的词条则匹配胜利,或者说切分出一个单词。基于统计:分析大量文字样本,计算出字与字相邻消失的统计概率,几个字相邻消失越多,就越可能形成一个单词。•去停止词:搜寻引擎在索引页面之前会去掉一些停止词,如:“的”、“地”、“得”之类的助词,“啊”、“哈”、“呀”之类的感叹词,“从而”、“以”、“却”之类的副词或介词。・消退噪声:搜寻引擎需要识别并消退噪声,排名时不使用噪声内容,基本方法是依据HTML标签对页面分块,区分出页头、正文、页脚、广告等区域,在网站上大量重复消失的区块往往属于噪声,对页面消噪后剩下的才是页面的主体内容。•去重:同一篇文章常常重复消失在不同网站及同一个网站的不同网址上,搜寻引擎并不喜爱则好重啊个重复性的内容,搜寻引擎盼望只返回相容文章的一篇,所以在惊醒索引前还需要识别和删除重复内容,这个过程就成为“去重”。・正向索引:搜寻引擎索引程序将页面及关键字形成词表结构存储进索引库,每个文件都对应一个文件ID,文件内容被表示为一串关键词的组合。实际上在搜寻引擎索引库中,关键词也已经转换成为关键词ID,这样的数据结构就称为正向索引。•倒排索引:搜寻引擎将正向索引数据库重新构造为倒排索引,把文件对应到关键词的映射转换为关键词到文件的映射。・链接关系计算:主要体现就是Google的PR值,搜狗的SR值等•特别文件处理:搜寻引擎有时也会抓取除HTML文件以外的文件,如:PDF、Word、WPS、XLS、PPT、TXT文件等三、排名・搜寻词处理:★中文分词,★去停止词,★指令处理(及分词后的关键词规律关系,通常是“与"规律),★拼写错误矫正,★整合搜寻触发(
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 警械使用课件
- 2023年国家公务员考试《申论》真题(地市卷)及答案解析
- 9.2《永遇乐·京口北固亭怀古》-高一语文上学期同步备课拓展(统编版必修上册)
- 西南林业大学《材料加工工艺与设备》2022-2023学年第一学期期末试卷
- 西京学院《微机原理与接口技术》2023-2024学年期末试卷
- 西京学院《汉语国际教育概论》2023-2024学年第一学期期末试卷
- 幼儿园小班打击乐活动《小鳄鱼之歌》课件
- 西华师范大学《中学思想政治学科教学论》2022-2023学年第一学期期末试卷
- 西华师范大学《舞台剧创作》2023-2024学年第一学期期末试卷
- 房地产金融与投资概论教学课件第六章房地产开发建设融资
- 河北中盐龙祥盐化有限公司宁晋盐矿矿山地质环境保护与土地复垦方案
- 2017年10月自考00258保险法试题及答案含解析
- 放射人员辐射安全培训课件
- 社会稳定风险评估 投标方案(技术标)
- 第21届WMO初赛3年级A卷(含答案)
- 中心静脉深静脉导管维护操作评分标准
- 上消化道出血临床指南
- 大学生软件工程师生涯发展报告
- XBT 243-2023 氯化镧铈 (正式版)
- 五年级【语文】交流平台初试身手2课件
- 成都达州商会筹备方案
评论
0/150
提交评论