




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、搜索引擎的工作(gngzu)原理共二十八页1.什么(shn me)是搜索引擎?搜索引擎(Search Engine)是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。搜索引擎包括全文索引、目录索引、元搜索引擎、垂直搜索引擎、集合(jh)式搜索引擎、门户搜索引擎与免费链接列表等一个搜索引擎由搜索器 、索引器 、检索器 和用户接口四个部分组成。搜索器的功能是在互联网中漫游,发现和搜集信息。索引器的功能是理解搜索器所搜索的信息,从中抽取出索引项,用于表示文档 以及生成文档库的索引表。检索器的功能是根据用户的
2、查询在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并实现某种用户相关性反馈机制。用户接口的作用是输入用户查询、显示查询结果、提供用户相关性反馈机制。 维基百科共二十八页2.搜索引擎的基本(jbn)分类全文索引目录(ml)索引元索引共二十八页3.搜索引擎的基本(jbn)组成共二十八页4.搜索引擎的工作(gngzu)原理共二十八页基本原理1、找到网站的URL并下载页面。2、判断页面质量是否达到收录标准收录页面,否则删除(shnch)。3、判断收录页面是否更新,更新页面快照。共二十八页1.通过(tnggu)网络爬虫获取信息网络爬虫是搜索引擎的下载系统,它的作用是内容的
3、获取,手段就是在万维网中通过链接不断爬取收集各类网页。但是互联网的页面浩如烟海,而且每天不断有新的内容产生,根据爬取目标和范围,可以将爬虫简单分为以下几类: 批量性爬虫:明确的抓取目标和范围,达到即停止增量型爬虫:应对网页不断更新的状态,爬虫需要及时反应。通用商业引擎(ynqng)一般都是这类垂直型爬虫:只针对某个特定领域的爬虫,根据主题过滤。共二十八页爬虫在爬取网页(wn y)的时候,应该怎样确定下一步的目标呢?主要有以下策略:宽度优先:最简单的方式,即将某个页面中的链接依次加入待爬取队列局部PageRank:PageRank是一种网页重要性指标,这种方式根据一定(ydng)时期内的局部Pa
4、geRank值决定下一步爬取目标OPIC:当下载当前网页后,将其重要性平均分给包含的链接,每次选取最重要的页面,不用迭代计算,速度较快大站优先:思想很简单,以网站为单位衡量页面重要性。共二十八页简要(jinyo)说明蜘蛛(网络爬虫)在整个互联网上爬行遇见你网站的一个URL,首先把URL提取出来根据网站权重(qun zhn)和相关性插入到URL队列中,然后是判断你网站的这条URL是否能够解析成功,如果能解析成功,蜘蛛会爬到你网站,这里需要说一下,蜘蛛并不是直接去分析你网页的内容,而是去寻找你网站robots文件,根据你网站的robots规则判断是否抓取你这个页面,如果robots文件不存在,则会
5、返回一个404错误,但是搜索引擎已经会继续抓取你的网站内容。搜索引擎抓取了网页内容之后会对网页进行一个简单的判断是否达到了收录标准,如果不符合则继续把URL加入到URL队列中,如果符合收录就会下载网页内容。共二十八页2. 建立(jinl)索引对于搜索引擎,索引更是其中最重要的核心技术之一,面对海量的网页内容,如何快速找到包含用户查询词的所有网页?倒排索引在其中扮演了关键的角色。对于一个网页,我们把它看做一个文档,其中的内容由一个个单词组成。为了对于用户的搜索词快速给出文档结果,我们要建立一个单词-文档的存储结构。倒排索引是实现单词文档矩阵的一种具体存储形式。通过倒排索引,可以根据单词快速获取包
6、含这个单词的文档列表(li bio)。倒排索引主要由两个部分组成:单词词典和倒排文件。 单词词典主要是两种存储方式:哈希加链接和树形结构。共二十八页索引建立(jinl)方法:(1)两遍文档遍历在第一遍扫描文档集合(jh)时,该方法并没有立即开始建立索引,而是收集一些全局的统计信息。比如文档集合(jh)包含的文档个数N,文档集合内所包含的不同单词个数M,每个单词在多少个文档中出现过的信息DF。在获得了上述3 类信息后,就可以知道最终索引的大小,于是在内存中分配足够大的空间,用来存储倒排索引内容。在第二遍扫描的时候,开始真正建立每个单词的倒排列表信息,即对某个单词来说,获得包含这个单词的每个文档的
7、文档ID,以及这个单词在文档中的出现次数TF共二十八页(2)排序法排序法对此做出了改进,该方法在建立索引的过程中,始终在内存中分配固定大小的空间,用来存放词典信息和索引的中间结果,当分配的空间被消耗光的时候,把中间结果写入磁盘,清空内存里中间结果所占空间,以用做下一轮存放索引中间结果的存储区。这种方法由于只需要固定大小的内存,所以(suy)可以对任意大小的文档集合建立索引。共二十八页(3)归并法在分配的内存定额被消耗光时,排序法只是将中间结果写入磁盘,而词典信息一直在内存中进行维护,随着处理的文档越来越多,词典里包含的词典项越来越多,所以(suy)占用内存越来越大,导致后期中间结果可用内存越来
8、越少。归并法对此做出了改进,即每次将内存中数据写入磁盘时,包括词典在内的所有中间结果信息都被写入磁盘,这样内存所有内容都可以被清空,后续建立索引可以使用全部的定额内存。共二十八页索引(suyn)的更新策略完全重建(zhn jin)再合并策略原地更新策略混合策略共二十八页3. 内容(nirng)检索内容检索模型是搜索引擎排序的理论基础,用来计算网页与查询(chxn)的相关性。A.常用的检索模型布尔模型向量空间模型概率模型语言模型机器学习排序共二十八页检索系统评价(pngji)指标精确率:搜索结果中相关文档的比例 A/(A+B)召回(zho hu)率:结果中相关文档占所有相关文档的比例 A/(A+
9、C)P10 : 前10个结果中相关查询的数目MAP指标 :对返回结果按次序加权,权值为排名的倒数查询相关查询无关在搜索结果内AB不在搜索结果CD共二十八页4. 链接(lin ji)分析搜索引擎在查找能够满足用户请求的网页(wn y)时,主要考虑两方面的因素:一方面是用户发出的查询与网页(wn y)内容的内容相似性得分,即网页(wn y)和查询的相关性;另一方面就是通过链接分析方法计算获得的得分,即网页(wn y)的重要性。链接分析就是通过网络的链接结构去获取网页(wn y)重要性的一类方法。链接分析算法很多,从模型上看,主要分为两类:随机游走:从某个网页以一定的概率跳转到它所包含的链接子集传播
10、:给予某个子集一定的传播,按照特定的条件,将权值传给其他网页共二十八页5.搜索(su su)结果的改善优化共二十八页5.1 作弊(zu b)分析作弊方法内容(nirng)作弊:设置无关关键字,内容(nirng)农场 (大量低质量内容(nirng))链接作弊:链接农场,互相链接.页面隐藏作弊:欺骗爬虫,隐藏无关关键字,重定向。WEB2.0作弊反作弊整体思路信任传播不信传播异常发现共二十八页A.信任(xnrn)传播模型在海量的网页数据中,通过一定的技术手段或者人工半人工手段,从中筛选出部分完全值得信任的页面,也就是肯定不会作弊的页面(可以(ky)理解为白名单),算法以这些白名单内的页面作为出发点,
11、赋予白名单内的页面节点较高的信任度分值,其他页面是否作弊,要根据其和白名单内节点的链接关系来确定。白名单内节点通过链接关系将信任度分值向外扩散传播,如果某个节点最后得到的信任度分值高于一定阈值,则认为没有问题,而低于这一阈值的网页则会被认为是作弊网页。 共二十八页B.不信任(xnrn)模型不信任传播模型从框架上来讲,其和信任传播模型是相似的,最大的区别在于:初始的页面子集合不是值得信任的页面节点,而是确认存在作弊行为的页面集合,即不值得信任的页面集合(可以(ky)理解为黑名单)。赋予黑名单内页面节点不信任分值,通过链接关系将这种不信任关系传播出去,如果最后页面节点的不信任分值大于设定的阈值,则
12、会被认为是作弊网页。 共二十八页C.异常(ychng)发现模型异常发现(fxin)模型也是一个高度抽象化的算法框架模型,其基本假设认为:作弊网页必然存在有异于正常网页的特征,这种特征有可能是内容方面的,也有可能是链接关系方面的。而制定具体算法的流程往往是先找到一些作弊的网页集合,分析出其异常特征有哪些,然后利用这些异常特征来识别作弊网页。共二十八页5.2 分析用户(yngh)意图准确分析用户的搜索意图是目前搜索引擎的重点研究方向。用户的意图可以初略分为导航型,信息(xnx)型,事物型搜索日志是挖掘用户意图的重要数据来源点击图:用户在查询结果出来后点击的链接可能更是他希望的结果查询回话:用户在短
13、时间的连续查询词存在相关性查询图:构建用户查询之间的结构关系用户在搜索时可能想不到合适的搜索词,或者关键词输入错误,这时候就需要帮助用户澄清搜索意图。常见的方法是:相关搜索,查询纠错共二十八页5.3 网页(wn y)去重经过统计,网络中有相当比例的网页是近似相同或者完全相同的,高达29%。如果搜索返回大量相似网页,显然(xinrn)降低了搜索结果质量。针对这一现象,网页去重就显得十分必要。网页去重一般是在爬虫抓取到网页后,对其建立索引之前。去重算法应该兼顾准确性和运行效率。典型的网页去重算法:特征抽取文档指纹生成相似性计算共二十八页5.4缓存机制(jzh)缓存机制可以加快用户相应速度,节省计算资源缓存系统(xtng)的目标是最大化缓存命中率和保持缓存与索引的一致性缓存的对象主要是网页搜索结果和查询词对应的倒排列表缓存淘汰策略主要有动态策略和混合策略共二十八页一个页面(y min)是如何被搜索引擎发现并收录的?共二十八页参考资料/11.html/11.html/link?url=K1sIVc5qtD-231wz_JMB8cZgS4xHvdNG1VMzX79RrFq64QuPMu_8Pkbl0yQviHAWN2S5SKq2yaqzHDUT6fVmnK共二十八页内容摘要搜索引擎的工作原理。维基百科。爬虫在爬取网页的时候,应该怎
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年师德师风工作方案
- 大班美术细菌课件
- 企业行动入口网站与客户关系管理方案
- 辽宁省瓦房店三中2025年高三4月考-语文试题试卷含解析
- 广东省深圳市龙岗区达标名校2025届初三英语试题9月18日第3周测试题含答案
- 珠宝店管理层
- 福建农业职业技术学院《中国古代文明(下)》2023-2024学年第二学期期末试卷
- 湖南省株洲市株洲县2025年数学五下期末学业质量监测试题含答案
- 广州城市职业学院《病理生理学理论》2023-2024学年第二学期期末试卷
- 河北省秦皇岛市2025年数学五下期末经典模拟试题含答案
- 前列腺癌临床路径(最全版)
- 国家旅游局新版团队出境旅游合同模板
- 油管保护盖板涵专项施工方案(共45页)
- 管道探伤焊口计算表
- 4S店三表一卡标准模板
- 南京地铁四号线风井主体结构施工方案
- 高中生物竞赛 第九章 染色体畸变课件
- 四年级下册《小数的意义和性质》整理和复习
- 弯板件冲压工艺及模具设计
- 土壤污染修复技术对比分析
- 3万高炉转炉混合煤气柜技术规程
评论
0/150
提交评论