下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
搜索引擎三段式工作流程总结
现代的大规模搜索引擎一般采用三段式的工作流程,即:网页搜集、预处理、查询服务。现在我对这三点简单的阐述下:一、网页搜集搜索引擎是通过爬虫去搜集互联网中的网页,放入数据库,但是这不可能是用户提交查询的时候才去抓取,而是预先就搜集好一批网页,可以把WEB上的网页集合看成是一个有向图,搜集过程从给定起始URL集合S开始,沿着这些网页中的链接,按照先深或先宽某种策略遍历,不停的从S中移除URL,下载相应的网页,解析出网页中的超链接URL,看是否已经访问过,或者有未访问过的那些URL加入集合S。我们这里可以是定期搜集,增量搜集,或者是用户自主提交的方式进行爬取。并且对这批网页进行维护。这种维护,是为了能及时发现网页的新特征,搜集新的网页,改变过的网页,或者已经不存在的网页。二、预处理预处理主要包括四个方面:关键词的提取、镜像网页或转载网页的消除、链接分析和网页重要程度的计算1.关键词的提取作为预处理阶段的一个基本任务,就是要提取出网页源文件的内容部分包括的关键词。对于中文来说,就是根据一个词典,用一个所谓的“切词软件”,从网页文字中切除词典所包含的词语来,在那之后,一篇网页主要是由一组词来代表,p={a,b,c,……d}.一般来讲,我们会得到很多词,同一个词可能在一篇网页中出现多次。然后我们要去掉”停用词“,例如”的,在,是”这一类的词语。再加以对这些词的词频(TF)和文档频率(DF)之类的计算统计,从而指示出词语在一篇文档中的相对重要性和某种内容的相关性。2.镜像或者转载网页的消除在WEB上,存在着大量的重复信息,这种信息对于搜索引擎来说可能是负面的,因为需要消耗机器时间和带宽资源,并且无意义的消耗了计算机显示屏资源,也可以带来用户的抱怨,这么多重复,给我一个就够了。所以搜索引擎对于消除这些重复信息也是预处理中一个很重要的任务。3.链接分析搜索引擎除了对内容进行分析外,并且最重要的还需要对链接进行分析,链接信息不仅给出了网页之间的关系,而且还对判断网页的内容起到很重要的作用。网页中的内部链接和外部链接对网站的排序起到了很大的影响。4.网页重要程度的计算搜索引擎返回给用户是一个和查询相关的结果列表,列表中的条目顺序是很重要的问题。因此搜索引擎必须提供一种统计意义上的排序结果给用户,但并不能给所有用户都能提供满意的结果。如何对网页权重进行评估,是搜索引擎最需要解决的问题,例如GOOGLE的pr算法,其中思路就是认为“被引用越多的就是重要的”,和HITS算法等等。这些算法,有些在预处理阶段计算,有些则在查询服务阶段进行计算,从而最终形成最优的排序结果。三、查询服务当从一个S集合开始,通过预处理后得到的就是S的一个子集元素的某种内部显示,至少包含几个方面:原始网页文档,URL和标题,编号,所含重要关键词的集合(包括出现位置)等其他的一些指标。而系统关键词的总体集合和编号一起构成了一个倒排文件结构,使得一旦得到一个关键词输入,就立刻能给出相文档编号的集合输出。这里主要有三方面的:查询方式和匹配,结果排序,文档摘要。1.查询方式和匹配用户一般查询都是“要什么就输入什么”,这对于搜索引擎来说,是一种模糊的说法,它可能不知道你真正想要的是什么,所以就是希望网页中包含有该词或者短语中的词,也就对用户查询的词语或短语进行分词,形成一个q,他的每一个元素都对应倒排文件中的一个倒排表,即文档编号的集合。从而实现了查询和文档的匹配。2.结果排序要想给用户提供最高质量的网页信
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- GB/T 44807.1-2024集成电路电磁兼容建模第1部分:通用建模框架
- 共振音叉课件教学课件
- 电商物流解决方案
- 糖尿病的自我监测与管理
- 无人驾驶汽车的发展前景
- 食管癌晚期治疗进展
- 糖尿病治疗仪使用
- 初中化学常见气体的制取专题教案
- 角膜病病人的护理
- 海上日出说课稿第课时
- 配网工程监理管理要点-
- 儿童性发展与性教育-北京师范大学中国大学mooc课后章节答案期末考试题库2023年
- 卵巢癌(腹腔镜)临床路径
- 儿童体育锻炼安全须知课件PPT【内容完整】
- 施工企业成本控制讲课稿
- 光气及光气化企业隐患排查体系实施指南
- GB/T 26140-2023无损检测残余应力测量的中子衍射方法
- 转述句和直述句互换复习公开课一等奖市优质课赛课获奖课件
- 工业燃气燃烧器安全操作规程
- 2023学年完整公开课版S三英下Unit3Whatcolouristhisballoon
- 化学(心得)之化学试卷讲评课心得
评论
0/150
提交评论