搜索引擎检索端架构_第1页
搜索引擎检索端架构_第2页
搜索引擎检索端架构_第3页
搜索引擎检索端架构_第4页
搜索引擎检索端架构_第5页
已阅读5页,还剩28页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、检索端体系架构杨震原 2009-03目的和重点目的增进对baidu搜索引擎的理解了解各个模块的功能重点系统总体架构和这样设计的考虑各个模块基本功能、策略搜索引擎系统webspiderPageDataAnalyze&IndexIndex&DIDatasearcherClientbrowser检索端架构库用户How to search?BS从索引中找到检索结果库用户BSAS从结果中找到需要的部分库用户BSASDI从网页中找到标题和摘要库用户BSDIASUI生成结果页面库用户BSDIASUIBWS解析请求、发送结果库用户BSDIASUIBWS检索端的架构(理想情况)库BS/DI前端后端后端用户ASU

2、IBWS将BS、DI分成若干组库BS/DI库BS/DI库BS/DI用户ASUIBWS每个模块都在不止一台机器上库用户BS/DI库库库BS/DI库库库BS/DI库库ASUIBWS增加了接入模块处理连接库用户BS/DI库库库BS/DI库库库BS/DI库库ASUIBWSTransmitAS分层库用户BS/DI库库库BS/DI库库库BS/DI库库ACUIBWSTransmitBCBC检索端漏斗结构库用户BS/DI库库BS/DI库库BS/DI库ACUIBWSTransmitBCBC检索端漏斗结构用户ACUIBWSTransmitUSDAGSS实际库类型rtswdndnewsVIPnormalBCBCBC

3、用户分流用户TDOcdndnsTCJXQwebTransmit简介库BS/DI库库BS/DI库库BS/DI库AS用户UIBWSTransmitTransmit功能介绍减少单位连接的资源消耗抵御攻击禁止同一用户过多连接禁止同一用户过多请求防止慢连接攻击提供黑白名单功能分析用户连接情况提供keep alive功能BWS简介库BS/DI库库BS/DI库库BS/DI库AS用户UIBWSTransmitBWS的工作方式BWSApache-snapApache-seUI快照库检索用户快照用户BWS功能介绍解析用户http请求提供与UI的连接、数据传递传递静态文件(apache-se)提供网页快照(apac

4、he-snap)负载均衡个性化配置:cookie抵御攻击UI简介库BS/DI库库BS/DI库库BS/DI库AS用户UIBWSTransmitUI实际的连接UIASBWSCARSNSECTBPPIKUI相关名词解释摘要:用户看到的检索结果页面中,每一个URL结果的下面都有一小段文字描述,这就是摘要,这段描述来自这个URL的原文。飘红:在每个URL结果中,标题部分和摘要部分被高亮的部分就是飘红。UI主要功能介绍向各服务模块发送请求、从各模块接收数据整理结果进行最大匹配飘红按照模板生成结果页面,返回给BWS超时控制、负载控制(抵御攻击)负载均衡(不包括对AS)参数动态调整CacheAS简介库BS/D

5、I库库BS/DI库库BS/DI库AS用户UIBWSTransmitAS主要功能介绍根据策略名调用不同的过滤词和反过滤字典 (filterdict.n)决定每个查询串的黄反级别(sensitive_politics, sensitive_sex,filterlevel)根据策略名调度相应层、组的BS,均衡负载BS结果的合并,调用对应组的DI,均衡负载对DI、BS的容错(对BS、DI的重新请求)各类site和URL屏蔽和调权各种相关性调权策略BS、DI简介库BS/DI库库BS/DI库库BS/DI库AS用户UIBWSTransmitBS主要功能介绍检索词过滤:重复、遗漏、多余语法判断和处理(site、title、url、inurl、domain语法,“+ - |”操作、引号和书名号的处理)进行分词、取索引(调用par

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论