第15章互动搜索引擎相关技术v_第1页
第15章互动搜索引擎相关技术v_第2页
第15章互动搜索引擎相关技术v_第3页
第15章互动搜索引擎相关技术v_第4页
第15章互动搜索引擎相关技术v_第5页
已阅读5页,还剩68页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Crawler&课VXsuy其他均:邪 ::知乎: ,否则 和经济赔

第1课程大Inverted中文分 Word什么是生产者消费如何设计如何设计一个更RobustTypeahead后端的Typeahead设计 ,否则 和经济赔

第2

Web WebQuery ,否则 和经济赔

第3Inverted从worddocidlist的索引同理,ForwardIndexdocidwordlist ,否则 和经济赔

第4中文分 Word拆分方法1:化||服装拆分方法2:化||维ViterbiLintCode ,否则 和经济赔

第5设计爬虫系DesignWeb ,否则 和经济赔

第6Scenario场 ,否则 和经济赔

第7 ,否则 ,否则

第8 ,否则 和经济赔

第9HTML还

,否则 ,否则

第10HTML还 存HTML,文本信息在不同的位置权重不同且还需要保存<ahref=”/course/”>这样 ,否则 和经济赔

第11 ,否则 和经济赔

第12Page ,否则 和经济赔

第13选择哪些URL作为我们 ,否则 和经济赔

第14选择哪些URL作为我们 (seedurls)通常是一 AlexaTop100 ,否则 和经济赔

第15爬取目:60trillionwebpagesinthe一个月之内将全世界所有网页抓取一次(20m gesper下所有网页需要600pb(10kper ,否则 和经济赔

第1610天之内抓取下1B网页(1k gesper需要10T (10kper ,否则 和经济赔

第17Service服在一个基础WebCrawler中我们Crawler ,否则 和经济赔

第18DFSor ,否则 和经济赔

第19WebCrawler中,CrawlerProducerURL从队列中获取需要抓取的

把网页中解析出的新URL加入WebWeb ,否则 和经济赔

第20单进程(singleprocess) ,否则 和经济赔

第21单进程(singleprocess)singleprocess会因为network的原因大部分时间处于idle状态一般来说,平均download一篇w ge需要2s那么singleprocess的性能只能做到0.5 ge/ ,否则 和经济赔

第22既然一个process可以做到0.5 ge/是不是2k个processes就可以做到1k ges/s ,否则 和经济赔

第23既然一个process可以做到0.5 ge/是不是2k个processes就可以做到1k ges/s不行,过contextswitch会导CPU更好的办法是,我们20台机器,每台机器启100processesprocess单独执 ,否则 和经济赔

第24网页如 BFS中的Queue如 BFS中的HashSet如 ,否则 和经济赔

第25网页

,否则 ,否则

第26网页DFS(DistributedFile 且破坏了爬虫Sta ess的属性问:系统设计中还有哪些常见的 ess的东西 ,否则 和经济赔

第27BFS中的队列如 Queue ,否则 ,否则

第28BFS中的队列如 是直接在内存中开一个Queue么? 应该MessageQueueRedisKafka ,否则 和经济赔

第29BFS中的HashSet如 HashSet的作用是即避免一个网页 ,否则 和经济赔

第30BFS中的HashSet如 HashSet的作用是即避免一个网页在数据库可以是效率比较key-value的数据 ,否则 和经济赔

第31MessageWorkMessage

FileSystemrstudyr2为翻录Crler ,否则 和经济赔

第32Scale设计Robust ,否则 和经济赔

第33Robots 的robots协议中会限制爬虫的 Robots协议不是一个强制协议,是一个软性约定 ,否则 和经济赔

第34 ,否则 和经济赔

第35 单纯的使用先进先出的Queue会使得一个 ,否则 和经济赔

第36 让Crawler只做Consumer,不负责产生新的抓取任务新增一个Scheduler(Producer)负责调度和生产抓取任务在Database中记录每个 ,否则 和经济赔

第37 DB中增加key= value=url_list的 下面待抓取的URLListDB中增加每个 Scheduler的代码,循环遍历每个 ,就把其中的一个url丢到抓取队列MessageQueue(Storecrawler取的URL并抓取

存网

FileSystem

从URLList中获得URL(每次1个或者若干个,根据Robots协WebURL存入到对应下面的待抓取URL列表中

抓取的URL

,否则 和经济赔

第38Database key=URLvalue={

key=value=<keykeyvalue=[url1,url2> ,否则 和经济赔

第39VXstdy322 ,否则 和经济赔

第40 ,否则 和经济赔

第41 Crawler系 可以通 的whois信息来确 ,否则 和经济赔

第42 ,否则 和经济赔

第43增加对URL的信息记录下这URL下一次需要被重新抓取的时间可以通ExpenentialBackoff的方式计算 ,否则 和经济赔

第44ExponentialURL抓取成功以后,默1小时1小时以后抓取到的网页没有变化,2小时2小时以后还是没有变化,4小时以后重新抓取,以此类1小时以后抓取到的网页发生变化了,30分钟30分钟以后又变化了,15分钟 URL抓取失效以后,默1小时1小时以后依然抓不到,则设置2小 ,否则 和经济赔

第45 ,否则 和经济赔

第46与,否则将和经济赔

第47Typeahead Typeahead.js 支持输入一个前缀后,返回匹配这个前缀Suggestion是搜索时Query建议 ,否则 和经济赔

第48Scenario场推算QPS ,否则 和经济赔

第49Scenario场尽量返回被其他人搜索得较DAU=假设6次,每次平均输10 一次SuggestionAPI来获得Top10QueriesAverageQPS=500M*6*10/86400=30B/86400~340kPeakQPS~AverageQPS*3~ ,否则 和经济赔

第50Service服QueryService:Top10Queries的CollectionService记录用户Queries提供 ,否则 和经济赔

第51Service服返回Top10Queries

输入

整理Query

在搜索框中输Query敲击回问:为什么不是QueryService请求CollectionService来实时计算Top ,否则 和经济赔

第52QueryService- ,否则 和经济赔

第53QueryService- Trie/PrefixTrie的数据库 ,否则 和经济赔

第54 -好处节省空坏处没有现成的支持该结构的数据在LintCode上练习Trie,了解TrVieX:的s实tud现y3原22为翻录倒HashTable好处现Key-valueStorage很多,如RocksDB,坏处空间耗费相对于Trie ,否则 和经济赔

第55Key-valuekey可以是用户输queryvalue ,否则 和经济赔

第56Key-valuekey可以是用户输queryvalueTop10 ,否则 和经济赔

第57如何计算Top10CollectionService负责统计Query定期遍历QueriesQuery通过PrefixTop10Queriesapple这个词1bapple需要分别aapappapplapple这5prefixTop10Queries如果某个prefix已经存在了被搜索次 的其他10个Queries,就无需再加入 下这样一些key-a:[“amazon”,“aws”, ”,“apple”,“airbnb”,“adidas”,ap:[“apex”, ”,“appleid”,…… ,否则 和经济赔

第58CollectionServiceQuerykey-valueStoragekey=queryvalue= ,否则 ,否则

第59Work返回Top10Queries

输入

在搜索框中输Query敲击回PrefixTop10Queries的结Prefix->Top10(KVStorage)

Query->Count(KVStorage) ,否则 和经济赔

第60ScaleMakeit ,否则 和经济赔

第61如何优Query都会成Top会浪费很 不会成为Top10的Queries ,否则 和经济赔

第62如何优不记录所有的Queries,以1/10000的概率来记录ifget_random(100000则对应Query计数+1因为我们Query次数,只需要一个相对该Top10的还Top ,否则 和经济赔

第63优PrefixTop10循环遍历Query然后打擂台的方式非常慢 ,否则 和经济赔

第64优PrefixTop10循环遍历Query然后打擂台的方式非常慢MapReduceMap<apple1b>→<aapple,1b<apapple1bReduce:遍历同一个Prefix下的Queries,Top10 ,否则 和经济赔

第65没有必要都获aapappapplappletop10 ,否则 和经济赔

第66没有必要都获aapappapplappletop10frontend设当用户停止输入超200ms时,才发送请 ,否则 和经济赔

第67要1M ,否则 和经济赔

第68Backendprefixtop10的数据时都主动Backend避免更新带Cache ,否则 和经济赔

第69Frontend-cache&Frontend-cache Pre-fetch即预加载一些用户prefixtop ,否则 和经济赔

第70Frontend-cachePre-fetch的方法避免过round-H5WebBrowserlocalStorage可以用来作为前端缓cache(key-value用户曾经

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论