1爬虫架构简介_第1页
1爬虫架构简介_第2页
1爬虫架构简介_第3页
1爬虫架构简介_第4页
1爬虫架构简介_第5页
已阅读5页,还剩7页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

爬虫架构简介2学习任务熟悉最简单的爬虫架构。3知识目标01能力目标02学习目标熟悉简单的爬虫框架学会爬虫的运行原理能够运用爬虫原理解决实际问题了解爬虫的运行原理4概念:用来启动、执行、停止爬虫、或者监视爬虫中运行情况。爬虫调度器爬虫调度器下载器URL队列分析页面去重存储WWW有用数据URLSURLSURLSURLS5概念:用于管理待抓取的URL集合和已抓取的URL集合。URL管理器添加新的URL到爬取集合中判断待添加URL是否在容器中将URL从待爬取集合移动到已爬取集合中获取待爬取URL判断是否还有待爬取URLURL管理器6概念:将互联网上URL对应的网页下载到本地的工具,是爬虫的核心组件。网页下载器网页下载器互联网URLHTML本地文件或内存字符串71、会解析出有价值的数据;2、由于每一个页面都有很多指向其它页面的URL,这些URL被解析出来之后,可以补充进URL管理器。网页解析器8

首先,调度器询问URL管理器,是否有待爬取的URL。如果有,则获取一个待爬取的URL返回给调度器,得到这个URL后返回给下载器,并下载URL内容;下载完成后,下载器将URL的内容返回给调度器,调度器将URL的内容传给解析器,解析其内容,得到价值数据,传给调度器,调度器收集价值数据,传给应用。另一方面调度器会将新的URL列表传给URL管理器,添加到待爬URL列表,如果还有待爬取的URL,上面步骤会循环执行。爬虫运行原理种子URL待抓取的URL任务队列网页内容有用信息存储已抓取的网页URL加入读取URLDNS解析网页下载网页解析9爬虫时序图调度器URL管理器下载器解析器应用循环有待取URL是/否获取1个待爬取ULRURL下载URL内容URL内容解析URL内容解析URL内容价值数据,新URL列表新增到待爬取URL10较复杂的爬虫原理图下载网页读取URL计算相似度抽取网页中的URL(深度、宽度、最佳)记录记录当前网页种子网页URL等待爬取的URL队列^互联网下载网页库已爬取的URL队列11知识点小结1.爬虫框架的基础概念

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论