《数据采集技术》课件-Settings - 配置_第1页
《数据采集技术》课件-Settings - 配置_第2页
《数据采集技术》课件-Settings - 配置_第3页
《数据采集技术》课件-Settings - 配置_第4页
《数据采集技术》课件-Settings - 配置_第5页
已阅读5页,还剩16页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Settings——配置配置文件管理爬虫行为和功能的关键部分提供了各种配置选项,可以自定义和控制爬虫的行为配置文件管理爬虫行为和功能的关键部分提供了各种配置选项,可以自定义和控制爬虫的行为Settings—常见配置Settings—常见配置Settings—常见配置Scrapy架构Settings—常见配置1基础配置使用Scrapy实现的bot名称,也叫项目名称默认的USER_AGENT由它来构成,也作为日志记录的日志名SPIDER_MODULES=['项目名称.spiders']NEWSPIDER_MODULE='项目名称.spiders'BOT_NAMESPIDER_MODULESSettings—常见配置1基础配置设置爬取网站时使用的默认User-AgentUSER_AGENT='项目名称(+)'设置是否遵循robots.txt中的爬虫规则ROBOTSTXT_OBEY=FalseUSER_AGENTROBOTSTXT_OBEYSettings—常见配置1基础配置设置禁用Cookies,默认是True,启用一般将Cookies的功能禁用COOKIES_ENABLED=FalseDEFAULT_REQUEST_HEADERS设置ScrapyHTTP请求使用的默认headerSettings—常见配置2并发与延迟设置Scrapy下载器并发请求的最大值,默认是16CONCURRENT_REQUESTS每个域名能够被执行的最大并发请求数目,默认值8CONCURRENT_REQUESTS_PER_DOMAIN能够被单个IP处理的并发请求数,默认值0,代表无限制CONCURRENT_REQUESTS_PER_IPSettings—常见配置2并发与延迟设置ItemPipeline同时处理每个response的item的最大值,默认是100CONCURRENT_ITEMS设置下载器在下载同一网站两个请求之间的间隔时间默认值为0,同时也支持小数DOWNLOAD_DELAYSettings—常见配置2并发与延迟设置下载器的超时时间(单位:秒),默认值是180DOWNLOAD_TIMEOUTSettings—常见配置3爬取深度、方式设置爬取网站最大允许的深度(depth)值。默认值为0,表示没有限制DEPTH_LIMIT爬取基本原则。爬取时,0表示深度优先Lifo(默认值),后进先出;1表示广度优先FiFo,先进先出。DEPTH_PRIORITYSettings—常见配置4中间件、管道、扩展MIDDLEWARES启用或禁用中间件。SPIDER_MIDDLEWARES={ '项目名称.middlewares.SpiderMiddleware':543,}DOWNLOADER_MIDDLEWARES={ '项目名称.middlewares.DownMiddleware':543,}Settings—常见配置4中间件、管道、扩展SPIDER_MIDDLEWARES启用或禁用爬虫中间件DOWNLOADER_MIDDLEWARES启用或禁用下载器中间件,这里需要使用,否则抓取内容无法使用Settings—常见配置4中间件、管道、扩展EXTENSIONS配置并启用扩展,主要是一些状态监控ITEM_PIPELINES配置启用Pipeline持久化数据字典的键表示pipeline的名称,可以是任意值,不过值习惯设置在0-1000范围内。值越小则优先级越高Settings—常见配置以上属于全局配置项目中所有爬虫共享很多时候会实现局部配置定义字典类型的custom_settings成员变量局部配置定义custom_settings={ 'DOWNLOAD_DELAY':10}启动时配置scrap

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论