




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
趣学Python爬虫爬虫框架之scrapy(上)本课目录INDEX什么是框架爬虫框架scrapy结构scrapy框架组件说明scrapy框架安装与坑使用框架创建第一个爬虫本课需要你对类/面向对象编程有一定的了解,包含对象、继承、重写本课需要你对生成器有一定了解本课并非是爬虫的必修课,没有框架也可以进行爬取框架是从业务层对高复用代码的封装框架是一个工业级的产物,这个类似于我们从沟通靠喊到OA协同办公大家需要站在管理层面和可持续性维护的层面来看待框架LET’sTRY
IT!不要抱着一次必胜的希望,
这个一口气学不会爬虫框架-scrapy
学习前言前言什么是框架框架框架(
Framework
)是构成一类特定软件可复用设计的一组相互协作的类。框架规定了你的应用的体系结构。它定义了整体结构,类和对象的分割,各部分的主要责任,类和对象怎么协作,以及控制流程。框架预定义了这些设计参数,以便于应用设计者或实现者能集中精力于应用本身的特定细节框架特点框架的工作单元是一个工程文件组,并非一个或多个py文件框架内部已经对特定功能基于业务需求进行了封装(例如random.randint)框架本身会组织、协调内部的工作流程,这个有别于我们常规的理解框架通常由多个模块组成,每个模块有具体的任务或功能框架其实就是一个项目模版或者说写作大纲框架的执行效率通常高于普通硬编码(对输入输出都有优化)程序员框架驾驶员汽车驾驶员不用管造车,组装车,
他只需要踩下油门、打方向盘,车就能按照他意愿的速度和方向行驶。那么具体引擎和变速箱、方向盘如何协作具体细节,其实驾驶员不知道也不需要管。这个就是我们现实世界里的框架。框架很像一条流水线,每个单元只要把自己的活儿干好了即可。这条流水线可以生产汽车,可以生产口罩爬虫框架scrapy结构InternetItems/Pipelines
管道Downloader
下载器主引擎2345STARTSpider
爬虫器7 6 1ENGINE88包含中间件包含中间件请求发起数据解析执行请求或下载动作Scheduler
调度器任务存储任务执行调度数据持久化保存scrapy框架组件Engine(引擎):
负责Spider、ItemPipeline、Downloader、Scheduler中间的通讯,信号、数据传递以及流程控制。Scheduler(调度器):
它负责接受引擎发送过来的Request请求,并按照一定的方式进行整理排列,入队,当引擎需要时,交还给引擎。Downloader
(
下载器)
:
负责下载Scrapy
Engine(
引擎)
发送的所有Requests
请求,
并将其获取到的Responses交还给Scrapy
Engine(引擎),由引擎交给Spider来处理。Spider(爬虫):它负责处理所有Responses,从中分析提取数据,获取Item字段需要的数据,并将需要跟进的URL提交给引擎,再次进入Scheduler(调度器)。Item
Pipeline(管道):它负责处理Spider中获取到的Item,并进行后期处理(详细分析、过滤、存储等)的地方。Downloader
Middlewares(下载中间件):你可以当作是一个可以自定义扩展下载功能的组件。Spider
Middlewares(Spider中间件):你可以理解为是一个可以自定扩展和操作引擎和Spider中间通信的功能组件(比如进入Spider的Responses;和从Spider出去的Requests)scrapy框架安装与坑常规安装遇到的坑安装会报错缺少文件scrapy框架安装与坑失败原因编译安装twisted库失败简单解释一下这个问题,
未来估计大家还能遇到,
这个是scrapy需要使用c++语言的依赖库,通常你可以安装C++14解决这个问题,
但是这个要几个GB下载。那么python给我们提供了一个更快速便捷的解决方案,叫wheel包,这个包,根据不同的库需要的wheel包进行下载https:///~gohlke/pythonlibs/下载wheel包scrapy框架安装
wheel包下载给大家提供了
PY3.7和3.8
的
64位版本的下载在资料中(万门网盘)注意这里的型号识别:64位对应Python版本号32位pipinstall
wheelpipinstall
pywin32pip
installpipinstall
scrapyscrapy框架安装的依赖库/包windows用户Windows用户安装注意,
需要执行以下四步MAC/Linux用户通常直接pip
install
scrapy
即可如果失败则执行
1
3
和
4步第1步第2步第3步第4步wheel包的存放位置,通常任何位置都可以,
但是建议放在Python目录下的Scripts目录下scrapy框架安装的依赖库/包scrapy安装后测试scrapy框架安装的依赖库/包如何使用scrapy框架创建项目scrapystartproject
mySpiderProject注意这个是在命令行完成爬虫目录/文件夹爬虫源文件生成工程文件如何使用scrapy框架创建爬虫文件scrapygenspidertheSpider
注意这个是在命令行完成执行爬虫scrapycrawl
theSpider注意这个是在命令行完
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 企业噪音粉尘管理办法
- 信息安全使用管理办法
- 交叉科研团队管理办法
- 企业公司账本管理办法
- 企业食盐储备管理办法
- 企业连连支付管理办法
- 人员出差安全管理办法
- 产业扶贫资金管理办法
- 2025年滨湖投资面试试题及答案
- 卫生方面课件
- 2025届湖北省路桥集团限公司校园招聘190人易考易错模拟试题(共500题)试卷后附参考答案
- 电气维护培训课件
- 银行安防知识培训
- 苏菲新生儿呼吸机操作手册(中文)
- 医院手术室装修要点及施工标准
- PDCA医院品质管理-院感办职业暴露管理专项改善案例
- 《我国税制结构分析》课件
- 污水处理工艺培训课件
- 2024-2030年中国抗菌陶瓷市场经营效益与供需前景预测报告
- 矿山开采土方外运施工方案
- 矿泉水买卖合同样本
评论
0/150
提交评论