版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
Scrapy框架的基本操作Contents知识目标技能目标素养目标掌握Scrapy框架的基本操作和标准流程提高我们的数据采集和处理能力培养良好的信息素养和道德意识Scrapy框架操作步骤Scrapy爬虫的流程大致分为以下四个步骤创建一个新的爬虫项目明确想要抓取的目标制作爬虫开始爬取网页存储爬取内容(一般通过管道进行)新建项目明确目标创建spider存储数据新建项目命令格式如下:scrapystartproject项目名称在终端使用命令创建Scrapy项目示例新建项目新建一个Scrapy项目项目目录结构如下:创建Spider创建Spider分为以下三个步骤:提取数据运行spider创建spider创建爬虫创建爬虫的命令格式如下:scrapygenspider爬虫名称"爬取域"创建Spider创建Spider示例创建Spider文件内容如下所示:新创建的爬虫文件baidu.py创建Spider新创建的爬虫文件baidu.py文件内容如下所示:创建Spider/board?platform=pc&sa=pcindex_entry以百度热搜榜为示例,该页面的内容如下图所示抓取内容就是页面中热搜榜的数据定义起始URLclassBaiduSpider(scrapy.Spider):name='baidu'allowed_domains=['']
start_urls=['/board?platform=pc&sa=pcindex_entry']创建Spiderdefparse(self,response):withopen("hotlist.html","w",encoding="utf-8")asfile: file.write(response.text)处理响应对象创建Spider定义parse方法,对响应对象进行处理运行Spider命令格式为:运行爬虫scrapycrawl爬虫名称示例运行SpiderScrapy框架的基本操作实操案例定义起始URLclassBaiduSpider(scrapy.Spider):name='baidu'allowed_domains=['']
start_urls=['/board?platform=pc&sa=pcindex_entry']创建Spider本讲小结创建scrapy项目1scrapystartprojectmySpider生成spider2cdmySpiderscrapygenspiderbaidu“”本讲小结定义start_urls,定义parse()方法3运行spider4scrapycrawlbaidu本讲小结创建scrapy项目1scrapystartprojectmySpider生成spider2cdmySpiderscrapygenspiderbaidu“”定义start_urls,定义parse()方法3运行spider4scrapycrawlbaidu课后作业1创建第一个Scrapy项目2抓取热点新闻3熟悉Scrapy框架的基本操作Scrapy框架操作步骤Scrapy爬虫的流程大致分为以下四个步骤创建一个新的爬虫项目明确想要抓取的目标制作爬虫开始爬取网页存储爬取内容(一般通过管道进行)新建项目明确目标创建spider存储数据Scrapy框架操作步骤Scrapy爬虫的流程大致分为以下四个步骤创建一个新的爬虫项目明确想要抓取的目标制作爬虫开始爬取网页存储爬取内容(一般通过管道进行)新建项目明确目标创建spider存储数据制作Spider定义一个容器保存要爬取的词条数据Scrapy提供了Item类用来表示实体数据制作SpiderItem对象类似于词典(dictionary-like)的API用于声明可用字段的简单语法简单的容器,保存了爬取到得数据提供了:制作Spideritem.py文件未修改前如下:修改后:制作Spideritem.py文件未修改前如下:修改后:制作Spider提取数据观察源码,定位目标数据。制作Spider提取数据修改后的baidu.py内容如下:(这里希望在讲解每一行的时候有一条红色下划线指向该行)返回结果后就退出循环return返回的是生成器yield制作Spider提取数据修改后的baidu.py内容如下:返回结果后就退出循环return返回的是生成器yield制作Spider提取数据修改后的baidu.py内容如下:(这里希望在讲解每一行的时候有一条红色下划线指向该行)解析技术框架本身提供了一套机制来帮助用户获取信息Selectors制作Spider运行爬虫输入“scrapycrawlbaidu”存储数据目前只在控制台看到输出结果存储数据目前只在控制台看到输出结果存储数据-o选项可以输出指定格式的文件:scrapycrawlbaidu-ohotlist.csv存储数据以下命令对应多种输出格式scrapycrawlbaidu-ohotlist.csvscrapycrawlbaidu-ohotlist.jsonscrapycrawlbaidu-ohotlist.xmlscrapycrawlbaidu-ohotlist.picklescrapycrawlbaidu-ohotlist.mar
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 广东理工学院《畜牧机械》2023-2024学年第一学期期末试卷
- 广东科技学院《谱学导论》2023-2024学年第一学期期末试卷
- 广东江门幼儿师范高等专科学校《藏药材栽培学》2023-2024学年第一学期期末试卷
- 广东行政职业学院《人力资源综合实训》2023-2024学年第一学期期末试卷
- 广东工程职业技术学院《创意传播管理》2023-2024学年第一学期期末试卷
- 广东第二师范学院《Photoshop图像处理》2023-2024学年第一学期期末试卷
- 《高效绩团队》课件
- 广安职业技术学院《房地产开发》2023-2024学年第一学期期末试卷
- 赣州职业技术学院《翻译概论》2023-2024学年第一学期期末试卷
- 保洁消防培训课件
- 口腔急救知识培训课件
- 三年级上册脱式计算练习200题及答案
- 税法(第十版)课件:税法概述
- 眼内容物剜除的护理
- 2023-2024学年江苏省盐城市大丰区八年级(上)期末数学试卷(含解析)
- 外科2024年度神经外科工作总结及计划
- 新教材-湘教版高中地理必修第一册全册各章节知识点考点提炼汇总
- 《货币的时间价值》课件
- 浙江省杭州市西湖区2023-2024学年六年级上学期期末科学试卷
- 《疼痛科特色诊疗》课件
- 软件项目服务外包工作管理办法
评论
0/150
提交评论