(中职)数据采集技术(初级)项目6:项目实战 网络爬虫教学课件_第1页
(中职)数据采集技术(初级)项目6:项目实战 网络爬虫教学课件_第2页
(中职)数据采集技术(初级)项目6:项目实战 网络爬虫教学课件_第3页
(中职)数据采集技术(初级)项目6:项目实战 网络爬虫教学课件_第4页
(中职)数据采集技术(初级)项目6:项目实战 网络爬虫教学课件_第5页
已阅读5页,还剩18页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、正版可修改PPT课件(中职)数据采集技术(初级)项目6:项目实战 网络爬虫教学课件CONTENTS任务一:爬取手机端数据任务二:爬取浪潮优派信息项目情景零经理:小张,Python模块中爬取网络数据的内容学习完成之后,需要你使用所学的技术爬取一些网站?小张:爬取什么内容?经理:爬取网站的标题、图片、路径等等!小张:网站多种多样,爬取哪类的呢?经理:爬取一个豆瓣电影网,还有需要练习一下手机端数据爬取。小张:也就是爬取手机端和PC端?经理:是的。一种是通过所学的内容直接爬取,一种借助网页分析工具。小张:好的,保证完成任务。小张和经理谈完话后,开始调研手机端数据采集分析软件有哪些,并决定使用fiddl

2、er软件进行手机端网页分析,除此之外分析豆瓣电影网,并把爬取的数据进行保存。本项目是练习request、urllib等模块,学习步骤为:步骤一:Fiddler抓包工具配置及使用获取手机端数据内容。步骤二:爬取爬取浪潮优派信息,并保存在文件中。学习目标零【知识目标】掌握Fiddler抓包工具的使用掌握手机端数据的获取掌握网站的分析方法掌握网络数据的爬取流程【技能目标】能够使用Fiddler对网站进行抓包能够使用Requests模块进行手机端数据的爬取能够使用Requests模块进行浪潮优派网站数据的爬取能够把爬取的数据进行保存任务描述任务一:爬取手机端数据壹使用Requests库与抓包工具(拦截

3、查看网络数据包内容的软件)的结合实现一个APP页面内容的爬取。能够通过Fiddler抓包工具配置及使用获取APP数据内容及相关信息,之后使用Requests库相关方法通过链接地址实现APP内数据的爬取。爬取思路如下:安装Fiddler抓包工具。使用Fiddler抓包工具进行网站分析。分析网站。任务步骤任务一:爬取手机端数据壹第一步:下载抓包工具。这里使用Fiddler抓包工具,点击下载按钮后,根据相关提示信息完成内容填写即可实现Fiddler下载,效果如下图所示。任务步骤任务一:爬取手机端数据壹第二步:Fiddler安装。双击下载好的软件安装包,之后点击“I Agree”“Install”按钮

4、即可安装Fiddler工具。安装完成效果如下图所示。任务步骤任务一:爬取手机端数据壹第三步:Fiddler工具配置。打开刚刚安装完成的Fiddler软件,效果如下图所示。任务步骤任务一:爬取手机端数据壹点击上图中“Tools”菜单下的“Options”按钮进入工具配置界面,效果如下图所示。任务步骤任务一:爬取手机端数据壹点击图中“Connections”按钮,之后进行端口号的配置,效果如下图所示。任务步骤任务一:爬取手机端数据壹第四步:手机配置。由于抓取的是手机APP数据,因此需要在同一局域网内进行手机网络的配置,进入手机WiFi修改界面,设置手动代理并进行主机IP和端口号的配置,效果如下图所

5、示。任务步骤任务一:爬取手机端数据壹第五步:APP页面分析。配置完成后,即可使用当前手机打开需要爬取的APP,这里使用的是美团APP,页面结构如下图所示。任务步骤任务一:爬取手机端数据壹第六步:查看APP信息。找到需要抓取的页面后,在Fiddler抓包工具页面中会获取到当前APP请求网络的路径,点击路径后即可查看当前APP的相关信息,效果如下图所示。任务步骤任务一:爬取手机端数据壹第七步:代码编辑基本配置和信息获取完成后即可进行代码的编辑,将上面获取的相关请求头信息填入代码相应的位置,之后将爬取路径放入请求方法中进行页面内容的请求,之后通过JSON信息的分析,爬取需要的页面信息,如有需要可将信

6、息保存到本地文件,代码如下所示。任务步骤任务一:爬取手机端数据壹运行代码,效果如下图所示任务描述任务二:爬取浪潮优派信息贰任务描述本任务是爬取浪潮优派首页中的新闻列表和所有的图片信息,然后将新闻列表保存到本地文本文档中,将图片保存到爬虫的所在目录。(1)明确爬取目标及所需要的效果。(2)根据URL爬取网页数据信息。(3)对数据进行保存。任务步骤任务二:爬取浪潮优派信息贰任务步骤第一步:打开浪潮优派教育首页(:9090/),如下图所示。任务步骤任务二:爬取浪潮优派信息贰第二步:分析新闻列表部分代码的页面结构,抓取每条新闻的标题,发布时间、阅读量和类型,如图下图所示:任务步骤任务二:爬取浪潮优派信

7、息贰第三步:引入需要使用的库,并设置请求头信息以及要访问的连接,然后访问连接并获取页面代码,代码如下。任务步骤任务二:爬取浪潮优派信息贰第四步:提取新闻信息。通过上图可知新闻列表所在div的class属性为clear newInfor,然后新闻的标题在其每个字标签的/ol/li/h3中,抓取新闻标题的语句如下:news = bsobj.xpath(/divclass=clear newInfor/ol/li/h3)发布时间在p标签的time标签中,获取发布时间的代码如下所示:date = bsobj.xpath(/divclass=clear newInfor/ol/li/p/time)阅读量在p标签的第一个span标签中的samll标签中,获取阅读量的代码如下:readnum = bsobj.xpath(/divclass=clear newInfor/ol/li/p/span1/small)新闻类型在阅读量在p标签的第二个span标签中的samll标签中,获取新闻类型的代码如下。newstype = bsobj.xpath(/divclass=clear newInfor/ol/li/p/span2/small)页面中的图片全部在class为contents的div标签的img标签中,如图所示:任务步骤任务二:爬取浪潮优派信息贰提取页面中图片链接的代码如下。第

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论