《数据采集技术》课件-网络爬虫

上传人：杨*** IP属地：福建上传时间：2024-12-25 格式：PPTX 页数：34 大小：15.62MB 积分：2.88 举报 版权申诉

已阅读5页，还剩29页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

网络爬虫Contents素养目标熟悉国内比较常用的网络爬虫工具技能目标能够根据需要使用网络爬虫工具对网络数据进行采集知识目标了解网络爬虫的概念、原理、分类及应用网络爬虫的概念网络爬虫（又称网络蜘蛛）提取信息访问网站浏览网页时的行为模拟人类是一种自动地在互联网上收集信息的程序。网络爬虫的基本原理工作原理解析网页代码，找到链接。继续访问其他网页。网页上的信息被提取并存储在数据库中供后续使用。网络爬虫的工作原理预先设定一个或若干初始网页的URL，将初始URL加入待爬取的URL列表。1从待爬取的URL列表中逐个读取URL，并将URL加入已爬取的URL列表中，然后下载网页。2解析已下载的网页，提取所需的数据和新的URL，并存储提取的数据。3将新的URL与已提取的URL列表进行比对，检查该网页是否已爬取，如果网页没有被爬取，则将新的URL放入待爬取URL列表的末尾，等待读取。4如此往复，直到待爬取URL列表为空或者满足设定的停止条件，最后达到遍历网页的目的。5网络爬虫的类型通用网络爬虫聚焦网络爬虫增量式网络爬虫深层页面爬虫按照系统结构和实现技术划分：WWW.通用网络爬虫网络爬虫的类型又称全网爬虫，是根据网络爬虫的基本原理实现的。初始设定的URL扩充到全网主要应用于门户网站、搜索引擎和大型网络服务提供商的数据采集。聚焦网络爬虫目标是与预先定义好的主题相关的网页。爬取目标极大节省硬件和网络资源主要应用于对特定领域信息有需求的场景。只爬取与主题相关的网页爬取目标增量式网络爬虫网络爬虫的类型有更新的已下载网页爬取目标新产生的网页+深层页面爬虫爬取目标不能通过静态链接获取隐藏在搜索表单后只有用户提交一些关键词才能获得的网页如用户注册后才可显示的内容。爬虫程序监测网站数据更新的情况，然后在需要的时候只爬取发生更新或新产生的网页。网络爬虫的应用网络爬虫的应用爬虫程序每天连续地爬取相关网站。百度爬虫Baiduspider谷歌爬虫Googlebot每个独立的搜索引擎都有自己的爬虫程序1网络爬虫的应用企业用户在采集和分析数据时也时常会借助网络爬虫2以确定爬取产品的用户信息目标客户群体以制定爬取同类产品的销售信息营销策略普通用户也可以根据自己关注的主题采集所需要的数据3例如：WWW.通过爬虫程序保存下来实现可见即可得。网络爬虫的应用企业用户在采集和分析数据时也时常会借助网络爬虫2以确定分析产品的用户信息目标客户群体以制定分析同类产品的销售信息营销策略普通用户也可以根据自己关注的主题采集所需要的数据3例如：例如：爬取网站上的图片学术网站的论文团购网站的价格及点评各种电商平台的商品信息招聘网站的招聘信息网络爬虫工具的工作流程浏览器提交请求下载网页代码解析成页面模拟浏览器发送请求（获取网页代码）提取有用的数据存放于数据库或文件中爬虫一般是使用第二种方式。用户获取网络数据有两种方式：第一种：第二种：网络爬虫工具的工作流程爬取流程如下图所示：发送请求获取响应内容解析内容保存数据网络爬虫工具的工作流程爬取网页解析网页存储数据分为三个步骤：网络爬虫工具的工作流程爬取网页解析网页存储数据分为三个步骤：即获取网页的源代码，源代码里包含了网页的有用信息。网络爬虫工具的工作流程爬取网页解析网页存储数据分为三个步骤：指根据网页结构，分析网页源代码，从中提取想要的数据。最常用的方法是正则表达式。变得杂乱的数据条理清晰网络爬虫工具的工作流程爬取网页解析网页存储数据分为三个步骤：保存数据的方式有很多种。也可以保存到数据库中，如MySQL和MongoDB等。可以简单保存到JSON或CSV文件八爪鱼采集器常用的网络爬虫工具是由深圳视界信息技术有限公司自主研发的。一款集网页数据采集、移动互联网数据及API服务等于一体的数据服务平台。数据爬虫数据优化数据挖掘数据存储数据备份后羿采集器常用的网络爬虫工具是由前谷歌搜索技术团队基于人工智能技术研发的新一代网页采集软件。特点功能强大，操作简单。适合行业用户群：无编程基础者运营销售金融新闻电商数据分析政府机关学术研究法律法规网络爬虫目前还处于早期的蛮荒阶段处于建设之中“允许哪些行为”如果抓取数据的行为用于个人使用通常不存在问题如果数据用来转载需要注意原创作品的版权问题爬取数据时需要注意：应当约束自己的抓取行为。尽量不要高强度、高频率的下载数据。从目前的实践来看：法律法规很多网站都会定义robots.txt文件让爬虫了解爬取该网站时，存在哪些限制，下面的地址列出一些知名网站的robots.txt访问地址：/robots.txt（淘宝）/robots.txt （京东）/robots.txt

（亚马逊）法律法规例如通过访问京东的robots.txt内容，可以看出标识了哪些地址允许访问，哪些不允许，以及所允许的爬虫类别。很多网站都会定义robots.txt文件robots.txt文件没有实际的约束力，可以选择不遵守。Robots协议只是一种建议但可能存在一定的法律风险思政意识提升爬取数据的过程中，遵守法律法规和网站的使用协议，尊重网站的版权和隐私，不进行违法违规的爬取行为。防爬虫应对策略并发发送上百个重复的请求响应啊，又是刚刚那个家伙客户端服务器很多网络爬虫对网页的爬取能力很差，现在的网站会采取一些防爬虫措施来阻止爬虫的不当爬取行为。防爬虫应对策略伪装成浏览器发送请求响应对于采取了防爬虫措施的网站，爬虫程序需要采取相应的应对策略，才能成功地爬取到网站上的数据。客户端服务器用户代理啊，原来这个家伙是浏览器呀！防爬虫应对策略User-agent表示用户代理，是HTTP协议中的一个字段。作用描述发出HTTP请求的终端信息。每个正规的爬虫都有固定的User-agent，字段设为知名的用户代理成功伪装伪装User-agent防爬虫应对策略同时用多个代理IP，可以降低单个IP地址的访问量，极有可能逃过一劫。用户代理IP发送请求转发请求视为爬虫的IP网站使用代理IP防爬虫应对策略为了弥补这个缺点，可以基于这个思想适时调整具体的操作。降低访问频率没有找到既免费又稳定的代理IP降低访问网站的频率防止被认出爬虫的身份会差很多爬取效率例如，每抓取一个页面就休息若干秒，或者限制每天抓取的页面数量。防爬虫应对策略需要采取相应的技术识别验证码验证码限制访问IP网站（不登陆就能访问）访问检测访问量有异常正确输入验证码才能继续爬取网站提出

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

《数据采集技术》课件-网络爬虫

文档简介

温馨提示

最新文档

评论

《数据采集技术》课件-网络爬虫

文档简介

温馨提示

最新文档

评论

相关文档