《数据采集技术》课件-超时和网络异常_第1页
《数据采集技术》课件-超时和网络异常_第2页
《数据采集技术》课件-超时和网络异常_第3页
《数据采集技术》课件-超时和网络异常_第4页
《数据采集技术》课件-超时和网络异常_第5页
已阅读5页,还剩16页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

超时和网络异常Contents素养目标能够初步建立起大数据领域的知识体系,完成一些初级技术实践。技能目标能够处理超时和网络异常的处理方法。知识目标掌握常见的超时和网络异常以及处理方法。超时在互联网上抓取数据并将其存储在本地数据库中。网络爬虫是一种自动化程序有时候会遇到超时错误导致无法成功抓取数据超时的原因1网络连接问题网络爬虫需要通过网络连接到目标网站,并从中抓取数据。不稳定网络连接响应速度慢网站服务器超时错误会导致可以尝试更改网络连接或者等待网站服务器响应。超时的原因2网站限制有些网站会设置访问限制。限制每个IP地址的访问次数或者访问频率WWW.网络爬虫频繁访问同一网站超时错误会导致恶意行为可以尝试更改网络爬虫的访问频率或者使用代理服务器。超时的原因3数据量过大网络爬虫一次性抓取大量数据WWW.容易导致超时错误可以尝试分批次抓取数据,或者增加网络爬虫的抓取速度。有些网站的数据量非常庞大。网站超时的原因4网站结构变化有些网站的结构会经常发生变化,例如网页布局、URL地址等。没有及时更新适应变化容易导致超时错误可以尝试更新网络爬虫的代码或者使用更加灵活的抓取方式。超时的解决办法给网站服务器更多的时间来响应网络爬虫的请求,从而减少超时错误的发生。增加等待时间1调整网络爬虫代码中等待时间参数来实现超时的解决办法给网络爬虫更多的机会来重新连接网站服务器并重新尝试抓取数据。增加重试次数2调整网络爬虫代码中重试次数参数来实现超时的解决办法有些网站会设置访问限制。限制每个IP地址的访问次数或者访问频率WWW.网络爬虫频繁访问同一网站超时错误会导致恶意行为可以尝试使用代理服务器来隐藏网络爬虫的真实IP地址。3使用代理服务器4优化网络连接网络爬虫需要通过网络连接到目标网站,并从中抓取数据。不稳定网络连接响应速度慢网站服务器超时错误会导致可以尝试优化网络连接,例如更改网络连接或者使用更快速的网络连接方式。超时的解决办法5更新网络爬虫代码超时的解决办法有些网站的结构会经常发生变化,例如网页布局、URL地址等。没有及时更新适应变化容易导致超时错误可以尝试更新网络爬虫的代码,使其能够适应网站结构的变化。超时的解决办法网络爬虫中超时是常见的问题适当调整和优化提高抓取效率和成功率需要针对具体情况进行分析和解决常见网络异常如果urlopen不能处理返回的响应内容,就会产生错误。两个常见异常:URLErrorHTTPError使用urlopen()方法发送http请求URLError异常和捕获没有连接网络服务器连接失败找不到指定服务器URLError产生的原因主要有:request=urllib.request.Request('')try:urllib.request.urlopen(request,timeout=5)excepturllib.error.URLErroraserr:print(err)URLError异常和捕获可以使用try…except语句捕获响应的异常:上述输出了11004的错误码,其含义是没有找到指定的服务器。<urlopenerror[Error11004]getaddrinfofailed>常见网络异常每个服务器的HTTP响应都有一个数字响应码有些表示无法处理请求内容。urlopen()会抛出HTTPError。HTTPError异常和捕获HTTPError是URLError的子类,它的对象拥有一个整型的code属性,表示服务器返回的错误代码。request=urllib.request.Request('/net')try:urllib.request.urlopen(request)excepturllib.error.HTTPErrorase:print(e.code)上述输出了404的错误码,其含义是没有找到这个页面。404HTTPError异常和捕获名称类别说明1xxInformational(信息性状态码)接收的请求正在处理2xxSuccess(成功状态码)请求正常处理完毕3xxRedirection(重定向状态码)需要进行附加操作以完成请求4xxClientError(客户端错误状态码)服务器无法处理请求5xxServerError(服务器错误状态码)

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论