网络数据采集技术概述.ppt_第1页
网络数据采集技术概述.ppt_第2页
网络数据采集技术概述.ppt_第3页
网络数据采集技术概述.ppt_第4页
网络数据采集技术概述.ppt_第5页
已阅读5页,还剩7页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、网络爬虫简介,爬虫与反爬技术,目录,前言,robots.txt: Robots协议被称为爬虫协议,或机器人协议。是国际互联网界通行的道德规范。 User-agent:用于描述搜索引擎robot的名字; Disallow:禁止robot访问该网站的目录或文件; Allow:允许robot访问该网站的目录或文件; sitemap.xml/txt/html/.: Sitemaps协议使网站能够告知搜索引擎网站中可供抓取的网址。 自动生成:更方便地了解一个网站的内容、布局、架构。 主动提交:向百度、Google、雅虎、和微软等提交,被搜索引擎收录。,数据采集流程,需求分析:业务类型/方向决定抓取策略和

2、抓取频率。(干什么用) 抓取内容:具体需要什么数据/字段。(怎么用) 数据来源:数据来源于具体网站或其他。 抓取方式:获取数据的方式、网页结构分析、API等。 代码实现:自定义或开源爬虫框架。 数据清洗:根据业务具体情况转换数据格式、类型,进行数据计算等。数据清洗分为入库前点清洗和入库后点清洗。 数据存储:写文件或入库方式,远程数据入库,数据加密等。 爬虫任务分发:分布式爬虫、多线程爬虫。 反爬策略、日志管理、监控报警等。,网页分析,数据抓取方式 网页 移动网页 移动客户端 API 网页解析 正则 Xpath Beautiful Soup Json格式解析 网页编码,动态页面抓取,JS渲染页面 Web kit Render类 Ajax请求 Iframe Selenium库 重定向 Status_code Html meta 的refresh js,可视化爬虫,Import.io Portia 八爪鱼 集搜客 造数 BBD,爬虫框架,Scrapy框架:,案例1:58同城-简历中心,url:,案例2:阿里巴巴-搜索,url: Set-Cookie _csrf,反爬技术,User_agent判断来源 根据IP访问频率判断,封锁IP或者账号 验证码识别 Pillow库 Tesseract库 Numpy 机器学习 根据实际成本制定策略 频繁变

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论