版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、网络爬虫简介,爬虫与反爬技术,目录,前言,robots.txt: Robots协议被称为爬虫协议,或机器人协议。是国际互联网界通行的道德规范。 User-agent:用于描述搜索引擎robot的名字; Disallow:禁止robot访问该网站的目录或文件; Allow:允许robot访问该网站的目录或文件; sitemap.xml/txt/html/.: Sitemaps协议使网站能够告知搜索引擎网站中可供抓取的网址。 自动生成:更方便地了解一个网站的内容、布局、架构。 主动提交:向百度、Google、雅虎、和微软等提交,被搜索引擎收录。,数据采集流程,需求分析:业务类型/方向决定抓取策略和
2、抓取频率。(干什么用) 抓取内容:具体需要什么数据/字段。(怎么用) 数据来源:数据来源于具体网站或其他。 抓取方式:获取数据的方式、网页结构分析、API等。 代码实现:自定义或开源爬虫框架。 数据清洗:根据业务具体情况转换数据格式、类型,进行数据计算等。数据清洗分为入库前点清洗和入库后点清洗。 数据存储:写文件或入库方式,远程数据入库,数据加密等。 爬虫任务分发:分布式爬虫、多线程爬虫。 反爬策略、日志管理、监控报警等。,网页分析,数据抓取方式 网页 移动网页 移动客户端 API 网页解析 正则 Xpath Beautiful Soup Json格式解析 网页编码,动态页面抓取,JS渲染页面 Web kit Render类 Ajax请求 Iframe Selenium库 重定向 Status_code Html meta 的refresh js,可视化爬虫,Import.io Portia 八爪鱼 集搜客 造数 BBD,爬虫框架,Scrapy框架:,案例1:58同城-简历中心,url:,案例2:阿里巴巴-搜索,url: Set-Cookie _csrf,反爬技术,User_agent判断来源 根据IP访问频率判断,封锁IP或者账号 验证码识别 Pillow库 Tesseract库 Numpy 机器学习 根据实际成本制定策略 频繁变
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 纳米漆产品市场需求分析报告
- 花样机产品市场需求分析报告
- 运动测试仪器产品原材料供应与需求分析
- 诊断血清生物制品市场发展预测和趋势分析
- 衣架衣夹市场发展预测和趋势分析
- 高速压片机产品营销计划书
- 电子式燃气表产品市场环境与对策分析
- 金属切削工具产品市场需求分析报告
- 自动驱鸟设备市场需求与消费特点分析
- 蛋制品商业机会挖掘与战略布局策略研究报告
- 医疗器械技术培训方案(2篇)
- 中华人民共和国突发事件应对法课件
- 小升初小学英语总复习:数词
- 教科版《1.7制作一个潜望镜》教学设计、教案与同步练习
- 2024爱国主义教育知识竞赛题及答案
- 智能数字物联(山东联盟)智慧树知到期末考试答案章节答案2024年山东石油化工学院
- 动火作业取样分析人员培训
- 函数的单调性和最值 高一上学期数学北师大版(2019)必修第一册
- 会计实训室建设总结报告
- 科学记数法(课件)人教版数学七年级上册
- 福建省部分地市2024届高中毕业班4月诊断性质量检测 地理试卷(含答案)
评论
0/150
提交评论