版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、终于有人把网络爬虫讲明白了导读人们正在以前所未有的速度转向互联网哉们在互联网上所做的很多行为产 生了大量的用户数据”,比如微博、购买记录等。互联网成了海量信息的载体;互联网目前是分析市场趋势、监视竞争对手 或者获取销售线索的最佳场所,数据采集以及分析能力已成为驱动业务决策的 关键技能。如何有效地提取并利用这些信息成了一个巨大的挑战,而网络爬虫是一种 很好的自动采集数据的通用手段。本文将会对爬虫的类型、爬虫的抓取策略以 及深入学习爬虫所需的网络基础等相关知识进行介绍。一,爬虫是什么网络爬虫(又被称为网页蜘蛛、网络机器人,在FOAF社区中,更经常地 称为网页追逐者)是一种按照一定的规则,自动抓取万
2、维网信息的程序或者脚 本另夕卜一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。网络爬虫通过爬取互联网上网站服务器的内容来工作。它是用计算机语言 编写的程序或脚本,用于自动从Internet上获取信息或数据,扫描并抓取每个 所需页面上的某些信息,直到处理完所有能正常打开的页面。作为搜索引擎的重要组成部分,爬虫首要的功能就是爬取网页数据(如图 1-1所示),目前市面流行的采集器软件都是运用网络爬虫的原理或功能。图1-1网络爬虫象形图二爬虫的意义现如今大数据时代已经到来,网络爬虫技术成为这个时代不可或缺的一部 分,企业需要数据来分析用户行为、自己产品的不足之处以及竞争对手的信息 等,而这一切
3、的首要条件就是数据的采集。网络爬虫的价值其实就是数据的价值,在互联网社会中,数据是无价之 宝,一切皆为数据,谁拥有了大量有用的数据,谁就拥有了决策的主动权。网 络爬虫的应用领域很多,如搜索引擎、数据采集、广告过滤、大数据分析等。1、抓取各大电商网站的商品销量信息及用户评价来进行分析,如图2-1所 示。曜UE计=,直 J : _1-T * =,直 J : _1-T * *导 4 ggm摆描品盐 M3- M-h,默 mskf51 * 上 k I 1- L L _1OZIBM Ei + J *g| Era iLflBAI E Is-.- : F l # LtMMf mm tllHLO ,HHH W4
4、 AUEM V:91T/V sn:B- rTiA史狂“必气s ;-% .zuf/1/at D-” t - 5m”.曲:t,, * f i*illT/i/il lUM lik.吁Yrl. #, 冒air/4/21 SisSl JPLt*T*rR-*1*;|j;|. ii If j fi | . &.- I-U; T # . AHMT/fcnt * mmr?n我:*:iz zv ribeflirt-nw-f1srr-mt事n :? ? :fa-9. *Tf B* L-4 l 5ig * fl T C 9 t t 鼻4 ,志if. i* =! fl BPJk, % 的:日lFlU 吗上 TJI K7
5、*fihL 用US 尸用,白普宅孑浏*“V *!lirtt 忡mrsfli tiijaRHif QBtlRS#HUM。旧;】1整甘,f,!T:1Jt* lLRW4 t*T-siLTt/ii iTsiii TT f 7 r i T7TT77跪 ts itju airrmnfuh m ir:H#rff m. fih * r? f w-fcJi*7?ri-rfc1 Rnn*id. (hk.T,*lri *_ s b j ri - * _ . T .D / * 土( Hi ar u 图2-1电商网站的商品销售信息2、分析大众点评、美团网等餐饮类网站的用户消费、评价和发展趋势,如图2-2所示。图2-2餐
6、饮类网站的用户消费信息仕慝3、分析各个城市中学区房的比例,以及学区房比普通二手房价格高出多少,图2-3所示。图2-3图2-3学区房的比例与价格对比以上数据是通过前嗅ForeSpider数据采集软件爬下来的,有兴趣的读者 可以尝试自己爬一些数据。三、爬虫的我们通常会将网络爬虫的组成模块分为初链接库、网络抓取模块、网页处 理模块、网页分析模块、DNS模块、待抓取链接队列、网页库等,网络爬虫的 各系模块可形成一个循坏体系,从而不断地进行分析和抓取。爬虫的工作原理可以很简单地解释为先找到目标信息网,然后页面抓取模世 JfWRLDN渊:析。止MT网页解析 有用信息存储图2-4爬虫原理图块,接着页面分析模
7、块,最后数据存储模块。其具体详情如图2-4所示。的URL世 JfWRLDN渊:析。止MT网页解析 有用信息存储图2-4爬虫原理图块,接着页面分析模块,最后数据存储模块。其具体详情如图2-4所示。的URL该虱RL DN3解析 网页下载提政出URL并皿任务 魅列已抓取 的网页 皿5 WHIURI X 刊 神 PVRLL.抓取UK1.耻列3【瀚的网页M扮取新的URI 成入UEL队列START挟取啊贝初始URIttFURL爬虫工作基本流程:首先在互联网中选出一部分网页,以这些网页的链接地址作为种子URL ;将这些种子URL放入待抓取的URL队列中,爬虫从待抓取的URL队列 依次读取;将URL通过DNS
8、解析;把链接地址转换为网站服务器对应的IP地址;网页下载器通过网站服务器对网页进行下载;下载的网页为网页文档形式;对网页文档中的URL进行抽取;过滤掉已经抓取的URL;对未进行抓取的URL继续循环抓取,直至待抓取URL队列为空。四爬虫技术的类型-聚焦网络爬虫:是“面向特定主题需求”的一种爬虫程序,而通用网络 爬虫则是搜索引擎抓取系统(Baidu、Google、Yaho。等)的重要组成 部分,主要目的是将互联网上的网页下载到本地,形成一个互联网内容 的镜像备份。增量抓取:意即针对某个站点的数据进行抓取,当网站的新增数据或者 该站点的数据发生变化后,自动地抓取它新增的或者变化后的数据。Web页面按存在方式可以分为表层网页(surface Web )和深层网页(deep Web,也称 invisible Web
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 《人工智慧概论》课件
- 《公主的月亮》课件
- 《保护绿色家园图》课件
- 高等教育思修第六章
- 反倾销胜诉后PVC市场格局的变化教学课件
- 《报表分析讲义》课件
- 三年级下册科学教科版课件第3课时 直线运动和曲线运动
- 三年级上册科学教科版课件期中测试卷
- 《电梯被困如何应对》课件
- 如何写好课题申请系列课程04逐个击破(下)
- 2024届江苏省盐城市阜宁县市级名校中考一模英语试题含答案
- 生日祝福生日会课件
- 健身起跑线智慧树知到期末考试答案2024年
- 四年级上册劳动与技术期末试题
- 大连高新区整体发展战略规划(产业及功能布局)
- 茶歇服务合同
- 2024陕西陕煤澄合矿业有限公司招聘笔试参考题库附带答案详解
- 施工环境保护培训课件
- 中国阴离子交换膜行业调研分析报告2024年
- 工会工作汇报课件
- 2024年湖南外贸职业学院高职单招(英语/数学/语文)笔试历年参考题库含答案解析
评论
0/150
提交评论