![网页数据源获取_第1页](http://file4.renrendoc.com/view/7b41b45603dda57a343e6b903ae92bdb/7b41b45603dda57a343e6b903ae92bdb1.gif)
![网页数据源获取_第2页](http://file4.renrendoc.com/view/7b41b45603dda57a343e6b903ae92bdb/7b41b45603dda57a343e6b903ae92bdb2.gif)
![网页数据源获取_第3页](http://file4.renrendoc.com/view/7b41b45603dda57a343e6b903ae92bdb/7b41b45603dda57a343e6b903ae92bdb3.gif)
![网页数据源获取_第4页](http://file4.renrendoc.com/view/7b41b45603dda57a343e6b903ae92bdb/7b41b45603dda57a343e6b903ae92bdb4.gif)
![网页数据源获取_第5页](http://file4.renrendoc.com/view/7b41b45603dda57a343e6b903ae92bdb/7b41b45603dda57a343e6b903ae92bdb5.gif)
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
网页数据源获取网络爬虫概述网络爬虫(又称为网络蜘蛛、网络机器人等),是一种按照一定的规则,自动抓取网络信息的程序或者脚本。网络爬虫的基本原理是用户通过网址(URL)向服务器发送访问请求(HTTP请求),服务器在收到客户的请求以后,验证请求的有效性,然后向客户端发送响应内容(Response),客户端接收并将内容展示出来。网络爬虫类似于模拟用户浏览网页的操作,通过模拟浏览器向网站发送请求,再获得相关资源后,从中提取有用的数据并进行保存。网络爬虫的一般工作流程如图1所示。图1网络爬虫的基本流程URLURL(UniformResourceLocator)是统一资源定位符,是对互联网上得到资源的位置和访问方法的一种简洁表示,URL具有全球唯一性。URL的一般语法格式为:协议+IP地址(域名)+端口号+路径+参数+查询+信息片段,例如:http://www.*****.com/***,其中http为传输协议,www.*****.com为域名,/***为路径。中联集团教育科技有限公司的URL如图2所示。图2中联集团教育科技有限公司URLHTTP协议1.HTTP协议的含义HTTP(HyperTextTransferProtocol,超文本传输协议)是用于从网络传输超文本数据到本地浏览器的传输协议,它能够保证高效而准确地传送超文本书档。HTTP请求是目前互联网上应用最为广泛的一种网络请求方式,常见的是在网络浏览器中输入一个网址,在访问网页时,服务器把网页传送给浏览器,实际上就是把网页的HTML代码发送给浏览器,从而让浏览器显示出来,浏览器和服务器之间的传输协议即是HTTP协议。HTTP协议2.HTTP请求过程在浏览器中输入一个URL,按回车键后,在浏览器中观察页面内容,其中的过程是浏览器向网站所在服务器发送一个Request(请求),网站服务器接收到Request后进行处理和解析,然后返回对应的Response(响应),传回浏览器,Response中包含页面的源代码等内容,浏览器再对其进行解析便会将网页呈现出来,如图3所示。图3请求响应模型HTTP协议3.RequestRequest由客户端向服务端发出,是一个功能强大的网络请求库,可以请求网站获取网页上的数据。Request的引入规则为:importrequests。可以将Request划分为以下4部分内容:RequestMethod:请求方法。RequestURL:请求URL地址。RequestHeaders:请求标头。RequestBody:请求体。一般承载的内容是POST请求中的表单数据,而对于GET请求,RequestBody则为空。HTTP协议4.ResponseResponse对象包含爬虫返回的内容,由服务端返回给客户端。Response可以划分为以下3部分:ResponseStatusCode:请求返回状态码。200表示连接成功,404或其他表示失败。ResponseHeaders:响应标头。ResponseBody:响应体。响应的正文数据都包含在响应体中。在执行网络爬虫程序中,主要解析的内容就是ResponseBody,通过ResponseBody可以得到网页的源代码、JSON数据等,然后提取其中的内容。HTTP协议5.示例在中联教学平台中打开JupyterNotebook工具,新建一个Python文件,在代码编辑区域中输入如下代码:importrequests#导入爬虫的request库,不然调用不了爬虫的函数response=requests.get("/")#生成一个response对象response.encoding=response.apparent_encoding#设置编码格式pri
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 家庭绿化服务居间合同
- 2025年度安全班组安全生产责任落实合同
- 质量现场问题处理方案
- 浙江移动攀岩墙施工方案
- 清理管道施工方案
- 分红入股合同范本
- 蚌埠中考题数学试卷
- 成人自考数学试卷
- 职教教材招标方案
- 单位电器购买合同范例
- 跨领域安检操作标准化的现状与挑战
- 大模型落地应用实践方案
- 催收质检报告范文
- 2025年八省联考内蒙古高考生物试卷真题答案详解(精校打印)
- 2024山东一卡通文化旅游一卡通合作协议3篇
- 人教版八年级上册地理 2024-2025学年八年级上册地理期中测试卷(二)(含答案)
- 2025届高三历史二轮复习教学计划
- 2024-2025年江苏专转本英语历年真题(含答案)
- 投标废标培训
- 脑卒中课件完整版本
- 药房保洁流程规范
评论
0/150
提交评论