




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
趣学Python爬虫用Request获取数据本课目录INDEX一个网络爬虫的基本构成网络请求(GET/POST)静态爬虫和动态爬虫Requests构建请求关于cookie和session一个网络爬虫的基本构成一个完整的网络爬虫就是三个大的组成部分找筛本讲我们就来探讨如何找存网络请求(GET/POST)要做爬虫第一步就要先找数据,
那么我们在哪里找数据?#互联网!那就要遵守互联网的访问数据的流程和规则#互联网
https://常规用户浏览器爬虫程序requests模块发起请求用户响应数据互联网请求类型GET/POST后续处理如:数据保存(持久化)->数据分析网络请求(GET/POST)到底什么是GET
和POST请求无论是什么请求这都是在访问网页或者访问互联网资源的一种规则,类似我们老司机上高速,不能超过限速一样GETGET请求类似直接转达某个信息,信息不加密POSTPOST请求是先牵线,然后再传信息,信息加密小明大明1.小明找到大明然后附带要对他说的内容一起发送聊天GET请求的参数(信息),是放在请求的URL里的,换句话说叫明文小明大明聊天小明要先告知大明我要找你聊天小明再发送信息POST请求的参数(信息),是加密后再传送案例:我们一般对页面的访问通常是通过GET请求案例:我们登陆过程一般是POST请求(用户名/密码)静态爬虫和动态爬虫构建一个爬虫的步骤(GET/POST)STEP-1 构建请求头header={'User-Agent':
'Mozill……..}STEP-2STEP-3类似一张名片告诉服务器你是谁构建请求参数(可有可无)params=
{"wd":
"万门大学",}类似点菜,点了以后你希望厨师做的酸一点儿或咸一点,当然了你也可以保持标配向目标网站/链接发起请求(访问)url=‘https:///s’Host
请求的域名User-Agent
浏览器端浏览器型号和版本Accept
可接受的内容类型Accept-Language
语言Accept-Encoding
可接受的压缩类型
gzip,deflateAccept-Charset
可接受的内容编码
UTF-8,*res=requests.get(url=url,headers=header,
params=params)万事具备只欠东风静态爬虫和动态爬虫构建一个爬虫的步骤(GET/POST)res=
requests.get(url=url,params=params,headers=header,)我们先解析一下
get函数的构造被访问目标地址,一定要以http://或https://开头可以访问域名如
也可以是IP地址如params是一个字典结构的参数,这个参数是给到服务器,告诉它你是否有特殊诉求当然这里是看服务器是否有需要你提供headers是请求头,对爬虫来说这是一个伪装,即告诉服务器我是“人”res返回的数据有三种接收方式res.text -
文本方式res.content–
字节码/二进制方式res.json(
)
–
json对象方式json方式注意,返回数据必须要满足json格式静态爬虫和动态爬虫构建一个爬虫的步骤(GET/POST)res我们先解析一下
get函数的构造=requests.post(url=url,data=data,headers=header,
)被访问目标地址,一定要以http://或https://开头可以访问域名如
也可以是IP地址如data是一个字典结构的参数,这个参数是给到服务器,告诉它你是否有特殊诉求当然这里是看服务器是否有需要你提供,特别注意!
post里是dataheaders是请求头,对爬虫来说这是一个伪装,即告诉服务器我是“人”res返回的数据有三种接收方式res.text -
文本方式res.content–
字节码/二进制方式res.json(
)
–
json对象方式json方式注意,返回数据必须要满足json格式关于cookie和session大家有没有发现浏览网页的时候,如果你登陆过一次系统后,
你关闭电脑再回来访问,它还是登陆状态未登陆登陆操作已登陆WHY?关于cookie和session正正宁夫培培会话1会话2会话3服务器与每个用户(浏览器)建立一个专属的“通道”这里叫会话万门大学服务器关于cookie和session万门大学服务器正正宁夫培培会话1会话2会话3a=
1b=
2a和b都是对象源自于int类延伸理解这里的服务器就是类这里的会话就是对象关于cookie和session万门大学服务器正正宁夫培培会话1会话2会话3网页向服务器发起请求(http/https),本身是没有状态的。什么是状态?这里的状态就是你是谁、来自哪里、你有啥需求等等。为了解决这个问题就有了cookie和session两个机制去识别用户cookie保存在浏览器session保存在服务器关于cookie和session为什么我们要了解这个机制,是因为我们要应对一种爬虫场景即:爬取的数据在登陆以后才能获取大家肯定会问,
那我可否在浏览器登陆后再爬取呢?会话1会话2不行!这个是标准的掩耳盗铃模式因为服务器判定为两个会话静态爬虫和动态爬虫POST登陆爬虫构建STEP-1构建请求头STEP-2建立请求参数,登陆至少涉及到用户名和密码STEP-3建立一个保存session/cookie的容器sess=
requests.Session()STEP-4使用sess这个容器发起常规请求,以便获取session和cookie,为下一步请求(登陆后)做好准备res=sess.post(url=url,data=data,
headers=header)使用这个容器里的session/
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 公司美味大餐活动方案
- 公司爬羊台山活动方案
- 公司搬迁美食活动方案
- 公司旅游两天策划方案
- 公司春季出游活动方案
- 公司春游出行活动方案
- 公司汉服体验活动方案
- 公司组织韶山活动方案
- 公司环保日活动策划方案
- 公司游戏策划方案
- 知情同意和告知技能的培训
- 稻香+课件音乐
- 北京交通大学《计算思维综合训练》2021-2022学年期末试卷
- GB 21258-2024燃煤发电机组单位产品能源消耗限额
- 贸易安全内部培训教材
- 沪科版七年级数学下册知识点
- TDSQL认证考试考题及答案-70分版
- 云南省大理白族自治州(2024年-2025年小学三年级语文)统编版期末考试(下学期)试卷(含答案)
- 2025年日历( 每2个月一张打印版)
- 2023年北京海淀社区工作者考试真题
- 幼儿园中班数学活动课件:有趣的排序
评论
0/150
提交评论