抓取一篇文章天下无鱼_第1页
抓取一篇文章天下无鱼_第2页
抓取一篇文章天下无鱼_第3页
抓取一篇文章天下无鱼_第4页
抓取一篇文章天下无鱼_第5页
已阅读5页,还剩7页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

抓取第⼀抓取第⼀篇微信公众号⽂上⼀节我们熟悉了Fiddler的基本操作以及每个模块所代表的意义,何使⽤Python模拟微信发送请求获取公众号⽂章的基本信息。Fiddler看到了很多请求,为了找到微信历史⽂章的接⼝,我们要逐个查看Response返回的内容,最后发现第11个请求确定微信公众号的请求HOST是之后,我们可HTTP请求,然后从服务器得到响应结果,现在我们就⽤Python实现如何发送⼀个HTTPHTTP请求,然后从服务器得到响应结果,现在我们就⽤Python实现如何发送⼀个HTTP请求。这⾥我们使⽤requests库来发送请求。创建⼀个Pycharm项我们使⽤Pycharm作为开发⼯具,你也可以使⽤其它你熟悉的⼯具,Python环境是Python3(推荐使⽤Python3.6),先创建⼀个项⽬weixincrawlercookie、User-agent、Host等信cookie、User-agent、Host等信我们直接从Fiddler请求中拷⻉URL和Headers,右键->JustUrl/Headers的,总之我把这些参数全部提取出来。然后把Headers拷⻉出来,发现Fiddler把请求⾏、响应⾏、响应头都包括进来了,我们只需url="/mp/profile_ext"\"?action=home"\"&biz=MjM5MzgyODQxMQ=="\"&scene=124"\"&devicetype=android-24"\"&nettype=WIFI&a8scene=3"\因为requests.get因为requests.get⽅法⾥⾯的headers参数必须是字典对象,所最终v0.1最终v0.1response.text中。如果返回的内容⾮常短,⽽且titleHeaders⾥⾯的Cookie字段过期,从⼿机Host:Connection:keep-alive{"Host":"","Connection":"keep-alive",}:paramheaders::return:dictheaders=headers.split("\n")d_headers=dict()forhinheaders:ifh:k,v=h.split(":",1)d_headers[k]=v.strip()return⽤浏览器打开weixin_history.html⽤浏览器打开weixin_history.html⽂件,查看该⻚⾯的源代码,搜索微信历史⽂章标题的关键字"11⽉赠书"(就是我以往发的⽂章)msgList的数组中(实际上该数组包装在字典结构中)Json格式的数据,但是⾥⾯还有html转义字符需要处理withopen("weixin_history.html","w",encoding="utf-8")asf:#defurl"/...headers"""Host:Connection:keep-aliveUpgrade-Insecure-Requests:1headers=response=requests.get(url,headers=headers,html转义处理,最终得到⼀个列表对article=Python书单'is_multi':1,'content':'author'刘志军'subtype':从html⻚⾯中提取历史:paramhtml_content:returnimportreimporthtmlimportrex="msgList=pattern=pile(pattern=rex,flags=re.S)match=pattern.search(html_content)ifdata=data=html.unescape(data)data=json.loads(data)articles=data.get("list")foriteminarticles:return'del_flag':'fileid':502883895,'del_flag':'fileid':502883895,[{'fileid':861719336,'content_url':'content':'','copyright_stat':'cover':'del_flag':'digest'多数情况下,⼈是种短视的动物'source_url':'author'

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论