人工智能及大数据学习python爬虫介绍_第1页
人工智能及大数据学习python爬虫介绍_第2页
免费预览已结束,剩余2页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、爬虫介一爬二爬虫架 调度器:相当于一台电脑的CPUURLURL管理器:URL地址和已爬取的URLURL 器:通过传入一个URL载器有方包爬虫介一爬二爬虫架 调度器:相当于一台电脑的CPUURLURL管理器:URL地址和已爬取的URLURL 器:通过传入一个URL载器有方包 自带的html.parser xml parser beautifulsoup lxml DOM 三、urllib2 网页的三种方#-*-coding:UTF-8-*- libimport 2url=response1=urllib2.urlopen(url)三、urllib2 网页的三种方#-*-coding:UTF-8-

2、*- libimport 2url=response1=urllib2.urlopen(url) 的长度 pr第二种方法request=urllib2.Re) 浏览器进行爬虫 zilla/5.0)response2=urllib2.urlopen(request) response2.getcode 第三种方法 () ieJar()#加入urllib2处的能力opener= =urllib2.urlopen(url) pr len(response3.re ad()BeautifulSoup 的安四、Beautiful xml HTML eautiful cmd(命令提示符),(2.7 版本)

3、安装目录中的 scripts dir pip.exe, pip 五、使用Beautiful文#!/usr/bin/ #BeautifulSoup 的安四、Beautiful xml HTML eautiful cmd(命令提示符),(2.7 版本)安装目录中的 scripts dir pip.exe, pip 五、使用Beautiful文#!/usr/bin/ #-*-coding:UTF-8-*-importrefrombs4import tifulSouphtml_doc=TheDormouses TheDormousesstoryOnceuponatimetherewerethreeli

4、ttlesisters;andtheirnam es were Elsie, Lacieandaclass=sister;andtheylivedatthebottomofawell. #创建一个BeautifulSoup对象soup=BeautifulSoup(html_do c,html.parser,from_encoding=utf-8) #获取所有的links = soup.find_ all(a) forlinkinlinks: ,linkhref ,link.get_textURL地址link_nodesoup.find(a,hr/elsie)link_,link_nodehref,li() 正则表达式匹配 link_node = pile(rti)link_,link_nodehr() 获取P段落的文字p_node=soup.find

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论