lxml和xpath结合爬取数据_第1页
lxml和xpath结合爬取数据_第2页
lxml和xpath结合爬取数据_第3页
lxml和xpath结合爬取数据_第4页
lxml和xpath结合爬取数据_第5页
已阅读5页,还剩5页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、一、lxml安装pip install lxmlfrom lxml import etree使用# 导入模块,该库常用的XML处理功能都在lxml.etree中# 在windows系统的dos提示符下输入命令:对xml文件进行解析,然后查找、定位和操作标签的模块。一、lxml# python3# coding=utf-8from lxml import etreehtml=michael elem=etree.HTML(html) # 相当于得到html元素(根)print(type(elem) # 是一个元素类型print(elem.tag) # 该元素的标记是htmlprint(etree

2、.tostring(elem).decode(utf-8) #打印得到html内容demo1.py举例二、xpathXPath 是一门在 XML 文档中查找信息的语言。XPath 可用来在 XML 文档中对元素和属性进行遍历。表达式描述nodename选取此节点的所有子节点。/从根节点选取。/从匹配选择的当前节点选择文档中的节点,而不考虑它们的位置。.选取当前节点。.选取当前节点的父节点。选取属性。二、xpath路径表达式结果bookstore选取 bookstore 元素的所有子节点。/bookstore选取根元素 bookstore。bookstore/book选取属于 bookstore

3、 的子元素的所有 book 元素。/book选取所有 book 子元素,而不管它们在文档中的位置。bookstore/book选择属于 bookstore 元素的后代的所有 book 元素,而不管它们位于 bookstore 之下的什么位置。/lang选取名为 lang 的所有属性。二、xpath路径表达式结果/bookstore/book1选取属于 bookstore 子元素的第一个 book 元素。/bookstore/booklast()选取属于 bookstore 子元素的最后一个 book 元素。/bookstore/booklast()-1选取属于 bookstore 子元素的倒数

4、第二个 book 元素。/bookstore/bookposition()35.00选取 bookstore 元素的所有 book 元素,且其中的 price 元素的值须大于 35.00。/bookstore/bookprice35.00/title选取 bookstore 元素中的 book 元素的所有 title 元素,且其中的 price 元素的值须大于 35.00。三、lxml+xpath实战演练任务:得到某影片介绍网页(http:/ python3# coding=utf-8import urllibfrom urllib import requestfrom lxml import etreeurl=http:/ #得到所有类名为comboxuser的divfor user_div in user_divs: addr=user_div.xpath(./divclass=pic_58/a/href)0 # 得到用户的主页地址 name=user_div.xpath(./pclass=px14/a/text()0 # 得到用户名 point=user_div.xpath(./spanclass=db_point ml6/text()0

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论