版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
Python数据分析与实践12023/10/28第6章网络数据获取本章学习目标:•了解网页的基本组织形式•了解HTML和XML的基础知识•熟练掌握urllib和BeautifulSoup4模块32023/10/286.1网页数据的组织形式
将网页作为一个整体进行获取并不困难,困难之处是在于要如何从网页数据中提取出用户感兴趣的所需要的数据。想要实现这个目的,了解网页是如何组织的就显得非常的有必要了。在浏览器中,用户可以看见网页的最终呈现形式,继而将很清楚的知道自己需要哪些数据。
那么,如何获取数据呢?通常而言,计算机程序获取的是以文本形式存在的网页源代码,并且必须由用户告诉它需要提取网页源代码中的哪部分数据。本小节将简要介绍两种典型的网页组织方式HTML和XML,为网络数据的抓取做好基础工作。42023/10/286.1.1HTML
HTML,全称HyperTextMarkupLanguage,即超文本标记语言,超级文本标记语言是标准通用标记语言下的一个应用,也是一种规范,一种标准,它通过标记符号来标记要显示的网页中的各个部分。
网页文件本身是一种文本文件,通过在文本文件中添加标记符,可以告诉浏览器如何显示其中的内容(如:文字如何处理,画面如何安排,图片如何显示等)。浏览器按顺序阅读网页文件,然后根据标记符解释和显示其标记的内容,对书写出错的标记将不指出其错误,且不停止其解释执行过程,编制者只能通过显示效果来分析出错原因和出错部位。
但需要注意的是,对于不同的浏览器,对同一标记符可能会有不完全相同的解释,因而可能会有不同的显示效果。52023/10/286.1.1HTML
超文本标记语言文档的制作并不是很复杂,但其功能确是异常的强大,支持不同数据格式的文件镶入HTML文档中,这也是万维网(WWW)盛行的原因之一,HTML主要有如下几个特点:
简易性:超文本标记语言版本的升级采用超集方式,从而更加灵活方便。
可扩展性:超文本标记语言的广泛应用,促使越来越多的组织或者个人为其带来了加强功能,增加标识符等要求,超文本标记语言采取子类元素的方式,为系统扩展带来保证。
平台无关性:虽然Windows操作系统计算机大行其道,但使用MACOS、Linux、UNIX等其他操作系统的也大有人在,超文本标记语言是一项互联网通用标准,可以使用在广泛的平台上,并不依赖于某个或某些特定的操作平台。同时这也是万维网(WWW)盛行的另一个原因。62023/10/286.1.1HTML
通用性:另外,超文本标记语言是网络的通用语言,是一种简单、通用的全置标记语言。其允许网页制作人可基于HTML建立文本与图片、音频、视频相结合的复杂页面,这些页面可以被网上任何其他人浏览到,无论使用的是什么类型的操作系统或浏览器。72023/10/286.1.1HTML
HTML文档包含了HTML标签(TAG)和文本,通过他们来描述网页。Web浏览器的作用是将HTML源文件转化成网页形式,并显示出它们。浏览器本身并不会显示出HTML标签,而是使用它们来解释页面的内容。6.1.2HTML元素
HTML标签通常用两个角括号括起来,即用<>来进行标记,比如段落标记<p>,图片标记<imp>等。标签都是闭合的(两种格式:双标签(成对)与单标签(不成对))。
双标签形如<标签名>标签名称</标签名>,如<table>......</table>,标签对中的标签分为结束标签和开始标签,第一个标签是开始标签(也称为开放标签),第二个标签是结束标签(也称为闭合标签)。单标签形如<标签名/>,如<br/>、<hr/>等。在HTML中,大多数HTML元素通常是成对出现的。6.1.2HTML元素这里有两个注意点,一是,由于HTML是一种弱势语言,所以如果单标签不写“/”一般也不会报错,但如果放在某些规定比较严格的浏览器上运行,可能会出现问题,所以,建议还是按照规范的格式写代码。二是,标签是大小写无关的,<body>跟<BODY>表示意思是一样的,标准推荐使用小写,这样符合XHTML标准。6.1.2HTML元素
开始标签和结束标签以及它们中间包含的内容构成了一个元素。某些HTML元素具有空内容。空元素在开始标签中进行关闭(一开始标签的结束而结束)。大多数HTML元素可以拥有属性。大多数元素之中可以嵌套其他元素。例如,html元素<html>......</html>中间可以嵌套主体元素<body>......</body>,而主体元素<body>......</body>之间有可以嵌套段落元素<p>......</p>元素。对于HTML文档,嵌套是它最基本的组织架构之一。对于HTML元素,有以下几个需要注意的问题:6.1.2HTML元素1.结束标签。对于目前HTML版本来说,即使忘记使用结束标签,大多数的浏览器也会正确的显示相应的HTML内容。但是,并不建议这样做。在未来的HTML版本中将逐步严格要求使用结束标签。2.空元素。没有内容的HTML元素即称为空元素。它并不需要通过类似于<Tag>......</Tag>的方式开始和关闭标签,而是通过<.../>标签直接开始和结束标签。换行标签(<br>)就是一种空元素。正确的关闭空元素的方法是在开始标签直接添加斜杠,比如<br/>。目前,HTML、XHTML和XML都接受这种方式。也就是说,即使<br>在所有浏览器中都是有效地,但是使用<br/>其实是更有效的保障。6.1.2HTML元素3.标签大小写。目前,HTML标签对大小写不区分:<body>跟<BODY>是代表相同的意思,虽然有许多网站使用大写的HTML标签。值得注意的是,万维网联盟(W3C)在HTML4中推荐使用小写,而在XHTML版本中强制使用小写。
从上述内容中可以看出,在当前的互联网环境下,HTML的文档编写并没有严格的要求和组织,存在一些标签的缺失和不规范。因此,这就需要使用工具去补全HTML文档的结构。6.1.2HTML元素一些常用的HTML元素元素描述<!--...-->定义注释。<!DOCTYPE>定义文档类型。<a>超链接<address>定义文档作者或拥有者的联系信息。定义页面内容之外的内容。<audio>定义声音内容。<base>定义页面中所有链接的默认地址或默认目标<body>定义文档的主体。6.1.2HTML元素一些常用的HTML元素<br>定义简单的折行。<div>定义文档中的节。<dl>定义列表。<form>定义供用户输入的HTML表单。<frame>定义框架集的窗口或框架。<h1>to<h6>定义HTML标题。<head>定义关于文档的信息。<hr>定义水平线。<html>定义HTML文档。6.1.2HTML元素一些常用的HTML元素<iframe>定义内联框架。<img>定义图像。<object>定义内嵌对象。<ol>定义有序列表。<p>定义段落。<script>定义客户端脚本。<span>定义文档中的节。<style>定义文档的样式信息。6.1.2HTML元素一些常用的HTML元素<table>定义表格。<title>定义文档的标题。<ul>定义无序列表。<var>定义文本的变量部分。<video>定义视频。6.1.3HTML属性
HTML标签是可以设置并拥有属性的,属性提供了关于HTML元素的附加信息。也就是可以通过在元素中加入属性来添加更多的信息。属性在HTML元素中一般描述在开始标签中,并且总是以名称/值对的形式出现,比如:name="value"。6.1.3HTML属性
下面举几个HTML属性实例:属性例子1:<h1>定义标题的开始。<h1align="center">拥有关于对齐方式的附加信息。表示居中排列标题。属性例子2:<body>定义HTML文档的主体。<body>bgcolor="yellow"拥有关于背景颜色的附加信息,表示将背景颜色设置为黄色。6.1.3HTML属性属性有以下注意事项:
值应包含在引号内。属性值应该始终被包括在引号内,双引号是最常用的,不过使用单引号也没有问题。在某些个别的情况下,比如属性值本身就含有双引号,那么就必须使用单引号,例如:name=’Bill“HelloWorld”Gates’。
大小写。属性和属性值不区分字母大小写。不过,万维网联盟在其HTML中推荐标准中推荐使用小写的属性名/属性值,在XHTML中要求使用小写属性。6.2XML
XML,指可扩展标记语言(ExtensibleMarkupLanguage),是一种用于标记电子文件使其具有结构性的标记语言,很类似HTML。19988年2月,W3C正式批准了可扩展标记语言的标准定义,是W3C的推荐标准。XML可对文档和数据进行结构化处理,从而能够在企业内外部进行数据交换,实现动态内容的生成。XML可帮助人们更加准确的搜索,更叫方便的传送软件组件,更好的描述一些事物。6.2XML
XML是各种应用程序之间进行数据传输的最常用的工具。XML的设计宗旨是传输数据,而不是显示数据。此外,XML标签没有被预定义,用户需要根据实际需求自行定义标签。XML文档不会对标签或数据内容本身做任何变换,它只是被设计用来结构化、存储以及传输信息。用户需要通过编写程序或软件,才能传送、接收和显示XML文档。6.2XML
HTML和XML都是标准通用标记语言的子集。但是,XML不是HTML的替代,XML和HTML为不同的目的而设计:1.XML被设计用来传输和存储数据,其焦点是数据的内容。2.HTML被设计用来显示数据,其焦点是数据的外观。
简单的总结,就是HTML旨在显示信息,而XML旨在传输信息。此外,与HTML相比,XML的标记需要成对出现,且区分大小写字母。最后,存在错误的HTML文档是可能编译的,但是存在语法错误的XML文档则应避免接着编译。6.2XML
目前,XML在Web中起到的作用已经完全不亚于一直作为Web基石的HTML。XML正成为各种应用程序之间进行数据传输的最常用工具,并且在信息存储和描述领域变得越来越流行。6.2XML
XML具有以下用途。
(1)实现HTML布局与数据的分离:XML文件可以独立地存储数据,因此用户可专注于HTML的布局和显示,而无须因数据的变更修改HTML文档。
(2)简化数据共享:作为一种通用标记语言,XML可以在不同的计算机系统、不同的操作系统、不同的应用程序之间交换数据,从而使数据的共享更加简单。6.2XML
(3)简化数据传输:XML使不兼容系统之间的数据传输更加轻松。
(4)简化平台变更:由于XML在数据共享和传输方面的功能,平台的变更更加自由。
(5)创建新的Internet语言:例如XHML、WAP、WAML、RSS等互联网常用技术都是通过XML创建的。6.2.1XML的结构和语法
XML文档形成了一种树结构,它从“根部”开始,然后扩展到“枝叶”。XML文档必须包含根元素,该元素是所有其他元素的父元素。一个形象的表述,XML文档中的元素形成了一棵文档树,这棵树从根部开始,并一直扩展到树的最底端,所有元素均可拥有子元素。父、子以及同胞等术语用于描述元素之间的关系。父元素拥有子元素,相同层级上的子元素成为同胞,所有元素均可拥有文本内容和属性。6.2.1XML的结构和语法下面用一个具体的例子来讲述XML语句,该段代码表示一本书,具体如下:<bookstore><book><bookcategory="COOKING"><titlelang="en">EverydayItalian</title><author>GiadaDeLaurentiis</author><year>2005</year><price>30.00</price></book><bookcategory="CHILDREN"><titlelang="en">HarryPotter</title><author>JK.Rowling</author><year>2005</year><price>29.99</price></book><bookcategory="WEB"><titlelang="en">LearningXML</title><author>ErikT.Ray</author><year>2003</year><price>39.95</price></book></bookstore>6.2.1XML的结构和语法
例子中的根元素是<bookstore>,文档中的所有<book>元素都被包含在<bookstore>中。<book>元素有4个子元素:<title>、<author>、<year>、<price>。而且<title>、<author>、<year>、<price>互为同胞元素。6.2.1XML的结构和语法
XML的语法非常简单清晰,一份合法的XML文档具有以下特点:1.元素必须要有关闭标签,而HTML在某些情况下可以省略关闭标签。2.标签区分字母大小写,而HTML不区分字母大小写。XML标签对大小写敏感。在XML中,标签<Letter>与标签<letter>是不同的。3.必须正确的嵌套。在HTML中,常会看到没有正确嵌套的元素:<b><i>Thistextisboldanditalic</b></i>;在XML中,所有元素都必须彼此正确地嵌套:<b><i>Thistextisboldanditalic</i></b>。在上例中,正确嵌套的意思是:由于<i>元素是在<b>元素内打开的,那么它必须在<b>元素内关闭。6.2.1XML的结构和语法4.文档必须要有根元素。即必须要有一个元素是其他所有元素的父元素。如下所示:<root><child><subchild>.....</subchild></child></root>6.2.1XML的结构和语法5.属性值需添加引号。与HTML类似,XML也可拥有属性(名称/值的对)。其中属性值需要单引号或者双引号括起来。请研究下面的两个XML文档。第一个是错误的,第二个是正确的:<notedate=08/08/2008><to>George</to><from>John</from></note><notedate="08/08/2008"><to>George</to><from>John</from></note>在第一个文档中的错误是,note元素中的date属性没有加引号。6.2.1XML的结构和语法6.实体引用。在XML中,一些字符拥有特殊的意义。如果你把字符"<"放在XML元素中,会发生错误,这是因为解析器会把它当作新元素的开始。这样会产生XML错误:<message>ifsalary<1000then</message>;为了避免这个错误,请用实体引用来代替"<"字符:<message>ifsalary<1000then</message>。6.2.1XML的结构和语法
与HTML不同,XML文本内容中的空格会被保留。HTML会把多个连续的空格字符裁减(合并)为一个:HTML:HellomynameisDavid.输出: HellomynameisDavid.在XML中,文档中的空格不会被删节。6.2.1XML的结构和语法7.XML以LF存储换行。在Windows应用程序中,换行通常以一对字符来存储:回车符(CR)和换行符(LF)。这对字符与打字机设置新行的动作有相似之处。在Unix应用程序中,新行以LF字符存储。而Macintosh应用程序使用CR来存储新行。6.2.2XML元素和属性
与HTML一样,XML也由元素构成。XML元素指的是从(且包括)开始标签直到(且包括)结束标签的所有部分。元素可包含其他元素、文本或者两者的混合物。元素也可以拥有属性。与HTML不同的是,XML的元素标签都是用户自定义的,而非预定义的。因此,XML中的标签可以有任意多个,且可表达一定的实际含义。这也是XML可作为数据传输和存储文档的关键所在。其次,XML元素是可扩展的,因此这也使得它以携带更多的信息。6.2.2XML元素和属性请看下面这个XML例子:<note><to>George</to><from>John</from><body>Don'tforgetthemeeting!</body></note>6.2.2XML元素和属性
假设创建了一个应用程序,可将<to>、<from>以及<body>元素提取出来,并产生以下的输出:MESSAGETo:GeorgeFrom:JohnDon'tforgetthemeeting!6.2.2XML元素和属性之后这个XML文档作者又向这个文档添加了一些额外的信息:<note><date>2008-08-08</date><to>George</to><from>John</from><heading>Reminder</heading><body>Don'tforgetthemeeting!</body></note>那么这个应用程序会中断或崩溃吗?6.2.2XML元素和属性答案是:不会。
这个应用程序仍然可以找到XML文档中的<to>、<from>以及<body>元素,并产生同样的输出。也就是说即使在一些编辑完成的XML文档中插入新的内容也并不会影响到其他应用程序对原有文档数据的提取。XML的优势之一,就是可以经常在不中断应用程序的情况进行扩展。6.2.2XML元素和属性
XML的元素大部分都是用户自定义的,因此其命名需要遵循一定的规范:1.名称可以含字母、数字以及其他的字符。2.名称不能以数字或者标点符号开始。3.名称不能以字符“xml”(或者XML、Xml)开始。4,名称不能包含空格。6.2.2XML元素和属性
因为XML没有保留字,因此在遵循以上规则的前提下,可使用任意字符作为元素的名称。但是,由于XML是用于数据传输的,元素的命名最好可标识相应的实际含义,元素的名称也应该尽量简短。此外,由于XML中数据的提取是在其他软件中进行的,因此命名元素时,需要考虑到对应软件的处理习惯,以免造成一些不必要的麻烦。6.2.2XML元素和属性
与HTML类似,XML元素也可以在开始标签中包含属性,并通过属性提供有关元素的额外信息。值必须被引号包围,不过单引号和双引号均可使用。
例如在person标签中提供一个人的性别,可以这样写:
personsex="female"6.2.2XML元素和属性
也可以这样写:
personsex='female'6.2.2XML元素和属性如果属性值本身包含双引号,那么有必要使用单引号包围它,就像这个例子:<gangstername='George"Shotgun"Ziegler'>6.2.2XML元素和属性或者可以使用实体引用:<gangstername="George"Shotgun"Ziegler">。6.2.2XML元素和属性
从原则上说,任何元素的开始标签都可以包含属性。但是,从XML的数据传输与数据存储的功能出发,因使用属性而引起的一些问题:1.属性无法包含多重的值(元素可以)。2.属性无法描述树结构(元素可以)。3.属性不易扩展(为未来的变化)。4.属性难以阅读和维护,则请尽量选择用元素来描述数据,而使用属性提供提供与数据无关的信息。6.3利用urllib处理http协议如何获取网页数据呢?简单地说,就是通过URL来获取网页数据。在浏览器中,呈现给用户的可能是排版精良、图文并茂的一个网页,其实这就是浏览器解释的结果。从根本上讲,它是一段结合了JS和CSS的HTML代码。形象的说,如果把网页比作一个人,那么HTML便是骨架,JS就是肌肉,CSS则是衣服。6.3利用urllib处理http协议一次HTTP操作称为一个事务,其工作过程可分为四步:1)建立连接(connect)。首先客户机与服务器需要建立连接。只要单击某个超级链接,HTTP的工作开始。2)浏览器请求(request)。建立连接后,客户机发送一个请求给服务器,请求方式的格式为:统一资源标识符(URL)、协议版本号,后边是MIME信息包括请求修饰符、客户机信息和可能的内容。3)服务器应答(response)。服务器接到请求后,给予相应的响应信息,其格式为一个状态行,包括信息的协议版本号、一个成功或错误的代码,后边是MIME信息包括服务器信息、实体信息和可能的内容。4)关闭连接(close)。客户端接收服务器所返回的信息通过浏览器显示在用户的显示屏上,然后客户机与服务器断开连接。6.3利用urllib处理http协议
如果在以上过程中的某一步出现错误,那么产生错误的信息将返回到客户端,有显示屏输出。对于用户来说,这些过程是由HTTP自己完成的,用户只要用鼠标点击,等待信息显示就可以了。6.3利用urllib处理http协议下面举一个例子来展示一下这个典型的HTTP操作过程:首先,我们在浏览器上敲入“http:///resource/rs_041112_02.php”,将浏览器连接然后发送:>>GET/resource/rs_041112_02.phpHttp1.1>>Host:>>Accept:image/gif,image/x-xbitmap,image/jpeg,image/pjpeg,>>Accept-Language:en>>Accept-Encoding:gzip,deflate>>User-Agent:Mozilla/5.0(Windows;U;WindowsNT5.1;rv:1.7.3)Gecko/20040913Firefox/0.10>>Connection:Keep-Alive>>6.3利用urllib处理http协议解释:浏览器使用HTTP1.1协议请求页面“/resource/rs_041112_02.php”,并告诉服务器你的浏览器是Firefox0.10、操作系统是WindowsXP。浏览器希望保持与之间的连接,并请求获得多的文件,包括网页中的图片。翻译成语言上面是:>>用HTTP1.1协议获得/resource/rs_041112_02.php>>访问的主机是:>>接收的文件包括:image/gif,image/x-xbitmap,image/jpeg,image/pjpeg,>>使用的语言是:en>>接收的编码方式(浏览器能够解释的)是:gzip,deflate>>用户的浏览器信息:WindowsXP的操作系统Firefox/0.10的浏览器>>保持连接:还要去图片>>6.3利用urllib处理http协议的服务器发出响应:<<HTTP/1.1200OK<<Date:Mon,12Mar200419:12:16GMT<<Server:Apache/1.3.31(Unix)mod_throttle/3.1.2<<Last-Modified:Fri,22Sep200414:16:18<<ETag:"dd7b6e-d29-39cb69b2"<<Accept-Ranges:bytes<<Content-Length:3369<<Connection:close<<Content-Type:text/html<<<<Filecontentgoeshere6.3利用urllib处理http协议浏览器并从服务器的响应中获得服务器的信息:比如运行在Apache。上面翻译成语言上面就是:<<HTTP1.1协议方式有效<<当前时间是:Mon,12Mar200419:12:16GMT<<服务器是:Apache/1.3.31(Unix)mod_throttle/3.1.2<<最后一次修改:Fri,22Sep200414:16:18<<ETag:"dd7b6e-d29-39cb69b2"<<Accept-Ranges:bytes<<Content-Length:3369<<Connection:close<<Content-Type:text/html<<<<Filecontentgoeshere该例子就是最简单的交互过程描述。6.3利用urllib处理http协议
urllib提供了一系列用于操作URL、且进一步获取URL所定位的数据文当的高层接口。其中,该模块的urlopen()方法类似于Python内置方法open(),但接受的是url作为其参数。此外,urllib仅支持只读方式打开url,并且没有类似seek()的方法定义指针。6.3利用urllib处理http协议
urllib.urlopen(url[,data[,proixes,[,context]]])用于打开一个由url标记的网络对象,以进行读取。第1个参数url即为URL,第二至第四个参数可以不传递。第2个参数data可用于传递某个POST请求(通常请求类型为GET),该参数值最好通过使用urlencode()方法获取。第3个参数proxies,urlopen()函数对代理的使用非常透明,并不要求身份验证。在UNIX或者Windows环境下,进行Python编译之前,需要为URL设置http_proxy和ftp_proxy环境变量,以定位到目标代理服务器。proxies参数应该设定为一个主机后缀的逗号分割列表,可选择在URL后附加“:port”。在Windows环境下,如果未设置代理环境变量,则代理设置参数采用注册表中的Internet设置;MacOSX环境下,则代理设置采用OSX系统配置框架。当然,也可以设置为不使用代理。6.3利用urllib处理http协议以下是一些使用HTTP代理的几种情况及其例子:使用http:///weather/101210111作为http代理。>>>proxies={'http':'http:///weather/101210111'}>>>filehandle=urllib.urlopen(some_url,proxies=proxies)不使用http代理:>>>filehandle=urllib.urlopen(some_url,proxies={})6.3利用urllib处理http协议使用系统环境中的代理设置。>>>filehandle=urllib.urlopen(some_url,proxies=None)>>>filehandle=urllib.urlopen(some_url)。6.3利用urllib处理http协议以下是使用GET和POST方法返回网络对象的示例:>>>importurllib>>>params=urllib.urlencode({‘spam’:1,‘eggs’:2,‘bacon’:0})>>>f=urllib.urlopen(“http:///cgi-bin/query?%s”%params)>>>printf.read()GET方法6.3利用urllib处理http协议>>>importurllib>>>params=urllib.urlencode({‘spam’:1,‘eggs’:2,‘bacon’:0})>>>f=urllib.urlopen(“http:///cgi-bin/query”,params)>>>printf.read()POST方法6.3利用urllib处理http协议
urllib.urlretrieve(url[,filename[,reportbook[,data]]]):用于将一个网络对象复制到本地文件夹(或缓存)。不过,如果url参数指向本地文件或者一个当前对象的有效缓存设备,则这个对象不会被复制。该方法返回一个元组(filename,headers),其中filename是指本地文件名,headers则保存了网络对象的info()方法的返回值。此外,urllib还有许多其他使用方法。6.3利用urllib处理http协议
Python标准库中的另一个URL处理包urllib2可以构建一个Request类的实例来设置URL请求的Headers,因此可通过urllib模块伪装浏览器,进而能处理更复杂的HTTP访问。当然,urllib2不能代替urllib,例如urllib并没有提供urlencode()方法用来生成GET查询字符串,且urllib.urlretrieve()函数以及urllib.quote()等一系列quote()和unquote()方法都没有加入到urllib2。这也是在实际应用中一起使用urllib和urllib2的原因。6.4利用BeautifulSoup4解析HTML文档
利用urllib或urllib2获取目标HTML文档之后,接下来就要对文档中的内容进行析取。关键问题在于,HTML文档中有很大一部分内容都是用于设置文档呈现形式的,而这部分内容很多情况下并不被用户关心。用户更加关心的可能是网页正文内容中的某些信息,或者网页内的超链接。用户可以使用Python标准库中re模块,通过构建模式对象的方式来析取出满足用户需求的文本。然而,在实践中并不推荐这种方法。re模式的构建较为复杂,且构建好的模式难以推广到多个案例中。6.4利用BeautifulSoup4解析HTML文档
Python第三方库BeautifulSoup在处理HTML和XML编码文档方面表现的非常优秀。.BeautifulSoup是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.BeautifulSoup模块可以很好地处理不规范标记并生成剖析树,且提供简单又常用的导航,搜索以及修改剖析树的操作。特别的,BeautifulSoup的一些关键函数可以结合正则表达式re模块中的模式或者使用css查询器语法。因此,它可以在很大程度上减少用户花在编程上的时间。6.4利用BeautifulSoup4解析HTML文档
BeautifulSoup将复杂的HTML或XML转化成树形结构,每个节点都是Python对象。这里借用官方文档中的一个例子来对BeautifulSoup4的属性和方法进行演示。这是爱丽丝梦游仙境中的一段内容。html_doc="""<html><head><title>TheDormouse'sstory</title></head><body><pclass="title"><b>TheDormouse'sstory</b></p><pclass="story">Onceuponatimetherewerethreelittlesisters;andtheirnameswere<ahref="http:///elsie"class="sister"id="link1">Elsie</a>,<ahref="http:///lacie"class="sister"id="link2">Lacie</a>and<ahref="http:///tillie"class="sister"id="link3">Tillie</a>;andtheylivedatthebottomofawell.</p><pclass="story">...</p>"""6.4利用BeautifulSoup4解析HTML文档
使用BeautifulSoup解析这段代码,能够得到一个BeautifulSoup的对象,并能按照标准的缩进格式的结构输出:>>>frombs4importBeautifulSoup>>>soup=BeautifulSoup(html_doc,'html.parser')>>>print(soup.prettify())<html><head><title>TheDormouse'sstory</title></head><body><pclass="title"><b>TheDormouse'sstory</b>6.4利用BeautifulSoup4解析HTML文档</p><pclass="story">Onceuponatimetherewerethreelittlesisters;andtheirnameswere<aclass="sister"href="http:///elsie"id="link1">Elsie</a>,<aclass="sister"href="http:///lacie"id="link2">Lacie</a>and<aclass="sister"href="http:///tillie"id="link2">Tillie</a>;andtheylivedatthebottomofawell.6.4利用BeautifulSoup4解析HTML文档</p><pclass="story">...</p></body></html>6.4.1BeautifulSoup4中的对象
BeautifulSoup将复杂HTML文档转换成一个复杂的树形结构,每个节点都是Python对象,所有对象可以归纳为4种:Tag,NavigableString,BeautifulSoup,Comment。Tag对象
BeautifulSoup中的Tag对象与XML或HTML原生文档中的tag相同。TAG对象通过.Tag的方式获取对应类别的第一个标签对象:>>>soup=BeautifulSoup('<bclass="boldest">Extremelybold</b>')>>>tag=soup.b>>>type(tag)<class'bs4.element.Tag'>Tag对象
Tag有很多方法和属性,现在介绍一下tag中最重要的属性:name和attributes。首先讲解name属性。每个tag都有自己的名字,通过
.name
来获取:>>>u'b'Tag对象>>="blockquote">>tagblockquoteclass="boldest"Extremelybold/blockquote
如果改变了tag的name,那将影响所有通过当前BeautifulSoup对象生成的HTML文档。Tag对象
attributes属性。一个tag可能有很多个属性.tag<bclass="boldest">有一个“class”的属性,值为“boldest”.tag的属性的操作方法与字典相同:>>>tag['class']u'boldest'也可以直接”点”取属性,比如:.attrs:>>>tag.attrs{u'class':u'boldest'}Tag对象
tag的属性可以被添加,删除或修改.再说一次,tag的属性操作方法与字典一样。>>>tag['class']='verybold'>>>tag['id']=1>>>tag<blockquoteclass="verybold"id="1">Extremelybold</blockquote>>>>deltag['class']>>>deltag['id']>>>tag<blockquote>Extremelybold</blockquote>Tag对象如果引用了Tag中一个不存在的属性,则返回None:>>>tag['class']KeyError:'class'>>>print(tag.get('class'))NoneNavigableString对象
可通过.string获取标签中的文本内容,文本类型为NavigableString。字符串常被包含在tag内。BeautifulSoup用NavigableString类来包装tag中的字符串:>>>tag.stringExtremelybold>>>type(tag.string)<class'bs4.element.NavigableString'>NavigableString对象
Tag中包含的字符串不能编辑,但是可以被替换成其他字符串,用replace_with()方法:>>>tag.string.replace_with("Nolongerbold")>>>tagblockquoteNolongerbold/blockquoteBeautifulSoup对象
BeautifulSoup
对象表示的是一个文档的全部内容.大部分时候,可以把它当作
Tag
对象,它支持
遍历文档树
和
搜索文档树
中描述的大部分的方法.
因为
BeautifulSoup
对象并不是真正的HTML或XML的tag,所以它没有name和attribute属性。但有时查看它的.nam属性是很方便的,所以
BeautifulSoup
对象包含了一个值为“[document]”的特殊属性
.name:>>>[document]'Comment对象
Tag,NavigableString,BeautifulSoup几乎覆盖了html和xml中的所有内容,但是还有一些特殊对象,容易让人担心的内容是文档的注释部分。Comment对象是一个特殊类型的NavigableString对象:>>>markup="<b><!--Hey,buddy.Wanttobuyausedparser?--></b>">>>soup=BeautifulSoup(markup)>>>comment=soup.b.string>>>type(comment)<class'bs4.element.Comment'>Comment对象
当它出现在HTML文档中时,Comment对象会使用特殊的格式输出:>>>print(soup.b.prettify())<b><!--Hey,buddy.Wanttobuyausedparser?--></b>6.4.2遍历文档树
一个标签可能包含许多个字符串或者其他标签,从文档树的视角看,这些都是该标签的子节点。通过,Tag方法可以获取标签对象的子节点标签,且可在一个语句中多次使用。通过.string方法可获取标签对象的字符串子节点。Beautiful提供了许多操作和遍历子节点的属性。注意:BeautifulSoup中字符串节点不支持这些属性,因为字符串没有子节点。6.4.2遍历文档树仍用”爱丽丝梦游仙境”的文档来做例子:html_doc="""<html><head><title>TheDormouse'sstory</title></head><body><pclass="title"><b>TheDormouse'sstory</b></p><pclass="story">Onceuponatimetherewerethreelittlesisters;andtheirnameswere<ahref="http:///elsie"class="sister"id="link1">Elsie</a>,<ahref="http:///lacie"class="sister"id="link2">Lacie</a>and<ahref="http:///tillie"class="sister"id="link3">Tillie</a>;andtheylivedatthebottomofawell.</p><pclass="story">...</p>""">>>frombs4importBeautifulSoup>>>soup=BeautifulSoup(html_doc,'html.parser')6.4.2遍历文档树
通过这个例子演示了怎样从文档的一段内容找到另一段内容。操作文档树最简单的方法就是告诉它你想获取的tag的name.如果想获取<head>标签,只要用soup.head:>>>soup.head<head><title>TheDormouse'sstory</title></head>>>>soup.title<title>TheDormouse'sstory</title>6.4.2遍历文档树下面的代码可以获取<body>标签中的第一个<b>标签:>>>soup.body.b<b>TheDormouse'sstory</b>通过点取属性的方式只能获得当前名字的第一个tag:>>>soup.a<aclass="sister"href="http:///elsie"id="link1">Elsie</a>6.4.2遍历文档树
如果想要得到所有的<a>标签,或是通过名字得到比一个tag更多的内容的时候,就需要用到其他方法,比如:find_all()>>>soup.find_all('a')[<aclass="sister"href="http:///elsie"id="link1">Elsie</a>,<aclass="sister"href="http:///lacie"id="link2">Lacie</a>,<aclass="sister"href="http:///tillie"id="link3">Tillie</a>].contents和.childrenTag的.contents属性可以将tag的子节点以列表的方式输出:>>>head_tag=soup.head>>>head_tag<head><title>TheDormouse'sstory</title></head>>>>head_tag.contents[<title>TheDormouse'sstory</title>]>>>title_tag=head_tag.contents[0]>>>title_tag<title>TheDormouse'sstory</title>>>>title_tag.contents[u'TheDormouse'sstory'].contents和.children
BeautifulSoup对象本身一定会包含子节点,也就是说<html>标签也是BeautifulSoup对象的子节点:>>>len(soup.contents)1>>>soup.contents[0].nameu'html'.contents和.children字符串没有.contents属性,因为字符串没有子节点:>>>text=title_tag.contents[0]>>>text.contentsAttributeError:'NavigableString'objecthasnoattribute'contents'.contents和.children通过Tag的.children生成器,可以对tag的子节点进行循环:>>>forchildintitle_tag.children:print(child)TheDormouse'sstory.descendants.contents和.children属性仅包含Tag的直接子节点。例如,<head>标签只有一个直接子节点<title>:>>>head_tag.contents[<title>TheDormouse'sstory</title>].descendants
但是<title>标签也包含一个子节点--字符串“TheDormouse’sstory”,这种情况下字符串“TheDormouse’sstory”也属于<head>标签的子孙节点。.descendants属性可以对所有tag的子孙节点进行递归循环:>>>forchildinhead_tag.descendants: print(child)<title>TheDormouse'sstory</title>TheDormouse'sstory.descendants
上面的例子中,<head>标签只有一个子节点,但是有2个子孙节点:<head>节点和<head>的子节点,BeautifulSoup有一个直接子节点(<html>节点),却有很多子孙节点:>>>len(list(soup.children))1>>>len(list(soup.descendants))25.string
如果Tag只有一个NavigableString类型子节点,那么这个Tag可以使用.string得到子节点:>>>title_tag.string'TheDormouse'sstory'.string
如果一个Tag仅有一个子节点,那么这个Tag也可以使用.string方法,输出结果与当前唯一子节点的.string结果相同:>>>head_tag.contents[<title>TheDormouse'sstory</title>]>>>head_tag.stringu'TheDormouse'sstory'.string
如果Tag包含了多个子节点,Tag就无法确定.string方法应该调用哪个子节点的内容,.string的输出结果是None:>>>print(soup.html.string)None.strings和.stripped_strings如果Tag中包含多个字符串,可以使用.strings来循环获取:>>>forstringinsoup.strings: print(repr(string))u"TheDormouse'sstory"u'\n\n'u"TheDormouse'sstory"u'\n\n'u'Onceuponatimetherewerethreelittlesisters;andtheirnameswere\n'u'Elsie'u',\n'u'Lacie'u'and\n'u'Tillie'u';\nandtheylivedatthebottomofawell.'u'\n\n'u'...'u'\n'.strings和stripped_strings
输出的字符串中可能包含了很多空格或空行,使用.stripped_strings可以去除多余空白内容:>>>forstringinsoup.stripped_strings: print(repr(string))u"TheDormouse'sstory"u"TheDormouse'sstory"u'Onceuponatimetherewerethreelittlesisters;andtheirnameswere'u'Elsie'u','u'Lacie'u'and'u'Tillie'u';\nandtheylivedatthebottomofawell.'u'...'全部是空格的行会被忽略掉,段首和段末的空白会被删除。6.4.3搜索文档树
BeautifulSoup定义了很多搜索方法,这里着重介绍2个:find()和find_all()。其它方法的参数和用法类似。6.4.3搜索文档树再以“爱丽丝”文档作为例子:html_doc="""<html><head><title>TheDormouse'sstory</title></head><body><pclass="title"><b>TheDormouse'sstory</b></p><pclass="story">Onceuponatimetherewerethreelittlesisters;andtheirnameswere<ahref="http:///elsie"class="sister"id="link1">Elsie</a>,<ahref="http:///lacie"class="sister"id="link2">Lacie</a>and<ahref="http:///tillie"class="sister"id="link3">Tillie</a>;andtheylivedatthebottomofawell.</p><pclass="story">...</p>"""frombs4importBeautifulSoupsoup=BeautifulSoup(html_doc,'html.parser')6.4.3搜索文档树
使用find_all()类似的方法可以查找到想要查找的文档内容。
在介绍find_all()方法前,先介绍一下过滤器的类型,这些过滤器贯穿整个搜索的API。过滤器可以被用在tag的name中,节点的属性中,字符串中或他们的混合中。参数类型描述字符串最简单的滤波器,匹配标签或文本内容,返回列表正则表达式通过正则表达式的match()匹配标签或文本内容,返回列表列表返回所有与列表元素匹配的标签或文本内容,返回列表True匹配标签或文本内容的任何值,返回列表函数若无合适滤波器,定义一个只接受一个元素参数且返回逻辑值True或False的函数,进而匹配满足特定条件的标签或文本内容,返回列表字符串
最简单的过滤器是字符串.在搜索方法中传入一个字符串参数,BeautifulSoup会查找与字符串完整匹配的内容,下面的例子用于查找文档中所有的<b>标签:>>>soup.find_all('b')[<b>TheDormouse'sstory</b>]正则表达式
如果传入正则表达式作为参数,BeautifulSoup会通过正则表达式的match()来匹配内容。下面例子中找出所有以b开头的标签,这表示<body>和<b>标签都应该被找到:>>>importre>>>fortaginsoup.find_all(pile("^b")): print()bodyb正则表达式
下面的代码找出名字中包含“t”的所有标签:>>>fortaginsoup.find_all(pile("t")):print()htmltitle列表
如果传入列表参数,BeautifulSoup会将与列表中任一元素匹配的内容返回。下面代码找到文档中所有<a>标签和<b>标签:>>>soup.find_all(["a","b"])[<b>TheDormouse'sstory</b>,<aclass="sister"href="http:///elsie"id="link1">Elsie</a>,<aclass="sister"href="http:///lacie"id="link2">Lacie</a>,<aclass="sister"href="http:///tillie"id="link3">Tillie</a>]True
True可以匹配任何值,下面代码查找到所有的tag,但是不会返回字符串节点。>>>fortaginsoup.find_all(True):print()htmlheadtitlebodypbpaaap函数
如果没有合适过滤器,那么还可以定义一个方法,方法只接受一个元素参数,如果这个方法返回True,表示当前元素匹配并且被找到,如果不是则反回False。下面方法校验了当前元素,如果包含class属性却不包含id属性,那么将返回True:>>>defhas_class_but_no_id(tag): returntag.has_attr('class')andnottag.has_attr('id')函数
将这个方法作为参数传入find_all()方法,将得到所有<p>标签:>>>soup.find_all(has_class_but_no_id)[<pclass="title"><b>TheDormouse'sstory</b></p>,<pclass="story">Onceuponatimetherewere...</p>,<pclass="story">...</p>]
返回结果中只有<p>标签没有<a>标签,因为<a>标签还定义了”id”,没有返回<html>和<head>,因为<html>和<head>中没有定义”class”属性。函数
通过一个方法来过滤一类标签属性的时候,这个方法的参数是要被过滤的属性的值,而不是这个标签。下面的例子是找出href属性不符合指定正则的<a>标签。>>>defnot_lacie(href):returnhrefandnotpile("lacie").search(href)>>>soup.find_all(href=not_lacie)[<aclass="sister"href="http:///elsie"id="link1">Elsie</a>,<aclass="sister"href="http:///tillie"id="link3">Tillie</a>]函数
标签过滤方法可以使用复杂方法。下面的例子可以过滤出前、后都有文字的标签:>>>frombs4importNavigableString>>>defsurrounded_by_strings(tag):return(isinstance(tag.next_element,NavigableString)andisinstance(tag.previous_element,NavigableString))>>>fortaginsoup.find_all(surrounded_by_strings):
paaaP函数
现在来了解一下搜索方法find_all()的细节,其格式如下:find_all(name,attrs,recursive,string,**kwargs)函数find_all()方法搜索当前tag的所有tag子节点,并判断是否符合过滤器的条件。例子如下:>>>soup.find_all("title")[<title>TheDormouse'sstory</title>]>>>soup.find_all("p","title")[<pclass="title"><b>TheDormouse'sstory</b></p>]>>>soup.find_all("a")[<aclass="sister"href="http:///elsie"id="link1">Elsie</a>,<aclass="sister"href="http:///lacie"id="link2">Lacie</a>,<aclass="sister"href="http:///tillie"id="link3">Tillie</a>]>>>soup.find_all(id="link2")[<aclass="sister"href="http:///lacie"id="link2">Lacie</a>]>>>importre>>>soup.find(string=pile("sisters"))u'Onceuponatimetherewerethreelittlesisters;andtheirnameswere\n'函数
这里有几个方法很相似,还有几个方法是新的,参数中的string和id是什么含义?为什么find_all("p","title")返回的是CSSClass为“title”的<p>标签?我们来仔细看一下find_all()的参数。>>>soup.find_all("title")[<title>TheDormouse'sstory</title>]注意:搜索name参数的值可以使任一类型的过滤器,字符窜,正则表达式,列表,方法或是True。
name参数可以查找所有名字为name的tag,字符串对象会被自动忽略掉。简单的用法如下:函数
如果一个指定名字的参数不是搜索内置的参数名,搜索时会把该参数当作指定名字tag的属性来搜索,如果包含一个名字为id的参数,BeautifulSoup会搜索每个tag的“id”属性:>>>soup.find_all(id='link2')[<aclass="sister"href="http:///lacie"id="link2">Lacie</a>]
如果传入href参数,BeautifulSoup会搜索每个tag的“href”属性:>>>soup.find_all(href=pile("elsie"))[<aclass="sister"href="http:///elsie"id="link1">Elsie</a>]函数
搜索指定名字的属性时可以使用的参数值包括字符串,正则表达式,列表,True。下面的例子在文档树中查找所有包含id属性的tag,无论id的值是什么:>>>soup.find_all(id=True)[<aclass="sister"href="http:///elsie"id="link1">Elsie</a>,<aclass="sister"href="http:///lacie"id="link2">Lacie</a>,<aclass="sister"href="http:///tillie"id="link3">Tillie</a>]
使用多个指定名字的参数可以同时过滤tag的多个属性:>>>soup.find_all(href=pile("elsie"),id='link1')[<aclass="sister"href="http:///elsie"id="link1">three</a>]函数
有些Tag属性在搜索不能使用,比如HTML5中的data-*属性:>>>data_soup=BeautifulSoup('<divdata-foo="value">foo!</div>')>>>data_soup.find_all(data-foo="value")SyntaxError:keywordcan'tbeanexpression
但是可以通过find_all()方法的attrs参数定义一个字典参数来搜索包含特殊属性的tag:>>>data_soup.find_all(attrs={"data-foo":"value"})[<divdata-foo="value">foo!</div>]函数
按照CSS类名搜索tag的功能非常实用,但标识CSS类名的关键字class在Python中是保留字,使用class做参数会导致语法错误。从BeautifulSoup的4.1.1版本开始,可以通过class_参数搜索有指定CSS类名的tag:
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年室内仿真植物墙装饰工程施工合作合同版B版
- 2024年山区高速公路建设土石方施工协议版
- 2024年度企业派遣员工服务协议
- 2024届高校毕业生三方就业协议模板版B版
- 2024年工程扩建项目补充协议协议版B版
- 2024年国内货运代理协议样本版B版
- 2024幕墙建筑承包合同范本
- 2024临时工劳动合同
- 辽宁省2023-2024学年高一化学上学期第一次月考试题含解析
- 2024年专业汽车租赁协议模板精准条款版B版
- 2024年新人教版七年级上册数学教学课件 6.2 直线、射线、线段 习题 6.2
- (新版)婴幼儿发展引导员(初级)技能鉴定理论试题及答案
- 北京住建委存量房屋买卖合同范本2024年
- 中学生网络安全教育主题班会
- 大班绘本阅读《小老鼠的探险日记》教案含反思
- 高等教育自学考试《13683管理学原理(中级)》考前模拟试卷一
- 2024年公卫执业医师考试真题及答案
- 钢质防火门安装施工方案(新版)
- 第10课《人类社会及其发展规律》第2框《社会基本矛盾及其运动规律》同步课堂课件-【中职专用】《哲学与人生》
- JBT 10554.2-2015 无损检测 轴类球墨铸铁超声检测 第2部分:球墨铸铁曲轴的检测
- 中华民族风俗文化智慧树知到答案2024年云南大学
评论
0/150
提交评论