爬虫第3章 解析html_第1页
爬虫第3章 解析html_第2页
爬虫第3章 解析html_第3页
爬虫第3章 解析html_第4页
爬虫第3章 解析html_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第十四章解析html01HTML的构成HTML简介HTML结构HTML是用来描述网页的一种语言,其全称叫作HyperTextMarkupLanguage,即超文本标记语言。网页包括文字、按钮、图片和视频等各种复杂的元素。不同类型的文字通过不同类型的标签来表示,如图片用img标签表示,视频用video标签表示,段落用p标签表示,它们之间的布局又常通过布局标签div嵌套组合而成,各种标签通过不同的排列和嵌套才形成了网页的框架。创建HTML文件Pycharm中创建html文件文档根元素:html元素头<head>元素<body>HTML常用标签<!DOCTYPEhtml>:声明文档类型为HTML5文件。文档声明在HTML5文档必不可少,且必须放在文档的第一行。

<meta>:包含多个属性 <metacharset=“UTF-8”>:设置文档字符及编码格式

<metaname=“属性值”content=“属性值详细内容”>:给搜索引擎提供必要信息,搜索引擎会根据提供的信息找到网页 <title>:网页的标题 <metahttp-equiv="属性值"content="属性值详细内容">:声明浏览器如何解释编译文件,以帮助正确和精确地显示网页内容 <link>:用于为网页链接各种文件,常用属性: rel:用于表明被链接文件与当前文件关系。icon表明被链接图片是当前网页的icon图标。 type:表明被链接文件是什么类型,可省略。 href:表明链接文件的地址。头文件标签:元素标签:<h1></h1>...<h6></h6>:标题标签<p></p>:段落<br/>:换行<hr/>:水平线<div>:网页中最常用的分区标签,常用于网页布局使用<imgsrc="">:一幅图片,src表示图片的路径。更多的内容可以通过/tags/tag_html.asp等网站查询网页内容设计之后如何实现访问?设计好的网页内容云服务器绑定域名申请存储访问02beautifulsoup4BeautifulSoup是一个可以从HTML或XML文件中提取数据的Python库.BeautifulSoup模块的名称是bs4(表示BeautifulSoup,第4版)。Beautifulsoup简介Beautifulsoup安装方法一:cmd中安装pipinstallbeautifulsoup4方法二:pycharm中安装注意在PyPi中还有一个名字是BeautifulSoup的包,但那可能不是你想要的,那是BeautifulSoup3的发布版本,因为很多项目还在使用BS3,所以BeautifulSoup包依然有效.但是如果你在编写新项目,那么你应该安装的beautifulsoup4;安装解析器BeautifulSoup支持Python标准库中的HTML解析器,因为那些Python版本的标准库中内置的HTML解析方法不够稳定.Python还支持一些第三方的解析器,其中一个是lxml,另一个纯Python实现的html5lib,html5lib的解析方式与浏览器相同。beautifulsoup的使用文档根元素:html元素头<head>元素<body>meta标签title标签link标签h1标签h2标签h3标签h4标签hr标签ol标签li标签li标签li标签li标签ul标签li标签li标签li标签li标签img标签a标签span标签video标签br标签table标签h3标签p标签div标签tr标签tr标签th标

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论