版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
《Python语言程序设计》实训指导书匹配HTML文本中的数据任务背景:大数据时代,数据就是矿藏,如何发现、收集、挖掘数据,显然是一项重要的事情。通过网络爬虫,可以快速收集大量的数据用于处理或分析。网络爬虫,是一种按照一定的规则,自动地抓取网络信息的程序或者脚本。但网页结构往往相对复杂,如何解析网页源码并提取信息,是爬虫需要解决的关键问题,解析源码,一个方式就是使用正则表达式。任务需求:给定网页源码,使用正则表达式提取标题和正文任务分析:任务步骤:1.借用Pycharm工具,建立Python3项目2.使用正则表达式提取标题和正文任务结果:提取出网页源码中的标题和正文信息任务实施过程:1 匹配HTML文本中的数据实验目的1)练习正则表达式匹配实验环境1)OracleLinux7.42)Python3.6.53)Pycharm2017.2实验步骤1)打开IDE,配置解释器(如已完成解释器配置,可跳过解释器配置步骤)1.点击桌面pycharm图标打开IDE2.在打开的窗口中选择Configure选项,接着在弹出的下拉菜单中选择Settings打开首选项菜单3.首选项菜单中选择左侧的ProjectInterpreter,在右侧下拉菜单中选择3.6.5版本解释器,并依次点击Apply与OK确认设置2)新建Project(如已完成工程创建,可跳过此步骤)1.点击CreateNewProject新建工程2.在Location文本框中补充输入project,表示将/root/PycharmProjects/project作为新工程目录,并点击create完成创建3)新建python源代码文件1.鼠标右键单击project工程,在菜单中选择New->PythonFile创建.py文件2.在弹出窗口的Name文本框中输入.py文件的文件名,本次实验推荐文件名为“匹配HTML文本中的数据“。接着点击OK按钮完成python源文件的创建。创建成功后,会默认在右侧编辑区域打开该文件4)编写实验代码1.输入如下代码[Code001]:#引入re模块importre2.输入如下代码[Code002]:if__name__=='__main__':#定义一个HTML文本数据str='''<html><head><title>Youtsite</title></head><body><divclass="containercontainer-sm"><divid="icon-header"><spanclass="fafa-question-circle"></span></div><divid="text-column"><headerclass="secondary-header"><h1>Error404:<strong>Pagenotfound.</strong></h1><p>Thisisnotthepageyou'relookingfor.</p></header><navclass="secondary-nav"><ul><li><ahref="index.html"class="btnbtn-primary">Takemehome<spanclass="fafa-exclamation"></span></a></li></ul></nav></div></div></body></html>'''#使用re.findall函数捕获所需header标签,并将header标签中所属h1标签的strong标签去除。在header标签中的p标签内匹配strong标签,如果存在也进行去除str=re.findall(r'<header.*?>(.*?)</header>',str,re.S|re.M)[0]print(re.findall(r'<h1>(.*?)</h1>',str,re.S|re.M)[0].replace('<strong>','').replace('</strong>',''))print(re.findall(r'<p>(.*?)</p>',str,re.S|re.M)[0].replace('<strong>','').replace('</strong>',''))3.完整代码如下图所示5)执行程序
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024-2030年化学短纤维行业市场深度分析及发展策略研究报告
- 2024-2030年加热床上用品行业市场现状供需分析及投资评估规划分析研究报告
- 2024-2030年功率磁珠感应器行业市场现状供需分析及投资评估规划分析研究报告
- 2024-2030年刺青激光行业市场现状供需分析及投资评估规划分析研究报告
- 2024-2030年分诊表行业市场现状供需分析及投资评估规划分析研究报告
- 2024-2030年冷压疗法产品行业市场现状供需分析及投资评估规划分析研究报告
- 2024-2030年全自动洗衣机行业市场深度分析及发展前景与投资机会研究报告
- 2024-2030年全球及中国软件出版商行业市场现状供需分析及市场深度研究发展前景及规划可行性分析研究报告
- 项目部安全培训试题有答案解析
- 2024企业形象重塑设计合同版
- 三年级上册数学单元测试-4.万以内的加法和减法(二) 人教新版 (含解析)
- 屋面防水动火安全方案
- 红色扁平风音乐节音乐会动态模板课件
- 光州事件与韩国的民主化课件
- 临时用电系统图
- 个体化健康教育
- YY∕T 0296-2022 一次性使用注射针 识别色标
- 红楼梦服饰文化析课件
- 初中生心理健康主题班会课件ppt
- PMC生产计划与物料控制实务课件
- 初中英语单词表大全必背个带音标
评论
0/150
提交评论