版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
《Python语言程序设计》实训指导书Python爬虫任务背景:大数据时代,数据就是矿藏,如何发现、收集、挖掘数据,显然是一项重要的事情。通过网络爬虫,可以快速收集大量的数据用于处理或分析。网络爬虫,是一种按照一定的规则,自动地抓取网络信息的程序或者脚本。任务需求:搭建一个本地网页,利用python爬虫爬取本地网页上的文字内容任务分析:任务步骤:1.借用Pycharm工具,建立Python3项目2.搭建一个本地网页3.利用python爬虫爬取本地网页上的文字内容任务结果:创建一个本地网页如下使用爬虫得到部分结果如下任务实施过程:1 本地网站数据的准备与python实现简单爬虫功能知识点1)启动Tomcat发布本地网站实验目的1)本地网站数据的准备实验环境1)OracleLinux7.42)Jdk1.8.0_1713)Pycharm4)Python3.6.5实验步骤1)基于本地的网站数据的准备1.启动Tomcat,查看发布的网站,。[Command001]:catalina.shstart[Command002]:ls/opt/tomcat/webapps/liarbry/html/2.单击桌面左下角的人形图标3.单击网页浏览器,如下图4.打开的浏览器地址栏中输入网页地址,查看网页内容。[Command003]:http://localhost:8080/liarbry/html/books-1.html2Python3实现简单爬虫功能知识点1)启动服务,发布网站。2)Python的Urllib2模拟浏览器访问网页3)Python将网页数据爬取到本地,做为实验数据使用。实验目的1)理解python的Urllib2模拟浏览器原理实验环境1)OracleLinux7.42)Jdk1.8.0_1713)Pycharm4)Python3.6.5实验步骤1)Pycharm建立Python3项目1.鼠标双击桌面“pycharm”图标,打开pycharm工具,依次选择主菜单File->NewProject…选项,在弹出的窗口中Location对应的文本框中输入项目名project,点击Create按钮,完成项目的创建。2.如果是第1次打开此工具会弹出“WelcometoPyCharmCommunityEdition”窗口,鼠标点击“Donotshowagain”,下次再打开工具时就不会弹出此窗口。然后选择“CreateNewProject”,在弹出的窗口中Location对应的文本框中输入项目名project,点击Create按钮,完成项目的创建。3.建立包名experiment,用于写清洗Python程序。具体做法:选中新建立的项目project->鼠标右键->New->PythonPackage。4.在弹出的NewPackage窗口中的文本框内,输入要建立的包名(用户可自定义)“experiment”,点击OK按键,完成包名的创建。5.此时在窗口左侧的窗口中的project项目下可以看到新建立experiment程序包,在该包下写实验相关的Python程序。6.设置统一的编码模式,使新生成的文件支持中文,统一设置utf-8编码。具体做法:File->settings->Editor->FileandCodeTemplates->PythonScript。在PythonScript对应的文本模式中输入具体编码设置,点击OK按钮,完成设置。[Code001]:#!/usr/bin/python#-*-coding:utf-8-*-2)编写Python3程序,实现爬取网页数据的功能1.为了实现爬取http://localhost:8080/liarbry/html/books-1.html网页的数据,建立python文件Spider.py编写程序。具体做法:选中包名experiment->鼠标右键->选择New->选择PythonFile。2.在弹出的窗口中,属性值Name对应的文本框中输入新建立的文件的名字“Spider”,点击OK按钮,完成文件的创建。3.在新建立的Spider.py文件中编写代码。具体代码如下。[Code002]:#!/usr/bin/python#-*-coding:utf-8-*-#加载模块importrequestsimportbs4#定义待爬取网页连接url='http://localhost:8080/liarbry/html/books-3.html'#获取网页源码response=requests.get(url)#使用bs4解析网页content=bs4.BeautifulSoup(response.content.decode("utf-8"),"lxml")#找到节点<a>的信息element=content.find_all(name='a')#打开文本文件并写入信息f1=open('urls.txt','w')f1.write(str(element).strip())f1.close()#查找第三个节点<a>中的第0个内容element=content.find_all('a')[3].contents[0]print(element)#查找href为特定链接的节点element=content.find_all(href='/catalogue/category/books/sports-and-games_17/index.html')print(element)#查找属性id为default的节点element=content.find_all(id='default')f2=open('body.txt','w')f2.write(str(element).strip())f2.close()4
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年大学大三(法学)民事诉讼法阶段测试试题及答案
- 2025年大学大四(环境影响评价)生态保护与修复试题及答案
- 2025年大学生物(遗传规律)试题及答案
- 2025年大学第四学年(数据科学与大数据技术)深度学习应用试题及答案
- 2025年高职第一学年(会计电算化)会计信息系统试题及答案
- 2025年大学环保设备工程(环保设备技巧)试题及答案
- 高三化学(综合提升)2026年下学期期末测试卷
- 2025年中职第二学年(智能网联汽车)车载导航应用测试题及答案
- 2025年高职第一学年(物流管理)供应链规划试题及答案
- 2025年高职(园林技术)园林病虫害防治进阶试题及答案
- 2026北京大学餐饮中心招聘劳动合同制人员1人笔试参考题库及答案解析
- 2025年安吉县辅警招聘考试真题汇编附答案
- 货运代理公司操作总监年度工作汇报
- 世说新语课件
- 物业管理条例实施细则全文
- 电化学储能技术发展与多元应用
- 2026年安全员之C证(专职安全员)考试题库500道及完整答案【夺冠系列】
- 掩体构筑与伪装课件
- 2026年包头铁道职业技术学院单招职业技能考试题库带答案详解
- GB/T 23446-2025喷涂聚脲防水涂料
- 2026年(马年)学校庆元旦活动方案:骏马踏春启新程多彩活动庆元旦
评论
0/150
提交评论