




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
多页数据爬取课程名称Python语言程序教学内容多页数据爬取课时1项目性质□演性 验性 □计性 √合性授课班级授课日期授课地点教学目标爬取同一网页内多个页面信息并汇总教学内容1.借用Pycharm工具,建立Python3项目2.加载带有翻页的本地多页网页3.使用python爬取网页信息4.使用Beautifulsoap解析信息并保存教学重点教学难点1.使用python爬取网页信息2.使用Beautifulsoap解析信息并保存教学准备装有Python的计算机教学课件PPT教学过程教学环节教学内容与过程(教学内容、教学方法、组织形式、教学手段)课前组织做好上课前的各项准备工作(打开计算机、打开课件、打开软件、打开授课计划、教案等),吸引学生注意力。课程说明【目的】使学生从了解本节课的学习目标、学习重点、考评方式等方面明确课程学习的要求和目标。课程内容描述1 多页数据爬取实验目的1)掌握beautifulsoup4模块的基本用法实验环境1)OracleLinux7.42)Python3.6.53)Pycharm2017.2实验步骤1)打开IDE,配置解释器(如已完成解释器配置,可跳过解释器配置步骤)1.点击桌面pycharm图标打开IDE2.在打开的窗口中选择Configure选项,接着在弹出的下拉菜单中选择Settings打开首选项菜单3.首选项菜单中选择左侧的ProjectInterpreter,在右侧下拉菜单中选择3.6.5版本解释器,并依次点击Apply与OK确认设置2)新建Project(如已完成工程创建,可跳过此步骤)1.点击CreateNewProject新建工程2.在Location文本框中补充输入project,表示将/root/PycharmProjects/project作为新工程目录,并点击create完成创建3)新建python源代码文件1.鼠标右键单击project工程,在菜单中选择New->PythonFile创建.py文件2.在弹出窗口的Name文本框中输入.py文件的文件名,本次实验推荐文件名为“多页数据爬取“。接着点击OK按钮完成python源文件的创建。创建成功后,会默认在右侧编辑区域打开该文件4)编写实验代码1.输入如下代码[Code001]:#引入request模块、beautifulsoup4模块以及csv模块importurllib.requestfrombs4importBeautifulSoupimportcsv2.输入如下代码[Code002]:#定义一个函数loadData用于爬取指定页内的表格数据,并将表格的表头返回defloadData(page,resultList):file=urllib.request.urlopen("http://localhost:18080/list?page={page}".format(page=page))html=file.read()soup=BeautifulSoup(html,'html.parser')trlist=soup.find_all('tr')keys=trlist[0]keyset=[key.stringforkeyinkeysifkey.string!='\n']trlist=trlist[1:len(trlist)-1]fortrintrlist:tmpset=[td.stringfortdintriftd.string!='\n']resultList.append(tmpset)returnkeyset3.输入如下代码[Code003]:#定义持久化函数,将爬取后的数据写入当前目录下的csv文件中defpersistence(keyset,resultList):withopen('Titanic_train.csv','a',newline='')asfile:writer=csv.writer(file)writer.writerow(keyset)forrowinresultList:writer.writerow(row)4.输入如下代码[Code004]:#编写程序主入口,爬取1-9页数据并将全部数据持久化至csv文件中if__name__=='__main__':resultList=[]keyset=Noneforiinrange(1,10):keyset=loadData(i,resultList)persistence(keyset,resultList)5.完整代码如下图所示5)执行程序1.鼠标右键单击右侧编辑窗口,在菜单中选择Run‘python主程序所在文件名’一项执行编写好的Python程序,本次实验文件名为”多页数据爬取”2.生成的文
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 系统性备考:特许金融分析师试题
- 辽宁省名校联盟2024-2025学年高二下学期3月联合考试历史试题(含解析)
- 小金库案例警示教育
- 深入探讨2024年CFA试题及答案
- CFA知识体系框架试题及答案
- 高校预防火灾
- 止痛泵使用规范
- 骨关节肌肉病理
- 2024年CFA考试总结与提升经验与试题及答案
- CFA考试经验丰富者的建议与试题及答案
- Unit2 Travelling Around Reading for Writing 说课稿-2024-2025学年高中英语人教版(2019)必修第一册
- 《新能源汽车滚装运输安全技术指南》2022
- 宗祠祭祖祭文范文
- 年产8.5万吨钙基高分子复合材料项目可行性研究报告模板-立项备案
- 美育(威海职业学院)知到智慧树答案
- rules in the zoo动物园里的规则作文
- 《森林防火安全教育》主题班会 课件
- 人工喂养课件教学课件
- 2024年第三届浙江技能大赛(信息网络布线赛项)理论考试题库(含答案)
- 2024年同等学力申硕英语考试真题
- 初中劳动教育-家用电器使用与维护《电风扇的日常使用和维修》教学设计
评论
0/150
提交评论