![Python程序设计基础项目化教程 教案 32 多页数据爬取_第1页](http://file4.renrendoc.com/view12/M01/38/14/wKhkGWYAA8CAIDBnAAFBYAdK_Ts417.jpg)
![Python程序设计基础项目化教程 教案 32 多页数据爬取_第2页](http://file4.renrendoc.com/view12/M01/38/14/wKhkGWYAA8CAIDBnAAFBYAdK_Ts4172.jpg)
![Python程序设计基础项目化教程 教案 32 多页数据爬取_第3页](http://file4.renrendoc.com/view12/M01/38/14/wKhkGWYAA8CAIDBnAAFBYAdK_Ts4173.jpg)
![Python程序设计基础项目化教程 教案 32 多页数据爬取_第4页](http://file4.renrendoc.com/view12/M01/38/14/wKhkGWYAA8CAIDBnAAFBYAdK_Ts4174.jpg)
![Python程序设计基础项目化教程 教案 32 多页数据爬取_第5页](http://file4.renrendoc.com/view12/M01/38/14/wKhkGWYAA8CAIDBnAAFBYAdK_Ts4175.jpg)
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
多页数据爬取课程名称Python语言程序教学内容多页数据爬取课时1项目性质□演性 验性 □计性 √合性授课班级授课日期授课地点教学目标爬取同一网页内多个页面信息并汇总教学内容1.借用Pycharm工具,建立Python3项目2.加载带有翻页的本地多页网页3.使用python爬取网页信息4.使用Beautifulsoap解析信息并保存教学重点教学难点1.使用python爬取网页信息2.使用Beautifulsoap解析信息并保存教学准备装有Python的计算机教学课件PPT教学过程教学环节教学内容与过程(教学内容、教学方法、组织形式、教学手段)课前组织做好上课前的各项准备工作(打开计算机、打开课件、打开软件、打开授课计划、教案等),吸引学生注意力。课程说明【目的】使学生从了解本节课的学习目标、学习重点、考评方式等方面明确课程学习的要求和目标。课程内容描述1 多页数据爬取实验目的1)掌握beautifulsoup4模块的基本用法实验环境1)OracleLinux7.42)Python3.6.53)Pycharm2017.2实验步骤1)打开IDE,配置解释器(如已完成解释器配置,可跳过解释器配置步骤)1.点击桌面pycharm图标打开IDE2.在打开的窗口中选择Configure选项,接着在弹出的下拉菜单中选择Settings打开首选项菜单3.首选项菜单中选择左侧的ProjectInterpreter,在右侧下拉菜单中选择3.6.5版本解释器,并依次点击Apply与OK确认设置2)新建Project(如已完成工程创建,可跳过此步骤)1.点击CreateNewProject新建工程2.在Location文本框中补充输入project,表示将/root/PycharmProjects/project作为新工程目录,并点击create完成创建3)新建python源代码文件1.鼠标右键单击project工程,在菜单中选择New->PythonFile创建.py文件2.在弹出窗口的Name文本框中输入.py文件的文件名,本次实验推荐文件名为“多页数据爬取“。接着点击OK按钮完成python源文件的创建。创建成功后,会默认在右侧编辑区域打开该文件4)编写实验代码1.输入如下代码[Code001]:#引入request模块、beautifulsoup4模块以及csv模块importurllib.requestfrombs4importBeautifulSoupimportcsv2.输入如下代码[Code002]:#定义一个函数loadData用于爬取指定页内的表格数据,并将表格的表头返回defloadData(page,resultList):file=urllib.request.urlopen("http://localhost:18080/list?page={page}".format(page=page))html=file.read()soup=BeautifulSoup(html,'html.parser')trlist=soup.find_all('tr')keys=trlist[0]keyset=[key.stringforkeyinkeysifkey.string!='\n']trlist=trlist[1:len(trlist)-1]fortrintrlist:tmpset=[td.stringfortdintriftd.string!='\n']resultList.append(tmpset)returnkeyset3.输入如下代码[Code003]:#定义持久化函数,将爬取后的数据写入当前目录下的csv文件中defpersistence(keyset,resultList):withopen('Titanic_train.csv','a',newline='')asfile:writer=csv.writer(file)writer.writerow(keyset)forrowinresultList:writer.writerow(row)4.输入如下代码[Code004]:#编写程序主入口,爬取1-9页数据并将全部数据持久化至csv文件中if__name__=='__main__':resultList=[]keyset=Noneforiinrange(1,10):keyset=loadData(i,resultList)persistence(keyset,resultList)5.完整代码如下图所示5)执行程序1.鼠标右键单击右侧编辑窗口,在菜单中选择Run‘python主程序所在文件名’一项执行编写好的Python程序,本次实验文件名为”多页数据爬取”2.生成的文
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年普通整流管芯片项目可行性研究报告
- 2025至2031年中国带棚架松式络筒机行业投资前景及策略咨询研究报告
- 2025年室内型电子显示屏幕项目可行性研究报告
- 2025年吨包装机项目可行性研究报告
- 2025至2031年中国丁维钙粉行业投资前景及策略咨询研究报告
- 2025年三氯乙基磷酸酯项目可行性研究报告
- 2025至2030年香水木大双龙船项目投资价值分析报告
- 2025至2030年中国铝条插角件数据监测研究报告
- 2025至2030年线性增压内压力试验机项目投资价值分析报告
- 2025至2030年环氧树脂地坪面层涂料项目投资价值分析报告
- 牛津书虫系列1-6级 双语 4B-03.金银岛中英对照
- 2024-2025学年深圳市南山区六年级数学第一学期期末学业水平测试试题含解析
- 2024-2030年中国免疫细胞存储行业市场发展分析及竞争形势与投资战略研究报告
- 工贸行业企业安全生产标准化建设实施指南
- 机械基础(少学时)(第三版) 课件全套 第0-15章 绪论、带传动-气压传动
- T-CACM 1560.6-2023 中医养生保健服务(非医疗)技术操作规范穴位贴敷
- 07J912-1变配电所建筑构造
- 锂离子电池串并联成组优化研究
- 人教版小学数学一年级下册第1-4单元教材分析
- JTS-215-2018码头结构施工规范
- 大酒店风险分级管控和隐患排查治理双体系文件
评论
0/150
提交评论