![数据采集与处理-教案设计-第8章-网络数据采集_第1页](http://file4.renrendoc.com/view4/M00/0A/08/wKhkGGY_ZfKAFK9QAAIQ6Fr6Igw122.jpg)
![数据采集与处理-教案设计-第8章-网络数据采集_第2页](http://file4.renrendoc.com/view4/M00/0A/08/wKhkGGY_ZfKAFK9QAAIQ6Fr6Igw1222.jpg)
![数据采集与处理-教案设计-第8章-网络数据采集_第3页](http://file4.renrendoc.com/view4/M00/0A/08/wKhkGGY_ZfKAFK9QAAIQ6Fr6Igw1223.jpg)
![数据采集与处理-教案设计-第8章-网络数据采集_第4页](http://file4.renrendoc.com/view4/M00/0A/08/wKhkGGY_ZfKAFK9QAAIQ6Fr6Igw1224.jpg)
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
NUMPAGES4.网络数据采集一、课程计划网络数据采集日期:2024-05-25学生数量:34主题:网络数据采集与Python操作备注说明教学目标:1、了解爬虫相关概念与知识,理解网络数据交互过程和原理及HTML和JavaScript基本语法和结构;2、掌握静态网页内容常用Python模块的基本方法和操作,理解不同模块的功能特点和应用区别;3、了解动态网页技术,熟悉Selenium模块爬取动态网页方法;4、了解爬虫框架Scray基本结构和基本原理,理解Scrapy的开发方法和步骤。由于本地文件众多,可选择性地重点介绍CSV、JSON、Excel和XML数据格式和基本读写操作;对于图像格式,重点介绍其图像数据内存组织形式及相关模块操作方法使用材料:中文课件PPT和基于JupyterNotebook的示例代码,录制的课程视频授课形式:线上资源设置学习任务,线上或线下授课,随堂练习,随堂提问,上机作业线上资源作为学习任务,不占用上课时间授课学生假设:已掌握Python基本语法、基本数据类型、Numpy和Pandas的基本使用二、阶段计划:1、文件读写-Week1:2课时阶段目标老师程序学生程序时间(分钟)间隔(分钟)备注说明了解爬虫相关概念与知识,理解网络数据交互过程和原理及HTML和JavaScript基本语法和结构;介绍网络爬虫相关概念、知识和技术介绍,HTML与JavaScript基础知识演示浏览器查看网页源码及开发者选项(F12快捷键)的使用方式和操作,演示网页发送请求和接收相应过程及相关操作观察老师的操作和效果自行打开浏览器查看网页源码,并进入开发者选项模式,查看网络交互及相关内容查看网页结构、组织方式及交互模式和相应结果3510线上或线下课堂形式,学生自带笔记本。老师先讲解和演示,之后指导学生完成操作掌握静态网页内容常用Python模块的基本方法和操作,理解不同模块的功能特点和应用区别介绍静态网页内容爬取与解析相关Python模块如urllib、BeautifulSoup、request、Pandas等模块,并演示相关示例代码总结比较不同模块的使用方法和效果观察老师的操作和效果根据课程对应的JupyterNotebook示例代码,练习本地结构化文件相应多种模块的读写操作方法2510不要求学生掌握全部模块的使用方法,但需要了解各模块的基本功能、特点及大致使用方法随堂提问打开随机抽奖程序,从学生名单中抽取学生。学生如果回答不完整或有偏差,老师补充或纠偏抽中的学生回答问题,允许随时查阅资料372、文件读写-Week2:1课时阶段目标老师程序学生程序时间(分钟)间隔(分钟)备注说明了解动态网页技术,熟悉Selenium模块爬取动态网页方法;了解爬虫框架Scray基本结构和基本原理,理解Scrapy的开发方法和步骤。介绍动态网页技术及Selenium模块功能、特点及常用方法,介绍爬虫框架Scray基本结构和基本原理演示Selenium模块爬取动态网页和手工交互模拟操作方法及示例代码演示Scray爬虫项目创建方法和基本操作观察老师的操作和效果根据课程配套的JupyterNotebook示例代码,练习动态网页数据爬取的基本操作方法运行查看结果2510线上或线下课堂形式,学生自带笔记本。老师先讲解和演示,之后指导学生完成示例代码操作随堂提问打开随机抽奖程序,从学生名单中抽取学生。学生如果回答不完整或有偏差,老师补充或纠偏抽中的学生回答问题,允许随时查阅资料37三、随堂提问问题:1.浏览器中浏览的网页内容是什么格式?如何在浏览器(如Edge浏览器)中查看网页的源码?2.什么是DOM,有何作用?3.使用网络爬虫获取网页内容一般需要几个步骤?4.HTML总体结构包括哪两个部分?常见标签有哪些?5.JavaScript语言在HTML中一般有什么作用?6.常见的Python网络爬虫模块都有哪些?都有哪些作用和特点?7.Scrapy框架有何作用?都有哪些组成模块?8.使用Python语言爬取动态网页数据,可考虑使用哪些模块?使用具体某个浏览器的Web驱动需要注意什么问题?9.对于HTML中的Table标签类数据,都有哪些爬取方法?10.向指定网址发送HTTPRequest请求,其常用方法get和post有何区别?四、互动与反馈:OverallCommentCommentaboutthelessonplanoneortwothingsthatworked动态网页数据爬取技术和示例代码需要进一步丰富oneortwothingsthatdidn’tworksowell知识点相对较多,部分学生消化吸收有限Commentabouttheteachingoneortwothingsthatwentwell线上授课时,中
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 代理记账及会计服务协议
- 古建筑修复金箔施工合同
- 公益借用车协议书
- 学生宿舍防诈骗安全协议
- 产品研发定向合作协议
- 厂房院墙施工合同
- 互联网医疗进度管理
- 半成品仓库管理方法
- 装修工程验收争议样本
- 合同签订与知识产权交易
- 消毒液领用记录模版
- DB31T 685-2019 养老机构设施与服务要求
- DB22T 5016-2019 市政工程资料管理标准
- 山东省德州市水资源情况3年数据分析报告2020版
- 公路工程设计收费标准说明
- 境外上市之新加坡企业上市指南
- 视觉检测系统确认方案
- 2022年陕西省物流集团有限责任公司招聘笔试题库及答案解析
- 道路交通安全集中整治任务清单
- 民事执行相关法律法规汇总
- 如何讲好一堂课新专题培训课件
评论
0/150
提交评论