Python网络爬虫技术-完整教案

上传人：1*** IP属地：湖北上传时间：2024-04-07 格式：DOCX 页数：29 大小：48.27KB 积分：4.8 举报 版权申诉

已阅读5页，还剩24页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

第1章Python爬虫环境与爬虫简介教案课程名称：Python网络爬虫技术课程类别：必修适用专业：大数据技术类相关专业总学时：32学时（其中理论14学时，实验18学时）总学分：2.0学分本章学时：2学时材料清单《Python网络爬虫技术》教材。配套PPT。引导性提问。探究性问题。拓展性问题。教学目标与基本要求教学目标先对爬虫的概念和原理，及反爬虫的概念进行基本的概述，列举针对反爬虫的常用手段制定对应爬取策略。而后简要介绍了Python常用爬虫库和爬虫环境，以及用于存储爬取的数据的MySQL、MongoDB数据库。基本要求了解爬虫的原理。了解爬虫运作时应遵守的规则。了解反爬虫的目的和常用手段。了解Python常用爬虫库。掌握MySQL、MongoDB数据库的配置方法。问题引导性提问引导性提问需要教师根据教材内容和学生实际水平，提出问题，启发引导学生去解决问题，提问，从而达到理解、掌握知识，发展各种能力和提高思想觉悟的目的。爬虫能够做什么？爬虫能爬哪些数据？Python语言在爬虫方面有哪些优势？探究性问题探究性问题需要教师深入钻研教材的基础上精心设计，提问的角度或者在引导性提问的基础上，从重点、难点问题切入，进行插入式提问。或者是对引导式提问中尚未涉及但在课文中又是重要的问题加以设问。爬虫能够应用在那些场景？爬虫的原理是什么？拓展性问题拓展性问题需要教师深刻理解教材的意义，学生的学习动态后，根据学生学习层次，提出切实可行的关乎实际的可操作问题。亦可以提供拓展资料供学生研习探讨，完成拓展性问题。爬虫是不是万能的？爬虫在数据分析有哪些作用？主要知识点、重点与难点主要知识点爬虫的原理。反爬虫的目的和常用手段。针对反爬虫的常用手段制定对应爬取策略。Python常用爬虫库。配置MySQL数据库。配置MongoDB数据库。重点爬虫的原理。针对反爬虫的常用手段制定对应爬取策略。Python常用爬虫库。难点爬虫的原理。教学过程设计理论教学过程认识爬虫的概念。认识爬虫的原理。了解爬虫运作时应遵守的规则。了解反爬虫的目的和常用手段。掌握针对反爬虫的常用手段制定对应爬取策略。了解Python常用爬虫库。掌握MySQL数据库的配置方法。掌握MongoDB数据库的配置方法。实验教学过程在Windows/Linux系统上安装及配置MySQL数据库。在Windows/Linux系统上安装及配置MongoDB数据库。使用pip工具分别安装urllib3、Requests、lxml和BeautifulSoup4库。

第2章网页前端基础教案课程名称：Python网络爬虫技术课程类别：必修适用专业：大数据技术类相关专业总学时：32学时（其中理论14学时，实验18学时）总学分：2.0学分本章学时：4学时材料清单《Python网络爬虫技术》教材。配套PPT。引导性提问。探究性问题。拓展性问题。教学目标与基本要求教学目标先介绍了Python中的底层Socket库，然后运用Socket库建立TCP和UDP连接。而后对超文本传输协议（HTTP）及其相关机制进行了简要介绍，包括HTTP请求方式与过程、常见HTTP状态码、HTTP头部信息，以及Cookie机制、存储方式和实现过程。基本要求了解Socket库的作用。使用Socket库进行TCP编程。使用Socket库进行UDP编程。熟悉HTTP请求方法与过程。熟悉常见HTTP状态码。熟悉Cookie。问题引导性提问引导性提问需要教师根据教材内容和学生实际水平，提出问题，启发引导学生去解决问题，提问，从而达到理解、掌握知识，发展各种能力和提高思想觉悟的目的。网页数据为什么可以被爬取？为什么能模拟User-Agent进行规避服务器检验？探究性问题探究性问题需要教师深入钻研教材的基础上精心设计，提问的角度或者在引导性提问的基础上，从重点、难点问题切入，进行插入式提问。或者是对引导式提问中尚未涉及但在课文中又是重要的问题加以设问。UDP和TCP协议有什么区别？打开一个简单的静态网站看见的数据会位于HTTP响应的哪一个位置？用谷歌浏览器进入到一个要登录的网站登录进去，然后在谷歌浏览器中清除Cookie值，查看一下效果会什么样？拓展性问题拓展性问题需要教师深刻理解教材的意义，学生的学习动态后，根据学生学习层次，提出切实可行的关乎实际的可操作问题。亦可以提供拓展资料供学生研习探讨，完成拓展性问题。Cookie和Session的相同点是什么？Cookie和Session的不同点是什么？如何用Socket构建一个简单的爬虫？主要知识点、重点与难点主要知识点使用Socket建立服务器端和客户端进行TCP通信，通过TCP通信从客户端发送请求并接受服务器端的响应。使用Socket建立服务器端和客户端进行UDP通信，通过UDP通信从客户端发送请求并接受服务器端的响应。HTTP通信过程中的客户端发起请求的方式与服务器发送响应的过程。HTTP通信过程中服务器发送响应的常见HTTP状态码。HTTP协议中的头部类型与对应类型的常用的头字段。Cookie机制的运作原理及其作用。重点HTTP通信过程中的客户端发起请求的方式与服务器发送响应的过程。HTTP协议中的头部类型与对应类型的常用的头字段。难点HTTP通信过程中的客户端发起请求的方式与服务器发送响应的过程。教学过程设计理论教学过程了解Socket库的作用及其包含的协议类型。了解Socket库中的3种函数及其作用。熟悉使用Socket建立服务器端和客户端进行TCP通信，通过TCP通信从客户端发送请求并接受服务器端的响应。熟悉使用Socket建立服务器端和客户端进行UDP通信，通过UDP通信从客户端发送请求并接受服务器端的响应。熟悉HTTP通信过程中的客户端发起请求的方式与服务器发送响应的过程。熟悉HTTP通信过程中服务器发送响应的常见HTTP状态码。熟悉HTTP协议中的头部类型与对应类型的常用的头字段。熟悉Cookie机制的运作原理及其作用。实验教学过程使用Socket建立服务器端和客户端进行TCP通信，通过TCP通信从客户端发送请求并接受服务器端的响应。使用Socket建立服务器端和客户端进行UDP通信，通过UDP通信从客户端发送请求并接受服务器端的响应。

第3章简单静态网页爬取教案课程名称：Python网络爬虫技术课程类别：必修适用专业：大数据技术类相关专业总学时：32学时（其中理论14学时，实验18学时）总学分：2.0学分本章学时：9学时材料清单《Python网络爬虫技术》教材。配套PPT。引导性提问。探究性问题。拓展性问题。教学目标与基本要求教学目标先用Python中的urllib3或Requests库实现HTTP请求得到静态网站HTML。然后分别介绍用Chrome开发者工具查看网页、用正则表达式解析网页、用Xpath解析网页、用BeautifulSoup库解析网页4种方法解析HTML网页得到想要的数据。最后将爬取到的信息存储为JSON文件，或存储入MySQL数据库。基本要求分别使用urllib3库、Requests库实现HTTP请求。分别使用Chrome开发者工具、正则表达式、Xpath和BeautifulSoup解析网页。使用JSON模块、PyMySQL库存储数据。问题引导性提问引导性提问需要教师根据教材内容和学生实际水平，提出问题，启发引导学生去解决问题，提问，从而达到理解、掌握知识，发展各种能力和提高思想觉悟的目的。拿到一个HTML代码文本，如果你想获取其中一些字段你会怎么获取？你认为爬虫可以分为几个部分？探究性问题探究性问题需要教师深入钻研教材的基础上精心设计，提问的角度或者在引导性提问的基础上，从重点、难点问题切入，进行插入式提问。或者是对引导式提问中尚未涉及但在课文中又是重要的问题加以设问。Requests库与urllib3库哪个更好用，为什么？有人认为Xpath解析网页的方法比BeautifulSoup解析网页的方法好用一些，你认可这观点吗？为什么？拓展性问题拓展性问题需要教师深刻理解教材的意义，学生的学习动态后，根据学生学习层次，提出切实可行的关乎实际的可操作问题。亦可以提供拓展资料供学生研习探讨，完成拓展性问题。如何规避通过访问频度反爬？JSON对象、字典、字符串相互转换要用到哪些方法？主要知识点、重点与难点主要知识点使用urllib3库实现HTTP请求。使用Requests库实现HTTP请求。使用Chrome开发者工具查看网页。使用正则表达式解析网页。通过Xpath解析网页。使用BeautifulSoup库解析网页。将数据存储为JSON文件。将数据存储入MySQL数据库。重点使用Requests库实现HTTP请求。使用Xpath解析网页。使用BeautifulSoup库解析网页。将数据存储入MySQL数据库。难点使用Xpath解析网页。使用BeautifulSoup库解析网页。教学过程设计理论教学过程掌握使用urllib3库生成HTTP请求、处理请求头、设置超时、设置请求重试。掌握使用Requests库生成HTTP请求、查看状态码与编码、处理请求头与响应头、设置超时。掌握使用chrome开发者工具查看页面元素、查看页面源码、查看资源详细信息掌握使用正则表达式模块匹配字符串、查找网页中的标题内容。掌握使用etree模块实现通过Xpath获取标题内容、节点下的文本内容。掌握使用BeautifulSoup4模块创建BeautifulSoup对象。掌握BeautifulSoup中的对象类型。掌握使用BeautifulSoup4模块遍历文档树、搜索文档树。掌握使用JSON模块存储Xpath获取的文本内容为JSON文件。掌握使用pymysql模块将BeautifulSoup库获取的标题存储入MySQL数据库。实验教学过程使用urllib3库生成HTTP请求。使用urllib3库处理请求头。使用urllib3库设置超时。使用urllib3库设置请求重试。使用requests库生成HTTP请求。使用requests库查看状态码与编码。使用requests库处理请求头与响应头。使用requests库设置超时。使用chrome开发者工具的元素面板查看页面元素。使用chrome开发者工具的源代码面板查看页面源码。使用chrome开发者工具的网络面板查看资源详细信息。使用正则表达式模块匹配字符串。使用正则表达式查找网页中的标题内容。使用etree模块实现通过Xpath获取标题内容、节点下的文本内容。使用BeautifulSoup4模块创建BeautifulSoup对象。掌握BeautifulSoup中的对象类型。使用BeautifulSoup4模块遍历文档树。使用BeautifulSoup4模块搜索文档树。使用JSON模块存储Xpath获取的文本内容为JSON文件。使用pymysql模块将BeautifulSoup库获取的标题存储入MySQL数据库。

第4章常规动态网页爬取教案课程名称：Python网络爬虫技术课程类别：必修适用专业：大数据技术类相关专业总学时：32学时（其中理论14学时，实验18学时）总学分：2.0学分本章学时：6学时材料清单《Python网络爬虫技术》教材。配套PPT。引导性提问。探究性问题。拓展性问题。教学目标与基本要求教学目标先通过源码对比区分动态网页和静态网页，然后使用逆向分析技术爬取网站“”首页新书信息。还有使用Selenium爬取网站“/search/books”中的以“Python编程”为关键词的信息。和将数据存入MongoDB数据库。基本要求了解静态网页和动态网页的区别。逆向分析爬取动态网页。使用Selenium库爬取动态网页。使用MongoDB数据库储存数据。问题引导性提问引导性提问需要教师根据教材内容和学生实际水平，提出问题，启发引导学生去解决问题，提问，从而达到理解、掌握知识，发展各种能力和提高思想觉悟的目的。什么是动态网站？动态网站和静态网站有和区别？和关系型数据库比较，非关系型数据库解决了什么问题？探究性问题探究性问题需要教师深入钻研教材的基础上精心设计，提问的角度或者在引导性提问的基础上，从重点、难点问题切入，进行插入式提问。或者是对引导式提问中尚未涉及但在课文中又是重要的问题加以设问。Selenium库爬取网站的优缺点是什么？Selenium库如何快速得到想要数据？MongoDB和MySQL对比有哪些优点?拓展性问题拓展性问题需要教师深刻理解教材的意义，学生的学习动态后，根据学生学习层次，提出切实可行的关乎实际的可操作问题。亦可以提供拓展资料供学生研习探讨，完成拓展性问题。Selenium库Requests库相比爬取网站和的优缺点是什么？如何提高Selenium爬取网站速度？主要知识点、重点与难点主要知识点了解静态网页和动态网页区别。逆向分析爬取动态网页。安装Selenium库以及下载浏览器补丁。Selenium库声明浏览对象并访问页面。Selenium库页面等待。Selenium库页面操作。Selenium库元素选取。Selenium库预期的条件。了解MongoDB数据库和MySQL数据库的区别。将数据存储入MongoDB数据库。重点逆向分析爬取动态网页。Selenium库元素选取。将数据存储入MongoDB数据库。难点Selenium库的使用。将数据存储入MongoDB数据库。教学过程设计理论教学过程了解静态网页和动态网页的区别。获取“”首页的信息。对“”首页进行逆向分析爬取。了解Selenium库的使用方法。分析“/search/books”首页的网页结构。分析网页“/search/books”搜索“Python编程”图书的操作。使用Selenium库模拟浏览器的操作。了解MongoDB数据库与MySQL的区别。在Python上建立连接MongoDB数据库。将数据插入MongoDB数据库的集合中。实验教学过程获取“”首页的信息。对“”首页进行逆向分析爬取。分析“/search/books”首页的网页结构。分析网页“/search/books”搜索“Python编程”图书的操作。使用Selenium库模拟浏览器的操作。在Python上建立连接MongoDB数据库。将数据插入MongoDB数据库的集合中。

第5章模拟登录教案课程名称：Python网络爬虫技术课程类别：必修适用专业：大数据技术类相关专业总学时：32学时（其中理论14学时，实验18学时）总学分：2.0学分本章学时：3学时材料清单《Python网络爬虫技术》教材。配套PPT。引导性提问。探究性问题。拓展性问题。教学目标与基本要求教学目标分别用表单和Cookie实现模拟登录。在表单模拟登录时，学会查找提交入口、查找并获取需要提交的表单数据、使用POST方法请求登录。在Cookie实现模拟登录时，知道保存已经成功登录的Cookie、使用保存的Cookie发送请求。基本要求使用Requests库实现POST请求。使用Chrome开发者工具查找模拟登录需要的相关信息。掌握表单登录、Cookie登录的流程。问题引导性提问引导性提问需要教师根据教材内容和学生实际水平，提出问题，启发引导学生去解决问题，提问，从而达到理解、掌握知识，发展各种能力和提高思想觉悟的目的。当你登录一个网站，关闭了之后短时间内再进去并不用登录是为什么？当你登录一个网站，关闭了之后短时间内再进去并不用登录长时间内再进去却要登录是为什么？你把你的用户账号，密码输入然后点击登录为什么每次都能成功，错误账号，密码却不行？探究性问题探究性问题需要教师深入钻研教材的基础上精心设计，提问的角度或者在引导性提问的基础上，从重点、难点问题切入，进行插入式提问。或者是对引导式提问中尚未涉及但在课文中又是重要的问题加以设问。为什么表单登录要用POST请求？使用浏览器Cookie登录和基于表单登录的Cookie登录，两种基于Cookie的模拟登录各有什么优缺点？拓展性问题拓展性问题需要教师深刻理解教材的意义，学生的学习动态后，根据学生学习层次，提出切实可行的关乎实际的可操作问题。亦可以提供拓展资料供学生研习探讨，完成拓展性问题。你能想到哪些Cookie泄露带来的安全问题？除人工识别认证码还有那些方法识别认证码？有哪些方案获取代理IP？主要知识点、重点与难点主要知识点查找表单登录的提交入口。查找并获取需要提交的表单数据。使用POST请求方法登录。使用浏览器Cookie登录。基于表单登录的Cookie登录。重点查找表单登录的提交入口。使用浏览器Cookie登录。基于表单登录的Cookie登录。难点查找表单登录的提交入口。教学过程设计理论教学过程掌握使用Chrome开发者工具，查找提交入口、查找需要提交的表单数据。掌握获取验证码数据的方法。掌握使用POST方法向服务器发送登录请求。掌握使用Chrome开发者工具获取浏览器的Cookie，实现模拟登录。掌握通过加载已经保存的表单登录后的Cookie实现模拟登录。实验教学过程使用Chrome开发者工具，查找提交入口。使用Chrome开发者工具，查找需要提交的表单数据。获取验证码数据。使用POST方法向服务器发送登录请求。使用Chrome开发者工具获取浏览器的Cookie，实现模拟登录。加载已经保存的表单登录后的Cookie，实现模拟登录。

第6章终端协议分析教案课程名称：Python网络爬虫技术课程类别：必修适用专业：大数据技术类相关专业总学时：32学时（其中理论14学时，实验18学时）总学分：2.0学分本章学时：3学时材料清单《Python网络爬虫技术》教材。配套PPT。引导性提问。探究性问题。拓展性问题。教学目标与基本要求教学目标学会使用HTTPAnalyzer工具抓取在千千音乐PC客户端上抓取数据和接口。学会使用Fiddler工具抓取人民日报APP数据和接口。基本要求使用HttpAnalyzer工具抓取PC客户端的包。使用Fiddler工具抓取人民日报手机APP的包。利用Fiddler工具抓取的包，爬取人民日报手机APP的数据。问题引导性提问引导性提问需要教师根据教材内容和学生实际水平，提出问题，启发引导学生去解决问题，提问，从而达到理解、掌握知识，发展各种能力和提高思想觉悟的目的。平常的网页和PC客户端、APP传递数据的方法有什么区别？除了浏览器还可以同过其他方法获取连接吗？怎么爬取PC客户端、APP的数据？探究性问题探究性问题需要教师深入钻研教材的基础上精心设计，提问的角度或者在引导性提问的基础上，从重点、难点问题切入，进行插入式提问。或者是对引导式提问中尚未涉及但在课文中又是重要的问题加以设问。HttpAnalyzer和Fiddler怎么获取JSON数据？HttpAnalyzer和Fiddler怎么获取Cookie值？拓展性问题拓展性问题需要教师深刻理解教材的意义，学生的学习动态后，根据学生学习层次，提出切实可行的关乎实际的可操作问题。亦可以提供拓展资料供学生研习探讨，完成拓展性问题。在使用两个工具后，你认为那个工具强大那个好用了？还有那些工具可以爬取PC客户端和APP？如何处理那些加密连接？主要知识点、重点与难点主要知识点了解PC客户端。了解HttpAnalyzer的一些基本功能。掌握利用HttpAnalyzer进行抓包分析，得到一个标准的HTML文档。了解Fiddler软件。掌握使用Fiddler软件抓取的包，对人民日报APP新闻信息进行爬取。重点掌握利用HttpAnalyzer进行抓包分析，得到一个标准的HTML文档。掌握使用Fiddler软件抓取的包，对人民日报APP新闻信息进行爬取。难点掌握利用HttpAnalyzer进行抓包分析，得到一个标准的HTML文档。掌握使用Fiddler软件抓取的包，对人民日报APP新闻信息进行爬取。教学过程设计理论教学过程了解PC客户端。了解HttpAnalyzer的一些基本功能。掌握利用HttpAnalyzer进行抓包分析，得到一个标准的HTML文档。了解Fiddler软件。掌握使用Fiddler软件抓取的包，对人民日报APP新闻信息进行爬取。实验教学过程利用HttpAnalyzer进行抓包分析，得到一个标准的HTML文档。设置Fiddler软件。通过Fiddler得到人民日报APP的JSON格式的数据。利用Fiddler软件抓取的包，对人民日报APP新闻信息进行爬取。

第7章Scrapy爬虫教案课程名称：Python网络爬虫技术课程类别：必修适用专业：大数据技术类相关专业总学时：32学时（其中理论14学时，实验18学时）总学分：2.0学分本章学时：5学时材料清单《Python网络爬虫技术》教材。配套PPT。引导性提问。探究性问题。拓展性问题。教学目标与基本要求教学目标使用Scrapy框架爬取网站，学会Scrapy的数据流向、框架，以及框架各组成部分的作用。Scrapy的常用命令及其作用。创建Scrapy爬虫项目，创建爬虫模板的方法。根据项目最终目标修改items/piplines脚本。编写spider脚本，解析网页。修改settings脚本，实现下载延迟设置等。定制

人人文库> 全部分类> 教育资料 > 作文作品

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

Python网络爬虫技术-完整教案

文档简介

温馨提示

最新文档

评论

Python网络爬虫技术-完整教案

文档简介

温馨提示

最新文档

评论

相关文档