




下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
项目二特殊网页数据获取教案课程名称:网络爬虫项目实践课程类别:必修适用专业:大数据技术类相关专业总学时:64学时(其中理论28学时,实验36学时)总学分:4.0学分本章学时:3学时材料清单《网络爬虫项目实践》教材。配套PPT。引导性提问。探究性问题。拓展性问题。教学目标与基本要求教学目标在互联网中,一些网页无须登录即可访问,但有些网页需要登录才能够访间,例如在新浪微博中,登录后才能访问用户的第二页信息。通过三个任务,任务1,数睿思网模拟登录,任务2,通过古诗词网数据爬取,任务3,通过微信网页代理爬虫文章信息,让学生掌握表单登录实现模拟登录的流程、验证码的识别、使用代理处理反爬虫。基本要求掌握使用Requests库实现请求掌握使用Chrome开发者工具查找模拟登录需要的相关信息掌握表单登录的流程会安装Tesseract工具,会配置环境熟悉PIL和tesseract库能够利用pytesseract识别简单的图形验证码使用Flask+Redis维护代理池抓取索引页内容设置代理分析详情页内容保存数据信息至mongoDB问题引导性提问引导性提问需要教师根据教材内容和学生实际水平,提出问题,启发引导学生去解决问题,提问,从而达到理解、掌握知识,发展各种能力和提高思想觉悟的目的。在爬取网页时,都有哪些特殊网页?在互联网中,一些网页无须登录即可访问,但有些网页需要登录才能够访问,需要哪些技术来实现?反爬虫方式有哪些?探究性问题探究性问题需要教师深入钻研教材的基础上精心设计,提问的角度或者在引导性提问的基础上,从重点、难点问题切入,进行插入式提问。或者是对引导式提问中尚未涉及但在课文中又是重要的问题加以设问。针对特殊网页,如何爬取?如何应对反爬虫?拓展性问题拓展性问题需要教师深刻理解教材的意义,学生的学习动态后,根据学生学习层次,提出切实可行的关乎实际的可操作问题。亦可以提供拓展资料供学生研习探讨,完成拓展性问题。复杂验证码如何识别?爬取到的数据如何进行数据分析?主要知识点、重点与难点主要知识点Requests库实现请求Chrome开发者工具查找模拟登录需要的相关信息表单登录的流程PIL和tesseract库pytesseract识别简单的图形验证码Flask+Redis维护代理池抓取索引页内容设置代理分析详情页内容保存数据信息至mongoDB重点(1)表单登录的流程(2)PIL和tesseract库(3)pytesseract识别简单的图形验证码(4)Flask+Redis维护代理池(5)抓取索引页内容(6)设置代理(7)分析详情页内容(8)保存数据信息至mongoDB难点(1)Flask+Redis维护代理池(2)设置代理教学过程设计理论教学过程Requests库实现请求表单登录的流程PIL和tesseract库的使用Flask+Redis维护代理池实验教学过程(1)使用Requests库实现请求(2)使用Chrome开发者工具查找模拟登录需要的相关信息(3)安装Tesseract工具,配置环境(4)利用pytesseract识别简单的图形验证码(5)使用Flask+Redis维护代理池(6)抓取索引页内容(7)设置代理(8)分析详情页内容(9)保存数据信息至mongoDB教材与参考资料教材李程文,唐建生,冯欣悦.网络爬虫项目实践[M].西安:西安电子科技大学出版社.2023.参考资料[1] 赵国生,王健.python网络爬虫技术与实战[M].北京:机械工业出版社.2021.[2] 黑马程序员.Pyth
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 离婚协议书美国
- 医药研发合同2024年
- 个人私家车租赁合同
- 二手合法房屋买卖合同
- 电子身份认证系统开发授权协议
- 手房买卖学区房补充协议
- 电影拍摄聘用合同
- 企业年度庆典活动方案
- 单元主题二“沧海桑田”-地表形态的形成与演变-高中地理单元教学设计
- 买卖合同-油脂油料省间调拨合同8篇
- DB52T 1566-2021 托幼机构消毒卫生规范
- 非煤矿山复工复产安全培训
- 我国科技型中小企业税收优惠政策激励效应及优化路径研究的开题报告
- 电力局供电公司聘用合同样本
- 临床中心静脉穿刺置管护理深静脉CVC
- 丝绸之路上的民族学习通超星期末考试答案章节答案2024年
- 四年级语文下册第六单元【集体备课】(教材解读+教学设计)
- 2024版义务教育小学科学课程标准
- 培训机构疫情防控管理制度
- 腰椎间盘突出症护理查房课件
- 第15课人机对话的实现(教学设计)六年级上册信息技术浙教版
评论
0/150
提交评论