




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
信息技术产业学院《爬虫技术与应用》课程标准课程代码:适用专业:大数据技术编者:计算机教研室(大数据课程组)课程负责人:审核人:编制单位:云南能源职业技术学院信息技术产业学院系(部)合作单位:武汉伟创聚赢科技有限公司编制日期:年月日
《爬虫技术与应用》课程标准(一)课程基本信息课程代码:课程名称:爬虫技术与应用承担单位:计算机教研室大数据课程组课程学分:4课程类别一:B类参考学时:64课程类别二:专业基础课课程类别三:必修课/考试适用专业(层次):三年制普专先修课程:《Linux操作系统实战》后续课程:《Hadoop大数据基础》职业资格:工信部NCIE中级软件工程师编制:《爬虫技术与应用》课程开发团队批准人:课程负责人:(二)课程详细信息1.适用对象三年制学生/五年制学生。2.适用专业大数据技术3.参考学时64学分4
4.课程简介《爬虫技术与应用》较为全面地介绍了不同场景下Python爬取网络数据的方法,包括静态网页、动态网页、登录后才能访问的网页、PC客户端、App等场景。全书共7章,第1章介绍了爬虫与反爬虫的基本概念,以及Python爬虫环境的配置,第2章介绍了爬取过程中涉及的网页前端基础,第3章介绍了在静态网页中爬取数据的过程,第4章介绍了在动态网页中爬取数据的过程,第5章介绍了对登录后才能访问的网页进行模拟登录的方法,第6章介绍了爬取PC客户端、App的数据的方法,第7章介绍了使用Scrapy爬虫框架爬取数据的过程。本书所有章节都包含了实训与课后习题,通过练习和操作实战,可帮助学生巩固所学的内容。5.课程性质与定位①课程性质:专业必修课②课程定位:大数据时代已经到来,在商业、经济及其他领域中基于数据和分析去发现问题并做出科学、客观的决策越来越重要。在数据分析技术的研究和应用中,爬虫作为数据获取来源之一,扮演着至关重要的角色。为了推动我国大数据,云计算,人工智能行业的发展,满足日益增长的数据分析人才需求,特开设Python网络爬虫技术课程。6.课程设计思路①课程设计依据:随着大数据时代的来临,数据挖掘将更加广泛地渗透到各行各业中去,而完全面向对象的Python的教学工作也将成为高校中数学和统计学等专业的重点发展对象,这是大数据时代下的必然趋势。②具体设计思路:在每章的理论部分讲解主要采用讲授法,对于每章的难点和重点部分的讲解可采用启发法,让学生做到由浅入深,循序渐进的理解和掌握相应的知识点,对于难点内容亦可以采用课堂讨论法以调动学生的积极性,对于基本概念部分建议采用课上练习法加以巩固。要求学生自己动手分析实例,学习基本理论和方法,结合已有的知识,适当组织一些讨论,充分调动学生的主观能动性,以达到本课程的教学目的。7.课程目标与要求(1)总体目标:培养德、智、体、美、劳全面发展的综合型IT技能型人才,通过本课程的学习,使学生学会使用Python在静态网页、动态网页、需要登录后才能访问的网页、PC客户端、APP中爬取数据,将理论与实践相结合,为将来从事数据爬虫、分析研究工作奠定基础。(2)具体目标1)知识目标①掌握python3网络爬虫原理②掌握使用第三方库进行网页爬取③理解使用抓包工具进行数据爬取④掌握scarpy框架的使用⑤了解后期数据处理2)能力目标①具备python爬虫基础编程能力②具备python使用抓包工具与Srcapy框架思想能力3)素质目标①学生自主探究学习状态②学生合作学习状态③学生的自我感受(共鸣度、愉悦度、价值度)④与人合作的积极性教学内容组织与安排序号项目/模块/任务教学内容/任务教学/学习目标教学活动设计教学资源学习地点学时1Python爬虫基础知识Python爬虫环境与爬虫简介认识爬虫的概念认识爬虫的原理了解爬虫运作时应遵守的规则了解反爬虫的目的和常用手段针对反爬虫的常用手段制定对应爬取策略了解Python常用爬虫库掌握MySQL数据库的配置方法掌握MongoDB数据库的配置方法认识爬虫的概念及原理认识反爬虫的概念及对应爬取策略掌握Python爬虫的环境配置方法课件、教案、素材、教学环境、实践项目实训机房42网页前端基础了解Socket库的作用及其包含的协议类型了解Socket库中的3种函数及其作用熟悉使用Socket建立服务器端和客户端进行TCP通信,通过TCP通信从客户端发送请求并接受服务器端的响应熟悉使用Socket建立服务器端和客户端进行UDP通信,通过UDP通信从客户端发送请求并接受服务器端的响应熟悉HTTP通信过程中的客户端发起请求的方式与服务器发送响应的过程熟悉HTTP通信过程中服务器发送响应的常见HTTP状态码熟悉HTTP协议中的头部类型与对应类型的常用的头字段熟悉Cookie机制的运作原理及其作用了解网络编程Socket库掌握使用Socket进行TCP编程掌握使用Socket进行UDP编程熟悉HTTP请求方式与过程熟悉常见HTTP状态码熟悉Cookie课件、教案、素材、教学环境、实践项目实训机房43简单静态网页爬取掌握使用urllib3库生成HTTP请求、处理请求头、设置超时、设置请求重试掌握使用Requests库生成HTTP请求、查看状态码与编码、处理请求头与响应头、设置超时掌握使用chrome开发者工具查看页面元素、查看页面源码、查看资源详细信息掌握使用正则表达式模块匹配字符串、查找网页中的标题内容掌握使用etree模块实现通过Xpath获取标题内容、节点下的文本内容掌握使用BeautifulSoup4模块创建BeautifulSoup对象掌握BeautifulSoup中的对象类型掌握使用BeautifulSoup4模块遍历文档树、搜索文档树掌握使用JSON模块存储Xpath获取的文本内容为JSON文件掌握使用PyMySQL库将BeautifulSoup库获取的标题存储入MySQL数据库掌握使用urllib3库、Requests库实现HTTP请求掌握使用chrome开发者工具、正则表达式、Xpath和BeautifulSoup解析网页掌握使用JSON库、PyMySQL库存储数据课件、教案、素材、教学环境、实践项目实训机房44常规动态网页爬取了解静态网页和动态网页的区别。获取“”首页的信息。对“”首页进行逆向分析爬取。了解Selenium库的使用方法。分析“/search/books”首页的网页结构。分析网页“/search/books”搜索“Python编程”图书的操作。使用Selenium库模拟浏览器的操作。了解MongoDB数据库与MySQL的区别。在Python上建立连接MongoDB数据库。将数据插入MongoDB数据库的集合中。了解静态网页和动态网页的区别掌握逆向分析爬取动态网页掌握使用selenium爬取动态网页掌握使用MongoDB储存数据课件、教案、素材、教学环境、实践项目实训机房85模拟登录掌握使用Chrome开发者工具,查找提交入口、查找需要提交的表单数据掌握获取验证码数据的方法掌握使用POST方法向服务器发送登录请求掌握使用Chrome开发者工具获取浏览器的Cookie,实现模拟登录掌握通过加载已经保存的表单登录后的Cookie实现模拟登录掌握使用Requests库实现POST请求掌握使用Chrome开发者工具查找模拟登录需要的相关信息掌握表单登录、Cookie登录的流程课件、教案、素材、教学环境、实践项目实训机房46Python爬虫高阶框架知识终端协议分析了解PC客户端了解HttpAnalyzer的一些基本功能掌握利用HttpAnalyzer进行抓包分析,得到一个标准的HTML文档了解Fiddler软件掌握使用Fiddler软件抓取的包,对人民日报APP新闻信息进行爬取掌握使用HttpAnalyzer工具来抓取PC客户端的包掌握使用Fiddler工具抓取中国日报手机APP的包掌握利用Fiddler抓取的包,来爬取人民日报手机APP的数据课件、教案、素材、教学环境、实践项目实训机房47Scrapy爬虫了解Scrapy的框架构成了解Scrapy各组件的作用熟悉常见的Scrapy命令创建Scrapy爬虫项目定义items/piplines脚本,将数据存储至csv文件与MySQL数据库创建spider爬虫脚本模板定义spider脚本运行爬虫创建中间件脚本激活中间件了解Scrapy爬虫框架熟悉Scrapy常用命令修改items/piplines脚本存储数据编写spider脚本解析网页信息修改setting脚本设置爬虫参数定制Scrapy中间件课件、教案、素材、教学环境、实践项目实训机房89.课程内容与教学要求①学习领域和项目化教学课程通过表格对学习内容进行描述。如:单元1Python爬虫环境与爬虫简介学时理论2实践2一体化学习目标:1、知识目标:了解爬虫的概念和原理理解反爬虫的原理掌握python爬虫环境2、素质目标:1)培养学生自主、开放的学习能力2)培养学生良好职业素养和职业道德主要内容主要教学方法任务1.1认识爬虫1.1.1爬虫的概念1.1.2爬虫的原理1.1.3爬虫的合法性与robot.txt协议任务1.2认识反爬虫1.2.1网站反爬虫的目的与手段1.2.2爬取策略制定任务1.3配置Python爬虫环境1.3.1Python爬虫相关库介绍与配置1.3.2配置MySQL数据库1.3.3配置MongoDB数据库视频教学法,案例教学法,课堂陷阱教学地点多媒体教室、实训机房教学及参考资料教材,教案,课件练习与习题建议考核与评价方式说明权重分配本章内容,占整门课程的分值为5%本章内容:出勤15%+作业70%+课堂表现15%5%单元2网页前端基础学时理论2实践2一体化学习目标:1、知识目标:了解python网络编程理解http的组成与状态码2、素质目标:1)培养学生自主、开放的学习能力2)培养学生良好职业素养和职业道德主要内容主要教学方法2.1.1了解Python网络编程Socket库2.1.2使用Socket库进行TCP编程2.1.3使用Socket库进行UDP编程任务2.2认识HTTP2.2.1熟悉HTTP请求方法与过程2.2.2熟悉常见HTTP状态码2.2.3熟悉HTTP头部信息2.2.4熟悉Cookie视频教学法,案例教学法,课堂陷阱教学地点多媒体教室、实训机房教学及参考资料教材,教案,课件练习与习题建议考核与评价方式说明权重分配1、本章内容,占整门课程的分值为5%2、本章内容:出勤15%+作业70%+课堂表现15%5%单元3简单静态网页爬取学时理论2实践2一体化学习目标:1、知识目标:掌握htpp请求掌握网页解析的方法掌握数据存储的方法素质目标:1)培养学生自主、开放的学习能力2)培养学生良好职业素养和职业道德主要内容主要教学方法任务3.1实现HTTP请求3.1.1使用urllib3库实现3.1.2使用Requests库实现任务3.2解析网页3.2.1使用Chrome开发者工具查看网页3.2.2使用正则表达式解析网页3.2.3使用Xpath解析网页3.2.4使用BeautifulSoup库解析网页任务3.3数据存储3.3.1将数据存储为JSON文件3.3.2将数据存储到MySQL数据库视频教学法,案例教学法,课堂陷阱教学地点多媒体教室、实训机房教学及参考资料教材,教案,课件练习与习题建议考核与评价方式说明权重分配1、本章内容,占整门课程的分值为5%2、本章内容:出勤15%+作业70%+课堂表现15%5%单元4常规动态网页爬取学时理论2实践2一体化学习目标:知识目标:了解逆向分析爬取动态网页掌握使用Selenium库爬取动态网页掌握存储数据至MongoDB数据库素质目标:1)培养学生自主、开放的学习能力2)培养学生良好职业素养和职业道德主要内容主要教学方法任务4.1逆向分析爬取动态网页4.1.1了解静态网页和动态网页的区别4.1.2逆向分析爬取动态网页任务4.2使用Selenium库爬取动态网页4.2.1安装Selenium库及下载浏览器补丁4.2.2打开浏览对象并访问页面4.2.3页面等待4.2.4页面操作4.2.5元素选取4.2.6预期条件任务4.3存储数据至MongoDB数据库4.3.1了解MongoDB数据库和MySQL数据库的区别4.3.2将数据存储到MongoDB数据库 视频教学法,案例教学法,课堂陷阱教学地点多媒体教室、实训机房教学及参考资料教材,教案,课件练习与习题建议考核与评价方式说明权重分配1、本章内容,占整门课程的分值为15%2、本章内容:出勤15%+作业70%+课堂表现15%15%单元5模拟登录学时理论2实践2一体化学习目标:知识目标:掌握表单登录的方法掌握cookie登录的方法素质目标:1)培养学生自主、开放的学习能力2)培养学生良好职业素养和职业道德主要内容主要教学方法任务5.1使用表单登录方法实现模拟登录5.1.1查找提交入口5.1.2查找并获取需要提交的表单数据5.1.3使用POST请求方法登录任务5.2使用Cookie登录方法实现模拟登录5.2.1使用浏览器Cookie登录5.2.2基于表单登录的Cookie登录视频教学法,案例教学法,课堂陷阱教学地点多媒体教室、实训机房教学及参考资料教材,教案,课件练习与习题建议考核与评价方式说明权重分配1、本章内容,占整门课程的分值为10%2、本章内容:出勤15%+作业70%+课堂表现15%10%单元6终端协议分析学时理论2实践2一体化学习目标:知识目标:掌握PC客户端抓包掌握app抓包素质目标:1)培养学生自主、开放的学习能力2)培养学生良好职业素养和职业道德主要内容主要教学方法任务6.1分析PC客户端抓包6.1.1了解HTTPAnalyzer工具6.1.2爬取千千音乐PC客户端数据任务6.2分析App抓包6.2.1了解Fiddler工具6.2.2分析人民日报App视频教学法,案例教学法,课堂陷阱教学地点多媒体教室、实训机房教学及参考资料教材,教案,课件练习与习题建议考核与评价方式说明权重分配1、本章内容,占整门课程的分值为10%2、本章内容:出勤15%+作业70%+课堂表现15%10%单元7Scrapy爬虫学时理论2实践2一体化学习目标:知识目标:了解文件分类掌握文本文件的读写操作掌握处理表格数据的方法掌握存储半结构化数据掌握模块和库素质目标:1)培养学生自主、开放的学习能力2)培养学生良好职业素养和职业道德主要内容主要教学方法7.1认识文件7.1.1文本文件和二进制文件7.1.2常用的中文编码格式7.2文本文件的读/写操作7.2.1读取文件全文7.2.2按行读取文件7.2.3实现文件的编码格式转换7.2.4使用with-as语句7.3处理表格数据的3种方法7.4存储半结构化数据:JSON数据和pickle数据7.5常用文件模块os和shutil7.5.1模块os和shutil简介7.5.2文件模块的主要函数7.5.3应用示例7.6模块和库*7.6.1模块的制作7.6.2库的发布视频教学法,案例教学法,课堂陷阱教学地点多媒体教室、实训机房教学及参考资料教材,教案,课件练习与习题建议考核与评价方式说明权重分配1、本章内容,占整门课程的分值为10%2、本章内容:出勤15%+作业70%+课堂表现15%10%单元8正则表达式学时理论2实践2一体化学习目标:知识目标:了解正则表达式的作用掌握python中的正则函数素质目标:1)培养学生自主、开放的学习能力2)培养学生良好职业素养和职业道德主要内容主要教学方法8.1正则表达式简介8.2Python中常用的正则函数8.2.1正则函数初步使用8.2.2查找所有匹配8.2.3查找第一个匹配8.2.4替换8.3RegexOne的闯关游戏8.3.1闯关:通配符8.3.2闯关:排除特定字符8.3.3闯关:重复次数8.4编译模式pile和匹配参数视频教学法,案例教学法,课堂陷阱教学地点多媒体教室、实训机房教学及参考资料教材,教案,课件练习与习题建议考核与评价方式说明权重分配1、本章内容,占整门课程的分值为10%2、本章内容:出勤15%+作业70%+课堂表现15%10%单元9网络爬虫入门学时理论2实践2一体化学习目标:知识目标:了解爬虫基本原理和流程掌握网络爬虫的基本操作素质目标:1)培养学生自主、开放的学习能力2)培养学生良好职业素养和职业道德主要内容主要教学方法9.1网络爬虫简介和基本处理流程9.1.1什么是网络爬虫9.1.2使用网络爬虫的法律风险9.1.3网络爬虫的基本处理流程9.2实战:使用pandas库获取2018年中国企业500强榜单9.3使用Requests库获取网页9.4使用BeautifulSoup4库解析网页9.4.1获取节点的主要方式9.4.2从节点中提取信息9.5实战:获取唐诗三百首视频教学法,案例教学法,课堂陷阱教学地点多媒体教室、实训机房教学及参考资料教材,教案,课件练习与习题建议考核与评价方式说明权重分配1、本章内容,占整门课程的分值为10%2、本章内容:出勤15%+作业70%+课堂表现15%10%10.课程实施建议①教材选用和编写建议1)教材选用:本课程选用人民邮电出版社和中国工信出版集团联合出版的《爬虫技术与应用与制作》。2)教材编写原则与要求:以“真实项目贯穿,案例任务驱动”,从易到难,逻辑严密,实例丰富,内容详实,通过丰富的应用场景,将理论知识,转化为实操能力,并不断强化和巩固。3)教材、教学参考资料使用建议:结合爬虫技术与应用这门课程的特点,建议选取以案例为
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 急诊室药物管理质控
- 人工砍草合同标准文本
- 公司配车合同标准文本
- 与人合伙开店合同标准文本
- 借款代还合同标准文本
- 专收电力废料合同标准文本
- 农村平房合同标准文本
- 关于公司转让合同标准文本
- 代生产加工生产合同标准文本
- 代管宠物服务合同范例
- 阿瑞匹坦注射液-临床用药解读
- 2022-2023学年高中信息技术浙教版(2019)必修2知识梳理
- 小学篮球社团简介
- 第三篇 昆虫内部解剖及生理
- 优艺国际环保科技(新乡)有限公司新乡市医疗废物集中处理中心迁建扩能项目环境影响报告
- 南汇区供排水一体化整合研究的任务书
- 23CG60 预制桩桩顶机械连接(螺丝紧固式)
- 工程建设法规(全套课件405P)
- 六西格玛(6Sigma)详解及实际案例分析
- Python数据分析与挖掘实战PPT完整全套教学课件
- 小学道德与法治-【课堂实录】生活中处处有规则教学设计学情分析教材分析课后反思
评论
0/150
提交评论