网络数据采集_第1页
网络数据采集_第2页
网络数据采集_第3页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、网络数据采集实验课程教学大纲课程编码:12120801314课程性质:方向课学分:2课 时:36开课学期:6适用专业:电子商务一、课程简介网络数据采集是面向计电子商务专业本科生开设的一门专业方向课。以Python语言为例进行讲解。本课程主要讲述BeautifulSoup 的安装与使用、正则表达式、HTML析、Scrapy的使用,MySQ嗽据库。通过本课程的学习,可以使学生了解网络采集数据的原理与基本思想,如何解析网页 结构并提取出需要的内容。本课程的先修课程为:计算机文化基础,Python程序设计。二、教学目标通过本课程的教学应实现以下目标:了解该课程的基本内容,了解网络数据采集的常用方法;理

2、解该课程的主要网络数据采集模块,并能够熟练使用;掌握该课程的主要技能并能在实际工作中应用,包括编写具有基本功能的爬虫,使用爬虫框架等。三、实验项目与课时分配实验项目编号实验项目名称课时 分配实验类别实验类型实验要求每组人数1212080131401BeautifulSoup 的安装与使用2专业验证性必修11212080131402HTMLM析4专业验证性必修11212080131403正则表达式4专业验证性必修11212080131404存储数据6专业验证性必修11212080131405读取义档4专业验证性必修11212080131406Python爬虫常用模块6专业验证性必修1121208

3、0131407Scrapy爬虫框架6专业验证性必修11212080131408Selenium模拟浏览器4专业验证性必修1合计36四、实验条件实验主要设备和台件数实验项目编号实验项目设备名称每组应配台件数备注1212080141801BeautifulSoup的安装与使用联网的计算机11212080141802HTM邮析联网的计算机11212080141803正则表达式联网的计算机11212080141804存储数据联网的计算机11212080141805读取文档联网的计算机11212080141806Python爬虫常用模块联网的计算机11212080141807Scrapy爬虫框架联网的计

4、算机11212080141808Selenium模拟浏览器联网的计算机1五、实验内容及要求实验项目编号实验项目实验内容基本要求12120801418 01Beautif ulSoup 的安装 与使用BeautifulSoup 的安装(pip安装),运行与使 用了解 Beautifulsoup 的安装掌握Beautifulsoup 的使用1212080141802HTM解析HTM幽贝吉构,CSS结构掌握HTML冽虫结构掌握CSS吉构1212080141803正则表 仁式正则表达式的语法,正 则表达式的书写,正则 表达式的使用了解正则表达式的语法掌握正则表达式的查找、替换与匹配,并 能使用正则表达

5、式解析网页1212080141804存储数 据CSVt件格式,MySQ嗽据库,MySQL数据库与Python的整合掌握使用Python对CSVt件的存取掌握熟练使用 Python语言读写MySQ改据库1212080141805读取义 档文档编码,纯文本文件、PDF文件掌握文档编码知识了解文档转存中由于编码原因导致的问题掌握python对常见文档的读取1212080141806Python 爬虫常用模块urllib2 模块、requests 模块、sys 模块、time 模块熟练使用Python爬虫常用的几个模块1212080141807Scrapy爬虫框Scrapy 的使用,创建Scrapy项

6、目能够使用Scrapy创建爬虫,爬取所需内 容,并存储爬到的内容2架1212080141808Selenium模拟浏Selenium 的安装,Selenium模拟浏览器的了解 使用Selenium的特点和使用场景,并能Selenium进行数据爬取览器使用六、实验报告实验报告内容有:实验名称、目的、内容、原理、实验步骤、实验记录、数据处理(实验现象描述、原理论证、结构说明、误差分析等)、讨论等。七、考核办法和成绩评定1 .考核方式:操作2 .成绩评定:实验总评成绩=平时考核成绩x30% +操作考核x 70%八、推荐实验指导书1. « Python网络数据采集 (第1版),米切尔(Ryan Mitchell)( 作者),陶俊杰(译者), 陈小莉(译者),人民邮电出版社,2016年。2. « Python网络爬虫实战(第 1版),胡松涛 编著,清华大

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论