《大数据采集与预处理》课程标准_第1页
《大数据采集与预处理》课程标准_第2页
《大数据采集与预处理》课程标准_第3页
《大数据采集与预处理》课程标准_第4页
《大数据采集与预处理》课程标准_第5页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

《大数据采集与预处理》课程标准一、课程基本信息1、课程名称:大数据采集与预处理2、课程类型:专业技能核心课3、学时学分:48学时,3学分(其中:实践24学时)4、适用专业:大数据二、课程定位本课程是大数据技术专业的一门重要的大数据专业核心课,主要定位于数据采集等相关岗位。本课程主要从爬虫数据采集、日志数据采集等多个方向讲解了不同类型数据的采集方法,从软件数据预处理、Python数据预处理两个方面讲解了数据预处理的方式方法。通过学习,使学生对数据采集与预处理有全面了解,系统学习和练习数据采集和数据预处理的操作,并具有相应能力。三、课程目标(一)总体目标注重培养学生动手能力,培养学生解决问题的能力,通过对本课程的学习,学生能够掌握数据采集和预处理的基本概念和方法。本课程主要包括数据采集与预处理的基本知识,态网页数据采集、动态网页数据解析、基于框架实现动态网页数据采集与存储、动态网页访问日志数据采集和动态网页数据预处理的相关知识,为后续企业应用做铺垫。通过本课程的学习学生能够掌握更多的数据采集方式和基本操作方法,可根据本课程的知识从事数据采集和预处理的相关工作。(二)具体目标1、知识目标通过本门课程的学习学生能够了解数据采集与预处理的基本流程,熟悉Flume两种文件通道的区别、熟悉Kafka集群环境搭建方法、掌握Scrapy框架配置及使用方法、熟悉ETL开源工具种类、熟悉Pandas的安装方法。2、素质目标(1)具有发现问题、分析问题、解决问题的能力(2)具有良好的职业道德(3)具有吃苦耐劳和奉献精神(4)具有爱岗敬业、诚信、务实、豁达、勤奋、谦虚好学的素质(5)具有较强现场管理和组织能力,能较好地处理公共关系(6)具有较强的人际交流能力,能有效地进行人际沟通以及团队协作(7)具有健康的体魄、健全的人格和健康的个性(8)具有良好的行为习惯和良好的心理素质(9)具有较强的劳动组织能力、集体意识和社会责任心四、教学内容与要求(一)确定教学内容的原则1、以学生为本由于大数据采集与预处理是一门理论与实际相结合的课程,需要学生动手上机实操,在设计教学内容时以操作为主,理论讲解为辅,让学生多动手操作实践。2、启发创造原则最大限度地调动学生学习的积极性和自觉性,激发他们的创造性思维,从而使学生在融会贯通地掌握知识和技能的同时,引导学生发挥想象,在实例的基础上进行个性化地创作,充分发展自己的创造性能力。3、联系实际原则教学内容必须要与实际相结合,让学生感受到课程的真实性,从而提高学生学习的积极性,激发学生的学习兴趣。(二)课程学时安排本课程基本教学学时为48学时,其中包括实践学时24学时,当教学计划安排的学时超出本课程的学时范围时,可根据就业面向的需要对超出部分的学时做适当调整。(三)课程学习内容设计与参考学时章节章节名称教学内容教学方法建议学时项目一初识动态网页数据采集与预处理1、3514认识大数据采集与预处理1.1认识数据来源181581.2认识大数据采集181581.3认识大数据预处理2、搭建数据采集与预处理开发环境2.1认识PyCharm181582.2安装PyCharm181582.3使用PyCharm教学方法:互动提问,案例分析,视听教学等理论4实践4项目二动态网页数据采集1、使用Urllib模块完成“新闻动态”网页数据采集1.1request模块181581.2error模块181581.3parse模块2、使用Requests库完成“浪潮云说”网页数据采集2.1Requests简介及安装181582.2Requests基本使用181582.3Requests高级使用教学方法:互动提问,实操体验,案例分析、操作等理论4实践4项目三动态网页数据解析1、使用Xpath解析“新闻动态”网页数据1.1Xpath简介181581.2定位181581.3数据提取2、使用BeautifulSoup解析“浪潮云说”网页数据2.1BeautifulSoup安装181582.2BeautifulSoup使用教学方法:互动提问、视听教学、案例讲解、操作等理论4实践4项目四基于框架实现动态网页数据采集与存储1、使用Scrapy框架完成新闻公告页面数据采集与存储1.1Scrapy简介及安装181581.2Scrapy操作指令181581.3字段定义及Scrapy设置181581.4文本解析1.5内容存储教学方法:互动提问、视听教学、案例讲解、操作等理论4实践4项目五动态网页访问日志数据采集1、使用Flume采集某官网访问日志数据1.1Flume简介181581.2Flume数据采集配置1.3Flume启动1.4Flume拦截器配置2、使用Kafka消费Flume中某官网访问日志数据2.1Kafka简介181582.2Kafka配置2.3Kafka脚本操作2.4KafkaPythonAPI教学方法:互动提问、视听教学、案例讲解、操作等理论4实践4项目六动态网页数据预处理1、使用Pandas实现新闻动态网页数据预处理1.1Pandas简介及安装181581.2Pandas数据结构181581.3Pandas基本功能181581.4汇总和描述统计181581.5处理缺失数据2、使用Pig实现浪潮云说网页数据预处理2.1Pig简介181582.2Pig配置运行2.3PigLatin执行2.4运算符2.5内置函数3、使用ELK实现某官网日志数据预处理3.1Elasticsearch181583.2Logstash181583.3Kibana教学方法:互动提问,案例分析,视听教学、操作等。理论4实践4五、课程标准适用范围本课程标准适用于高职计算机应用技术专业、大数据专业六、关于课程标准的说明1.该课程作为考试课,通过本课程的学习要求学生掌握大数据采集与预处理的基本操作,具备独立分析业务需求并完成数据采集与处理的能力。2.本标准根据环境和条件变化可适时修订。如有国家或行业出台了新的课程标准,以国家或行业标准为准。七、考核及成绩评定方式(一)考核方式:考试(二)成绩评定办法1、成绩评定构成:单元测验分数/作业分数*40%+实践分数*20%+期末考试分数*40%=总成绩(100分)2、成绩评定细则:单元测验/作业:4课时一次测验/作业,根据完成情况给予评价。实践:完成实训/实验指导书中规定的每个实训项目,根据实训/实验报告给予评价。期末考试:理论考试,覆盖各教学单元的基本技术原理及应用,着重考察对重点教学内容的综合掌握情况。鼓励将过程考核、实际能力考核、全面考核等理念贯彻到课程考核中来,重点着眼于科学全面地评价学生综合素质,强化知识应用能力和创新

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论