数据采集与预处理-课程标准-教学大纲_第1页
数据采集与预处理-课程标准-教学大纲_第2页
数据采集与预处理-课程标准-教学大纲_第3页
数据采集与预处理-课程标准-教学大纲_第4页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、数据采集与预处理课程标准课程名称:数据采集与预处理课程代码:课程类型:专业核心课程学 分:4计划学时:64实践课时比例:50%主要授课方式:理实一体化考核方式:上机操作|适用专业:大数据技术与应用专业、云计算技术与应用专业、软件技术专业1 .概述1.1 课程的性质本课程是大数据技术与应用专业、云计算技术与应用专业、软件技术专业的专业核心课程,是 校企融合系列化课程,该课程教学内容以任务驱动为主线,围绕企业级应用进行项目任务设计。 1.2课程设计理念本课程遵循应用型本科和高等职业教育规律,以大数据技术与应用实际工作岗位需求为导向选 取课程内容,完成了数据采集和预处理平台搭建、网络爬虫实践、日志数

2、据采集实践和数据预处理 实践等完整的数据采集与预处理应用案例,课程目标是培养学生具备“大数据分析”应用项目所需 数据采集与预处理的综合职业能力;坚持开放性设计原则,吸收企业专家参与,构建以“工作任务” 为载体的“项目化”课程结构;课程教学实施教、学、做一体,坚持理论为实践服务的教学原则, 通过模拟企业大数据采集与预处理应用业务进行组织,锻炼学生的实践操作能力。1.3 课程开发思路通过岗位技能的项目化以及大数据采集与预处理任务的序列化,对内容体系结构进行了适当调 整与重构,以适应教学课程安排。以项目案例及其任务实现为驱动,凭借翔实的操作步骤和准确的 说明,帮助学生迅速掌握大数据采集与预处理的相关

3、知识与技能,并且充分考虑学习操作时可能发 生的问题,并提供了详细的解决方案,突出岗位技能训练。2 .课程目标本课程的培养目标是使学生以大数据分析岗位需求为依托,以实际工作任务为导向,理清大数 据采集与预处理中常用工具的作用及应用,培养学生大数据采集与预处理的实际操作技能。2.1 知识目标本课程本书以任务驱动为主线,围绕企业级应用进行项目任务设计,完成了数据采集和预处理 平台搭建、网络爬虫实践、日志数据采集实践和数据预处理实践等完整的数据采集与预处理应用案 例,要求学生系统掌握 scrapy、Flume、pig、kettle、Pandas openrefine 和 urllib、selenium

4、 基本库和 BeautifulSoup解析库等的相关技术知识,熟悉企业典型应用案例,熟悉数据采集与预处理的常用与 典型操作。2.2 素质目标(1)培养学生动手能力、自主学习新知识的能力(2)培养学生团队协作精神2.3 能力目标通过该课程的学习,学生能利用所学的相关技术,能根据企业具体大数据分析业务,结合采集 的海量数据,针对性的进行数据的预处理,学会数据采集与预处理的常用与典型操作。3 .课程内容和要求根据专业核心课程目标和涵盖的工作任务要求,确定课程内容和要求, 说明学生应获得的知识、技能与态度。学习情境工作任务知识要求技能要求学时安排数据采集 与预处理 概述认识数据采集技术,熟 悉数据采集

5、平台熟悉数据采集的来源和 采集的方法。学会数据采集平台的 搭建。6认识数据预处理技术了解原始数据存在的主 要问题;熟悉数据预处 理的作用和工作任务。学会数据处理工具平 台的搭建。6网络爬虫 实践使用urllib 爬取北京公交线路信息熟悉urllib基本库和BeautifulSoup 解析库的使用方法使用urllib基本库和BeautifulSoup 解析 库,学会北京公交线 路相关信息的爬取。4使用selenium爬取淘宝网站信息熟悉Selenium基本库和 pyquery解析库的使用 方法使用Selenium基本库 和pyquery解析库, 学会淘宝网站信息的 爬取。4使用scrapy爬取北

6、京公交信息熟悉Scrapy的使用学会使用Scrapy爬取北京公交信息4创新与拓展熟悉urllib基本库和BeautifulSoup 解析库的使用方法使用urllib基本库和BeautifulSoup 解析 库,学会起点中文网 中相关信息的爬取4日志数据 采集实践Flume的安装和配置熟悉Flume的相关基础 知识学会Flume的安装和 不同应用场景下的配 置4Flume采集数据上传到 集群熟悉Flume的相关基础 知识学会将米集的日志数 据转到HDFS的方 法;学会将采集的日 志数据转存W HBase 的方法4创新与拓展熟悉Flume日志信息的采集过程;熟悉 Nginx 的安装和基础语法。学会

7、使用Flume搭建 日志采集系统,并学 会日志采集;学会使 用 Nginx 和 Flume 搭 建日志采集系统,并 完成日志采集;学会 使用Kettle采集Excel 表格中的数据;学会4使用Kettle进行多复 合来源数据的采集与 关联用Pig进行数据预处理熟悉 识Pig的相关基础知使用Pig完成“北京 公交线路信息”数据 的预处理4用kettle进行数据预处理熟悉 知识Kettle的相关基础使用Kettle完成“北 京公交线路信息”数 据的预处理4数据预处 理实践用Pandas进行数据预处理熟悉 知识Pandas的相关基础使用Pandas完成“北京公交线路信息”数 据的预处理4用openr

8、efine 进行数据预处理熟悉基础矢OpenRefine 的相关口识使用OpenRefine完成“北京公交线路信息”数据的预处理4使用FlumeInterceptor 对日志信息进行数据预处理熟悉Flume Interceptor使用FlumeInterceptor :完成“北京4的相关基础知识公交线路信息”数据 的预处理创新与拓展熟悉大数据预处理工具Kettle的应用学会Flume+Nginx+Pig 数据米集预处理应用4合计644 .课程实施和建议4.1 课程的重点、难点及解决办法课程重点在于培养学生能够利用所学的相关技术知识,结合实际大数据分析应用业务,利用数 据采集与预处理常用系统与手

9、段,实现数据采集、数据清洗、数据转换和数据存储操作等;难点在 于针对基础不同、兴趣不一的学生采用不同的方法进行相关能力的培养。4.2 教学方法和教学手段4. 2. 1教学方法:项目引领、任务驱动:每个项目都是多个任务的结合体。每个项目都按规范的流程进行组织,通过案例引导:将大数据企业中大数据技术与应用岗位相关的项目引入课堂,演绎为工作中的各种 操作任务案例,培养学生利用各种数据采集与预处理的工具与手段,结合大数据具体应用业务,进 行大数据采集与预处理操作。4. 2. 2教学手段多媒体教学、上机演示教学等4.3 教学评价该课程的考核改变单一的终结性评价方法,采用过程考核和结果考核相结合、理论考试

10、和实践 考核相结合的方法。理论部分考核学生对项目所涉及的知识点综合掌握情况,实践部分考核基于大数据具体应用业务,充分利用数据采集与预处理的工具与手段,完成数据采集、数据清洗、数据转换和数据存储操作。灵活多样的考核方式可以全面考核学生的学习效果。说明: 每个教学项目模块的考核主要考察学生的出勤情况、实际动手能力、理论知识的运用与掌握情况、完成作业的准确度、完整度、规范度等、分析问题、解决问题的能力、合作沟通能力、学习态度、总结报告(报告的内容、态度、写作水平等)等评定项目进行考核。4.4 教材选用数据采集与预处理米洪、张鸰主编人民邮电出版社,2019。4.5 课程资源的开发与利用1 教辅材料:要力求接近实践,最好是来源于实践的案例与情境,并开发课程的习题、参考文献等内容,向学生开放,以利于学生自主学习。2实训指导书:格式正确、内容全面,且能具体写明对学生的各项要求。3软件环境:不断完善大数据分析综合实训室的软件环境,引进与采购管理软件用于教学,为学生提供更好的采购软件模拟条件。4硬件环境:希望能够完善硬件建设,同时,通过各种渠道加大对校

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论