




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、数据采集与清洗课程教学大纲一、课程基本信息课程编号:12162课程名称:数据采集与清洗英文名称:Data Collection and Cleaning课程类型:专业课课程要求:必修学时/学分:32/2 (讲课学时:24 实验学时:8)先修课程:程序设计语言、数据结构与算法、数据库系统原理后续课程:Python数据分析与应用、数据分析与挖掘实践适用专业:数据科学与大数据技术二、课程描述数据采集、清洗是大数据分析的重要步骤,旨在引导学生掌握数据获取的方法和工具,发现并纠正数据中可能存在的错误和不一致,选用适当的方法进行清理,建立有效、一致、可靠的数据源。通过对基本概念和方法的深刻理解,掌握解决实
2、际问题的抽象方法;通过大数据采集和清洗流程的分解,掌握解决问题的工作步骤;通过案例,建立分析数据采集、清洗的实际问题和给出解决方案的能力;通过将应用场景与数据采集、清洗常用软件工具的结合,训练基本操作技术并形成利用理论结合现代化工具解决数据科学领域中工程问题的能力。 通过课程学习,使学生能够应用数据采集和清洗的基本原理和方法、常用工具软件获得并存储有效、可靠的批量数据,解释实验中的现象和数据,并通过信息综合得到合理有效的结论。课程教学目标1. 能对大数据处理中的数据采集、清洗基本问题进行分析,运用数据采集和清洗的基本技术和方法制定解决方案。(支持毕业能力要求2)2. 能综合运用先修课程的理论和
3、逻辑思维,结合该课程的方法和技术对数据采集和清洗阶段中的复杂问题、现象和数据进行综合分析、解释,根据数据不同给出相应的数据清洗方法,并论证方法的适用性和有效性。(支持毕业能力要求2)3. 能够针对大数据领域中的具体应用问题选择与使用恰当的数据采集工具,对大数据工程问题进行模拟和实现。(支持毕业能力要求5) 4. 能够针对大数据领域中的具体应用问题选择与使用恰当的数据清洗工具,对大数据工程问题进行模拟和实现。(支持毕业能力要求5)四、教学内容、安排及与教学目标的对应关系单元教学内容单元教学目标学时教学方式对应课程教学目标1一、技术概述1.1 大数据采集技术1.2 数据预处理技术1.3数据清洗概述
4、1.3.1 数据清洗简介 1.3.2 数据标准化 1.3.3 数据仓库简介 (1)能正确阐述大数据处理的一般流程;(2)能准确说明数据采集、清洗的概念;(3) 理解数据预处理工作的意义。2讲授12二、数据采集基础2.1 传统数据采集技术2.1.1 数据采集概述2.1.2 数据采集系统架构2.1.3 数据采集关键技术2.2 大数据采集基础2.2.1 数据的发展2.2.2 大数据来源2.2.3 大数据采集技术(1)能阐述数据采集的系统架构;(2)能阐述数据采集的关键技术;(3)了解大数据采集技术的发展状况。2讲授13三、大数据采集架构3.1 概述3.2 Chukwa数据采集3.3 Flume数据采
5、集3.4 Scribe数据采集3.5 Kafka数据采集(1)了解大数据采集的主流平台,并能阐述之间的差异。2讲授自学1、34四、大数据迁移技术4.1 数据迁移概念4.2 数据迁移相关技术4.2.1 基于主机的迁移方式4.2.2 基于存储的迁移方式4.2.3 备份恢复的方式4.2.4 基于主机逻辑卷的数据迁移4.2.5 基于数据库的迁移技术4.2.6 服务器虚拟化的迁移4.2.7 其他数据迁移技术4.3 数据迁移工具4.3.1 Apache Sqoop4.3.2 ETL4.4 Kettle数据迁移实例(1)能解释数据迁移的概念;(2)能说明针对不同应用场景所采用的迁移技术;(3)能说明主流数据
6、迁移工具的基本功能和特点。2讲授1、35五、数据预处理技术5.1 数据的描述5.1.1 数据对象与属性类型5.1.2 数据的统计描述5.1.3 数据相似性和相异性的度量方法5.2 数据预处理概述5.2.1 数据质量5.2.2 数据预处理的主要任务5.3 数据清洗5.4 数据集成5.5 数据归约5.6 数据变换(1) 能描述数据的属性特征;(2)能阐述数据预处理的目标和任务;(3)能对数据预处理各阶段的主要方法和技术进行清晰的描述。2讲授26六、数据格式与编码6.1 文件文本格式6.1.1 常见文本格式6.1.2 xls及xlsx文件格式 6.1.3 JSON文本格式 6.1.4 HTML和XM
7、L文本格式 6.2 数据编码 6.3 数据转换 6.3.1 电子表格转换 6.3.2 RDBMS数据转换 (1) 能正确说明Windows和UNIX系统数据常规格式;(2)了解数据编码和格式间相互转换的基本方法。2讲授17七、数据清洗基本技术方法7.1 ETL入门 7.1.1 ETL解决方案 7.1.2 ETL基本构成 7.1.3 ETL技术选型 7.2 技术路线 7.2.1 文本清洗路线 7.2.2 RDBMS清洗路线 7.2.3 Web内容清洗路线 7.3 ETL工具 7.3.1 ETL功能 7.3.2 开源ETL工具 7.4 ETL子系统(1) 能理解ETL的概念;(2)能掌握文本、关系
8、数据库、Web数据清洗的基本技术路线法;(3)了解开源ETL工具的功能和工作过程。2讲授自学1、48八、数据清洗常用工具及基本操作 8.1 Microsoft Excel数据清洗基本操作 8.2 Kettle简介及基本操作 8.3 OpenRefine简介及基本操作 8.4 DataWrangler简介及基本操作8.5 Hawk简介及基本操作(1) 能掌握主流数据清洗工具的使用及其适用场景,重点掌握Kettle的使用;(2) 能选择适当数据清洗工具对具体问题中的数据进行清洗。2讲授自学48.6 上机练习与实训 使用数据清洗工具进行数据清洗练习使用数据清洗工具对具体问题中的数据进行清洗。4实验1
9、、49九、数据抽取9.1 文本文件抽取 9.1.1 制表符文本抽取9.1.2 CSV文件抽取 9.2 Web数据抽取 9.2.1 HTML文件抽取 9.2.2 JSON数据抽取9.2.3 XML数据抽取 9.3 数据库数据抽取 9.3.1 数据导入导出 9.3.2 ETL工具抽取(1)掌握实现文本文件、Web数据、数据库数据抽取的基本知识;(2) 掌握借助Kettle实现文本文件抽取、网页文件抽取、数据库数据抽取及增量抽取等。2讲授1、49.4 上机练习与实训 增量数据抽取熟练使用Kettle工具和时间戳等方法对数据库数据进行增量抽取。4实验1、410十、数据转换与加载10.1 数据清洗转换
10、10.2 数据质量评估 10.3 数据加载 (1)掌握数据清洗的具体方法;(2)掌握数据转换过程中的数据校验、错误处理;(3)掌握数据加载和批量加载技术。2讲授111十一、Web数据采集实例11.1 网页结构 11.2 网络爬虫概述11.2.1 网络爬虫的概念11.2.2 网络爬虫的抓取策略11.2.3 网页更新策略11.3 常用网络爬虫方法11.4 网络爬虫工具11.5 Python爬虫技术11.5.1 Python概述11.5.2 Python爬虫基础11.5.3 Python安装11.5.4 Python爬虫实例11.6 行为日志采集 11.7 文本数据处理(1) 了解网页爬虫技术采集W
11、eb数据的方法;(2) 了解行为日志分析方法。2讲授自学2、3、412十二、RDBMS数据清洗实例 12.1 准备工作12.1.1 准备待清洗的数据集 12.1.2 搭建操作环境 12.1.3 数据导入MySQL12.2 数据库数据清洗 12.2.1 缺失值清洗12.2.2 格式内容清洗12.2.3 逻辑错误清洗 12.2.4 非需求数据清洗 12.3 数据脱敏处理 (1)掌握关系型数据库数据清洗方法;(2)掌握敏感数据脱敏处理方法。2讲授2、3、4五、其他教学环节(课外教学环节、要求、目标)1. 自学数据清洗工具和Web数据采集实例单元要在授课前自学授课内容,达到能运用实例解释基本概念的要求
12、。2. 运用在数据预处理单元学习后,自行收集资料,阅读文献,分别针对某个有实际工程背景的应用问题设计解决方案,综合运用数据采集框架、数据迁移技术,设计解决方案(可运用论证、分析、解释、实验或程序得到结果),并撰写小论文进行总结。六、教学方法本课程以课堂教学为主,结合自学、撰写小论文(或软件设计)及实验等教学手段和形式完成课程教学任务。1. 在课堂教学中,通过讲授使学生迅速掌握核心内容。2. 采取教师现场演示、学生借助手机查询、浏览等方式,了解理论的应用背景或示例,提升学生的学习兴趣。3. 在单元学习结束时,利用提示、启发、指定等方式,指导学生运用所学知识解决实际问题,培养学生初步运用基本知识分
13、析问题和解决问题的能力,激发学生的创新思维。4. 对于综合性强的实验内容,通过教师的前期指导、学生课前自学完成相关内容,进行总结分析形成文字性报告以培养学生的自主学习和问题总结能力。5. 大部分单元采用CAI作为辅助教学工具,但仍以板书为主。七、学习评量学习成绩由平时成绩(含作业成绩、讨论与报告、测验)和期末考试成绩组成。各部分所占比例和评价内容、方法如下:1. 平时成绩(40%)(1)作业成绩:10%。主要考核对课堂学习的知识点的复习、理解和掌握程度;以内容的逻辑性和工作量为评价标准。(2)实验成绩:30%。1)上机操作。按照实验任务上机完成;对任务完成的数量和质量评分,共20分,分4次,每次5分。2) 实验报告。应用所学内容解决计算机相关领域的问题;以论文的应用案例正确性、方案有效性为标准评分,共10分。2. 期末考试成绩(60%)
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 植物油精炼节能减排机理-全面剖析
- 西安钟鼓楼博物馆讲解员招聘真题2024
- 基于多源数据的用户意图理解与预测-全面剖析
- 森林旅游对森林生态的影响-全面剖析
- 大数据在电商个性化服务中的应用-全面剖析
- 目录语义关联聚类-全面剖析
- 2025年安全生产风险分级管控与事故预防考试试题
- 智能康复设备研发-第2篇-全面剖析
- 国际贸易中的贸易政策对全球经济的影响论文
- 健康大数据应用研究-全面剖析
- 创造性思维与创新方法Triz版知到章节答案智慧树2023年大连理工大学
- 英语四级仔细阅读练习与答案解析
- 《产业基础创新发展目录(2021年版)》(8.5发布)
- 排水沟土方开挖施工方案
- CAD教程CAD基础教程自学入门教程课件
- 技术合同认定登记培训课件
- 停水停电时的应急预案及处理流程
- 电商部运营助理月度绩效考核表
- DB61∕T 1230-2019 人民防空工程防护设备安装技术规程 第1部分:人防门
- 第12课送你一个书签
- 教学课件:《特种加工(第6版)
评论
0/150
提交评论