《大数据预处理》课程教学大纲_第1页
《大数据预处理》课程教学大纲_第2页
《大数据预处理》课程教学大纲_第3页
《大数据预处理》课程教学大纲_第4页
《大数据预处理》课程教学大纲_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

《大数据预处理》教学大纲课程编号:121412B课程类型:□通识教育必修课□通识教育选修课□学科基础课eq\o\ac(□,√)专业核心课□专业提升课□专业拓展课总学时:32讲课学时:16实验(上机)学时:16学分:2考试类型:□考试eq\o\ac(□,√)考查适用对象:数据科学与大数据技术专业□是eq\o\ac(□,√)否适合作为其他专业学生的个性化选修课先修课程:统计编程基础一、教学目标本课程是在其他统计方法课程前的一门先行课,主要教会学生在建立模型之前如何提出问题,如何准备数据,整理数据,清洗数据等,以便于后续模型的建立。着重培养学生面对实际数据时,提出问题和解决问题的基本能力,特别是能够使用某种计算机语言来准备数据。学完该门课程后,学生应该具备基本的数据准备能力,包括:目标1:理解数据预处理的含义和目的目标2:掌握各种常用的数据预处理方法目标3:在“三全育人”理念下培育有坚定理想信念、深厚爱国主义情怀、高尚道德情操,求真务实的科学品质,扎实的统计专业学识的社会主义新青年二、教学内容及其与毕业要求的对应关系教学内容主要包括大数据预处理概述、缺失值及其处理方法、数据纠错及其处理方法、数据离散化、低频分类数据处理方法、高偏度数据处理方法、异常值处理方法、不平衡数据处理方法、数据特征缩放方法和数据归约方法对拟实现的教学目标所采取的教学方法、教学手段;课堂PPT演示与软件操作演示,上机实验,课后实验项目等方法;对实践教学环节的要求;教师采用案例教学,软件操作演示;对课后作业以及学生自学的要求;学生完成教师布置的课后实验项目,并依据完成情况给分;该课程从哪些方面促进了毕业要求的实现;课程实践环节以解决实际问题为导向,培养学生提出问题的能力、解决问题能力和上机实操能力,同时基于课程思政切入点,提升学生的思想品质和综合素质,促进学生达到毕业要求。三、各教学环节学时分配教学课时分配序号章节内容讲课实验其他合计1大数据预处理概述20022缺失值及其处理方法23053数据纠错及其处理方法11024数据离散化22045异常分布数据处理I:低频分类数据、高偏度数据、异常值34076异常分布数据处理II:不平衡数据22047数据特征缩放22048数据归约2204合计1616032四、教学内容第1章 大数据预处理概述 1.1 大数据预处理的目的和主要内容1.2 本书主要使用的数据集 教学的重点和难点:了解大数据预处理的含义;了解大数据预处理的三个目的;了解大数据预处理的主要内容。课程考核要求:理解大数据预处理的含义;理解大数据预处理的三个目的;理解大数据预处理的主要内容。第2章 缺失值及其处理方法2.1 本章概述 2.2 缺失值的填补2.3 缺失值信息的提取 教学的重点和难点:缺失值含义、缺失值填补方法、缺失值信息提取方法课程考核要求:了解数据缺失的含义;了解完全变量与不完全变量的概念;理解完全随机缺失、随机缺失和非随机、不可忽略缺失的含义;理解造成数据缺失的原因和数据缺失的影响;了解Python中缺失值的形式;了解缺失值信息的含义;理解缺失值填补的基本思路;掌握使用简单统计量对缺失值进行填补的方法;掌握建立聚类分析模型对缺失值进行填补的方法;掌握建立线性回归、GBDT模型对缺失值进行填补的方法。理解缺失值信息提取的思想,掌握缺失值信息提取的方法。课程思政切入点:结合缺失值产生的原因和内涵,树立学生在调查研究中坚持实事求是的基本素养,宁缺毋滥的工作态度,真实准确的数据观念。第3章 数据纠错与格式处理3.1 本章概述3.2 数据的逻辑纠错3.3 数据的格式纠错3.4 日期时间型数据特征及其应用教学的重点和难点:数据纠错的思路、日期时间型数据的特点和操作方法。课程考核要求:了解数据错误的含义;了解日期时间型数据的特点;掌握数据逻辑纠错的思路;掌握地址格式纠错的思路;掌握数值格式纠错的思路;掌握分类格式纠错的思路;掌握日期时间型数据的转化和提取信息的方法。课程思政切入点:结合数据中常见的错误情况向学生展示数据准确的重要性。使用日期时间型数据处理工具对我国建国后至今、改革开放至今和党的“十八大”至今三个时间段所包含的年、月、星期、日、小时数进行计算,让学生体会从不同尺度看待这些时间跨度,进而体会“当前我国伟大成就是在这样一个相当短的时间里实现的”这一事实;同时让学生体会“时不我待”的紧迫感。第4章 数据离散化 4.1 本章概述 4.2 数据离散化的方法 4.3 定性变量形式的转换教学的重点和难点:数据离散化的方法和定性变量形式转换的方法。课程考核要求:理解数据离散化的基本概念,包括数据离散化的含义和作用;掌握使用客观法进行数据离散化的原理和操作方法,包括等宽法和等频法;掌握使用主观法进行数据离散化的原理和操作方法,包括离散化为二分类变量和离散化为顺序变量;掌握定性变量形式转换的原理和操作方法,包括定性变量转换为哑变量(one-hot码)、顺序变量转换为得分和定性变量的平滑化。课程思政切入点:结合变量形式转换的学习,培养学生从多个角度全面看问题的意识和能力;通过对反映国民经济建设成就的连续型数据进行离散化处理,从而更加清晰的反映出成就的伟大性。第5章 异常分布数据处理I:低频分类数据、高偏度数据、异常值 5.1 本章概述 5.2 低频分类数据处理5.3 高偏度数据处理5.4 异常值检测与处理教学的重点和难点:数据纠偏方法、异常值识别与处理方法、低频分类数据处理方法。课程考核要求:了解低频分类数据、高偏度数据和异常值的含义;掌握低频分类数据的观察方法;掌握低频分类数据的处理方法;掌握数据偏度的观察及偏度系数的计算方法;掌握数据偏度的纠正方法;理解数据偏度对于模型预测的影响;掌握异常值的识别和标注方法;掌握异常值截断处理的方法方法;理解异常值对数据分析效果的影响。第6章 异常分布数据处理II:不平衡数据 6.1 本章概述6.2 不平衡数据的配平6.3 不平衡数据配平的影响教学的重点和难点:向下抽样方法、向上抽样方法、混合抽样方法。课程考核要求:了解不平衡数据的含义;掌握向下抽样方法;掌握向上抽样方法;掌握混合抽样方法;理解数据配平对模型预测效果的影响。课程思政切入点:结合不平衡数据的含义,理解一个群体中“关键少数”对群体的意义和影响。第7章 数据特征缩放 7.1 本章概述 7.2 数据特征缩放方法 7.3 数据特征缩放的效果教学的重点和难点:数据标准化;Min-Max缩放;Max-ABS缩放、Robust缩放。课程考核要求:了解数据特征缩放的概念;了解箱线图的概念;掌握数据中心化的方法;掌握数据标准化的方法;掌握Min-Max缩放的方法;掌握Max-ABS缩放的方法;理解Max-ABS缩放与Min-Max缩放的差异;掌握Robust缩放的方法;理解数据特征缩放的效果。第8章 数据归约8.1 本章概述8.2 变量选择 -8.3 样本归约 8.4 伪自变量的识别与影响 教学的重点和难点:变量选择方法、样本归约方法、伪自变量识别方法。课程考核要求:了解数据归约的概念与意义;掌握使用统计量选择变量的方法;掌握使用决策树选择变量的方法;掌握使用Lasso算法选择变量的方法了;掌握样本归约的方法;理解数据偏度对于模型预测的影响;掌握伪自变量的识别方法。课程思政切入点:基于伪自变量的概念,引导学生理解本质与现象之间的辩证关系,即本质是事物的内部联系,是决定事物性质和发展趋向的东西。现象是事物的外部联系,是本质在各方面的外部表现。本质和现象是对立统一关系。伪自变量即是只看现象而未见本质。五、考核方式、成绩评定本课程主要采用上机作业的考试方式进行最终成绩的评定;一般采用平时考勤*10%+六次作业*90%的分配比例;六、主要参考书及其他内容课程数据来源:AustinReese.UsedCar

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论