Python数据挖掘与机器学习第2版- 教学大纲_第1页
Python数据挖掘与机器学习第2版- 教学大纲_第2页
Python数据挖掘与机器学习第2版- 教学大纲_第3页
Python数据挖掘与机器学习第2版- 教学大纲_第4页
Python数据挖掘与机器学习第2版- 教学大纲_第5页
已阅读5页,还剩8页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

《数据挖掘与机器学习》课程教学大纲一、课程信息课程名称数据挖掘与机器学习英文名称DataMiningandMachineLearning课程编码316042412课程类别专业核心课程是否为混合式课程否课程性质必修学分3.5学时总学时:72理论学时36实践/实验学时36线上拓展学时适用专业数据科学与大数据技术建议修读学期第5学期先修课程数据库系统与应用,Python数据分析与可视化、优化理论与方法考核方式考试(√)考查()成绩构成及比例:过程性评价(平时作业、期中考试、课内实验)50%结果性评价(期末考试)50%大纲执笔人大纲审核人注:线上拓展学时为教师安排学生利用课余时间完成线上学习的学时。二、课程简介数据挖掘与机器学习是数据科学与大数据技术专业的一门核心基础课,也是进行数据分析和处理必不可少的基础。通过本课程的学习,使学生掌握数据预处理技术(包括数据度量、数据清理、数据集成和转换等方法)和数据挖掘与机器学习技术(包括分类、预测、关联和聚类的概念与技术),并且熟悉数据挖掘与机器学习基本原理和发展方向,提升解决复杂数据工程问题能力,激发学生科技报国的家国情怀和使命担当,锻炼创造性思维和创新性实践能力,具备初步的科研能力和创造能力。数据挖掘与机器学习作为理论和实践结合的课程,其先修课是概率论与数理统计、Python数据分析与可视化、优化理论与应用,这三门课程为本课程提供理论基础与实践工具。本课程也是行业大数据分析、大数据处理综合实践、数据挖掘课程设计等专业课的重要基础。三、课程内容及要求(一)引言(2学时)1.教学内容理论教学(2学时):(1)掌握数据挖掘与机器学习的概念、内容。(2)数据挖掘的任务、数据源、存在的问题与常用工具。(3)数据挖掘与机器学习课程的核心地位和学习目标(思政教育内容:我国大数据政务平台、大数据医疗平台等优秀的公司案例,展示中国目前蓬勃开展的数据挖掘技术,培养学生的爱国情怀,同时帮助学生树立专业自信心)。2.基本要求(1)数据分析与数据挖掘的基本内容及其联系和区别,数据挖掘与机器学习的基本内容及其联系和区别。(2)要求学生掌握数据挖掘和机器学习中存在的主要问题,数据建模的常用工具以及Python数据挖掘与机器学习的常用库。3.重点及难点重点:数据挖掘与机器学习的基本流程。难点:数据挖掘与机器学习的主要问题。4.教学模式:课堂讲述与讨论5.作业及课外学习要求(1)要求学生完成数据挖掘与机器学习基本概念的知识性作业;(2)要求学生阅读文献或查阅资料,完成数据挖掘与机器学习发展的综述性书面作业;(二)Python数据分析与挖掘基础(4学时)1.教学内容理论教学(2学时):(1)掌握Python编程基础。(2)数据Numpy、Pandas、matplotlib数据分析与可视化。2.基本要求(1)Python编程基础。(2)Numpy、Pandas、matplotlib数据分析与可视化用法。3.重点及难点重点:Numpy、Pandas、matplotlib的基本用法。难点:数据挖掘数据建模编程基础。4.教学模式:课堂讲述与实践5.作业及课外学习要求数据分析与可视化编程实践练习;(三)认识数据(4学时)1.教学内容:理论教学(2学时)(1)数据对象的属性及其类型。(2)数据的基本统计描述。(3)数据可视化。(4)数据对象的相似性度量。(思政融入点:特征选择时,通过算法选择出对识别有重大贡献的特征,坚决淘汰不良文化(贡献小)的影响。)实验教学(2学时)(1)数据对象及其相似性度量的Python实现。(2)数据对象的统计描述及Python和Scipy实现。2.基本要求:(1)掌握数据对象及其属性和类型;(2)掌握数据对象的相似性度量;(3)掌握并能实验数据中心趋势和散度的度量方法,数据直方图、散点图等数据可视化方法,数据相似性和相异性的度量方法。3.重点及难点:重点:数据对象的属性类型、相似性度量。难点:具有混合数据类型属性的数据对象相似性度量。4.教学模式:课堂讲述与讨论,上机实验5.作业及课外学习要求(1)要求学生完成数据对象相关基本概念的知识性作业;(2)要求学生完成数据对象相似性度量的习题;(3)要求学生编程环境中完成数据对象的相似性度量和数据的统计描述;(四)数据预处理(6学时)1.教学内容:理论教学(4学时)(1)数据预处理的必要性。(2)数据清洗。(3)数据异常值检测。(4)数据集成。(5)数据标准化。(6)数据规约(思政融入点:“横看成岭侧成峰,远近高低各不同”,从不同维度探索高维数据,看清事物全貌。)。实验教学(2学时)(1)利用Pandas进行数据清洗。(2)利用sklearn进行数据预处理。2.基本要求:(1)掌握数据预处理的基本过程;(2)掌握数据预处理的算法和方法;(3)掌握并能实验处理数据相关性的方法、数据规范化方法以及主成分分析方法。3.重点及难点:重点:数据预处理的内容及其典型算法和方法。难点:数据规约中的属性选择、维度规约、数据压缩以及傅里叶变换、小波变换和PCA主成分分析。4.教学模式:课堂讲述与讨论,上机实验5.作业及课外学习要求(1)要求学生完成数据预处理相关基本概念的知识性作业;(2)要求学生完成数据异常值检测编程实现;(3)要求学生编程实现PCA数据属性约减;(4)要求学生查阅资料,完成数据预处理综述的书面作业。(五)回归分析(6学时)1.教学内容:理论教学(4学时)(1)回归分析概述。(2)一元线性回归分析。(3)多元线性回归。(4)逻辑回归。(5)多项式回归。(6)其他回归分析方法。实验教学(2学时)(1)回归分析的一般过程。(2)回归分析的Python实现。2.基本要求:(1)掌握数据分析回归分析的过程;(2)掌握一元线性回归模型的参数估计;(3)理解多元线性回归模型;(4)了解多元线性回归的假设检验及其评价;(5)掌握逻辑回归;(6)掌握岭回归、lasso回归及弹性回归和逐步回归;(7)掌握利用Python进行数据的回归分析;3.重点及难点:重点:线性回归、多项式回归。难点:回归分析中的过拟合及正则化处理。4.教学模式:课堂讲述与讨论,上机实验5.作业及课外学习要求(1)要求学生完成回归分析相关基本概念的知识性作业;(2)要求学生完成数据回归分析实验。(六)关联分析分析(6学时)1.教学内容:理论教学(4学时)(1)关联规则分析概述(2)频繁项集挖掘方法(融入点:在Apriori算法中,计算频繁项集需要屡次重复扫描数据库,引导学生“成功不是一蹴而就的,需多维度培养和做炼自己的耐心”,强调工匠精神的重要性。)(3)关联规则评估方法实验教学(2学时)(1)Apriori算法及其应用。(2)FP-growth算法及其应用。2.基本要求:(1)理解了解关联规则的基本思想、概念和意义;(2)熟练掌握频繁项集、闭项集和关联规则的概念;(3)理解频繁模式挖掘的路线图;(4)掌握Apriori算法:使用候选项集找频繁项集;(5)掌握由频繁项集产生关联规则的方法;(6)理解提高Apriori算法有效性的方法;(7)掌握挖掘频繁项集的模式增长方法;(8)理解解强关联规则不一定是有趣的;(9)使用提升度进行相关分析;3.重点及难点:重点:Apriori算法及其应用。难点:FP-growth算法。4.教学模式:课堂讲述与讨论,上机实验5.作业及课外学习要求(1)要求学生完成回归分析相关基本概念的知识性作业;(2)Apriori算法解决频繁项挖掘;(2)要求学生完成数据关联分析实验;(七)分类(有监督学习)(14学时)1.教学内容:理论教学(8学时)(1)分类的基本思想;(2)典型的分类算法:决策树规约、KNN、SVM、朴素贝叶斯;(3)模型评估与选择;(思政融入点:将分类中常见的过度拟合现象,引入结合孔子在《论语先进》中“过犹不及”的案例进行阐述分析,任何事都要有限度,适可而止,潜移默化生活处世哲学“物极必反,盛极而衰”的道理。)(4)组合学习;(5)利用Python实现模型的评估与选择;实验教学(6学时)(1)典型分类算法及其应用。(2)模型评估与选择。2.基本要求:(1)理解分类及预测的基本思想、概念和意义;(2)掌握常用的分类及预测算法(或模型);(3)掌握利用Python实现各种分类算法的方法;(4)掌握分类算法的评估与模型选择方法;(5)掌握集成学习的思想,随机森林实现;3.重点及难点:重点:分类算法(决策树、SVM、朴素贝叶斯、KNN)及其应用。难点:模型评估与选择。4.教学模式:课堂讲述与讨论,上机实验5.作业及课外学习要求(1)要求学生完成数据分类相关基本概念的知识性作业;(2)典型分类算法实现;(八)聚类(无监督学习)(12学时)1.教学内容:理论教学(8学时)(1)聚类分析的概念;(2)K-Means聚类;(3)层次聚类方法;(4)基于密度的方法;(5)其他聚类算法(FCM聚类,EM聚类);(6)聚类评估;(思政融入点:1.“物以类聚、人以群分”,生活中很多事物因某些内在特征呈现出自动聚集特征,引入聚类分析的算法思想;2.飞行数据聚类分析,分析飞行数据之间关联和飞行行为效能评估,树立利用科技解决实际问题的意识。)(7)利用Python实现聚类算法;实验教学(4学时)(1)典型聚类算法及其应用。(2)聚类模型的评估。2.基本要求:(1)掌握K-Means聚类、层次聚类、基于密度的聚类和其他常用方法;(2)掌握聚类模型的评估方法;(3)掌握利用sklearn实现聚类的方法;3.重点及难点:重点:典型聚类算法及其性能评估。难点:EM算法。4.教学模式:课堂讲述与讨论,上机实验5.作业及课外学习要求(1)要求学生完成数据聚类相关基本概念的知识性作业;(2)典型聚类算法实现;(3)查阅资料或阅读文献,完成聚类分析发展的综述性书面作业;(九)神经网络(4学时)1.教学内容:理论教学(2学时)(1)神经网络基础;(2)BP神经网络;(3)深度学习及CNN介绍;实验教学(2学时)(1)BP算法实现。(2)BP算法应用及Sklearn实现。2.基本要求:(1)掌握感知机与BP神经网络的原理;(2)了解深度学习基础;(4)掌握利用Python实现BP网络;3.重点及难点:重点:BP神经网络。难点:BP算法实现。4.教学模式:课堂讲述与讨论,上机实验5.作业及课外学习要求(1)要求学生完成神经网络相关基本概念的知识性作业;(2)BP算法实现;(十)离群点检测(4学时)1.教学内容:理论教学(2学时)(1)离群点概述;(2)离群点分类;(3)离群点检测常用方法;(思政融入点融入点:1.使用离群点检验可以检测出保险欺诈、电信诈骗、信用卡盗刷、电子商务欺诈等小概率事件,引入知名影星偷税漏税的案例,教育学生要具备正确的三观,不违法乱纪、不存片幸心理,脚踏实地做人做事;2.离群点通常会被当作噪声而忽略,这就需要学生在数据挖掘过程中学会辩证看待问题,具体情况具体分析。)(4)sklearn中的异常值检测方法;实验教学(2学时)(1)典型聚类算法及其应用。(2)聚类模型的评估。2.基本要求:(1)理解离群点的概念和类型;(2)理解离群点检测的挑战;(3)理解基于统计学的离群点检测方法;(4)理解基于临近性的离群点检测方法;(5)理解基于聚类的离群点检测方法;(6)掌握利用Python进行异常值检测的方法。3.重点及难点:重点:典型离群点检测算法及其应用。难点:离群点的预测。4.教学模式:课堂讲述与讨论,上机实验5.作业及课外学习要求(1)要求学生完成数据离群点检测相关基本概念的知识性作业;(2)典型离群点检测算法实现;(3)查阅资料或阅读文献,完成离群点检测的综述性书面作业;(十一)时序数据与文本数据挖掘(8学时)1.教学内容:理论教学(4学时)(1)文本数据挖掘方法;(2)时序数据挖掘方法;实验教学(4学时)(1)时序数据分析应用。(2)文本数据分析应用。2.基本要求:(1)掌握文本数据挖掘内容与时序数据挖掘方法;(2)掌握利用Python进行综合数据分析;3.重点及难点:重点:文本数据与时序数据分析挖掘。难点:时序数据挖掘。4.教学模式:课堂讲述与讨论,上机实验5.作业及课外学习要求(1)时序数据与文本数据挖掘应用;(3)查阅资料或阅读文献,完成文本数据挖掘技术发展的综述性书面作业;四、教学安排及学时分配教学环节及学时主要内容学时分配授课习题课实验网络其它小计第1章引言202第2章Python数据分析与可视化224第2章认识数据224第3章数据预处理426第5章回归分析426第6章关联分析426第7章分类82414第8章聚类62412第9章神经网络224第10章离群点检测224第11章时序数据与文本数据挖掘448总计4242672五、实验部分教学内容和要求序号实验项目名称实验内容及要求学时实验类型演示验证设计综合1数据分析与可视化给定数据集进行数据分析与可视化2√2认识数据打开一数据集,进行探索性分析,并进行数据对象的相似性度量2√3数据预处理给定数据集进行预处理2√4回归分析回归算法实现及应用2√5关联分析给定数据集进行关联分析2√√6分类分类算法实现及其应用4√√7聚类聚类算法实现及其应用

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论