《数据挖掘与机器学习》课程教学大纲_第1页
《数据挖掘与机器学习》课程教学大纲_第2页
《数据挖掘与机器学习》课程教学大纲_第3页
《数据挖掘与机器学习》课程教学大纲_第4页
《数据挖掘与机器学习》课程教学大纲_第5页
已阅读5页,还剩13页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

《数据挖掘与机器学习》教学大纲课程名称:数据挖掘与机器学习课程编号:2161英文名称:DataMiningandMachineLearning学时:56学时 学分:3.5学分开课学期:第5学期适用专业:数据科学与大数据技术专业课程类别:理论课课程性质:专业核心课先修课程:概率论基础、数理统计、Python程序设计、数据采集与清洗、数据结构一、课程的性质及任务《数据挖掘与机器学习》课程是数据科学与大数据技术专业学生的专业核心课,通过本课程的学习,培养学生的数据挖掘与机器学习的理论分析与应用实践的综合能力,使学生掌握数据挖掘和机器学习的一般原理和处理方法,能使用机器学习理论解决数据挖掘相关的问题。依据河北工程大学数据科学与大数据技术专业培养计划,本课程需要培养学生的能力是:能够将数据科学与大数据技术相关知识用于大数据工程问题的解决方案(毕业要求指标1.4)掌握大数据工程设计和相关产品开发全周期、全流程的基本设计/开发方法和技术,了解影响目标和技术方案的各种因素(毕业要求指标3.1)在大数据系统设计和开发中能够综合考虑社会、健康、安全、法律、文化及环境等制约因素(毕业要求指标3.4)具备使用大数据平台以及软件对复杂工程问题进行仿真的能力,理解其使用要求、运用范围和局限性(毕业要求指标5.3)二、课程目标与要求2.1课程目标1.

数据挖掘与机器学习课程教学大纲PAGE16PAGE1762.2课程目标与毕业要求对应关系毕业要求二级指标毕业要求1234●●1.4能够将数据科学与大数据技术相关知识用于大数据工程问题的解决方案1.具有扎实的数学与自然科学知识和工程基础,系统地掌握数据科学与大数据技术领域的基本理论、基础知识,并综合运用所学知识解决复杂工程问题。●3.1掌握大数据工程设计和相关产品开发全周期、全流程的基本设计/开发方法和技术,了解影响目标和技术方案的各种因素3.能够设计出大数据应用领域的复杂工程问题的解决方案,具有数据采集、处理、分析、挖掘的能力,并能够在设计环节中体现创新意识,考虑社会、健康、安全、法律、文化以及环境等多维度协同发展因素。●3.4在大数据系统设计和开发中能够综合考虑社会、健康、安全、法律、文化及环境等制约因素●5.3具备使用大数据平台以及软件对复杂工程问题进行仿真的能力,理解其使用要求、运用范围和局限性5.能够针对大数据应用领域的复杂工程问题,开发、选择与使用恰当的技术、资源、现代信息技术工具,包括对大数据应用领域的复杂工程问题的预测与仿真,并能够理解其局限性。2.3课程目标与培养环节对应矩阵序号课程目标理论教学课内实验课后作业1掌握数据挖掘与机器学习的相关概念,数据预处理常用方法。HL2掌握分类技术、关联规则、聚类技术等基本理论以及操作应用;HML3具备一定的专业技术研究能力,能够采用数据挖掘技术对大数据分析的复杂工程问题进行研究,能够设计相关实验,对实验结果进行分析与数据处理,通过信息综合等方法获得有效结论。HM4能够对大数据分析的复杂工程问题进行识别、表达和分析,得出有效结论;并能够通过大数据技术分析实际复杂工程问题,针对数据挖掘系统建立模型,并编写程序。在设计过程中能够体现创新意识,能够综合考虑社会、健康、安全、法律、文化以及环境等因素。HL注:H表示该能力的在此环节重点培养;M表示该能力在此环节有应用要求;L表示该能力在此环节有所涉及。应用多元统计分析课程教学大纲PAGE2PAGE1922.4目标达成度的评价课程目标1主要通过理论教学环节进行培养,在课内实验有所涉及。主要通过课堂测试和期末考试中概念性、原理性题目进行考核。目标达成综合以上内容进行评价。课程目标2主要通过理论教学环节进行培养,在课内实验有应用要求,课后作业有所涉及。主要通过课堂测试,课后作业和期末考试中各种数据挖掘和机器学习算法类题目进行考核,在实验中体现为能熟悉掌握分类、聚类和关联各种算法应用。目标达成综合以上内容进行评价。课程目标3主要通过课内实验进行培养,在课后作业有应用要求。主要通过布置大数据行业领域的应用案例题目进行考核,在实验报告中体现为能给出符合要求的大数据分析结论。在课后作业中体现为基于大数据分析技术,综合运用各种数据挖掘算法的能力;目标达成综合以上内容进行评价。课程目标4主要通过课内实验培养,在课后作业中有所涉及。在课后作业中体现为能够按照要求完成各项任务要求;在实验报告中要对数据案例进行描述、对大数据分析结论进行评价。目标达成综合以上内容进行评价。三、教学方法及手段理论教学以课堂讲授为主,上机实验为辅并结合课堂讨论、案例分析、师生互动等教学方法展开教学;理论教学强调将各种数据挖掘技术、机器学习算法与实际项目案例的实际情况紧密联系,面向知识的实际应用;理论教学注重本课程与数据采集与清洗、数据结构等先修课程的联系;本课程教材力求内容新颖,采用多样化的方式进行教学,让学生在理论与实践相结合的基础上,对课程所要求的实际操作能力有进一步的提高。充分利用多媒体等现代化教学手段,整体优化教学过程和教学内容,调动学生学习积极性;布置实际操作任务给学生上机操作并及时指导。课程强调学生的自主学习,强调通过自学的方式消化、吸收课程的庞大知识量,并在此基础上举一反三、灵活应用。四、课程的基本内容与教学要求第一章数据挖掘和机器学习概述[教学目的与要求]:理解和掌握数据挖掘与机器学习的基本概念、数据挖掘过程、数据挖掘的主要任务以及数据挖掘使用的主要技术。了解数据挖掘与机器学习的应用和面临的问题。对数据挖掘和机器学习能够解决的问题和解决问题思路有清晰的认识。[本章主要内容]:1.1什么是数据挖掘和机器学习1.2数据挖掘和机器学习的过程1.3数据挖掘和机器学习的任务1.4数据挖掘系统的分类[本章重点]:数据挖掘和机器学习的相关概念。数据挖掘和机器学习的过程。数据挖掘系统的分类。[本章难点]:数据挖掘和机器学习的任务第二章数据[教学目的与要求]:理解和掌握数据对象和属性类型,数据的基本统计描述。掌握数据预处理基本方法,了解度量数据相似性和相异性的方法。[本章主要内容]:2.1数据类型2.2数据质量2.3数据预处理方法2.4相似性和相异性的度量[本章重点]:1.数据的属性与类型2.数据测量和数据收集3.数据聚集4.数据抽样5.数据维归约6.特征子集选择7.特征创建8.变量变换[本章难点]:1.数据离散化和二元化2.数据对象之间的相似度和相异度第三章分类:基本概念、决策树与模型评估[教学目的与要求]:了解分类及预测的基本思想、概念和意义,掌握决策树的构造原理、建模步骤。理解模型的过分拟合,掌握评估分类器的性能和比较分类器的方法[本章主要内容]:3.1决策树原理和归纳问题3.2模型过分拟合3.3评估分类器性能3.4比较分类器的方法[本章重点]:1.决策树工作原理2.建立决策树步骤3.决策树属性测试条件方法4.选择最佳划分属性5.决策树归纳算法6.噪声导致的过分拟合7.缺乏代表性样本导致的过分拟合8.处理过分拟合9评估分类器性能的保持方法和随机二次抽样[本章难点]:交叉验证方法自助法比较分类器的方法第四章分类:其他技术[教学目的与要求]:了解基于规则的分类器。掌握最近邻分类器算法和贝叶斯分类器原理和方法。了解人工神经网络方法和支持向量机原理。[本章主要内容]:4.1基于规则的分类器4.2最近邻分类器算法4.3贝叶斯分类器4.4人工神经网络方法4.5支持向量机[本章重点]:基于规则的分类器的工作原理规则提取的直接和间接方法最近邻分类器算法朴素贝叶斯感知器最大边缘超平面[本章难点]:1.贝叶斯信息网络2.多层人工神经网络3.线性支持向量机。第五章关联分析:基本概念和算法[教学目的与要求]:了解关联规则的基本思想、概念和意义。掌握频繁项集产生、规则产生原理。掌握频繁项集紧凑表示。了解FP增长算法。[本章主要内容]:5.1.频繁项集产生5.2.规则产生原理5.3.频繁项集紧凑表示5.4.FP增长算法[本章重点]:1.先验原理2.Apriori算法3.极大频繁项集4.闭频繁项集5.FP树表示方法[本章难点]:1.基于Apriori算法的规则产生2.FP增长算法的频繁项集产生第六章关联分析:高级概念[教学目的与要求]:了解分类属性的关联规则。掌握连续属性的关联规则产生。了解概念分层结构的关联规则产生。掌握利用序列模式的关联规则产生。[本章主要内容]:6.1处理分类属性6.2处理连续属性6.3处理概念分层属性6.4序列模式的关联规则[本章重点]:1.分类属性的关联分析2.基于离散化方法的关联3.非离散化方法的关联4.序列模式出现的前提[本章难点]:1.基于统计学方法的关联2.时限约束下的关联规则第七章聚类分析:基本概念和算法[教学目的与要求]:了解聚类概念、聚类类型和簇类型。掌握K-Means聚类、层次聚类、基于密度的聚类和其他常用方法。掌握利用sklearn实现聚类的方法。[本章主要内容]:7.1聚类概念、聚类类型和簇类型7.2K均值方法7.3凝聚层次聚类方法7.4DBSCAN聚类方法[本章重点]:1.聚类分析相关概念2.聚类类型3.簇类型4.K均值聚类方法5.二分K均值聚类方法6.凝聚层次聚类算法7.[本章难点]:簇邻近度的Lance-Williams公式DBSCAN算法第八章离群点检测[教学目的与要求]:了解离群点的概念与检测方法。掌握sklearn中的异常值检测方法。[本章主要内容]:8.1异常检测方法原理8.2异常检测统计方法8.3基于邻近度的离群点检测8.4基于密度的离群点检测[本章重点]:1.异常的成因2.异常检测方法原理3.检测一元正态分布中的离群点4.多元正态分布中的离群点[本章重点]:1.基于邻近度的离群点检测2基于密度的离群点检测第九章数据挖掘案例[教学目的与要求]:掌握数据挖掘与机器学习的分析与实现。掌握利用Python进行综合数据分析。[本章主要内容]:9.1金融数据案例的应用分析9.2医疗数据案例的应用分析9.3.旅游数据案例的应用分析[本章重点]:1.案例数据的分析技术2.Python程序的综合运用[本章难点]:数据分析结论的总结和解释五、课内实验5.1本课程实验教学的地位和作用数据挖掘与机器学习实验是巩固和扩展课程理论知识的必要环节。理解数据挖掘技术和机器学习算法的基本原理,掌握各种数据分析方法。认识数据挖掘在数据科学中的地位和作用。能根据要求编译Python语言,能根据要求编写相应的代码程序完成调试与测试,分析数据,得出分析结论。通过实验提高学生解决实际复杂大数据的分析能力,锻炼学生分析、调试程序、、设计实现数据分析算法以及撰写实验报告的能力。5.2教学基本要求通过实验预习及设计,理解数据挖掘技术和机器学习算法的基本原理,可利用Python软件完成相关数据分析,为实验的顺利开展奠定了基础。根据要求动手编写程序,利用Python语言构建数据分析模型,能根据要求编写相应的代码程序完成调试与测试,分析数据,得出分析结论熟悉常用各种数据分析算法的编程能力;学会使用Python语言,测试调整参数,排除运行故障。正确处理实验数据,分析内在规律,掌握处理实验结果的能力。结合实际应用,认识数据挖掘在数据科学中的地位和作用。5.3实验内容及要求大纲基本内容包括六个实验项目,在16个学时内完成。实验一数据预处理本实验为操作性实验。通过实验操作,让学生学习数据预处理的工作原理,锻炼学生编程、分析、调试参数的能力,进而掌握数据预处理能力。培养学生具有分析数据与排除运行故障和分析实验结果的能力。要求学生课前预习实验指导书,根据实验指导书提供的背景知识并参考课程所用教材完成数据分析,实现相应参数的理论计算。鼓励学生用Python软件完成数据处理,得到预期结果。指导教师应概述实验原理、方法及操作使用等内容,并对典型问题作针对性指导,以及监督实验室安全运转。具体实验步骤和结果分析、处理由学生独立完成。实验内容要求如下:课前预习内容:各种数据预处理方法原理。Python语言结构。数据的描述性统计分析。要求:描述性统计分析是一种统计分析方法,用以概括数据的整体情况,即数据的基本特征,以发现内在规律,注意包括数据的集中性趋势分析、数据离散程度分析、频数分布分析等,统计指标有计数、均值、标准差、最大值、最小值和分位数等,正确使用pandas模块,使用describe函数进行描述性分析,要求至少得到5项统计指标。数据预处理方法。要求:数据预处理技术包括数据标准化、数据变换、缺失值处理和降维等方法,正确使用sklearn模块,使用MinMaxScaler函数、scale函数、Normalizer函数标准化数据,使用Binarizer函数二元化数据、Imputer函数填补缺失值,学会PCA降维方法,要求至少完成5项操作。实验二分类模型本实验为操作性实验。通过实验操作理解分类算法的工作原理,使学生进一步掌握各种分类算法的基本思想,学会构建分类模型。锻炼学生编程、分析、测试程序以及处理实验结果的能力。要求学生课前预习实验指导书,掌握分类模型的原理和特点。鼓励学生用Python软件实现分类结果,对实验过程及结果有所预期。指导教师应概述实验的原理、方法及编程等内容,并对典型问题作针对性指导,以及监督实验室安全运转。具体实验步骤和结果分析、处理由学生独立完成。实验内容要求如下:课前预习内容:分类模型的基础知识。决策树构建原理。KNN模型原理。贝叶斯分类器原理。支持向量机原理决策树和KNN分类实验,要求:通过对训练样本的学习,建立分类规则,并依据分类规则,对新样本数据进行分类预测,正确使用sklearn模块,使用train_test_split函数划分数据集,利用DecisionTreeClassifier函数、KNeighborsClassifier函数完成分类,要求至少完成2项分类操作。贝叶斯分类器和支持向量机分类实验,要求:通过数据分析,利用概率大小实现分类预测,正确使用sklearn模块中的BernoulliNB函数、MultinomialNB函数完成分类;或使用构建超平面,正确使用sklearn模块中的SVC函数完成分类。要去至少完成2项分类操作实验三关联规则本实验为操作性实验。通过实验操作理解关联规则的基本原理,使学生进一步掌握各种关联算法的基本思想,学会寻找关联规则。锻炼学生编程、分析、测试程序以及处理实验结果的能力。要求学生课前预习实验指导书,掌握关联规则产生方法。鼓励学生用Python软件实现关联结果,对实验过程及结果有所预期。指导教师应概述实验的原理、方法及编程等内容,并对典型问题作针对性指导,以及监督实验室安全运转。具体实验步骤和结果分析、处理由学生独立完成。实验内容要求如下:课前预习内容:频繁项集的基础知识。关联规则产生基本原理。支持度和置信度。关联规则产生实验,要求:通过对样本数据分析,利用筛选技术,找出数据集中的频繁项集,正确使用apyori模块,使用apriori函数进行关联规则挖掘,寻找符合最小支持度阈值和最小置信度阈值的关联规则,要求完成1项关联规则产生操作。实验四聚类算法本实验为操作性实验。通过实验操作理解聚类算法的基本原理,使学生进一步掌握各种聚类算法的基本思想,学会实现聚类结果。锻炼学生编程、分析、测试程序以及处理实验结果的能力。要求学生课前预习实验指导书,掌握聚类算法技术。鼓励学生用Python软件实现聚类结果,对实验过程及结果有所预期。指导教师应概述实验的原理、方法及编程等内容,并对典型问题作针对性指导,以及监督实验室安全运转。具体实验步骤和结果分析、处理由学生独立完成。实验内容要求如下:课前预习内容:聚类的基础思想。K均值核心思想。层次聚类原理DBSCAN聚类2.K均值、层次聚类、DASCAN聚类,要求:通过对样本数据分析,正确使用sklearn模块,使用kmeans函数进行关联规则挖掘,寻找符合最小支持度阈值和最小置信度阈值的关联规则,要求完成1项关联规则产生操作。实验五异常检测本实验为操作性实验。通过实验操作理解异常检测的基本原理,使学生进一步掌握各种异常检测算法的基本思想,学会寻找离群点。锻炼学生编程、分析、测试程序以及处理实验结果的能力。要求学生课前预习实验指导书,掌握异常检测技术。鼓励学生用Python软件实现结果,对实验过程及结果有所预期。指导教师应概述实验的原理、方法及编程等内容,并对典型问题作针对性指导,以及监督实验室安全运转。具体实验步骤和结果分析、处理由学生独立完成。实验内容要求如下:课前预习内容:离群点检测基本原理。基于统计模型的离群点检测。基于聚类的离群点检测2.基于统计模型或聚类的离群点检测,要求:通过估计概率分布的参数来建立一个数据类型,如果一个数据对象不能很好地与该模型拟合,即如果它很可能不服从该分布,则它是一个离群点。或者丢弃远离其他簇的小簇为离群点。通过对样本数据分析,正确使用sklearn模块,使用kmeans函数进行聚类,聚类所有对象,评估对象属于簇的程度,如果删除一个对象导致该目标的显著改进,可将此对象视为离群点,要求完成1项离群点检测技术操作。实验六综合训练本实验为操作性实验。通过实验操作理解数据挖掘各种技术的基本原理,使学生进一步掌握各种机器学习算法的基本思想,锻炼学生编程、分析、测试程序以及处理实验结果的能力。要求学生课前预习实验指导书,鼓励学生用Python软件实现结果,对实验过程及结果有所预期。指导教师应概述实验的原理、方法及编程等内容,并对典型问题作针对性指导,以及监督实验室安全运转。具体实验步骤和结果分析、处理由学生独立完成。实验内容要求如下:课前预习内容:数据挖掘各种算法。金融大数据相关知识。水利大数据的相关知识2.金融大数据、水利大数据的综合应用,要求:通过数据收集、数据爬虫等方法收集金融、水利等领域的数据集,先进行数据探索分析,对各个属性进行描述性统计分析,使用pearson相关系数方法,考察各属性的相关程度,并使用Lasso回归方法进行特性选择,消除特征之间的多重共线性问题,并利用SVR、决策树等方法构建模型,并给出相应评价,要求至少完成1项实际行业数据分析操作。5.4教学文件及教学形式教学文件:《Python数据分析与挖掘实战》、《Python数据挖掘实战》。教学形式主要包括:预习、课堂指导与实验操作、撰写实验报告。实验报告学生自拟。实验报告包括:实验目的、编程语言,描述方法原理,详细叙述编程步骤,要有完整的数据和编程、图表表示的实验结果,以理论联系实际为出发点,调整参数并分析与实际数据之间的误差,总结实验中出现的问题及解决方法。5.5实验项目及学时分配序号实验项目实验学时实验类型实验类别实验性质1数据预处理2定量性专业必修2分类模型4定量性专业必修3关联规则2定量性专业必修4聚类算法2定量性专业必修5异常检测2定量性专业必修6综合训练4定量性专业必修5.6本课程实验用到的场地和仪器大数据实验中心机房、多功能多媒体设备、智慧黑板。六、课程学时分配教学课次教学内容教学环节与计划时数教学环节计划时数1数据挖掘和机器学习概述理论课22数据类型、数据质量理论课23数据预处理方法理论课24相似性和相异性的度量理论课25决策树原理和归纳问题理论课26模型过分拟合理论课27评估分类器性能、比较分类器的方法理论课28基于规则的分类器、最近邻分类器算法理论课29贝叶斯分类器理论课210人工神经网络方法理论课211支持向量机理论课212频繁项集、规则产生原理、频繁项集紧凑表示理论课213FP增长算法理论课214处理分类属性、连续属性、概念分层属性理论课215序列模式的关联规则理论课216聚类概念、聚类类型和簇类型、K均值方法理论课217凝聚层次聚类方法理论课218DBSCAN聚类方法理论课219异常检测统计方法:基于邻近度的离群点检测和基于密度的离群点检测理论课220金融、医疗、旅游数据案例的综合应用分析理论课221实验1数据预处理实验课222实验2分类模型:决策树和KNN分类实验实验课223实验3分类模型:贝叶斯分类器和支持向量机实验课224实验4关联规则实验课225实验5聚类算法实验课226实验6异常检测实验课227实验7金融和经济大数据实践实验课228实验8旅游和医疗大数据实践实验课2注:实验课由任课教师负责协调安排时间。七、课程考核与成绩评定7.1考核方式考核环节包括课程学习过程考核和期末考试,其中课程过程考核占总成绩的30%,分别由课堂表现、课后作业、实验情况进行评定;期末考试成绩占总成绩的70%。各环节的比重如下。考核环节比重合计过程考核(平时成绩)课堂表现10%30%作业10%实验10%期末成绩期末测试70%70%总计100%100%7.2考核内容及要求本课程为考试课。考核内容及分值分配如下。考核方式考核内容分值课程目标总分值期末考试70%数据挖掘任务2~4目标1100分数据预处理5~10目标1、7决策树的最佳属性选择问题10~15目标2、7KNN分类器5~8目标2、7贝叶斯分类器10~15目标2、7人工神经网络和支持向量机5~10目标2、7关联规则产生10~15目标3、6聚类算法10~15目标4、6异常检测算法2~5目标5、6过程考核30%课堂表现课堂测试、出勤情况10目标1、2、3、4、5、6、710分课后作业作业完成情况10目标2、3、4、6、7、810分实验实验出勤、实验表现及实验报告10目标1、2、3、4、5、6、7、810分7.3成绩评定1.课堂表现课堂表现总分10分,由课堂测试与课堂出勤情况评定。其中,课堂测试满分6分,以客观题(填空、选择、判断)为主,每学期随堂测试15~20次,每次测试1~2道题目,每答错一道题目扣0.5分(直到扣满6分为止);课堂出勤满分4分,缺勤一次扣1分,迟到或请假扣0.5分。2.课后作业课后作业总分10分,由作业完成情况评定。每学期布置作业5次,每次作业占2分,评分标准如下;评分标准分值标准描述课后作业3能够按时认真完成作业、作业态度认真、书写清楚、分析计算正确。2能够按时完成作业、作业态度较好、书写较清楚、分析计算基本正确1能够按时完成作业、作业态度一般、书写不清楚、分析计算错误较多0不交作业或作业态度不认真、抄袭他人作业3.实验成绩实验成绩占所学课程的10%,即10分。根据学生的实验表现及实验报告结果,进行综合评定。具体评分标准如下表所示。评分标准分

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论