数据挖掘技术教学大纲_第1页
数据挖掘技术教学大纲_第2页
数据挖掘技术教学大纲_第3页
数据挖掘技术教学大纲_第4页
数据挖掘技术教学大纲_第5页
已阅读5页,还剩1页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据挖掘技术教学大纲适用范围:2019版本科人才培养方案课程代码:08140201课程性质:专业必修课学分:4学分学时:64学时(其中:理论48学时,实验16学时)先修课程:高等数学,线性代数,概率论与数理统计,Java程序设计,算法分析与设计后续课程:适用专业:数据科学与大数据技术等专业教材:韩家炜等编著,数据挖掘:概念与技术(第三版),机械工业出版社,2012开课单位:计算机科学与技术学院一、课程的性质与任务课程性质:本课程是数据科学与大数据技术等专业的专业选修课。课程任务:课程的主要任务是让学生掌握数据仓库与数据挖掘基本概念与算法,针对实际工作与应用中产生的大数据,用数据挖掘技术来发现数据中隐藏的知识或规律,从而为生产、生活、商务活动、社会活动等提供决策支持。要求学生通过本课程的学习,认识数据仓库和数据挖掘在当今大数据时代中的重要作用,了解数据仓库的基本原理和实现方法,掌握数据预处理技术和数据挖掘常用算法(包括关联分析、分类与预测、聚类分析、链接分析、数据摘要等),为解决实际问题打下坚实的知识基础。二、课程的基本内容及要求(一)引言1.课程教学内容(1)数据挖掘的概念;(2)数据挖掘的研究数据对象;(3)数据挖掘的功能;(4)数据挖掘的分类;(5)数据挖掘的主要问题。2.课程重点难点重点:数据挖掘的基本概念。难点:数据挖掘的功能概述;关联分析;分类预测;聚类。3.课程教学要求(1)了解数据挖掘的知识类型;(2)在大数据时代数据挖掘面临的主要问题;(二)认识数据1.课程教学内容(1)数据对象与属性类型;(2)数据的基本统计描述;(3)数据可视化;(4)数据度量。2.课程重点难点重点:数据对象的基本概念;难点:数据度量中数据的相似性和相异性。3.课程教学要求(1)了解并熟悉数据对象和属性类型以及其基本统计;(2)掌握数据可视化相关概念;(3)理解度量数据相似性和相异性。(三)数据预处理1.课程教学内容(1)数据预处理的必要性和意义;(2)数据清洗,数据集成和数据变换;(3)数据约简与离散化。2.课程重点难点重点:数据归一化变、基于熵的有监督离散化;难点:数据约简的降维与采样技术。3.课程教学要求(1)理解并熟练掌握数据预处理的必要性;(2)掌握数据预处理的常用方法。(四)数据仓库和联机分析技术1.课程教学内容(1)数据仓库的定义;(2)数据仓库的设计模式;(3)数据仓库的实施。2.课程重点难点重点:数据立方体、OLTP与OLAP的不同点分析。难点:物化计算的时间与空间复杂度分析。3.课程教学要求(1)了解数据仓库与常用关系型数据库的不同点;(2)理解并掌握数据仓库的三总设计模式,汇聚计算函数的分类;(3)理解物化计算时间与空间复杂度的分析。(五)挖掘频繁模式、关联规则和相关性1.课程教学内容(1)基本概念;(2)Apriori布尔单维关联规则挖掘算法;(3)频繁模式树;(4)基于Apriori的多维、量化关联规则挖掘算法。2.课程重点难点重点:Apriori算法的核心思想。难点:Apriori算法的时间与空间复杂度分析。3.课程教学要求(1)理解并熟练掌握Apriori算法。(六)分类和预测1.课程教学内容(1)机器学习的基本概念、有监督半监督和无监督学习;(2)泛化误差的方差与偏差分解;(3)决策树、K-最近邻和贝叶斯算法;(4)神经网络与深度学习;(5)集成学习以及样本复杂性的基本概念。2.课程重点难点重点:决策树、K-最近邻和贝叶斯算法的原理和使用。难点:泛化误差的方差与偏差分解。3.课程教学要求(1)了解有监督机器学习和无监督机器学习的区别;(2)掌握贝叶斯、决策树和K-最近邻算法。(七)聚类分析1.课程教学内容(1)聚类分析基本概念;(2)算法复杂性分析与NP简介;(3)基于划分的聚类算法:K-means、K-center和K-median;(4)基于层次的聚类算法:全链接和单链接聚类算法。2.课程重点难点重点:基于划分的聚类算法。难点:算法的复杂性分析3.课程教学要求(1)了解常见的聚类准则; (2)熟练掌握基于划分的聚类算法。(八)离群点检测1.课程教学内容(1)离群点与离群点分析;(2)有监督、无监督和半监督离群点检测方法;(3)统计学方法和基于邻近性的方法;(4)基于聚类和分类的方法;(5)挖掘情景离群点和集体离群点。2.课程重点难点重点:离群点检测方法。难点:离群点检测方法的多样性和复杂度分析。3.课程教学要求(1)理解并掌握各种离群点检测方法; (2)离群点检测方法的对比分析。(九)复杂类型数据的挖掘1.课程教学内容(1)空间数据挖掘;(2)多媒体数据挖掘;(3)时序和序列数据的挖掘;(4)文本数据库挖掘与Web挖掘;(5)数据挖掘的发展趋势与研究前沿。2.课程重点难点重点:空间数据挖掘、时序和序列数据的挖掘。难点:复杂类型数据挖掘的对比分析。3.课程教学要求(1)理解掌握各种类型数据挖掘的原理; (2)数据挖掘的发展趋势与前沿。三、课程学时分配教学章节理论实践(验)讨论、习题一、引言2二、认识数据4三、数据预处理6四、数据仓库和联机分析技术4五、挖掘频繁模式、关联规则和相关性6六、分类和预测106七、聚类分析86八、离群点检测4九、复杂类型数据的挖掘44总计4816四、课程考核与权重比例考核方式:本课程采用过程化考核手段,主要以作业评价、课程视频、课堂表现、课内实验、平时测试、上机考试等方式对学生进行考核评价。考核基本要求:考核总成绩由作业评价、课程视频、课堂表现、课内实验、平时测试、上机考试等过程性评价成绩组成。其中:作业评价、课程视频、课堂表现、课内实验、平时测试等过程性评价成绩为100分(占评价权重的40%),期末上机考试成绩为100分(占评价权重的60%)。课程教学章节对应考核权重、分值分配如下表所示。课时分配与考核权重、分值一览表序号教学章节课时数过程性评价成绩(权重100%)期末考试(权重0%)评价方法考核分值考核分值1一、引言2课堂表现、作业评价10分5分2二、认识数据4课堂表现、作业评价、实验报告10分10分3三、数据预处理6课堂表现、作业评价、实验报告15分10分4四、数据仓库和联机分析技术4课堂表现、作业评价10分10分5五、挖掘频繁模式、关联规则和相关性6课堂表现、作业评价10分10分6六、分类和预测16课堂表现、作业评价、实验报告15分20分7七、聚类分析14课堂表现、作业评价、实验报告10分15分8八、离群点检测4课堂表现、作业评价、实验报告10分10分9九、复杂类型数据的挖掘8课堂表现、作业评价10分10分合计64100分100分五、课程资源库周志华,《机器学习》,清华大学出版社,2016年1月。StevenBird,EwanKlein,EdwardLoper.NaturalLanguageProcessingwithPython,

O'REILLY,

2009.07.荫蒙(InmonW.H)著,王志海等译,数据仓库(原书第四版),机械工业出版社,2006年8月。刘红岩,陈剑,陈国青.数据挖掘中的数据分类算法综述[J].清华大学学报(自然科学版),2002(06):727-730。刘明吉,王秀峰,黄亚楼.数据挖掘中的数据预处理[J].计算机科学,2000(04):54-57。慕春棣,,戴剑彬,叶俊.用于数据挖掘的贝叶斯网络[J].软件学报,2000(05):660-666。Sohail,M.N.,etal."Whyonlydatamining?Apilotstudyoninadequacyanddominationofdataminingtechnology."

Int.J.RecentSci.Res

9.10(2018):29066-29073.Chhabra,VIIII.,andGunmalaSuri."DataScienceandKnowledgeDiscoverythroughDataMiningParadigms."

JournalofMechanicsofContinuaandMathematicalSciences

14.2(2019):167-173.数据挖掘英文综述,HYPERLINK"/

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论