




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据科学与大数据专业课程教学大纲数据仓库与数据挖掘一、说明(一)课程性质本课程以数据仓库和数据挖掘为主要内容,讲述数据仓库与数据挖掘的基本概念和方法,包括数据预处理、数据仓库与联机分析处理、数据仓库的设计与开发、以及数据挖掘的主要功能、数据挖掘、机器学习算法和应用,并通过对实际数据的分析更加深入地理解常用的数据挖掘与机器学习模型。培养学生数据分析和处理的能力。该课程的先修课程有概率论与数理统计、数据库原理和程序设计等。(二)教学目的本课程的主要目的是培养学生的数据仓库与数据挖掘的基本理论分析与应用实践的综合能力。通过本课程的教学,使学生掌握数据仓库和数据挖掘的一般原理和处理方法,能使用机器学习理论解决数据挖掘相关的问题。(三)教学内容本课程全面而又系统地介绍了仓库与数据挖掘的方法和技术,反映了当前数据仓库与数据挖掘研究的最新成果。本课程主要学习的内容包括Python数据分析与可视化基础、认识数据、数据预处理、回归分析、关联规则挖掘、分类与预测、聚类分析、神经网络与机器学习基础、离群点检测以及Python数据挖掘案例分析等内容。(四)教学时数本课程的教学时数为72学时,理论教学54学时,实验教学18学时。(五)教学方式多媒体机房教学、案例导向、项目驱动等教学方法、启发学生对学科知识的把握理解和实际操作能力。课程教学方法的改革以调动学生的积极性为核心。除讲授、提问、学生分析、讨论等常用的方法外,结合管理课程的特点,适应本科生培养的要求,探索并完善以参与式、体验式、交互式和模拟教学等实践教学为基本形式的多种方法。并建立纸质、声音、电子、网络等多种媒体构成的立体化教学载体。本课程的教学方式主要采用课堂讲授和实验操作,包括:课堂讲授、多媒体教学、实验操作、算法分析与设计、习题解析、课堂讨论、批改作业、课外辅导等多种形式相结合,保证学生掌握数据挖掘与机器学习的基本知识,理解算法的实现,培养学生的自学能力、分析问题和解决问题的能力。教学方法:采用启发式教学和探究式教学,以学生为主体,鼓励学生自己针对某种数据挖掘与机器学习算法进行分析和研究,培养学生的自学能力。教学手段:充分利用电子教案、CAI课件和网络教学平台等多种教学手段和资源。考试环节:两次课堂小测验;学期末学生分为若干小组,每个小组研究讨论并实现某一前沿的数据挖掘算法或者实现实际的数据挖掘案例,以报告的形式进行讲解,最后提交一份课程学术报告。二、本文理论部分第一章绪论教学要点:1.理解和掌握数据仓库与数据挖掘的基本概念、数据仓库的定义、组成以及数据挖掘的过程、数据挖掘的主要任务以及数据挖掘使用的主要技术。2.了解数据仓库和数据挖掘的应用和面临的问题。3.对数据挖掘能够解决的问题和解决问题思路有清晰的认识。4.熟练应用Jupyternotebook的开发环境。教学时数:2学时。教学内容:数据仓库简介1.了解数据仓库的定义和特点。数据仓库与操作型数据库的关系1.熟练掌握数据仓库与数据库的区别。第三节数据仓库的组成1.掌握数据仓库系统的组成。第四节数据仓库的应用1.了解数据仓库的应用场景。第五节基于Hadoop/Hive的数据仓库技术了解基于Hadoop/Hive的数据仓库技术。第六节数据挖掘的主要任务和数据源理解数据挖掘中的主要问题,任务和数据源。第七节数据挖掘与机器学习常用的建模工具1.了解数据挖掘的商用和开源工具。第八节利用Python进行数据挖掘1.掌握Python数据挖掘的常用类库。2.熟悉JupyterNotebook的使用方法。第九节数据仓库与数据挖掘的区别与联系1.掌握数据仓库与数据挖掘的区别及联系考核要点:掌握数据仓库与数据挖掘的定义和功能,理解数据挖掘在何种数据上进行,数据挖掘可以挖掘什么类型的模式,掌握初级的数据仓库技术。第二章认识数据教学要点:1.理解和掌握数据对象和属性类型,数据的基本统计描述,掌握度量数据相似性和相异性的方法。2.了解数据可视化的方法。教学时数:2学时。教学内容:第一节数据对象与属性类型1.熟练掌握数据的属性类型。第二节数据的基本统计描述1.熟练掌握中心趋势度量的方法、度量分散程度的方法、数据基本统计描述图形显示的方法。第三节数据可视化1.了解数据可视化的方法。第四节度量数据的相似性和相异性1.熟练掌握度量数据相似性和相异性的方法。考核要点:了解数据的属性类型,理解数据的基本统计描述,掌握度量数据相似性和相异性的方法。第三章数据预处理教学要点:1.了解数据预处理的目的和意义。2.掌握如何对数据进行清理。3.掌握如何对不同数据源的数据进行合并。4.掌握如何对数据进行变换,使之适合建模的需要。5.掌握如何对数据进行消减,使得在消减后的数据集上挖掘更有效。6.掌握利用Python进行数据预处理的方法。教学时数4学时。教学内容:数据预处理概述了解为什么要对数据预处理。数据的质量要求数据清理理解缺失值、噪音数据的处理方法。利用Python进行数据清理的方法。第三节数据集成理解数据集成的方法。利用Python进行数据合并。第四节数据变换与数据离散化1.了解数值数据的离散化和概念分层产生。2.熟练掌握数据变换和数据离散化的方法。第五节数据归约1.了解维归约:可以检测并删除不相关、弱相关或冗余的属性或维。2.理解数据压缩:使用编码机制压缩数据集。3.理解数值压缩:用替代的、较小的数据表示替换或估计数据,如参数模型(只需要存放模型参数,而不是实际数据)或非参数方法,如聚类、选样和使用直方图。考核要点:理解数据清理、数据集成、数据规约、数据变换于数据离散化的方法,掌握数据预处理的基本方法。第四章数据仓库与联机分析处理教学要点:1.掌握数据仓库的体系。2.掌握多维数据模型与OLAP。3.掌握数据仓库的维度建模。4.了解数据仓库的发展。教学时数:4学时。教学内容:第一节数据仓库的体系1.理解数据仓库的体系结构。2.理解数据仓库中的ETL、数据集市和元数据。第二节多维数据模型与OLAP1.掌握多维数据模型的概念。2.理解OLAP的含义和基本操作。3.掌握多维数据建模的实现过程。第三节数据仓库的维度建模1.理解数据仓库的维度建模。2.理解星型模型和雪花模型。第四节数据仓库的发展了解动态数据仓库。了解数据中心和数据中台。考核要点:掌握数据仓库体系、OLAP及维度建模。第五章数据仓库设计与开发教学要点:1.掌握数据仓库设计的过程。2.掌握基于Hive的数据仓库实现教学时数:4学时。教学内容:第一节数据仓库设计概述1.了解数据仓库设计的特点。2.掌握数据仓库的构建模式。第二节数据仓库设计1.掌握数据仓库规划、需求分析及概念设计。2.理解数据仓库逻辑模型设计。3.理解数据仓库物理设计。4.了解数据仓库的部署与维护。第三节基于Hive的数据仓库实现1.理解Hive数据仓库和数据库比较。2.掌握数据仓库的常用操作。3.掌握利用Hive建立数据仓库。考核要点:掌握数据仓库的设计过程与方法,利用Hive进行数据仓库设计开发。第六章回归分析教学要点:1.掌握回归分析原理。2.掌握一元线性回归分析。3.掌握多元线性回归分析。4.掌握逻辑回归。5.了解其他回归分析。教学时数:4学时。教学内容:第一节回归分析概述1.理解回归分析的定义与分类。2.理解回归分析的过程。第二节一元线性回归分析1.掌握一元线性回归方法。2.理解一元线性回归模型的参数估计。3.理解一元线性回归模型的误差方差估计。4.掌握利用Python进行一元线性回归。第三节多元线性回归1.理解多元线性回归模型。2.理解多元线性模型的参数估计。3.了解多元线性回归的假设检验及其评价。4.掌握利用Python进行多元线性回归。第四节逻辑回归理解Logistic回归模型。掌握利用Python进行Logistic回归。考核要点:掌握回归的定义,各类回归的原理及Python实现。第七章关联规则挖掘教学要点:1.了解关联规则的基本思想、概念和意义。2.了解关联规则挖掘的应用背景;掌握常用的关联规则算法。3.掌握利用Python实现关联规则分析。4.了解其它方法的内容、了解关联规则挖掘的研究动态。教学时数: 4学时。教学内容:第一节关联规则分析概述1.了解购物篮分析。2.熟练掌握频繁项集、闭项集和关联规则的概念。3.理解频繁模式挖掘的路线图。第二节频繁项集挖掘方法1.掌握Apriori算法:使用候选项集找频繁项集。2.掌握由频繁项集产生关联规则的方法。3.理解提高Apriori算法有效性的方法。4.掌握挖掘频繁项集的模式增长方法。第三节关联规则评估方法1.了解强关联规则不一定是有趣的。2.使用提升度进行相关分析。考核要点:了解频繁项集、闭项集和关联规则的概念,理解模式评估方法,掌握Apriori算法和挖掘频繁项集的模式增长方法。 第八章分类教学要点:1.了解分类及预测的基本思想、概念和意义。2.掌握常用的分类及预测算法(或模型)。3.了解分类及预测挖掘的研究动态。4.掌握利用Python实现各种分类算法的方法。教学时数: 12学时。教学内容:第一节基本概念1.了解分类和预测的定义。第二节决策树规约1.理解决策树归纳的概念。2.掌握属性选择度量的方法。3.理解树剪枝。4.决策树的Python实现。第三节K近邻算法1.K近邻算法原理。2.Python算法实现。第四节支持向量机1.SVM算法原理。2.Python算法实现。第五节贝叶斯分类1.理解贝叶斯定理。2.掌握朴素贝叶斯分类算法。3.朴素贝叶斯算法的Python实现。第六节模型评估与选择1.分类器性能的度量。2.模型选择。3.利用Python实现模型的评估与选择。第七节组合分类组合方法简介。袋装。提升和AdaBoost。随机森林。考核要点:了解分类的概念,理解评估分类器性能的度量方法,掌握决策树分类算法、SVM、贝叶斯分类算法、模型评估与选择、组合分类及利用Python实现分类的方法。第九章聚类教学要点:1.了解如何计算由各种属性和不同的类型来表示的对象之间的相异度。2.掌握K-Means聚类、层次聚类、基于密度的聚类和其他常用方法。3.掌握利用sklearn实现聚类的方法。教学时数: 10学时。教学内容:第一节聚类分析的概念1.理解什么是聚类分析。2.了解对聚类分析的要求。3.掌握基本的聚类方法。 第二节K-Means聚类掌握典型的划分方法:K-Means和K-Medoids。掌握利用sklearn实现K-means聚类。第三节层次方法1.理解凝聚的和分裂的层次聚类。2.掌握簇间的距离度量。3.分裂和凝聚的层次聚类算法。4.算法实现。第四节基于密度的方法1.算法原理。2.掌握DBSCAN算法。3.掌握算法的Python实现。第五节其他聚类算法1.了解STING算法。2.了解COBWEB算法。3.掌握模糊聚类算法。第六节聚类评估1.估计聚类趋势。2.学习确定簇数的方法。3.测定聚类质量。考核要点:了解聚类的概念,掌握k-Means和k-Medoids算法、层次方法和基于密度的方法等典型算法及其Python的实现方法。第十章神经网络与深度学习教学要点:1.了解理解神经网络与深度学习的原理。2.掌握感知机与BP神经网络的原理。3.了解深度学习基础。教学时数: 2学时。教学内容:第一节神经网络基础1.理解神经元模型。2.理解感知机与多层网络。 第二节BP神经网络理解多层前馈神经网络。理解后向传播算法。了解BP神经网络应用。第三节深度学习1.理解深度学习基本原理。2.了解常用的深度学习算法。考核要点:了解神经网络的概念,掌握感知机模型和BP神经网络、了解深度学习算法。第十一章离群点检测教学要点:1.了解离群点的概念与检测方法。2.掌握sklearn中的异常值检测方法。教学时数: 2学时。教学内容:第一节离群点概述1.理解离群点的概念和类型。2.理解离群点检测的挑战。 第二节离群点检测1.理解基于统计学的离群点检测方法。2.理解基于临近性的离群点检测方法。3.理解基于聚类的离群点检测方法。4.理解基于分类的离群点检测方法。第三节sklearn中的异常值检测方法1.了解利用Python进行异常值检测的方法。考核要点:了解离群点的概念、类型以及离群点检测的常用方法,掌握sklearn中的异常值检测方法。第十二章文本和时序数据挖掘教学要点:1.掌握文本数据挖掘的过程和基本方法。2.掌握时序数据挖掘主要方法。教学时数: 4学时。教学内容:第一节文本数据挖掘1.理解文本数据挖掘的任务。 第二节文本分析与挖掘的主要方法1.理解文本挖掘预处理的方法。2.理解文本表征、文本分类、聚类与文本可视化方法。第三节时序数据挖掘1.掌握时间序列平稳性与随机性判定方法。2.掌握时序数据的典型分析挖掘模型,主要包括自回归滑动平均模型、差分整合移动平均自回归模型和季节性差分自回归移动平均模型。考核要点:掌握文本挖掘的主要任务和基本方法,时序数据预测的主要模型。第十三章数据挖掘案例教学要点:1.掌握数据挖掘的分析与实现。2.掌握利用sklearn进行综合数据挖掘。教学时数: 4学时。教学内容:1.良/恶性乳腺肿瘤预测2.泰坦尼克号乘客生还预测3.图像的聚类分割考核要点:掌握利用Python进行数据挖掘与机器学习的实现过程。本课程使用教具和现代教育技术的指导性意见本课程教材力求内容新颖,应采用多样化的方式进行教学,让学生在理论与实践相结合的基础上,对课程所要求的实际操作能力有进一步的提高。充分利用多媒体等现代化教学手段,整体优化教学过程和教学内容,调动学生学习积极性;布置实际操作任务给学生上机操作并及时指导。实验部分基本要求实验是数据仓库与数据挖掘课程教学中不可分割的重要组成部分。实验课程设计的思想是帮助学生理解和掌握数据仓库和数据挖掘的基本概念、算法、技术和原理,熟练掌握利用Hive进行数据仓库设计,利用Python进行数据挖掘和机器学习的使用方法,通过适当的编程提高学生的编程能力以及实践动手能力,提高学生对课程的学习兴趣,加强创新精神与综合素质的培养。实践课程课时:18学时课程思政内容1.培养学生民族认同感,树立远大职业理想。梳理国产操作系统的发展历史与现状,包括华为、中兴等国产企业在全球市场的崛起,在操作系统领域的新架构,向学生展示中国的信息技术领域成就,增强使命感与荣誉感;通过华为孟晚舟事件、美国的芯片垄断—引出:民族认同感。党的十八届五中全会通过的“十三五”规划《建议》,明确提出实施网络强国战略以及与之密切相关的“互联网+”行动计划。国家正着力实现关键技术自主可控,为维护国家安全、网络安全提供技术保障。中国信息化需求巨大,但在一些关键技术领域如操作系统、芯片技术、CPU技术等方面,还难以做到自主可控,对国家安全造成威胁。引导学生明确:建设网络强国,不仅仅是靠网络技术,还要有软件技术等
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 公司腊八促销活动方案
- 公司物业送花活动方案
- 公司欢迎晚会策划方案
- 公司聚餐写活动方案
- 公司生日会小策划方案
- 公司淘宝推广活动方案
- 公司旅游营销策划方案
- 2025年在线教育平台运营考试试卷及答案
- 2025年智能制造及工程技术考试题及答案
- 2025年信贷风险管理师职业资格考试试题及答案
- GB/T 12149-2017工业循环冷却水和锅炉用水中硅的测定
- 断绝子女关系协议书模板(5篇)
- 成都小升初数学分班考试试卷五
- Q∕SY 01007-2016 油气田用压力容器监督检查技术规范
- 水利水电 流体力学 外文文献 外文翻译 英文文献 混凝土重力坝基础流体力学行为分析
- 零星维修工程项目施工方案
- 物流公司超载超限整改报告
- 起重机安装施工记录表
- 江苏省高中学生学籍卡
- 碳排放问题的研究--数学建模论文
- 赢越酒会讲解示范
评论
0/150
提交评论