《数据挖掘》课程简介课件_第1页
《数据挖掘》课程简介课件_第2页
《数据挖掘》课程简介课件_第3页
《数据挖掘》课程简介课件_第4页
《数据挖掘》课程简介课件_第5页
已阅读5页,还剩45页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

《数据挖掘》专业核心课程大纲

课程目标与课程考核教学方式:理论—模型与算法—案例掌握基本概念与算法原理,建立知识体系和架构

—主动学习能力掌握技术方法与实现工具,培养分析能力和技能

—实践操作能力考核方式:平时成绩(10%):考勤+课堂发言期中考试(40%):闭卷笔试期末考试(50%):小组作业、报告与演讲课程框架★一个场景:市场业务需求★一个基础:数据采集、存储与清洗★三类模型:挖掘模型,计量模型,机器学习模型★三个编程工具:MATLAB,R-Language+Python,C语言★一个应用案例:操作展示课程大纲序号教

容1导论:讲述本课程在课程体系中的重要性、本课程架构、教材资料,以及课程基本要求。数据挖掘基本概念、工具、方法与标准流程。2数据清洗:跨行业数据挖掘标准流程3数据清洗:降维、集成、转换与规约4处理缺失数据高级方法与案例展示。5聚类与异常值探测模型与案例展示。6决策树模型的理论模型与算法解析。7决策树模型金融公司客户贷款信用评估案例展示。8关联规则的理论模型解析与超市产品销售案例展示。9主成分分析的理论模型解析与证券市场产品归类案例展示。10因子分析的理论模型解析与证券市场产品归类案例展示。11期中闭卷考试12逻辑回归多元计量模型与商业银行产品交叉销售案例展示。13神经网络预测模型解析与促销活动客户响应案例展示。14社会网络聚类模型解析与基金组合最优配置案例展示。15结构化方程模型解析:探索性因子分析与验证性因子分析16结构化方程案例展示:证券市场内幕交易的行为动机分析17计算实验金融模型解析与算法交易行为与市场影响案例展示。18大作业汇报:根据所学数据挖掘模型与方法,针对给出的理论与现实问题,进行建模、编程、撰写Word版报告。教材及主要参考书1、赵刚,《大数据:技术与应用实践指南》,电子工业出版社,2013-10-12、涂子沛,《大数据:正在到来的数据革命》,广西师范大学出版社,2013-4-13、盛杨燕、周涛,《大数据时代》,浙江人民出版社,2013-1-14、姚志勇,《SAS编程与数据挖掘商业案例》,机械工业出版社,2010-5-15、黄文、王正林,《数据挖掘:R语言实战》,电子工业出版社,2014-6-16、谢中华,《MATLAB统计分析与应用:40个案例分析》,北京航空航天大学出版社,2010-6-17、张晓峒,《计量经济学基础(第三版)》,南开大学出版社,2007-9-1小组或实验研究要求(1/3)1、专题研究小组研究要求:专题研究以组为单位,原则上每组2-4人,分工合作;每个专题要提出核心问题以及附属问题;每组成员充分讨论,提出一套大家共识的方案;研究内容包括但不限于:现状、问题的界定、现有研究结论、小组观点;制作PPT报告,附上Word研究文稿。小组或实验研究要求(2/3)2、研究成果发表与评价发表时间严格控制20分钟;以单人说明、其他人补充为主;发表后其他各组提问,之后由讲师讲评,提问将有助于提高本组得分;评分标准:发表内容占70%,发表技巧占30%;研究成果发表分数占总成绩的30%,每组成员成绩相同。小组或实验研究要求(3/3)3、研究成果评审重点问题界定是否合理、有意义;对问题剖析是否全面;团队合作;PPT制作效果;报告时间控制;讲解技巧。数据挖掘基本概念9客观世界数据数据库数据挖掘知识1、从大量的数据中提取人们所感兴趣的、事先不知道的、隐含在数据中的有用的信息和知识的过程;2、并且把这些知识用概念、规则、规律和模式等方式展示给用户,从而解决信息时代的“数据过量,知识不足”的矛盾。

数据挖掘目标发生了什么?为什么会发生?将来还会发生吗?10通俗地说:11数据挖掘体系架构数据挖掘体系:各类数据库挖掘前处理模块挖掘操作模块模式评估模块知识输出模块数据清理集成抽取转换挖掘前处理模块挖掘结果评估模式评估模块系统外数据库数据挖掘处理挖掘操作模块知识输出知识输出模块数据库管理模块各类数据库数据仓库挖掘知识库模式用户数据挖掘系统的体系结构图CRISP-DM(Cross-IndustryStandardProcessforDataMining,跨行业数据挖掘标准流程)注重数据挖掘技术的应用。CRISP-DM过程模型从商业的角度给出对数据挖掘方法的理解。目前数据挖掘系统的研制和开发大都遵循CRISP-DM标准,将典型的挖掘和模型的部署紧密结合。12分析型数据库客户关系管理路径:CRISP-DM模型CRISP-DM模型挖掘流程包括:业务理解、数据理解、数据准备、建立模型、模型评价、模型实施。业务理解数据理解数据准备建立模型评价实施数据CRISP-DM数据挖掘流程13CRISP-DM模型流程1、业务理解(BusinessUnderstanding)最初的阶段集中在理解项目目标和从业务的角度理解需求,同时将这个知识转化为数据挖掘问题的定义和完成目标的初步计划。2、数据理解(DataUnderstanding)数据理解阶段从初始的数据收集开始,通过一些活动的处理,目的是熟悉数据,识别数据的质量问题,首次发现数据的内部属性,或是探测引起兴趣的子集去形成隐含信息的假设。3、数据准备(DataPreparation)数据准备阶段包括从未处理数据中构造最终数据集的所有活动。这些数据将是模型工具的输入值。这个阶段的任务有一个能执行多次,没有任何规定的顺序。任务包括表、记录和属性的选择,以及为模型工具转换和清洗数据。CRISP-DM模型流程4、建立模型(Modeling)选择和应用不同的模型技术,模型参数被调整到最佳的数值。一般,有些技术可以解决一类相同的数据挖掘问题。有些技术在数据形成上有特殊要求,因此需要经常跳回到数据准备阶段。5、数据评价(Evaluation)已经从数据分析的角度建立了高质量显示的模型。在开始最后部署模型之前,重要的事情是彻底地评估模型,检查构造模型的步骤,确保模型可以完成业务目标。这个阶段的关键目的是确定是否有重要业务问题没有被充分的考虑。在这个阶段结束后,一个数据挖掘结果使用的决定必须达成。6、实施(Deployment)通常,模型的创建不是项目的结束。模型的作用是从数据中找到知识,获得的知识需要便于用户使用的方式重新组织和展现。根据需求,这个阶段可以产生简单的报告,或是实现一个比较复杂的、可重复的数据挖掘过程。在很多案例中,这个阶段是由客户而不是数据分析人员承担实施的工作。CRISP-DM模型操作步骤15目标变量数据准备阶段模型开发阶段模型验证阶段模型上线阶段时间窗口预测变量衍生变量数据整合数据采样数据探索数据清洗变量压缩变量筛选模型开发LIFT图数据处理模型导入LIFT图模型验证模型比较模型确认模型上线数据处理模型打分模型监控模型评估建模流程16数据挖掘工具SAS公司的EnterpriseMinerSPSS公司的ClementineWaikato大学开发的Weka平台SQLSever的数据挖掘模块IBM公司的DBMinerStatsoft公司的StatisticaDataMiner

DBMiner公司的DBMinerNCR公司的TeradataWarehouseMinerDataMiner公司的RIK,EDMandDMSKInsightful公司的InsightfulMinerUnica公司的AffiniumModelOracle公司的Darwin

······17数据预处理为什么需要数据预处理数据清洗数据集成与转换数据归约数据离散化与概念层次的构建2023/7/1918为什么需要数据预处理?在现实社会中,存在着大量的“脏”数据不完整性(数据结构的设计人员、数据采集设备和数据录入人员)

缺少感兴趣的属性感兴趣的属性缺少部分属性值仅仅包含聚合数据,没有详细数据噪音数据(采集数据的设备、数据录入人员、数据传输)数据中包含错误的信息存在着部分偏离期望值的孤立点不一致性(数据结构的设计人员、数据录入人员)数据结构的不一致性Label的不一致性数据值的不一致性2023/7/1919数据挖掘的数据源可能是多个互相独立的数据源关系数据库多维数据库(DataCube)文件、文档数据库数据转换为了数据挖掘的方便海量数据的处理数据归约(在获得相同或者相似结果的前提下)为什么需要数据预处理?2023/7/1920没有高质量的数据,就没有高质量的挖掘结果高质量的决策必须基于高质量的数据基础上数据仓库是在高质量数据上的集成为什么需要数据预处理?2023/7/1921数据预处理的主要任务数据清理填入缺失数据平滑噪音数据确认和去除孤立点解决不一致性数据集成多个数据库、DataCube和文件系统的集成数据转换规范化、聚集等数据归约在可能获得相同或相似结果的前提下,对数据的容量进行有效的缩减数据离散化对于一个特定的连续属性,尤其是连续的数字属性,可以把属性值划分成若干区间,以区间值来代替实际数据值,以减少属性值的个数。2023/7/1922数据预处理的形式数据清理数据集成数据转换数据归约2023/7/1923数据清洗主要任务补充缺失数据识别孤立点,平滑噪音数据处理不一致的数据2023/7/1924BestPracticesforMissingDataManagementinCounselingPsychology,2010一个完整的处理方法通常包含以下几个步骤:

(1)识别缺失数据;

(2)检查导致数据缺失的原因;(3)删除包含缺失值的实例或用合理的数值代替(插补)缺失值。完全随机缺失--若某变量的缺失数据与其他任何观测或未观测变量都不相关随机缺失--若某变量上的缺失数据与其他观测变量相关,与它自己的未观测值不相关非随机缺失缺失数据2023/7/1925缺失数据的处理部分数据通常是不可用的在许多元组中部分属性值为空。如:在客户表中的客户收入为空。导致数据缺失的原因数据采集设备的故障由于与其它信息的数据存在不一致性,因此数据项被删除由于不理解或者不知道而未能输入在当时数据输入的时候,该数据项不重要而忽略数据传输过程中引入的错误缺失数据通常需要经过合理的推断予以添加2023/7/1926缺失数据的处理方法忽略该记录(元组)通常在进行分类、描述、聚类等挖掘,但是元组缺失类标识时该种方法通常不是最佳的,尤其是缺失数据比例比较大的时候手工填入空缺的值枯燥、费时,可操作性差,不推荐使用使用一个全局的常量填充空缺数值给定一个固定的属性值如:未知、不祥、Unknown、Null等简单,但是没有意义2023/7/1927使用属性的平均值填充空缺数值简单方便、挖掘结果容易产生不精确的结果使用与给定元组同一个类别的所有样本的平均值分类非常重要,尤其是分类指标的选择使用最有可能的值予以填充利用回归、基于推导的使用贝叶斯形式化的方法的工具或者判定树归纳确定利用属性之间的关系进行推断,保持了属性之间的联系缺失数据的处理方法(续)2023/7/1928多重插补(MI,MultipleImputation)是一种基于重复模拟的处理缺失值的方法。在面对复杂的缺失值问题时,MI是最常选用的方法,它将从一个包含缺失值的数据集中生成一组完整的数据集(通常是3到10个)。每个模拟数据集中,缺失数据将用蒙特卡洛方法来填补。此时,标准的统计方法便可应用到每个模拟的数据集上,通过组合输出结果给出估计的结果,以及引入缺失值时的置信区间。缺失数据的处理方法(续)2023/7/1929噪音数据噪音数据:一个度量(指标)变量中的随机错误或者偏差主要原因数据采集设备的错误数据录入问题数据传输问题部分技术的限制数据转换中的不一致数据清理中所需要处理的其它问题重复的记录不完整的数据不一致的数据2023/7/1930噪音数据的处理分箱(Binning)的方法聚类方法检测并消除异常点线性回归对不符合回归的数据进行平滑处理人机结合共同检测由计算机检测可疑的点,然后由用户确认2023/7/1931处理噪音数据:分箱方法分箱(Binning)方法:基本思想:通过考察相邻数据的值,来平滑存储数据的值基本步骤:首先,对数据进行排序,并分配到具有相同宽度/深度的不同的“箱子”中其次,通过箱子的平均值(Means)、中值(Median)、或者边界值等来进行平滑处理2023/7/1932分箱(Binning)方法举例对数据进行排序:4,8,9,15,21,21,24,25,26,28,29,34对数据进行分割(相同深度):-Bin1:4,8,9,15-Bin2:21,21,24,25-Bin3:26,28,29,34根据bin中的平均值进行离散化:-Bin1:9,9,9,9-Bin2:23,23,23,23-Bin3:29,29,29,292023/7/1933基于聚类分析的平滑处理2023/7/1934通过线性回归的平滑处理xyy=x+1X1Y1Y1’2023/7/1935数据集成数据集成的概念将多个数据源中的数据结合起来存放在一个一致的数据存储中数据源包括:多个数据库、多维数据库和一般的文件数据集成也是数据仓库建设中的一个重要问题数据集成的内容模式集成利用数据库和数据仓库的元数据信息主要工作是识别现实世界中的实体定义冗余数据的处理检测和解决数值冲突对于现实世界中的同一实体,来自于不同数据源的属性值可能不同主要原因:不同的数据表示、度量单位、编码方式以及语义的不同2023/7/1936模式集成数据类型冲突性别:string(Male、Female)、Char(M、F)、Interger(0、1)日期:Date、DateTime、String数据标签冲突:解决同名异义、异名同义学生成绩、分数度量单位冲突学生成绩百分制:100~0五分制:A、B、C、D、E字符表示:优、良、及格、不及格概念不清最近交易额:前一个小时、昨天、本周、本月?聚集冲突:根源在于表结构的设计

2023/7/1937冗余数据的处理从多个数据源中抽取不同的数据,容易导致数据的冗余不同的属性在不同的数据源中是不同的命名方式有些属性可以从其它属性中导出,例如:销售额=单价×销售量有些冗余可以通过相关分析检测到其中:n是元组的个数,和分别是A和B的平均值,和分别是A和B的标准差元组级的“重复”,也是数据冗余的一个重要方面减少冗余数据,可以大大提高数据挖掘的性能2023/7/1938数据转换平滑处理:从数据中消除噪音数据聚集操作:对数据进行综合,类似于DataCube的构建数据概化:构建概念层次数据规范化:将数据集中到一个较小的范围之中最大-最小规范化z-score(零-均值)规范化小数范围规范化(0–1规范化)属性构造构造新的属性并添加到属性集中,以帮助数据挖掘2023/7/1939数据转换:规范化最大-最小规范化对原始数据进行线性变换保持了原始数据值之间的关系当有新的输入,落在原数据区之外,该方法将面临“越界”错误受到孤立点的影响可能会比较大2023/7/1940数据转换:规范化(续)z-score(零-均值)规范化属性基于平均值和标准差规范化当属性的最大值和最小值未知,或者孤立点左右了最大-最小规范化时,该方法有效0-1规范化(小数定标规范化)通过移动属性的小数点位置进行规范化例如A的值为125,那么|A|=125,则j=3,有v=0.125。WherejisthesmallestintegersuchthatMax(||)<12023/7/1941属性构造由给定的属性构造并增添新的属性,以帮助提高精度和对高维数据结构的理解属性结构还可以帮助平缓使用判定算法分类的分裂问题例如:Area=Width×Height销售额=单价×销售量2023/7/1942数据归约的提出在数据仓库中可能保存TB级的数据,大数据量的数据挖掘,可能需要大量的时间来完成整个数据的数据挖掘。数据归约在可能获得相同或相似结果的前提下,对数据的容量进行有效的缩减数据归约的方法数据立方体聚集:聚集操作作用于立方体中的数据减少数据维度(维归约):可以检测并删除不相关、弱相关或者冗余的属性或维数据压缩:使用编码机制压缩数据集数值压缩:用替代的、较小的数据表示替换或估计数据2023/7/1943数值数据的离散化和概念分层建立的方法分箱(Binning)直方图分析聚类分析的方法根据自然分类进行分割2023/7/1944分箱方法:一种简单的离散化技术相同宽度(距离)数据分割将数据分成N等份,各个等份数据之间具有相同的距离如果A和B分别为属性值中的最大值和最小值,那么各个数据等份之间的距离为:W=(B-A)/N.异常点将会扮演很重要的角色倾斜的数据不能很好的解决相同深度(频率)数据分割将数据分成N等份,各个等份具有相同的数据个数。具有较好的可伸缩性适合于数据分类的情况2023/7/1945离散化:直方图方法将数据分割到若干个桶之中,用桶中的平均值(或求和等)来表示各个桶。可以通过编程,动态修改部分参数,进行合理构造。count51015202530123456789101-1011-2021-30510152025132515PricePricecount2023/7/1946离散化:聚类分析方法将数据按照“类内最大相似度,类间最小相似度的原则”对数据进行有效聚类利用聚类的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论