数据挖掘之基本流程课件_第1页
数据挖掘之基本流程课件_第2页
数据挖掘之基本流程课件_第3页
数据挖掘之基本流程课件_第4页
数据挖掘之基本流程课件_第5页
已阅读5页,还剩32页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据挖掘之基本流程1.什么是数据挖掘?2.数据挖掘的基本方法?1内容回顾数据挖掘(英语:Datamining),又译为资料探勘、数据采矿。它是数据库知识发现(英语:Knowledge-DiscoveryinDatabases,简称:KDD)中的一个步骤。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。(a)根据性别划分公司的顾客。(b)根据可赢利性划分公司的顾客。(c)预测投一对骰子的结果。(d)使用历史记录预测某公司未来的股票价格。2下列每项活动是否是数据挖掘任务?简单陈述你的理由?理解什么是KDD(知识发现)与KDD的基本流程;了解CRISPDM的含义与基本流程;了解数据挖掘的基本流程;理解并掌握使用SPSSModeler进行数据挖掘的基本方法;3内容要点4KDD(KnowledgeDiscoveryinDatabase)-知识发现知识发现知识发现是从数据集中识别出有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程。1.什么是知识?2.知识发现的概念描述!概念规律模式规则约束5知识发现过程数据集变换后数据预处理数据目标数据选取抽样变换预处理知识数据挖掘解释评价抽取的信息可视化知识发现过程示意图数据准备数据挖掘结果表达与解释选择算法主要考虑两个因素:一是尽量选取与数据特征相关的算法二是用户或实际运行系统的要求。数据挖掘质量的好坏有两个影响要素:一是所采用的数据挖掘技术的有效性;二是用于采掘的数据的质量和数量6知识发现的任务

知识发现的任务数据总结概念描述分类与预测聚类分析关联分析异常分析建模7一、数据总结数据总结的目的:对数据进行浓缩,给出它的紧凑描述数据总结的方法:传统的也是最简单的方法是对数据库的各个字段求和值、平均值、方差值等统计值,或者用直方图、饼状图等图形方式表示8二、概念描述一个对含有大量数据的数据集合进行概述性的总结并获得简明、准确的描述,这种描述就称为概念描述(conceptdescription)。例子:一个数据挖掘系统需要从我校职工数据库中,挖掘出我校讲师情况的概要总结,并给出(我校)讲师概念描述。提取信息总结算法概要总结概念描述62%(age<30)and(age>24)9三、分类与预测分类:就是找出一组能够描述数据集合典型特征的模型(或函数),以便能够分类识别未知数据的归属或类别(class),即将未知事例映射到某种离散类别之一。

分类通常用于预测未知数据实例的归属类别(有限离散值),如一个银行客户的信用等级是属于A级、B级还是C级。10四、聚类分析聚类分析(clusteringanalysis)中,首先需要根据“各聚集(clusters)内部数据对象间的相似度最大化;而各聚集(clusters)对象间相似度最小化”的基本聚类分析原则,以及度量数据对象之间相似度的计算公式,将聚类分析的数据对象划分为若干组(groups)。因此一个组中数据对象间的相似度要比不同组数据对象间的相似度要大。每一个聚类分析所获得的组就可以视为是一个同类别归属的数据对象集合,更进一步从这些同类别数据集,又可以通过分类学习11五、关联分析关联分析(associationanalysis):从给定的数据集发现频繁出现的项集模式知识(又称为关联规则,associationrules)。关联分析广泛应用于市场营销,事务分析等应用领域。

对于一个商场经理,或许更想知道哪些商品是常在一起购买,描述这样的情况的一条关联规则说明如下:12六、异类分析异类(outlier):那些不符合大多数数据对象所构成的规律(模型)的数据对象就被称为异类。示例:异类分析可以用于从大量商品购买记录中,依据各帐户平常所发生的购买行为,发现正在进行信用卡诈骗的购买行为(异类行为)。13七、演化分析数据演化分析(evolutionanalysis):对随时间变化的数据对象的变化规律和趋势进行建模描述。示例:利用演化分析方法可对股市主要股票交易数据(时序数据,time-seriesdata)进行分析,以便获得整个股票市场的股票演化规律,以及一个特定股票的变化规律请回忆知识发现的过程包括哪些?14实践一15KDD过程可以概括为三部分:数据准备(DataPreparation)数据挖掘(DataMining)结果的解释和评估(Interpretation&Evaluation)。数据目标数据预处理数据转换数据模式知识选择预处理转换数据挖掘模式评价模式评价数据挖掘数据准备

KDD过程图数据选取(DataSelection):数据选取的目的是:确定发现任务的操作对象,即目标数据(TargetData),是根据用户的需要从原始数据库中抽取的一组数据数据预处理(DataPreprocessing):一般包括:消除噪声、推导计算缺值数据、消除重复记录、完成数据类型转换等。如把连续值型数据转换为离散型数据,以便于符号归纳;或是把离散型数据转换为连续值型数据,以便于神经网络计算。161.第一阶段数据准备(又可分为3个子步骤)数据变换(DataTransformation):主要目的是:削减数据维数或降维即从初始特征中找出真正有用的特征以减少数据挖掘时要考虑的特征或变量个数。171.第一阶段数据准备(又可分为3个子步骤)

首先要确定挖掘的任务或目的,如分类、聚类或关联规则等。

确定任务后,就要决定使用的挖掘算法;选择实现算法有两个考虑因素:

一是不同的数据有不同的特点;

二是用户或实际运行系统的要求。

有的用户可能希望获取描述型的、容易理解的知识;而有的只是希望获取预测准确度尽可能高的预测型知识。选择了挖掘算法后,就可以实施数据挖掘操作,获取有用的模式。182.第二阶段数据挖掘数据挖掘阶段发现出来的模式,经评估:可能存在冗余或无关的模式,需将其剔除;也可能有不满足用户要求模式,则需要退回到发现过程前面的阶段,如重新选取数据、采用新的数据变换方法、设定新的参数值,甚至换一种挖掘算法等等。另外,KDD由于最终是面向人类用户的,因此可能要对发现的模式进行可视化,或者把结果转换为用户易懂方式,如把分类决策树转换为“if…then…”规则。193.第三阶段结果的解释和评估数据挖掘仅仅是整个过程中的一个步骤。数据挖掘质量的好坏有两个影响要素:一是所采用的数据挖掘技术的有效性;二是用于挖掘的数据的质量和数量(数据量的大小)。如果选择了错误的数据或不适当的属性,或对数据进行了不适当的转换则挖掘的结果不会成功。整个挖掘过程是一个不断反馈的过程。比如,用户在挖掘途中发现选择的数据不太满意,或使用的技术产生不了期望的结果。这时,用户需要重复先前的过程,甚至从头重新开始。20数据挖掘仅仅是整个过程中的一个步骤。

21数据挖掘的常见过程模型

CRISP-DMSEMMA5A22SEMMA1Sample——数据取样2Explore——数据特征探索、分析和予处理3Modify——问题明确化、数据调整和技术选择4Model——模型的研发、知识的发现5Assess——模型和知识的综合解释和评价235A

评价需求Assess存取数据Access

完备分析Analyze模型演示Act结果展现Automate跨行业数据挖掘标准过程(CRISP-DM)定位是面向行业、工具导向、面向应用适用于大型工业和商业实践的一般标准24CRISPDM25CRISP-DM

1:businessunderstanding:即商业理解.在第一个阶段我们必须从商业的角度上面了解项目的要求和最终目的是什么.并将这些目的与数据挖掘的定义以及结果结合起来.2.dataunderstanding:数据的理解以及收集,对可用的数据进行评估.3:datapreparation:数据的准备,对可用的原始数据进行一系列的组织以及清洗,使之达到建模需求.4:modeling:即应用数据挖掘工具建立模型.5:evaluation:对建立的模型进行评估,重点具体考虑得出的结果是否符合第一步的商业目的.6:deployment:部署,即将其发现的结果以及过程组织成为可读文本形式26CRISP-DM——商业理解商业理解数据理解数据准备建立模型模型评估结果发布确定商业目标形势评估确定数据挖掘目标制定项目计划背景商业目标成功标准拥有资源需求、假定和限制风险和偶然性专业术语成本和收益数据挖掘目标数据挖掘成功标准项目计划工具和方法评估27CRISP-DM——数据理解商业理解

数据理解数据准备建立模型模型评估结果发布收集原始数据数据描述数据探索性分析数据质量描述数据收集报告数据描述报告探索性数据分析报告数据质量报告28CRISP-DM——数据准备商业理解数据理解数据准备建立模型模型评估结果发布选择数据确定分析包含/剔除数据数据集数据集描述数据清理数据清理报告数据重构生成新的变量(字段)生成新的记录整合数据合并相关数据格式化数据改变数据格式,适应分析29CRISP-DM——建立模型商业理解数据理解数据准备建立模型模型评估结果发布选择建模技术产生检验设计建立模型评价模型模型技术模型假设检验设计参数设定建模模型评价参数设定的修订模型描述30CRISP-DM——模型评估商业理解数据理解数据准备建立模型模型评估结果发布结果评估数据挖掘过程回顾确定下一步的工作评估数据挖掘结果被认可的模型数据挖掘过程的回顾列出可能的行动决策31CRISP-DM——结果发布商业理解数据理解数据准备建立模型模型评估结果发布发布结果计划监测和维护模型计划生成最终数据挖掘报告项目回顾结果发布计划监测和维护模型计划最终数据挖掘报告数据挖掘报告展现项目检验总结32SPSSModeler用户界面数据流区域工具栏菜单栏选项板区节点数据流,输出和模型管理器项目窗口参考书中33页习题指导从DRUG.txt文件的数据为以往有大批患有同种疾病的不同病人,服用五种药物中的一种(drugA,

drugB,drugC,drugX,drugY)之后取得了同样的治疗效果。案例数据是随机选择挑选的部分病人服用药物前的基本临床检查数据,包括:血压(BP,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论