第八章数据挖掘.ppt_第1页
第八章数据挖掘.ppt_第2页
第八章数据挖掘.ppt_第3页
第八章数据挖掘.ppt_第4页
第八章数据挖掘.ppt_第5页
已阅读5页,还剩40页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第八章 数据挖掘,8.1 数据挖掘概论,数据挖掘的起源 数据挖掘的定义 数据挖掘的应用 数据挖掘的过程 数据挖掘的对象 数据挖掘的任务 数据挖掘的常用技术 数据挖掘的发展趋势,数据挖掘的起源 数据采集和和存储技术的进步导致庞大的数据库日益增多,几乎包括各个领域,如(超市业务数据,信用卡使用记录,电话清单,政府统计数据(如人口普查),以及科学研究领域,如天体图像,分子数据库,医疗记录等),那么能否从这些数据中提取有价值的信息呢?,数据挖掘的意义,数据挖掘能为决策者提供重要的,极有价值的信息或知识,越来越多的大中型企业开始利用数据挖掘来分析公司的数据来辅助决策从而提高竞争力.,什么是数据挖掘,定义

2、: 数据挖掘是从大量的数据中提取隐含在其中的,人们事先不知道的,但又是潜在的有用信息和知识的过程 。 数据挖掘是一门跨学科的技术,统计学,数据库技术,机器学习,模式识别,人工智能,可视化技术,在数据挖掘中起着作用.,数据挖掘和数据仓库,1).科学研究 由于先进的科学仪器和观测仪器的使用,在科学和工程中产生了大量的数据,这为数据挖掘在科学研究中的应用创造了条件. 在天文学上的应用 在生物学上的应用 在化学工程上的应用,数据挖掘的应用,2) 商业应用 商业应用是数据挖掘最主要的应用领域.包括一下几方面: 市场营销 市场营销主要是通过数据分割和模型预测的方法来选择潜在的顾客,以便向他们推销产品,而不

3、是盲目的选择顾客来推销,从而增加产品推销的成功率., 数据挖掘在金融保险业上的应用 典型的金融分析领域有投资评估,股票交易市场预测,信贷审核等,风险评估,收益分析,欺诈鉴别等. 零售业上的应用 主要是通过分析商品销售的历史记录,以识别顾客的购物模式和倾向,提高服务质量,和商品销售量,设计更有效的商品布置方式,以及在总体上减少成本提高利润., 数据挖掘在电信业上的应用 随着电信业市场的逐步开放,市场竞争将会日趋激烈,这就使理解顾客的消费模式,保留顾客,建模销售新产品的有效途径成为必须,这样就为数据挖掘创造了极大的需求.如数据挖掘可以回答电信业提出的下列问题: 如何保留顾客,并保持他的忠实度? 那

4、种顾客可能发生波动? 什么时候可以接受高风险投资,如新建一条光缆线路? 怎样预测会买附加的业务?, 医疗保健业上的应用 在卫生保健业上数据挖掘业得到了广泛的应用,以电子格式储存病人的记录,以及医学信息系统的发展产生了大量可以在线利用的临床数据,用数据挖掘的方法从这些数据中提取出来的规律和信息可以辅助医生做出决策.,3) Web挖掘和信息检索 数据挖掘在网络上的应用有以下三种:在搜索引擎上对文档进行自动分类,帮助用户寻找感兴趣的新闻或网页,检索和定位文档. 如google系统使用了被称为pagerank的数学方法来基于链接模式估计各个网页的相对重要性. IBM的研究人员开发了一个称为QBIC(Q

5、uery by Image Content)的系统,这个系统允许用户使用交互的方式搜索庞大的图像数据库,支持以象颜色,纹理和相对位置信息这样的内容描述提出查询.,(1) 数据准备 数据选取 目的是确定发现任务的操作对象,即目标数据,它是根据用户的需要从原始数据中抽取的一组数据. 数据预处理 数据预处理主要包括消除噪声,去除异常点.推导计算缺失值,消除重复记录,完成数据类型转换等. 数据变换 主要目的是消减数据维数,即从初始特征中找出真正有用的特征,以减少数据挖掘时的系统开销。,数据挖掘的过程,(2) 数据挖掘阶段 首先要明确挖掘的任务和目的,如数据总结,分类,聚类,关联规则发现,或序列模式发现

6、等,确定任务后就要决定采用什么样的算法. 选择实现算法要考虑以下因素: 不同的数据有不同的特点,需要用与之相关的算法来进行挖掘. 不同的用户获取知识的目的不同,有的用户希望获取描述型的,容易理解的知识,而有的用户希望获得预测准确度尽量高的预测知识.,(3) 结果解释和评估 数据挖掘阶段挖掘出来的模式,经过用户或机器的评价,可能不满足用户要求,这时需要整个知识发现过程退回到挖掘阶段之前,如重新选取数据,采用新的数据变换方法,设定新的数据挖掘参数值,甚至更换一种算法(如分类有多种方法,每种方法效果都不一样.) 另外,如果KDD是面向用户的,可能要对发现的模式进行可视化,或转换为用户易懂的形式.,数

7、据挖掘:*知识发现过程的核心 *一个KDD 过程,数据挖掘的过程,(1)数据库 当前研究比较多的是关系数据库的知识发现,其主要的研究课题有下列情况下的数据挖掘: 超大数据量 动态数据 噪声数据,数据不完整,数据挖掘的对象,(2) 文本和Web信息 它是面向internet的分布式信息资源特点的一种模式抽取过程,从文本中提取关键信息,根据主题组织文本.从文本集中找到一个模式描述该集合,使用强有力的查询来检索文本. 可以通过挖掘用户访问站点的记录信息来改善站点的设计,帮助用户更快速的浏览该站点.,(3)图像和视频数据 所谓面向图像和视频的数据挖掘是指从大量的图像和视频数据中发掘出有用的信息. 图像

8、和视频数据挖掘一个十分关键的问题就是图像和视频本身的表示问题,这也是图像处理和模式识别的关键问题.我们可以用纹理,颜色,形状等来表示图像和视频的基本特征.那么底层的基本特征与高级概念之间必然存在某种映射关系,可以用数据挖掘的方法来实现.,数据挖掘的任务,数据挖掘的任务主要是: 关联分析、聚类分析、分类、预测、时序模式和偏差分析等。,关联分析(association analysis)两个或两个以上变量的取值之间存在某种规律性,就称为关联。 关联分为简单关联、时序关联和因果关联。关联分析的目的是找出数据库中隐藏的关联网。 一般用支持度和可信度两个阀值来度量关联规则的相关性,还不断引入兴趣度、相关

9、性等参数,使得所挖掘的规则更符合需求。,数据挖掘的任务,聚类分析(clustering) 聚类是把数据按照相似性归纳成若干类别,同一类中的数据彼此相似,不同类中的数据相异。,数据挖掘的任务,分类(classification)分类就是找出一个类别的概念描述,它代表了这类数据的整体信息,即该类的内涵描述,并用这种描述来构造模型,一般用规则或决策树模式表示。,数据挖掘的任务,预测(predication)预测是利用历史数据找出变化规律,建立模型,并由此模型对未来数据的种类及特征进行预测。,数据挖掘的任务,时序模式(time-series pattern)时序模式是指通过时间序列搜索出的重复发生概率

10、较高的模式。,数据挖掘的任务,偏差分析(deviation)在偏差中包括很多有用的知识,数据库中的数据存在很多异常情况,发现数据库中数据存在的异常情况是非常重要的。偏差检验的基本方法就是寻找观察结果与参照之间的差别。,数据挖掘的任务,数据挖掘常用技术,数据挖掘系统利用的技术越多,得出的结果精确性就越高。原因很简单,对于某一种技术不适应的问题,其它方法却可奏效。这主要取决于问题的类型以及数据的类型和规模。主要的数据挖掘技术有:,(1) 关联规则挖掘 关联规则是应用最为广泛的一种数据挖掘方法,主要目的是为了发现数据中的相关联系,主要应用在零售业方面,通过发现顾客购买的商品之间的联系,分析顾客的购买

11、习惯,这种关联发现可以帮助零售商制定营销策略.,例、超级商场中购买面包和黄油 该关联规则的可信度就回答这样一个问题:如果一个顾客购买了面包,那么也购买黄油的可能性有多大? 如购买面包的顾客中有70%的人购买了黄油,则可信度为,如果某天共有1000个顾客到商场购买物品,其中有100个顾客同时购买了面包和黄油,则关联规则的支持度为,关联规则研究有以下三种趋势 : 从单一概念层次的关联规则的发现到多概念层次的关联规则发现. 提高算法效率:1.减少扫描数据库次数,2.利用采样技术,对要挖掘的数据集进行选择,3是采用并行数据挖掘. 进一步处理所获得的关联规则,模糊关联规则的获取和发现等.,(2)分类与预

12、测 分类可以用于预测,分类可以从历史数据记录中自动推导出对给定数据的推广描述,从而能对未来数据进行预测。 基于决策树的分类是以实例为基础的归纳学习算法,它从一组无次序,无规则的事例推理中以决策树表示形式的分类规则,决策树的基本算法是以自顶向下递归的方式来构造决策树的。,2020/8/12,Data Mining Tool - Decision Tree, Jiahuang Ji, Ph.D. All Rights Reserved,36,构建决策树,谁在买计算机?,他/她会买计算机吗?,(3)基于神经网络的挖掘 神经网络方法是在模拟生物神经系统的结构和功能而建立起来的,目前,已经出现了多种网络

13、模型和学习算法,主要用于分类,优化,模式识别,预测和控制等领域。 在数据挖掘领域,主要采用前向神经网络提取分类规则。基于神经网络的数据分类通常具有较小的分类误差和对噪声数据有较强的鲁棒性。但是神经网络的学习过程和训练结果难以理解。,神经网络模型,过去神经网络被认为不适合于做数据挖掘,因为神经网络的不利之处在于无法获取显式的规则。 近年来许多学者的研究有了很大的突破,提出了用神经网络做提取规则和聚类的方法, 除此以外,神经网络还可以做分类与回归,时间序列预测。,(4) 遗传算法 遗传算法是一种优化技术,在遗传算法的实施过程中,首先对要求解的问题进行编码,产生初始群体,计算个体的适应度,再进行染色体的复制,交叉,变异等操作,重复这个过程,直到找到最佳或较佳个体为止。在数据挖掘中,往往把数据挖掘任务表达为一种搜索问题,使用遗传算法的强大搜索能力找到最优解。,(5) 可视化挖掘技术 可视化技术就是为人们参与知识挖掘的过程提供方便,采用一些较直观的方法帮助理解数据库中的数据和挖掘后产生的规则。 可视化挖掘技术包括: 数据可视化 数据挖掘过程的可视化 数据挖掘结果的可视化,当前数据挖掘的研究主要集中于发现算法和可视化技术,实际上,我们逐渐认识到:在知识挖掘过程中所发现的大部分模式是多余的、用户不感兴趣的模式,为了避免用户被大量的多余模式所淹没,在数据挖掘过程中需要识别有用和无用的模式。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论