数据挖掘的基本概念_第1页
数据挖掘的基本概念_第2页
数据挖掘的基本概念_第3页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、1数据挖掘的基本概念随着数据库技术的不断发展及数据库管理系统的广泛应用,数据库中存储的数据量急剧增 大,在大量数据背后隐藏着许多重要的信息,如 果能把这些信息从数据库中抽取出来,将为公司 创造很多潜在的利润。这种从海量数据库中挖掘 信息的技术,就称之为数据挖掘技术。美国SA S 软件研究所将数据挖掘定义为:“按照既定的业 务目标,对大量的企业数据进行探索、揭示隐藏 其中的规律性并进一步模型化的先进、有效的方 法口 ”数据挖掘能够对将来的趋势和行为进行预 测,从而很好地支持人们的决策。比如,通过对 公司整个数据库系统的分析,数据挖掘可以回答 诸如“哪些客户最有可能购买我们公司的什么产 品,为什么

2、? ”等类似问题。数据挖掘还能够解 决一些很消耗人工时间的传统问题,因为它们能 够快速地浏览整个数据库,找出一些专家们不易 察觉的极有用的信息。数据挖掘的一般步骤如 下:问题理解和提出T数据准备T数据整理T建 立模型T评价和解释。(1)问题理解和提出:在开始数据挖掘之前 最基础的就是理解数据和实际的业务问题,在这 个基础之上提出问题,对目标有明确的定义。(2)数据准备:获取原始的数据,并从中抽取一 定数量的子集,建立数据挖掘库,其中一个问题 是,如果企业原来的数据仓库满足数据挖掘的要 求,就可以将数据仓库作为数据挖掘库。(3) 数据整理:由于数据可能是不完全的、有噪声的、随机的,有复杂的数据结

3、构,就要对数据进 行初步的整理,清洗不完全的数据,做初步的描 述分析,选择与数据挖掘有关的变量,或者转变 变量。(4)建立模型:根据数据挖掘的目标和 数据的特征,选择合适的模型。(5)评价和解 释:对数据挖掘的结果进行评价,选择最优的模 型,作出评价,运用于实际问题,并且要和专业 知识结合对结果进行解释。以上的步骤不是一次完成的,可能其中某些 或者全部要反复进行。2粗糙集的基本概念1982年,波兰学者Z.Pawlak提出了粗糙集理论,它是一种刻划不完整性和不确定性的数学工具,能有效地分析不精确、不一致(inconsistent)、不完整(incom plete)等各种不完备 的信息,还可以对数

4、据进行分析和推理,从中发现隐含的知识,揭示潜在的规律2。粗糙集 理论是建立在分类机制基础上的,它将分类理解为在特定空间 上的等价关系,而等价关系构成了对该空间的划 分。粗糙集理论将知识理解为对数据的划分,每 一被划分的集合称为概念。粗糙集理论的主要思 想是利用已知的知识库,将不精确或不确定的知 识用已知知识库中的知识来(近似)刻画。该理 论与其他处理不确定和不精确问题理论的最显著 的区别是它无需提供问题所需处理的数据集合之 外的任何先验信息,所以对问题的不确定性的描 述或处理可以说是比较客观的。定义1信息系统S可表示为S = (U ,A ,V ,f), 其中U是对象的非空有限集合,称为论域;A

5、 是属性的非空有限集合;V =UaeA V a,V a是属 性A的值域,f:UxA tV是一个信息函数,它 为每个对象的每个属性赋予一个信息值。如果属 性集A可以分为条件属性集C和决策属性集D, 即CUD = A,CCD=,则该信息系统称为决 策系统或决策表,其中D 一般只含有一个属性。定义2在知识表达系统S中,对于一属性集PeA,对象x,yeU,二元等价关系IN D (P)= (x,y) e U xU | 所有的ae P,f(x,a)= f(y,a)称 为S的不可分辨关系。不可分辨关系是一个等价 关系,通过一个不可分辨关系,可以得到一个决 策系统的划分。定义3给定信息系统S = (U ,A

6、),B eA,对B中的属性a,如果IN D (B )尹IN D (B - a) ,则称属性a是必要的(Indispensable),否则称a 是不必要的(D ispensable)。3粗糙集在数据挖掘中的应用近年来,粗糙集理论在数据挖掘中的应用取得了较大的进展,基于粗糙集理论的方法逐渐成 为数据挖掘主流方法之一。基于粗糙集理论的数 据挖掘系统一般都由数据预处理、基于粗糙集理 论或其扩展理论的数据约简、决策算法等组成。其大概思想是:首先通过粗糙集对信息表中的数 据缺损进行处理;然后根据已定义的可辩识距 阵,通过属性简约算法对信息表中的数据进行属 性简约和知识发现;最后根据值约简等减少属性 和个体

7、数目,最终提取规则并将之应用于新对象 的分类。(1)数据预处理在现实世界的很多情况下,我们拿到的第一手数据都会存在噪音数据、 空缺数据和不一致性数据等我们不希望出现的数 据,甚至因为数据库过于强大,这样的数据多达 数千兆字节。因此,不得不去想一个问题:“怎 样处理数据才能提高数据的质量,从而提高数据 挖掘结果的质量呢? ”现今已经存在的数据预处 理技术有很多,常用的有数据清理、数据集成、 数据归约等。其中数据清理可以去掉数据中的噪 音,纠正不一致。数据集成可以将数据由多个源 合并成一致的数据存储。数据归约可以通过聚 集、删除冗余特性或者聚类等方法来压缩数据3。 这些数据处理技术在数据挖掘之前使

8、用,可以大 大提高数据挖掘的模型,降低实际挖掘所需要的 时间。(2)属性约简和属性值约简在一个决策系 统中,各个条件属性之间往往存在着某些程度上 的依赖或关联,约简可以理解为在不丢失信息的 前提下,最简单地表示决策系统的结论属性对条 件属性集合的依赖和关联。属性简约算法如下: 步骤1:计算属性表的可辩识矩阵。步骤2:对可辨识矩阵中的所有取值为非空 集合的元素Cij建立相应的析取逻辑表达式。 步骤3:将所有析取逻辑表达式进行合取运 算,得到一个合取范式。步骤4:将合取范式转换为析取范式形式。步骤5:输出属性约简结果,其中析取范式中 的每个合取项对应一个属性约简的结果,每个合取 项中所包含的属性组

9、成约简后的条件属性集合。 值约简的目的是为了提取决策规则,将缺失 的属性值约简掉。和属性约简不同,值约简是针 对每一个对象而言的。虽然对整个决策表来说没 有冗余的属性,但对于每一个对象来说,仍然存 在着属性冗余,去掉这些属性对决策规则的提 取、规则的简化有重要的作用。根据定义一般值 约简算法基本描述如下:对于规则集合中的每条 规则,对于该规则中的任意条件属性,如果去掉 该属性,该规则不和集合中的其他规则冲突,则 可以从该规则中去掉该条件属性。(3)决策规则提取对进行属性约简和值约 简后的信息表,就可以进行规则的获取,使用一 个约简集R ED从决策系统S=(U ,A )中产生规则的 过程相当直接

10、。直观地,将每个约简用在决策表 的每个对象上,只要简单地从表中读出适当的属 性值来形成决策规则。用类似逻辑语言中a-B的形式表示决策规则,a和B分别称为决策 规则的前件和后件,a代表条件属性值的组合。4数据挖掘应用实例现在商场对销售数据和客户信息的处理一般还停留在简单的数据备份和查询阶段,而把基于 粗糙集的数据挖掘方法引入到对销售数据的分析 中,可以找到影响销售额的真实原因,有利于有 针对性地提高商场的销售业绩。经过数据收集和 结语粗糙集理论是一种处理不确定和不精确问题的新型数学工具,为数据挖掘提供了一条崭新的 途径。粗糙集理论在数据挖掘中的应用研究目前 正成为信息科学中的一个研究热点2.在数据挖掘中,直接在海量高维数据集上进行挖掘得到的规则往往数目众多、规则长度长, 用于决策分析的有效性低。基于这一发现,本文利用粗糙集理论,提出了一种粗糙集属性选 择量度,该量度从提高分类正确性和子数据库纯度的角度着手选择属性用于分类,进而利用 该量度提出了一种数据表分解方法。本文详细分析了数据库分解方法的信息论性质,证明利 用粗糙集信息量度选择出的属性集是原始决策系统的一个约简,且该分解方法的计算时间复 杂度远小于经典粗糙集约简算法的计算时间复杂度,在提高计算速度的同时不会损失信息 量。3.针对海量高维数掘库建立分类模型是很困难的,计算时间复杂度高,得到的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论