《数据挖掘简介》word版.doc_第1页
《数据挖掘简介》word版.doc_第2页
《数据挖掘简介》word版.doc_第3页
《数据挖掘简介》word版.doc_第4页
《数据挖掘简介》word版.doc_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据挖掘简介数据挖掘简介2010-04-28 20:47数据挖掘数据挖掘(Data Mining)是采用数学、统计、人工智能和神经网络等领域的科学方法,从大量数据中挖掘出隐含的、先前未知的、对决策有潜在价值的关系、模式和趋势,并用这些知识和规则建立用于决策支持的模型,为商业智能系统服务的各业务领域提供预测性决策支持的方法、工具和过程。数据挖掘前身是知识发现(KDD),属于机器学习的范畴,所用技术和工具主要有统计分析(或数据分析)和知识发现。知识发现与数据挖掘是人工智能、机器学习与数据库技术相结合的产物,是从数据中发现有用知识的整个过程。机器学习(Machine Learning)是用计算机模拟人类学习的一门科学,由于在专家系统开发中存在知识获取的瓶颈现象,所以采用机器学习来完成知识的自动获取。数据挖掘是KDD过程中的一个特定步骤,它用专门算法从数据中抽取模式(Patterns)。1996年,Fayyad、Piatetsky-Shapiror和Smyth将KDD过程定义为:从数据中鉴别出有效模式的非平凡过程,该模式是新的、可能有用的和最终可理解的;KDD是从大量数据中提取出可信的、新颖的、有效的,并能被人理解的模式的处理过程,这种处理过程是一种高级的处理过程。数据挖掘则是按照既定的业务目标,对大量的企业数据进行探索,揭示隐藏其中的规律性,并进一步将其设计为先进的模型和有效的操作。在日常的数据库操作中,经常使用的是从数据库中抽取数据以生成一定格式的报表。KDD与数据库报表工具的区别是:数据库报表制作工具是将数据库中的某些数据抽取出来,经过一些数学运算,最终以特定的格式呈现给用户;而KDD则是对数据背后隐藏的特征和趋势进行分析,最终给出关于数据的总体特征和发展趋势。报表工具能制作出形如上学期考试未通过及成绩优秀的学生的有关情况的表格;但它不能回答考试未通过及成绩优秀的学生在某些方面有些什么不同的特征的问题,而KDD就可以回答。具体来说,数据挖掘针对商业智能系统的大量的数据,运用记忆推理、聚类分析、关联分析、决策树、神经网络、基因算法等技术,对商业智能系统数据进行描述,以发现数据中隐藏的模式,并通过这些模式建立面向主题的预测模型,再用这些模型来为商业智能系统运营的各个领域提供决策支持。1.数据挖掘和知识发现系统的一般结构和过程数据挖掘和知识发现系统用于发现预先不具有的知识(即那些算法中没隐含的知识,或者在其应用知识领域中没显式表示的知识)。知识是一种描述规律的信息,表现为数据元素间的关系或模式,这些数据与特定的领域和任务相关,并且是令人感兴趣的和有用的。系统的逻辑结构图如图16-18所示。图16-18数据挖掘系统逻辑结构图l 1)知识发现系统管理器主要功能是控制并管理知识发现的过程,分析员录入知识库中的信息用于驱动数据选择过程、抽取算法选择及使用过程和发现评价过程。l 2)知识库和分析员录入知识库包含源多方面必需的信息。分析员可以将元数据输入数据仓库中来描述数据仓库的数据结构,输入关键数据字段、规则、数据层次等。l 3)数据仓库的数据访问接口知识发现系统利用数据库的查询机制从数据仓库中提取数据,可使用SQL查询语言,结合知识库中的数据仓库元数据指导从数据仓库中提取需要的数据。l 4)数据选择确定从数据仓库需要抽取的数据及数据结构。知识库指导选取要抽取的数据及抽取方式。l 5)知识发现引擎将知识库中的抽取算法提供给数据抽取的数据,目的是要抽取数据元素间的模式和关系。抽取算法如:数据依赖、分类规则、聚簇、概括数据、偏差检查、归纳和模糊推理等。l 6)发现评价分析员要寻找关注性的数据模式,数据仓库潜在地具有宿主模式,选出那些关注性信息。l 7)发现描述提供两种功能,一种是以发现评价辅助分析员在知识库中保存所发现的关注性结果以备将来引用和使用,另一种是保持发现与决策者的通信。l 8)KDD的一般过程l学习某个应用领域:包括应用中的预先知识和目标。l建立一个目标数据集:选择一个数据集或在多数据集的子集上聚焦。l数据清理和预处理:去除噪声或无关数据、考虑时间顺序和数据变化等。l数据换算和投影:找到数据的特征表示、用维变换或转换方法减少有效变量的数目或找到数据的不变式。l选定数据挖掘功能:决定数据挖掘的目的。l选定某个数据挖掘算法:用KDD过程中的准则,选择某个特定数据挖掘算法(如汇总、分类、回归、聚类等),用于搜索数据中的模式,该算法可以是近似的。l数据挖掘:搜索或产生一个特定的感兴趣的模式或数据集。l解释:解释某个发现的模式,去掉多余的不切题意的模式,转换成某个有用的模式,以使用户明白。l发现知识:把这些知识结合到运行系统中,获得这些知识的作用或证明这些知识,用预先、可信的知识检查和解决知识中可能的矛盾。2.数据挖掘的方法和技术知识发现中的关键技术是进行模式和关系识别的算法。下面介绍几种数据挖掘和知识发现的方法和技术,它们分别从不同的角度进行数据挖掘和知识发现。l 1)决策树方法利用信息论中的互信息(信息增益)寻找数据库中具有最大信息量的字段,建立决策树的一个节点,再根据字段的不同取值建立树的分支;在每个分支子集中重复建树的下层节点和分支的过程,即可建立决策树。国际上最有影响和最早的决策树方法是Quiulan研制的ID3方法,它对越大的数据库效果越好。在ID3方法的基础上,又演化为能处理连续属性的C4.5。有名的决策树方法还有CART和Assistant。决策树构造的输入是一组带有类别标记的例子,构造的结果是一棵二叉或多叉树。二叉树的内部节点(非叶子节点)一般表示为一个逻辑判断,如形式为(ai=vi)的逻辑判断。其中ai是属性,vi是该属性的某个属性值;树的边是逻辑判断的分支结果。多叉树(ID3)的内部节点是属性,边是该属性的所有取值,有几个属性值,就有几条边。树的叶子节点都是类别标记。构造决策树的方法是采用自上而下的递归构造。以多叉树为例,它的构造思路是,如果训练例子集合中的所有例子是同类的,则将其作为叶子节点,节点内容即是该类别标记。否则,根据某种策略选择一个属性,按照属性的各个取值,把例子集合划分为若干子集合,使得每个子集上的所有例子在该属性上具有同样的属性值。然后再依次递归处理各个子集。这种思路实际上就是分而治之(Divide-and-Conquer)的道理。二叉树同理,差别仅在于要选择一个好的逻辑判断。l 2)分类方法分类在数据挖掘中是一项非常重要的任务。该算法将数据按含义划分成组,可用此算法生成感兴趣的侧面,可用于自动发现类,如模式识别、侧面生成、线性聚簇和概念聚簇等。分类的目的是学会一个分类函数或分类模型(也称做分类器),该模型能把数据库中的数据项映射到给定类别中的某一个。分类和回归都可用于预测。预测的目的是,从利用历史数据记录中自动推导出对给定数据的推广描述,从而能对未来数据进行预测。与回归方法不同的是,分类的输出是离散的类别值,而回归的输出则是连续数值,如图16-19所示为分类方法示例。图16-19分类方法示例要构造分类器,需要有一个训练样本数据集作为输入。训练集由一组数据库记录或元组构成,每个元组是一个由有关字段(又称属性或特征)值组成的特征向量,除了这些外,训练样本还有一个类别标记。一个具体样本的形式可为:(v1,v2,.,vn;c);其中vi表示字段值,c表示类别。分类器的构造方法有统计方法、机器学习方法、神经网络方法等。统计方法包括贝叶斯法和非参数法(近邻学习或基于事例的学习:Instance-based learning,IBL),对应的知识表示则为判别函数和原型事例。机器学习方法包括决策树法和规则归纳法,前者对应地表示为决策树或判别树,后者则有两种:决策表(Decision List)和(平行)产生式规则。神经网络方法主要是BP算法,它的模型表示是前向反馈神经网络模型(由代表神经元的节点和代表连接权值的边组成的一种体系结构),BP算法本质上是一种非线性判别函数。l 3)粗糙集方法粗糙集(Rough Set)的研究主要基于分类。分类和概念(concept)同义,一种类别对应于一个概念(类别一般表示为外延即集合,而概念常以内涵的形式表示,如规则描述)。知识由概念组成,如果某知识中含有不精确概念,则该知识不精确。粗糙集对不精确概念的描述方法是:通过上近似概念和下近似概念这两个精确概念来表示。一个概念(或集合)的下近似(Lower Approximation)概念(或集合)指的是,其下近似中的元素肯定属于该概念;一个概念(或集合)的上近似(upper approximation)概念(或集合)指的是,其上近似中的元素可能属于该概念。在数据库中,将行元素看成对象,列元素看成属性(分为条件属性和决策属性)。等价关系R定义为不同对象在某个(或几个)属性上取值相同,这些满足等价关系的对象组成的集合称为该等价关系R的等价类。条件属性上的等价类E与决策属性上的等价类Y之间有3种情况:(1)下近似:Y包含E;(2)上近似:Y和E的交非空;(3)无关:Y和E的交为空。对下近似建立确定性规则,对上近似建立不确定性规则(含可信度),对无关情况不存在规则。粗糙集方法为KDD提供了一种新的方法和工具。第一,KDD研究的实施对象多为关系型数据库。关系表可被看做为粗糙集理论中的决策表,这给粗糙集方法的应用带来极大的方便。第二,现实世界中的规则有确定性的,也有不确定性的,从数据库中发现不确定性的知识,为粗糙集方法提供了用武之地。第三,从数据中发现异常,排除知识发现过程中的噪声干扰也是粗糙集方法的特长。第四,运用粗糙集方法得到的知识发现算法有利于并行执行,这可极大地提高发现效率。对于大规模数据库中的知识发现来说,这正是求之不得的。第五,KDD中采用的其他技术,如神经网络的方法,不能自动地选择合适的属性集,而利用粗糙集方法进行预处理,去掉多余属性,可提高发现效率,降低错误率。第六,粗糙集方法比模糊集方法或神经网络方法在得到的决策规则和推理过程方面更易于被证实和检测。l 4)神经网络方法神经网络通过学习待分析数据中的模式来构造模型,它可对隐式类型进行分析,适用于模型化非线性的、复杂的或高噪声的数据。它模拟人脑神经元结构,由神经元互联,或按层组织的节点构成。通常,神经模型由3个层次组成:输入层、中间层和输出层。每个神经元求得输入值,再计算总输入值,由过滤机制(如阀值)比较总输入,然后确定它自己的输出值。可通过连接一组神经元来模型化复杂行为。当修改连接层的连接度或参数时,神经网络就进行了学习或训练。神经网络的知识体现在网络连接的权值上,是一个分布式矩阵结构;神经网络的学习体现在神经网络权值的逐步计算上(包括反复迭代或累加计算)。以MP模型和Hebb学习规则为基础,建立了3大类多种神经网络模型。前馈式网络:它以感知机、反向传播模型、函数型网络为代表,可用于预测、模式识别等方面。反馈式网络:它以Hopfield的离散模型和连续模型为代表,分别用于联想记忆和优化计算。自组织网络:它以ART模型、Koholon模型为代表,用于聚类。神经网络可按管理模式或非管理模式来学习,在管理模式中,神经网络要预测现有示例可能带来的结果,它将预测结果与目标答案相比较并从错误中进行学习。管理模式的神经网络可用于预测、分类和时间序列模型。非管理模式的学习在描述数据时很有效,但却不用于预测结果。非管理模式的神经网络创建自己的类描述、合法性验证和操作,它与数据模式无关。l 5)关联规则关联规则是形式如下的一种规则:在购买面包和黄油的顾客中,有90%的人同时买了牛奶(面包+黄油=牛奶)。用于关联规则发现的主要对象是事务型数据,其中针对的应用则是售货数据,也称货篮数据。一个事务一般由如下几个部分组成:事务处理时间,一组顾客购买的物品,有时也有顾客标识号。关联规则就是指搜索业务系统中的所有细节和事务,从中找出重复出现概率很高的模式,它以大的事务数据库为基础,其中每个事务都被定义为一系列相关数据项。用关联找出所有能把一组事件或数据项与另一套事件或数据项联系起来的规则。对关系数据集可以使用这种处理,此类数据是用标准SQL谓词逻辑定义的。关联算法的目的是成为SQL的扩充,这样这种算法就可以通过规范的查询技术应用于受限的关系数据集。这些算法必须有高度的适应性和动态性。为了找到关系模式,要查看的数据集会有所变化,关联发生的最小百分比规则会发生变化。l 6)概念树方法对数据库中记录的属性字段按归类方式进行抽象,建立起来的层次结构称为概念树。如型号概念树的最下层是具体武器装备(如54手枪、59式100高射炮等),它的直接上层是装备小类(如手枪、高射炮等),装备小类的直接上层是装备大类(如轻武器、火炮等),再上层是军械装备。利用概念树提升的方法可以大大浓缩数据库中的记录。对多个属性字段的概念树进行提升,将得到高度概括的知识基表,然后再将它转换成规则。l 7)遗传算法它是模拟生物进化过程的算法,由3个基本算子组成。繁殖(选择):是从一个旧种群(父代)选出生命力强的个体,产生新种群(后代)的过程。交叉(重组):选择两个不同个体(染色体)的部分(基因)进行交换,形成新个体。变异(突变):对某些个体的某些基因进行变异(1变0、0变1)。这种遗传算法可起到产生优良后代的作用。这些后代需满足适应值,经过若干代的遗传,将得到满足要求的后代(问题的解)。遗传算法已在优化计算和分类机器学习方面发挥了显著作用。l 8)依赖性分析该算法在数据仓库的条目或对象间抽取依赖性,它展示了数据间未知的依赖关系,并有可能描述成关注性数据项间的因果关系,可以用该分析方法从某一数据对象的信息来推断另一数据对象的信息,依赖性是一个带有置信度因子的可能值。l 9)公式发现在工程和科学数据库(由试验数据组成)中,对若干数据项(变量)进行一定的数学运算,求得相应的数学公式。比较典型的BACON发现系统完成了对物理学中大量定律的重新发现。其基本思想是,对数据项进行初等数学运算(加、减、乘、除等),形成组合数据项,若它的值为常数项,就得到了组合数据项等于常数的公式。l 10)统计分析方法在数据库字段项之间存在两种关系。函数关系(能用函数公式表示的确定性关系);相关关系(不能用函数公式表示,但仍是相关确定关系)。对它们的分析采用如下方法,即回归分析、相关分析、主成分分析。l 11)模糊论方法利用模糊集合理论对实际问题进行模糊评判、模糊决策、模糊模式识别和模糊聚类分析。模糊性是客观存在的。系统的复杂性越高,精确化能力就越低,即模糊性越强。这是模糊理论创始人Zadeh总结出的互克性原理。l 12)可视化技术可视化分析可给出带有多变量的图形化分析数据,帮助分析员进行分析,它可使分析员同时显示多个变量间的关系。可视化数据分析技术拓宽了传统的图表功能,使用户对数据的剖析更清楚。例如,把数据库中的多维数据变成多种图形,这对揭示数据的状况、内在本质及规律性起了很大作用。16.2.9信息门户数据仓库的信息和前端应用的多样性带来了使用的复杂性,如果不把多种多样的应用界面做一个良好的整合,必然由于操作繁杂令用户产生畏惧心理,因此限制了商业智能的推广和应用效果,企业信息门户为使数据仓库的使用者可以根据自己的需要获得想要的信息,需要从界面、应用系统交互等角度进行门户的建设规划,如果将这些功能模型进行抽象,可以归结为以下的功能层次。l集成:包括3个层次的集成,即信息的集成、人的集成、流程的集成。即将现有及待建的各种信息资源通过多种技术手段实现整合,形成一个整体的企业信息资源集成平台,并向外提供标准的信息访问接口。l内容管理:对现有信息实现统一的目录分类管理(Categorization)。包括结构化数据和非结构化信息的分类、编目、摘要、审核和发布。l搜索:分类和搜索是组织和获取信息的紧密联系的两个方面。l以人为本的核心安全架构:支持统一面向自然人的用户身份认证(Authentication),统一用户的访问权限控制(Authorization)和统一用户资源管理(A

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论