数据挖掘与知识发现(讲稿1概述)_第1页
数据挖掘与知识发现(讲稿1概述)_第2页
数据挖掘与知识发现(讲稿1概述)_第3页
数据挖掘与知识发现(讲稿1概述)_第4页
数据挖掘与知识发现(讲稿1概述)_第5页
已阅读5页,还剩19页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据挖掘与知识发现(讲稿1概述)

参考书:《知识发现》,清华大学出版社,史忠植编,2004

第1章概述

随着信息社会与知识经济时代的来临,信息正往常所未有的速度膨

胀。面对浩如烟海的信息资源,人类的自然智能越来越显得难于驾驭。

如何用人造的智能去模仿与扩展人类的自然智能,实现信息的智能化处

理,是信息社会与知识经济所面临的一个重大课题。

人工智能作为一门研究机器(计算机)智能的学科,其目的是要用

人工的方法与技术,研制智能机器或者智能系统,来模仿、延伸与拓展

人的智能。因此,人工智能是人类迈向信息、迎接知识经济挑战所务必

具备的一项核心技术。难怪有人把人工智能同原子能技术、空间技术一

起称之20世纪的三大尖端科技成就。但人工智能系统较率低,不能应

用于实际。

随着计算机、Internet的普及,与数据库(DB)技术的迅速进展与

数据库管理系统(DBMS)的广泛应用,导致许多领域积存了海量数据

(如,从普通的超市业务数据、信用卡记录数据、电话呼叫清单、政府

统计数据到不太普通的天体图像、分子数据库与医疗记录等)。现有的

DB技术大多可高效地实现数据查询、统计与保护等管理功能,但却无

法发现数据中存在的关联与规则,无法根据现有的数据预测未来的进展

趋势。数据库中存在着大量数据,却缺乏从这些数据中自动、高效地获

取知识的手段,出现了“数据丰富,知识贫乏”的现象。此外,在数据

操纵方面:信息的提取及其有关处理技术却远远落后。为此,针对庞大

的数据库及其中的海量数据信息源,仅依靠传统的数据检索机制与统计

分析方法已远不能满足需要。

需求是进展之母,数据管理系统(DBMS)与人工智能中机器学习

两种技术的进展与结合,促成了在数据库中发现知识这一新技术的诞

生,即基于数据库知识发现(KnowledgeDiscoveryinDatabase,KDD)

及其核心技术…数据挖掘产生并迅速进展起来。它的出现为自动与智能

地把海量数据转化成有用的信息与知识提供了手段。

1.1知识

知识不仅是人工智能领域中研究的重要对象,而且也是知识工程与

知识发现处理的重要对象。什么是知识?(到目前为止,知识还没有统

一的严格的形式化定义)

知识是人们在改造客观世界的实践中积存起来的认识与经验,是一

切智能行为的基础。广义地说,知识是人们通过学习、发现或者感悟到

的对世界的认识总与,是人类认识的结晶。狭义地说,知识是一种有组

织的经验、价值观、有关信息与洞察力的组合。

☆与知识有关联的两个概念是数据与信息

所谓数据是指人们为了描述客观世界中的具体事物而引入的一些数

字、字符、文字等符号或者符号的组合。如,“建国50岁”中的“建国”、

“50岁”都是数据。

所谓信息是指不一致的有用数据构成的一种结构。如“建国80岁”,

就是一条信息。

☆数据、信息与知识间的关系是:

•数据是信息的载体与表示;

•信息是数据在特定场合下的含义,或者者说信息是数据的语

义。如''建国80岁”。但相同的数据在不一致的场合会有不

一致的含义。

•信息仅是对客观事物的通常性描述,它还不是知识。只有通

过对其进行加工、整理、解释、选择与改造,形成对客观世

界规律性认识后才能称之知识。可见,知识是对信息进行智

能性加工所形成的对客观世界规律性的认识。

(如,水,在标准大气压下,加热到100度就会沸腾)

实现对信息的加工过程,实际上也是一种把信息关联在一起的过

程。因此,也可把有关信息关联在一起所形成的信息结构称之知识。从

这种意义上讲,“信息”与“关联”是构成知识的两个要素。

信息之间关联的形式很多,其中最常用的一种形式为:

假如...则...(IF.......THEN........)

如,“假如他学过人工智能课程,则他应该明白什么叫知识”。

1.2什么是知识工程?

知识工程的概念出现于1977年的人工智能联合会议上,由费根鲍

姆教授提出的,至今也没有严格的定义,但人们普遍认为,知识工程是

以知识为处理对象,借用工程化的思想,应用人工智能的原理、方法与

技术去设计、构造与保护知识型系统的一门学科,是人工智能的一个应

用分支。

知识工程的目的是在研究知识的基础上,开发智能系统。因此,知

识工程的核心则是专家系统。由此知,知识的获取、知识的表示、知识

的运用便构成知识工程的三大要素。

知识工程的研究内容,要紧包含:基础理论研究、有用技术的开发、

知识型系统工具研究与智能机等有关课题的研究。

其中,基础理论研究包含:知识的本质、知识的表示、推理、获取

与学习方法等;

有用技术要紧研究解决建立知识系统过程中遇到的问题,包含:有

用知识表示方法、有用知识获取技术、有用知识推理方法、知识库结构

系统、知识系统体系结构、知识库管理技术、知识型系统的调试与评估

技术、有用解释技术、有用接口技术等;

知识型系统工具研究,要紧是为了给系统的开发提供良好的环境工

具,以提高系统研制的质量与缩短系统研制周期等。

★知识工程系统的特点

■知识工程系统能解决专家水平的问题;

■系统能快速的进行假设与搜索解答;

■系统能做出具有专家水平的解答;

■系统具有大量的基础知识与通用的问题求解能力;

■系统应能选择问题的恰当表示方式,其中的知识型系统是一个符号系统;

■系统具有自动推理的能力,能从结构步骤分析、解决、推理问题等,这

些都表现出具有人工智能及其系统的特点。因此,同样能够说,知识工

程是人工智能的一个重要应用分支

★知识工程与人工智能的关系

传统人工智能不能进入有用阶段,要紧原因有

■人工智能系统的知识库中只含有少量的规则与事实;

■人工智能系统的效率极低。

而知识工程是人工智能在知识信息处理方面的进展,它研究如何由计算机表示

知识,进行问题的自动求解。知识工程的研究使人工智能的研究从理论转向了应用,

从基于推理的模型转向基于知识的模型,是新一代计算机的重要理论基础。它的根

本目的是在研究知识的基础上,开发人工智能系统,补充与扩大大脑的功能,开创

人-机共同思考的时代。

★知识工程与专家系统的关系

专家系统是知识工程的核心。知识工程的进展首先决定于专家系统的进展,专

家系统的进展必将推动人工智能的应用。

专家系统的开发有三个基本的要素:领域专家、知识工程师、大量实例。在建

立专家系统时,首先由知识工程师把领域专家的专门知识总结出来,以适当的形式

存入计算机,建立起知识库(KB),根据这些专门知识,系统能够进行推理,做出

推断与决策,能够解决一些只有人类专家才能解决的困难问题,专家系统要紧是指

软件系统。

通常一个最基本的专家系统应由:知识库、数据库、推理机、解释机构、知识

获取机构与用户界面6个部分构成。

用户领域专家AI专家

图1专家系统的基本结构

其要紧功能描述如下:

(1)知识库(KnowledgeBase)

知识库是指以某种存储结构存储领域专家的知识,包含事实与可行的操作与规则

等。为了建立专家库,需对领域问题的专家知识,用相应的知识表示方法将其表示

出来,然后再进行形式化,并经编码放入知识库中。

因此,专家库的建立,首先要解决知识获取与知识表示的问题。知识获取是指知

识工程师如何从领域专家那里获得将要纳入知识库的知识。知识表示要解决的问题

是如何使用计算机能够懂得的形式来表示与存储知识的问题。

通常,知识库中的知识分为两大类型:一类是领域中的事实,称之事实性知识,

这是一种广泛公用的知识,也即写在书本上的知识及常识;另一类是启发性知识,

它是领域专家在长期工作实践中积存起来的经验总结。

(2)数据库

也称全局数据库或者综合数据库。是用于存储与求解问题有关的初始数据(如,

事实、数据、初始状态(证据))与推理过程中得到的中间数据。

如,在医疗专家系统中,数据库中存放的仅是当前患者的情况,如姓名、年龄、

症状等及推理过程中得到的一些中间结果、病情等;

在气象专家系统中,数据库中存放的是当前气象要素,如云量、温度、气压与推

理得到的中间结果等。

由此看出,专家系统数据库只是一个存储很少的用于暂存中间信息的工作存储器

(也称内涵数据库),而不是通常概念上的用于存放大量信息的数据库(也称外延数

据库)。

(3)推理机

推理机是一组用来操纵、协调整个专家系统的程序。它根据全局数据库的当前内

容,从知识库中选择可匹配的规则,并通过执行规则来修改数据库中的内容,再通

过不断地推理导出问题的结论。推理机中包含如何从知识库中选择规则的策略与当

有多个可用规则时如何消解规则冲突的策略。

(4)解释机构

用于向用户解释专家系统的行为,包含解释''系统是如何得出这一结论的”、“系

统为什么要提出这样的问题来询问用户”等用户需要解释的问题。

(5)知识获取机构

知识获取是专家系统的一种辅助功能,它可为修改知识库中的原有知识与扩充新

知识提供相应手段。

知识获取机构的基本任务是把知识加入到知识库中,并负责维持知识的一致性

及完整性,建立起性能良好的知识库。

通常,不一致的专家系统,知识获取功能与实现方法差别较大。如,

①有的系统首先由知识工程师向领域专家获取知识,然后通过相应的知识

编辑软件把知识送到知识库中;

②有的系统自身就具有部分学习功能,由系统直接与领域专家对话获取知

识;

③有的系统具有较强的学习功能,可在系统运行过程中通过归纳、总结,

得出新的知识。

总之,不管使用方式,知识获取都是目前专家系统研究中的一个重要问题。

因此,知识工程的概念从1977年提出至今,现已成为一门新兴的边缘学科。它

是人工智能,数据库技术,数理逻辑,认知科学,心理学等学科交叉进展的结果。

1.3知识发现

KDD(KnowledgeDiscoveryinDatabase)一词是于1989年8月在美国底特律

市召开的第一届KDD国际学术会议上正式形成的。研究的问题要紧有:

①定性知识与定量知识的发现;

②知识发现方法;

③知识发现的应用等。

KDD的含义,由Fayyad定义为:从数据集中识别出有效的、新颖的、潜在有用

的,与最终可懂得的模式的非平凡过程。

涉及几个概念:“数据集”、“模式”、“过程”、“有效性”、“新颖性”、“潜在有用

性”与“最终可懂得性”。

数据集:数据库记录的集合F;

模式:即知识,它给出了数据特性或者数据之间的关系,是对数据所包含的信

息更抽象的描述。按功能能够分为预测型模式与描述型模式。在实际应

用中,能够细分为关联模式、分类模式、聚类模式与序列模式等。

过程:通常在KDD中指多阶段的处理,涉及数据准备、模式搜索、知识评价与

反复的修改求精;该过程要求是非平凡的,意思是要有一定程度的智能

性、自动性;

有效性:是指发现的模式关于新的数据仍保持一定的可信度;

新颖性:要求发现的模式应该是新的;

潜在有用性:是指发现的知识将来有实际效用,如,用于决策支持系统里可提

高经济效益;

最终可懂得性:要求发现的模式能被用户懂得,目前它要紧表达在简洁性上。

其中,“有效性”、“新颖性”、“潜在有用性”与“最终可懂得性”综合在一起称之

兴趣性。

KDD的研究内容是:如何自动地去处理数据库中大量的原始数据,从中挖掘搜

索出具有规则、富有意义的模式。它的发现过程要紧有三个步骤:

①数据准备,又包含数据选取(Dataselection),数据预处理(Data

preprocessing)与数据变换(Datatransformation)三个子步骤;

②数据挖掘(DataMining)阶段;

③结果解释与评价。

即:1<^口=数据准备+DM+解释评价。

可视化

预取

处的

理信

数息

据(模式)

I转换I解释与评价I

抽样选取预处理

图1KDD过程

由上图知,知识发现的过程可粗略的懂得为三部曲:数据准备(Datapreparation)、

数据挖掘(Datamining)与结果的解释评估(interpreparationandevaluation)0

①数据准备又可分为:数据选取、数据预处理与数据变换三个子步骤。

•数据选取的目的是确定发现任务的操作对象,即目标数据。它是根据用户

的需求从原始数据库中抽取的一组数据。

•数据预处理通常包含消除噪声、推导计算缺值数据、消除重复记录、完成

数据类型转换(如,把连续值数据转换为离散型数据,以便符号归纳;或

者把离散型数据转换为连续值型数据,以便神经网络归纳)等;

•数据变换的要紧目的是消减数据的维数或者降维,即从初始特征中找出真

正有用的特征,以减少数据开采时要考虑的特征或者变量个数。

②数据挖掘阶段:

i)确定开采的任务或者目的,如数据总结、分类、聚类、关联规则发现

或者序列模式发现等;

ii)确定使用的开采算法。

选择实现算法有两个考虑因素:

(1)不一致的数据有不一致的特点,因此需要用与之有关的算法来

挖掘;

(2)用户或者实际运行系统的要求,有的用户可能希望获取描述型

的、容易懂得的知识(如,使用规则表示的挖掘方法显然好于

神经网络之类的方法),而有的用户只希望获取预测准确度尽可

能高的预测型知识。选择了挖掘算法后,就能够实施数据挖掘

操作,获取有用的模式。

③结果解释与评价,对数据挖掘发现出来的模式,应经用户或者机器评价后才

能成为知识。由于

i)挖掘出来的模式可能存在冗余或者无关的模式,如今需将其剔除;

ii)挖掘出来的模式可能不满足用户要求,这时应退回到发现阶段之前,

如重选数据、采取新的变换方法与新的开采算法等

iii)KDD最终是要面向人类用户,因此,应对挖掘发现的模式进行可视化

(如散点图、直方图等),或者把结果转换为用户易懂的另一种表示,

如把分类决策树转换为“if…then…”规则。

由此过程可得:

1、数据挖掘仅仅是整个知识发现过程中的一个步骤。挖掘质量的好坏有两个

影响要素:

(1)是所使用的数据挖掘技术的有效性;

(2)是使用的数据质量与数量(数据量的大小)。假如选择了错误的数

据或者不适当的属性,或者对数据进行了不适当的转换,则挖掘的

结果不可能成功。

2、整个挖掘过程是一个不断反馈的过程。比如,用户在挖掘途中发现选择的数

据不太满意,或者使用的挖掘技术产生不了期望的结果。这时,用户需要重复先前

的过程,甚至从头重新开始。

3、可视化技术在数据挖掘的各个阶段都起着重要的作用。特别是在数据准备阶

段,用户可能要使用散点图、直方图等统计可视化技术来显示有关数据,以期对数

据有一个初步的熟悉,从而为更好地选取数据打下基础;在挖掘阶段,用户则要使

用与领域问题有关的可视化工具;在表示结果阶段,则可能要用到可视化技术以使

得发现的知识更易于懂得。

问题:数据挖掘的可视化要紧包含什么研究内容?目前流行的可视化技术要紧有

哪几种?

答:数据挖掘的可视化要紧研究包含

(1)数据的可视化:将数据的不一致粒度或者不一致的抽象级别用多种可视化

方式进行描述.对被挖掘的原始数据的可视化有助于确定合适的模型进行

数据挖掘处理;

(2)数据结果的可视化:将数据挖掘后得到的知识与结果用可视化形式表示出

来.知识表达、解释与评价的可视化有助于懂得所获得的知识并检验知识的

真伪与有用性;

(3)数据挖掘过程的可视化:用可视化形式描述各类挖掘过程,用户通过可视

化方式能够熟悉挖掘数据的来源、数据的抽取过程、具体的挖掘计算与推

理过程等。

目前流行的可视化技术要紧有:

(1)面向像素技术:其基本思想是将每个数据值映射到一个有色的像素

上并将属于某个属性的数据值表示在一个独立的窗口中;

(2)几何投影技术:其目标是在多维数据集中找到“有意义”的投影,

是一种平行坐标轴可视化技术。该技术通过使用相互平行而且等距

的坐标轴将多维空间映射成两维显示。

(3)基于图标技术:是将一个多级数据项映射成一个图标,是一种条状

图技术。在该技术中,用两维来进行坐标显示,而剩下的维则被映

射成条状图标的角度或者条状图标的长度;

(4)层次技术:是对多维空间进行细分,然后以一种层次的形式表示这

些子空间。

由于KDD是一门受到来自各类不一致领域的研究者关注的交叉学科(如涉及:

统计学、机器学习、数据库技术、模式识别、人工智能与可视化等),因此导致了很

多不一致的术语名称。除KDD外,要紧还有:“数据挖掘”、知识抽取(knowledge

extraction),信息发现、智能数据分析、探索式数据分析、信息收获、数据考古学(data

archaeology)>数据捕捞(datadredging)等等。其中,最常用的术语是"知识发现"

与“数据挖掘”。

1995年在加拿大召开了第一届知识发现与数据挖掘(DataMing,DM)国际学术

会议。由于把数据库中的“数据”形象地比喻成矿床,把KDD比作从数据矿山中

找到蕴藏的知识金块。从此“数据挖掘”一词很快流传开来。

又由于数据挖掘是KDD过程中的关键步骤,因此目前多数人不加区分地使用知

识发现与数据挖掘这两个术语。

相对来讲,数据挖掘要紧流行于统计界、数据分析、数据库与管理信息系统界;

而知识发现要紧流行于人工智能与机器学习界。

1.4知识发现的对象

知识发现的对象是数据集。数据集类型有:关系数据库、面向对象数据库、空

间数据库、时态数据库、文本数据库源、多媒体数据库、异质数据库与万维网(Web)

数据库等。其中,关系数据库是典型的结构化数据。目前,随着技术的进展,数据

挖掘对象已逐步扩大到半结构化或者非结构化数据,如Web数据、图像与视频数据

与文本数据等。

1、关系数据库

对关系数据库,数据挖掘方法要紧是研究数据库中属性之间的关系,挖掘出多

个属性取值之间的规则。由于关系数据库的特点,促使了数据挖掘方法的改善。

关系数据库的特点如下:

①数据动态性

数据的动态变化是数据库的一个要紧特点。由于数据的存取与修改,使数据的内

容经常发生变化,这就要求数据挖掘方法能习惯这种变化。渐增式数据挖掘方法就

是针对数据变化,使挖掘的规则(知识)能满足变化后的数据库内容。

②数据不完整性

数据不完整性要紧反映在数据库中记录的域值丢失或者不存在(空值)。这种不

完整数据给数据挖掘带来了困难。为此,务必对数据进行预处理,填补该数据域的

可能值。

③数据噪声

由于数据录入等原因,造成错误的数据,即数据噪声。含噪声的数据挖掘会影响

抽取模式的准确性,并增加了数据挖掘的困难度。

④数据冗余性

这表现在同一信息在多处重复出现。函数依靠是一个通常的冗余形式。冗余信息

可能造成错误的数据挖掘,至少有些挖掘的知识是用户不感兴趣的。为了避免这种

情况发生,数据挖掘时,需要明白数据库中有什么固有的依靠关系。

⑤数据稀疏性

表现在实例空间中数据稀疏,数据稀疏会使数据挖掘丢失有用的模式。

⑥海量数据

数据库中的数据在不断增长,已出现很多海量数据库。数据挖掘方法需要逐步习

惯这种海量数据挖掘,如建立有效的索引机制与快速查询方法等。

2、文本数据库

文本是以文字串形式表示的数据文件。文本分析包含:关键词或者特征提取;

相似检索;文本聚类与文本分类等。

文本中的特征如人名、地名、组织名等是某些文本中的重要信息,特征提取对掌

握该文本的内容很重要。

①关键词或者特征提取

一篇文本中,标题是该文本的高度概括。标题中的关键词是标题的核心内容。关

键词的提取关于掌握该文本的内容至关重要。

文本中的特征如人名、地名、组织名等是某些文本中的重要信息,特征提取对掌

握该文本的内容很重要。

②相似检索

对文本中关键词的相似检索是熟悉文本内容的一种重要方法。如,“专家系统”

与“人工智能”两个关键词是有一定联系的,研究专家系统的文本,一定属于人工

智能的研究领域。

③文本聚类

关于文本标题中关键词(主题词)的相似匹配是对文本聚类的一种简单方法。定

义关键词的相似度,将便于文本的简单聚类,类中文本满足关键词的相似度,类间

文本的关键词超过相似度。

④文本分类

将文本分类到各文本类中,通常需要使用一个算法,这些算法包含分类器算法、

近邻算法等,这需要按文本中的关键词或者特征的相似度来区分。

3、图像与视频数据库

图像与视频数据库是典型的多媒体数据库。数据以点阵信息及帧形式存储,数据

量很大。图像与视频的数据挖掘包含:图像与视频特征提取;基于内容的相似检索;

视频镜头的编辑与组织等。

①图像与视频特征提取

图像与视频特征有颜色、纹理与形状等。这些特征提取是用基于内容的相似检索。

如I,海水是蓝色、海滩是黄色、房屋的形状及颜色等,都需要从大量图像与视频数

据中提取。

②基于内容的相似检索

根据图像、视频特征的分布、比例等进行基于内容的相似检索,能够将图像与视

频数据进行聚类与分类,也能完成对新图像或者视频的识别。如,对遥感图像或者

视频的识别,这种应用非常广泛,比如,森林火灾的发现与报警,河流水灾的预报

等。

③视频镜头的编辑与组织

镜头代表一段连续动作(视频数据流)。典型的镜头编辑如足球的射门、某段新

闻节目等,都需要在冗长的视频数据流中进行自动裁取。

通过编辑的镜头,按某种需要重新组织,将形成特定需求的新视频节目。如足球

射门集锦,某个新闻事件的连续报道等。

4、Web数据库

随着Internet的进展与普及,网站数目的迅速增长及上网人数的剧烈增多,使网

络数据量呈指数增长,Web数据挖掘已成为新课题。Web数据挖掘具有如下特点:

①异构数据集成与挖掘

Web上每一站点是一个数据源,各数据源都是异构的,形成了一个巨大的异构

的数据库环境。将这些站点的异构数据进行集成,给用户提供一个统一的视图,才

能在Web上进行数据挖掘。

②半结构化数据模型抽取

Web上的数据非常复杂,没有特定的模型描述。尽管每个站点上的数据是结构

化的,但各自的设计对整个网络而言是一个非完全结构化的数据,称之半结构化数

据。

对半结构化数据模型的查询与集成,需要寻找一种半结构化模型抽取技术来自动

抽取各站点的数据。

如,XML是一种半结构化的数据模型,容易实现Web中的信息共享与交换。

总之,Web数据挖掘正在逐步形成热点。

1.5知识发现的分类

知识发现涉及多个学科,要紧包含数据库、统计学与机器学习等三大要紧技术。

数据库技术通过20世纪80年代的大进展,除关系数据库外,又陆续出现面向

对象数据库、多媒体数据库、分布式数据库与Web数据库等。数据库的应用从通常

查询到模糊查询与智能查询,数据库计算已趋向并行计算。从以上数据库中挖掘知

识正在兴起并已得到迅速进展。

统计学是一门古老学科,现已逐步走向社会。成为社会调查、熟悉民意与制定

决策的重要手段。

机器学习是人工智能的重要分支。它是在专家系统获取知识出现瓶颈后进展起

来的。机器学习的大部分方法与技术已演变为数据挖掘方法与技术。

知识发现可按数据库类型、知识发现对象、知识发现任务、知识发现方法与技术,

与应用等几个方面进行分类。

(1)按数据库类型分类

知识发现要紧是在关系数据库中挖掘知识。随着数据库类型的不断增加,逐步出

现了不一致数据库的知识发现。现有:关系数据的知识发现、模糊数据的知识发现、

历史数据的知识发现与空间数据的知识发现等多种不一致数据库的知识发现类型。

(2)按知识发现的对象分类

知识发现除了对数据库这个要紧的对象进行知识发现外,还有文本数据知识发

现、多媒体数据知识发现与Web网数据知识发现等。由于对象不一致,知识发现的

方法相差很大,文本、多媒体、Web网数据均是非结构化数据,知识发现的难度将

很大。

(3)按知识发现的任务分类

知识发现的任务要紧有:关联分析、时序模式、聚类、分类、偏差检测与预测六

项。故按知识发现的任务分类有:关联规则知识发现、序列知识发现、聚类知识发

现、分类知识发现、偏差分析知识发现与预测知识发现等类型。

(4)按知识发现方法与技术分类

归纳学习类、仿生物技术类、公式发现类、统计分析类、模糊数学类、可视化技

术类等等。

1.6知识发现的方法

可粗分为:统计方法、机器学习方法、神经网络方法、数据库方法与可视化方法。

统计方法可细分为:回归分析、判别分析、聚类分析、探索性分析等;

机器学习可细分为:归纳学习方法、基于范例学习、遗传算法等;

神经网络可细分为:前向神经网络、自组织神经网络等;

数据库方法要紧是:多维数据分析或者OLAP方法,另外还有面向属性的归纳方法。

对可视化方法要紧是把数据、信息与知识转化为可视的表示形式的过程。

1.7知识发现的任务

数据挖掘与知识发现是一个以数据库、人工智能、数理统计、可视化四大支柱

技术为基础,多学科交叉、渗透、融合形成的新的交叉学科。

数据挖掘的任务是从大量的数据中发现模式。根据数据挖掘的任务可分为多种

类型,其中比较典型的有:

•预测模型

•关联分析

•分类分析

・聚类分析

・序列分析

・偏差检测

・模式相似性挖掘

•Web数据挖掘

①预测模型(PredictiveModeling):所谓预测即从数据库或者数据仓库中已

知的数据推测未知的数据或者对象集中某些属性的值分布。

建立预测模型的常用方法:

•回归分析

­线性模型

•关联规则

•决策树预测

•遗传算法

•神经网络

②关联(Association)分析:关联规则描述了一组数据项之间的密切度或

者关系。关联分析用于发现项目集之间的关联。在关联规则挖掘算法中,通常

给出了置信度与支持度两个概念,关于置信度与支持度均大于给定阈值的规则

称之强规则,而关联分析要紧就是对强规则的挖掘。

关联规则挖掘近几年研究较多。现在,关联规则的挖掘已经从单一概念层次

关联规则的发现进展到多概念层次的关联规则的发现,并把研究的重点放在提高

算法的效率与规模可收缩性上。它广泛地运用于帮助市场导向、商品目录设计客

户关系管理)(CRM)与其他各类商业决策过程中。

关联分析算法:APRIORI算法、DHP算法、DIC算法、PARTITION算法及它们

的各类改进算法等。另外,关于大规模、分布在不一致站点上的数据库或者数据

仓库,关联规则的挖掘能够使用并行算法,如:Co⑺t分布算法、Data分布算法、

Candidate分布算法、智能Data分布算法(IDD)与DMA分布算法等。

③分类(Classification)分析:所谓分类是根据数据的特征为每个类别

建立一个模型,根据数据的属性将数据分配到不一致的组中。

在实际应用过程中,分类规则能够分析分组中数据的各类属性,并找出数据

的属性模型,从而确定什么数据属于什么组。这样就能够利用该模型来分析已有

数据,并预测新数据将属于哪一个组。类的描述能够是显式的,如用一组特征概

念描述;也能够是隐式的,如用一个数学公式或者数学模型描述。分类分析已经

成功地用于顾客分类、疾病分类、商业建模与信用卡分析等。

分类分析的常用方法:

・约略(Rough)集

•决策树

・神经网络

・统计分析法

目前,分类方法与研究成果很多,判别方法的好坏,可从下面3个方面进行:

(1)预测准确度(对非样本数据的判别准确度);

(2)计算复杂度;

(3)模式简洁度(在同样效果情况下,希望决策树小或者规则少)。

注:在数据库中,往往存在噪声数据,缺损值与疏密不均匀等问题,他们对分

类算法获取的知识将产生坏的影响。

④聚类(Clustering)分析:所谓聚类是指一组彼此间非常“相似”的数据对象

的集合。相似的程度能够通过距离函数来表示,由用户或者专家指定。

聚类分析是按照某种相近程度度量方法将数据分成互不相同的一些分组。每一

个分组中的数据相近,不一致分组之间的数据相差较大。好的聚类方法能够产生高

质量的聚类,保证每一聚类内部的相似性很高,而各聚类之间的相似性很低。聚类

分析的核心是将某些定性的相近程度测量方法转换成定量测试方法。使用聚类分析,

系统能够根据部分数据发现规律,找出对全体数据的描述。

聚类分析的常用方法:

・随机搜索聚类法

•特征聚类

•CF树

⑤序列(Sequence)分析:序列分析要紧用于分析数据仓库中的某类与时间有

关的数据,搜索类似的序列或者子序列,并挖掘时序模式、周期性、趋势与偏离等。

比如,它能够导出类似“若AT&T股票连续上涨两天且DEC股票不下跌,则第三

天IBM股票上涨的可能性为75%”的数据关系。序列模式能够看成是一种特定的关联

模型,它在关联模型中增加了时间属性。

⑥偏差检测(DeviationDetection):用于检测并解释数据分类的偏差,它有

助于滤掉知识发现引擎所抽取的无关信息,也可滤掉那些不合适的数据,同时可产

生新的关注性事实。

偏差包含很多有用的知识,如下列4类:

(1)分类中的反常实例;

(2)模式的例外;

(3)观察结果对模型预测的偏差;

(4)量值随时间的变化。

偏差检测的基本方法是寻找观察结果与参照之间的差别。观察结果常常是某一个

域的值或者多个域值的汇总。参照是给定模型的预测、外界提供的标准或者另一观

察。

⑦模式相似性挖掘:用于在时间数据库或者空间数据库中搜索相似模式时,从

所有对象中找出用户定义范围内的对象;或者找出所有元素对,元素对中两者的距

离小于用户定义的距离范围。模式相似性挖掘的方法有相似度测量法、遗传算法等。

⑧Web数据挖掘:万维网是一个巨大的、分布广泛的与全球性的信息服务中心,

其中包含了丰富的超链接信息,为数据挖掘提供了丰富的资源。Web数据挖掘包含

Web使用模式挖掘、Web结构挖掘与Web内容挖掘等。

Web使用模式挖掘:在Web环境中,文档与对象通常都是通过链接来便于用户

访问。捕捉用户的存取模式或者发现一个Web网站最频繁的访问路径称之Web使用

模式挖掘或者Web路径挖掘。

Web结构挖掘:是挖掘Web的链接结构,并找出关于某一主题的权威网站。

Web内容挖掘:是指在大量训练样本的基础上,得到数据对象之间的内在特征,

并以此为根据进行有目的的信息筛选,从而获得指定内容的信息。

基于Web的研究:搜索引擎的设计、文件自动分类技术、关键词的自动提取、

半结构化信息的提取及Web上新型应用的研究等。

1.8数据挖掘的知识表示

数据挖掘各类方法获得的知识的表示形式要紧有6种:规则、决策树、知识基

(浓缩数据)、网络权值、公式与案例。

(1)规则

规则由前提条件与结论两部分构成。前提条件由字段项(属性)取值的合取与析

取组合而成,结论为决策字段项(属性)的取值或者者类别构成。如,下例为两类

人群9个元组(记录)表:

身高头发眼睛

矮金色蓝色

第一类人高红色蓝色

高金色蓝色

矮金色灰色

高金色黑色

矮黑色蓝色

第二类人高黑色蓝色

高黑色灰色

矮黑色黑色

利用数据挖掘方法,将能很快得到如下规则知识:

IF(发色=金色V红色)A(眼睛=蓝色V灰色)THEN第一类人

IF(发色=黑色)V(眼睛=黑色)THEN第二类人

即:凡是具有金色或者红色的头发,同时同时具有蓝色或者灰色眼睛的人属于第

一类人;凡是具有黑色头发或者黑色眼睛的人属于第二类人。

(2)决策树

如ID3方法的决策树,是由信息量最大的字段(属性)作为根结点,它的各个取

值为分枝,对各个分枝所划分的数据元组(记录)子集,重复建树过程,扩展决策

树,最后得到相同类别的子集,以该类别作为叶结点。

如,上例的人群数据库,按ID3方法得到的决策树为

头发

(3)知识基(浓缩数据)

数据挖掘方法能计算出数据库中字段项的重要程度,关于不重要的字段能够删

除,关于数据库中的元组能按一定的原则合并。这样,通过可大大压缩数据库中的

元组与字段项,最后得到浓缩数据,称之知识基。它是原数据库的精华,很容易转

换成规则知识。

如,上例的人群数据库,通过计算能够得出身高是不重要的字段,删除该项后,

再合并相同数据元组,得到如下的浓缩数据表。

头发眼睛

金色蓝色

头发眼暗

第一类人红色蓝色

金色蓝色

金色蓝色

第一类人红色蓝色

金色灰色

金色灰色

金色黑色

金色黑色

黑色蓝色

第二类人黑色蓝色

第二类人

黑色蓝色黑色灰色

黑色灰色黑色黑色

黑色黑色

(4)网络权值

神经网络方法通过对训练样本的学习后,所得到的知识是网络连接权值与结点

的阈值。通常表示为矩阵与向量。如,异或者问题的网络权值与阈值分别如下:

样本:00

01

10

11

(5)公式

关于科学与工程数据库,通常存放的是大量实验数据(数值)。它们中蕴涵着一

定的规律性,通过公式发现算法,能够找出各类变量间的相互关系,用公式表示。

如,太阳系行星运动数据中,包含行星运动周期(旋转一周所需时间,天),与

它与太阳的距离(围绕太阳旋转的椭圆轨道的长半轴,百万公里),具体数据如下表:

水星金星地球火星木星土星

周期P882253656874343.510767.5

距离d581081492287781430

由此,可得到开普勒第三定律:d/P=25.

(6)案例

案例是指人们经历过的一次完整的事件。当人们要解决一个新问题时,总是先回

顾自己往常处理过的类似事件(案例),利用往常案例中解决问题的方法或者者处理

的结果,作为参考并进行适当的修改,以解决当前新问题。利用这种思想建立起基

于案例推理(CaseBasedReasoning,CBR)O

CBR的基础是案例库,在案例库中存放着大量成功或者失败的案例。CBR利用相

似检索技术,对新问题到案例库中搜索相似案例,再通过对旧案例的修改来解决新

问题。

可见,案例是解决新问题的一种知识。案例知识通常表示为三元组:

•问题描述:对求解的问题及周围世界或者环境的所有特征的描述;

•解描述:对问题求解方案的描述;

•效果描述:描述解决方案后的结果情况,是失败还是成功。

1.9数据挖掘及知识发现的实际应用

DM(KDD)工具与软件已在各个部门得到很好的应用,并收到明显的效益。

[1]金融方面:银行信用卡与保险行业,预测存/贷款趋势,优化存/贷款策略,

用DM将市场分成有意义的群组与部门,从而协助市场经理与业务执行人员

更好地集中于有促进作用的活动与设计新的市场运动。

[2]在客户关系管理方面:DM能找出产品使用模式或者协助熟悉客户行为,从

而能够改进通道管理(如银行分支与ATM等)。又如正确时间销售

(RightTimeMarKeting)就是基于顾客生活周期模型来实施的。

[3]在零售业/市场营销方面:是数据挖掘技术应用最早也是最重要的领域,DM

用于顾客购货篮的分析能够协助货架布置,促销活动时间,促销商品组合与

熟悉滞销与畅销商品状况等商业活动。通过对一种厂家商品在各连锁店的市

场共享分析,客户统计与历史状况的分析,能够确定销售与广告业务的有效

性。

[4]在过程操纵/质量监督保证方面:DM协助管理大数量变量之间的相互作用,

DM能自动发现出某些不正常的数据分布,暴露制造与装配操作过程中变化

情况与各类因素,从而协助质量工程师很快地注意到问题发生范围与采取改

正措施。

[5]在远程通讯部门:基于DM的分析协助组织策略变更以习惯外部世界的变化,

确定市场变化模式以指导销售计划。在网络容量利用方面,DM能提供对客

户组类服务使用的结构与模式的熟悉,从而指导容量计划人员对网络设施作

出最佳投资决策。

[6]化学/制药行业:从各类文献资料总自动抽取有关化学反应的信息,发现新的

有用化学成分。在遥感领域针对每天从卫星上及其它方面来的巨额数据,对

气象预报,臭氧层监测等能起很大作用。

[7]军事方面:使用DM进行军事信息系统中的目标特征提取、态势关联规则挖

掘等。

总之,DM可广泛应用于银行金融、零售与批发、制造、保险、公共设施、政府、

教育、远程通讯、软件开发、运输等各个企事业单位及国防科研上。据报导,DM

的投资回报率有达400%甚至10倍的事例。

1.10知识发现与创新

自90

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论