数据仓库与数据挖掘技术_第1页
数据仓库与数据挖掘技术_第2页
数据仓库与数据挖掘技术_第3页
数据仓库与数据挖掘技术_第4页
数据仓库与数据挖掘技术_第5页
已阅读5页,还剩20页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第一章商务智能基本概念

数据仓库的发展与展望

作为商务智能三大核心技术之一的数据仓库发源于处理日常业务的数据库。传统数据库

在日常的业务处理中获得了巨大的成功,但是对管理人员的决策分析要求却无法满足。因为,

管理人员常常希望能够通过对组织中的大量数据进行分析,了解业务的发展趋势。而传统数

据库只保留了当前的业务处理信息,缺乏决策分析所需要的大量历史信息。为满足管理人员

的决策分析需要,在数据库的基础上就产生了适应决策分析的数据环境---数据仓库(DW,

DataWarehouse)»

1.数据仓库--一种能够将日常业务处理中所收集到的各种数据转变为具有商业价值信息

的技术

2.而传统数据库系统无法承担起这一责任。因为传统数据库的处理方式与决策分析中的数

据需求不相称,导致传统数据库无法支持决策分析活动。这些不相称性主要表现在决策

处理中的系统响应问题、决策数据需求的问题和决策数据的操作问题

•系统响应问题

在传统的事务处理系统中,用户对系统和数据库的要求是数据存取频率要高、操作

时间要快。用户的业务处理操作请求往往在很短的时间内就能完成,这就使系统在多用

户的情况下,也可以保持较高的系统响应时间。

但在决策分析处理中,用户对系统和数据的要求发生了很大的变化。有的决策问题

处理请求,可能会导致系统长达数小时的运行。有的决策分析问题的解决,则需要遍历

数据库中大部分数据。这些操作必然要消耗大量的系统资源,这是实时处理业务的事务

联机处理系统所无法忍受的。

•据测数据需求的问题

在进行决策分析时,需要全面、正确的集成数据,这些集成数据不仅包含企业内部

各部门的又关上护具,而且还包含企业外部的、甚至竞争对手的相关数据。但是在传统

数据库中,只存储了本部门的事务处理数据,而没有与决策问题有关的集成数据,更没

有企业外部数据。(数据的集成操做是有数据仓库处理,不是由决策分析程序处理)。

在决策数据的继承中还需要解决数据混乱问题。例如,同一实体的属性在不同的应

用系统中,可能有不同的数据类型、不同的字段名称•这样在使用这些数据进行决策

之前,必须对这些数据进行分析,确认其真实含义。

在决策分析中,系统常常需要从数据库中抽取数据、查找有用的数据,然后将这些

数据导入其他文件或数据库中,供用户使用。这些被抽取出来的数据,有可能被其他用

户再次抽取。由于这种不加限制数据的连续抽取,使企业的数据控件构成了一个错综复

杂的数据“蜘蛛网”,即形成了自然演化体系结构。在这个数据“蜘蛛”网中,有可能

两个节点上的数据来自于同一个原始数据库。但是由于数据抽取的时间、抽取方法、抽

取级别等方面的差异,可能使这两个节点的数据不一致。这样,在对同一个问题的决策

分析中,由于数据的出发基准不同,而可能导致截然相反的结果。也就是说,由于决策

分析过程中所形成的自然演化体系,造成了数据可信度的降低,必然导致数据u转化为

信息的不可行与不可信,使企业无法将大量宝贵的信息资源转化为企业的核心竞争力。

数据的集成还涉及外部数据与非结构化数据的应用问题。决策分析中经常要用到系

统外数据,如行业的统计报告,管理咨询公司的市场调查分析数据。这些数据必须经过

格式、类型的转换,曾能被决策系统应用。在决策分析系统中要求数据能够进行定期的、

及时的更新,数据的更新期可能是一天,也可能是一周,而传统数据库缺乏数据动态更

新的能力。

为完成事务处理的需要,传统数据库中的数据一般只保留当前的数据。但是对于决

策分析而言,历史上的、长期的数据却具有重要的意义。利用历史数据可对未来的发

展进行正确的预测,但是传统数据库却无法长期保留大量的历史数据。

在决策分析过程中,决策人员往往需要的并不是非常详细的数据,而是一些经过汇

总、概要的数据。但在传统数据库中为支持日常的事务处理需要,只保留一些非常详细

的数据,这对决策分析十分不利。

•策数据的操作问题

在对数据的操作方式上,决策分析人员则往往希望以专业用户的身份,而不是参数

用户的身份对数据进行操作。他们希望能够用各种工具对数据进行多种形式的操作,

希望数据操作的结果能以商务智能的方式表达出来。而传统的业务处理系统智能以标

准的固定报表方式为用户提供信息,使用户很难理解信息的内涵,无法用于管理决策。

由于系统响应、决策数据需求和决策数据操作等问题的影响,使企业无法使用现有

的事务处理系统去解决决策分析的需要。因此,决策分析需要一个能够不受传统事务

处理的约束,能够高效处理决策分析数据的环境,由此而产色和难过了可以满足这一

要求的数据存储和数据组织技术……数据仓库。

数据仓库与数据库的对比表

对比内容数据库数据仓库

数据内容当前值1历史的、存档的、归纳的、计|

Z算的数据t

11.多

数据目标面向业务操作程序、重复处理1面向主题域、管理决策分析的:

应用i

数据特性动态变化、按字段更新1静态、不能直接更新、只定时i

添加

数据结构高度结构化、复杂、适合操作1简单、适合分析1

11

计算:1

\使用频率中到低1

数据访问量每个事务只访问少量记录有的事务可能要访问大量记1

i录]

j

对响应时间的要求以秒为单位计量以秒、分钟、甚至小时为计量>

单位>

二.数据仓库的定义与基本特性

数据仓库具有这样一些重要的特性:面向主题性、数据的集成性、数据的时变性、数

据的非易失性、数据的集合性和支持决策作用。

1.面向主题性

面向主题性表示了数据仓库中数据组织的基本原则,数据仓库中的所有数据都是围绕着

某一主题组织展开的。从信息管理的角度看,主题就是在一个较高的管理层次上对信息系统

中的数据按照某一具体的管理对象进行综合、归类所形成的分析对象。从数据组织的角度看,

主题就是一些数据集合,这些数据集合对分析对象做了比较完整的、一致的描述,这种描述

不仅涉及数据自身,并且还涉及数据之间的联系。

2.数据集成性

数据仓库的集成性就是指根据决策分析的要求,将分散于各处的元数据进行抽取、筛选、

清理、综合等工作,最终集成到数据仓库中。

首先要从源数据库中挑选出数据仓库所需要的数据;然后将这些来自不同数据库中的数

据按照某一标准进行统一,即将不同数据源中数据的单位、字长与内容按照数据仓库的要求

统一起来,消除元数据中字段的同名异义、异名同义现象,这些工作统称为数据的清理;在

将元数据加载进数据仓库后,即元数据装入数据仓库后,还需要将数据仓库中的数据进行某

种程度的综合,经根据决策分析的需要对这些数据进行概括、聚集处理。

3.数据的时变性

数据仓库必须能够不断捕捉主题的变化数据,将那些变化的数据追加到数据仓库中去,

也就是说在数据仓库中不断生成主题的新快照,以满足决策分析的需要。

数据仓库数据的时变性,不仅反映在数据的追加方面,而且还反映在数据的删除匕尽

管数据仓库中的数据可以长期保留,但是在数据仓库中的数据存储期限还是有限的,一般保

留5-10年,在超过期限以后,也需要删除。

数据仓库中数据的时变性还表现在概括数据的变化上。数据仓库中的概括数据是与时间

有关的,概括数据需要按照时间进行综合,按照时间进行抽取。因此,在数据仓库中的概括

数据必须随着时间的变化而重新进行概括处理。

4.数据的非易失性

数据仓库中的数据不进行更新处理,而是一旦数据进入数据仓库以后,就会保持一个相

当长的时间。数据在追加以后,一般不再修改。数据的非易失性,可以支持不同的用户在

不同的时间查询、分析相同的问题时,获得同一结果。避免了以往决策分析中面对同一问题,

因为数据的变化而导致结论不同的尴尬。

5.数据的集合性

目前数据仓库所采用的数据集合方式主要是以多为数据库方式进行存储的多维模式、以

关系数据库方式进行存储的关系模式或以两者相结合的方式进行存储的混合模式。

6.支持决策作用

数据仓库组织的根本目的在于对决策的支持。高层的企业决策者、中层的管理者和基层

的业务处理这等不同层次的管理人员均可以利用数据仓库进行决策分析,提高管理决策的质

量。

企业各级管理人员可以利用数据仓库进行各种管理决策的分析,利用自己所特有的、敏

锐的商业洞察力和业务知识从貌似平淡的数据中敏锐地发现众多的上级。数据仓库为管理者

利用数据进行管理决策分析提供了极大的便利。

三.数据仓库的体系结构

数据仓库体系结构建立在其概念结构基础之上,并根据商务智能的不同应用情况可以选

择虚拟数据仓库结构、数据集市结构、单一数据仓库结构和分布式数据仓库结构。

1.数据仓库的概念结构

数据仓库应该包含:数据源、数据准备区、数据仓库数据库、数据集市/知识挖掘库及

各种管理工具和应用工具。数据仓库建立以后,首先要从数据源中抽取所需要的数据到数据

准备区,在数据准备区中经过数据的净化处理,再加载到数据仓库数据库中,最后在根据用

户的需求将数据发布到数据集市/知识挖掘库中。当用户使用数据仓库时.,可以通过OLAP

等数据仓库的应用工具向数据集市/知识挖掘库或数据仓库进行决策查询分析或知识挖掘。

如图

V,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋“

2.数据集市结构

数据集市结构或称为主题结构的数据仓库是按照主题进行构思所形成的数据仓库,它没

有一个独立的数据仓库。系统的数据不存储在统一数据仓库中,每个主题有自己的物理存储

区。但是不同的主题数据仓库在设计时采用了统一企业数据模型,这就保证了不同主题数据

仓库可以cia用相同的字段结构、编码和关键字,可以保证不同主题数据仓库的联合查询。

四.数据仓库的参照结构

数据仓库的参照结构由不同的层次组成,这些层次包含了数据仓库的基本功能层、数据

仓库的管理层和数据仓库的环境支持层。

数据仓库的基本功能层包含:数据抽取,数据筛选、清理,清理后的数据加载,设立数

据及时,完成数据仓库的查询、决策分析和知识的挖掘等操作。

数据仓库的管理层分成数据管理与元数据管理两部分,主要负责对数据仓库中的数据抽

取、清理、加载、更新等操作进行管理。

1.数据仓库基本功能层

包含数据源、数据准备区数据仓库功能结构、数据集市,知识挖掘库以及数据仓库的数据

存取与使用功能部分,如图

“-------•―,/~-.

:数据源,数据准备区|数据仓库|数据集市/知识:数据仓库的数据f

j挖掘库]存取与使用j

J—”———,,%———*-J丁

A.数据仓库的数据源

包含业务数据、历史数据、办公数据、Web数据、外部数据及数据源元数据,如图

fZiSi-]历史数据1办公数据;而薮孤~~~"[既前赢数据源元数]

>iiiif据,

幼…//.____________W——“《

a.业务数据是指从组织目前正在运行的业务处理系统那里收集到,并保存在业务处理

系统数据库中的数据。

b.历史数据是指组织在长期的信息处理过程中所积累下来的数据,这些数据一般进行

了脱机处理,以磁带或其他脱机存储设施保存,对业务系统的当前运行不起作用。

这些数据一般要根据仓库模型和用户的决策分析需求来确定是否加载进数据仓库

c.办公数据主要是指组织内部的办公系统数据,这些数据分电子数据和非电子数据两

种。非电子数据主要指那些文件、通知、会议纪要等公文。办公数据源的数据结构

十分复杂,这就给数据仓库的数据抽取、加教增加了很大的难度。有时甚至需要人

工处理以后,才能加载到数据仓库。办公数据在数据仓库中常常用于支持对跨部门

的决策分析。对于办公数据中非电子数据的抽取和加载首先要利用扫描仪将书面文

档转变为电子图像,然后利用可是文字识别软件(OCR)将图像文件转换为文本文

件,最后还要创建能够描述和组织文档内部信息的元数据。经过这些处理以后,非

电子数据才能加载到数据仓库。

d.Web数据是企业通过internet所获得的数据,则和谐数据可以通过企业的电子商务

系统获取,也可以通过网络调查获取。Web数据大多是HTML格式,需要将其转

换成数据仓库的统一格式后才能家再进数据仓库。

e.外部数据是指那些不为企业所操作、所拥有、所控制的数据•这些数据有的是电子

形式的,如证券市场的证券数据,或市场咨询部门的研究报告。有的是以电子形式

的,如报刊、政府公告等。

f.数据源元数据属于元数据管理层范围,在数据仓库哦那广州的所有数据都需要通过

元数据管理层来进行管理、控制。源数据的元数据描述了关于源数据的一些说明,

包含了源数据的来源,源数据的名称、源数据的定义、源数据的创建时间等对源数

据进行管理所需要的信息。源数据的来源说明源数据是从哪一个系统、哪一个历史

数据、哪一个办公数据、哪一个Web页上、哪一个外部系统抽取来的。源数据的名

称,用以说明源数据现在和过去的名称。源数据的定义,用以说明源数据在数据仓

库中的作用、用途及数据类型,长度等基本属性。数据的变化时间是指源数据在数

据源的创建时间和在数据仓库中的创建时间及变化时间。这些信息主要用于对源数

据的管理:

B.数据准备区

由于数据仓库的数据来源十分复杂,这些数据在进入数据仓库之前常常需要在数据

准备区内进行筛选、清理等数据的标准化处理。因此,数据准备区的功能结构部分由数

据的标准化处理、数据的过滤与匹配、数据的净化处理、标明数据的时间戳、确认数

据质量与源数据抽取和创建等操作组成。

7数据的标准化处理彳元数彳

「薮丽还i现海1据抽;

数据的净化处理取与

乡标明数据的时间戳Jg

「觥薮琬质瓦~~1i

a.数据的标准化处理主要是将同名不同内容、同内容不同名、同名同内容但不同结

构的数据进行统一处理。例如,在不同数据源中,关于销售地点“上海市”,有的

系统用了“上海”,有的用了“上海市”,有的甚至用了“沪”等值,但是它们的

实际含义都是一致的,为此需要对这些值进行统一处理,这样才不至于导致数据

仓库的应用混乱。

b.数据的过滤与匹配主要是对进入数据仓库的数据按照用户的需要进行筛选,将不

需要的数据从数据源中剔除,而留下的数据要能够与数据仓库用户的需求相匹配。

c.数据的净化处理主要是对准备加载到数据仓库中的数据进行正确性判断,将那些

数据内容错误、格式错误或类型错误的数据进行修正、净化处理。例如,数据仓

库中的客户邮政编码是字符类型,但在有的数据源中却以数字类型表示。此时,

就需要将其转换为字符类型。

d.表明数据的时间戳,由于在数据仓库重要进行数据的概括,以分析事务的发展趋

势。而数据的概括与发展趋势的分析,都需要知名数据的时间属性。因为数据的

概括往往是基于时间进行的,而趋势的分析也是以时间为基轴描绘的。因此在将

数据夹加载到数据仓库之前必须完成数据的时间戳设置,使时间具有时间属性。

e.确认数据质量,数据仓库中数据质量的高低是数据仓库能否成功的关键因素之一。

例如,在对客户进行邮寄广告促销时,由于客户名称的错误,可能会激怒客户,

导致客户转向其他供应商而造成客户的流失。有的又会因客户地址的错误耽误时

间,造成邮寄广告费的浪费。这些信息应用的失败,都是由于数据质量的低劣所

造成的。因此,需要在数据准备区通过手工的方式或软件自动检测的方式来完成

对数据质量的确认。

元数据抽取与创建,在数据的求精过程中,还需要从数据源中确定这些源数据的

元数据内容,完成元数据的名称与定义,以及其有关描述,为今后数据仓库的管

理提供基础。

数据仓库功能结构

数据仓库的功能结

构部分有数<数据重整;数据仓库创建;元数据管理<据重

整、数据仓除触嬴暹夕“数据仓库的建模元数据浏览与导航库创建

,y/ar/ar/ar/ar/ar/ar/ar/ar/ar/ar/ar/ar/ar/ar/a>/A2,,彳ATffl2立R

和元数据管1数据概括与聚集1数据的概括1

分组成,如

:数据预算与推导?数据的聚集?元数据的创建1

a.数据重

数据翻译与格式化数据的调整与确认‘

整是为

使数据1数据转换与映射1建立结构化查询1创建词汇表

仓库能

够更好地为用户服务所进行的一些操作。

•数据集成与分解。对来自不同系统的数据进行集成,创建新的数据。有时按照

数据处理的需要,在将数据存储到数据仓库过程中,可能要将一个表中的数据

分解成数据仓库的两个或多个数据块。

•数据的概括与聚集。就是根据某一属性将数据进行汇总。例如,客户每天的采

购就是特定客户在一天内的所有采购总和。数据的概括处理就要根据用户使用

数据仓库的需要,预先进行数据的汇总与叠加操作,为使用数据仓库提供便利。

•数据的预算与推导。为提高数据仓库信息使用者的使用效率,在数据仓库中需

要事先对信息使用者的常规操作进行预先设置。即无须用户干预就可以实现数

据的预算和推导。作为数据预算和推导的算法应该作为数据仓库的元数据进行

存储和管理。

•数据的转换与映射、数据的翻译与格式化(跟数据准备区的操作类似)

b.数据仓库创建...................重点

作为数据仓库的核心功能,应该完成数据仓库的建模、数据的概括、数据的聚集、

数据的调整与确认,并建立结构化查询。

•数据仓库的建模。从已经创建的数据模型中导出数据仓库的数据模型(星型模

型或雪花模型),如果没有数据模型,就需要构造新的数据模型。在数据仓库

模型的书籍过程中,要完成数据的分割、主题域和粒度的确认,实际数据库的

设计模型和数据仓库的物理数据库模式的定型等工作。

•数据的概括。根据用户的需要,从初步的概括数据中创建用户所需的高度概括

数据.

•数据的聚集。从拥有大批量数据的数据仓库中进行查询分析,是一个非常费时

的操作。例如,在一个有1000个产品和10万个客户的数据仓库中,为执行一

个概括性查询,就要涉及1亿条记录,需要较长的时间才能完成,这对经常查

询的信息使用者而言是无法接受的。因此,在数据仓库中,常常要根据一些典

型的查询需求,对数据仓库中数据进行聚集处理。例如,可以对产品的地区分

布、品牌的分布进行事先聚集,只有这样才能使用户在数据仓库的使用中每次

都感受到使用时间的一致性和快速性。

•数据的调整与确认。在数据完成概括聚集以后,需要对概括与聚集后的数据进

行确认,如果数据概括、聚集的效果不好,还需要进行一些调整,以保证数据

仓库的使用效果

•建立结构化查询。为提高一些结构化查询,可以预定义这些查询,并将这些结

构化查询结果作为元数据存储在元数据库中。当用户进行数据仓库的查询时,

只要从元数据库中取回就可,这样可以大大提高数据仓库的运行效率。

c.元数据管理...................重点(元数据有这么重要

吗???????wwq)

数据仓库的功能能够发挥在很大的程度上取决于元数据的管理功能,元数据管理功

能的强弱决定了数据仓库功能发挥的好坏。元数据管理功能主要包含元数据浏览与导

航、元数据的创建和创建词汇表。

•元数据浏览与导航。数据仓库的建设者在数据仓库的建设和维护中需要利用数

据仓库的元数据浏览和导航功能,而且数据仓库用户在使用数据仓库时也需要

利用元数据的浏览及导航功能对数据仓库所提供的各种决策辅助信息加以说

明。

•元数据创建。在数据重整过程中需要从集成数据、概括数据和衍生数据中捕获

元数据。确定数据的粒度和分割程度、数据的翻译和转移规则,捕获映射规则

及数据源和数据仓库之间的映射关系。这些都是元数据创建的内容。

•创建词汇表。在创建数据仓库的过程中,需要根据所捕获的元数据建立元数据

的词汇表。在词汇表中一般需要包含元数据的名称,别名,简述,创建时间,

上次更新时间,关键字,数据来源,转移/转换信息,概括或推到算法等内容。

D.数据集市/知识挖掘库

数据集市/知

—————..

识挖掘库的\求精与重整;数据集市/知识挖掘库创建」元数据管理J

功能结构与过滤与匹配建模元数据浏览与

数据仓库的

I集成与分割\概括I导航I

功能结构极,----------------------------,

概括与聚集聚集元数据的抽取

为相似,如jJJJ

预算与推导调整与确认与创建

(底赢赢筋藏嬴厂—套遏雨花而厂询港而装可

只是数据集fE

f

//如,a/如,婚/如,婚/如,婚/如,婚/如,婚/如,婚/如,婚/婚“,―rgtr,“gv,gr-r,“gv,gr-r,“gv,gr-r,“gv,gr-r,grgv,/,,g,g,g,g,g,g,g,g,g,g,g,g,a

的在于为某一部门或某一领域的用户提供服务,而设立数据仓库的目的则在于为企业

全体用户提供服务。因此,可以将数据集市/知识挖掘库看成是数据仓库的一个逻辑上

或物理上的子集。

E.数据仓库的存取与使用

数据仓库的存取与使用结构主要用于实现数据仓库的最终功能,为数据仓库的最终

用户提供进行决策分析和知识挖掘的功能。为达到这一目的,数据仓库的数据存取与使

用结构应该包含数据仓库存取与检索、数据仓库分析与报告及元数据管理,如图

数据仓库存取与检索数据仓库分析与报告元数据管理

数据仓库直接存取;报表处理工具:元数据管理与;

数据集市存取;分析与决策支持工具报表I

mm——mm;

数据集市重整;业务建模与分析处理工具;元数据抽取与:

转换为多维结构I数据挖掘工具|创建7

〃》z®z®z®z®z®z®z®z®z®z®z®z®z®z®z®z®z®z®z®z®z®z®z«s*——~i

创建局部存储I图形工具II

“薮落礁系最卫益藁菽为i面盘前亍荡乱薮潴苍簟赢据集市的功能,利向这些

功能可以将用户所检索的数据转换为多维数据并存入多维数据库。可以将数据仓库或数

据集市中的数据“卸载”下来,成为局部存储数据,便于用户进行局部分析、数据挖掘、

翻译转换等处理。这就需要解决如何从预定义的查询到即席的查询、到迭代的查询、到

细剖查询的实现。

为用户使用方便,这里还提供了管理与使用数据仓库元数据管理功能。这些功能可

以帮助用户了解数据仓库或数据集市的名称、描述说明、数值、价值来源及版本内容,

了解数据的名称、数值等内容和数据从抽取到存入数据仓库或数据集市的转移过程,了

解数据的定位和数据的可靠性,以及如何存取和使用数据。这些功能有助于用户掌握数

据的正确内容、信息的粒度、信息的概括成都、原始数据的来源和日期。并可以按照其

上下文查看数据,将数据转换为信息。此外,还可以验证数据源的质量,在数据抽取和

存储过程中用于判断数据的可靠性和质量。

数据仓库分析与报告为最终用户使用数据仓库提供了一组工具,可以是用户能够依

靠数据仓库或数据集市进行决策分析或知识挖掘。这些工具包含了报表处理工具、分析

与决策支持工具、业务建模与分析处理工具、数据挖掘工具等。

具体地说,这些工具具有地理信息系统(GIS)、数据挖掘工具、联机分析处理

(OLAP),可视化工具、经理信息系统(EIS)、统计工具、internet浏览器、元数据浏

览器、第四代语言、图形用户界面(GUI)建立程序、电子表格、报表生成器和数据访

问工具等。

地理信息系统(GIS)可以利用数据仓库中的数据图示化地表达数据关系。例如,

可以通过GIS了解生活在某一特定销售点范围之内的客户数量,或在两个销售点之间

的平均到达时间。利用GIS还可以确定对公司感兴趣的潜在客户居住区域,帮助企业

确定新的销售点位置。

利用数据挖掘工具和统计工具可以找出隐臧在大量数据背后的商业规律。例如,哪

些客户可能会在信用上发生问题,哪些客户可能会对企业的促销手段作出积极的反应。

连接分析处理和经理信息系统能够以便捷的手段让用户完成复杂的数据查询,并能

以形象的图形、图像和表格的方式给出决策分析的结果。

Internet浏览器主要为用户的WEB数据仓库使用提供便利。

电子表格作为办公处理软件,许多企业都已经拥有。电子表哥也可作为数据仓库的

分析工具加以应用。但是将数据仓库中的数据转入电子表格还需费一番周折。

可视化工具、元数据浏览器、第四代语言、图形用户界面(GUI)建立程序、报表

生成器和数据访问工具等都可以作为数据仓库的范文分析工具使用,知识在实际应用中

各有千秋。例如,OLAP可以提供强大的数据查询功能,但是报表的生成能力就不如报

表生成器。而第四代语言与GUI建立程序可以提供受限的查询界面,并能知道用户完

成查询。这对数据仓库的安全使用与知道新用户使用数据仓库十分有利,但不利于有经

验的用户对数据仓库的知识挖掘。此外,根据需要也可以用第四代语言建立一个OLAP

工具。

2.数据仓库的管理层

数据仓库的运行除依靠上面所介绍的数据仓库基本功能外,还需要能对这些基本功能进

行管理的结构框架,这样数据仓库才能正常运行使用。数据仓库管理层由数据仓库的数据管

理层和数据仓库的元数据管理层组成。

A.数据仓库的数据管理层

包含数据抽取与新数据需求和查询管理,数据加载、存储、刷新和更新系统,安全

性与用户授权管理系统,数据归档、恢复及净化系统。

数据抽取与新数据需数据加载、存储、刷安全性与用户授权管数据归档、恢复及净

求和查询管理新和更新系统理系统化系统

数据抽取与新数据需求和查询管理主要负责完成从数据源中抽取数据的管理;用户

在数据仓库应用中出现对新数据的要求时,从新的数据源或当前数据源中按照用户需求

追踪和充实新数据;对数据查询中的并行处理工作的管理。

数据加载、存储、刷新和更新系统负责对从数据源中所抽取的数据在完成筛选、净

化处理以后,将这些数据加载、存储到数据仓库中:捕获数据源中的数据变化,用最新

数据充实数据仓库;根据用户的需求和数据仓库管理的要求对数据仓库进行更新等工

作。

安全性与用户授权管理系统主要负责数据仓库的安全管理工作,禁止用户对数据仓

库进行某些非法操作;根据用户的管理权限和工作需要给予用户对数据仓库的不同操作

权限。

数据归档、恢复及净化系统中的数据归档、恢复功能主要负责定期对数据仓库中的

数据进行归档、备份,以便在数据仓库遭到破坏时可以恢复;而净化系统则负责对从数

据源所抽取的数据进行数据的筛选、数据标准的统一、数据内容的统一等各种求精、重

整净化工作的管理。

B.数据仓库的元数据管理层

数据仓库的有效性完全建立在数据的定义(元数据)之上。元数据已经渗透到数据

仓库的各种活动中,数据源的性质有所获得数据的定义来刻画,增加时间戳就需要有与

元数据相关的时间信息,元数据还要为数据仓库的数据操作提供索引。

数据仓库的元数据管理层负责管理数据仓库所使用的元数据,其中包括数据仓库、

数据集市/知识挖掘库和词汇表管理,元数据抽取、创建、存储和更新管理,预定义的

查询、报表和索引管理,刷新和复制管理,登录、归档、恢复与净化管理。如图:

1括数据仓库、数元数据抽取、创预定义的查询、,刷新和复制管理;登录、归档、恢j

,据集市/知识挖建、存储和更新报表和索引管理1复与净化管理;

1掘库和词汇表管管理1

!理」

____________JL—J

a.数据仓库、数据集市/知识挖掘库和元数据词汇表管理

元数据管理层利用元数据词汇表来管理数据仓库和数据集市中逻辑数据模型和

物理数据模型,以及与技术和业务相关的数据说明。

元数据主要包含两大部分的元数据:一类元数据用于说明从数据源想数据仓库

转移的数据,主要方便数据仓库维护人员对数据舱仓库的应用;另一类元数据用于

建立从数据仓库想数据仓库前端工具的映射,以方便用户对数据仓库的使用。

b.元数据抽取、创建、存储和更新管理

元数据在数据仓库对数据源进行数据抽取、清理、加载等操作过程中需要对所

涉及的元数据进行抽取、创建、存储和更新处理。即从数据源中将关于这些数据的

说明抽取出来,如果在元数据库中没有这些元数据,就需要创建并存储在元数据库

中。如果这些元数据已经存在于元数据库中,则需要根据最新情况进行更新。

C.预定义的查询、报表和索引管理

在元数据管理中还需要对设计人员为数据仓库用户预定义的查询和报表进行管

理,将预定义的查询和报表处理方式,甚至处理结果置于元数据库中,这样当用户

需要进行相同的预定义查询和报表时,就可以提供相应的结果。而预定义的查询和

报表处理方式也需要存储在元数据中。元数据管理层哈需要实现大型数据仓库的多

级索引、数据压缩和复合键等方面的管理。

d.刷新和复制、登录、归档、恢复与净化管理

当数据仓库所连接的数据源发生变化时,数据仓库的内容也要定期刷新。这些

刷新工作的进行需要依靠元数据库中所包含的有关说明。为保证数据仓库的安全,

需要经常定期进行复制。这样在数据仓库遇到破坏后,可以从备份中将数据仓库恢

复。数据仓库的备份与恢复工作也有赖于元数据的帮助。用户在使用数据仓库时需

要进行身份的验证,对用户的登录管理也离不开元数据的支持。元数据在加载进数

据仓库之前必须要进行净化处理,而净化处理的规则也需要元数据说明。

3.数据仓库的环境支持层

数据仓库的运行除需要数据仓库管理层对基本功能进行管理外,还需要有数据仓库的环

境支持层对基本功能提供支持。数据仓库的环境支持层有数据仓库数据传输层和数据仓库基

础层组成。

A.数据仓库的数据传输层

数据仓库中不同结构之间的数据传输,需由数据仓库的传输层完成,数据传输层包

含了数据传输和传送网络、客户-服务器代理和中间件、数据复制系统、数据传输的安

全和保障系统。如图

——————————,产

:数据传输和传送网络|客户-服务器代理和|数据复制系统|数据传输的安全和保|

\\中间件I\障系统\

a.数据传输层的组成

在数据传输层中的数据传输和传送网络包含网络协议、网络管理框架、网络操作系

统和网络。

从数据仓库的角度看,网络操作系统的性能应该支持内核线程、高达4TB的内存、

最大为1TB的特大型文件系统、大小可变的应用程序所用页面及并行处理,并有日志

文件系统、内存分页管理功能、动态加载核心模块功能,可以为数据仓库提供良好的可

恢复性能。而且操作系统应该遵循开放系统标准,能够支持系统的互操作,这样才能使

数据仓库在多操作系统环境中运行。

数据仓库中的网络问题在于贷款,在数据仓库的网络配置中可以将用户和系统数据

分隔到不同的网络中,以增加系统的整体带宽。系统数据流量可以通过100Base-TX以

太网、FDDI、ATM、千兆位或HIPPI接口,而用户数据流量则放在10/100Base-TX以

太局域网上。

b.客户一服务器代理与中间件

包含数据库网管、数据仓库的中间件、传输层的数据舱仓库数据发布和复制系统等。

数据库网管便于将数据仓库链接到其他软件产品上。

而数据仓库的中间件一般用于补充数据仓库中其他组件功能的不足,如用于监视数

据库与查询管理程序之间的TCP/IP包,这就可以提供关于数据仓库用户、被访问数据

库及访问时间等信息。利用这些信息可以对数据仓库的结构进行调整,提高数据仓库的

性能。目前许多数据库管理系统开始将各种中间件的功能添加到数据库管理系统中,英

雌,在选择中间件之前需要了解中间件的功能是否已经在数据库管理系统存在。

传输层的数据仓库数据发布和复制系统主要用于将数据源中的源数据库数据复制

到数据仓库的目标数据库上,或将数据仓库中的元数据库数据复制到数据集市的目标数

据库上。源数据库和幕布奥数据库可以在同一台机器上,也可以不再同一台及其上。数

据的复制可以根据制定的时间进行数据发送,还可以在数据发送过程中对发送数据进行

修改,然后再发送到目标数据库上。

c.数据复制系统

在传输层的复制系统中有发布与复制系统、数据库网管内定义的复制工具和专用的

数据仓库产品等。

d.数据传输的安全和保障系统

数据传输的安全和保障系统不仅要解决保障数据仓库中的数据安全问题,还需要保

护用户正常使用数据仓库的权利问题。因此数据仓库安全保障系统需要设立用户的安全

角色,明确哪些用户可以访问哪些数据,确认用户对数据的访问是否威胁到系统的安全;

为不同数据设立不同的安全级别,根据安全需要对数据进行安全分区;对用户进行鉴别,

并将鉴别的用户通知安全保障系统;保护用户访问数据的路径。

B.数据仓库的基础层

包含系统管理、工作流程管理、存储系统和处理系统部分,如图:

彳系统管理7工作流程管理彳存储系统彳处理系统彳

系统管理部分为数据仓库的设计者和最终用户提供执行、管理、终止工具和应用程

序等功能。

工作流程管理部分主要支持处理集成和管理,以协调各种工具、应用程序和操作有

条不紊地进行,正确完成对数据仓库和数据集市的抽取、刷新、复制、更新、聚集、概

括及其他维护人物和系统管理了任务。利用工作流程的管理实现对数据仓库和数据集市

的自动维护与刷新,并且可以提供预定义的报表和查询结果,以提高系统的设计者和最

终用户的工作效率。

存储系统为数据源、数据仓库、数据集市中的数据库目录提供了数据库和文件管理

器,为数据仓库的存取与使用提供多为的和本地的存储。

处理系统实际上是数据仓库核心的基本操作环境,即数据源、数据仓库、数据集市、

数据仓库存取与使用、中间件的操作环境。

数据仓库的基础结构层还需要考虑配置管理程序、存储管理程序、安全性管理程序、

软件分布管理程序、特许证管理程序、性能监控程序和容量分析程序等。

五.数据挖掘概述

数据挖掘(DM,DataMining)是基于数据库的知识发现(KDD,KnowledgeDiscovery

inDatabase)过程中最为关键的步骤,因此,在实际应用中对数据挖掘和KDD这两个数据

的应用往往不加区别。

1.数据挖掘的发展

经营管理的实际需要:进入21世纪以后,全球经济一体化的进程日益加快,企业所面

临的市场竞争压力日趋严重,企业经营管理者西夏王能够从企业基类的大量历史数据中找到

应对日趋严重的竞争压力良方,希望能够从这些数据中找到经营管理出现问题的根本原因。

例如,经营管理者往往希望了解企业的某些产品为什么销售业绩良好,是产品自身的原因?

还是销售的原因?如果是销售的原因,产品的销售人员在销售中采用了什么销售方式?处于

这些因素的考虑,是企业经营管理人员,特别是决策人员希望能够采用某种工具从这些数据

中去找原因,能够快速地从大量数据中挖掘出对经营管理有用的信息,以应对瞬息万变的市

场压力。

2.数据挖掘的定义

从技术角度和商业角度给出数据挖掘的定义。

A.数据挖掘的技术定义

数据挖掘是从大量的、不完全的、有噪声的、模糊的、随即的实际数据中,提取隐含

在其中的、人们所不知道的、但又是潜在有用的信息和知识的过程。

知识,如果从严格的意义上讲,热门们通常将概念、规则、模式、规律和约束等看作是

知识。但是知识都是相对的,是有特定前提和约束条件的,在特定领域中具有实际应用价值。

同时还要能够易于被用户理解,最好能用自然语言表达所发现的结果。

人们将数据看作是形成知识的源泉,数据挖掘就是从知识的源泉去挖掘知识。原始数据

可以是结构化的,如关系数据库中的数据;也可以是半结构化的,如文本、图像和图像数据;

甚至可以是分布在网络上的异构数据。发现知识的方法可以是数学的,也可以是非数学的;

可以是演绎的,也可以是归纳的。发现的知识可以用于信息管理、查询优化、决策支持和过

程控制等。

因此,数据挖掘是一门交叉学科,它把人们对数据的应用从低层次的简单查询,提升

到从数据库中挖掘知识,提供决策支持。在这种需求的推动下,汇集了不同领域的研究者,

尤其是数据库技术、人工智能技术、数理统计、可视化技术、并行计算等方面的

学者和工程技术人员。

B.数据挖掘的商业定义

数据挖掘是一种崭新的商业信息处理技术,其主要特点是对商业数据库中的大量业务

数据进行抽取、转化、分析和模式化处理,从中提取辅助商业决策的关键之时,即从一个

数据库中自动发现相关商业模式。

数据挖掘是利用统计学和机器学习的技术来探求哪些符合市场、客户行为的模式。对

于数据挖掘的应用不仅要依靠良好的算法建立模型,而且更重的是要解决如何将数据挖

掘技术集成到当今复杂的信息技术应用环境中。其次还需要有商务分析人员参与,

因为数据挖掘技术不具备人所特有的经验和直觉,不能区分挖掘出的哪些模式在现实中是有

意义的,哪些是无意义的。因此,商务分析人员的参与是必不可少的。

数据挖掘是一类深层次的数据分析技术。

数据挖掘工具与传统数据分析工具的比较如图:

传统数据分析工具(DSS/EIS)数据挖掘工具

工具特点回顾型的、验证型的预测型的、发现型的

分析重点已经发生了什么预测未来的情况、解释发生的原因

分析目的从过去的事实中列出管理人员感兴趣的锁定未来的可能客户,以减少未来的

事实销售成本

数据集大数据维、为重属性数、维中数据均是少量数据维、为重属性数、维中数据均是

小的庞大的

启动方式企业管理人员、系统分析员、管理顾问启数据与系统启动、少量的人员指导

动与控制

技术状况成熟统计分析工具成熟,其他在发展中

六.数据挖掘技术与工具

随着海量数据搜集、强大的多处理器计算机和数据挖掘算法这3中基础技术的发展和成

熟,数据挖掘技术已在数据仓库系统中得到了广泛的应用。

A.常用的数据挖掘技术

数据挖掘的发展受到数据库系统、统计学、机器学习、可视化技术、信息技术及其他学

科的影响,如神经网络、模糊/粗糙集理论、知识表示、归纳技术与高性能计算等。从常用

的数据挖掘技术来看,可以分成三大类:传统分析类、知识发现类和其他最新发展的数据

挖掘技术。

a.传统分析类

传统的统计分析(或称数据分析)技术中使用的数据挖掘模型主要有线性分析和非线性

分析、回归分析、逻辑回归分析、单变量分析、多变量分析、时间序列分析、最近邻算法和

聚类分析等技术。

利用这些技术可以检查那些异常形式的数据,然后,利用各种统计模型和数学模型来几

时这些数据,解释隐藏在这些数据背后的市场规律和商业机会。例如,可以使用统计分析工

具寻求最佳商业机会来增加市场份额和利润,利用全面质量管理程序来提高产品或服务的质

量使客户更加满意,通过对流水线产品制造的调整或企业业务过程的重整来增加利润。在所

有的数据挖掘技术中,统计型数据挖掘工具是数据挖掘技术中最成熟的一种,已经在数据

挖掘中得到了广泛的应用。

b.知识发现类

知识发现类数据挖掘技术是与统计类数据挖掘技术完全不同的一种挖掘技术。它可以从

数据仓库的大量数据中筛选信息,寻找市场可能出现的运营模式,发掘人们所不知道的事

实。

知识发现类数据挖掘技术包含人工神经网络、决策树、遗传算法、粗糙集(RS)和关联

规则等。

人工神经网络是模拟人脑神经元结构,以MP模型和Hebb学习规则为基础,建立三大

类神经网络模型:前馈式网络、反馈式网络和自组织网络。前馈式网络以感知机、反向传播

模型、函数性网络为代表,可用于预测、模式识别等领域;反馈式网络以Hopfield的离散

模型和连续模型为代表,分别用于联想记忆和优化计算;自组织网络以ART模型、Koholon

模型为代表,用于聚类处理。

决策树是一个类似于流程图的树结构,其中每个内部节点表示在某一属性上的测试,每

一个分枝代表一个测试输出,而每个树叶节点代表类或类分布。由于每个决策和事件(即自

然状态)都可能引出两个或多个事件,导致不同的结果,决策树在数据挖掘中一般用于数据

的分类处理上,使具有某种内在规律的分析对象处于同一类中。

遗传算法是近几年发展起来的一种崭新的全局化算法,它借用了生物遗传学的观点,通

过自然选择、遗传、变异等作用机制,实现各个个体的适应性提高。解决问题是,要对解决

问题的模型结构和参数进行编码,一般用字符串来表示,这个过程就将问题符号化、离散化

了。遗传算法由3个基本过程组成:繁殖(选择)是从一个旧种群(父代)选出生命力强的

个体,产生新种群(后代)的过程;交叉(重组)是选择两个不同个体(染色体)的部分(基

因)进行交换,形成新个体的过程;变异(突变)是对某些个体的某些基因进行变异的过程。

遗传算法的目的在于获取最优化的知识集合。

粗糙集能够在缺少关于数据先验知识的情况下,只以考察数据的分类能力为基础,解决

模糊或不确定的分析和处理问题。粗糙集用于从数据库中发现分类规则的基本思想是将数

据库中的属性分为条件属性和结论属性,对数据库中的元组根据各个属性不同的属性值分成

相应的子集,然后依据条件属性划分的子集与依结论属性划分的子集之间上下近似关系生成

判定规则。所有相似对象的集合称为处登记和,它形成知识点基本成分;任何初等集合的病

机称为精确集,否则一个集合就是粗糙的(不精确的)。每个粗糙集就具有边界元素,也就

是那些既不能确定为集合元素也不能确定为集合补集元素的元素,而精确集市完全没有边界

元素的。粗糙集一般用于对象的相似性或共性分析、因果关系及范式挖掘等。

关联规则是数据挖掘的一种主要形式,是与大多数人想象的数据挖掘过程最为相似的一

种数据挖掘形式,即在大型数据库中“淘金”---人们感兴趣的规则。在关联规则系统中,

规则适用“如果怎么样、怎么样、怎么样,那么久怎么样”的简单形式表示的。关联规则主

要用于查找那些由于某些事件的发生而引发的另外一些事件,这种关联规则越来越引起企

业管理人员的注意。

C.最新发展的数据挖掘技术

在数据挖掘技术的最新发展中包含了文本数据挖掘、Web数据挖掘、可视化系统、空间

数据挖掘和分布式数据挖掘技术等。

文本数据挖掘和Web数据挖掘是近几年新发展起来的崭新数据挖掘技术,前者主要是为

了满足对非结构化信息挖掘的需要,后者则是正对日益发展的Internet技术所带来的大批量

网络信息的挖掘。

可视化系统是为了使数据挖掘能够以图形或图像的方式在屏幕上显示出来,并能进行交

互处理,这样就可以很清楚地发现隐含的和有用的知识。可视化技术可分为两类:表示控件

数据场的体可视化技术和表示非控件数据的信息可视化技术。可视化数据挖掘可以分为数据

可视化、数据挖掘结果可视化和交互式数据可视化挖掘4类。

控件数据挖掘。

分布式数据挖掘是基于分布式数据库的,利用分布式算法从分布式数据库中挖掘知识的

技术。

B.常用数据挖掘工具

由于数据挖掘工具在企业经营管理、政府行政管理决策及科学研究等领域获得了广泛的

应用,许多软件开发商或研究机构纷纷推出了各式数据挖掘商品化工具。这些工具可以按照

使用方式、所采用的数据挖掘技术和应用范围进行分类。

a.按使用方式匪类的数据挖掘工具

可分成决策方案生成工具、商业分析工具和研究分析工具三类。

决策方案生成工具往往是针对某个特定行业或特定问题而开发的一类数据挖掘工具,如

金融行业的欺诈检查工具,零售行业的客户流失分析工具。

商业分析工具有两种类型,一种是只为用户提供一个黑箱,用户只需要将需要分析的对

象和相关的一些环境因素提供给工具,数据挖掘工具将自动给出数据挖掘的结果,其内部的

一些复杂模型并不向用户展示。这种类型的数据挖掘工具适合管理人员使用。另一种数据

挖掘工具则向用户展示数据挖掘模型,用户可以根据自己的需要去选择数据挖掘模型或对数

据挖掘模型进行适当的控制。例如,将决策树展示给用户,用户可以对决策树进行切片处理。

这一类工具主要为企业管理顾问或商业分析人员服务。

研究分析工具为用户提供了更大的数据挖掘应用的自由空间,其用户主要是数据挖掘研

究人员或商业分析人员。这些工具包含了一些数据挖掘研究领域的最新研究成果如文本挖

掘、Web挖掘或图形、可视化工具等。

b.按数据挖掘技术分类的数据挖掘工具

可分成基于神经网络的工具、基于规则和决策树的工具、基于模糊逻辑的工具和综合型

数据挖掘工具。

基于神经网络的工具由于有非线性数据的快速建模能力,在实际应用中越来越流行。开

发过程基本上是首先进行数据聚类,然后分类计算权值。神经网络很适合非线性数据和含

噪声数据,所以在市场数据库的分析和建模方面应用比较广泛。

基于规则和决策树的工具则采用规则发现或决策树分类技术来发现数据模式和规则,其

核心是某种归纳算法。这类工具通常是对数据库的数据进行开发,生成规则和决策树,然后

对新数据进行分析和预测。这类工具的主要优点是规则和决策树都是可读的。

基于模糊逻辑工具的数据挖掘方法是应用于模糊逻辑进行数据查询、排序等。该工具使

用模糊概念和“最近”搜索技术的数据查询工具,它可以让用户指定目标,然后对数据库进

行搜索,找出接近目标的所有记录,并对结果进行评估。

综合性数据挖掘工具采用了多种数据挖掘方法,这类工具一般规模较大,适合对大型数

据库的数据进行挖掘。综合性数据挖掘工具的数据挖掘能力很强,但价格昂贵,并且用户需

要花很长的时间进行学习,才能掌握这里工具的应用。

C.按应用范围分类的数据挖掘工具

•专用型数据挖掘工具

主要用于某一特定领域。由于专用型的数据挖掘工具针对性较强,采用了一些特殊

的算法对特定的数据集进行处理,数据挖掘的效率较高,挖掘出的知识可靠性也高,

但是应用范围受到限制。

•通用型数据挖掘工具

一般不考虑所挖掘对象的实际含义,只提供各种通用挖掘算法,允许用户自定义数

据源进行多模式挖掘。由于这种类型挖掘算法的通用性,在数

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论