(计算机应用技术专业论文)基于分析规则的数据仓库智能化研究.pdf_第1页
(计算机应用技术专业论文)基于分析规则的数据仓库智能化研究.pdf_第2页
(计算机应用技术专业论文)基于分析规则的数据仓库智能化研究.pdf_第3页
(计算机应用技术专业论文)基于分析规则的数据仓库智能化研究.pdf_第4页
(计算机应用技术专业论文)基于分析规则的数据仓库智能化研究.pdf_第5页
已阅读5页,还剩53页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

上海大学硕士学位论文 t h ep o s t g r a d u a t et h e s i so fs h a n g h a iu n i v e r s i t y 摘要 随着信息化的发展,各种组织面临着海量数据的管理和分析,从而对决策分析 技术带来了新的挑战。数据仓库智能化( i n t e l l e c t u a l i z a t i o n o f d a t a w a r e h o u s e ,简称 w ) 为解决这一问题提供了一种模型。本文工作以超市管理为背景,对数据仓 库在决策的智能化方面进行研究和开发。由于本文中d w 的关键环节在于分析规 月j ( a n a l y s i sr u l e s ) 的引入,因而提出了“基于分析规则的数据仓库智能化研究”的 课题。 数据仓库能有效进行海量数据管理,但是在决策的智能化方面尚存在缺陷。以 主动规则为特征的主动数据库( a d b ) 为d w 的研究提供了一条可供借鉴的途径, 分析规则得以提出。数据仓库和分析规则的结合是m w 系统设计的核心。 本文在研究d w 特点的基础上,对分析规则及其各组成部分进行了深入的分 析,并将分析规则和主动规则进行了比较。本文设计的d w 原型系统紧密结合了 分析规则引擎和数据仓库,以此形成统一的体系结构。基于这一设计思想,在原 型系统的实现方面,数据仓库部分利用了现有系统,分析规则引辈部分则由o l t p 与i d w 系统接口模块、分析规则定义模块、分析规则执行模块和冲突解决模块组 成。 本文阐述了分析规则引擎各模块的设计和实现,结合一个具体例子对原型系统 的应用进行了介绍。本文的工作具有面向实际应用的特点,并为进一步提高数据 仓库智能化的研究工作提供了一个基础。 关键词:决策分析,数据仓库智能化,分析规则,主动数据库,主动规则 上海大学硕士学位论文 t h ep o s t g r a d u a t et h e s i so fs h a n g h a iu n i v e r s i t v a b s t r a c t w i t ht h e d e v e l o p m e n to fi n f o r m a t i o nt e c h n o l o g y , e n t e r p r i s e s f a c ea f r a i r so f m a n a g i n ga n da n a l y z i n gl a r g e s c a l ed a t a ,w h i c hg i v er i s et oc h a l l e n g e si nd e c i s i o n s u p p o r tt e c h n o l o g y i n t e l l e c t u a l i z a t i o no fd a t aw a r e h o u s e0 d w ) i s as o l u t i o nt ot l l e p r o b l e m o u rr e s e a r c hi sb a s e do nd e v e l o p i n gas u p e r m a r k e tm a n a g e m e n ts y s t e m i n o r d e rt oe n h a n c ei n t e l l i g e n c eo f d a t aw a r e h o u s e t h e a n a l y s i sr u l ei si n t r o d u c e d d e s i g n i n g d a t aw a r e h o u s es y s t e mi sa ne f f e c t u a lw a yt om a n a g ea n da n a l y z em a s s d a t a b u tt h e r ea r el i m i t a t i o n si nt h ei n t e l l e c t u a l i z e dd e c i s i o n o nt h eo t h e rh a n d b e c a u s et h ed a t a b a s ei se x t e n d e db ya c t i v er u l e s ,t h ef u n c t i o no fd a t a b a s ei se n h a n c e d s oa n a l y s i sr u l ei sb r o u g h tf o r w a r d ) wi sar e s u l ti n t e g r a t i n gd a t ew a r e h o u s ea n d a n a l y s i sr u l e h lt h ed i s s e r t a t i o nt h ec h a r a c t e r i s t i c so fi d wa r es u m m a r i z e d t h ea n a l y s i sr u l e a n de a c hp a r to fi ta r et r a v e r s e d ;a n a l y s i sr u l ea n da c t i v er u l ea r e c o m p a r e d t o d e s i g na n dd e v e l o pap r o t o t y p es y s t e m ) wi sd i v i d e di n t oa n a l y s i sr u l ee n g i n ea n d d a t aw 缸e l l o u s e t h em a i ni d e ao ft h ef r a m e w o r ki st om a k et 1 1 ea n a l y s i sr u l ee n g i n e a n dt h ed a t aw a r e h o u s ei n t oi n t e g r a t i o n o nt h eo n eh a n dm sd a t e ,盯e h o u s ei s u t i l i z e d ,o nt h eo t h e rh a n da n a l y s i sr u l ee n g i n ei sd e s i g n e da n di m p l e m e n t e dc a r e f u l l y o u rw o r ki s f a c i n gr e a la p p l i c a t i o n ,a n dg i v er i s et om o r ea d v a n c e dr e s e a r c ho f d w k e yw o r d s :d e c i s i o ns u p p o r t ,i n t e l l e c t u a l i z a t i o no fd a t aw a r e h o u s e ,a n a l y s i sr u l e a c t i v er u l e i i 上海大学硕士学位论文 t h ep o s t g r a d u t et h e s i s0 fs h a n g h a iu n i v e r s i t y 1 1 传统数据仓库 1 。1 1 数据仓库简介 第一章问题提出 1 1 1 1 数据仓库概念 数据仓库的概念是由数据仓库之父w h i n m o n 于9 0 年代初期在其里程碑 式的著作( ( b u i l d i n gd a t aw a r e h o u s e ) ) 中提出的。他定义数据仓库为面向主题的、 集成的、不可更新的( 稳定性) 、随时间不断变化( 不同时间) 的数据集合,用以 支持经营管理中的决策制定过程。数据仓库的主要特点有: “面向主题”与传统数据库“面向应用”相对应。主题是一个在较高层次上将 数据归类的标准,每一个主题对应一个宏观的分析领域。 “集成的”指在数据进入数据仓库之前,必须经过数据加工和集成,这是建 立数据仓库的关键步骤,首先要统一原始数据中的矛盾之处,还要将原始数据 结构做一个从面向应用向面向主题的转变。集成性以多种形式表现出来,如一 致的命名转换、一致的变量度量、一致的编码结构、一致的数据物理属性等 “稳定性”指数据仓库反映的是历史数据,而不是日常事务处理产生的数据, 数据经加工和集成进入数据仓库后是极少或根本不修改的。数据一旦被放入数 据仓库中,除非特别需要,其值一般不会被更新 “随时间不断变化”数据仓库是不同时间的数据集合,它要求数据仓库中的 数据保存时限能满足进行决策分析的需要,而且数据仓库中的数据都要标明该 数据的历史时期 1 1 1 2 数据仓库结构 数据仓库中的数据分为四个级别:早期细节级、当前细节级、轻度综合级、 高度综合级。源数据经过综合后,首先进入当前细节级,并根据具体需要进行进 一步的综合,从而进入轻度综合级乃至高度综合级,老化的数据将进入早期细节 级。由此可见,数据仓库中存在着不同的综合级别,一般称之为“粒度”。粒度越 大,表示细节程度越低,综合程度越高。 数据仓库中还有一种重要的数据元数据( m e t a d a t a ) 。元数据是“关于数 据的数据”,如在数据库中的数据字典就是一种元数据。在数据仓库环境下,主要 上海大学硕士学位论文 t h e p o s t g r a d u a t et h e s i so fs h a n g h a ju n i v e r s n y 有两种元数据:第一种是为了从操作性环境向数据仓库转化而建立的元数据,包 含了所有源数据项名、属性及其在数据仓库中的转化;第二种元数据在数据仓库 中是用来和终端用户的多维商业模型前端工具之间建立映射,此种元数据称之为 d s s 元数据,常用来开发更先进的决策支持工具。 下面是一个典型的数据仓库的数据组织结构( 如图1 1 ) 图l1 数据仓库数据组织结构 高度综合级 轻度综合级 当前细节级 早期细节级 数据仓库作为一个信息提供平台,它是从业务处理系统中获得数据,主要以星 型模型和雪花模型进行数据组织,为用户提供各种手段从数据中获取信息和知识。 数据仓库系统至少应该包含数据获取( d a t a a c q u i s i t i o n ) 、数据存储( d a t as t o r a g e ) 、 数据访问( d a t a a c c e s s ) 三个关键部分。图1 2 从功能结构的角度描述了数据仓库 系统。 业 il 数据抽取ll 用户 匿三= ;习 a 电 jj 数据转换f | :卜户 画 口虹 | i 数据加载 l 画 卵 a 睡 i 数据获取ii 数据存储fl 数据访问 图1 2 数据仓库系统 上海大学硕士学位论文 t h ep o s t g r 如u a t e t h e s i so fs h a n g h p du n i v e r s l t y 1 1 1 3 数据仓库设计中的几个重要概念 e t l e t l ( e x t r a c t t r a n s f o r m a t i o n l o a d ) 一用户从数据源抽取出所需的数据, 经过数据清洗、转换,最终按照预先定义好的数据仓库模型,将数据加载到 数据仓库中去。 粒度 数据仓库的数据单位中保存数据的细化或综合程度的级别。细化程度越 高,粒度级就越小;相反,细化程度越低,粒度级就越大。 分割 结构相同的数据被分成多个数据物理单元。任何给定的数据单元属于且仅 属于一个分割。 1 1 2 数据仓库的局限和发展 数据仓库作为一个概念已经发展成熟。各大数据库厂商纷纷宣布产品支持数据 仓库并提出一整套用以建立和使用数据仓库的产品。比如m i c r o s o f t 公司的数 据仓库解决方案;n f o 鼢舡x g o n g s d e 公司的数据仓库解决方案;o r a c l e 公 司的数据仓库解决方案;s y b a g e 公司的交互式数据仓库解决方案等等。国际上许 多重要的学术会议,如超大型数据库国际会议( v l d b ) ,数据工程国际会议( d a t a e n g i n e e r i n g ) 等,都有专门研究数据仓库( d m a w a r e h o u s i n g ,简记为d w ) 、联机 分析处理( o n l i n e a n a l y t i c a lp r o c e s s i n g ,简记为o l a p ) 的论文。 数据仓库存在下面几个问题: 被动的分析数据和作决策都要用户手工参与,在用o l a p 技术进行多维分析 时往往是由用户提出分析要求再回答这些问题。 实时性较差常规数据仓库中的数据是从数据源经过集成等一系列过程装载 的,这种过程数据处理量大,一般是周期性进行。 事务处理和决策支持的分离数据仓库就是为了提高决策支持的能力,对于事 务处理是不支持的。 为了提高数据仓库的性能,对其的研究在不断深化。下面对数据仓库的一些 研究进行介绍。 1 智能数据仓库( i n t e l l i g e n t d a t aw a r e h o u s e ) 在智能数据仓库中,知识库负责管理知识处理。知识处理用到的不仅是历 上海大学硕士学位论文 t h ep o s t g r a d u a t et h e s i so fs h a n g h a iu n i v e r s i t y 史数据,接近于实时的主动数据非常重要。智能数据仓库不仅能提供企业信息 还能告诉你这样处理这些信息。智能数据仓库对数据的实时性要求较高。它将 改变第一代数据仓库中完全由分析人员和用户提问,然后回答的模式。这类数 据仓库能不停地向自己提问,当找到需要行动的答案后,再通知相应人员。 2 实时数据仓库( r e a l t i m ed a t aw a r e h o u s i n g ) 实时数据仓库将在实时性上加强,这种数据仓库不仅能满足“战略”决策 的需要,还能提供对“战术”决策的有效支持。 3 面向对象数据仓库( o b j e c t o r i e n t e d d a t a w a r e h o u s e ) 第一代数据仓库基本上都使用关系数据模型,而下一代将把面向对象技术 引入到数据仓库中,届时,数据仓库将支持复杂数据类型。利用面向对象技术 的先进性,这类数据仓库将支持复杂对象的建模,利用对象表示更利于对象的 共享和更新。 1 2 “事件一条件一动作”规则及在数据库中的应用 “事件一条件一动作”规则( e c a 规则) 【2 】具有很强的语义表达能力,可以支 持完整性保持、派生数据维护、生产监控、市场监控和决策支持系统等各种应用, 作为主动数据库系统的主动服务机制已得到广泛地接受。 简单地说,e c a 规则的职能是:当规则事件发生时,系统实时或在规定时刻检 查规则的条件,如满足则执行规则的动作,e c a 规则与c a 规则和产生式规则的 主要区别是:它的事件作为个相对独立的成分,具有专门的检测机制,有更强 的能力描述数据库内外的各种状态变化。 e c a 规则是主动数据库中的重要部分。一个主动数据库系统( a d b s ) 功能上 由一个传统数据库系统( d b s ) 和一个事件驱动的知识库,简称事件库( e b ) 及 相应的事件监视器( e m ) 组成,可以用公式表示为: a d b s = d b s + e b + e m 其中d b s 是一个传统的数据库系统,用来存储数据和对数据进行维护管理和 运用,事件库是一组由时间驱动的知识的集合,每一项知识表示在相应的事件发 生时,如何来主动地执行其中包含的由用户预先设定的动作。e m 是一个随时监视 e b 中的事件是否已经发生的监视模块,一旦监视到某事件发生时就主动地触发系 统,按e b 中指明的相应知识执行其中预先设定的动作。 主动规则( e c a 规则) 的一般形式如下: d e f i n er u l e o n 上海大学硕士学位论文 t h ep o s t g r a d u a t e1 h e s i so fs h a n g h a iu n i v e r s n y 数据库管理操作 事件表达式 i f 5 前数据库状态 d o 可以触发其它规则 c o u p l i n gm o d e 默认情况为i m m e d i a t e 【c o u p l i n gm o d e 指明被触发规则的处理时刻。规则耦合方 式立即( i m m e d i a t e ) 、延迟( d e f e r r e d ) 、分离( d e c o u p l e d ) 。 图1 3 触发器模型 主动数据库能发挥其主动性,关键是各种数据库事件与相联的触发器能协调地 有效工作,这依赖于触发器的激发与执行模型。每一事务由一个操作序列组成, 所以执行模型是一个三元组 ,其中的元素分别为事件、条件和活动。 下面是一种触发器模型【4 】( 如图1 3 ) : 在这个描述的模型中同时有多种程序在运行:事务、监视器、动作,还有探 测器与调度程序。 1 3 m i c r o s o f ts q l s e r v e r 数据仓库结构介绍 1 3 1 微软数据仓库策略 几年前,对于商界中的扩展数据仓库和决策支持可用性的总体目标,微软公 上海大学硕士学位论文 t h ep o s t g r a d u p 汀et h e s i s0 fs h a n g h a iu n i v e r s i t y 司采取了两个主动行动。这两个主动行动是:m i c r o s o f t d a t a w a r e h o u s i n g f r a m e w o r k ( 微软数据仓库框架) ,它是微软产品开发的标准;m i c r o s o f ta l l i a n c e f o rd a t a w a r e h o u s i n g ( 微软数据仓库联盟) ,它是将微软平台和数据仓储框架用于开发和市 场目的的一个工商业界的联合。这些主动行动是基于微软的中心策略【5 】的,它在以 下方面对数据仓储做出了贡献: 降低了获取、实现和维护的费用 重新定义了可伸缩性,不仅是为大型系统提供服务,还要为个人用户 提供服务。 有越来越多的第三方销售商提供的集成工具。 1 3 2 微软数据仓库框架 图1 , 4s q ls e r v e r 数据仓库框架 数据仓库框架是一个开放的体系结构,它描述了在数据仓库和数据市场的构 建和管理中,共享数据和元数据的机制。在数据仓库框架中的基本技术是o l ed b 数据接口和运行s q ls e r v e r 的m i c r o s o f tr e p o s i t o r y 实例。 m i c r o s o f tr e p o s i t o r y 是一个保存有关于软件组件和它们之间关系( 元数据) 的描 述性的信息的数据库。在用于数据库模式、数据转换和o l a p 数据库模式的 m i c r o s o f tr e p o s i t o r y 中已经定义了元数据模型。 数据仓库框架组件代表了在数据仓库过程中的完整的步骤,其中某些是由微 软公司发表的,但是微软客户和使用选择性技术的第三方商业界可以很容易地对 其进行扩展。 s q l s e r v e r2 0 0 0 将提供创建和维护一个数据仓库所需的许多基本组件:利用 图形化模式设计器进行数据库设计;通过数据转换服务( d a t at r a n s f o r m a t i o n s e r v i c e s :d t s ) 实现数据转换功能:通过o l a p 服务实现o l a p 功能等等。 上海大学硕士学位论文 t h ep o s t g r a d u a t et h e s i so fs h a n g h a il n q i v e r s i t y 1 4 本文组织 作者的主要研究、开发工作如下: 1 ,提出一种d w 的体系结构框架 2 分析了该框架中各部分功能和关系 3 对分析规则进行具体分析和定义 4 基于m s s q ls e r v e r 2 0 0 映现了一个原型系统 5 通过一个应用实例验证了该框架的运行状态 相应的,本文的具体组织如下: 第二章介绍了一种新的数据仓库概念模型,基于这种模型提出了i d w 的具体 设计框架; 第三章对分析规则的语义进行定义,分析了规则的各组成部分,并对分析规 则和主动规则进行了比较: 第四章分接1 :2 模块、分析规则定义模块、分析规则执行模块和冲突解决模块 对原型系统的设计和实现进行了介绍; 第五章举例验证本文中提出的具体实现框架,并对数据仓库的智能化研究的 发展进行了展望。 上海大学硕士学位论文 t h ep o s t g r a d u a t et h e s i so fs h a n g h a iu n i v e r s i t y 第二章基于新的概念模型的具体实现框架 本章首先介绍一种数的数据仓库概念模型6 1 ,该概念模型在传统数据仓库的基 础上引进了分析规则( a n a l y s i s r u l e s ) ,在一定程度上提高了数据仓库的智能性。 然后,给出作者设计的具体数据仓库框架。在本章里对具体的改进的数据仓库的 框架,将进行全面介绍。 2 1 应用分析规则的数据仓库概念模型 2 1 1 决策问题 本节介绍的概念模型旨在改善数据仓库的智能化水平。在此概念模型下能为 决策支持提供某些自动支持。决策过程 8 】是人们为实现一定目标而制定的行动方 案,并准备组织实施的活动过程,这个过程也是一个提出问题、分析问题、解决 问题的过程。图2 i 对决策过程进行了描述。 决策过程涉及到决策问题。决策问题一般用“结构”这个概念来描述,但是 至今还没有一个令人满意的定义。目前在决策支持的学术界普遍能接受的提法是: 把问题分成结构化、半结构化和非结构化。这是对问题结构化程度的三种不同描 述。所谓结构化程度,是指对某一过程的环境和规律,能否用明确的语言( 数学 的或逻辑学的,形式的或非形式的,定量的或推理的) 给予清晰的说明或描述。 如果能描述清楚,称为结构化问题;不能描述清楚而只能凭直觉或经验作出判断 的,称为非结构化问题;介于这两者之间的,则称为半结构化问题。 图2 1 决燕过程 如图2 1 所示,决策过程包括三个基本阶段,即确定目标( 也称理解活动) 、设 计方案( 亦称设计活动) 、评价方案( 亦称选择活动) 。这三种话动是循环进行的。 上海大学硕士学位论文 t h ep o s t g r a d u a t et h e s i so fs h a n g h a iu n i v e r s j t y 这三个阶段是区别结构化、非结构化和半结构化问题的根据。一般认为,结构化 的问题是指上述三个步骤( 理解、设计和选择三项活动) 都能使用确定的算法或 决策规则来确定问题,设计各种解答方式,并从中选择最佳的一个。在问题求解 过程中,这三个阶段都不能按上述的方法来决策问题,就称之为非结构化问题。 在某些条件下,其中的一个或两个阶段由于认识不清楚而无法完成清晰的描述, 但其余的阶段则具有良好的结构,能够对它清晰而准确的描述,就称这类问题为 半结构化问题。半结构化问题兼有结构化问题和非结构化问题的特点,一方面它 可以通过编制程序进行定量分析和计算,或者运用相对明确的决策原则和方法来 解决;另一方面它还要依靠人的知识、经验和直觉来判断和选择。 2 1 2 改进的数据仓库概念模型 从上- - d , 节的介绍可以了解到,决策问题中的结构化问题和半结构化问题是可 编程或部分可编程进行定量分析和计算的。这里引入的数据仓库概念模型是这样 一种模型,它提供对结构化问题和半结构化问题中的可编程部分进行自动决策的 解决方案。 图2 2 新的数据仓库概念模型体系结构 概念模型体系结构如图2 2 所示。从图中可以看出这种数据仓库模型的最重要 的一点是引进了分析规则( a n a l ,y s i s r u l e s ) 。分析规则的引进就是为了自动分 析和自动决策。分析规则的形式和主动数据库中的e v e n t c o n d i t i o n a c t i o n ( e c a 规则) 规则形式类似。这里的分析规则是对主动数据库中的e c a 规则进行 了改进,使其适合于数据仓库。因为这种规则用于模仿决策人员进行分析的过程, 所以定义其为分析规则。分析规则是新型数据仓库中的重要部分,将在下一章对 其进行详细的分析和研究。 上海大学硕士学位论文 t h ep o s t g r a d u a t et h e s i so fs h a n g h a iu n i v e r s i t y 【定义】 分析规则:扩展e c a 规则适应数据仓库分析处理,能模仿决策人员进行分析的过 程的规则。 在新的数据仓库模型中有一个部分与传统数据仓库相对应,其功能与传统数据 仓库的功能一致。模型中这一部分和分析规则部分结合成一个统一的整体。这两 部分共同组成了新的模型的核心部分。 在新的数据仓库概念模型中另一个重要的改进是输出部分。传统数据仓库中 没有把决策结果直接反馈到o l t p 系统的机制。如果要对o l t p 系统或其他数据仓 库用户提供决策结果信息就要靠编制相应的数据仓库应用程序来完成。在新模型 中作了一些改进,可以通过数据仓库系统直接改变o l t p 系统数据内容。自动决策 的结果可以输出到o l t p 系统,也可以通过数据仓库工具提供给其它决策用户。 在传统数据仓库中e t l 和数据仓库的联系是单方向的,e t l 从联机事务处理 系统、外部数据源及脱机的数据存储介质中导入到数据仓库中。新的数据仓库模 型由于对实时性有一定的要求,所以在e t l 与仓库之间加入了控制关系,图2 2 中的黑箭头表示是控制流。通过某种控制方式在一定程度上能改善数据仓库在实 时性方面的缺陷。 结构改进后,提供的功能相应地也作了改进。因此新的数据仓库中工具部分 有了相应的扩充。除了完成传统数据仓库工具所具备的功能外,分析规则相关的 工具是新的数据仓库系统所必须要具备的。 分析规则与传统数据仓库的具体结合方式以及具体框架将在下一节进行具体 讨论。在本文中将把这种新的模型系统定义为d w 系统。 2 1 3 各种智能化实现方式的比较 2 1 3 1 商务智能 商务智能( b i ) 【1o j ( 如图2 3 ) 是9 0 年代末首先在国外企业界出现的一个术语, 它代表为提高企业运营性能而采用的一系列方法、技术和软件。到目前为止,关 于b i 还没有一个准确的定义,不同的人从不同的方面给出对b i 不同的解释,但 总的来讲,b i 实际上是帮助企业提高决策能力和运营能力的概念、方法、过程以 及软件的集合,其主要目标是将企业所掌握的信息转换成竞争优势,提高企业决 策能力、决策效率和决策准确性。 b i 的功能可以归纳成以下几点:数据管理方面:数据的获取、选择、转换、 集成能力;从原有数据中发现新知识的能力;大量数据高效存储与维护能力。 数据分析方面;具备o l a p 、0 l t p 等多种数据分析能力;终端信息查询和报告生 上海大学硕士学位论文 t h ep o s t g r a d u a t et h e s i so fs h a n g h a iu n i v e r s i t y 成能力;数据可视化功能。决策支持方面:数据对比分析与趋势预测能力。 企业优化方面;辅助企业建模。 2 1 3 2 综合决策支持系统 图2 3b i 系统典型体系结构 图2 4 综含决策支持系统结构 把数据仓库、o l a p 、数据开采、模型库结合起来,形成了综合决策支持系统 【1 ”。它是更高形式的决策支持系统。其系统结构如图2 4 所示。数据仓库能够实现 对决策主题数据的存储和综合,o l a p 实现多维数据分析,数据开采用于挖掘数据 库和数据仓库中的知识,模型库实现多个广义模型的组合辅助决策,专家系统利 用知识推理进行定性分析,它们集成的综合决策支持系统相互补充、相互依赖, 发挥各自的辅助决策优势,实现更有效的辅助决策。 2 1 3 3 比较 上面两节分别描述的两种智能化的信息系统,尤其是综合决策支持系统中整 合了多种不同的部分,就智能化方面它引入了很多人工智能方面的概念。但是, 上海大学硕士学位论文 t h ep o s t o r a d u a t et h 5 s i so fs h a n g h a iu n i v e r s l t y 它的不同部分是各自独立的。本文中的i d w 的智能化部分和数据存储部分是一个 有机的整体,是不可分割的。本文设计的系统作为一个工具能整体提供对智能决 策的支持。上两节提到的信息系统,它们的智能的提供依赖于应用程序,要通过 编制相应的应用程序才能提供智能化的要求。i d w 系统为自动决策应用的开发带 莱了便利。 2 2i d w 系统框架 2 2 。1 整体框架 图2 5i d w 系统框架 上一节中对新的数据仓库的概念模型进行了描述。这里对具体的框架进行进 一步的探讨,作者设计了一个完整的i d w 体系结构,为进一步的应用和研究作准 备。图2 5 即本文提出的d w 系统框架图。 整个系统主要有五个部分构成。分别是:i d w 工具集、o l t p 系统、e t l 控制 器、常规数据仓库、多维数据集、分析规则引擎。 i d w 工具集是提供给数据仓库用户的应用界面。它包括常规数据仓库工具和针对 上海大学硕士学位论文 t h ep o s t g r a d u a t et h e s i so fs h a n g h a iu n i v e r s i t y 智能性的工具。通过工具集用户可以完成维度( d i m e n s i o n s ) 、度量( m e a s u r e s ) 、实 视图( m a t e r i a l i z e dv i e w s ) 等常规数据仓库要素的定义和管理。分析规则的定义和管 理、冲突解决方案管理、事件队列的管理也都要通过工具集实现。 o l t p 系统联机事务处理系统的一个作用是和其他数据源一起构成数据仓库的外 部数据源。 e t l 控制器对e t l 进行控制。通过它还可对内外部事件映射,决策结果写回外 部数据库进行控制。 常规数据仓库存储从外部数据源集成的数据。 内部多维数据集( c u b e s ) 应用多维数据集能对数据以多维方式进行处理和管理。 对多维数据集可以进行向上综合( r o l lu p ) 、向下钻取( d r i l ld o w n ) 、旋转( p i o v t i n g ) 和局部分析( s l i c i n gd i c i n g ) 等操作。 分析规则引擎( a n a l y s i s r u l e se n g i n e ) 分析规则引擎由四个处理模块和三个存储 器组成。 四个处理模块是: 事件队列及监视( e v e n tq u e u e & m o n i t o r ) 本模块用来管理事件,事件以 队列的方式组织。 分析规则推理机制( a n a l y s i s r u l em e c h a n i s m ) 本模块为被触发的规则提 供推理的引擎并保证推理的正确性。 元数据管理( m e t a d a t a m a n a g e r ) 本模块包括了元数据的管理机制,这里 的元数据与常规数据仓库的元数据语义不同。 分析结果管理器( a n a l y s i s r e s u l tm a n a g e r ) 对产生的决策结果进行管理。 三个存储器是: 分析规则存储器( a n a l y s i s r u l er e p o s i t o r i e s ) 存储分析规则。 元数据存储器( m e t a d a t a r e p o s i t o r i e s ) 存储分析规则模式元数据。 结果存储器( r e s u l tr e p o s i t o r i e s )存储决策结果。 由图2 5 可知,i d w 系统和常规数据仓库的最大区别就在于分析规则引擎的引 入。通过d w 工具定义分析规则,分析规则被存储到分析规则存储器,由定义的 分析规则产生的事件( e v e n t s ) 被放入事件队列并统一管理。分析规则管理机制根 据事件队列中的事件以及存储于分析规则存储器中的分析规则进行自动决策管 理。发生冲突时由分析规则管理机制负责处理。最终得到的结果由分析结果管理 器进行处理。 上海大学硕士学位论文 t h ep o s t g r a d ua ! t 屯t h e s i so fs h a n g h a iu n i v e r s i t y 2 2 2 框架的具体介绍 2 2 2 1 各部分功能 常规数据仓库部分在第一章中已进行了介绍,这里不再描述。 e t l 控制器 e t l 控制器是一个非常重要的部分。传统数据仓库中e t l 机制不能满足d w 系统的要求。在i d w 系统中e t l 对分析规则的执行机制有重要的影响。这里把经 过一次e t l 后的状态定义为一个分析规则状态。在这一状态下有系列事件被触发。 e t l 控制器是外部系统和内部系统沟通的桥梁,通过它外部消息才能反映到内部 系统,也只有通过它决策的结果才能反映到外部系统中。 多维数据集 在常规数据仓库和分析规则引擎之间有一个部分是多维数据集。这一部分是联 系常规数据仓库和分析规则引擎的一条重要的纽带。 多维数据集是包含维度和度量值的多维结构。维度定义多维数据集的结构,而 度量值提供最终用户感兴趣的数值。多维数据集内的单元位雹由各维度成员的交 集确定,通过对度量值进行聚合得到单元的值。多维数据集是o l a p 中的主要对 象,是一项可对数据仓库中的数据进行快速访问的技术。多维数据集是一个数据 集合,通常从数据仓库的子集构造,并组织和汇总成一个由一组维度和度量值定 义的多维结构。每个多维数据集都有一个结构,结构是传统数据仓库中以连接的 各种数据表的集合,多维数据集从数据仓库提取其源数据。结构中的核心表是事 实数据表,事实数据表是多维数据集度量值的源。其他的表有作为多维数据集维 度源的维度表。 下面通过一个具体的单元对上述概念进行介绍。单元是多维数据集的原子元 素,也是来自与该多维数据集相关联的每个维度的某个成员的唯一逻辑交集。实 质上,多维数据集由按度量值、级别以及维度组织的单元组成。 例如,下列关系图( 图2 6 ) 描述的多维数据集有一个带阴影的单元。 这个带阴影的单元是下列成员和维度的交集: “源”维度的“航空”成员。 “路线”维度的“非洲”成员。 “时间”维度的“第四季度”成员。 “度量值”维度的“包”成员。 上海大学硕士学位论文 t h ep o s t g r a d u a t et h e s i so f s h a n g h a iu n i v e r s i t y 图2 6 在本文的d w 系统中多维数据集作为内部数据传输,内部多维数据集对外部用户 是不可见的。 分析规则引擎 分析规则引擎是d w 系统框架中最重要的部分。分析规则引擎提供规则存储、 规则推理、元数据管理以及结果处理等一系列功能。该引擎包括:分析规则推理 机制、事件队列及管理、分析结果管理器、分析规则存储器、元数据存储器、元 数据管理和结果存储器七个模块。 分析规则存储器 引入分析规则,必须采用合适的实现方法。采取灵活而高效的规则存储管理 是实现分析规则系统要考虑的一个重要问题。本系统设计时考虑了如脚本存储和 可执行代码存储等方案。脚本存储由于未经过编译,必须在执行时解析执行,因 而会给应用程序的执行效率带来很大损失。在另一方面,如果将规则编译成可执 行代码存储,对执行效率固然有好处,但对存储空间要求大,并且一旦修改规则, 则要重新编译和链接。事实上,效率和存储空间是成反比的,如何平衡这两方面 的负担,以提高系统的总体效率,与规则存储管理方法密切相关。 另外,规则存储结构设计也会影响效率很多情况下只需要规则的元数据, 而无需规则的所有内容只有当规则被触发时才检查条件是否满足并执行,因此 可以将规则条件和动作部分独立存储,并且将其它信息存储于元数据中。由于采 用了规则元数据,因此可以首先读取元数据中的规则信息,并根据这些信息来判 断规则是否被触发,只有当特定事件产生并激活规则时,才从数据库中读出表达 规则条件和动作的存储语句并执行 分析规则推理 图2 7 描述了分析规则推理。规则激活模块通过事件队列和检索分析规则存储 器来激活规则。通过规则执行模块和冲突解决模块规则得以执行,产生的新事件 线 盟甜一 ;l 当 上海大学硕士学位论文 t h ep o s t g r a d u a t et h e s i so fs h a n g h a iu n i v e r s i t y 反馈回事件队列,产生的结果交由决策结果处理器处理。 事件队列可分成两个不同的部分,一个队列中放入要求立即触发的规则,另 一队列中存放可以延后处理的规则( 延后处理规则是那些存在前续规则的规则) 。 系统总是先检测立即触发队列,然后检测延迟处理队列。 分析规则执行过程类似决策人员的决策过程,产生的是决策结果。自动决策 的结果不仅有数据信息,还有文本信息。对于结果要有统一的管理。产生的结果 涉及o l t p 系统,文本结果库。涉及o l t p 系统的结果是数据结果,包括对某些数 据项的删除、更新和增加等操作,这些操作不是全都能直接对o l t p 系统进行的。 例如:对于半结构性事务,结果还要经决策人员确认后才能处理。 元数据部分是数据仓库的重要部分,在i d w 系统中,分析规则引擎中元数据 作为一个独立的部分存在。这一部分元数据包括规则定义、规则执行等很多重要 的信息。 在冲突处理问题上有两个潜在的因素要考虑,一个是同一个事件对应多个规 则,这种情况可以通过设置不同规则的优先级进行控制。另一个是多个规则产生 相互矛盾的结果,为了解决这类冲突可用冲突表来处理。冲突表的元组设计为 ,其中m l 和m 2 表示冲突双方,m 3 是冲突的解决方案。 圈2 7 分析规则推理 事件队列及管理部分与事件的类型有关,在下一章中将对分析规则进行详细介绍, 在事件部分介绍中间对部分内容进行补充。 i d w 工具 这里主要讨论智能化部分的工具。也就是针对分析规则引擎的部分。对于分析 规则分成两部分管理,一部分是分析规则各基本要素的管理如对事件等的管理; 另部分是对分析规则作为一个整体的管理。事件队列在一定条件下也要对其进 行控制,这样可以提高事件执行的效率、实时性等方面的要求。冲突的处理一部 分在规则管理里进行如规则优先级,还有的要独立处理,这些都要有工具来完成。 上海大学硕士学位论文 t h ep o s t g r a d u a t et h e s i so fs h a n g h a iu n i v e r s i t y 2 2 2 。2 各部分之间的联系 框架中的各部分只有作为一个统一的整体才能发挥其智能决策的功能。从图 2 5 可知分析规则引擎的分析数据通过两种方式提供。第一种是直接来源于常规的 数据仓库部分,另一种是通过多维数据集的方式提供。我们可以根据分析的需要 建立不同的多维数据集。 2 3i d w 系统框架特点 分析规则的引入 基于多维数据集的分析 独立的分析规则元数据 对o l t p 系统的决策反馈 常规数据仓库、多维数据集和分析规则引擎三者间的紧密结合 扩展的e t l 机制 上海大学硕士学位论文 t h ep o s t g r a d u a t et h e s i so fs h a n g h a iu n i v e r s i t y 第三章分析规则的研究 分析规则的引入是i d w 最重要的一个方面。分析规则以主动数据库中的主动 规则为基础进行改进,使之适合于基于数据仓库的分析决策。 3 1 分析规则 分析规则是d w 系统的元知识部分,本文中利用它来表示结构化决策任务和 半结构化决策任务中可编程部分。为了介绍分析规则先提供两个典型的结构化任 务的例子。图3 1 中的范例仓库中包括三个维度( p r o d u c e 、l o c a t i o n 和t i m e ) 。每 个维度包括的维度层描述如下: p r o d u c e a r t i c l e 】一p r o d u c t c a t a g o r y t i m e d a y 一t i m e m o n t h 一t i m e q u a r t e r 一t i m e y e a r l o c a t i o n s t o r e 一l o c a t i o n c i t y 一l o c a t i o n r e g i o a 图3 1 维度模型 对商品进行降价决策的例子( 例1 ) 分析人员先规定一个确定的时间间隔( 如:一周) ,从某个商品( 如:西服) 上市后算起当过了这个时间间隔后,分析人员用一个事先规定的销售数量标准 ( 如:1 0 0 0 0 个单位) 跟这一段时期内这一商品的销售数量进行比较。当这段 时期内这种商品的销售数量低于某个数量时就把这一商品的销售价格降到某 一量( 如:下调5 ) 。 取消某商品的销售的例子( 例2 ) 上海大学硕士学位论文 t h ep o s t g r a d u a t et h e s i so fs h a t j g h a io n i

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论