(计算机软件与理论专业论文)主动数据仓库基于规则的事件匹配机制的研究与实现.pdf_第1页
(计算机软件与理论专业论文)主动数据仓库基于规则的事件匹配机制的研究与实现.pdf_第2页
(计算机软件与理论专业论文)主动数据仓库基于规则的事件匹配机制的研究与实现.pdf_第3页
(计算机软件与理论专业论文)主动数据仓库基于规则的事件匹配机制的研究与实现.pdf_第4页
(计算机软件与理论专业论文)主动数据仓库基于规则的事件匹配机制的研究与实现.pdf_第5页
已阅读5页,还剩61页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

主动数据仓库基于规则的事件匹配机制的研究与实现 主动数据仓库基于规则的事件匹配机制的研究与实现 摘要 经过多年的演进,数据仓库已经从早期简单的报表系统发展到现 在的企业级数据仓库,这种数据仓库是面向主题的、集成的、非易失 的、并随时间积累变化的数据集合,很好的支持了管理人员的战略决 策过程。但传统数据仓库不支持战术型决策,不能提供近实时的数据, 因此促使了主动数据仓库的出现。 本课题在传统数据仓库基础上,借鉴并扩展主动数据库技术,提 出了主动数据仓库的概念,并与传统的企业级数据仓库、操作型数据 存储做了对比。提出了一种基于事件和规则的主动数据仓库参考体系 结构,并对其各个组成模块的功能进行了详细描述。然后,对其事件 匹配机制进行了研究,这包括事件和规则的定义、设计与存储;事件 监测器的设计与实现;规则引擎的设计与实现。最后,以电信领域欺 诈分析作为一个实例对原型系统进行了应用实践。 关键词主动数据仓库规则规则库规则引擎事件事件库事 件监测器事件匹配产生式规则 北京邮电大学硕士论文 主动数据仓库基于规则的事件匹配机制的研究与实现 r e s e a r c h0 ft h ee v e n tm a t c hm e c h n i s m o ft h ea c t i d 气:l w a r e h o u s e b a s e d0 nr u l e s e a b s t r a c t o v e rm a n yy e a r se v o l u t i o n ,d a t aw a r e h o u s i n gh a se v o l v e df r o mt h e s i m p l er e p o r t i n gp l a t f o r mt o am o r e s o p h i s t i c a t e de n t e r p r i s e d a t a w a r e h o u s e ,w h i c hi s s u b j e c t o r i e n t e d ,i n t e g r a t e d ,n o n - v o l a t i l e a n d t i m e - v a r i a n tc o l l e c t i o no fd a t ai n s u p p o r t o fm a n a g e m e n t s s t r a t e g i c d e c i s i o n s t h et r a d i t i o n a ld a t aw a r e h o u s e ,h o w e v e gd o e sn o ts u p p o r t t a c t i c a ld e c i s i o n i n g ,a n dd o e sn o tp r o v i d et h ei l e a rr e a lt i m ed a t a s ot h e a c t i v ed a t aw a r e h o u s i n ga p p e a r s an e wc o n c e p to ft h ea c t i v ed a t aw a r e h o u s e ( a d w ) i sg i v e ni nt h i s t h e s i sw h i c hi sb a s e do nt h et r a d i t i o n a ld a t aw a r e h o u s ea n dt h ea c t i v e d a t a b a s e m e a n w h i l e ,t h ea u t h o rm a k e sac o n t r a s tb e t w e e nt h ea c t i v ed a t a w a r e h o u s e ,t h et r a d i t i o n a ld a t aw a r e h o u s ea n dt h eo p e r a t i o n a ld a t as t o r e i nt h en e x tp a r t ,ak i n do fa d wr e f e r e n c ea r c h i t e c t u r eb a s e do nt h er u l e s a n de v e n t si si n t r o d u c e d a f t e rt h a ti st h ed e s i g na n dt h ei m p l e m e n t a t i o n p a r tw h i c ha r e t h em o s ti m p o r t a n t t h i sp a r ti sc o n s i s t so ft h r e ep a r t s t h e 北京邮电大学硕士论文 主动数据仓库基于规则的事件匹配机制的研究与实现 f i r s to n en o to n l yt a l k sa b o u tt h ed e f i n i t i o na n dd e t a i ld e s c r i p t i o n so ft h e e v e n ta n dt h er u l e ,b u ta l s od e s i g nt h ed a t as t o r em o d e l i nt h es e c o n dp a r t , t h ea u t h o rd e s i g na n di m p l e m e n tt h ee v e n td e t e c t o ra n dt h er u l ee n g i n ei n d e t a i l a tl a s t ,t a k e saf r a u da n a l y s i so ft h et e l e c o ma r e aa sa ne x a m p l ei n o r d e rt os e et h ew o r k i n gs i t u a t i o no f t h ep r o t o t y p es y s t e m k e yw o r d s :a c t i v ed a t aw a r e h o u s er u l er u l ee n g i n e e v e n te v e n td e t e c t o r e v e n tm a t c h i n g p r o d u c t i o nr e p r e s e n t a t i o n 北京邮电大学硕士论文 1 1 1 独创性( 或创新性) 声明 本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究 成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不 包含其他人己经发表或撰写过的研究成果,也不包含为获得北京邮电大学或其他 教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任 何贡献均己在论文中作了明确的说明并表示了谢意。 申请学位论文与资料若有不实之处,本人承担一切相关责任。 本人签名:。;盛l 鼬日期:! 二! :i :翌 关于论文使用授权的说明 学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定,即: 研究生在校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权保 留并向国家有关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅和借 阅;学校可以公布学位论文的全部或部分内容,可以允许采用影印、缩印或其它 复制手段保存、汇编学位论文。( 保密的学位论文在解密后遵守此规定) 保密论文注释:本学位论文属于保密在一年解密后适用本授权书。非保密论 文注释:本学位 本人签名: 导师签名: 适絮权“。7日期:! ! :! :z 日期: 型! :王= 兰2 一 主动数据仓库基于规则的事件匹配机制的研究与实现 1 1 课题背景 第一章绪论 目前,国内各大企业( 尤其是电信、金融等领域) 都已经完成或正在实施 基于数据仓库、数据挖掘技术的经营信息服务平台的建设,为市场和决策人员提 供了数据和信息支持。 这说明,数据仓库经过多年的演进,已经从早期简单的报表系统发展到现在 的企业级数据仓库,这种数据仓库是面向主题的、集成的、并随时间积累的数据 集合,很好的支持了管理人员的决策过程。在这个过程中,数据仓库的发展呈现 出一定的趋势,如图1 1 所示。 图1 1 数据仓厍的演进 如上图所示,最早期的数据仓库是建立在大量批处理操作以及少量查询操作 基础上的报表型数据仓库,这类数据仓库解决了类似“过去发生过什么? ”的问 题,它们主要用于对历史数据的测量。 第二阶段的数据仓库是分析型的数据仓库,它通过一些复杂的即席查询、 o l a p 等技术来解决类似“为什么某些事情会发生? ”等问题。这主要反映了通 过历史数据对决策和业务理解的过程。 第三阶段的数据仓库属于预测型数据仓库,所谓预测主要是指,系统可以通 过一些诸如数据挖掘等方法得出在将来某个时间里将会发生什么事,这个阶段出 现了大量分析建模的操作。这个阶段反映了对决策的支持和优化。 北京邮电太学硕士论文l 主动数据仓库基于规则的事件匹配机制的研究与实现 前三个阶段的数据仓库基本满足了对传统业务决策的支持,但随着各企业向 以客户为中心的经营理念的转变,经营分析领域出现了一些新的需求,这时,传 统的企业级数据仓库开始显得有些力不从心 1 11 现有数据仓库存在的问题 传统的数据仓库一般通过接口文件的方式获取数据源,并经过e t l ( 抽取、 转换、装载) 等一系列的过程,将分散在企业各子系统的数据集中到数据仓库中, 数据更新的周期是天甚至是周,这无形中降低了数据仓库中数据的时效性。 对于那些实时性要求比较高的战术型决策,传统数据仓库支持的不够。这些 战术型决策是指,针对战略决策而制定具体的可实施的步骤,一般是各部门针对 战略目标制定本部门的行动计划。显然,这些不仅对数据的实时性要求较高,还 需要对历史数据的访问,这在操作型事务处理和决策支持分离的情况下是难以实 现的。 此外,传统数掘仓库是建立在关系型数据库基础上的,因此是一种“被动的” 数据仓库,即需要大量的人工参与,手动提交数据查询、操作等指令,并等待 d b m s 返回结果。比如,在使用o l a p 技术进行分析时,往往是用户提出一个 分析要求,即一个假设,再通过查询检验这个假设的正确性。这种“被动性”不 仅要耗费大量的人工,更使得数据的时效性完全依赖于操作人员的查询时间,不 利于实时性决策的制定。 1 1 2 主动数据仓库的产生 从图1 - 1 中也可以看出,数据仓库在向实时型和主动型方向发展。如在第四 阶段的操作型数据仓库中,实时数据更新显得尤为重要,同时也出现了对实时性 要求很高的查询,它可以发现当前正在发生的事情;而在第五阶段的主动型数据 仓库中,出现了大量的基于实时数据和事件的决策操作,这使得这种数据仓库更 具主动性,可以自动地、及时地根据某种专家策略完成相应动作。第四、第五阶 段的数据仓库就是我们本文所要研究的主动数据仓库。 主动数据仓库最主要的特点就是“主动性”和“实时性”。“主动性”这个显 著特点补充并扩充了传统数据仓库的功能。如,主动数据仓库中的查询工作既包 括原来复杂的用于决策支持的报表查询,即席查询,也扩充了很多实时或半实时 的、战术型查询;此外,为了支持其“主动性”和“实时性”,系统需要连续不 断的数据供应,以及事件驱动的更新和规则驱动的响应( 所有这些都是同时进行, 而且是无人工参与的) 。 北京邮电大学硕士论文 主动数据仓库基于她则的事件般配机制的耕竞与实现 1 2 实践、籽f 究工作及宝要成蝌 本文主援在以彳主主动数据库、寅时数攒艨的基础上,绪合数据仓库在当今企 鼗孛魏痊嚣嚣慕,器缝卺鼗攥奁露搜零瓣浚涟瑟纛,戆羹窭了羔蘩羧据鸯薄鹣壤 念,提出了种主动数据仓库的体鬃结构,并重点对该系统中的事件和规则的表 暴与存禧、誊磐蛰测爨爨设诗与实骥、鬟受霉i 擎羹浚诗每蜜蕊簸了滚灭臻巍,霉 时开发出原掇系统,并以欺诈分析作为应用进行了系统实践。 1 3 本文结构 第二章总结出了主动数据仓库的概念,并同传统的数攒仓库、操作型数据存 德、烹动羧攥淳等瓣了黯魄。 第三鬻介绍了瀚内乡 程主动数播仓库、蛊动数据库、实时数据簿等相关领域 懿磷究或暴。 第西章掇出了一种基予蕊弼和搿件韵燕韵数据仓库的体系结构,并对冀中韵 各主要模块漩及栽焦痒、臻 警瘴、攀实疼骰了套缀。 第五章潴述了系统豹备模块的设计与实蕊方法。首先说鞠了攀秫、弱则的表 示方渡,紧搂藿设计毖t 事枣 摩、鬻窑疼躬脊髓结糨,瑟舞对事搏竣溅器秘澳臻 弓 攀避毒亍了憨谇设计辩详细设计、爨蕊。并谯最君一部分以欺诈分祈为应嗣盛倒 进褥腰型系绫实践。 嫠六掌慧结互襻成栗,并震望下一多z 律。 北京部电大学磺击论文 主动教船仓库基于规则的事件醯配机制的研究与蜜现 第二耄什么是搬动数据仓库 奉章繁先穷缨了与本文爨繇究蠢客密韬穗美鼹转统数瓣硷蓐潋爱攥荦# 型匏 数据存储( o d s ) 的背景知识,接潜总结出了主动激据仓降的概念,并与传统数 攒念疼徽了对毙,霹熬是为了更好蟪突出主动鼗攒仓痒辫耱患蠢波翅经。 2 ;l 传统数据佥瘴驳及搽 睾型浆数摄襻姥( o d s ) 浆特点 2 。 1 蟊据套糍翅基本概念 随着c i s 技术的成熟和并行数据库的发展,债恩处理技术的发展趋势烂从大 蠹懿事务登数据赢中箍取数据,并将萁清理、转换为薪麓毒辖格式,透露默决策 为目标把数据聚台在一种特殊的格式中。随着此过程的发展完善,这种支持决策 羽、蒋豫瀚数露存髓露被褥为数撂仓库( d a t aw a r e h o u s e ,d w ) 。 w h i i l l i l o n 关于数据仓库定义如下: 鼗撰仓库是一个嚣囱圭题耱、集成薛、尊易失懿,随对藩积累魏建采支持餐 理人员决懿的数据集合。【1 1 瑟离主瑟魏: 不同公司的主题是不同的,主题是在个较高层次上将数据进行综合、归类 势遘霉努耩嚣曩鹣撼象。谣遑主题熬数舔缀缀方式,蓑是镬骏亵藩次主对分辑薅 浆的数据的完整、致的描述,自统一地刻画各个分析对浆所涉及的企业的各项 数据;戳及鼗蠡之蠲楚美系; 集成的: 交予务器嚣爨,鼗撂仓疼懿每个主瑟瑟潜痊熬数据漂在豢畜弱分数数掇瘴孛 通常会有许多重复和不一致的地方,而且不同联机系统的澈据都和不同的应用逻 辑终定,掰鞋数撼在避入数据龟黪之蔫必缓缝一巍练会,这一步楚数据仓瘩建设 中最关键、最复杂的一挎t 黪爨失麴: 数据仓库的数据反映的是一段相当长的时间内历史数据的内密,主要供企监 决策努繇之用。与覆彝盛爝趣事务数据露鬻要对数据搀频繁的插入、曼赣操 乍不 问,数据仓库中的数据所涉及的绦作主要莛查询和新数据的导入,因此,几乎所 肖熬鼗撂都虿会翟失; 随时间积撩的: 璁常姆电支攀磋圭诗文 主动数据仓库基于规则的事件匹配机制的研究与实现 数据仓库系统必须不断捕捉o l t p 数据库中变化的数据,并在经过统一集成 后装载到数据仓库中。同时,数据仓库中的数据也有存储期限,会随时间变化不 断删去旧的数据,只是其数据时限远比操作型环境的要长,比如根据需要可保存 1 0 年内的历史数据。 企业数据仓库的建设,是以现有企业业务系统和大量业务数据的积累为基 础。数据仓库不是静态的概念,只有把信息及时交给需要这些信息的使用者,供 他们做出改善其业务经营的决策,信息才能发挥作用,信息才有意义。而把信息 加以整理归纳和重组,并及时提供给相应的管理决策人员,是数据仓库的根本任 务。从产业界的角度看,数据仓库建设是一个工程,是个过程。 整个数据仓库系统是一个包含四个层次的体系结构,具体由图2 1 表示。 o 臣立 e 翌 日 蠹蟹巍 图2 - 1 数据仓库体系结构 数据源:是数据仓库系统的基础,是整个系统的数据源泉。通常包括企业内 部信息和外部信息。内部信息包括存放于r d b m s 中的各种业务处理数据和各类 文档数据。外部信息包括各类市场信息、竞争对手信息和各种手工收集的信息等 等。 数据的存储与管理:是整个数据仓库系统的核心。数据仓库的真正关键是数 据的存储和管理。数据仓库的组织管理方式决定了它有别于传统数据库,同时也 决定了其对外部数据的表现形式。要决定采用什么产品和技术来建立数据仓库的 核心,则需要从数据仓库的技术特点具体需求着手分析。针对现有各业务系统的 数据,进行抽取、清理,并有效集成,按照主题进行组织。数据仓库按照数据的 覆盖范围可以分为企业级数据仓库和部门级数据仓库( 通常称为数据集市) 。 o l a p 服务器:对分析需要的数据进行有效集成,按多维模型予以组织,以 便进行多角度、多层次的分析,并发现趋势。其具体实现可以分为:r o l a p 、 m o l a p 和h o l a p 。r o l a p 基本数据和聚合数据均存放在r d b m s 之中; m o l a p 基本数据和聚合数据均存放于多维数据库中;h o l a p 基本数据存放于 北京邮电大学硕士论文5 主动数据仓库基于规剧的事件匹配机制的研究与实现 r d b m s 之中,聚合数据存放于多维数据库中。 前端工具:主要包括各种报表工具、查询工具、数据分析工具、数据挖掘工 具以及各种基于数据仓库或数据集市的应用开发工具。其中数据分析工具主要针 对o l a p 服务器,报表工具、数据挖掘工具主要针对数据仓库。 2 12 操作型的数据存储( o d s ) 的基本概念 o d s 定义为:( o p e r a t i o n a l d a t a s t o r e ) 操作型数据存储,对于一些准实时的业 务数据库当中的数据的暂时存储,支持一些同时关联到历史数据与实时数据分析 的数据暂时存储区域。闭 面对传统数据仓库不能提供实时战略型决策的问题,数据仓库的设计者在常 规的、静态的数据之外建立了一个实时分区,它在物理上和管理上独立于传统的 数据仓库,存储该实时分区的系统即称为操作型数据存储( o d s ) ,它是能支持 企业日常的全局应用的数据集合,是不同于d b 的一种新的数据环境,是d w 扩展后得到的一个混合形式,可以支持操作型事务处理和分析型处理。 o d s 有四个基本特点:面向主题的( s u b j e c t o r i e n t e d ) 、集成的、可变的、当 前或接近当前的。o d s 是介于d b 和d w 之间的一种数据存储技术,同原来分 散的d b 相比,o d s 中的数据组织方式和数据仓库( d w ) 一样也是面向主题的和 集成的,所以对进入o d s 的数据也要像进入数据仓库的数据一样进行转化和清 洗等处理。另外o d s 只是存放当前或接近当前的数据,如果需要的话还可以对 o d s 中的数据进行增、删、改等操作,虽然d w 中的数据也是面向主题和集成 的,但这些数据需要最为历史数据积累,一般不进行修改,所以o d s 和d w 的 区别主要体现数据的可变性和当前性上。 o d s 可以说是数据仓库的一个变体,其数据结构和数据仓库可以说是完全 相同,也是基于主题进行组织的,但是其数据是挥发的,一般就保存1 - - 3 个月, 因此还不能说是数据仓库的各份数据。o d s 的主要功能是承担大量的报表和简 单查询,以减少数据仓库的负担,因此报表和简单查询一般查的是近期数据。超 过3 个月的数据就导入到数据仓库中。因此o d s 是可选的,如果数据仓库的压 力不是特别大,就没必要建立o d s 。 基于o d s 构建的大客户管理系统,源数据层的数据经大客户管理系统的数 据采集功能进行数据采集整理力口载,形成的统一信息层o d s 层( 操作数据 存储,实际上就是大客户管理系统中的客户资料数据) ,在逻辑和存储上对业务 处理系统与数据仓库进行隔离。数据仓库采用多维模型进行存储,通过对o d s 层数据的抽取、净化和转换而形成的从细节级、轻度综合、中度综合直至高度综 合各级粒度的o l a p 分析数据层,是按照主题分析的需要建立的企业级全局数据 北京邮电大学硕士论文 6 主动数据仓库基于规则的事件匹配机制的研究与实现 存储。 o d s 作为一个中间层次,一方面,它包含企业全局一致的、细节的数据, 可以进行全局操作型处理:另一方面,它又是一种面向主题的、集成的数据环境, 适合完成日常报表和决策的数据处理分析。可见,o d s 一方面支持业务性操作, 另一方面面向主题、支持决策。因此,o d s 可以支持面向业务的过程,提供2 4 * 7 的数据支持,并在一个可以支持战术决策的层面上更新数据。但是,o d s 和企 业级的数据仓库是隔离的,因此得不到数据仓库历史数据的支持。对于那些既需 要实时数据又需要历史数据的复杂业务问题,依靠o d s 是不可行的,而是采取 使现有数据仓库主动化的方法,即主动数据仓库技术。 2 2 基于传统数据仓库技术的电信经营分析系统现状 2 2 1 基于传统数据仓库技术的电信经营分析系统功能体系结构【1 q 现有电信经营分析系统对经营信息的处理包括三部分内容,分别是采集、存 储、展现。 其中,经营信息的采集指按照数据源接口标准,从服务支撑系统的生产予系 统数据源( 如b o s s 系统、c r m 系统、统一客户资料系统等) 中进行抽取,转 换、装载,构成经营分析系统所需的信息。 经营信息的存储指对本系统数据仓库中各级信息进行组织、存储与访问控制 管理。 经营信息的展现使得用户可以通过上层提供的各种应用,利用w e b 、g u i 、 a p i 等方式对经营信息进行查看和访问。 现有经营分析系统的体系结构参考客户机应用逻辑服务器数据库服务器三 层结构,并采用“模块化”的软件设计策略进行规划,将软件在总体上分为五大模 块:数据采集模块、数据仓库生成模块、应用逻辑模块、元数据管理模块和系统 管理模块,从而形成模块化的分层体系结构。总体软件体系结构如图2 - 2 所示。 北京邮电太学硕士论文 主动数据仓库基于规则的事件匹配机制的研究与实现 图2 - 2 现有电信经营分析系统的软件体系结构 2 2 2 电信经营分析系统所提供的服务 j , 目前电信经营分析系统的功能主要为数据仓库的生成以及对外提供数据访 问。功能模块包括数据采集、数据仓库生成、数据仓库接口、标准报表数据文件 肘艮表生成与传输、平台系统管理。平台数据包括元数据( e t l 规则、标准报表 元数据) 、数据采集后目标文件、o d s 数据、d w 数据、标准报表数据文件、标 准报表。 电信经营分析系统所提供的服务分为三个层次( 如图2 - 2 ) : 数据服务:我国电信企业的数据仓库体系结构中都规划了o d s ( 操作数据 存储) 详细型数据层次,o d s 集成了来自于各个独立的电信运行支撑系统( o s s ) 中的操作型数据,不仅进行了数据一致性和完整性的规范化工作,而且存储时间 北京邮电大学硕士论文8 主动数据仓库基于规则的事件匹配机制的研究与实现 较o s s 长。在此之上可以提供原来在o s s 上提供的数据服务功能,包括:详单 查询、日常报表生成、即席查询等。 信息服务:电信数据仓库体系结构在o d s 之上规划了不同粒度的面向分析 主题的信息服务,包括企业报表、k p i ( 关键性能指标) 、o l a p ( 在线分析处理) 、 数据挖掘信息等,为企业的经营分析人员了解企业现状、分析现状产生的原因、 预测未来的情况提供了全方位的信息支持。 从现有电信经营分析系统的软件体系结构( 如图2 2 ) 可以看出,目前的电 信经营分析系统建设已经实现的服务为数据服务和信息服务。 知识服务:信息如果不及时地提供给相关人员用来解决实际问题,那么信息 就无法转变为对企业有用的知识。知识服务层次的目的就是支持经营分析人员根 据特定的商业目标、按照常规的认知思维过程,分析和解决特定的商业问题,这 个层次的主要服务体现就是电信经营专题分析,另外还有主管信息系统( e i s ) 和第三方经营服务应用接口等。 在现有电信企业经营分析系统所实现的功能中,对于知识服务的提供还只停 留在手工收集信息服务层和数据服务层的相关信息,根据分析人员的经验,判断 信息的关联关系和潜在知识,并以专题分析报告形式向决策人员提交分析结论的 阶段。这种半自动的知识服务越来越不适应电信企业快速发展的要求,而且,过 分依赖于分析人员个人经验和工作能力的专题分析报告也不能准确而客观地反 映企业的经营状况。 因此,电信企业迫切需要一个能够提供数据层、信息层乃至知识层的全面服 务的智能化电信经营分析系统。 2 3 主动数据库技术 1 6 1 传统的数据库管理系统( d b m s ) 只能响应用户或应用程序的要求,对数据库 进行相应的操作,而不能根据系统( 或应用程序) 事件发生的条件或数据库的状态 进行相应的主动处理,它是被动式b m s ( p d b m s ) 。但是,现代信息系统越来越 要求d b m s 能够主动捕捉系统事件( e v e n t ) ,并根据一定的条件( c o n d i t i o n ) 做出相 应的处理。在2 0 世纪8 0 年代初,开始了主动数据库管理系统( a c t i v ed b m s ) 的 研究,因此,8 0 年代中后期,主动数据库成为数据库领域的重要研究方向之一: 其中,对a d b m s 功能赖以实现的主要机制视则系统的研究在9 0 年代中期 取得了突破性的进展建立起了比较完整的“事件( c v e n t ) 条件( c o n d i t i o n ) 动作 ( a c t i o n ) ”规则理论,即e c a 规则体系。现代r d b m s ( 女nm ss q l s e r v e r2 0 0 0 、 o r a c l e9 9 i s y b a s e 、d b 2 等) 都不同程度上支持a d b m s 功能,极大地提高了d b m s 的主动服务性能。 北京邮电大学硕士论文9 主动数据仓库基于规则的事件匹配机制的研究与实现 a d b m s 是指具有主动服务功能的d b m s ,并以种统一而方便的机制来实 现各种主动性需求,即要求把这些主动性功能用一种统的方法与传统的d b m s 进行集成。它主要完成下列主动性要求:主动进行实时检测和控制;主动动态监 控d b m s 状态,包括一致性或完整性检查等;主动进行异常情况处理和错误监 测、警报和处理;主动完成分布数据库系统中各子系统之间的通讯和同步;主动 检索或推理策略的自动选择和切换;主动完成中断处理;主动对数据库系统运行 情况进行统计和审计。 规则是一个数据库对象,它可以定到一个列上来约束该列的取值范围。 a d b m s 的规则可描述为: o n i f t h e n 即当发生某一事件( e v e n t ) 时。如果满足给定条件( c o n d i t i o n ) ,则执行相应的 动作( a c t i o n ) 。这种规则称为主动数据库规贝u ( a c t i v ed a t a b a s er u l e s ) ,又称e c a 规 则,也称触发子删g g e r ) 。一个规则的定义除了有事件、条件、动作三个主要部 分外,还有一些辅助部分,用以说明规则在执行时的约束条件,有耦合模式,优 先级别。优先级别用以规定当一个事件触发多个规则时,多个规则之间的执行顺 序。耦合模式有三种,立即模式( i m m e d i a t e ) ,延迟模式( d e f e r r e d ) 和分离模式 ( s e p a r a t e ) 。 一个主动数据库系统的功能模型可以由一个传统数据库系统( d b s ) 和一个事 件驱动的知识库( e b ) ,及相应的事件监测器( e m ) 组成。其中传统数据库系统用于 存储数据和对数据进行维护管理和使用:事件库是一组由事件驱动的规则集合, 每一项规则表示在相应的事件发生时,如何主动地执行其中包含的预定义的动 作:事件监测器时实现主动数据库系统的关键,它随时监视事件库中的事件是否 已经发生,一旦监视到某事件已经发生就主动触发系统,执行相应的动作。 主动数据仓库技术是在主动数据库和数据仓库的基础上发展起来的,它采用 了主动数据库的e c a 却则的基本思想,并加以扩展,同时还具有数据仓库的优 点,是数据库和数据仓库领域发展的新方向。 2 4 主动数据仓库的定义 主动数据仓库( a c t i v ed a t aw a r e h o u s e ) 是对传统数据仓库的扩展,它是一个 整合的、集中的数据仓库,它包含操作型和分析型两种数据,并通过实时数据更 新,主动事件监测、规则驱动的机制,以达到对不同用户( 业务人员、分析人员、 北京邮电大学顽士论文 1 0 主动数据仓库基于规别的事件匹配机制的研究与实现 决策人员、外部人员,以及e a i 中相关应用) 的动态多决策支持( 战术型、战 略型决策) ;同时保证企业内部的业务和决策在一个闭环过程中运行。 主动数据仓库需要考虑以下问题: 数据更新的实时性: 当发生如一个账号关闭、一次购买、或默认的借贷,几秒之内,相关的信息 就要被存储到数据库中。一般而言,数据的实时性越高,所触发的事件的实时性 就越高,从而所得到信息的价值就越高,如图2 3 所示: u c o 山 o 3 彤 t i m e 图2 - 3 实时性与价值的关系 因此,采用何种方式实时更新主动数据仓库中的数据是数据仓库成功的基 础。 多重负载带来的性能要求: 一个战术决策不像战略决策那样有几个月或几年的生命周期,它的生命周期 仅仅几分钟。一个战术决策的关注面往往比一个战略决策的关注面窄得多,所以, 它需要较少的数据扫描、排序和分析但这并不意味着简单。因此,主动数据 仓库中存在多重负载问题,这些不同种类的负载在对外提供服务时对系统的要求 是不一样的,因此,一个主动数据仓库系统要合理安排多重负载的优先级问题, 以及由此带来的性能问题。 事件的实时监控与规则触发: 主动数据仓库中的包含实时数据,在这些数据基础上,采用什么事件触发机 制,触发的活动事件什么时候、什么方式绑定规则库中的规则,是主动数据仓库 系统的核心。 j 。数据可靠性与错误恢复: 做长期的战略决策时,如果数据仓库出现一段时间不可用的情况,对于业务 的影响可能经常察觉不到。但对于支持战术决策的环境就不同了。例如,如果要 北京邮电大学硕士论文1 i 主动数据仓库基于规别的事件匹配机制的研究与实现 做一个最好的客户关怀的决策,外部客户的呼叫是不能有延迟的。主动数据仓库 的停工期会直接导致机会的丢失。因此,要最大限度的压缩停工期以提高商业价 值。而且,旦发生错误,还需要考虑使用哪种错误恢复机制恢复。 主动数据仓库扩展了传统数据仓库的功能,使得数据仓库进入到战术决策制 订的领域。通过快速调控整合的数据、过程和程序,组织内部所有的人员,包括 那些直接同客户和供应商打交道的人,都可以很容易的得到丰富的信息以支持其 决策的制订。 2 5 传统数据仓库与主动数据仓库的比较 从支持的决策类型方面考虑,由于主动数据仓库既包含操作型数据,又包含 分析型数据,既包含粗粒度的历史汇总数据,又包含细粒度的实时生产数据,因 此主动数据仓库既支持战略型决策又支持战术型决策;而传统数据仓库仅支持战 略型决策。 从数据更新周期方面考虑,传统数据仓库是以天或周为单位进行数据更新 的:而主动数据仓库是以分钟为单位进行数据更新的( 理想状态是实时更新) 。 从数据更新方式方面考虑,传统数据仓库是阻接口文件的形式通过诸如f t p 等文件传输方式进行源文件传输,再以e t l 的方式进行数据载入更新,此类更 新方式数据批量的数据更新;主动数据仓库需要实时的数据更新,可采用e a i 技术,在生产系统中事务完成后,即触发数据的载入和更新,更新时可采用批量 更新方式,也可以采用一种流水线式的增量数据更新,有效地保证了数据的实时 性。 从功能方面考虑,传统数据仓库可以支持简单报表查询、即席查询,以及简 单的“w h a t - i f ”分析等;主动数据仓库由于其细粒度数据,可以支持数据深层次 的分析,更灵活的即席查询和数据挖掘,事件驱动的决策制定、知识发布等。 从所面向的用户方面考虑,传统数据仓库面向分析、决策人员,内部人员; 而主动数据仓库还面向业务人员、呼叫中心客户代表、外部人员( 合作伙伴、供 应商、消费者) 、供应商及一些自动化程序和代理。 北京邮电大学硕士论文 主动数据仓库基于规则的事件匹配机制的研究与实现 第三章主动数据仓库技术的研究与应用现状 目前,国内外的研究成果主要还是集中在主动数据库方面。 3 1 国内外主动数据库现状 3 1 1 国外的现状 国外尤其是美国在主动数据库、实时数据库和分布式数据库等领域的研究已 经进行了多年,达到了一定的理论深度并付诸实践,而且取得了丰硕的成果。将 主动数据库、实时数据库和分布式数据库系统、面向对象的理论和技术进行有机 的集成也有了一定的进展。 在主动数据库研究方面,已开发了嵌入e c - a ( 事件条件动作) 规则的各种 系统模型研究并解决了有关不同类型事件、条件以及触发事务与被触发活动间关 系的说明、识别和处理问题。典型代表有h i p a c 、s t a r b u r s t 等。主动数据库扩展 了传统的数据模型,支持对e c a 规则的定义、操作及规则本身的一致性保证。 主动数据库语言不仅要描述一般数据的定义和操作,而且要描述规则、事件。9 0 年代中期,爱尔兰的r h o d e 大学以及美国麻省理工学院开始重点研究实时s q l 语言,开创了实时数据库语言的新领域。在商品化实时数据库产品的开发上,澳 大利亚的m o t h e r w e l l i n f o r m a t i o ns y s t e m 公司于1 9 8 2 年较早的推出了m a c r o v i e w 产品。目前世界上较为常用的实时数据库产品是由美国o s i 公司于8 0 年代中期 推出的p l a n t i n f o r m a t i o ns y s t e m ( p i ) ;美国a s p e n t e c h 公司的i n f o p l u s 2 1 产品;美 国h o n e y w e l l 公司的u n i f o r m a n c e 产品;英国w o n d e r w a r e 公司的i n d u s t r i a ls q l s e r v e r 产品。 目前在实现上大多采用规则库来实现数据库系统的主动性,关于这方面的研 究应该特别提及下列几个项目: w e t m 是德国卡什鲁研究所( f i ik a r l s r u h e ) 在一个c a do o d d b m s 中为了 完整性控制而设计的一个“事件一动作触发器”: ( 2 ) h i p a c ( h i g hp e r f o r m a n c ea c t i v ed a t a b a s es y s t e m ) 是威思康辛大学为了一 个o o d b m s 开发的,具有“事件条件一动作”( 即e c a 规则) 和时间约束处理功 能的主动数据库; ( 3 ) p o s t g r e s ( p o s ti n g r z s ) 是加州大学伯克莱分校在扩充关系型上研制的 可扩充d b m s ,具有规则子系统的功能: 北京邮电大学硕士论文 主动数据仓库基于规则的事件匹配机制的研究与实现 ( 4 ) a l e r t 是i b m 公司设计的,把一个被动的d b m s 变换成一个主动d b m s 的一种分层的体系结构,s t a r b u r s t 就是采用这种结构有关系型d b m s 做较小的 修改和扩充而成的。 实时数据库的主动性除了具有主动地执行服务功能外,还特别强调采用“统 一的机制”来实现这些功能,即要求把这些主动性功能用一种统一的方法与与原 有的数据库功能集成在一个数据库系统中。到目前为止,这种机制主要是通过将 一个规则预先嵌入数据库系统的办法来实现的。系统中提供了一个自动“监视” 模块,主动的不间断地检查着这些规则中包含的各种事件是否己经发生。一旦发 现事件发生时,就主动的触发执行某个动作。显然,这样数据库就可以主动履行 一些由用户预先设定好的动作。可把诸如完整性约束、存取控制、异常处理、监 督和警告、状态开关自动切换、乃至复杂的实时处理等功能以一种统一的机制得 以实现。 3 1 2 国内的现状 国内,华中理工大学现代数据库与信息系统科研组最早开展的a r t d b m s 的独创性研究,提出了r t d b s 与a d b s 的结合机制并开发了一个原型系统 a r t s i 和a r t s c s 。在商品化的实时数据库产品的开发上,比较具有代表性的 是中国国家电力公司自动化研究院于1 9 9 2 年开发的n s i s 石油化工生产实时数 据库产品:中国大庆金桥信息技术工程有限公司于1 9 9 3 年开发的c o n r t d b 实 时数据库产品;中国北京三维天地计算机技术开发有限公司开发的s u p e r l n f o 实 时数据库产品:中科院软件所开发的a g i l o r 2 0 等。 3 2 主动数据仓库现状 目前主动数据仓库的研究与应用主要是对主动数据库技术的扩展,如计算机 工程上介绍的基于分析规则的主动数据仓库,它是在常规的数据仓库的基础上引 人了分析规则构建出一种主动数据仓库的概念模型,通过扩展主动规则形成分析 规则,来分析多维数据做决策。系统仿真学报中提到了一种数据仓库的主动更新 方法突发事件驱动的方法,这种方法的基本思想是:监控业务数据库,捕获 发生在业务数据库中的数据变化,一旦捕获到感兴趣的数据变化,就启动数据仓 库更新操作,将相应的数据变化反映到数据仓库中来,它使得数据仓库和作为其 数据源的业务数据库联系得更紧密,提高了决策。 在国外方面,n c r 公司根据主动数据仓库的思想,提出了一个实时企业参 北京邮电大学硕士论文 1 4 主动数据仓库基于规则的事件匹配机制的研究与实现 考体系结构,如下图所示 图3 - i t e r a d a t a sr e a l - 1 m ee n t e r p r i s er e f e r e n c ea r c h i t e c t u r e 它可阻理解为一个集中的、实时的主动数据仓库体系结构。它通过先进的并 行技术、中间件技术、e 妯技术解决了主动数据仓库领域的实时性问题,性能问 题、同步等问题,可以为企业提供一套主动数据仓库的解决方案,在一定程度上 满足了其主动数据的需求。 北京邮电大学硕士论文 主动教据仓库基于规则的事件匹配机制的研究与实现 第四章基于事件与规则的主动数据仓库系统的体系结构 本章首先阐述了基于事件与规则的主动数据仓库系统体系结构的总体架构, 并分别介绍了该系统中各子模块的功能,以及模块间的相互关系。 4 1 基于事件与规则的主动数据仓库系统的体系结构 本文结合传统的数据仓库以及数据仓库主动性的需求,提出了一种基于事件 与规则的主动数据仓库系统,如图4 1 所示。 ( 系统相关说明如下: t r a n s a c t i o n a ld a t a 交易数据 o l t p 联机事务处理 t r a d i t i o n a ld a t aw a r e h o u s e 传统数据仓库 e d w 企业级数据仓库o d s 操作型数据集市 r e p o r t s 报表c u b e s 数据立方体 d a t am a r t s 数据集市d a t a m i n i n g 数据挖掘 o l a p 联机分析处理 p r o c e s sa c t i v i t y 过程主动化 d a t a a c q u i s i t i o n & i n t e g r a t i o n 数据获取与整合 e v e n td e t e c t o r 事件监测器r u l ee n g i n e 规则引擎 r u l eb a s e 规则库e v e n tb a s e 事件库 a c t i v ee v e n tb a s e 活动事件库,事实库 r e s u l tb a s e 结果库 r e s u l tp o s t e r 结果发布模块 e a im e s s a g eb u se a j 消息总线 ) 北京邮电大学硕士论文j 6 主动数据仓库基于规剧的事件匹配机制的研究与实现 图4 1 基千事件与规则的主动数据仓库的体系结构 正如上图所看到的那样,该主动数据仓库系统采用松耦合的方式在传统数据 仓库的基础上增加了一个主动化模块集,此模块集完成从实时数据抽取、整合, 事件实时监测,主动规则推理,主动结果发布等主动性、实时性相关的功能。这 种松耦合的方法可以不用修改现有主动数据仓库系统的代码,只需定义好数据抽 取、整合模块与数据仓库中数据更新的接口,以及事件监测模块同整个数据仓库 系统间的消息接口即可完成传统数据仓库主动化的过程。 4 2 各模块功能描述 基于事件与规则的主动数据仓库的体系结构包括以下功能模块: 数据抽取与数据整合模块( d a t a a c q u i s i t i o n & i n t e g r a t i o n ) :此模块负责将 分散在各生产系统中的数据进行抽取与整合,并更新到传统数据仓库的o d s 层。 此过程类似传统数据仓库的从接口文件到o d s 层的e t l 过程,所不同的是,此 模块强调数据更新的主动性和实时性,因此它不是采用传统接口文件的方式,按 天为周期进行数据更新,而是通过生产系统中相关事件触发的方式,实时地抽取 生产数据,再通过块更新或流水线更新( 类似系统结构中流水线技术,目的是提 高数据更新的效率) 的方式更新o d s 层中的数据。 显然数据抽取与数据整合模块是实现一切主动性、实时性的基础模块。 北京邮电大学硕士论文 1 7 主动数据仓库基于规则的事件匹配机制的研究与实现 事件监测器模块( e v e n td e t e c t o r ) :此模块负责实时监测主动数据仓库系统 中的事件,这些事件包括不同类型,如时间事件、数据操作事件、异常事件, 因此需要针对不同类型的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论