(管理科学与工程专业论文)数据仓库技术在金财工程中的研究和实现.pdf_第1页
(管理科学与工程专业论文)数据仓库技术在金财工程中的研究和实现.pdf_第2页
(管理科学与工程专业论文)数据仓库技术在金财工程中的研究和实现.pdf_第3页
(管理科学与工程专业论文)数据仓库技术在金财工程中的研究和实现.pdf_第4页
(管理科学与工程专业论文)数据仓库技术在金财工程中的研究和实现.pdf_第5页
已阅读5页,还剩54页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

南京航空航天大学硕士学位论文 摘要 数据仓库技术作为一种决策支持的手段已经为越来越多的企业、政府机关以及研 究机构等所接受。 “金财工程”即政府财政管理信息系统。在建设“金财工程”的同时,有必要建 设完整的数据仓库体系,充分利用积累的财政数据,进行数据的挖掘和分析,对宏观 和微观的经济形势进行预测。 本论文首先介绍了数据仓库的发展和特点,以及体系结构。其次介绍了金财工程 的现状,并对数据仓库技术在金财工程中的应用进行了分析。然后,从数据仓库的设 计,数据的抽取、转换和装载,和数据的分析三个方砸阐述了一个完整的数据仓库的 建设步骤。最后,结合金财工程的一个业务系统工资统一发放系统,实现了数据 仓库设计,利用d t s 数据包进行数据转换。并进行o l a p 分析的实例。 本论文希望对在金财工程中实现完整的数据仓库体系,起到抛砖引玉的作用。 【关键词】:数据仓库、金财工程、操作数据存储( s ) 、联机分析处理( o l a p ) 数据仓库技术在金财工程中的研究和实现 a b s t r a c t d a t aw a r e h o u s eh a sb e e n a c c e p t e db ym o r ea n dm o r ee n t e r p r i s e s ,g o v e r n m e n t d e p a r t m e n t sa n di n s t i t u t i o n sa saw a y o f d e c i s i o ns u p p o r t g o v e r n m e n tf i s c a lm a n a g e m e n ti n f o r m a t i o ns y s t e m ( g f m i s ) i sa l s oc a l l e dg o l d e n f i s c a lp r o j e c ti nc h i n a d u r i n gt h ed e v e l o p m e n to fg f m i s ,d a t aw a r e h o u s ea r c h i t e c t u r e a l s os h o u l db ed e v e l o p e d s ot h ed a t ai nt h ed a t aw a r e h o u s ec a l lb eu s e d ,m i n e da n d a n a l y z e da d e q u a t e l y t h e nt h ee c o n o m i c s i t u a t i o nc a nb ef o r e c a s t e d ,w h i c hi sb a s e do nt h e a n a l y z e d r e s u l t f i r s t l y , t h ed e v e l o p m e n tc u r s e ,t h ec h a r a c t e r sa n d t h ea r c h i t e c t u r e so f d a t aw a r e h o u s e a r e i n t r o d u c e d s e c o n d l y , t h es i t u a t i o n o fg f m i si nc h i n aa n dt h e a n a l y s i s o fd a t a w a r e h o u s e t e c h n o l o g yb e i n g u s e di ng f m i sa r ei n t r o d u c e d t h i r d l y ,aw h o l e d e v e l o p m e n t p r o c e s s ,i n c l u d i n gd e s i g n i n gad a t aw a r e h o u s e ,e x t r a c t i n g ,t r a n s f o r m i n ga n dl o a d i n g t h e d a t af r o mo l t pd a t a b a s et od a t aw a r e h o u s e ,a n dd i s p l a y i n gt h ea n a l y z e dr e s u l t ,i sa l s o e x p l a i n e d f i n a l l y , a l le x a m p l eo fd e s i g n i n gd a t aw a r e h o u s es t r u c t u r e ,t r a n s f o r m i n gd a t a f r o mt h eo l t ps y s t e m 。w h i c hi sb a s e do no n eo ft h ea p p l i c a t i o n so fg f m i s ,t oad a t a w a r e h o u s ea n d r e a l i z i n gt h eo l a p i sc a r r i e do u t 1w i s ht h i st h e s i sc a np r o v i d es o m ea s s i s t a n c ei n b u i l d i n g t h ed a t aw a r e h o u s e a r c h i t e c t u r ef o rg f m i s 【k e yw o r d s 】:d a t aw a r e h o u s e 。g o v e r n m e n tf i s c a lm a n a g e m e n t i n f o r m a t i o n s y s t e m ( g f m i s ) ,o p e r a t i o n a l d a t as t o r e ( o d s ) ,o nl i n e a n a l y s i sp r o c e s s ( o l a p ) i i 南京航空航天大学硕士学位论文 第一章绪论 1 1 引言 9 0 年代末,国内外掀起了一股数据仓库的热潮,数据仓库已从早期的探索阶段 走向实用阶段,数据仓库技术作为一种决策支持的手段为越来越多的企业接受。愈来 愈多的企业认识到,企业要想在竞争中取胜,获得更大的收益,至关重要的是,必须 利用计算机和网络技术、数据仓库技术,深层次地挖掘、分析当前和历史的生产业务 数据,以及有关环境的相关数据,自动迅速获取其中有用的决策信息,为企业提供快 速、准确和方便的决策支持。 数据仓库概念始于本世纪8 0 年代中期,但是到现在为止,“数据仓库”一词尚没 有一个统一的定义。著名的数据仓库专家w h i n m o n 在其著作 b u i i d i n gt h ed a t a w a r e h o u s e 一书中给出了如下描述:数据仓库是一个面向主题的、集成的、相对稳 定的、反映历史变化的数据集合用于支持管理决策。“1 对于数据仓库的概念我们可以从两个层次予以理解,首先,数据仓库用于支持决 策、面向分析型数据处理,它不同于企业现有的操作型数据库;其次,数据仓库是对 多个异构的数据源的有效集成,集成后按照主题进行了重组,并包含历史数据,而且 存放在数据仓库中的数据一般不再修改。 我们知道,数据处理可以分为两大类:操作型处理和分析型处理。相应操作所涉 及到的数据也分为两类:操作型数据和分析型数据。操作型处理也叫事务处理,是指 对数据库联机的日常事务操作,通常是对一个或一组记录的查询和修改,主要是为企 业的特定应用服务的,人们关心的是响应时间,数据的安全性和完整性。典型的如传 统操作型数据库的联机事务处理( o l t p ) 。分析型处理则用于管理人员的决策分析。例 如,d s s 和c r m 等,经常要访问大量的历史数据,因而是传统操作型数据库管理系统 所不能承受的。两者之间的巨大差异使得操作型处理和分析型处理的分离成为必然。 数据仓库技术的目标就是将操作型数据和分析型数据分离出来,从而分离操作型处理 和分析型处理。 数据仓库是对多个异构的数据源的有效集成。在企业的操作型数据环境中,往往 存在着多种数据源,如不同的业务数据库、外部数据和文档资料等,从而使得企业在 进行数据的分析时,很难取得所需要的足够的数据。而数据仓库则是将分析决策所需 的大量数据从企业日常运行环境中分离出来,把分散的、难以访问的业务数据转换成 集成统一、随时可用的信息而建立的一种数据库存储环境。它使用户能够方便的提取 所需的数据、同时又不干扰业务数据库的正常运行。 在传统的数据仓库实现中,往往将操作性处理和分析性处理完全区分开来,建立 起“数据库一数据仓库( d a t ab a s e 一9 a t aw a r e h o u s e ,d b d w ) ”的两层体系结构。但 数据仓库技术在金财工程中的研究和实现 是在很多情况下,d b d w 的两层体系结构并不能涵盖企业所有的数据处理要求。因为 企业的数据处理虽然可以较为粗略地划分为操作型和分析型两部分,但是这两种处理 类型之间并不是泾渭分明的。实际的数据处理往往是多层次的,也就是说,有些处理 是操作型的,但不适合在操作型数据库中进行:而又存在着一些分析型处理,但不适 合在数据仓库中进行。这种信息处理的多层次要求导致了一种新的数据环境操作 数据存储( o p e r a t i o n a ld a t as t o r e ,o d s ) 的建立,在d b - d w 两层体系结构的基础 上再增加个新的层次:o d s ,从而形成d b o d s d w 的三层体系结构。 o d s 作为一个中间层次,一方面,它包含企业全局一致的、细节的、当前或接近 当前的数据,可以进行全局联机操作型处理;另一方面,它又是一种面向主题、集成 的数据环境,而且数据量较小,适合于辅助企业完成日常决策的数据分析处理。【2 1 d b o d s d w 的三层体系结构在数据仓库技术中的应用,大大加快了数据仓库工程 化的进程,为企业数据的管理和分析提供了强有力的工具。 1 2 本课题研究内容及意义 随着数据仓库技术的不断发展,尤其是数据分析技术的成熟和完善,数据仓库在 商业上的应用也越来越普遍。然而,数据仓库目前还没有严格的数据理论基础,也没 有成熟的基本模式,且更偏向于工程,具有强烈的工程性。 所以,本课题在对数据仓库的理论和实现技术进行探讨的同时,还探讨了数据仓 库技术在“金财工程”中的应用,最后给出了在一个典型的财政业务应用系统“工资 统一发放信息系统”中数据仓库实现的例子。 “金财工程”即政府财政管理信息系统( 简称g f m i s , g o v e r n m e n tf i s c a l m a n a g e m e n ti n f o r m a t i o ns y s t e m ) ,是利用先进的信息技术,支撑以预算编制、国库 集中支付和宏观经济预测分析为核心应用的政府财政管理综合信息系统,是财政系统 信息化建设目标和规划的统称,是我国电子政务建设的重要组成部分。3 在“金财工程”正式提出之前,各地财政部门在“政府上网”工程的指导思想下, 有意识的开发了一些财政业务应用系统,从而有效地加强了财政部门对资金的管理, 并且积累了大量宝贵的财政数据。所以,在建设“进财工程”的过程中,一方面要加 强各个财政业务应用系统之间的数据集成,还要建立数据仓库体系,充分利用已经积 累的财政数据,进行有效地分析和预测。本文在此基础上提出了一些见解和观点。 第二章介绍了数据仓库的发展和特点,以及体系结构;第三章介绍了金财工程的 现状,并对数据仓库技术在金财工程中的应用进行了分析;第四章从数据仓库的设计, 数据的抽取、转换和装载,和数据的分析三个方面阐述了一个完整的数据仓库的建设 步骤;第五章结合金财工程的一个业务系统工资统一发放系统,实现了数据仓库 设计,利用d t s 数据包进行数据转换,并进行o l a p 分析的实例。 南京航空航天大学硕士学位论文 第二章数据仓库技术概述 2 1 数据仓库技术的提出 随着计算机硬件和软件的发展,数据管理经历了人工管理、文件系统和数据库系 统三个阶段。应数据管理任务的需要而产生的数据库技术,诞生于2 0 世纪6 0 年代中 期,它的出现解决了数据量急剧增加后的管理问题,以及联机实时处理的问题,有效 地满足了当时乃至现在的数据管理应用的需要。 用数据库管理系统来管理数据具有如下特点: _ 数据结构化: 数据的共享性好,冗余度低; 数据独立性高; 一数据由数据库管理系统( d a t ab a s em a n a g e m e n ts y s t e m ,d b m s ) 统一管理 和控制。 数据库技术一直力图使自己能胜任从事务处理、批处理到分析处理的各种类型的 信息处理任务。尽管数据库在事务处理方面的应用获得了巨大的成功,但它对分析处 理的支持一直不能令人满意,尤其是当以业务处理为主的联机事务处理( o nl i n e t r a n s a c t i o np r o c e s s ,o l t p ) 应用与以分析处理为主的决策支持系统( d e c i s i o n s u p p o r ts y s t e m ,d s s ) 应用共存于同一个数据库系统中时,这两种类型的处理发生 了明显的冲突。因而,直接使用事务处理环境来支持d s s 进行联机分析处理是行不通 的。 具体来说,事务处理环境不适宜联机分析处理的原因主要有以下五条”1 : ( 1 ) 事务处理和分析处理的性能特性不同 在事务处理环境中,用户的行为特点是数据的存取操作频率高而每次操作处理的 时间短。在分析处理环境中,某个d s s 应用程序可能需要连续运行几个小时,从而消 耗大量的系统资源。 ( 2 ) 数据集成问题 分析处理需要集成的数据。以d s s 为例,不仅需要整个企业内部各部门的相关数 据,还需要企业外部、竞争对手等的相关数据。而事务处理的目的在于使业务处理自 动化,一般只需要与本部门业务有关的当前数据。而对整个企业范围内的集成应用考 虑很少。 ( 3 ) 数据动态集成问题 由于每次分析都进行数据集成的开销太大一些应用仅在开始对所需数据进行了 集成,以后就一直以这部分集成的数据作为分析的基础,不再与数据源发生联系,这 种方式的集成称为静态集成。静态集成的最大缺点在于,如果在数据集成后数据源中 数据发生了改变,这些变化将不能反映给决策者,导致决策者使用的是过时的数据。 1 数据仓库技术在金财工程中的研究和实现 因此,集成数据必须以一定的周期进行刷新,这种方式就称之为动态集成。显然,事 务处理系统不具备动态集成的能力。 ( 4 ) 历史数据问题 事务处理一般只需要当前数据,在数据库中一般也只存储短期数据。但对于决策 分析而言,历史数据是相当重要的,许多分析方法需要大量的历史数据为依托。 ( 5 ) 数据的综合问题 在事务处理系统中积累了大量的细节数据,一般而言,d s s 并不对这些细节数据 进行分析。这主要有两个原因,一是细节数据量太大,会严重影响分析的效率:二是 太多的细节数据不利于分析人员将注意力集中于有用的信息上。因此,在分析前,往 往需要对细节数据进行不同程度的综合。而事务处理系统不具备这种综合能力,根据 规范化理论,这种综合还往往因为是一种数据冗余丽加以限制。 归根到底,事务处理环境不适宜联机分析处理的根本原因是操作型数据和分析型 数据有本质的差异,如表2 - 1 所示: 表2 1 操作犁数据和分析犁数据的区别 数据粒度细节的 综合的,或提炼的 数据时效性在存取瞬闯是准确的代表过去的数据 更新与否可更新不更新 操作霈求操作需求事先可知道操作需求事先不知道 生命周期生命周期符合s d l c完全不同的生命周期 系统性能对性能要求高对性能要求宽松 操作范围一个时刻操作一个单元 一个时刻操作一个集合 驱动方式事务驱动的分析驱动的 面向类型面向应用的面向分析的 数据量一次操作数据量小 次操作数据量大 操作方式支持日常操作 支持管理需求 ( 注:s d l c 为“系统开发生命周期”s y s t e md e v e l o p m e n tl i f ec y c l e ) 因而,在事务型环境中直接构建分析型应用是一种失败的尝试。而数据仓库本质 上是对这些存在问题的回答。要提高分析和决策的效率和有效性,分析型处理及其数 据必须与操作型处理及其数据相分离。必须把分析型数据从操作型环境中提取出来, 按照分析处理的要求重新组织,建立单独的分析处理环境,数据仓库正是为了构建这 种新的分析处理环境而出现的一种数据存储和组织技术。 2 2 数据仓库技术的特征 数据仓库概念始于本世纪8 0 年代中期,著名的数据仓库专家w h i n m o n 在其著 作( ( b u i l d i n gt h ed a t aw a r e h o u s e ) ) 一书中给出了如下描述:数据仓库是一个面向 南京航空航天大学硕士学位论文 主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。 这个定义说明了数据仓库的四个基本特征:数据仓库的数据是面向主题的、数据 仓库的数据是集成的、数据仓库的数据是不可更新的、数据仓库的数据是随时间不断 变化的。 ( 1 ) 数据仓库的数据是面向主题的 主题是一个抽象的概念,是在较高层次上将企业信息系统中的数据综合、归类并 进行分析利用的抽象。面向主题的数据组织方式,就是在较高层次上对分析对象的数 据的一个完整、一致的描述,能完整、统一地刻画每个分析对象所涉及的企业的各项 数据,以及数据之间的联系。 按照面向主题的方式,数据的组织应该分为两个步骤:抽取主题以及确定每个主 题所应包含的数据内容。主题的抽取也应该按照分析的要求来确定。在由关系型数据 库实现的数据仓库中,每个主题都是由一组关系表来实现的。在具体实现中,一个主 题可以划分为多个表,主题只是一个逻辑的概念。但是数据仓库中的数据不再是业务 处理的流水账,而是经过了一定程度的综合。 基于一个主题的所有表都含有一个称为公共码键的属性作为其主码的一部分。公 共码键将各个表统一联系起来,体现它们是属于一个主题的。根据数据被关心的程度 不同,可以将同一主题的不同表分别存储在不同的介质中。 总结起来,面向主题的数据组织方式是根据分析要求将数据组织成一个完备的分 析领域,即主题域( t h e m ed o m a i n ) 。主题域应该具有以下特点: _ 独立性。这一主题域可以和其他的主题域有交叉部分,但它必须具有独立内 涵,即要求有明确的界限。 完备性。要求对该主题的任何一个分析处理要求,能够在该主题内找到所要 求的一切内容。 ( 2 ) 数据仓库的数据是集成的 数据仓库的数据是从原来的分散的数据库中抽取来的。而数据库中的操作型数据 与数据仓库中的分析型数据之间的差别非常大。第一,数据仓库的每一个主题所对应 的源数据在原有的各分散数据库中有许多重复和不一致的地方,且来源于不同的联机 系统的数据都和不同的应用逻辑捆绑在一起:第二,数据仓库中的综合数据不能从原 有的数据库系统直接得到。 因此在数据进入数据仓库之前,必然要经过统一和综合。这一步是数据仓库建设 中最关键、最复杂的一步,所要完成的工作有: a 要统一源数据中所有矛盾之处,如字段的同名异议、异名同义、度量单位不 统一、字长不一致,等等。 b 进行数据综合和计算。数据仓库中的数据综合工作可以在从原有数据库抽取 数据时生成,但许多是在数据仓库内部生成的,即进入数据仓库以后进行综 合生成的。 5 数据仓库技术在金财工程中的研究和实现 ( 3 ) 数据仓库的数据是不可更新的 数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询, 一般情况下并不进行修改操作。而且这些数据反映的是一段相当长的时间内历史数据 的内容,是不同时点的数据库快照的集合,以及基于这些快照进行统计、综合和重组 的导出数据,而不是联机处理的数据。数据库中进行联机处理的数据经过集成输入到 数据仓库中,就不再对这些数据进行更新:除非这些数据已经超过数据仓库设定的数 据存储期限,这些数据才根据规定从当前的数据仓库中清除。 ( 4 ) 数据仓库的数据是随时间不断变化的 数据仓库中的数据不可更新是针对应用来说的,也就是说,数据仓库的用户进行 分析处理时是不进行数据更新操作的。但并不是说,在从数据集成输入数据仓库开始 到最终被删除的整个数据生存周期中,所有的数据仓库数据都是永远不变的。数据仓 库的数据是随时间的变化不断变化的,这个特征一般表现在以下三个方面: 第一,数据仓库随时间变化不断增加新的数据内容。新增加的数据内容是o l t p 数据库的快照,经统一集成后增加到数据仓库中,不会对数据仓库中原来的数据内容 进行修改。 第二,数据仓库随时间变化不断删去旧的数据内容。然而数据仓库中的数据时限 要远远长于操作型环境中的数据时限。数据仓库中的数据一般要保存5 1 0 年。 第三,数据仓库中包含有大量的综合数据,这些综合数据中很多跟时间有关,如 数据经常按照时间段进行综合。或隔一定的时间片进行抽样等。这些数据要随时间的 变化不断地进行重新综合。 2 3 数据仓库的体系结构 2 3 1 数据仓库的体系化环境 对一个企业而言,建立一个大而全的数据仓库,往往并不能取得满意的效果。虽 然数据仓库的数据组织是面向主题的,并为分析的需要保存了许多综合数据,但分析 要求千变万化,我们不可能要求一个单一层次的数据仓库能完全符合各种各样的分析 的需求,数据仓库的主题需要不断完善,不断调整,综合数据的内容和形式也要灵活 多变。另外,随着数据不断载入,数据仓库将越来越庞大。这些都给应用带来了一定 的麻烦。 所以,在具体实施中,往往根据管理层次的不同需要,在全局级数据仓库的基础 上又导出部门级和个人级数据仓库,全局级、部门级及个人级数据仓库三者浑然一体, 适应了不同层次分析的要求,并与原有的操作型环境形成了一个多层次的体系化环 境。 6 南京航空航犬人等硕十学化论文 操作掣环境 令局级个人级 图2 - 1 数据仓库的体系化环境” 图2 1 所示是对体系化环境的一个简单描述,它分为四个层次:操作型环境、全 局级数据仓库,部门级数据仓库和个人级数据仓库。 在这个体系化环境中,操作型环境存放的是一些细节的操作型数据,服务f 高性 能事务处理。全局级数据仓库中除了存放细节数据外,还包含大量导出数据。部门级 数据仓库中一般仅包含导出数据,而个人级数掘仓库的数据都是暂时的,用于启发式 分析。 数据从操作型环境经过综合整理进入全局数据仓库,企业中的有关部门再从全局 数据仓库中组织适合自己特殊分析需求的数据,建立自己的局部数据仓库;而个人不 仅可以从全局数据仓库中提取数据,而且可以从部门级局部数据仓库中提取所需数 据。这样,由于数据在全局数据仓库中都已经是集成的、一致的,所以部门和个人的 抽耿工作效率将会很高,而且不会出现“蜘蛛网”情况。 需要注意的是,在建设数据仓库时,往往先针对一个或几个主题域建立部门级的 数据集市,将业务数据导入到数据集市系统后,再将数据集市中的数据集成到全局级 的数据仓库中。而图2 1 是对体系化环境的描述,这是两个不同的概念。 体系化环境的层次反映了数据与应用逻辑的抽象程度,如在操作型环境中的数据 与事务处理逻辑常常是捆绑在一起的:而在全局数据仓库中,数据组织的应用逻辑独 立性最强,也就是说最不依赖于具体应用,其抽象程度最高;在部门级数据仓库和个 人级数据仓库中,数据又与分析处理的逻辑联系在一起。我们不能抽象地蜕,数掘与 应用逻辑的独立性越强,这种数据组织就越好,而应该结合数据在体系化环境中所处 的位置来分析;如在操作型环境中,为了更好地支持联机事务处理,在全局数掘仓库 一级,它是对整个企业的数据完整的一致的存储,便于向部门级或个人级数据仓库提 供数掘,因而最好是完全独立于任何应用逻辑:而在部门级数掘仓库中,将数据组织 与分析处理逻辑结合起来,也有利于提高分析效率。 2 3 2 数据仓库的系统结构 数据仓库系统( d a t aw a r e h o u s es y s t e m ,) 峤) 【 1 源数掘、仓一:管雕1 。j 乱数 据仓库、分析_ t 具以及f | _ i j 户“部分组成,其系统结构如图2 - 2 所示: 数据仓库技术住金财i 。群中的研究平| l 实现 源数据层仓库管理层 一 元数据流 数据仓库层 + 数据分析层用户层 数据流 图2 - 2 数据仓厍的系统结构图 源数据层表示数据仓库系统数据的来源,一般包括文档和源数据库两类。源数 据库一般存放了传统的事务型系统产生的数据。 仓库管理层是为了将源数据层中的数据导入到数据仓库层。主要的操作涉及到 数据抽取、转换、清洗以及装载等。对源数据进行抽取、转换和清洗的目的是为了将 数据转化为数据仓库的标准模式,并除去数据中的脏数据( d i r t yd a t a ) 。 数据仓库层表示数据仓库的存放。一般包括数据仓库和数据集市两种类型。数 据仓库按照企业业务主题模式存储事务性系统信息和历史数据信息:而数据集市 ( d a t am a r k e t ) 是指为了某种分析目的而组织在一起的数据信息,一般是数据仓库 的一个子类。如果没有特别说明,本文后面章节中提高的数据仓库概念包含数据集市。 数据分析层表示对数据仓库中的数据进行分析,以提取出所需的决策信息。包 括分析工具和显示工具两类。前者如d s s 工具和o l a p 工具等,后者主要是报表分析 和数掘显示工具。 用户层,则表示在数据仓库系统中的用户种类。数据仓库用户一般分为三类: 数据仓库管理员、信息使用者和信息探索者。信息使用者以一种可以预测的、重复性 的方式来使用数据仓库平台,他们查看相对少量的数据,获得特定的数据信息,信息 使用者一般使用特定的报表工具来i 方问数据仓库;而信息探索者以不可预测的、不定 时的方式来使用数据仓库平台,他们查看海量的详细数据,并考虑不同类型数据和同 一类型数据不同显示模式川的管理,他们一般利用决策分析一r 具和数据挖抓 l :具来i 方 问数据仓库。 南京航空航天人学硕| 学仃沦文 元数据( m e t ad a t a ) 是成功的数据仓库的重要组成部分,它描述了数据仓库的 数据和环境,是数据仓库中关于数据的数据。而元数槲库是对元数据进行管理和存储 的结构。通过元数据库数据获取处理工具与仓库管理层、数据仓库层和数据分析层 建立联系。 2 3 3 数据仓库的数据组织结构 在数据仓库中的数据分为四个级别:早期细节级、当前细节级、轻度综合级、高 度综合级。 源数据经过综合后,首先进入当前细节级,并根据具体需要进行进一步的综合从 而进入轻度综合级乃至高度综合级,老化的数据将进入早期细节级。一般将数掘仓库 中存在着的不同的综合级别称之为“粒度”。粒度越大,表示细节程度越低,综合程 度越高。级别的划分就是根据粒度进行的。典型的数据仓库数据组织结构如图2 - 3 所示: 。 图2 3 数据仓库的数据组织结构图 2 4 操作数据存储( o d s ) 2 4 1o d s 技术的功能和特点 高度综合级 轻度综合级 ( 数据集市) 当前细节级 甲期细1 y 级 数据仓库的提出和实施将操作型处理和分析型处理区分丌来,建立其d b i ) w 嘶层 体系结构。但是在很多情况下,1 ) b d w 的两层体系结构并不能涵盏企业所有的数掘处 、侥 = _ | 求瀚 :w l ii n m o n 汁i 山;fj 等i f 城州f 卓i 、1 儿h l : 【眦i , i k j i j l 蹰 卜2 0 0 05 数据仓库技术f ,l ! 金财i 样中的研究卡实现 理要求。因为操作型处理和分析型处理之问并不是泾渭分明的,实际的数据处理往往 是多层次的,即有些处理是操作型的,但不适合在操作型数据库中进行,而有些处理 是分析型的,但不适合在数据仓库中进行。很多问题既不是联机事务处理,又算不上 高层决策分析,而又常常是。个企业中层管理者经常要解决的、较大量的问题。这种 信息处理的多层次要求导致了一一种新的数据环境一操作数据存储( o p e r a t i o n a l d a t as t o r e o d s ) 的建立。 o d s 作为一个中白j 层次,一方面,它包含企业全局一致的、细节的、当前或接近 当前的数据,可以进行全局联机操作型处理:另一方面,它又是一种面向主题、集成 的数据环境,且数据量较小,适合于辅助企业完成同常决策的数据分析处理。 o d s 的提出弥补了d b d w 两层体系结构的不足,而形成了d b o d s d w 的三层体系 结构,如图2 4 所示。 幽2 - 4d b o d s d w 的二j 丢体系耋占构 o d s 是用于支持企业同常的全局应用的数据集合,将企业同常数据视为业务处理 的基础,它可以向数据仓库提供数据,所以又称为业务数据商店。保存在o d s 中的数 据具有四个基本特点:面向主题、集成的、可变的、数据是当前的或接近当前的。与 数据仓库一样,o d s 中的数据组织方式也是面向主题的、集成的,因此o d s 是建立在 数据库之l 的。进入o d s 的数据也要进行抽取,转换和集成。不同于数据仓库的是, o d s 中存放当前或接近当前的数据,可以进行联机修改,包括增、删、改等操作。 南京航空航天大学硕士学位论文 某种程度上,o d s 可以看作是从数据库到数据仓库的一种过渡型。它的产生是为 适应不同的需求。它的存在有其必要性和在实际中所处的地位。可以从以下几个方面 来说明: ( 1 ) 建立o d s 不仅满足企业进行全局应用即企业级的o l t p 和即时o l a p ,还为 进步建立企业数据仓库提供了一致的数据环境以供抽取,同时减轻了数据仓库的系 统管理负荷。 ( 2 ) 当没有o d s 时,数据仓库的记录系统分散于各非集成的应用之中,这时由 于各个应用的数据分散且变化快速,在数据向数据仓库集成时,数据仓库的转换接口 将很复杂并且还要处理好各应用在时间上的同步阔题。 ( 3 ) o d s 的建立弥补了d b d w 两层体系结构中所存在的不足,它可以满足数据 处理的多层次要求,即面向各级管理人员。更加有效她利用信息资源。 因此,为适应企业级操作型信息的需要,建立d b - o d s - d w 体系结构是最优的。 2 4 2o d s 与数据仓库的比较 d b 、o d s 及d w 在系统功能、数据特征、系统建设三个方面的分析比较如表2 - 2 所示: 数据仓库技术在金财工程中的研究和实现 表2 - 2d b 、o d s 、i ) w 在系统功能、数据特征和系统建设方面的比较 从表中可以看出,o d s 和d w 均以全局一致的数据环境向企业提供决策支持功能。 它们在决策的支持层次、数据的组织处理以及建设上都存在着差异。然而,在实际应 用中,系统方案的选择标准并不明确,实际情形的复杂性及其它非技术因素均影响着 正确方案的选择。 2 5 本章小结 本章对数据仓库技术的发展历程进行了回顾,结合数据仓库的四大技术特征,介 绍了数据仓库中的重要概念。而充分理解数据仓库的体系结构是建设成功的数据仓库 的基础,在本章中对数据仓库的体系化环境、系统结构和数据组织结构进行了阐述和 分析。 由于在很多情况下操作型处理和分析型处理之间并不是泾渭分明的,所以为了弥 补了传统的d b d w 两层体系结构的不足,提出了d b o d s d w 的三层体系结构。该结构 的提出和建立,能够更加灵活有效地建立数据仓库。 南京航空航天人学顼卜能论文 第三章金财工程与数据仓库 3 1 金财工程的立项背景 “会财工程”即政府财政管理信息系统( 简称g f m i s g o v e r n m e n tf s c a l m a n a g e m e n ti n f o r m a t i o ns y s t e m ) ,是利用先进的信息技术,支撑以预算编制、国库 集中支付和宏观经济预测分析为核心应用的政府财政管理综合信息系统,是财政系统 信息化建设目标和规划的统称。它是在总结我国财政信息化工作实践,借鉴其它国家 财政信息化管理先进理念和成功经验的基础上,提出的与我国建立公共财政1 “体制框 架目标相适应的一套先进信息管理系统,是我国j 下在实施的电子政务战略工程建设的 重要组成部分。为了与已经和正在建设的“会关”、“金税”、“金卡”等重大信息工程 相对应,2 0 0 2 年初,遵照朱镕基总理的指示,将其正式命名为“金财工程”。同年8 月,财政部在黑龙江召开“会财工程”建设座谈会,对“金财工程”的建设进行动员 和部署,标志着“金财工程”的全面启动。” 财政部门是国家重要的综合经济管理部门,建立“金财工程”,推进财政工作和 财政管理的信息化,是政府管理信息化的重要内容,是财政部门和财政工作适应国民 经济和社会管理信息化的必然要求。“金财工程”以大型数据库为基础,建立包括部 门、单位、地域、序号等属性的数据字典,将详细记录每个部门、单位每一笔财政资 金收支来龙去脉和每一个时点的资金运动情况,涵盖了财政收支管理的全过程,将覆 盖g d p 2 0 的资金流动,可以大大减少预算执行的随意性,监控任一时划点的财政收 支状况,将从根本上防止财政资金的体外运行和沉淀,更好地为人民理财。” 建成的“金财工程”将运用先进的信息技术,综合预算、会计和财务管理应用程 序,完整记录财政收支过程;内部控制和程序实现自动化:能及时提供准确、可靠的 财务信息;能严密监控现金头寸,改善现会和债务管理;能为预算编制和执行提供全 面综合管理报告,为微观经济管理和宏观经济决策提供依据的系统。f 在建立之中的 g f m i s 主要有以下功能:一是记录预算拨款、调整和分配;二是现金管理:执行资金 计划,满足现金余额要求和保证承诺拨款;三是汜录各项预算科目的支出限额、现金 发放和分配;四是记录各阶段的承诺批准,已支付和待支付;五是处理支出发票、收 据和批准支付;六是对所有收入的记录和报账;七是按会计科目对收入和支出记录总 分类账;八是编制标准和特定的财务报表的报告。 “金财工程”巧i 是传统意义上只能做“事后”记账处理的+ 般财务系统,丽是带 有“事前”控制机制的政府财政“资源型”管理系统,也是自动化程度较高、依“法” 理财的系统。”1 1 j 衍i f m ;儿 政,祧址u i t 址牡个 | 会的会? j 1 、:薪幔一一1 1 + l j 小世i 尚足l w ;个阶 ! j i 、j 肼个i 衍l ,扫t 叫j :1 、q 、 引的 i 带。挺一向k 嗣l i im 耐l l i 叶姨 i3 数据仓库技术在金财工程中的研究和实现 可以说,“金财工程”不仅是公共财政改革的基础,两且本身还是公共财政改革 的重要内容。建立政府财政管理信息系统也是国外主要市场经济国家的通行做法。近 年来,各国政府都投入大量资金建设政府财政管理信息系统。世界银行对俄罗斯中央 政府财政管理信息系统建设项目的评估为9 亿美元。”1 因此,建设“金财工程”还有 利于我国按市场经济发展和加入世贸组织要求,在财政管理方式和财政工作方式上尽 快与国际接轨。 3 2 金财工程的体系结构 “金财工程”由两大部分构成,一是财政业务应用系统,包括预算管理、国库集 中收付、国债管理等核心财政业务的管理系统和宏观经济预测分析系统:二是覆盖全 国各级财政管理部门和财政资金使用部门的信息网络系统。 3 2 1 财政业务应用系统 财政业务应用系统,主要由预算编制审核系统、国库支付管理系统、现金管理系 统、工资集中发放系统、收入管理系统、国债管理系统、政府采购管理系统、固定资 产管理系统、宏观经济预测分析系统、标准代码库系统和与其它部门连结的接口系统 等1 1 个分系统组成。系统结构图如图3 - 1 所示。 预 算 编 制 宙 核 系 统 财政业务应用系统 3 2 2 信息网络建设 现 金 管 理 系 统 工 资 集 由 发 放 系 统 收 入 管 理 系 统 国 债 管 理 系 统 政 府 采 购 管 理 系 统 固 定 资 产 管 理 系 统 图3 - 1 财政业务应用系统结构圈 宏 观 经 济 预 测 系 统 接与 嚣 门 连 结 的 标 准 代 码 库 系 统 覆盖全国各级财政管理部门和财政资金使用部门的信息网络系统( g f m i s n e t ) , 包括四个组成部分: 是网络通信平台。它是政府财政管理信息系统运行的基础,支撑着各级财政部 门以部门预算编制和国库集中收付为核心的主体财政业务应用,是覆盖全国的国库集 1 4 国库支付管理系统 南京航空航天大学硕士学位论文 中收付的通信和支付网络,同时也为各级财政部门的内部管理和办公自动化服务。网 络通信平台采用三级纵横网络结构。纵向三级结构包括:按照高可靠性的业务需求, 建设中央和各级财政管理信息系统的网络中心和备份中心,以及连接财政部网络中心 和各省市财政厅( 局) 网络中心的一级骨干网。连接省级财政网络中心和各市( 地) 级财政网络中心的二级骨干网。连接市( 地) 级财政网络中心和县级的三级骨干网: 横向三级结构包括:连接中央各部门财务司和部门所属的主要预算单位、具有财政收 入职能部门、人民银行国库局、承担支付代理和非税收入代理的商业银行及驻各省的 国库支付中心分支机构的一级骨干网。连接全部省本级预算单位、收入职能部门、人 民银行国库省级分库、承担支付代理和非税收入的商业银行分行的二级骨干网。连接 市( 地) 本级预算单位、收入职能部门、人民银行市( 地) 级国库分库、承担支付代 理和非税收入代理的商业银行分支机构的三级骨干网。 二是计算机系统硬件和操作系统软件平台。采用集中化的数据处理中心运行模 式,即在各省( 市、区) 财政厅( 局) 和有条件的骨干城市设立相对集中的数据处理 中心,周边市( 地) 数据处理服务器以托管方式相对集中运行管理,通过g f m i s n e t 使用托管在数据处理中心的服务器和资源。 三是数据库平台。建立统一的数据库平台,以保证财政核心业务应用系统的统一。 财政核心应用系统采用财政部制定的统一编码体系,开发采用统一数据字典。 四是安全体系。包括认证中心、加密体系和安全管理体系。安全标准应达到银行 业计算机系统的安全标准。各级g f m i s 系统建设将按统一的安全体系和安全标准组织 实施,安全产品由财政部统一选型确定。 3 3 数据仓库在金财工程中的应用分析 3 3 1 数据仓库技术应用在金财工程中的必要性 在“金财工程”提出之前。中央财政部门和地方各级的财政部门结合财政改革的 要求,已经开始尝试通过建立财政业务系统来强化财政的管理。比如在国家要求公务 员工资由财政部门集中发放的基础上,建立了工资统一发放系统:为了进一步加强国 库收支的管理,建立了国库集中收付系统;以及为了进一步使政府工作透明化以及节 约政府资金的支出,建立了政府采购管理系统等。 这些系统的建成和使用,为“金财工程”积累了宝贵的数据。随着财政业务应用 系统的逐步成熟和财政制度改革的不断深入,就要求整合财政业务数据,并基于此进 行决策分析,从而建立强有力的财政决策支持系统( d s s ) 。 在“金财工程”的财政业务应用系统,也明确提出了建立“宏观经济预测分析系 统”的要求,该系统是以财政数据库的数据为基础,综合国内外宏观经济数据,建立 数据仓库技术在金财工程中的研究和实现 财政收支分析预测模型、财政监测预警模型、政策分析模型、宏观经济预测模型、宏 观经济景气与监测模型,科学、全面地掌握宏观经济和财政收支增减因素,合理控制 债务规模,为政府财政预算编制、财政支出管理、财政政策调整提供辅助决策依据。 。1 在公共财政体系中,也要求基于数据仓库技术,充分利用积累的财政数据,进行财 政数据的决策和分析。 所以说,在建设“金财工程”的过程中,除了按照要求,建设好各个财政业务应 用系统和信息网络,还要在将各地已建成的财政业务系统积累的数据转换到新的业务 系统中的同时,建立数据仓库系统。 3 3 2 在金财工程中建设数据仓库需要注意的问题 建立数据仓库不是目的,而是手段。通过建立数据仓库,从而将多个不同的财政 业务应用系统的数据集成和转换到数据仓库系统中,最终为各级财政部门对经济形势 进行预测和分析而服务。 结合当前我国财政管理现状和金财工程的有关要求,在金财工程中建设数据仓库 需要注意如下几个问题: 一、要做好业务数据的抽取、转换、集成和清洗的工作。由于各地财政部门已经 建成的财政业务应用系统有很大差异,即使在同一财政部门建设的不同财政业务应用 系统也往往是千差万别的。所以,在建设数据仓库时,一定要制订正确有效的转换策 略,在尽可能减少损失的前提下,将积累的财政业务数据导入到数据仓库中。 二、在对数据仓库进行数据的集成时,还要注意统观全局。金财工程覆盖全匡【各 级财政管理部门和财政资金使用部门。因而在对数据仓库进行数据集成时,上级财政 部门要对上报数据制订集成度要求,下级财政部门则将符合要求的数据上报上级部 门。 三、要做好数据仓库的管理工作。我国财政部门对数据仓库技术的应用还处于起 步阶段,相关的工作人员对业务数据库比较熟悉,但是对于数据仓库的管理还比较陌 生。所以,在建设数据仓库的同时,还要注意对相关工作人员进行培训,并建立完善 的规章制度,以保证数据仓库的有效运行。 四、要做好数据的分析预测工作。金财工程是一项业务性很强的工作,对决策数 据的要求也比较严格。所以,在采用数据仓库中的数据进行预测分析和决策工作时, 要充分考虑财政业务的特点:同时,为了方便使用,辅助决策工具的设计还要尽可能 的简单、实效。 五、建设数据仓库系统要有计划、有步骤地实施。要完全发挥金财工程的效益, 需要建立全局的数据仓库体系。然而在建设数据仓库的过程中,需要从上到下进行数 据仓库体系的设计和实施;而在数据仓库的集体实施上,则应从小到大,逐个系统、 逐个主体域进行实施和集成:将数据从业务系统导入到数据集市或各级数据仓库,最 南京航空航天大学硕士学位论文 终导入到全局数据仓库体系中。同时,全国各地的经济实力和计算机应用程度是千差 万别的,所以在进行数据仓库系统的建设时,还要考虑各地

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论