(管理科学与工程专业论文)面向金财工程的数据仓库设计与实现.pdf_第1页
(管理科学与工程专业论文)面向金财工程的数据仓库设计与实现.pdf_第2页
(管理科学与工程专业论文)面向金财工程的数据仓库设计与实现.pdf_第3页
(管理科学与工程专业论文)面向金财工程的数据仓库设计与实现.pdf_第4页
(管理科学与工程专业论文)面向金财工程的数据仓库设计与实现.pdf_第5页
已阅读5页,还剩72页未读 继续免费阅读

(管理科学与工程专业论文)面向金财工程的数据仓库设计与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

哈尔滨工程大学硕士学位论文 摘要 “金财工程”即政府财政管理信息系统。在“金财工程”正式提出之前, 各地财政部门在“政府上网”工程的指导思想下,有意识的开发了一些财政 业务应用系统,从而有效地加强了财政部门对资金的管理,并且积累了大量 宝贵的财政数据。在“金财工程”提出后,现有的产品都只满足了各个财政 业务应用系统自身的日常业务处理,没有实现各个系统间的数据集成,财政 部门无法综合各个系统的数据进行分析,为此有必要建立数据仓库体系,充 分利用各系统已经积累的财政数据,进行数据的挖掘和分析,对宏观和微观 的经济形势进行预测。 本论文首先介绍了“金财工程”的现状,对数据仓库技术在金财工程中 的应用进行了分析,简要介绍了数据仓库技术。然后,本论文结合金财工程 的一个业务系统预算外非税收入直缴系统,选取非税收入作为主题域,研 究“金财工程”建立数据仓库应采用的体系结构,从数据仓库的设计,数据 的抽取、转换和装载,数据的分析三个方面阐述了一个完整的数据仓库的建 设步骤,利用手工编程和d t s 数据包进行数据转换,实现了数据仓库设计, 开发设计了基于s t r u t s 架构的“预算外非税收入直缴系统”的数据仓库查询 系统,目前该系统已经在哈尔滨市财政局试运行,有力的促进了财政部门的 信息化建设。 本论文希望对在金财工程中实现完整的数据仓库体系,起到抛砖引玉的 作用。 关键词:数据仓库;金财工程;操作数据存储( o d s ) ;联机分析处理( o l a p ) 哈尔滨工程大学硕士学位论文 a b s t r a c t g o v e r n m e n tf i s c a lm a n a g e m e n ti n f o r m a t i o ns y s t e m ( g f m i s ) i sa l s oc a l l e d g o l d e nf i s c a lp r o j e e ti nc h i n a b e f o r ei tw a sp u tf o r w a r d , w i t ht h eg o v e r n m e n t i n t e r a c tp r o j e c t sg n k l a a c e ,s o m ef i s c a ld e p a r t m e n td e v e l o p e dc o n s c i o u s l ys e v e r a l f i n a n e ) eo p e r a t i o na p p l i c a t i o ns y s t e m s , a c c o r d i n g l ys t r e n g t h e n e de f f e c t i v e l yt h e m a n a g e m e n to ff i s c a ld e p a r t m e n tt of u n d , a n da c c u m u l a t e dal o to fp r e c i o u s f i n a n c ed a t a a f t e ri tw a sp u tf o r w a r d , t h ee x i s t i n gp r o d u c t i o np a no n l ys a t i s f yt h e d a i l yo p e r a t i o nt r a n s a c to fe a c hf i n a n c eo p e r a t i o na p p l i c a t i o ns y s t e m ,i ti m t i m p l e m e n tt h ed a t ai n t e g r a t i o na m o n ge v e r ys y s t e m , f i s c a ld e p a r t m e n td o n t i n t e g r a t ea l ls y s t e m sd a mf o ra n a l y s i s ,s oi t i sn e c e s s a r yt ob u i l dt h ed a t a w a r e h o u s ea r c h i t e c t u r e a n dt om a k eu s eo ft h ef i s c a ld a t aa c c u m u l a t e db ye a c h s y s t e mt od a t am i n ea n da n a l y s i s ,a n d t of o r e c a s tt h em a c r o s e o p i c a la n d m i c r o c o s m i ce c o n o m i cp o s i t i o n f i r s t l y , t h es i t u a t i o no f g f m i s i nc h i n aa n dt h ea n a l y s i so f d a t aw a r e h o u s e t e c h n o l o g yb e i n gu s e di ng f m i sa r ei n t r o d u c e d s e c o n d l y ,a ne x a m p l eo f d e s i g n i n gd a t aw a r e h o u s es t r u c t u r e ,w h i c hi sb a s e do nt h eb u d g e to u t s i d en o - t a x i n c o m es t r a i g h tp a ys y s t e mt h a to n eo ft h ea p p l i c a t i o n so fg f m i s ,t oad a t a w a r e h o u s ea n dr e a l i z i n gt h eo l a pi sc a r r i e do u t i tc h o o s en o - t a xi n c o m ea s s u b j e c tt oi m p l e m e n tt h ed e s i g no f d a t aw a r e h o u s e ,a w h o l ed e v e l o p m e n tp r o c e s s , i n c l u d i n gd e s i g n i n ga d a t aw a r e h o u s e ,e x t r a c t i n g ,t r a n s f o r m i n ga n dl o a d i n gt h e d a t af i o mo l t pd a t a b a s et od a t aw a r e h o u s e ,a n dd i s p l a y i n gt h ea n a l y z e dr e s u l t , i sa l s oe x p l a i n e d ,a n dd a t at r a n s f o r mi sc a r r i e do u tb yp r o g r a mb yh a n da n dd t s d a t ap a c k a g e d e s i g nt h ed a t aw a r e h o u s eq u e r ys y s t e mo fb u d g e to u t s i d en o - t a x i n c o m es t r a l g l i tp a ys y s t e mt h a ts u p p o r t st h es t r u t sf r a m e ,n o wt h i ss y s t e mh a sg o t t h ea c t u a l a p p l i c a t i o n i nf m a n o eb u r e a uo fh a r b i n c i t y , p r o m o t i n g i n f o r m a t i o n - b a s e dc o n s t r u c t i o no f t h ef h l a n c ea d m i n i s t r a t i o ns e c t i o n 哈尔滨工程大学硕士学位论文 1w i s ht h i st h e s i sc o u l dp r o v i d es o m ea s s i s t a n c ei n b u i l d i n gt h ed a t a w a r e h o u s ea r c h i t e c t u r ef o rg f m i s k e yw o r d s :d a t aw a r e h o u s e ;g o v e r n m e n tf i s c a lm a n a g e m e n ti n f o r m a t i o n s y s t e m ( g f m i s ) ;o p e r a t i o n a ld a t as t o r e ( o d s ) ;o nl i n ea n a l y m s p r o c c s s ( o l a p ) 哈尔滨工程大学 学位论文原创性声明 本人郑重声明:本论文的所有工作,是在导师的指导下, 由作者本人独立完成的。有关观点、方法、数据和文献等的 引用已在文中指出,并与参考文献相对应。除文中已经注明 引用的内容外,本论文不包含任何其他个人或集体已公开发 表的作品成果。对本文的研究做出重要贡献的个人和集体, 均已在文中以明确方式标明。本人完全意识到本声明的法律 结果由本人承担。 作者( 签字) :! 支磐墅 日期:抽6 年6 月r o 日 哈尔滨工程大学硕士学位论文 第1 章绪论 1 1 论文的背景及意义 1 1 1 写作背景 随着计算机技术的飞速发展和企业不断提出新的需求,国内外掀起了一 股数据仓库的热潮,数据仓库已从早期的探索阶段走向实用阶段,数据仓库 技术作为一种决策支持的手段为越来越多的企业接受。面对当今竞争日趋激 烈与瞬息万变的环境,愈来愈多的企业认识到,企业要想在竞争中取胜,获 得更大的收益,至关重要的是,必须利用计算机和网络技术、数据仓库技术, 深层次地挖掘、分析当前和历史的生产业务数据,以及有关环境的相关数据, 自动迅速获取其中有用的决策信息,及时把握环境变化的脉搏,为企业提供 快速、准确和方便的决策支持。 财政部门是国家重要的综合经济管理部门,目前财政资金活动透明度不 高,不利于对其实施有效的管理:同时财政收支信息反馈迟缓,难以及时为 预算编制、执行分析和宏观经济调控提供准确的依据;而且财政资金入库时 问延滞,大量资金经常滞留在预算单位,降低了财政资金的使用效率,还有 可能出现截留、挤占、挪用财政资金的问题,甚至出现腐败现象。因此财政 部门除了要加强自身内部管理外,还需要利用高新科学技术,以计算机、网 络为辅助工具,实现高效的、全面的财政收入支出电子化管理,提高财政人 员的办公效率,实现资金的透明化管理,从根本上防止财政资金的体外运行 和沉淀,更好地为人民理财叫。 “金财工程”即政府财政管理信息系统( 简称g f m i s ,g o v e r n m e n tf i s c a l m a n a g e m e n ti n f o r m a t i o ns y s t e m ) ,是利用先进的信息技术,支撑以预算编 制、国库集中支付和宏观经济预测分析为核心应用的政府财政管理综合信息 系统,是财政系统信息化建设目标和规划的统称,是我国电子政务建设的重 要组成部分”1 。 哈尔滨工程大学硕士学位论文 本论文是按照哈尔滨市财政局根据国家建设金财工程的要求,实现基于 非税收入系统的数据仓库的设计。哈尔滨市财政局金财工程的信息化建设, 经过5 年的发展,已取得相当大的成绩。网络方面,三级广域网( 市局一区局 一事业单位) 已经建成;应用方面,金财工程中部分信息管理系统在全市三级 网络进行了全面应用,并且已运行多年;数据方面,各区财政局和事业单位 积累了5 年的业务数据。 根据金财工程的建设总体规划,哈尔滨市财政局将建设一个覆盖全部财 政业务的大系统并向上提供数据交换的管理信息系统。为达到这一长远目标, 决定分阶段、分步骤地将各类数据集成,建立数据仓库存储数据,按照各方 面业务发展的需要,逐步进行多角度、深层次的分析和加工,充分加以利用, 为各级领导的各项决策提供科学、合理的依据。 1 1 2 写作意义 在“金财工程”正式提出之前,各地财政部门在“政府上网”工程的指 导思想下,有意识的开发了一些财政业务应用系统,从而有效地加强了财政 部门对资金的管理,并且积累了大量宝贵的财政数据。但是大多数财政由于 在信息化建设过程中,往往是根据部门的应用需求,采用不同的技术,建立 部门级的数据库和应用系统,财政宝贵的数据资产分散在这些信息孤岛之中。 这些独立、局部的应用系统由于没有从总体上进行业务流程的分析和重组, 数据关联度小,信息难以共享,政府领导层无法从系统中获取全局信息,严 重制约着财政对市场变化的响应效率。这从客观上迫切需要有一种系统能最 大限度的实现对财政资源的整合。 各地信息分散,不能很好地集中整合,已给国家实施宏观控制制造了难 度。现实当中表现出来的宏观控制不严等违规问题,这也说明国家财政管理 体制确实还大有改进的地方。因此,中国财政管理改革的总方向是从现行的 较分散化的模式转向相对集中性的模式,其实质是实现核心的财政管理功能 的集中化,利用信息技术构筑集中管理模式。 2 哈尔滨工程大学硕士学位论文 通过建立数据仓库,将多个不同的财政业务应用系统的数据集成和转换 到数据仓库系统中,各级财政部门可以充分利用各系统已经积累的财政数据, 进行数据的挖掘和分析,对宏观和微观的经济形势进行预测,提高财政管理 效率、提高系统支撑能力、降低系统管理成本。数据仓库可以分析各种数据 之间的关联,衡量各预算单位的预算编制及执行情况,跟踪资金流、信息流 和业务流在财政部门和预算单位之间的走向,从而为政府决策提供很好的支 撑,使数据仓库成为数据金库。希望本论文对在金财工程中实现完整的数据 仓库体系,起到抛砖引玉的作用。 1 2 国内外研究现状 1 2 1 数据仓库研究现状 数据仓库概念始于本世纪8 0 年代中期,著名的数据仓库专家w h i n m o n 在其著作b u i l d i n gt h ed a t aw a r e h o u s e 一书中给出了如下描述:数据仓 库是一个面向主题的、集成的、非易失的且随时间变化的数据集合,用来支 持管理人员的决策埘。国外在数据仓库方面的研究工作主要包括三个方面。 第一,提出了o l a p 的概念,对支持o l a p 应用的多维数据库开展了一些初步 的探讨,提出了几个多维数据模型“1 。第二,对复杂数据分析和决策所需要 的基本操作进行了考察分析,提出了c u b e 操作和多维聚集操作,并设计了实 现c u b e 操作和多维聚集操作的算法嘲。第三,研究了数据仓库的体系结构、 物理化视图的选择、物理化视图的维护、从数据仓库中的综合数据恢复原始 数据、快速收集与有效存取数据等问题嘲。我国的数据库工作者也在数据仓 库方面开展了一些研究工作,如多重粒度下数据仓库的页式存储策略,数据 仓库的体系结构,数据仓库的数据提取与数据转化问题,数据仓库查询性能 等问题仉”。 1 2 2 财政信息化国外研究现状 哈尔滨工程大学硕士学位论文 在财政信息化建设领域,发达国家已经取得了很好的成果,比如英国p e s 系统和瑞典h e r m e s 系统都采用b s 结构设计,以财政部内部局域网和外部 i n t e r n e t 为网络基础,运行在m i c r o s o f tw i n d o w s2 0 0 0 或) ( p 操作系统上, 在数据存储上都采用大集中方式,存储当前财政年度前后几年的所有财政数 据,由财政部统一管理。在财政部安装完整功能版,提供服务器端的各项功 能,在预算单位安装客户端应用程序,并通过i n t e r n e t 或专网( 英国尚在建 设) 与财政部和银行连接起来,实现财政部、预算单位、银行三方统一运行。 英国p e s 的核心模块是财政信息系统,安装在财政部,供财政部有关部门进 行预算审核、分析、国库支付、账务处理以及宏观经济分析与预测嘲。哈萨 克斯坦国家财政管理解决方案是基于标准的甲骨文财政解决方案模式进行的 设计,在此基础上根据世界银行和国际货币基金组织的要求、哈萨克斯坦国 家财政部的具体需求进行了重新配置“”。英国、瑞典分别除了p e s 和h e r m e s 以外,还有几个相对较小、简单的系统配合运行。英国使用政府在线数据管 理系统( g o l d ,也称为“黄金”系统) 和政府统一账户管理系统( w g a ) ,为公共 支出管理系统提供中央政府和预算单位的资源账户信息;瑞典在h e r m e s 之外 还使用政府预算会计软件a g r e s s o 提供部分数据统计与分析功能。英国的 g o l d 充分利用当前最先进的计算技术和网络技术,将整个财政管理信息集成 到一个系统中,并凭借其强大的数据处理能力为财政管理的各个环节提供数 据服务,它和正在规划建设中的政府单一数据管理系统( s d s ) 代表了英国财政 管理信息系统未来规划的方向。s d s 覆盖了当前管理信息系统的主要特征。 它将英国政府目前分散使用的p e s 、g o l d 和w g a 以及其他一些系统集成到一 个单一的数据系统中,用于数据采集、业务处理和统计分析等。英国财政部 将于2 0 0 5 年建成s d s 。瑞典也已经开始着手将a g r e s s o 和财政办公自动化系 统集成到现有的h e r m e s 系统中,实现对财政信息的统一管理”。英国和瑞典 虽然都己建成了较为先进的财政管理信息系统,但两国在系统建设的组织、 管理与规划上也存在一些不足,突出表现在现有系统数量多,功能相对单一, 整体性能与预定目标存在一定差距。英国公共支出管理信息系统( p e s ) 完成各 4 哈尔滨工程大学硕士学位论文 项业务处理工作,需要依靠政府在线数据管理系统( g o l d ) 和政府账户统一管 理系统( w g a ) 为其提供数据管理服务;瑞典预算管理信息系统( h e r m e s ) 在会计 管理方面也要依赖于会计管理系统。他们认为,过于分散的业务系统不仅增 加了建设成本,降低了工作效率,而且将统一的各项财政业务人为分割开来, 增大了实际业务处理的复杂度,降低了工作效率和信息网络资源的利用率1 。 因此,英国和瑞典的财政管理信息系统未来建设目标是对现有的分散系统进 行集成与整合,构建数据集中、功能全面的大系统,将整个财政管理信息集 成到一个系统中,并凭借其强大的数据处理能力为财政管理的各个环节提供 数据服务。 1 2 3 财政信息化国内研究现状 我国自1 9 9 9 年下半年,财政部即按照党中央、国务院深化财政体制改革, 建立社会主义市场经济体制下公共财政体系框架的总体要求,在努力推进部 门预算、国库集中支付改革的同时,开始着手规划建立“政府财政管理信息 系统”【l “。9 9 年,“金财工程”领导小组在规划我国政府财政管理信息系统 时,实际是参照国际通行的模式考虑和设计的,包括把“金财工程”叫做g f m i s 也是沿用了国际上通行的一种叫法。当时,国际货币基金组织( i 盯) 对我国 酝酿的这项财政改革也表示了极大的关注,希望通过改革,能够使我国的财 政管理与国际接轨。为此,i m f 专门派出专家小组,对我国的财政改革进行 交流、指导和协调“o 。在西方发达的市场经济国家,各国的财政管理大体上 都依托一个较为完善的信息化系统。美国、欧盟、日本,包括苏联解体后的 东欧的转型国家,独联体,都纷纷建立了自己的政府财政管理信息系统。相 对来说,美国等一些发达资本主义国家的管理信息系统多于上世纪7 0 年代建 成,一直是国家经济运行和管理的核心,具有较长的运行时间。所以工作小 组在充分考察和研究主要发达市场经济国家和东欧转型国家政府财政管理计 算机系统运行模式和建设经验的基础上,结合我国财政改革思路,于2 0 0 1 年初完成了g f m i s 的初步设计,并于下半年开始试点。随着上一世纪末我国 哈尔滨工程大学硕士学位论文 多项财政重大改革的陆续推出和实施,国务院领导对建立新体制下的财政运 行模式以及新模式下的技术支撑问题表示了深切关注。2 0 0 1 年,前总理朱镕 基曾在多种场合多次提到财政的信息化建设问题。对于当时财政部在搞的政 府财政管理信息系统朱总理也非常重视,并在一次国务院重要会议上明确提 出来说,今后财政的信息化建设就叫“金财工程”,此后,总理在审计署又讲 了一次,于是,2 0 0 2 年初,当时的财政部“政府财政管理信息系统”领导小 组经过慎重考虑,遵照总理的指示,将建设政府财政管理信息系统的信息化 工程正式命名为“金财工程”,2 0 0 2 年上半年,“金财工程”建设总体方案经 国务院信息化建设领导小组办公室评议通过,2 0 0 2 年8 月,在哈尔滨召开全 国“金财工程”建设座谈会标志“金财工程”建设的正式启动“”。在这之前 各级财政部门大部分业务都是手工操作。在2 0 0 0 年至2 0 0 5 年各级财政部门 针对不同业务陆续建设了计算机系统,实现业务的电子化管理,采用关系型 数据库、客户机服务器模式及图形化界面,依托广域网进行分布式处理,涉 及财政应用的操作和管理层次。2 0 0 5 年以后是实现全方位财政服务系统阶 段,其总体特征为采用w e b 技术和组件化结构,依托互联网实现集中式处理, 涉及财政应用的操作、管理和决策层次,并对缴款人进行全面的管理与服务。 国内各公司都相继开发出针对财政业务的各种管理信息系统。用友政务 软件公司的g r p r 9 政务管理软件是在中国政府大力号召建设电子政务的背 景下,大力整合多年来在电子政务建设领域积累的深厚经验基础上,采用国 际先进的面向对象开发方法、基于三层c s + b s 模式结构技术研发的专门面 向政务部门电子政务应用的系列产品“趵。金算盘“金财工程”解决方案在公 共财政的理论基础上结合我国财政改革的发展具体包括部门预算、国库集中 收付、政府采购、零户统管、会计核算中心、工资统发、宏观经济预测分析、 公共财产管理、公共债务管理等子系统,并提供了多种模式的解决方案,他 们既可以独立使用,又能够组合运行,适用于全国各级财政部门“。浪潮m y g s 公共财政管理信息化解决方案包括细化的部门预算编制、零户统管、会计核 算中心、工资统发、国库集中收付、政府采购、国有资产管理、宏观经济分 6 哈尔滨工程大学硕士学位论文 析、公共支出效益分析等子系统,并提供了多种模式的解决方案“”。郑州信 德软件有限公司主要是与河南省财政厅合作,系统采用d e l p h i 语句和s q l 语句进行编写,使用大型数据库,数据安全性和稳定性能够得到很好的保证 “o 。可以看出国内各家公司都针对财政的业务开发出各种系统,而且每家公 司的某个系统都在某几个财政部门甚至全国得到了很好的应用,但是各家公 司的系统之间并不能互相兼容,而且同一公司的各个系统问也不能兼容,数 据不能统一。 从金财工程的现状来看,全国金财工程的实施已步入了初级阶段:部门 预算编制己初见成效,部门预算编报系统已经稳定运行了四年,在四年之内 逐步年年升级改造,现在包括1 6 6 个中央部门,近一万户预算单位历年的预 算编报工作用计算机管理起来,地方所有省级财政部门实现了部门预算编报 的计算机化管理,实现预算编审环节,使用专用软件编报预算,主管部门预 算审核,主管司处审核,定额标准测算,预算项目的管理到预算批复全过程 的信息化管理,2 0 0 0 年开始实行部门预算集中编报,2 0 0 1 年推行基本支出和 项目支出预算,选十个部门作为试点,2 0 0 2 年扩大试点范围,推进综合预算, 2 0 0 3 年合理界定基本支出内容进行项目滚动管理;工资集中统发系统己在大 部分省市推广应用,工资统发基本在全国范围之内,不管用财政部集中开发 的也好,还是地方自行开发的也好,全面实行财政工资的统一发放;国库集 中支付系统开发及运行试点取得了初步的经验,现在扩大到4 9 个部门,近 1 5 0 0 个预算单位纳入到集中支付管理;非税收入管理取得良好效果,从2 0 0 2 年7 月1 日开始,包括财政部在内的八个试点中央部门开始使用,效果非常 明显,目前开通了1 3 个部门,2 2 4 个执收单位,使用项目9 2 2 项,接受票据 达到1 2 万多张;网络基础设施建设已经起步“”。最终的建设目标,按照五统 一的原则,至2 0 0 8 年,建成基于统一规范的应用系统平台,依托财政系统纵 横向三级网络,以财政部和省财政厅高度集中处理为主要模式,功能覆盖各 级财政部门预算管理、国库集中收付管理、财政经济景气分析等主要核心业 务应用的功能齐全、协调高效、信息共享、监控严密、安全稳定的中国政府 7 哈尔滨工程大学硕士学位论文 财政管理信息系统。建立中央级数据中心,借助安全、先进的网络技术及灵 活方便的检索手段,能查询任意一级财政部门、任意一个预算单位、任意一 个时点的任意一笔财政收支数据“”。 但到目前为止,政府财政部门所使用的政府财政管理信息系统尚未建立 一个针对金财工程的平台型的整体解决方案,现有系统多是各自独立,运行 环境和数据交换等均难以统一。而系统的建设目标是实现财政收支全过程监 管、提高财政资金使用效益,走“大系统”建设模式是财政管理信息系统的 发展方向,财政大集中的发展需要一个过程,从一开始的数据集中、管理分 散,到数据集中、管理集中,再到与部门预算、国库集中支付等紧密应用集 成,再到将来财政业务完全一体化的高度管理信息化,这都需要财政改革的 推进,信息化水平的提高,业务管理软件的发展,因此各系统数据的集成、 交换、分析的研究与实现就成为当务之急。 1 3 论文研究的主要内容及创新之处 1 3 1 论文研究的主要内容 本论文针对目前全国财政管理信息系统在业务功能上已经基本满足财政 部门需要,但是对数据分析的要求必然会越来越多,因此探讨了数据仓库技 术在“金财工程”中的应用,给出了在一个典型的财政业务应用系统“预算 外非税收入直缴系统”中采用d b - o d s - d w 的三层体系结构数据仓库的实现, 系统规模以哈尔滨市财政局为对象,给出数据仓库的体系结构、数据清洗转 换抽取算法和过程、财政管理信息系统的结构图,最后设计开发了采用b s 结构、大型数据库的数据仓库查询系统用于展现数据仓库中的数据,给出了 系统的拓扑图、总体架构图、页面流程图和典型程序页面。 在论文结构方面: 第一章主要介绍本文写作的背景、意义及国内外的研究现状。并阐述了 此文主要内容及创新之处。 8 哈尔滨工程大学硕士学位论文 第二章介绍金财工程的现状,并对数据仓库技术在金财工程中的应用进 行了分析,简要的介绍数据库、数据仓库技术。 第三章介绍了在金财工程中应用数据仓库的需求分析与数据分析。 第四章结合金财工程的一个业务系统一一预算外非税收入直缴系统,阐 述一个完整的数据仓库的建设步骤,实现数据仓库设计。 第五章描述在金财工程中数据仓库查询系统的实施对策。 1 3 2 论文的创新之处 本论文的创新之处在于: 1 行业创新。到目前为止,政府财政部门所使用的政府财政管理信息系 统尚未建立一个针对金财工程的平台型的整体解决方案,现有系统多是各自 独立,运行环境和数据交换等均难以统一,财政宝贵的数据资产分散在这些 信息孤岛之中。而建立数据仓库可以分析各种数据之间的关联,跟踪资金流、 信息流和业务流在财政部门和预算单位之间的走向,从而为政府决策提供很 好的支撑,使数据仓库成为数据金库,因此本论文有行业创新的含义。 2 采用操作数据存储( o d s ) 的体系结构。数据仓库的提出和实施将操作 型处理和分析型处理区分开来,建立其阴一d w 两层体系结构。但是在很多情 况下,d b - d w 的两层体系结构并不能涵盖企业所有的数据处理要求。因此本 论文提出了在金财工程中采用操作数据存储( o p e r a t i o n a ld a t as t o r e ,o d s ) 的体系结构,有一定的技术创新。 9 哈尔滨工程大学硕士学位论文 2 1 数据库理论 第2 章相关理论综述 随着计算机硬件和软件的发展,数据管理经历了人工管理、文件系统和 数据库系统三个阶段。应数据管理任务的需要而产生的数据库技术,诞生于 2 0 世纪6 0 年代中期,它的出现解决了数据量急剧增加后的管理问题,以及 联机实时处理的问题,有效地满足了当时乃至现在的数据管理应用的需要。 用数据库管理系统来管理数据具有如下特点: 1 据结构化; 2 据的共享性好,冗余度低; 3 数据独立性高; 4 数据由数据库管理系统( d a t ab a s em a n a g e m e n ts y s t e m ,d b m s ) 统一 管理和控制。 数据库技术一直力图使自己能胜任从事务处理、批处理到分析处理的各 种类型的信息处理任务。尽管数据库在事务处理方面的应用获得了巨大的成 功,但它对分析处理的支持一直不能令人满意,尤其是当以业务处理为主的 联机事务处理( o nl i n et r a n s a c t i o np r o c e s s ,o l t p ) 应用与以分析处理为主 的决策支持系统( d e c i s i o ns u p p o r ts y s t e m ,d s s ) 应用共存于同一个数据库 系统中时,这两种类型的处理发生了明显的冲突o “。因而,直接使用事务处 理环境来支持d s s 进行联机分析处理是行不通的。 具体来说,事务处理环境不适宜联机分析处理的原因主要有以下五条 瞄- : ( 1 ) 事务处理和分析处理的性能特性不同 在事务处理环境中,用户的行为特点是数据的存取操作频率高而每次操 作处理的时间短。在分析处理环境中,用户的行为模式与此完全不同,某个 d s s 应用程序可能需要连续运行几个小时,从而消耗大量的系统资源。将具 1 0 哈尔滨工程大学硕士学位论文 有如此不同性能的两种应用放在同一个环境中运行显然是不适当的。 ( 2 ) 数据集成问题 分析处理需要集成的数据。以d s s 为例,不仅需要整个企业内部各部门 的相关数据,还需要企业外部、竞争对手等的相关数据。而事务处理的目的 在于使业务处理自动化,一般只需要与本部门业务有关的当前数据。而对整 个企业范围内的集成应用考虑很少。 ( 3 ) 数据动态集成问题 由于每次分析都进行数据集成的开销太大,一些应用仅在开始对所需数 据进行了集成,以后就一直以这部分集成的数据作为分析的基础,不再与数 据源发生联系,这种方式的集成称为静态集成。静态集成的最大缺点在于, 如果在数据集成后数据源中数据发生了改变,这些变化将不能反映给决策者, 导致决策者使用的是过时的数据。对于决策者来说,虽然并不要求随时准确 地探知系统内的任何数据变化,但也不希望他所分析的是几个月以前的数据。 因此,集成数据必须以一定的周期进行刷新,这种方式就称之为动态集成。 显然,事务处理系统不具备动态集成的能力。 ( 4 ) 历史数据问题 事务处理一般只需要当前数据,在数据库中一般也只存储短期数据,且 不同数据的保存期限也不一样。但对于决策分析而言,历史数据是相当重要 的,许多分析方法需要大量的历史数据为依托。没有对历史数据的详细分析, 是难以把握企业的发展趋势的。 ( 5 ) 数据的综合问题 在事务处理系统中积累了大量的细节数据,一般而言,d s s 并不对这些 细节数据进行分析。这主要有两个原因,一是细节数据量太大,会严重影响 分析的效率;二是太多的细节数据不利于分析人员将注意力集中于有用的信 息上。因此,在分析前,往往需要对细节数据进行不同程度的综合。而事务 处理系统不具备这种综合能力,根据规范化理论,这种综合还往往因为是一 种数据冗余而加以限制。 哈尔滨工程大学硕士学位论文 归根到底,事务处理环境不适宜联机分析处理的根本原因是操作型数据 和分析型数据有本质的差异,如表2 1 所示: 表2 1 操作型数据和分析型数据的区别 0比较项 ,操作型数据。 ,分析型数据, ,。 面向类型面向应用面向主题 数据粒度 细节的 综合的或提炼的 数据时效性在存取瞬间是准确的代表过去的数据 更新与否可更新不更新 操作需求操作需求事先可以知道操作需求事先不知道 生命周期生命周期符合s d l c完全不同的生命周期 系统性能 对性能要求高对性能要求宽松 操作范围一个时刻操作一个单元一个时刻操作一个集合 驱动方式事务驱动的分析驱动的 数据量一次操作数据量小一次操作数据量大 操作方式支持日常操作支持管理需求 可用性高可用性松弛的可用性 冗余性 非冗余性时常有冗余 运行方式重复运行启发式运行 因而,在事务型坏境中直接构建分析型应用是一种失败的尝试。而数据 仓库本质上是对这些存在问题的回答。要提高分析和决策的效率和有效性, 分析型处理及其数据必须与操作型处理及其数据相分离。必须把分析型数据 从操作型环境中提取出来,按照分析处理的要求重新组织,建立单独的分析 处理环境,数据仓库正是为了构建这种新的分析处理环境而出现的一种数据 存储和组织技术。 2 2 数据仓库理论 2 2 1 数据仓库的特征, 数据仓库概念始于本世纪8 0 年代中期,著名的数据仓库专家w h i n m o n 哈尔滨工程大学硕士学位论文 在其著作( b u i l d i n gt h ed a t aw a r e h o u s e 一书中给出了如下描述:数据仓 库是一个面向主题的、集成的、非易失的且随时间变化的数据集合,用来支 持管理人员的决策。 这个定义说明了数据仓库的四个基本特征:数据仓库的数据是面向主题 的、数据仓库的数据是集成的、数据仓库的数据是不可更新的、数据仓库的 数据是随时间不断变化的。 ( 1 ) 数据仓库的数据是面向主题的 主题是一个抽象的概念,是在较高层次上将企业信息系统中的数据综合、 归类并进行分析利用的抽象。面向主题的数据组织方式,就是在较高层次上 对分析对象的数据的一个完整、一致的描述,能完整、统一地刻画每个分析 对象所涉及的企业的各项数据,以及数据之间的联系。 按照面向主题的方式,数据的组织应该分为两个步骤:抽取主题以及确 定每个主题所应包含的数据内容。主题的抽取也应该按照分析的要求来确定。 在由关系型数据库实现的数据仓库中,每个主题都是由一组关系表来实现的。 在具体实现中,一个主题可以划分为多个表,主题只是一个逻辑的概念。但 是数据仓库中的数据不再是业务处理的流水账,而是经过了一定程度的综合。 基于一个主题的所有表都含有一个称为公共码键的属性作为其主码的一 部分。公共码键将各个表统一联系起来,体现它们是属于一个主题的。根据 数据被关心的程度不同,可以将同一主题的不同表分别存储在不同的介质中。 总结起来,面向主题的数据组织方式是根据分析要求将数据组织成一个 完备的分析领域,即主题域( t h e m ed o m a i n ) 。主题域应该具有以下特点: 独立性。这一主题域可以和其他的主题域有交叉部分,但它必须具有 独立内涵,即要求有明确的界限。 完备性。要求对该主题的任何一个分析处理要求,能够在该主题内找 到所要求的一切内容。 ( 2 ) 数据仓库的数据是集成的 数据仓库的数据是从原来的分散的数据库中抽取来的。而数据库中的操 哈尔滨工程大学硕士学位论文 作型数据与数据仓库中的分析型数据之间的差别非常大。第一,数据仓库的 每一个主题所对应的源数据在原有的各分散数据库中有许多重复和不一致的 地方,且来源于不同的联机系统的数据都和不同的应用逻辑捆绑在一起;第 二,数据仓库中的综合数据不能从原有的数据库系统直接得到。 因此在数据进入数据仓库之前,必然要经过统一和综合。这一步是数据 仓库建设中最关键、最复杂的一步,所要完成的工作有: 要统一源数据中所有矛盾之处,如字段的同名异议、异名同义、度量 单位不统一、字长不一致,等等。 进行数据综合和计算。数据仓库中的数据综合工作可以在从原有数据 库抽取数据时生成,但许多是在数据仓库内部生成的,即进入数据仓库以后 进行综合生成的。 ( 3 ) 数据仓库的数据是非易失的 数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数 据查询,一般情况下并不进行修改操作。而且这些数据反映的是一段相当长 的时间内历史数据的内容,是不同时点的数据库快照的集合,以及基于这些 快照进行统计、综合和重组的导出数据,而不是联机处理的数据。数据库中 进行联机处理的数据经过集成输入到数据仓库中,就不再对这些数据进行更 新;除非这些数据己经超过数据仓库设定的数据存储期限,这些数据才根据 规定从当前的数据仓库中清除。 ( 4 ) 数据仓库的数据是随时间不断变化的 数据仓库中的数据不可更新是针对应用来说的,也就是说,数据仓库的 用户进行分析处理时是不进行数据更新操作的。但并不是说,在从数据集成 输入数据仓库开始到最终被删除的整个数据生存周期中,所有的数据仓库数 据都是永远不变的。数据仓库的数据是随时间的变化不断变化的,这个特征 一般表现在以下三个方面: 第一,数据仓库随时间变化不断增加新的数据内容。新增加的数据内容 是o l t p 数据库的快照,经统一集成后增加到数据仓库中,不会对数据仓库中 1 4 哈尔滨工程大学硕士学位论文 原来的数据内容进行修改。 第二,数据仓库随时间变化不断删去旧的数据内容。然而数据仓库中的 数据时限要远远长于操作型环境中的数据时限。数据仓库中的数据一般要保 存5 - 1 0 年。 第三,数据仓库中包含有大量的综合数据,这些综合数据中很多跟时间 有关,如数据经常按照时间段进行综合,或隔一定的时间片进行抽样等。这 些数据要随时间的变化不断地进行重新综合。 2 2 2 数据仓库的系统结构 对一个企业而言,建立一个大而全的数据仓库,往往并不能取得满意的 效果。虽然数据仓库的数据组织是面向主题的,并为分析的需要保存了许多 综合数据,但分析要求千变万化,我们不可能要求一个单一层次的数据仓库 能完全符合各种各样的分析的需求,数据仓库的主题需要不断完善,不断调 整,综合数据的内容和形式也要灵活多变。另外,随着数据不断载入,数据 仓库将越来越庞大。这些都给应用带来了一定的麻烦。 所以,在具体实施中,往往根据管理层次的不同需要,在全局级数据仓 库的基础上又导出部门级和个人级数据仓库,全局级、部门级及个人级数据 仓库三者浑然一体,适应了不同层次分析的要求,并与原有的操作型环境形 成了一个多层次的体系化环境,如图2 2 所示。 图2 1 是对体系化环境的一个简单描述,它分为四个层次:操作型环境、 全局级数据仓库、部门级数据仓库和个人级数据仓库。 在这个体系化环境中,操作型环境存放的是一些细节的操作型数据,服 务于高性能事务处理。全局级数据仓库中除了存放细节数据外,还包含大量 导出数据。部门级数据仓库中一般仅包含导出数据,而个人级数据仓库的数 据都是暂时的,用于启发式分析。 哈尔滨工程大学硕士学位论文 操作型环境全局级 部门级个人级 图2 1 数据仓库的体系化环境【4 】 数据从操作型环境经过综合整理进入全局数据仓库,企业中的有关部门 再从全局数据仓库中组织适合自己特殊分析需求的数据,建立自己的局部数 据仓库;而个人不仅可以从全局数据仓库中提取数据,而且可以从部门级局 部数据仓库中提取所需数据。这样,由于数据在全局数据仓库中都已经是集 成的、一致的,所以部门和个人的抽取工作效率将会很高,而且不会出现“蜘 蛛网”情况1 。 需要注意的是,在建设数据仓库时,往往先针对一个或几个主题域建立 部门级的数据集市,将业务数据导入到数据集市系统后,再将数据集市中的 数据集成到全局级的数据仓库中。而图2 1 是对体系化环境的描述,这是两 个不同的概念。 体系化环境的层次反映了数据与应用逻辑的抽象程度,如在操作型环境 中的数据与事务处理逻辑常常是捆绑在一起的;而在全局数据仓库中,数据 组织的应用逻辑独立性最强,也就是说最不依赖于具体应用,其抽象程度最 高;在部门级数据仓库和个人级数据仓库中,数据又与分析处理的逻辑联系 在一起。我们不能抽象地说,数据与应用逻辑的独立性越强,这种数据组织 就越好,而应该结合数据在体系化环境中所处的位置来分析;如在操作型环 境中,为了更好地支持联机事务处理,在全局数据仓库一级,它是对整个企 业的数据完整的一致的存储,便于向部门级或个人级数据仓库提供数据,因 而最好是完全独立于任何应用逻辑;而在部门级数据仓库中,将数据组织与 分析处理逻辑结合起来,也有利于提高分析效率伫5 1 。 数据仓库系统( d a t aw a r e h o u s es y s t e m ,d w s ) 由源数据、仓库管理工具、 数据仓库、分析工具以及用户五部分组成,其系统结构如图2 2 所示。 1 6 哈尔滨工程大学硕士学位论文 源数据层表示数据仓库系统数据的来源,一般包括文档和源数据库两类。 源数据库一般存放了传统的事务型系统产生的数据。 仓库管理层是为了将源数据层中的数据导入到数据仓库层。主要的操作 涉及到数据抽取、转换、清洗以及装载等。对源数据进行抽取、转换和清洗 的目的是为了将数据转化为数据仓库的标准模式,并除去数据中的脏数据 ( d i r t yd a t a ) 。 数据仓库层表示数据仓库的存放。一般包括数据仓库和数据集市两种类 型。数据仓库按照企业业务主题模式存储事务性系统信息和历史数据信息; 而数据集市( d a t am a r k e t ) 是指为了某种分析目的而组织在一起的数据信息, 一般是数据仓库的一个子类凹1 。如果:没有特别说明,本文后面章节中提高 的数据仓库概念包含数据集市。 数据分析层表示对数据仓库中的数据进行分析,以提取出所需的决策信 息。包括分析工具和显示工具两类。前者如d s s 工具和o l a p 工具等,后者主 要是报表分析和数据显示工具。 : : 源数据层仓库管理层数据仓库层 元数据流 数据分析层 啼数据流 图2 2 数据仓库的系统结构图 1 7 用户

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论