(系统工程专业论文)科技基金多维分析系统的分析与设计.pdf_第1页
(系统工程专业论文)科技基金多维分析系统的分析与设计.pdf_第2页
(系统工程专业论文)科技基金多维分析系统的分析与设计.pdf_第3页
(系统工程专业论文)科技基金多维分析系统的分析与设计.pdf_第4页
(系统工程专业论文)科技基金多维分析系统的分析与设计.pdf_第5页
已阅读5页,还剩51页未读 继续免费阅读

(系统工程专业论文)科技基金多维分析系统的分析与设计.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

捅晏 随着信息技术的高速发展,计算机信息系统在各行各业得到了广泛的应用, 同时积累了一大批有着重要的意义的历史数据。从这些数据中,可以研究过去 的经营状况、管理状况,发现和挖掘出可改进的地方,为进一步制订计划、确 定发展规划提供依据。然而长期以来,当一个m i s 系统建立以后,人们就以固 定格式的报表进行相关数据的分析,由于报表的格式是固定的,使叭们对数据 的分析停留在有限的关系上,无法全面、完整的了解数据所反映的情况。因此, 如何迅速、准确的从成堆的历史数据中挖掘出有用的信息,迫使人们开始探索 新的数据分析技术。 本文咀辽宁省科技厅科技基金管理系统为背景;针对传统的o l t p 系统不能 满足人们对数据进行多维分析以获取多维信息的问题,建立了基于w e b 的科技 基金多维分析系统,提出利用多维数据模型来支持o l a p 应用,并在关系数据库 中进行设计和实现。 系统重点分析了科技基金项目的申报与评审情况,专家的自然情况与参评 情况,科技基金的经费申请与分配情况以及各科研单位的情况等,并给出了多 维查询多维分析实例。目前,系统应用效果较好。 关键词:o l a p ;多维数据结构;星型模型;科技基金;多维分析系统 a b s tr a c t a l o n gw i t ht h eh i g h s p e e dd e v e l o p m e n t o fi t , c o m p u t e ri n f o r m a t i o ns y s t e m i na l lt r a d e sa n d p r o f e s s i o n sh a v eg o t t e n e x t e n s i v ea p p l i c a t i o na n da c c u m u l a t e dl a r g e q u a n t i t i e so fh i s t o r i c a l d a t aw h i c hh a v ev e r yi m p o r t a n tm e a n i n g f r o mt h e s ed a t a , p e o p l em a ys t u d yp a s to p e r a t i o nc o n d i t i o n ,m a n a g e m e n t c o n d i t i o na n dd i s c o v e r ym a d e x c a v a t et h ep l a c ew h e r es h o u l db ei m p r o v e ds oa s t ow o r ko u tf u r t h e rp l a n s , d e t e r m i n e d e v e l o pp r o g r a m h o w e v e r f o r l o n g t i m e w h e nam i ss y s t e m i s e s t a b l i s h e d ,p e o p l ea r er e l a t e dw i t ht h ef o r mo fr e g u l a rf o r m t oa n a l y z ed a t ab e c a u s e t h ef o r mo ff o r mi sf i x e d ,p e o p l ec a nn o tk n o ww h a td a t ac o m p l e t e l yr e f l e c t s ,b u t j u s tf u c u so ua n a l y z i n gl ”l l l l 。l t c t 。l r e l a t i o n so fd a t e h o wt oe x c a v a t ea n da r r a n g et h o s e u s e f u ld a t af r o ml a r g ev o l u m eo fh i s t o r i c a ld a t ap r o m p t l ya n da c c u r a t e l y f o r c e p e o p l eb e g i n t oe x p l o r en e wd a t aa n a l y s i st e c h n o l o g y t h e p a p e ri sb a s e d o nt h ef u n d a t i o nm a n a g e m e n ts y s t e mo fl i a o n i n gs c i e n c e a n dt e c h n o l o g yb u r e a u t h e p a p e r c o n s t r u c t sam u l t i d i m e n s i o n a la n a l y z i n gs y s t e m o fs c i e n c ea n d t e c h n o l o g i c a l f u n db a s e do nt h e w e b ,s u g g e s t sa p p l y i n g m u l t i d i m e n s i o n a ld a t am o d e lt os u p p o r to l a p , w h i c hc a nb ed e s i g n e da n dr e a l i z e d i nr e l a t i o nd a t a b a s e f h i s p a p e r s o l v e st h e p r o b l e m o f f a i l i n g t o g e t m u l t i d i m e n s i o n a li n f o r m a t i o na f t e rm a k i n gm u l t i d i m e n s i o n a la n a l y s i so nd a t a r h e s y s t e mf o c u s e s o nt h ea p p l y i n ga n de v a l u a t i o no ft h ef u n dp r o j o c t ,t h e n a t u r a li n f o r m a t i o no ft h e e x p e r t s ,t h ea p p l i c a t i o n o ft h ef e eo ft h ef u n da n dt h e g e n e r a ls i t u a t i o no f t h er e s e a r c hu n i t s t h i sp a p e ra l s op r o v i d e ss o m er e a lc a s e so n m u l t i - d i m e n s i o n a l s e e k i n ga n da n a l y z i n g f o r t h et i m eb e i n g ,t h es y s t e mw o r k s p e r f e c t l y k e y w o r d :o l a p ;m u l t i - d i m e n s i o n a l d a t am o d e l ;s t a r p o l y g o nm o d e l ;f u n d o f t e c h n o l o g y ;m u l t i d i m e n s i o n a la n a l y s i ss y s t e m 科技基金多维分析系统的分析与设计 1 引言 1 1 问题的提出 现代信息技术在管理领域的应用始于2 0 世纪5 0 年代,伴随着信息技术的 迅猛发展,这种应用的广度和深度都在不断的扩展,传统的管理思想和管理模 式受到了前所未有的冲击。为了顺应新时代的信息化浪潮,无论是企事业单位 还是政府机关都在进行自己的信息化建设工作。一个组织的管理信息系统建立 以后,经过几年乃至几十年积累下来的数据对组织来说是一笔无形的巨大财富 ”1 。从这些数据中,可以研究过去的经营状况,管理状况,发现和挖掘出可改 进的地方,为进一步制订计划、确定发展规划提供依据。而全球经济一体化进 程的加快和市场竞争的加剧,对企业经营决策的科学性、正确性和及时性又提 出了更严格的要求,这些要求极大的推动了计算机技术和信息技术的快速发展i 另一方面,计算机技术和信息技术的高速发展,又为科学的经营决策提供了有 力的手段。计算机网络技术尤其是i n t e m e t 技术的出现与发展,又为各方面的工 作带来了新的机遇与挑战。人类跨入2 1 世纪,知识经济蓬勃发展,人们对积累 下来的数据、信息、知识管理和利用的要求越来越高,这就对原有的数据管理 方法提出了挑战。 然而,长期以来,当一个管理信息系统( m i s ) 建立以后,人们就以固定 格式的报表进行相关数据的分析,由于报表的格式是固定的,从而使人们对数 据的分析停留在有限的关系上,无法全面、完整地了解数据所反映的情况。随 着社会信息化程度的增强和商业竞争的日趋激烈,人们越来越感觉到信息及知 识的重要性,传统的具有对数据进行查询、增删改等操作和报表功能的联机事 务处理系统( o l t p ,o n l i n et r a n s a c t i o np r o c e s s i n g ) 的功能有限,满足不了人们 对数据作深层分析的需求。如何去管理这些数据,能否及时的从这些原始数据 中提取更多、更好的信息以支持决策者的决策需求是信息技术人员面临的新课 题。 2 0 世纪9 0 年代以来,以i n m o n 等为代表的一批学者和信息技术人员一直 致力于数据管理方法的研究,逐渐认识到传统的、已经很成熟的数据库技术已 经不能用来完成对决策者的支持,原因在于传统的数据库技术是单一的数据资 源,即以数据库为中心,进行从事事务处理、批处理等各种类型的数据处理工 科技基金多维分析系统的分析与设计 作。从而,以数据仓库为基础,使用多维分析技术,对企业的数据进行多层次 分析的方法被提出,用来辅助决策者实现数据、信息到经验、知识的认知过程, 掌握事物内在的本质和规律,从而指导科学决策。 以国家自然科学基金为主、各行业和地方科学基金为辅的科学基金体系的 建立,对稳定我国的基础研究力量,推动科学事业的发展起到了重大作用。“如 何加强管理,提高基金资助效率”,怎样将日益堆积的数据进行有效的管理,挖 掘其中埋藏的信息宝库,同样成了基金管理工作者们探求的问题。基于w e b 技 术构建的辽宁省科技基金管理信息系统经过三年多的运行,为科技基金的管理 工作提供了强有力的支持,但随着在数据库中存储的数据越来越多,基金中心 的管理者们越来越不满足于仅仅用计算机来实现业务的电子化,更希望从已有 的数据中提炼出有用的信息服务于决策人员,以便更加科学、高效的筛选出高 质量的项目进行资助。现有的o l t p 数据库系统显然不能满足管理者对数据进 行高效分析的需求,因此,如何迅速、准确地从这成堆的历史数据中挖掘出有 用的信息的问题,已经迫使信息系统开发人员使用新的数据分析技术”1 。 因此,本文将讨论通过如何建立一个科技基金多维分析系统,将影响一个 基金项目是否能获得资助的各个因素与决策者关心的问题相结合,运用合理的 多维数据结构模型建立支持o l a p 操作的数据库,并提供良好的人机交互界面, 实现对系统中各个主题域的多维查询和多维分析。 1 2 问题研究的必要性和可能性 1 2 1 必要性 随着人们对数据操作提出了更高的要求,希望计算机能够更多的参与数据 分析与决策领域,这就使数据库处理分离成两大类:操作型处理和分析型处理,。 这种分离使原来的以单一数据库为中心的数据环境发展为一种体系化环境,使 擅长事务处理的数据库系统在数据分析处理上显得力不从心。 操作数据库系统的主要任务是执行联机事务和查询处理,称为联机事务处 理o l t p 系统。数据仓库在数据分析和决策方面为用户提供服务,这种系统称 为联机分析处理0 l a p 系统。 o l t p 和o l a p 系统从内容到设计方法到使用用户等都有很大的区别,表l 列出了这些区别的详细情况: 科技基金多维分析系统的分析与设计 表1 1o l t p 与o l a p 的区别 1 a b l e l 1d i f f e r e n c eo f o l t pa n do l a p o l t po l a p 原始数据导出数据 细节性数据综合性和提炼性数据 当前数据历史数据 可更新不可更新 一次处理的数据量小一次处理的数据量大 面向应用,事务驱动面向分析,分析驱动 面向操作人员,支持日常工作面向决策人员,支持管理需要 分离操作数据库系统和数据仓库系统的主要原因是提高两个系统的性能。 操作数据库系统是为已知的任务和负载设计的,而数据仓库的查询通常是复杂 的,涉及大量的数据在汇总级的计算,在操作数据库系统上处理o l a p 查询。 可能会大大降低操作任务的性能f 3 。 1 , 2 2 可能性 随着计算机应用技术、数据库技术、信息技术、网络和通讯技术,尤其是 本文中提到的o l a p 技术的发展,为系统的设计和开发提供了坚实的基础。 另一方面,科技厅科技基金管理中心的管理人员的业务素质和计算机应用 水平有了很大的提高,计算机软硬件设备的数量与质量的准备上也很充分,对 计算机信息系统的作用和优势有很高的评价。这些都为建立多维分析系统打下 良好的基础,提供了必要的条件。 1 3 国内外同类研究综述 1 3 1o l a p 技术发展背景 6 0 年代末,关系数据库之父e f c o d d 提出了关系模型,促进了关系数据库 及联机事务处理( o l t p ) 的发展。数据不再以文件的方式同应用程序捆绑在 科技基金多维分析系统的分析与设计 起,而是分离出来以关系表格的形式存储,供大家共享。随着政府及商业应用 的发展,数据量从8 0 年代的兆( m ) 字节及千兆( g ) 字节增加到现在的兆兆 ( t ) 字节和千兆兆( p ) 字节,同时用户的查询需求也越来越复杂,涉及的已 不仅是查询和操纵一张关系表中的一条或几条记录,而是要对多张表中的千万 条i 己录的数掘进行数据分析和信息综合。关系数据库已不能全部满足这一要求, s q t 。对大型数据库进行的简单查询也不能满足终端用户分析的要求。于是,在 1 9 9 3 年,e f c o d d 提出了o l a p ( o n l i n ea n a l y s i sp r o c e s s ,联机分析处理) 概 念。通过专门的数据综合引擎,辅之以更加直观的数据访问界面,力图统一分 散的公共应用逻辑,在短时间内响应非数据处理专业人员的复杂查询要求。 o l a p 技术与数据仓库密切相关,它是数据仓库三个方面技术内容之一。 根据b i l l i n m o n 的定义,“数据仓库是面向主题的、集成的、稳定的、随时间变 化的,主要用于决策支持的数据库系统”。它包括三个方面的技术内容:数据仓 库技术( d a t aw a r e h o u s i n g ,d w ) 、联机分析处理技术( o l a p ) 、数据挖掘技术 f d a t am i n i n g ,d m ) 。随着数据仓库的发展,o l a p 也得到了迅猛的发展。随 着数据仓库的发展,o l a p 也得到了迅猛的发展。数据仓库侧重于存储和管理 面向决策主题的数据;而o l a p 则侧重于数据仓库中的数据分析,并将其转换 成辅助决策信息。o l a p 技术能够利用分析过程对数据进行深入分析和加工。 对关键指标数据常常用代数方程进行处理,更复杂的分析可能需要通过建立模 型进行计算。o l a p 技术是对由语义动态对象建立的,以动态微立方结构形式 存储的表进行向下钻取、向上钻取、跨越钻取、切片和切块等操作。 1 3 2o l a p 技术研究综述 联机分析处理( o l a p ,o n l i n e a n a l y t i c a l p r o c e s s i n g ) 是一类软件技术,是 针对特定问题的联机数据访问和分析,它使分析人员、经理、管理人员通过对 信启、( 这些信息从原始数据转换而来,反映了用户所能理解的企业的真实的 “维”) 的多种可能的观察角度进行快速、一致和交互性的存取以获得对信息的 深入理解。 1 3 2 1o l a p 的定义 定义l :o l a p ( 联机分析处理) 是针对特定问题的联机数据访问和分析。 通过对信息( 维数据) 的多种可能的观察形式进行快速、稳定一致和交互性的 存取,允许管理决策人员对数据进行深入观察。 科技基金多维分析系统的分析与设计 定义2 :o l a p ( 联机分析处理) 是使分析人员、管理人员或执行人员能够 从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反 映企业维特性的信息进行快速、一致、交互地存取,从而获得对数据的更深入 了解的一类软件技术。( o l a p 委员会定义) o l a p 的目标是满足决策支持或多维环境特定的查询和报表需求,它的技 术核心是“维”这个概念,因此0 l a p 也可以说是多维数据分析工具的集合。 在数据仓库中,存储数据的目的是为了查询、分析和传送。而在线事务处 理( 0 l a p ) 与之相反,0 l a p 收集和存储数据的目的是为了操作和控制。0 l a p 作为一种分析处理技术,它从现有的数据中生成新的信息,当然这得通过大量 的转换和数据计算来实现。根据o l a p 产品的实际应用情况和用户对0 l a p 产 品的需求,人们还提出了一种对o l a p 更简单明确的定义,那就是“共享多维 信息的快速分析”。 1 3 2 2o l a p 的特征 1 _ 快速性( f a s t ) :用户对o l a p 的快速反应能力有很高的要求。系统应 能在5 秒内对用户的大部分分析要求做出反应。如果终端用户在3 0 秒内没有得 到系统响应就会变得不耐烦,因而可能失去分析主线索,影响分析质量。对于 大量的数据分析要达到这个速度并不容易,因此就更需要一些技术上的支持, 如专门的数据存储格式、大量的事先运算、特别的硬件设计等。 2 可分析性( a n a l y s i s ) :o l a p 系统应能处理与应用有关的任何逻辑分 析和统计分析、报表处理功能。此外,o l a p 系统还具有回答“假设分析”( w h a t i f ) 问题的功能及进行趋势预测的能力。o l a p 的基本分析操作有切片( s l i c e ) 、 切块( d i c e ) 、下钻( d r i l l d o w n ) 、上翻( r o l l u p ) 、旋转( r o t a t e ) 。o l a p 系 统应能处理与应用有关的任何逻辑分析和统计分析。尽管系统需要事先编程, 但并不意味着系统已定好了所有的应用。用户无需编程就可以定义新的专门计 算,将其作为分析的一部分,并以用户理想的方式给出报告。用户可以在o l a p 平台上进行数据分析,也可以连接到其他外部分析工具上,如时间序列分析工 具、成本分配工具、意外报警、数据开采等。 3 多维性( m u l t i d i m e n s i o n a l ) :多维性是o l a p 的关键属性。系统 必须提供对数据的多维视图和分析,包括对层次维和多重层次维的完全支持。 事实上,多维分析是分析企业数据最有效的方法,是o l a p 的灵魂。 4 信息性( i n f o r m a t i o n ) :不论数据量多大,也不管数据存储在何处, o l a p 系统应能及时获得信息,并且管理大容量信息。这里有许多因素需要考 科技基金多维分析系统的分析与设计 虑,如数据的可复制性、可利用的磁盘空间、o l a p 产品的性能及与数据仓库 的结合度等。 5 共享性( s h a r e d ) :这是指0 l a p 系统应有很高的安全性。例如,当 多个用户同时向o l a p 服务器写数据时,系统应能在适当的粒度级别上加更新 锁。 o l a p 的这五个特征从另个角度定义了o l a p 应用系统的概念。 1 3 2 3 相关的基本概念 1 变量:变量是数据的实际意义,即描述数据“是什么”。一般情况下, 变量总是一个数值度量指标。例如:“项目数”、“评分”、“基金总额”等都是变 量,而“】0 0 0 ”则是变量的一个值。 2 维:是人们观察数据的特定角度,是考虑问题时的一类属性,属性集合 构成一个维( 时间维、地理维等) 。 3 维的层次:人们观察数据的某个特定角度( 即某个维) 还可以存在细节 程度不同的各个描述方面,我们称这多个描述方面为维的层次。一个维往往具 有多个层次,例如,描述时间维的层次可以是日期、月份、季度、年。 4 维成员:维的一个取值。如果一个维是多层次的,那么这个维的维成员 是在不同维层次的取值的组合。对应一个数据项来说,维成员是数据项在某维 中位置的描述。例:“某年某月某日”的访问量,“某年某月某日”是访问量数 据在时间维上位置的描述。 5 多维数组:维和变量的组合表示。一个多维数组可以表示为:( 维1 ,维 2 ,维1 1 ,变量) 。例:( 时间,地区,产品,销售额) 。 6 ,数据单元( 单元格) :多维数组的取值。当多维数组的各个维都选中一 个维成员,这些维成员的组合就唯一确定了一个变量的值。例如,( 2 0 0 0 年1 月,上海,笔记本电脑,$ 1 0 0 0 0 0 ) 。 基于多维数据库的o l a p ( m d o l a p ) 以多维数据库( m d d b m u i t i d i m e n s i o n a ld a t a b a s e ) 为核心。多维数据库概言之就是以多维方式来组 织和显示数据。多维数据库中的维不是随意定义,它是一种高层次的类型划分。 如产品可以作为维,而产品类型、产品颜色及产品商标等一般不作为维。 1 3 2 4o l a p 的多维数据结构 多维结构是决策支持的支柱,也是o l a p 的核心。o l a p 展现在用户面前 的是一幅幅多维视图。数据在多维空间中的分布总是稀疏的、不均匀的。在事 件发生的位置,数据聚合在一起,其密度很大。因此,o l a p 系统的开发者要 科技基金多维分析系统的分析与设计 设法解决多维数据空间的数据稀疏和数据聚合问题。事实上,有许多方法可以 构造多维数据。 1 超立方结构( h y p e r c u b e ) 超立方结构指用三维或更多的维数来描述一个对象,每个维彼此垂直。数据 的测量值发生在维的交叉点上,数据空间的各个部分都有相同的维属性。 这种结构可应用在多维数据库和面向关系数据库的o l a p 系统中,其主要 特点是简化终端用户的操作。 超立方结构有一种变形,即收缩超立方结构。这种结构的数据密度更大, 数据的维数更少,并可加入额外的分析维。 2 多立方结构( m u l t i c u b e ) 将大的数据结构分成多个多维结构,即将超立方结构变为子立方结构。面 向某一特定应用对维进行分割,它具有很强的灵活性,提高了数据( 特别是稀 疏数据) 的分析效率。 一般来说,多立方结构灵活性较大,但超立方结构更易于理解。终端用户 更容易接近超立方结构,它可以提供高水平的报告和多维视图。但具有多维分 析经验的m i s 专家更喜欢多立方结构,因为它具有良好的视图翻转性和灵活性。 多立方结构是存储稀疏矩阵的一个更有效方法,并能减少计算量。因此,复杂 的系统及预先建立的通用应用倾向于使用多立方结构,以使数据结构能更好的 得到调整,满足常用的应用需求。 许多产品结合了上述两种结构,它们的数据物理结构是多立方结构,但却 利用超立方结构来进行计算,结合了超立方结构的简化性和多立方结构的旋转 存储特性。 1 3 2 5o l a p 多维数据操作 无论是要高效地运行还是要前景规划,都需要分析大量相关数据。这些需 要由分析处理解决。在分析处理中,应将注意力集中于数据分析,特别是多维 分析。 多维分析是指对以多维形式组织起来的数据采取切片、切块、旋转等各种 分析动作,以求剖析数据,使最终用户能从多个角度、多侧面的观察数据库中 的数据,从而深入的了解包含在数据中的信息、内涵。多维分析方式迎合了人 的思维模式,因此可以减少混淆并且降低出现错误解释的可能性。 多维分析基于数据仓库中具体数据的多维视图,而且可能有多维数据库存 储引擎。它完成下列功能: 一型垫墨垒兰丝坌堑墨竺塑坌塑兰堡盐 1 切片和切块( s l i c ea n d d i c e ) 在多维数组的某一维上选定一维成员的动作成为切片,选定某一区间的维 成员的动作成为切块;或者说在多维数据结构中,按二维进行切片,按三维进 行切块,可得到所需要的数据。从另一个角度讲,切块可以看成是在切片的基 础上进步确定各个维成员的区间得到的片断体,也即由多个切片叠合起来。 如在“城市、产品、时间”三维立方体中进行切块和切片,可得到各城市、各 产品的销售情况。o l a p 分析示意图: 产品 电视机 电冰箱 1 9 9 51 9 9 6 时间( 年) 嘭够 图1 1 三维立体切片、切块示意图 f i g 1 1t h r e e - d i m e n s i o n a ls l i c ea n dd i c e 切片和切块的作用或结果就是舍弃一些观察角度,使人们能在两、三个维 上集中观察数据。因为人的空间想象能力毕竞有限,一般很难想象到四维以上 的空间结构。所以对于维数较多的多维数据空间,数据切片和切块是十分有意 义的。 2 钻取( d r i l l ) 钻取包含向下钻取( d r i l l d o w n ) 和向上钻取( d r i l l u p ) 上卷( r o l l u d ) 操作。下钻是指用户从某一个粒度比较大的数据出发,去考察分析与这数据 有关的,粒度比该数据小的数据。上钻跟下钻刚好相反,是用户从粒度比较小 的数据出发,去考察与它相关的、粒度比它大的数据。钻取的深度与维所划分 的层次相对应。可以看出,下钻是一个由总及细的过程,而上钻是一个由细及 总的过程。 科技基金多维分析系统的分析与设计 按 时 间 维 向 下 钻 取 部门销售 部门19 0 都门26 0 部门3 8 0 o 口 1 9 9 5 白i 部门1 荤席2 季摩3 季庸4 季庸 部7i2 02 0 3 51 5 軎b 1 722 551 5 l5 部门32 01 51 r 1 7 图1 2 钻取示意图 f i g 1 2s k e t c h m a p o f d r i l l 按 时 间 维 向 上 钻 取 3 旋转( r o t a t e ) 转轴( p i v o t ) 旋转是在进行切片或切块后形成的报告和页面上,改变其显示的维方向。 通过旋转可以得到不同视角的数据。 19 9 5 e 1 9 9 6 年 部i 乖詹 2 垂席3 垂席4 垂序i 荤席 2 垂席3 荤序4 垂庸 崮5 门l2 02 03 5 l5 i22 02 51 4 部门22 55 l5152 0 1s2 3 1 2 軎b 门32 0 15 1r2 7182 0 1 72 5 i 季席2 垂序 3 垂摩4 季序 部门1 9 9 5 l1 9 9 61 9 9 5l1 9 9 61 9 9 5 19 9 61 9 9 51 9 9 6 害b 门12 0 i1 22 02 0 3 52 51 5 1 4 部门22 5 f2 05 1r1 52 3 151 2 粕门32 0l1 81 5 2 01 81 72 7 2 5 1 3 3o l a p 发展方向 图13 旋转示意图 f i g1 3s k e t c hm a do f r o t a t i o n 自9 0 年代初,e f c o d d 提出o l a p 的概念以来,o l a p 技术得到广泛应用, 许多大的开发商纷纷推出自己的o l a p 产品,从而推动o l a p 技术的发展。当 科技基金多维分析系统的分析与设计 前o l a p 技术与w e b 技术以及数据挖掘技术相结合,产生o l a p 的两个新的发 展方向w e bo l a p 、o l a p + 数据挖掘。 1 3 3 1w e bo l a p 网络是信息时代的高速公路,随着i n t e m e t 技术的发展和网络的普及,人们 对网络的应用有了新的认识。将w e b 技术与o l a p 的结合,扩展了o l a p 的应 用范围成为o l a p 发展的一个新方向。 将w e b 技术和o l a p 技术相结合有以下好处: 1 w e b 技术和o l a p 技术结合可以节省开发资金。此外,许多企业都已经 建立或j 下在筹建企业的i n t r a n e t ,将o l a p 与w e b 技术相结合可以更好的发挥 两者的优势,使企业内部更多的用户能方便的使用o l a p 的功能。 2 客户端采用统一的w e bb r o w s e r 界面,可以降低用户的培洲费用。 3 w e b 是一个跨平台的环境,在使用中用户可以通过统一的w e bb r o w s e r 界面,完成所需的o l a p 分析操作,而不用考虑他们的操作系统平台。 4 有利于企业从集中式的环境向分布式开放环境转变。 1 3 3 2o l a p + 数据挖掘 数据挖掘( d m ,d a t a m i m n g ) 是一种决策支持过程,它从大量的数据中 提取隐含的、潜在的、以前未知的有用信息或模式。数据挖掘主要基于人工智 能、机器学习、统计学、数据库等技术。数据挖掘通过分析大量的原始的数据, 作出归纳性的推理,挖掘出潜在的模式并预测客户的行为,帮助企业的决策者 调整市场策略,减少风险,作出正确决策。 数据挖掘的分析方法主要有关联分析( a s s o c i a t i o n s ) 、序列模式分析 ( s e q u e n t i a l p a t t e r n ) 、分类分析( c l a s s i f i e r s ) 和聚类分析( c l u s t e r i n g ) 等。数据挖掘利用人工智能领域中一些已经成熟的算法和技术如:人工神经网 络( a r t i f i c i a ln e u r a ln e t w o r k s ) 、遗传算法( g e n e t i ca l g o r i t h m s ) 、决策 树方法( d e e i s i o nt r e e s ) 、临近搜索算法( n e a r e s t n e i g h b o rm e t h o d ) 、规则 推理( r u l ei n d u c t i o n ) 、模糊逻辑( f u z z yl o g i c ) 、公式发现等来进行数据的 挖掘。数据挖掘是人工智能中的成熟技术在决策支持系统中的具体应用。 d m 的分析实现过程可分为四个步骤:数据准备、数据挖掘和数据表示、 验证。数据准备主要是对原始数据进行提取、清洁、聚集、汇总等操作;数据 挖掘是对经过上述预处理的数据运用四种挖掘方法( 关联、序列模式、分类和 聚集) 进行挖掘,发现有价值的知识和信息;数据表示则将挖掘出来的知识和 信息以易于理解的方式展现给用户,验证挖掘的知识和信息的正确性。 科技基金多维分析系统的分析与设计 o l a p 和数据挖掘是相辅相成的,但它们的侧重点不同,o l a p 侧重于与用 户的交互、快速的响应速度及提供数据的多维视图而数据挖掘则能自动发现隐 藏在数据中的模式和有用信息。o l a p 的分析结果可以给数据挖掘提供分析信息 作为挖掘的依据,数据挖掘可以拓展o l a p 分析的深度,可以发现o l a p 所不能 发现的更为复杂、细致的信息。从上面的论述,可以看出如果将o l a p 与数据挖 掘相结合将会发挥更好的效用,这是o l a p 发展的又一个新方向。1 。 1 4 本文的主要工作 针对目前用户对系统多维分析功能的需求,结合基于多维数据结构的 o l a p 技术和满足用户提出的灵活的统计分析功能的目标,本文以科技基金管 理信息系统中的几个主题域为研究对象,设计了科技基金多维分析系统,根据 实际的项目背景,选取用户关心的度量指标和维度,建立了多维数据结构模型, 并在现有的关系数据库中将其实现,根据实际应用的需求,最终实现了基于w e b 的多维分析应用系统。系统的开发操作平台为w i n d o w s 2 0 0 0 、m i c r o s o f tv i s u a l i n t e r d e v 和d r e a m w a v e r ,前端网页开发工具为a s p 3 0 ,后台数据库工具采用的 是m i c r o s o f ts q ls e r v e r 2 0 0 0 。 基于以上工作,本文在章节安排中按提出问题,分析问题和解决问题的思 路安排本文的结构: 第二章根据实际项目背景对系统进行需求分析,指出现有系统存在的问题, 并提出了解决方案。这一部分的工作内容包括:系统的需求分析、系统的目标、 系统存在的问题及解决方案。 第三章针对多维分析的特点,设计科技基金多维分析系统。这一部分的工 作内容主要包括:系统的总体架构设计、系统的功能设计、系统的人机交互界 面设计以及系统的数据库设计。 第四章根据前面的设计思想,应用相关技术对系统进行了实现。 第五章是多维分析系统的应用实例分析。选择科技基金管理工作中的项目 主题从各个维度进行多维查询和分析,并将结果以图、表等多种方式直观的显 示出来,基本上满足了用户对多维查询和分析的要求。 科技基金多维分析系统的分析与计 2 科技基金多维分析系统的分析 2 1 实际项目背景 科技基金的设立是通过资助科技项目( 应用基础研究) 来达到培养科技人 才、获得科技成果的目的。辽宁省科技基金服务中心隶属于辽宁省科技厅,主 要负责科技基金管理的一系列同常工作,从受理项目申报、组织专家进行项目 评审到从申报的项目中筛选出一定量的项目进行资助,并负责对项目进展情况 进行监督检查,对取得的成果进行管理。随着信息技术的发展,信息化的浪潮 席卷全球,信息化给社会、经济、科技、文化带来了巨大的变化,无异也对管 理产生了重大的影响。在这样的环境趋势下,辽宁省科技厅也顺应时代的发展, 积极推进信息化建设,建立了科技基金管理信息系统。从2 0 0 0 年开始,经过四 年的设计开发工作,整个系统的框架已经形成。本系统的设计开发采用增量式 迭代的思想,从满足当前的需要出发,开发的同时投入使用,在使用过程中发 现问题,提出新的需求,再进一步改善、增加新的功能。 科技基金多维分析系统就是要在辽宁省科技基金管理信息系统的基础上设 计并实现。从系统的功能、结构上来看,它可以作为一个独立的系统存在,但 对于整个科技基金管理信息系统来说,它又是一个能完成特定需求的子功能模 块,所以科技基金多维分析系统是科技基金管理信息系统的一个重要组成部分, 是在现有系统基础之上建立的一个子系统。本系统主要负责对科技基金项目的 申报和评审工作进行多维的统计查询和分析。目前的科技基金管理信息系统虽 然能够实现一定的动态管理及统计报表的功能,但随着时间的推移,数据库中 积累的数据日渐庞大。科技基金管理工作者意识到,这些数据是一笔无形的财 富。如何对这些海量的数据进行深层次的分析,并从中挖掘出有意义的信息, 是基金管理工作者们关心的焦点。用户迫切需要实现的功能是从各个维度以及 从不同维度的组合去观察项目申请经费专家等要素的总数及在各维度层次上 所占的比例,以及各要素与各维度的关联程度,从而为预资助工作提供科学的 决策依据,这些需求是现有系统不能满足的。 根据用户的要求,本系统在数据库系统基础之上基于多维数据结构,采用 o l a p 技术实现了多维统计图表的自动生成。 科技基金多维分析系统的分析与设计 2 2 多维分析系统的目标与内容 2 2 1 系统目标 1 提供一个良好的人机交互界面,通过交互的人机合作,使多维分析过程 结构化,简单化。这是评价一个多维分析系统性能好坏的重要指标之。 2 确定系统的查询分析主题域,提供恰当的观察维和粒度供用户选择,充 分满足用户的需求。 3 提供多种多维查询多维分析功能对数据进行多维分析处理。如:切片、 切块、下钻及多维交叉下钻。 4 提供直观的结果显示方式。如:柱状图、圆饼图、表格等,用户可以自 己选择合适的显示方式。 5 在不调整原有系统的情况下,提供一个适应多维查询和即时o l a p 分析 及报表输出汇总的统一的数据源。系统中的主要数据来源是业务处理系统,它 不是对数据简单地再存储,而是根据信息的主题和分析需求进行统一定义和组 织,保证数据的时效性和一致性。 总之,快速、准确的满足用户提出的灵活的统计分析功能是系统的目标。 2 2 2 系统主要内容 系统的主要内容是对从整个科技基金业务流程中划分出来的各个主题域 中的数据进行多维查询和多维分析。主题域主要包括:项目主题、单位主题、 经费主题和专家主题;各个主题域涉及的维度不尽相同,总的来说包括:时间 维、地区维、单位维、基金类别维等。数据库管理系统完成对各个主题域的事 实表数据、维表数据的管理和应用。具体查询分析内容包括以下几个方面: 1 项目申报情况查询分析; 2 项目评审情况查询分析: 3 单位情况查询; 4 专家情况查询分析; 5 基金经费隋况查询统计; 6 项目资助率; 科技基金多维分析系统的分析与设计 7 专家返回率; 8 历年项目申报情况统计。 2 2 3 系统应达到的技术指标和参数 1 标准w e b 应用系统风格: 2 严格的用户权限管理,保证系统安全性; 3 分析速度快,能够满足用户对系统响应时间的要求; 4 具有稳定的报表性能; 5 直观的数据操纵、灵活的报表生成; 6 能提供多维概念视图、满足维的等同性原则; 7 从已有数据库中直接操作,以多种图表的方式直观地显示查询结果 8 对不同的分析要求,不同的数据量及软硬件适应性强。 2 3 当前系统分析 2 3 1 当前系统存在的问题 项目申报与评审是科学基金管理工作的主要环节之一。为了更加科学、严 谨的找出优秀的项目进行资助,科学基金工作者们一直在寻找合理的项目管理 办法,经过多年的实践,已经总结出了一套比较科学、合理的申报流程和评审 体系。由于项目的申报内容几乎涵盖了所有能够说明项目水平的角度,评价指 标体系也是从这些角度去观察一个项目,通过对评价指标的综合考察来决定该 项目是否预以资助。既然申报和评审都是一个多维的过程,那么对评审结果的 查询分析必然是一个多维查询分析的过程。当前运行的科技基金管理信息系统 是一个典型的、功能比较完善的基于w e b 的面向事务处理的o l t p 系统。它是 事件驱动的、面向应用的,基本上满足了用户对系统的事务处理的要求:响应 时间短、支持大量用户同时在线操作等。但是,o l t p 系统面向的是操作人员和 低层的管理人员,为用户提供的基本操作类型有查询和修改( 包括增加、删除、 修改等操作) ,对于这两类基本操作,提供快速的、安全的、完整的查询结果, 而在修改时也不破坏其完整性。随着人们越来越多的关心蕴含在大量数据中的 信息、越来越希望从中挖掘出有用的知识来指导下一步的工作,对数据进行多 科技基金多维分析系统的分析与设计 角度的统计分析的要求远远超过了简单的查询及增删改等业务处理。然而,实 践表明,利用传统的o l t p 系统对数据进行多维分析操作存在很多问题,具体 存在的问题有: 1 对于复杂的结构,需要创建用于分析的特殊查询语句,而这些工作只有 数据库技术专家才能做好; 2 对系统中大量数据的分析汇总影响在线事务的处理速度等性能; 3 当执行复杂的查询时,由于速度过慢而影响决策的执行; 4 由于数据经常改变而影响数据分析的一致性; 5 安全性过于复杂。 于是,o l a p 技术应运而生,政府和企业进行o l a p 系统的建设也提上了 日程。针对这些问题,本文基于科技基金管理信息系统设计并实现科技基金多 维分析系统,o l a p 作为一种强有力的分析和决策工具,被有效的加以利用。 2 3 2 问题产生的原因 在当前的o l t p 系统中,建立在关系模型基础上的r d b m s 在当前系统中 占据主导地位。传统的关系模型描述了实体和关系的概念。这种策略是将信息 分散到大量的表中,每个表描述一个实体。实体间通过一系列复杂的关系相互 关联。为了将信息结构化以利于其不断重复的日常简单的查询修改操作,数据 模型采用关系型数据模型。关系模型简单易懂,利于实现,为了减少关系模型 中数据的重复存储,减少数据的冗余,在进行数据库设计时利用规范化方法逐 步规范关系模型,使其达到3 n f 、b c n f 甚至更高的范式,同时为了尽可能使 数据库系统中的数据共享,面向多个用户,还采取了对并发事务的并行操作的 并发控制。关系模型在事务处理系统中发挥极大的作用,这一点是值得肯定的, 但由于o l a p 的主要功能是通过对统一数据的动态多维分析实现的,相对于 o l t p 而言,o l a p 与o l t p 晟本质的不同就是要求各系统的应用不同,面向的 操作处理的类型不同。关系数据库的数据组织形式是面向业务处理过程的,并 未明确的划分出主题,而多维分析要求面向主题系统的数据,因此数据结构需 要重新组织,所以在面对o l a p 应用中复杂的查询统计、决策分析任务,传统 的关系模型描述的数据结构是失败的“。 事实上,系统的许多数据是一种多维数据,它们之间相互联系,而且通常 具有一定的层次,例如,项目数据、单位数据和基金经费间互相联系、并且相 科技基金多维分析系统的分析与设计 互依赖。从多个角度对数据进行分析和解释对科学决策具有十分重要的意义。 在多维分析中,数据事用维来表示的,例如领域、单位和基金类别。另一方面, 自8 0 年代初以来,由于关系数据库具有峰实的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论