(计算机应用技术专业论文)基于web的多维数据分析工具的研究.pdf_第1页
(计算机应用技术专业论文)基于web的多维数据分析工具的研究.pdf_第2页
(计算机应用技术专业论文)基于web的多维数据分析工具的研究.pdf_第3页
(计算机应用技术专业论文)基于web的多维数据分析工具的研究.pdf_第4页
(计算机应用技术专业论文)基于web的多维数据分析工具的研究.pdf_第5页
已阅读5页,还剩52页未读 继续免费阅读

(计算机应用技术专业论文)基于web的多维数据分析工具的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

华北电力大学硕士学位论文 摘要 多维数据分析工具已经成为人们理解及分析海量复杂数据不可缺少的工具。本 文对多维数据分析技术、基于w e b 的多维数据前端展现形式及相关的实现技术进行 了研究,包括多维数据分析工具m i c r o s o f ta n a l y s i ss e r v i c e s2 0 0 5 的体系结构、a i a x 技术、m d x 技术以及a d o m d n e t 与x m lf o ra n a l y s i s 等。在m i c r o s o f ta n a l y s i s s e r v i c e s 2 0 0 5 的多维数据建模基础上,基于n e t 平台设计并实现了一个基于w e b 的 多维数据分析工具。利用此工具可以对用户界面灵活定制,并具有多维数据分析的 主要功能,包括数据旋转、切片、下钻等功能。最后,将此工具运用到财务分析中 应收账款账龄分析这一实际应用中,收到了较好的效果。 关键词:多维数据分析,工具,前端展现,应收账款账龄 a b s t r a c t m u l t i d i m e n s i o n a ld a t aa n a l y t i c a lt o o l sa r en e c e s s a r yf o rp e o p l et ou n d e m t a n da n d a n a l y z el a r g ev o l u m e a n d c o m p l i c a t e dd a t a m u l t i d i m e n s i o n a l d a t a a n a l y t i c a l t e c h n o l o g y , w e b b a s e df r o n t e n dd i s p l a yf o r m sa n dr e l a t e di m p l e m e n t a t i o nt e c h n o l o g i e s a r es t u d i e di nt h i sp a p e r , i n c l u d i n gt h ea r c h i t e c t u r eo fm i c r o s o f ta n a l y s i ss e r v i c e s2 0 0 5 , a j a x ,m d x ,a d o m d n e ta n dx m lf o ra n a l y s i s o nt h eb a s i so fm u l t i d i m e n s i o n a ld a t a m o d e l i n go fm i c r o s o f ta n a l y s i ss e r v i c e s2 0 0 5 ,aw e b - b a s e dm u l t i d i m e n s i o n a ld a t a a n a l y t i c a lt o o li sd e s i g n e da n di m p l e m e n t e do n n e tp l a t f o r m t h eu s e ri n t e r f a c ec a nb e c u s t o m i z e du s i n gt h i st o o l ,a n di th a st h em a i nf u n c t i o n so fm u l t i - d i m e n s i o n a ld a t a a n a l y s i s ,i n c l u d i n gd a t ar o t a t i n g ,s l i c i n ga n dd r i l ld o w n f i n a l l y , t h i st o o li su s e di nt h e a p p l i c a t i o no fa c c o u n t sr e c e i v a b l ea g i n ga n a l y s i sa n dr e c e i v e sav e r yg o o dr e s u l t w a n gf e i x i a n g ( c o m p u t e ra p p l i c a t i o nt e c h n o l o g y ) d i r e c t e db yp r o f im as u x i a k e yw o r d s :m u l t i d i m e n s i o n a ld a t aa n a l y s i s ,t o o l s ,f r o n t - e n dd i s p l a y , a c c o u n t s r e c e i v a b l ea g i n g 华北电力大学硕士学位论文 摘要 多维数据分析工具已经成为人们理解及分析海量复杂数据不可缺少的工具。本 文对多维数据分析技术、基于w e b 的多维数据前端展现形式及相关的实现技术进行 了研究,包括多维数据分析工具m i c r o s o f ta n a l y s i ss e r v i c e s2 0 0 5 的体系结构、a i a x 技术、m d x 技术以及a d o m d n e t 与x m lf o ra n a l y s i s 等。在m i c r o s o f ta n a l y s i s s e r v i c e s 2 0 0 5 的多维数据建模基础上,基于n e t 平台设计并实现了一个基于w e b 的 多维数据分析工具。利用此工具可以对用户界面灵活定制,并具有多维数据分析的 主要功能,包括数据旋转、切片、下钻等功能。最后,将此工具运用到财务分析中 应收账款账龄分析这一实际应用中,收到了较好的效果。 关键词:多维数据分析,工具,前端展现,应收账款账龄 a b s t r a c t m u l t i d i m e n s i o n a ld a t aa n a l y t i c a lt o o l sa r en e c e s s a r yf o rp e o p l et ou n d e r s t a n da n d a n a l y z el a r g e v o l u m ea n d c o m p l i c a t e dd a t a m u l t i d i m e n s i o n a l d a t aa n a l y t i c a l t e c h n o l o g y , w e b b a s e df r o n t e n dd i s p l a yf o r m sa n dr e l a t e di m p l e m e n t a t i o nt e c h n o l o g i e s a r es t u d i e di nt h i sp a p e r , i n c l u d i n gt h ea r c h i t e c t u r eo fm i c r o s o f ta n a l y s i ss e r v i c e s2 0 0 5 , a j a x ,m d x ,a d o m d n e ta n dx m lf o ra n a l y s i s o nt h eb a s i so fm u l t i d i m e n s i o n a ld a t a m o d e l i n go fm i c r o s o f ta n a l y s i ss e r v i c e s2 0 0 5 ,aw e b - b a s e dm u l t i d i m e n s i o n a ld a t a a n a l y t i c a lt o o li sd e s i g n e da n di m p l e m e n t e do n n e tp l a t f o r m t h eu s e ri n t e r f a c ec a nb e c u s t o m i z e du s i n gt h i st o o l ,a n di th a st h em a i nf u n c t i o n so fm u l t i d i m e n s i o n a ld a t a a n a l y s i s ,i n c l u d i n gd a t ar o t a t i n g ,s l i c i n ga n dd r i l ld o w n f i n a l l y , t h i st o o li su s e di nt h e a p p l i c a t i o no fa c c o u n t sr e c e i v a b l ea g i n ga n a l y s i sa n dr e c e i v e sav e r yg o o dr e s u l t w a n gf e i x i a n g ( c o m p u t e ra p p l i c a t i o nt e c h n o l o g y ) d i r e c t e db yp r o f m as u x i a k e yw o r d s :m u l t i - d i m e n s i o n a ld a t aa n a l y s i s ,t o o l s ,f r o n t - e n dd i s p l a y , a c c o u n t s r e c e i v a b l ea g i n g 声明 户日明 本人郑重声明:此处所提交的硕士学位论文基于w e b 的多维数据分析工具的 研究,是本人在华北电力大学攻读硕士学位期间,在导师指导下进行的研究工作 和取得的研究成果。据本人所知,除了文中特别加以标注和致谢之处外,论文中不 包含其他人已经发表或撰写过的研究成果,也不包含为获得华北电力大学或其他教 育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡 献均已在论文中作了明确的说明并表示了谢意。 学位论文作者签名: 蝉日期:谜出 关于学位论文使用授权的说明 本人完全了解华北电力大学有关保留、使用学位论文的规定,即:学校有权 保管、并向有关部门送交学位论文的原件与复印件;学校可以采用影印、缩印或 其它复制手段复制并保存学位论文;学校可允许学位论文被查阅或借阅;学校 可以学术交流为目的,复制赠送和交换学位论文;同意学校可以用不同方式在不 同媒体上发表、传播学位论文的全部或部分内容。 ( 涉密的学位论文在解密后遵守此规定) 作者签名: 日 华北电力大学硕士学位论文 1 1 课题背景 第一章引言 随着计算机技术和互联网技术的发展,社会各行各业的分工、业务流程、管理 流程在发生着重大的改变,信息越来越多的受到人们的重视。人们不仅仅追求信息 的快递、及时,同时更注重分析数据本质,分析和挖掘出隐藏在深层的信息和规律。 特别是,一个企业要在复杂多变的环境中生存,在日益激烈的竞争中胜出,其经营 管理者、决策者必须要及时地从大量的原始数据中挖掘出大量有用的信息,并通过 各种视角,得到隐藏在数据背后的规律和趋势,准确掌握企业的经营历史和现状, 了解市场需求,从而快速做出方向性的决策和计划,并付诸实施【l 】。 然而,传统的数据库系统即联机事务处理系统,作为数据管理手段,主要用于 事务处理,数据库系统的应用只限于在查询、检索、统计等几个方面,只能帮助管 理者对信息作表面上的组织与管理,而不能把信息的内在规律更深刻地挖掘出来为 决策服务,远远没有发挥数据库中数据应有的作用。s q l 对大数据库进行的简单查 询也不能满足用户分析的需求j 用户的决策分析需要对关系数据库进行大量的计算 才能得到结果,而查询的结果并不能满足决策者提出的需求。显然,传统的联机事 务处理( o l t p ) 显得力不从心【2 】,于是人们开始寻找一种新的方法,数据仓库技术, 联机分析处理( o n l i n ea n a l y t i c a lp r o c e s s i n g ,o l a p ) 便在这种需求下应运而生【3 1 。 数据仓库和o l a p 技术已经成为继i n t e r n e t 之后的又一个研究热点。 经过近几年的发展,数据仓库和o l a p 技术已经取得了巨大的进展,各个厂商 都提供了自己的数据仓库解决方案以及自己的决策分析工具,如微软的a n a l y s i s m a n a g e r 和o l a ps e r v i c e s 、b o 公司的b u s i n e s so b j e c te x p l o r e r 以及国内的一些产 品等。 然而,虽然有了很多成熟的多维分析工具,但如何将多维数据展现在最终用户 的面前,成了o l a p 分析中一个很重要的问题。虽然很多现有的多维数据分析工具 都提供一个多维数据展现的工具,但这些多维数据展现工具一般都是基于c s 结构 的。而传统的c s 存在着如下缺陷: ( 1 ) 操作复杂 客户端都要使用专门的客户端软件,依据后台o l a p 多维数据库的不同以及开 发前端工具人员的不同,前端展现软件在使用上往往有很大不同,而使用o l a p 进 行多维数据分析的往往是企业的领导人员,他们一般最基本的要求就是操作简单。 随着i n t e r n e t 和i n t r a n e t 的普及,人们对浏览器的操作已经非常熟悉,如果能够建立 一套基于w e b 的,易于使用的多维数据展现工具则能大大改善o l a p 的易用性。 华北电力大学硕士学位论文 ( 2 ) 维护工作量大 由于传统的c s 模式要求在每一台客户端都要安装一套客户端软件,维护工作 量很大。 ( 3 ) 地理位置局限性大 在当前移动办公逐渐成为新的办公潮流的情况下,b s 结构比c s 结构具有更 大的优越性。 ( 4 ) 平台局限性大 由于操作系统本身的差异,在一种平台下开发的软件很难移植到另一种平台 上,而浏览器方式的客户端由于先天的优越性则恰好解决了这个问题。 因此,如何开发出一种基于w e b 的多维数据分析工具已成了摆在很多开发者前 面的道难题。 近两年,随着a j a x 技术的发展以及w e b 2 0 的兴起,已经能够在w e b 浏览器上 操纵越来越多的事情。正是基于这种环境,在本文中提出了一种建立在a n a l y s i s s e r v i c e s 多维分析模型基础上的基于w e b 的多维数据分析的方法,并设计实现了一 个基于w e b 的多维数据分析工具。 1 2 国内外研究现状 1 2 1 国外研究现状 自1 9 9 3 年关系数据库之父e f c o d d 提出o l a p 的概念至今【4 】,在过去的十几 年中,i b m 、o r a c l e 、m i c r o s o f t 等公司相继推出了自己的o l a p 解决方案。 i b m 公司提供了一套基于可视数据仓库的商业智能( b i ) 解决方案,包括:v i s u a l w a r e h o u s e ( v w ) 、e s s b a s e d b 2o l a ps e r v e r5 0 、i b md b 2u d b ,以及来自第三方 的前端数据展现工具( 如b o ) 和数据挖掘工具( 如s a s ) 。其中,v w 是一个功能 很强的集成环境,既可用于数据仓库建模和元数据管理,又可用于数据抽取、转换、 装载和调度。e s s b a s e d b 2o l a ps e r v e r 支持“维 的定义和数据装载。e s s b a s e d b 2 o l a ps e r v e r 不是r o l a p ( r e l a t i o n a lo l a p ) 服务器,而是一个( r o l a p 和m o l a p ) 混合的h o l a p 服务器,在e s s b a s e 完成数据装载后,数据存放在系统指定的d b 2 u d b 数据库中。严格说来,i b m 自己并没有提供完整的数据仓库解决方案,该公司 采取的是合作伙伴战略。例如,它的前端数据展现工具可以是b u s i n e s so b j e c t s 的 b o 、l o t u s 的a p p r o a c h 、c o g n o s 的i m p r o m p t u 或i b m 的q u e r ym a n a g e m e n tf a c i l i t y ; 多维分析工具支持a r b o rs o f t w a r e 的e s s b a s e 和i b m ( 与a r b o r 联合开发) 的d b 2 o l a p 服务器;统计分析工具采用s a s 系统。 o r a c l e 数据仓库解决方案主要包括o r a c l ee x p r e s s 和o r a c l ed i s c o v e r e r 两个部 2 华北电力大学硕士学位论文 分。o r a c l ee x p r e s s 由四个工具组成:o r a c l ee x p r e s ss e r v e r 是一个m o l a p ( 多维 o l a p ) 服务器,它利用多维模型,存储和管理多维数据库或多维高速缓存,同时 也能够访问多种关系数据库:o r a c l ee x p r e s sw e ba g e n t 通过c g i 或w e b 插件支持 基于w e b 的动态多维数据展现;o r a c l ee x p r e s so b j e c t s 前端数据分析工具( 目前仅 支持w i n d o w s 平台) 提供了图形化建模和假设分析功能,支持可视化开发和事件驱 动编程技术,提供了兼容v i s u a lb a s i c 语法的语言,支持o c x 和o l e ;o r a c l ee x p r e s s a n a l y z e r 是通用的、面向最终用户的报告和分析工具( 目前仅支持w i n d o w s 平台) 。 o r a c l ed i s c o v e r e r 即席查询工具是专门为最终用户设计的,分为最终用户版和管理 员版。在o r a c l e 数据仓库解决方案实施过程中,通常把汇总数据存储在e x p r e s s 多 维数据库中,而将详细数据存储在o r a c l e 关系数据库中,当需要详细数据时,e x p r e s s s e r v e r 通过构造s q l 语句访问关系数据库。但目前的e x p r e s s 还不够灵活,数据仓 库设计的一个变化往往导致数据库的重构。 m i c r o s o f t 将o l a p 功能集成到m i c r o s o f ts q ls e r v e r7 0 中,提供可扩充的基于 c o m 的o l a p 接口。它通过一系列服务程序支持数据仓库应用。数据传输服务d t s ( d a t at r a n s f o r m a t i o ns e r v i c e s ) 提供数据输入输出和自动调度功能,在数据传输过 程中可以完成数据的验证、清洗和转换等操作,通过与m i c r o s o f tr e p o s i t o r y 集成, 共享有关的元数据;m i c r o s o f tr e p o s i t o r y 存储包括元数据在内的所有中间数据;s q l s e r v e ro l a ps e r v i c e s 支持在线分析处理:p i v o t t a b l es e r v i c e s 提供客户端o l a p 数 据访问功能,通过这一服务,开发人员可以用v b 或其他语言开发用户前端数据展 现程序,p i v o t t a b l es e r v i c e s 还允许在本地客户机上存储数据;m m c ( m i c r o s o f t m a n a g e m e n tc o n s o l e ) 提供日程安排、存储管理、性能监测、报警和通知的核心管 理服务;m i c r o s o f to f f i c e 套件中的a c c e s s 和e x c e l 可以作为数据展现工具,另外s q l s e r v g r 还支持第三方数据展现工具。 1 2 2 国内研究现状 在国内很多公司也纷纷加入到研究开发数据仓库与o l a p 工具的行列中。很多 公司已经开发出自己的产品,像明基逐鹿公司( 中国台湾) 的a n a l y z e rb i 、上海博 科公司的“财务智能仓 、广州菲奈特软件的b i o f f i c e 和b u s i n e s sp o w e r 、北京金道 佳业公司的数据整合工具g a m u td i 、上海炎鼎软件有限公司的m a x x a n a l y s e r 报表 与多维数据分析工具等。 另外有些公司的e r p 、c r m 、s c m 等产品已经集成了多维分析的功能。比如 国外的s a p 公司,国内用友、金蝶、博科等公司的产品都集成了部分多维分析的功 能,使得e r p 系统具有较灵活的报表功能。 3 华北电力大学硕士学位论文 1 3 课题研究内容 本课题的研究目的在于理解o l a p 的背景知识和相关技术;理解掌握m i c r o s o f t a n a l y s i ss e r v i c e s 多维数据分析技术;最后结合m i c r o s o f ta n a l y s i ss e r v i c e s 和n e t 开发平台以及a j a x 技术,实现基于w e b 的多维数据分析工具,并将该工具应用到 实际的应用系统中。 课题具体的研究内容包括: ( 1 ) 理解和掌握o l a p 的背景知识和相关技术,包括o l a p 相关技术以及 o l a p 前端展现方式以及相关实现技术。 ( 2 ) 理解和掌握m i c r o s o f t a n a l y s i ss e r v i c e s 的体系结构和主要的实现技术。 ( 3 ) 研究了基于w e b 的多维数据分析工具所需要使用到的关键技术,包括 a j a x 技术,m d x 技术以及a d o m d n e t 与x m l f o ra n a l y s i s 等;实现了一个基于 w 曲的多维数据分析工具。 ( 4 ) 在实际应用中对基于w e b 的多维数据分析工具进行检验。 1 4 开发平台与开发工具介绍 基于w e b 的多维数据分析工具在n e t 平台下采用m i c r o s o f tv i s u a ls t u d i o2 0 0 5 开发工具进行开发。 n e tf r a m e w o r k 是支持生成和运行下一代应用程序和x m lw e bs e r v i c e s 的内 部w i n d o w s 组件。它具有两个主要组件:公共语言运行时( c o m m o nl a n g u a g e r u n t i m e ) 和n e tf r a m e w o r k 类库( b a s ec l a s sl i b r a r y ) 。公共语言运行时是n e t f r a m e w o r k 的基础,可以看作一个在执行时管理代码的代理,它提供内存管理、线 程管理和远程处理等核心服务,并且还强制实施严格的类型安全以及可提高安全性 和可靠性的其他形式的代码准确性。n e tf r a m e w o r k 的另一个主要组件是类库,它 是一个综合性的面向对象的可重用类型集合,可以使用它开发多种应用程序,这些 应用程序包括传统的命令行或图形用户界面( g u i ) 应用程序,也包括基于a s p n e t 所提供的最新创新的应用程序( 如w e b 窗体和x m l w e bs e r v i c e s ) 。 m i c r o s o f tv i s u a ls t u d i o2 0 0 5 是一套完整的开发工具集,用于生成a s p n e tw e b 应用程序、x m lw e bs e r v i c e s 、桌面应用程序和移动应用程序。v i s u a lb a s i c 、v i s u a l c + + 、v i s u a lc 撑和v i s u a lj 撑全都使用相同的集成开发环境( i d e ) ,利用此i d e 可 以共享工具且有助于创建混合语言解决方案。另外,这些语言利用了n e t f r a m e w o r k 的功能,通过此框架可使用简化a s pw e b 应用程序和x m lw e b s e r v i c e s 开发的关键技术。 4 华北电力大学硕士学位论文 2 1 多维数据分析技术 2 1 1o l a p 概述 第二章课题相关技术研究 19 9 3 年,e f c o d d 在“p r o v i d i n go l a pt ou s e r - a n a l y s i s ,1 4 】中首次提出了联机 分析处理( o n l i n ea n a l y t i c a lp r o c e s s i n g ,o l a p ) 的概念,他认为o l t p 已不能满足 终端用户对数据库查询分析的需求,s o l 对大型数据库进行的简单查询也不能满足 终端用户决策分析的要求。因此,e e c o d d 提出了多维数据库和多维分析的概念, 即o l a p 。此外o l a p 委员会也对o l a p 给出了如下定义:联机分析处理( o l a p ) 是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、 能够真正为用户所理解的、并真实反映企业情况的信息进行快速、一致、交互式访 问,从而获得对数据的更深入了解的一类软件技术【5 】。 从这些定义来看,o l a p 技术具有以下特点: ( 1 ) 快速性 用户对o l a p 的快速反应能力有很高的要求。要求系统能在5 秒钟内对用户的 多数分析要求做出反应。据调查,如果终端用户在3 0 秒内没有得到系统响应就会 变得不耐烦,因此可能失去分析主线索,影响分析质量。 ( 2 ) 可分析性 o l a p 系统应能处理与应用有关的任何逻辑分析和统计分析。o l a p 系统可以 提供给用户强大的统计、分析、报表处理等功能。此外,o l a p 系统还具有回答“假 设一分析( w h a t i f ) 问题的功能及进行趋势预测的能力。用户既可以在o l a p 平台 上进行数据分析,也可以连接到其他外部分析工具上,如数据挖掘工具等【6 1 。 ( 3 ) 多维性 维是人们观察数据的特定角度,多维性是o l a p 的关键属性。系统能够提供对 数据分析的多维视图和分析,包括对层次维和多重层次维的支持。事实上,多维分 析是分析企业数据最有效的方法,是o l a p 的灵魂。 ( 4 ) 信息性 不论数据量有多大,也不管数据存储在何处,o l a p 系统应能及时获得信息, 并且管理大容量信息。 ( 5 ) 共享性 这意味着系统要能够符合数据保密的安全要求,即使多个用户同时使用,也能 5 华北电力大学硕士学位论文 根据用户所属的安全级别,让他们只看到他们应该看到的信息。 2 1 2o l a p 的体系结构 o l a p 是一种多用户的客户n 务器结构,主要由数据源( 数据仓库或o l t p 数 据库) 、o l a p 服务器、o l a p 客户机及客户端构成,具体体系结构如图2 1 所示。 源数据分析w e b 服务器 客户端 图2 1o l a p 体系结构图 第一层由客户机及客户端应用软件组成,实现最终用户功能。o l a p 客户端应 用软件是指用户所使用的各种应用软件,这些软件可以从o l a p 服务器得到所需的 数据切片并提供二维或多维的显示。用户可利用这些软件对数据进行更改、选择、 进行复杂的计算等操作。 第二层为o l a p 分析服务器( o a l p 引擎) ,其功能为形成多维分析模型,并对 多维数据进行组织、计算和存储。o l a p 服务器是专门为支持和操作多维数据结构 而设计的高性能、多用户数据处理引擎,它可以迅速地响应用户的各种分析要求, 并能根据数据之间公式化的关系对数据进行快速、灵活的计算和转换。 第三层为原始数据服务器,用来存储经预处理过的来自基层数据库的数据。 o l a p 是以数据仓库或数据库为基础的,其数据源是底层的o l t p 数据库系统或数 据仓库。底层o l t p 数据库在需要时( 如企业数据仓库还未建立好时) 也可为o l a p 的分析操作提供数据。 2 。1 3o l a p 基本操作 o l a p 分析主要通过对多维组织后的数据进行切片、切块、上卷、下钻、旋转 等分析动作,以求剖析数据,使用户能够从多种角度、多个侧面、多种数据综合度 查看数据,从而了解数据背后的规律。 ( 1 ) 切片( s l i c e ) 与切块( d i c e ) 6 华北电力大学硕士学位论文 切片是指在多维数组的某一维上选定一维成员的动作,切块是指在多维数组的 某维上选定某一区间的维成员的动作,即限制多维数组的某一维的取值区间。显 然,当这一区间只取一个维成员时,即得到一个切片。 ( 2 ) 旋转 数据旋转是改变维度的位置关系,使最终用户可以从其它视角来观察多维数 据。旋转即是改变一个报告或页面显示的维方向。例如,旋转可能包含了交换行和 列;或者是把某一行维移到列维中去,或是把页面显示中的一个维和页面外的维进 行交换。 ( 3 ) 上卷( r o l lu p ) 与下钻( d r i l ld o w n ) 数据是具有层次性的,维度的层次实际上反应了数据的综合程度。维度层次越 高,代表的数据综合程度就越高,细节就越少,数据量也越少;维度层次越低,则 代表的数据综合度越低,细节越充分,数据量越大。上卷与下钻就是改变维的层次, 变换分析的粒度。上卷是在某一维上将低层次的细节数据概括到高层次的汇总数 据,或者减少维数;而下钻则相反,它从汇总数据深入到细节数据进行观察或增加 新维。 2 1 4o l a p 的分类 根据o l a p 不同的数据组织方法将o l a p 分成多维型o l a p ( m u l t i d i m e n s i o n a l o l a p ,简称m o l a p ) 、关系型o l a p ( r e l a t i o n a lo l a p ,简称r o l a p ) 、混合型 o l a p ( h y b r i do l a p ,简称h o l a p ) 。 ( 1 ) m o l a p m o l a p 利用一个专有的多维数据库来存储o l a p 分析所需的数据,数据以多 维方式存储,并以多维视图方式显示【_ 7 1 。 在m o l a p 的结构中,分散在公司内部各o l t p 数据库中的数据经过提取、净 化和转换( e t l ) 等步骤后提交给多维数据库。这些数据在被存入多维数据库时, 将根据它们所属的维进行一系列的预处理操作( 计算和合并) ,并把结果按一定的 层次结构存入多维数据库中。用户通过客户端的应用软件的界面递交分析需求给 o l a p 服务器,再由o l a p 服务器检索多维数据库以得到结果并返回给用户。 m o l a p 结构的主要优点是能迅速地响应决策分析人员的分析请求并快速地将 分析结果返回给用户,这得益于它独特的多维数据库结构以及存储在其中的预处理 程度很高的数据( 一般预处理度在8 5 以上) 。但是在m o l a p 结构中,o l a p 服务 器主要是通过读预处理过的数据来完成分析操作,而这些预处理操作是预先定义 的,这就限制了m o l a p 结构的灵活性。 ( 2 ) r o l a p 7 华北电力大学硕士学位论文 r o l a p 在功能上类似于m o l a p ,但其底层数据库是关系型数据库,而不是多 维数据库【8 1 。用户通过客户端工具提交多维分析请求给o l a p 服务器,后者将这些 请求动态地转换成s q l 语句执行,分析的结果经多维处理转化为多维视图返回给用 户。 在r o l a p 结构中,数据的预处理程度一般较低( 如果预处理程度太高,数据 冗余量大,将使管理和维护更加复杂) 。r o l a p 的主要特点是灵活性强,用户可以 动态定义统计或计算方式;缺点是它对用户的分析请求处理时间要比m o l a p 长。 ( 3 ) h o l a p 由于m o l a p 和r o l a p 有着各自的优缺点,所以提出一个新的o l a p 结构一 混合型o l a p ( h o l a p ) p j 。它将r o l a p 和m o l a p 体系结构结合在一起,形成 了一个同时具有高性能和广泛可伸缩性这两个优点的解决方案。一种采用h o l a p 的方法是:在一个单独的m o l a p 仓库中保持总和的同时,在关系型数据库中保持 细节记录。 2 1 5o l a p 前端展现形式 o l a p 前端展现一般分为以表格形式展现和以图形形式展现两种【l 0 1 。 以表格形式来展现多维数据符合绝大多数人的观点,数据能够以二维表的形式 进行显示,并能够在表格上进行上探、下钻等各种操作。 以图形形式来展现多维数据主要方便用户能够直观的对数据进行分析。例如传 统的柱状图、盐线图、饼图,通过对这些图形进行观察,用户便能一目了然的知道 数据所反映的情况。与传统图形相对应的是,仪表盘、雷达图、面积图、鸟瞰图等 各种各样的图形被应用到o l a p 分析中,以方便用户能够更加方便直观的查看数据 的情况。 2 2m sa n a l y s i ss e r v i c e s 多维数据分析技术 2 2 1m s a n a l y s i ss e r v i c e s 概述 m i c r o s o f ts q ls e r v e r2 0 0 5a n a l y s i ss e r v i c e s( s s a s )为商业智能应用程序提 供联机分析处理( o l a p ) 和数据挖掘功能。a n a l y s i ss e r v i c e s 允许用户设计、创 建和管理包含从其他数据源( 如关系数据库) 聚合的数据的多维结构,以实现对 o l a p 的支持。对于数据挖掘应用程序,a n a l y s i ss e r v i c e s 允许替换设计、创建和 可视化处理那些通过使用各种行业标准数据挖掘算法,并根据其他数据源构造出来 的数据挖掘模型【】。 m i c r o s o f ts q ls e “e r2 0 0 5a n a l y s i ss e r v i c e s 通过允许开发人员在一个或多个 8 华北电力大学硕士学位论文 物理数据源中定义一个称为统一维度模型( u d m ) 的数据模型,从而很好的组合 了传统的基于o l a p 分析和基于关系报表的各个最佳方面【抡】。基于o l a p 、报表 以及自定义b i 应用程序的所有最终用户查询都将通过u d m ( 可提供一个此关系 数据的业务视图) 访问基础数据源中的数据。 通过结合传统o l a p 分析和关系型报表的最优内容,a n a l y s i ss e r v i c e s 提供了 一个元数据模型用于满足两套模型的不同需求。a n a l y s i ss e r v i c e s 中定义的一套多 维数据集和维度被称为统一的维度模型( u d m ) 。u d m 是一个中心元数据存储库, 它定义了业务实体、业务逻辑、计算和规格,可作为所有报表、电子表格、o l a p 浏 览器、k p i 和分析应用程序的源来使用。 m i c r o s o f ts q ls e r v e r2 0 0 5a n a l y s i ss e r v i c e s ( s s a s ) 中o l a p 包含以下对象【l 习: ( 1 ) 数据源 在m i c r o s o f ts q ls e r v e r2 0 0 5a n a l y s i ss e r v i c e s ( s s a s ) 中,数据源表示到 数据源的连接,并包含定义a n a l y s i ss e r v i c e s 如何使用托管m i c r o s o f t n e t f r a m e w o r k 或本机o l ed b 访问接口连接到物理数据存储区的连接字符串。连接 字符串包含服务器名称、数据库、安全性、超时值以及其他与连接相关的信息。 a n a l y s i ss e r v i c e s 直接支持多种数据源。支持的数据源包括m i c r o s o f ts q ls e r r e r 数据库以及通过其他产品( 包括o r a c l e 、d b 2 等) 创建的数据库。既可以定义新的 数据源,又可以根据以前定义的数据源来定义数据源。 ( 2 ) 数据源视图 数据源视图包含a n a l y s i ss e r v i c e s 数据库对象( 即多维数据集、维度和挖掘结 构) 使用的架构的逻辑模型。数据源视图是统一维度模型( u d m ) 和挖掘结构所 使用的那些架构元素的元数据定义,以x m l 格式进行存储。数据源视图: 1 ) 包含表示一个或多个基础数据源中选定对象的元数据,或将用于生成基础 关系数据存储区的元数据。 2 ) 可以通过一个或多个数据源生成,从而允许替换定义将来自多个数据源的 数据集成起来的o l a p 和数据挖掘对象。 3 ) 可以包含不在基础数据源中以及独立于基础数据源而存在的关系、主键、 对象名、计算列和查询。 4 ) 对于客户端应用程序不可见,也无法由客户端应用程序进行查询。 ( 3 ) 多维数据集 多维数据集是指一组用于分析数据的相关度量值和维度。度量值是事实数据, 它是用户可能要聚合的事务性值或度量。度量值源自一个或多个源表中的列,并且 分组到度量值组。 维度是一组属性,表示与多维数据集中度量值相关的领域,并且用于分析多维 数据集中的度量值。例如,“客户维度可能包括“客户名称 、“客户性别以及 9 华北电力大学硕士学位论文 “客户所在市县等属性,用户可以按这些属性对多维数据集中的度量值进行分析。 属性源自一个或多个源表中的列。可以将每个维度中的属性组织到层次结构中,以 便提供分析路径。 ( 4 ) 维度 m i c r o s o f ts q ls e r v e r2 0 0 5a n a l y s i ss e r v i c e s 维度都是基于数据源视图中的表 列或视图列的属性组。独立于多维数据集存在的维度既可以在多个多维数据集中使 用,也可以在一个多维数据集中多次使用。 2 2 2m sa n a l y s i ss e r v i c e s 客户端体系结构 m i c r o s o f ts q ls e r v e r2 0 0 5a n a l y s i ss e r v i c e s ( s s a s ) 支持瘦客户端体系结构。 a n a l y s i ss e r v i c e s 计算引擎完全基于服务器,因此,所有查询都在服务器上进行解 析。因此,每个查询只需在客户端和服务器之间进行一次来回行程,从而使得性能 可以随着查询复杂性的增加而伸缩【l 引。 a n a l y s i ss e r v i c e s 的本机协议为x m lf o ra n a l y s i s ( x m l a ) 1 1 5 】。a n a l y s i s s e r v i c e s 为客户端应用程序提供了数个数据访问接口,但是所有这些组件都使用 x m lf o ra n a l y s i s 与a n a l y s i ss e r v i c e s 实例进行通信。 a n a l y s i ss e r v i c e s 提供了数个不同的访问接口,以支持不同的编程语言。访问 接口借助i n t e r a c t 信息服务( i i s ) ,并通过t c p i p 或h t t p 发送和接收s o a p 数据包中的x m lf o ra n a l y s i s 来与a n a l y s i ss e r v i c e s 服务器进行通信。m i c r o s o f t s q ls e r v e r2 0 0 5a n a l y s i ss e r v i c e s 客户端体系结构如图2 2 所示。 图2 - 2m i c r o s o f ts q ls e r v e r2 0 0 5a n a l y s i ss e r v i c e s 客户端体系结构 1 0 华北电力大学硕士学位论文 2 3a j a x 技术 2 3 1a j a x 技术简介 a j a x 是一种应用技术的缩写,全称为a s y n c h r o n o u sj a v a s c r i p ta n dx m l ( 异步 j a v a s c r i p t 和x m l 技术) ,也有人翻译为a d v a n c e dj a v a s c r i p ta n dx m l ( 高级 j a v a s c r i p t 和x m l 技术) 。发明这种技术的入可谓众说纷纭,最早应用这种技术的 网站也无从考察,但最早提出这个概念的是g a r r e t t 。在他的文章a j a x :an e w a p p r o c ht ow e ba p p l i c a

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论