(计算机软件与理论专业论文)olap技术研究及其在移动通信中的应用.pdf_第1页
(计算机软件与理论专业论文)olap技术研究及其在移动通信中的应用.pdf_第2页
(计算机软件与理论专业论文)olap技术研究及其在移动通信中的应用.pdf_第3页
(计算机软件与理论专业论文)olap技术研究及其在移动通信中的应用.pdf_第4页
(计算机软件与理论专业论文)olap技术研究及其在移动通信中的应用.pdf_第5页
已阅读5页,还剩52页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于c o r b a 的软交换管理系统的研究与实现 o l a p 技术研究及其在移动通信中的应用 摘要 论文以数据仓库在移动通信中的应用为主题。首先说明了通信行 业的背景以及移动面临的问题,提出了建立基于数据仓库的移动决策 支持系统的必要性,接着介绍了数据仓库技术与理论,给出了n c r 公司数据仓库项目实施方法,并阐述了我国在数据仓库项目建设中存 在有哪些问题。 构建数据仓库之上的o l a p 应用是数据仓库项目开发的重要内 容,论文第三章主要分析了联机分析处理( o l a p o n - l i n ea n a l y t i c a l p r o c e s s i n g ) 的关键技术点。 基于上述理论的基础上,论文主要的工作在于构建移动的数据仓 库项目,给出了移动经营分析系统的整体架构,并重点论述了移动数 据仓库项目应用端o l a p 开发技术细节,为今后更好地搭建通信行业 以及其它行业的数据仓库应用提供技术参考。 【关键词】联机分析处理数据仓库 星型结构立方体 一茎主! 塑垒塑整銮垫篁兰墨堑竺婴塞皇壅里 t h e s u t d y & i m p l e m e n b 姐、i o n i nm o b i l ei n d u s t r yo f o n l i n e a n a iy t i c a lp r o c e s s i n g a b s t r a c t t h ea r t i c l e m a j o r s i n a p p l i c a t i o n s o ft h ed a t aw a r e h o u s ei nm o b i l e c o r a m u n i c a t i o n sw e f i r s t l yd e s c r i b et h eb a c k g r o u n do ft h ec o m m u n i c a t i o n sa n dt h e c h a l l e n g et o m o b i l ei n d u s t r ya n di n d i c a t em en e c e s s a r yo fb u i l d i n gt h ed e c i s i o n s u p p o r ts y s t e mf o rm o b i l ei n d u s t r yb a s e do nt h ed a t aw a r e h o u s e a n dt h e nw e d e s c r i b et h et h e o r yo ft h ed a t aw a r e h o u s ea n df u n d a m e n t a lt e c h n o l o g i e s ,r e c o m m e n d t h e p r a c t i c em e t h o do fd a t aw a r e h o u s ep r o j e c t o fn c r , a n dg i v ep r o b l e m sw i t h b u i l d i n gd a t aw a r e h o u s ep r o j e c ti no u rc o u n t r y i nt h ep a p e r , c o n s l r u c t i n go l a p a p p l i c a t i o n si s t h ee m p h a s i so fb u i l d i n gd a t aw a r e h o u s e p r o j e c ti nc h a p t e r3 ,k e yt e c h n o l o g ya b o u t o l a p o n - l i n e a n a l y t i c a lp r o c e s s i n gi sa n a l y z e d b u i l d i n gd a t aw a r e h o u s ep r o j e c ti s 蛔0 r t a s k so ft h ea r h c l ef o rc o n t e n t sw es p e c i f ya b o v e w e p r e s e n tt h ei n t e g e ra r c h i t e c t u r e o fd a t aw a r e h o u s ep r o j e c ti nt h em o b i l ei n d u s t r y , f o c u so n d i s c u s s i n gd e t a i lt e e h n o l o g i e so fd e v e l o p i n go l a pa p p l i c a t i o ni nd a t aw a r o h o u s sp r o j e c t ,w ea l s o p r m ,i d et e c h n o l o g yp r e f e r e n c e f o r c o n s t i t u t i n g t h e a p p l i c a t i o n o fd a t aw a r e h o u s eo f c o m m u n i c a t i o na n do t h e ri n d u s t r yb e t t e r 【k e y w o r d s o l a p d a t aw a r e h o u s es t a rs c h e m a c u b e 3 竺生竺堇查竺窒墨基垄鳌垫望笪生塑窒旦: 第一章绪论 1 1 为什么是数据仓库而非数据库 随着计算机技术的飞速发展和企业界不断地提出新的需求,数据仓库技术应运而 生。传统的数据库技术是以单一的数据资源,即数据库为中心,进行从事事务处理、批 处理到决策分析等各种类型的数据处理工作。 近年来,随着计算机的应用,网络计算开始向两个不同的方向拓展,一是广度计算, 一是深度计算。广度计算的含义是把计算机的应用范围尽量扩大,同时实现广泛的数据 交流,互联网就是广度计算的特征。另一方面就是人们对以往计算机的简单数据操作, 提出了更高的要求,希望计算机能够更多的参与数据分析与决策的制定等领域。特别是 数据库处理可以大致地划分为两大类:操作型处理和分析型处理( 或信息型处理) 。这 种分离,划清了数据处理的分析型环境与操作型环境之间的界限,从而由原来的以单一 数据库为中心的数据环境发展为一种新环境:体系化环境。 数据库系统作为数据管理手段,从它的诞生开始,就主要用于事务处理。经过数十 年的发展,在这些数据库中己经保存了大量的日常业务数据。传统的业务系统一般是直 接建立在这种事务处理环境上的。随着技术的进步,人们试图让计算机担任更多的工作, 而数据库技术也一直力图使自己能胜任从事务处理、批处理到分析处理的各种类型的信 息处理任务。后来人们逐渐认识到,在目前的计算机处理能力上,根本无法实现这种功 能。而且,另一方面,事物处理和分析处理具有极不相同的性质,直接使用事务处理环 境来支持决策是行不通的。 事务处理环境不适宜d s s 应用的原因主要有以下五条: ( 1 ) 事务处理和分析处理的性能特性不同。 在事务处理环境中,用户的行为特点是数据的存取操作频率高而每次操作处理的时 间短:在分析处理环境中,用户的行为模式与此完全不同,某个d s s 应用程序可能需要 连续几个小时,从而消耗大量的系统资源。将具有如此不同处理性能的两种应用放在同 一个环境中运行显然是不适当的。 ( 2 ) 数据集成问题。 d s s 需要集成的数据。全面而正确的数据是有效的分析和决策的首要前提,相关数 据收集得越完整,得到的结果就越可靠。当前绝大多数企业内数据的真正状况是分散而 非集成的。造成这种分散的原因有多种,主要有事务处理应用分散、“蜘蛛网”问题、 数据不一致问题、外部数据和非结构化数据。 ( 3 ) 数据动态集成问题。 静态集成的最大缺点在于,如果在数据集成后数据源中数据发生的变化将不能反映 给决策者,导致决策者使用的是过时的数据。集成数据必须以一定的周期( 例如2 4 小 毕业设计( 论文) :o l a p 技术研究及其在移动通信中的应用第5 页共5 8 页 一一一一_ _ _ - _ _ - 一 时) 进行刷新,我们称其为动态集成。显然,事务处理系统不具备动态集成的能力。 ( 4 ) 历史数据问题。 事务处理一般只需要当前数据,在数据库中一般也是存储短期数据,且不同数据的 保存期限也不一样,即使有一些历史数据保存下来了,也被束之高阁,未得到充分利用。 但对于决策分析而言,历史数据是相当重要的,许多分析方法必须以大量的历史数据为 依托。没有历史数据的详细分析,是难以把握企业的发展趋势的。d s 8 对数据在空间和 时间的广度上都有了更高的要求,而事务处理环境难以满足这些要求。 ( 5 ) 数据的综合问题。 在事务处理系统中积累了大量的细节数据,一般而言,d s s 并不对这些细节数据进 行分析。在分析前,往往需要对细节数据进行不同程度的综合。要提高分析和决策的效 率和有效性,分析型处理及其数据必须与操作型处理及其数据相分离。必须把分析型数 据从事务处理环境中提取出来,按照d s s 处理的需要进行重新组织,建立单独的分析处 理环境,数据仓库正是为了构建这种新的分析处理环境而出现的一种数据存储和组织技 术。 1 2 通信行业背景 随着国内移动电话市场逐渐从垄断走向竞争,以及中国加入世贸后市场化的步伐加 快,如何在今天的优势基础上,更上一层楼是摆在中国移动决策者面前的重大课题。在 国内移动领域处于绝对优势的中国移动的创新意识和忧患意识是有目共睹的。 移动市场的竞争将越来越激烈,美国一些重要的移动业务运营商已经发现,发展一 个新客户的成本是6 0 0 美元,而留住一个老客户,可能仅仅是打几个电话而已。如何巩 固原有客户和发展新的客户,将是摆在中国移动和其他运营商面前的一项长期任务。借 助于先进的信息技术和决策分析工具是在未来激烈的竞争中处于相对优势地位的前提。 对市场的及时反馈和响应,对客户动向的及时跟踪和对服务质量的及时检测,对市场发 展趋势和前景的预测都必须建立在良好的信息系统基础之上。 中国电信市场发展迅速,截止2 0 0 2 年4 月底,国内电话用户总数已达3 5 亿户,其 中固定电话用户总数达到了l - 8 8 亿。随着市场不断扩大,电信行业中的欺诈现象与日 俱增,如盗打电话、拖欠拒交话费、伪造身份注册及网上商业诈骗等行为层出不穷,造 成电信运营商巨额的损失。据粗略统计,1 9 9 8 年欧洲由于移动通信中的欺诈带来的损失 大约有l o 亿美元,美国的损失则在7 0 亿美元以上。迄今为止,中国电信年度欺诈损失 未见公开报道,据说问题也很严重。这样,寻求有效的移动通讯反欺诈策略就日益引起 人们的重视。 当然,移动通信中的欺诈问题是很复杂的,这里既有技术因素,又有社会因素。因 此,反欺诈的过程也不是简单的一个模型就能解决的。但是,从分析用户数据入手的思 路无疑是正确的。同时,根据用户行为的历史数据的分析和深层次的挖掘,可以对将来 资费政策的调整和其他相关服务的推出提供可以借鉴的有用数据。 兰些望堕! 堡壅! ! 旦坠! 垫查堑壅墨茎垄堑垫望笪主塑窒里塑! 戛茎! ! 夏 其次,通过对用户通话信息和其他行为的分析可以在现代移动通信网络管理中,起 到一定的性能管理和故障管理作用。其中对网络单元的性能监视是故障管理的基础,而 有效的故障管理又是获得较高网络性能的保证。 最后,随着中国加入世界贸易组织,市场竞争的更加激烈,中国移动将不得不面对 这样的问题:客户流失现象逐渐开始严重。而且随着国内移动运营牌照的逐步开发和国 外电信巨头的进入,未来的竞争将更加激烈。根据2 0 0 0 年财富周刊的统计数字,中国 移动的利润率高达3 5 ,仅次于微软的4 1 ,居世界第二位。其实,国外移动运营行业 随着市场杠杆的调节作用,已经降到远远低于这个利润的水平。所以,随着国内移动运 营市场的放开,随着竞争的加剧,行业利润率必然会下降。利润是企业生存之道。作为 中国移动行业的龙头企业,中国移动必然应该有未雨绸缪的思想,积极面对来自当前和 未来的挑战。 那么,中国的电信运营商如何在竞争中立于不败之地? 如何能发挥自己的竞争优势 留住老客户,开发新客户? 如何提高决策质量和效率? 数据仓库技术无疑是解决上述问 题的关键所在,因为只有通过数据仓库,才可能全面了解和掌握客户的信息,并快速做 出相应的决策。 1 3 建立基于数据仓库的移动决策支持系统 长期以来,各移动公司凭借其行业优势,在使用计算机处理其业务的情况下,信息 化程度已达到相当的水平,其中包括设备维护( 网管系统) 、业务管理( 计费系统、营 帐系统) 以及财务管理等,有着丰富的历史数据,这是重要的信息资源,如何有效利用 好这些资源,是能否在竞争中占据主动的重要方面。数据仓库恰恰可以用于信息处理的 特点,在移动领域面i 晦竞争时有着广阔的应用前景。 数据仓库建立在传统事务型数据库的基础之上,为企业d s s ( d e c i s i o ns u p p o r t s y s t e m ,决策支持系统) 及数据挖掘系统提供数据源。全球的电信巨头们很早就已经引 入了数据仓库技术,利用数据仓库来指导和作出市场决策,赢得了市场先机。 1 4 论文所完成的工作与研究任务 n c r 数据仓库项目的实施主要由两组工作人员共同合作完成:e t l 组和a p 组。 e t l 组负责源数据的抽取、转换和加载,完成数据仓库的搭建和维护工作;a p 组即 a p p l i c a t i o n 应用组,负责所有的应用开发工作。 在河北移动经营分析项目的开发工作中,我是属于a p 组的,负责应用部分的设 计与开发工作,主要负责九大主题中的市场竞争主题、集团客户主题和营销管理主 题,还有数据业务主题的部分工作,以及前端p o r t a l 系统的设计与开发工作。 生些堡生! 堡苎! ! 旦! 垒! 堇查堑塞墨基在移动通信中的应用第7 页共5 8 页 1 5 全文的组织结构 文章首先在介绍数据仓库技术的基础上,着重论述了o l a p 技术,包括o l a p 维的 介绍、存储结构的选取等。接着给出了河北移动经营分析系统的框架结构,阐述了n c r 数据仓库项目的建设方法,并概要介绍了数据仓库项目中的e t l 实现,给出了前端展现 模块的设计。最后重点分析了o l a p 应用设计。 第二章数据仓库技术 2 1 什么是数据仓库 目前,数据仓库词尚没有一个统一的定义,著名的数据仓库专家w h i r l n l o r l 在其 著作( ( b u i l d i n g t h ed a t aw a r e h o u s e ) ) 一书中给予如下描述:数据仓库( d a t aw a r e h o u s e ) 是一个面向主题的( s u b j e c to r i e n t e d ) 、集成的( i n t e g r a t e ) 、相对稳定的( n o n v 0 1 a t i l e ) 、 反映历史变化( t i m ev a r i a n t ) 的数据集合,用于支持管理决策。对于数据仓库的概念可 以从两个层次予以理解,首先,数据仓库用于支持决策,面向分析型数据处理,它不同 于企业现有的操作型数据库;其次,数据仓库是对多个异构的数据源有效集成,集成后 按照主题进行了重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改。 根据数据仓库概念的含义,数据仓库拥有以下四个特点: 1 ) 面向主题。操作型数据库的数据组织面向事务处理任务,各个业务系统之间各自 分离,而数据仓库中的数据是按照一定的主题域进行组织。主题是一个抽象的概念,是 指用户使用数据仓库进行决策时所关心的重点方面,一个主题通常与多个操作型信息系 统相关。 2 ) 集成的。面向事务处理的操作型数据库通常与某些特定的应用相关,数据库之间 相互独立,并且往往是异构的。而数据仓库中的数据是在对原有分散的数据库数据抽取、 清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保 证数据仓库内的信息是关于整个企业的一致的全局信息。 3 ) 相对稳定的。操作型数据库中的数据通常实时更新,数据根据需要及时发生变化。 数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一旦某 个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的 查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。 4 ) 反映历史变化。操作型数据库主要关心当前某一个时间段内的数据,而数据仓库 中的数据通常包含历史信息,系统记录了企业从过去某一时点( 如开始应用数据仓库的 时点) 到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做 出定量分析和预测。 垒竖堑上二堡苎业坠! 垫查堕壅墨基垄整塾望堡主塑皇旦 兰! 耍茎! ! 里 2 2 数据仓库的体系结构 企业数据仓库的建设,是以现有企业业务系统和大量业务数据的积累为基础。数据 仓库不是静态的概念,只有把信息及时交给需要这些信息的使用者,供他们做出改善其 业务经营的决策,信息才能发挥作用,信息才有意义。而把信息加以整理归纳和重组, 并及时提供给相应的管理决策人员,是数据仓库的根本任务。因此,从产业界的角度看, 数据仓库建设是一个工程,是一个过程。 整个数据仓库系统是一个包含四个层次的体系结构,具体由下图2 - 1 表示。 e 3 曰 酋 目 蒜嚣箨 翔靴 留勰 推毫工其 必臻 壁l 嘲, a m y a 暑2 l 图2 - 1 数据仓库系统体系结构 数据源:是数据仓库系统的基础,是整个系统的数据源泉。通常包括企业内部信息 和外部信息。内部信息包括存放于r d b m s 中的各种业务处理数据和各类文档数据。 外部信息包括各类法律法规、市场信息和竞争对手的信息等等; 数据的存储与管理:是整个数据仓库系统的核心。数据仓库的真正关键是数据的存 储和管理。数据仓库的组织管理方式决定了它有别于传统数据库,同时也决定了其 对外部数据的表现形式。要决定采用什么产品和技术来建立数据仓库的核心,则需 要从数据仓库的技术特点着手分析。针对现有各业务系统的数据,进行抽取、清理, 并有效集成,按照主题进行组织。数据仓库按照数据的覆盖范围可以分为企业级数 据仓库和部门级数据仓库( 通常称为数据集市) 。 o l a p 服务器:对分析需要的数据进行有效集成,按多维模型予以组织,以便进行 多角度、多层次的分析,并发现趋势。其具体实现可以分为:r o l a p 、m o l a p 和 h o l a p 。r o l a p 基本数据和聚合数据均存放在r d b m s 之中;m o l a p 基本数据 和聚合数据均存放于多维数据库中;h o l a p 基本数据存放于r d b m s 之中,聚合 数据存放于多维数据库中。 前端工具:主要包括各种报表工具、查询工具、数据分析工具、数据挖掘工具以及 各种基于数据仓库或数据集市的应用开发工具。其中数据分析工具主要针对o l a p 服务器,报表工具、数据挖掘工具主要针对数据仓库。 毕业设计( 论文) :o l a p 技术研究及其在移动通信中的应用第9 页共5 8 页 2 3 n c r 可扩展数据仓库解决方案 n c r 数据仓库项目实施方法论 图2 - 2数据仓犀买施万法论 在长期的数据仓库项目实施中,n c r 形成了一套独特的数据仓库方法论和实施框架。 为了突出其特点,称之为可扩展数据仓库解决方案( s c a l a b l ed a t a w a r e h o u s e ) ,简称为 s d w 。 n c r 认为,数据仓库项目的实施是一个循环的过程,如图中返回箭头所示。实施过 程主要分为三个阶段:规划、设计与实现、支持与增强。 n c r 数据仓库项目实施步骤 垫塑盟! 堡茎! i 旦! 垒! 垫垄堡壅墨基壅堑垫望堕主塑窒旦 笙! ! 夏茎! ! 戛 图2 - 3 项目具体实施步骤 项目的实施具体分为如下十二个步骤: 0 1 项目前期准备 0 2 业务探索( b u s i n e s sd i s c o v e r y ) 0 3 信息探索( i n f o r m a t i o nd i s c o v e r y ) 0 4 逻辑数据模型设计 0 5 系统体系结构设计 0 6 物理数据库设计 0 7 数据转换加载e t l 0 8 前端应用开发 0 9 数据挖掘服务 1 0 元数据管理 1 1 数据仓库管理( 处理流程与操作) 1 2 解决方案集成( 测试验收与试运行) 2 4 我国数据仓库系统建设存在的问题 数据仓库技术之所以没有在中国很好的发展起来,主要原因如下: 1 ) 中国的信息化基础设备相对不太完善。 2 ) 企业的竞争意识和服务意识还不够强。 3 ) 数据仓库的价格居高不下。 4 ) 管理机制的缺乏。 数据仓库是一个数据共享的系统,不同层面的人从中得到的信息会是不一样的。 但目前中国企业没有建立起一个管理机制来推动数据的共享,不论是对人的能力、 企业的组织制度还是数据质量都没有一个连续的管理机制,要在这样的基础之上建 立好用的数据分析是非常困难的。 5 ) 技术人才缺乏。 数据仓库的应用是一个建立的过程。在建立的过程当中,需要大量的技术支持 人员。从国内情况来看,真正能够完整实施数据仓库方案的人才还很缺乏,因而制 约了国内数据仓库市场的发展。 6 ) 数据挖掘工具本身不成熟。 除了o l a p 以外,更高层次的数据仓库是数据挖掘。然而,目前这一领域的技 术还没有大的突破,市场上的数据挖掘技术还难以令人满意。 7 ) 数据积累不充分。 实现在线分析处理的前提是要有大量的历史数据。但除了电信、证券、银行等 少数行业以外,数据积累都不够充分。 望些堡生! 堕塞! ! q 生些垫查堕窒墨墨垄堡垫望堕主盟查旦 茎! ! 夏茎! ! 里 第三章o l a p 技术研究 3 1 0 l a p 与数据仓库关系 按o l a p 委员会给出的定义“o l a p 是使分析人员、管理人员或者执行人员能够从 多角度对原始数据中转化出来的,能够真正为用户所了解的并真实反映企业维特征的信 息进行快速、一致、交互地存取,从而获得对数据更深入的了解的一类软件技术”,因 此,o l a p 也可以说是多维分析工具的集合。 数据仓库侧重于存储和管理面向主题的经过提炼、加工后的数据集合,而o l a p 是 基于数据仓库的数据分析处理过程,是数据仓库的用户接口部分。因而可以说o l a p 是 数据仓库的自然扩展,也是数据仓库中大容量数据得以有效利用的重要保证,两者形成 相互结合、相互补充的关系。o l a p 中的多维数据视图概念和多维数据库的实现使数据 结构和分析方法相分离,促进了分析工具的研制和产品化。 数据库用于o l a p 分析时存在如下问题: 1 ) 对分析者来说,对于复杂的数据结构没有相应的专业知识。 2 ) 分析统计大量数据会影响到系统对联机事务的响应,特别是当响应一个复杂查询 时,系统性能可能会很慢,而使结果不可预测。 3 ) 数据库服务器对数据分析处理支持存在许多不足。 4 ) o l t p 频繁改变数据,将影响分析数据的一致性。 5 ) 当联机分析处理和联机事务处理结合在一起时,安全性问题变得更为复杂。 基于数据仓库的o l a p 解决了这些问题,因为: 1 ) o l a p 能够将不同的数据源合并到个易于分析查询的结构中。 2 ) 数据仓库包含了数据转换服务( d t s ) 。 3 ) 数据的更新是定期的,面不是像事务处理那样频繁改变数据, 4 ) 简化了安全要求。 3 2 0 l a p 的主要功能 o l a p 主要功能包括: 1 ) 提供数据的多维逻辑视图,并提供视图独立于数据存储的具体形式 o l a p 提供了一种多维表现和组织方式,使最终用户能多角度、多侧面、多层次 地考察数据库中的数据,用户可以运用切片( s l i c e ) 、切块( d i c e ) 、下钻 ( d r i l l d o w n ) 、上翻( r o l l - u p ) 和旋转( r o t a t e ) 等操作,方便地对数据进行查 询和分析,并以多维表格、图形和图表的形式显示。 2 ) 能快速响应用户交互式查询和复杂的分析查询 垫坐兰塑! 笙苎! :竺! 生生垫查笪壅墨茎垄堑塾望焦生塑些旦 笙! ! 蔓苎! ! 至 o l a p 多维数据模型和数据聚合技术可以组织并汇总大量的数据,对频繁查询的 数据预先进行计算,以便非常迅速地响应复杂的分析查询。 3 ) 具有动态的查询和分析功能 o l a p 提供了一种随机的动态的查询与统计分析功能,发现过程是由分析人员在 分析过程中确定的,没有固定模式。o l a p 的报表在运行过程中可以动态地定义 结构,动态查询和得到新的报表。 4 ) 对多用户的支持能力 多个用户可以同时工作于同一分析模型上或是可以在同一企业数据上建立不同 的分析模型,提供了并发控制、数据完整性及安全性机制。 5 ) 可以在不同的数据来源( 数据库、数据仓库、文具等) 之间灵活地采集、转换、 传输数据。 为完成这些任务和功能,所涉及的技术包括数据库、数据仓库、可视化、网络、 数据挖掘和领域知识处理等,系统集成中还要处理多种环境。 3 3 多维数据模型 o l a p 的技术核心是多维数据模型。 维 维( d i m e n s i o n ) 是人们观察数据的特定角度,是主题的基础,是对主题的一种类型 划分。例如,对企业就可以从时间的角度或产品类型的角度或者工厂为主的角度来观察 产品的生产情况。这里工厂位置、时间和产品类型各自为一个维度,与关系数据库中的 关键字相似。 人们观察数据的某个特定角度还可以存在细节程度不同的多个描述方面,称为维的 层次( h i e r a r c h y ) 。一个数据维又可以包含一个或者多个层次,层次是多级结构中某一 级别与其下一层级别之间的“父一子”关系,位于层次顶部的是“根级”( r o o t l e v e l ) , 位于层次底部的是一个或者多个“叶子”( l e a f ) 。“a l l ”级是一个层次的根级,它里面 包含了一个特殊成员,该成员把所有与根级紧邻的成员进行了汇总,因此该级是一个数 据维里最具综合性的级别。例如,描述时间维时可以从年、季度、月、日等不同层次来 描述,那么“a l l ”级、年、季度、月、日就是时间维的层次。 维的一个取值称为该维的一个维成员( m e m b e r ) ,如前例所述每个工厂、每段时间、 每种产品都是某一维的一个维成员。如果一个维是多层次的,那么该维的维成员是在不 同维层次的取值的组合。例如,“1 9 9 6 年第三季度8 月1 2 日”就是时间维的一个维成 员。 通过把一个实体的多项重要的属性定义为多个维( d i m e n s i o n ) ,使用户能对不同维上 的数据进行比较。因此o l a p 也可以说是多维数据分析工具的集合。 度量值 度量值( m e a s u r e ) 是一组数据,当多维数据集的各个维都选中一个维成员,这些维 堂丝盐一! 笙奎! :旦坠! 堡查竺至丝茎垄壁垫望笪主盟堕旦 茎! ! 里苎塑戛 成员的组合就唯一确定了一个或者几个值。度量值是所分析的多维数据集的中心值,是 最终用户浏览多维数据集时重点察看的数字数据,是各维交叉的结合点。前面所举例子 中生产数量就是度量值。 单元 单元是多维数据集的原子元素,即为多维数据集的任意一个子集,单元也是由度量 值、层次以及维度组成,多个单元组成了多维数据集。要想获得特定的单元,需要指定 相应的成员和维度,这些成员和维度的交集就形成了想要获得的单元。 超立方体 在多维数据库中,当维数等于三时,多维数组构成一个数据立方体;当维数大于三 时,多维数组便成了人们不能想象的超立方体。用立方体的形式来描述多维数据库中数 据的存储,称为立方体( c u b e ) 。一个多维数据集就是一个立方体,是包含维度和度量 值的多维结构。维度定义立方体的结构,而度量值提供最终用户感兴趣的数值。立方体 内的单元位置由各维度成员的交集确定,通过对度量值进行聚合得到单元中的值。 3 4 0 l a p 存储结构的选取 多维数据集的存储和管理采用分区方式,分区能够使得多维数据集中的各种数据分 布在多台服务器中,分区方式对用户是透明的。对一个多维数据集进行分区后,还可以 将其各个分区重新组合在一起。每个分区都有一种存储模式,一般有以下三种存储模式: 多维o l a p ( m o l a p ) ,关系o l a p ( r o l a p ) ,混合型o l a p ( h o l a p ) 。 m o l a p 结构 a ) 存储结构 m o l a p 表示基于多维数据组织的o l a p 实现( m u l t i d i m e n s i o n a lo l a p ) 。以多维 数据组织方式为核心,也就是说,m o l a p 使用多维数组存储数据。多维数据在存储中将 形成“立方块( c u b e ) ”的结构,在m o l a p 中对“立方块”的“旋转”、“切块”、“切片” 是产生多维数据报表的主要技术。 b ) 处理过程 源数据( d w 或者d b ) 在被存入多维数据库时,将根据它们所属的维进行一系列 的预处理操作( 计算和聚合) ,一般预处理程度可达8 5 以上,并把结果按一定的层次结 构存入多维数据库中。 c ) 主要特点 m o l a p 结构的主要优点是能快速响应用户的分析请求,其主要缺点是预处理操作 是预先定义好的,这就限制了m o l a p 结构的灵活性。另外m o l a p 存储方式需要额外 的存储开销。 r o l a p 结构 a ) 存储结构 r o l a p 表示基于关系数据库的o l a p 实现( r e l a t i o n a lo l a p ) 。以关系数据库为核 毕业设计( 论文) :o l a p 技术研究及其在移动通信中的应用第1 4 页麸5 8 页 心,以关系型结构进行多维数据的表示和存储。r o l a p 将多维数据库的多维结构划分为 两类表:一类是事实表,用来存储数据和维关键字;另一类是维表,即对每个维至少使 用一个表来存放维的层次、成员类别等维的描述信息。维表和事实表通过主关键字和外 关键字联系在一起,形成了“星型模式”,其结构如下图3 1 所示: 图3 1 星型模式 对于层次复杂的维,为避免冗余数据占用过大的存储空间,可以使用多个表来描述 这种星型模式的扩展称为”雪花模式”,见下图8 - 2 : 图3 - 2 雪花模式 b ) 处理过程 用户通过客户端工具提交多维分析请求给o l a p ,由o l a p 将这一请求动态地 转换成s q l 或者m d x 语句执行,分析的结果经多维处理转化为多维视图返回给用 户。 一兰些堡盐! 堡奎! ! 旦! 丝堡查堑壅墨苎垄墅垫望堕主塑堕旦笙! ! 巫苎! ! 蔓 c ) 主要特点 r o l a p 结构的主要特点是灵活性强,用户可以动态定义统计或计算方法,其主要缺 点是它对用户的分析请求处理时间要比m o l a p 长,这是因为数据的预处理程度一般比 较低,如果预处理程度太高,将会造成大量数据冗余,增加管理和维护的复杂性。 h o l a p 结构 h o l a p 表示基于混合数据组织的o l a p 实现( h y b r i do l a p ) 。如低层是关系型的, 高层是多维矩阵型的。这种方式具有更好的灵活性。 迄今为止,对h o l a p 还没有一个正式的定义,很明显h o l a p 结构不应是m o l a p 与r o l a p 方式的简单组合,而是这两种技术优点的有机结合,能满足用户各种复杂的 分析请求。 下表给出r o l a p 与m o l a p 的比较 比较项目 r o l a pm o l a p 处理时间长,d b 中存放的处理速度快,这是因为多维 处理速度是大量细节数据,综合数据d b 结构及很高的数据预处 相对较少 理 灵活性强,采用动态虚拟立不灵活,预处理操作是预先 灵活性方体技术可迅速满足用户定义的,对新的需求有时需 的请求 要重建多维数据库 无限制,因为r d b 技术已受到定限制,因为数据预 数据量适应性较成熟,其数据预处理程度处理程度高,需要数据容量 低于m o l a p较大 易维护,得益于直接从关系维护量大,需定期将更新业 可维护性 d b 提取数据分析务数据加载到多维立方体 安全性很好,因为使用了关 安全性相对较差,因为数据 安全性需下载进入特定的多维数据 系数据库的物理存储 麈 还有其他的一些实现0 l a p 的方法,如提供一个专用的s q l s e r v e r ,对某些存储模 式( 如星型、雪片型) 提供对s q l 查询的特殊支持。 存储方式的选取 在实际应用中,r o l a p 所需的存储空间较少,查询时间较长,使用关系型数据存储; 而m o l a p 查询速度快而有效,但它需要额外的磁盘空间。因此可以认为对于极少存取 的数据或者数据量巨大的( 几千兆) 数据仓库来说,使用r o l a p 是理想的。为此在实 现时将历史数据分为两组,称为现存历史数据和存档历史数据。现存历史数据适应率很 高,覆盖期一般不超过两年;存档历史数据使用率较低,覆盖期为两年以前。对常用的 现存历史数据和大多数d w 而言,应选择m o l a p ,而存档的历史数据使用r o l a p 更为 合适。 毕业设计( 论文) :o l a p 技术研究及其在移动通信中的应用第1 6 页共5 8 页 3 5 0 l a p 的分析动作 o l a p 工具是针对特定问题的联机数据访问与分析。它通过多维的方式对数据进行 分析、查询和报表。维是人们观察数据的特定角度。例如,个企业在考虑产品的销售 情况时,通常从时间、地区和产品的不同角度来深入观察产品的销售情况。这里的时间、 地区和产品就是维。而这些维的不同组合和所考察的度量指标构成的多维数组则是 o l a p 分析的基础,可形式化表示为( 维1 ,维2 ,维n ,度量指标) ,如( 地区、 时问、产品、销售额) 。多维分析是指对以多维形式组织起来的数据采取切片( s l i c e ) 、 切块( d i c e ) 、钻取( d r i l l d o w n 和r o l l u p ) 、旋转( p i v o t ) 等各种分析动作,以求剖 析数据,使用户能从多个角度、多侧面地观察数据库中的数据,从而深入理解包含在数 据中的信息。 o l a p 的基本多维分析操作有钻取( r o l lu p 和d r i l ld o w n ) 、切片( s l i c e ) 乖l 切块( d i c e ) 、 以及旋转( p i v o t ) 、d r i l la c r o s s 、d r i l lt h r o u g h 等。 钻取是改变维的层次,变换分析的粒度。它包括向上钻取( r o l lu p ) 和向下钻取 ( d r i l ld o w n ) 。r o l lu p 是在某一维上将低层次的细节数据概括到高层次的汇总数据,或 者减少维数:而d r i l ld o w n 则相反,它从汇总数据深入到细节数据进行观察或增加新维。 切片和切块是在一部分维上选定值后,关心度量数据在剩余维上的分布。如果剩 余的维只有两个,则是切片;如果有三个,则是切块。 旋转是变换维的方向,即在表格中重新安排维的放置( 例如行列互换) 。 第四章创建数据仓库 1 经营分析系统的组织结构 中国移动经营分析系统分为集团公司经营分析系统和省公司经营分析系统两级,各 省( 直辖市、n n n ) 只设置一级统一组织、集中存储的经营分析系统数据中心。地市 级分公司不设置单独的经营分析系统数据中心。其中,省公司经营分析系统主要完成本 省客户发展情况、业务发展情况、收益情况、市场竞争、服务质量、营销管理、大客户、 新业务及数据业务、合作服务方等主题分析。如图4 - 1 所示。 毕业设计( 论文) :o l a p 技术研究及其在移动通信中的应用第1 7 页共5 8 页 第一级 第二级 图4 - l 经营分析系统两级结构示意 集团公司经营分析系统与省公司经营分析系统之间的联接主要实现相关分析主题数 据的抽取和交互。 2 经营分析系统体系结构 经营分析系统采用三层结构,分为数据获取层、数据存储层和数据访问层三层,其 中数据获取层又分为数据来源、抽取、清洗转换加载三个子层;数据访问层又分为展 示方式和分析人员两个子层。如图4 - 2 所示: 毕业设计( 论文) :o l a p 技术研究及其在移动通信中的应用 第1 8 页共5 8 页 图4 - 2 经营分析系统三层体系结构示意脚 数据获取层:将b o s s 、m i s 、网管和其它外部数据源中的数据进行抽取、清洗、 转换,并加载到数据仓库。 数据存储层:实现对数据仓库中数据和元数据的集中存储与管理,并可根据需求建 立面向部门和主题的数据集市。 数据访问层:通过多样化的前端分析展示工具,实现对数据仓库中数据的分析和处 理,形成市场经营和决策工作所需要的科学、准确、及时的业务信息和知识。 其中,e t l 组负责源数据的抽取、转换、加载。同时负责数据仓库元数据管理和数 据仓库维护工作。a p 组负责数据访问层的展示方式子层,主要是在数据仓库基础上构建 数据仓库应用,包括o l a p 、数据挖掘、预定义报表和即席查询( a d h o c ) 。 毕业设计( 论文) :o l a p 技术研究及其在移动通信中的应用第1 9 页共5 8 页 3 经营分析系统信息流图 图4 - 3 经营分析系统信息流图 经营分析系统的使用者包括分析人员、决策人员、执行人员,并与生产系统保持一 定程度的互动,形成三条闭环信息流: 1 ) 分析人员、决策人员通过经营分析系统获得市场营销和客户服务信息,制定营销 计划和客服方案,营销人员和客服人员进行市场经营和客户服务活动,并将相应活动信 息反馈; 2 ) 分析人员、决策人员通过经营分析系统获得市场和客户信息,制定新业务受理计 划和方案,b o s s 系统管理员进行应用开发和参数调配; 3 ) 经营分析系统向b o s s 系统提供分析结果的调用接口,供业务系统使用。 毕业设计( 论文) :o l a p 技术研究及其在移动通信中的应用第2 0 页共5 8 页 4 4 经营分析系统功能构成 依据业务需求,经营分析系统在功能上分为以下九个分析主题,如下图4 - 4 所示。 l 1 一i 客业收市服营大新 一 口 户务盆场务销客 、f p 作 情发竞质管户务服 况展况争理分务 分分分分分分析数方 析析析析析析据分 业析 务 分 析 图4 - 4 分析功能总体框图 其中,每个主题包括了若干个详细的分析功能。以上只是分析主题的一种分类方法, 在具体实现时,经营分析系统应能根据需要进行主题内部要素的扩充、主题的新增以及 跨主题的重构。 4 5 经营分析系统分析方法 常用的分析方法有: 多维分析 从多个不同的角度及其组合去分析数据: 趋势分析 从时间序列分析某一指标随时间的变化趋势,找出其规律; 意外分析 从大量历史数据中找出太高、太低、变化幅度过大等异常情况数据。并可 进一步进行相关影响因素的数据挖掘; 排名分析 从大量数据中找出按某种分类方法的t o p n 或b o t t o mn 数据,这些数据代 表了需要特别关注的程度; 比较分析 从相同的角度去对不同数据集合( 这里主要指子集与父集及整体、集合与 其补集) 进行对比,找出差异所在,并可进一步深入挖掘差异原因; 原因和影响分析 兰! ! 燮:! ! 丝壅! :o l 壁垫查婴究及其在移动通信中的应用第2 1 页共5 8 页 对于已产生的某个特定结果,从大量数据中挖掘出影响因素,并且分析不 同因素或组合的重要程度。 w h a t i f 分析 与原因和影响分析不同,w h a ti f 分析是观察在人为指定改变条件时,结 果的变化情况,以便预测为了达到目标,最佳条件组合是什么。 4 6 经营分析系统展现方式 经营分析系统应提供灵活多样的展现方式。目前常用的展现方式有:固定( 预定义) 报表、图表、即席查询( a d h o c ) 、e i s 、多维动态分析、数据挖掘等。 表格和图表可以转换为e x c e l 等格式,分析人员可以根据需要排序、分组数据并改 变图表的类型( 直方图、饼形图、折线图、堆积图等) ,可在任何维度上通过“钻取” 和“切片”生成报表及图形。复合报表要“所见即所得”。 对于更深层次的分析,可以通过数据挖掘的方式进行展现。 4 7 e t l 实现 数据仓库中,e t l 是指e x t r a c t i o n ,t r a n s f o r m a t i o n ,幻a d i n g 。e x t r a c t i o n ( 抽取) 过程 发生在外部源数据环境,把数据从源数据库抽取出来放到文本文件中。t r a n s f o r m a t i o n ( 转换) 过程既可以发生在外部数据源环境,也可能发生在数据仓库内部,而且通常是 在数据仓库环境中完成的。它把文本文件中的数据转换成不同的格式或者实现不同表之 间数据类型的转换。l o a d i n g 即加载过程,发生在数据仓库环境中,把文本文件中的数 据加载进数据仓库。 加载和转换过程是可以互换顺序的,既可以对数据进行清洗转换后加载,也可以先 加载进临时库中,然后完成数据的清洗转换工作。所以有时e t l 也叫做e l t 。 所谓的e t la u t o m a t i o n 机制指的是在数据仓储的项目中,能够让许多的作业在作业 的执行条件满足时就能够自动地执行这些任务。这其中包含了可能需要接收一些档案

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论