(计算机软件与理论专业论文)数据仓库建模技术在电信行业中的应用.pdf_第1页
(计算机软件与理论专业论文)数据仓库建模技术在电信行业中的应用.pdf_第2页
(计算机软件与理论专业论文)数据仓库建模技术在电信行业中的应用.pdf_第3页
(计算机软件与理论专业论文)数据仓库建模技术在电信行业中的应用.pdf_第4页
(计算机软件与理论专业论文)数据仓库建模技术在电信行业中的应用.pdf_第5页
已阅读5页,还剩75页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据仓库建模技术在电信行业中的应用 摘 要 数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合, 用于支持管理决策制定过程。电信行业各大运营商为了提高自 身竞争力, 建设决策支 持系统,纷纷要求沉淀企业经营信息,构建企业级数据仓库。数据仓库的信息模型指 导着数据仓库构建的整个过程,信息模型的好坏直接关系数据仓库建设的成败。 本文针对电信运营商迫切要求建设企业级经营信息数据仓库的应用背景,主要研 究了数据仓库建模技术在电信行业中的应用。在介绍了有关课题背景之后,阐述了数 据仓库和数据仓库建模等技术,同时介绍了数据仓库相关应用和基于数据仓库的数据 分析技术和方法,如客户关系管理系统、决策支持系统、在线分析处理技术、数据挖 掘技术等,分析了它们对数据仓库沉淀数据的要求。文章接着分析了电信综合业务运 营支撑系统的体系结构,重点对电信服务支撑系统中需要经营信息数据仓库沉淀的业 务数据构成进行了研究。 在以上理论研究的基础上,作者以国内某电 信运营商统一经营信息服务系统的建 设为应用实践研究背景,论述了电信行业数据仓库信息建模的过程和方法,设计出了 系统经营信息层次结构和数据仓库的核心信息模型, 即o d s 和d w部分。 并且在设计 和实现系统数据仓库信息模型的基础上,归纳和提出了该领域的信息建模方法。系统 建模时,分详细级别数据层、轻度综合数据层、中度综合数据层、高度综合数据层设 计不同 综合粒度的数据, 其中前两层数据划分为客户、营业、帐务、计费、结算、资源 .等类分析主题,后两层数据划分为业务使用、 业务发展、 业务收入等类分析主题,两 层分析主题之间存在对应关系,系统按照原型增量法,依照概念模型设计、逻辑模型 设计、物理模型设计步骤对不同综合层次的分析主题进行设计,并灵活运用星型模式 和e r模式存储数据。 该模型经实践验证, 表明它能够较好地满足用户的 应用需求, 具 有良 好的经营信息支撑能力,便于用户使用。 最后,作者对所作的研究工作进行了总结,指出在实践过程中面临的主要问题和 困难,并对进一步的研究工作提出了一些建议。 关键词:数据仓库,信息建模,电信运营支撑系统,经营信息 北京邮电大学硕士学位论文第2页共 7 0页 数据仓库建模技术在电信行业中的应用 t h e a p p l i c a t i o n o f d a t a w a r e h o u s e m o d e l i n g t e c h n o l o g y i n t e l e c o m ab s t r a c t d a t a w a r e h o u s e i s a s u b j e c t o r i e n t e d , i n t e g r a t e d,n o n - v o l a t i l e a n d t i m e v a r i a n t d a t a s e t , a n d u s e d t o s u p p o r t t h e m a k i n g o f m a n a g e d e c i s i o n s . b u i l d i n g a d a t a w a r e h o u s e s y s t e m c a n h e l p c o m p a n y s t o i m p r o v e t h e i r s e r v i c e l e v e l s t r e n g t h e n t h e i r c o m p e t i t i v e c a p a b i l i t y. h e n c e , i t i s u r g e n t l y r e q u i r e d o f b u i l d i n g b u s i n e s s i n f o r m a t i o n d a t a w a r e h o u s e s y s t e m i n t e l e c o m a r e a . i n t h e p r o c e s s o f b u i l d i n g d a t a w a r e h o u s e, i t s i n f o r m a t i o n m o d e l i s t h e k e y t o s ucce ss. t h e m a i n p u r p o s e o f t h i s p a p e r i s t o s t u d y h o w t o b u i l d t h e d a t a w a r e h o u s e i n t e l e c o m a r e a , e s p e c i a l l y h o w t o m o d e l i n g t h e b u s i n e s s d a t a.f i r s t l y , t h e r e l a t e d b a c k g r o u n d i s i n t r o d u c e d . t h e n , t h e k n o w l e d g e o f d a t a w a r e h o u s e a n d i t s m o d e l i n g t e c h n i q u e i s d i s c u s s e d . s u b s e q u e n t l y , t h e p a p e r i n v e s t i g a t e s s o m e a p p l i c a t i o n s y s t e m a n d s o m e d a t a a n a l y s i s t e c h n o l o g y b a s e d o n t h e d a t a w a r e h o u s e , s u c h a s c r m ( c u s t o m e r r e l a t i o n m a n a g e m e n t ) s y s t e m , d s s ( d e c i s i o n s u p p o r t s y s t e m ) , d a t a m i n i n g t e c h n o l o g y , o l a p ( o n - l i n e a n a l y t i c a l p r o c e s s i n g ) t e c h n o l o g y , e t c . i n s u c c e s s i o n,t h e p a p e r d e s c r i b e s t h e a r c h i t e c t u r e o f t h e b o s s ( b u s i n e s s a n d o p e r a t i o n s u p p o r t i n g s y s t e m ) a n d t h e c o n t e n t s o f t h e t e l e c o m b u s i n e s s d a t a t h a t s h o u l d b e d e p o s i t i n t h e d a t a w a r e h o u s e . b a s e d o n v a s t r e s e a r c h w o r k , t h e p a p e r s t u d i e s t h e d a t a w a r e h o u s e b u i l d i n g 谧 n d m o d e l i n g p r o c e s s o f t h e u n i f i e d b u s i n e s s i n f o r m a t i o n s e r v i c e s s y s t e m ( u b i s ) p r o j e c t , a n d d e s i g n s t h e k e r n e l s y s t e m d a t a m o d e l . t h e p a p e r d e s c r i b e s t h e m o d e l i n g r e s u l t s o f t h e u b i s a n d s u m m a r i z e s t h e m o d e l i n g s t e p a n d m e t h o d s i n d e t a i l.t h e m o d e l h a s b e e n p r o v e d v i a p r a c t i c e t h a t i t s c a p a b l e t o m e e t t h e c u s t o m e r s r e q u i r e m e n t s . a t l a s t t h e p a p e r s c o n c l u s i o n i s g i v e n . a n d s o m e s u g g e s t i o n s a r e p r o v i d e d f o r f u t u r e s t u d y . : d a t a w a r e h o u s e s u p p o r t i n g s y s t e m , b u s i n e s s i n f o r m a t i o n m o d e l i n g , b u s i n e s s a n d o p e r a t i o n i n f o r m a t i o n 北京邮电大学硕士学位论文第3 页共7 0 页 数据仓库建模技术在电 信行业中的应用 第一章 绪论 , . , 研究背景 在我国正式加入wt g以后, 随着国内电 信行业改革和重组的不断深化, 国内电信 业务的市场环境将渐趋合理,竞争将日 益加剧。国内、国际电信业的竞争态势,对电 信运营企业的服务意识、服务内容、 服务方式、 服务质量、以及经营管理水平等均提 出了严峻的挑战,要求国内的电 信运营企业在经营理念、管理模式上能有一个较高层 次的飞跃;同时,也要求国内电信运营企业传统的以 产品为中心,以 营业窗口 为基础 的运营模式,逐步向以客户为中心、以数据为中心、以信息为基础的模式转变。 电信运营商要想达到以上目 标,需要丰富、真实、及时的经营信息提供支持。但 是目前广泛使用的操作型事务处理环境并不能满足企业对经营数据统计、分析的迫切 需求。这样就需要将分析型处理及其数据与操作型处理及其数据相分离,把分析型数 据从事务处理环境中提取出来,按照决策分析处理的需要进行重新组织,建立单独的 经营信息分析处理环境, 数据仓库正是为了构建这种新的分析处理环境而出 现的一种 数据存储和组织技术。数据仓库是 一个面向主题的、集成的、相对稳定的、反映历 史变化的数据集合,用于支持管理决策制定过程。在数据仓库中沉淀了企业长期地经 营信息,可以在数据仓库系统之上利用数据挖掘、在线分析处理等技术对数据进行分 析,进一步支持构建客户关系管理系统和决策支持系统。 随着数据仓库技术的成熟,近几年,中国移动、中国联通国内各大电信运营商经 不住数据仓库应用会给企业带来巨大回报的诱惑, 纷纷制定出 经营信息服务系统技术 规范和业务规范,开始建设统一经营信息服务系统,即建设企业级数据仓库系统。在 建设数据仓库的过程中,数据仓库信息模型的好坏是系统建设成功的关键。构建电信 行业数据仓库信息模型面临最大的困难有两点,如下描述: 1 、电信业务数据种类繁多。电信业务数据可以分为客户、 服务、营业、帐务、 计 费、结算、客服、 信用控制、套餐优惠定购、资源等几大类信息。同时,因为 国内各大电信运营商经营的大都是综合电信业务,例如联通是移动 g s m, c d m a ) , 1 9 3长途、 v o i p , 1 6 5( 互联网与电子商务) 、寻呼、增值业务等多 种业务并存和共同发展的格局。 各业务的业务数据之间存在差异, 导致数据仓 库沉淀数据的复杂性。 2 、 电 信业务数据分散。 国内各大电信运营商建设统一经营信息服务系统时基本上 按照总部和省分两级建设, 各个省分公司综合电信服务支持系统中包含多个子 系统, 各个子系统是由多个厂家来建设的, 企业有关客户、 业务的经营数据分 散在各个子系统中, 可能会存在数据定义上的不一致, 但它们是数据仓库系统 的直接数据源, 它们的分散性和不一致性导致电信行业数据仓库建模过程的复 杂性。 但是如何构建电信行业的统一经营信息服务系统,如何沉淀和组织多业务的、分 散的经营信息,即如何进行经营信息数据仓库建模,业界并没有现成的教科书和相关 3 七 京邮电大学硕士学位论文 第6 页共 7 0 页 数据仓库建模技术在电信行业中的应用 经验总结。本文就以电信运营商迫切要求建设的经营信息服务系统为应用研究背景, 对数据仓库建模步骤和方法等技术在电信行业中的应用进行了研究。 1 . 2 研究目 标和研究内容 本课题是从属于某电信运营商统一经营信息服务系统的建设的,它的研究目 标是 根据电信业务的数据特点,熟悉数据仓库的建设过程、数据仓库建模的过程、数据仓 库建模的方法,设计出该系统数据仓库信息模型,总结出该领域数据仓库建模的方法 和步骤,并在实践中检验该模型和不断完善该模型。 作者主要参与了该系统o d s 中轻度综合数据模型和d w高度综合数据模型的设计 工作,和系统 d w 编码优化工作。作者的合作伙伴、参与该项目o d s和 d w模型设 计和实施的主要有陈龙、王率、 姜欣、 倪德锋、卫星、徐彦等同学。 本文的研究内容主要包括以下几部分: . 研究数据仓库的基础理论知识,熟悉数据仓库的基本概念、建设方法和步骤、 数据仓库建模的方法和步骤。 . 研究数据仓库应用系统 ( 如 b i , c r m、数据挖掘、o l a p )的特点和与数据 仓库系统的关系,数据仓库应用系统对数据仓库信息模型设计的要求, 。 . 研究电 信行业业务数据的一般特点和构成。 . 研究统一经营信息服务系统的建设目 标、 建设方式、 建设步骤、 系统体系结构、 系统接口等内容。 . 通过以上研究, 本文取得的主要成果是为某电信运营商统一经营信息服务系统 设计出了系统信息构成架构, 设计出系统数据仓库信息模型。 并且在设计和实 现系统数据仓库信息模型的基础上,归纳并提出了该领域的信息建模方法。 该模型在实践中经过验证,证明较好的满足了用户的经营信息分析需求,具有良 好的可扩展性和经营信息分析支撑能力,用户使用方便。 1 . 3 课题意义和应用价值 本文以某电信运营商建设统一经营信息服务系统的实际需求,研究了数据仓库构 建技术及信息建模技术,并以该运营商为例,充分研究电信行业业务数据的内容和特 点, 设计出了该运营商u b i s 系统的数据仓库信息模型, 并应用于实践, 实践证明该模 型有良 好的实用性和利用价值,并充分覆盖了企业现有的重要的经营信息,在该模型 的基础上可以进一步支持企业日 常管理类固定报表、分析类报表、o l a p 报表的产生, 和某些重要管理指标的产生,还可以在此基础上进行数据挖掘产生欠费等专题分析报 告,证明该模型具有良 好的可用性和较高的应用价值。 虽然本文是以某具体电信运营商统一经营信息服务系统为研究背景,但研究成果 对整个电信行业都具有很好的适用性。 北京邮电大学硕士学位论文第 7 页共 7 0页 数据仓库建模技术在电信行业中的应用 , . 4 本文组织结构 以上简单介绍了本课题的研究背景、 研究目标和研究内容。 本文其余部分将依次展 开对数据仓库技术、数据仓库应用、电信行业业务数据构成、统一经营信息服务系统、 及系统信息建模进行论述。 本文具体组织结构如下; 第二章, 数据仓库。 首先介绍了 数据的概念、 然后分别描述了数据仓库中的数据组 织、 数据仓库系统开发方法、 数据仓库开发生命周期, 最后着重描述了数据仓库模 型的设计。 第三章, 数据仓库应用。首先分别介绍了两种典型的数据仓库应用系统 b i和 c r m,然后介绍了两类数据仓库重要前端应用技术 o l a p和 d m,并分析了两者 之间的主要区别。 第四章, 电信行业业务数据构成。首先介绍了电 信行业典型的综合业务支撑系统 的体系结构, 然后针对某具体电信运营商对综合业务支撑系统进行了分析, 最后描 述了电信行业需要沉淀的业务数据构成。 第五章, 统一经营信息服务系统。 分别就统一经营信息服务系统的建设原则、 建设 目标、建设方式、建设步骤、系统的经营信息服务体系、 系统体系结构、 数据接口 几个方面进行了描述。 第六章,u b i s系统信息建模。首先分别描述了系统信息模型的构成、系统信息模 型设计步骤、系统模型设计方法,然后分别详细的描述了系统d d s . d w 概念模型、 逻辑模型和物理模型的设计。 文章最后总结了本文成果和不足,及面临的主要问题和困难,并对今后工作进行 了展望。 , .jr 术语列表 d a t a m a r t :即数据集市, 或者叫做“ 小数据仓库” 。 如果说数据仓库是建立在企业 级的数据模型之上的话。 那么数据集市就是企业级数据仓库的一个子集, 他主要面 向部门级业务,并且只面向某个特定的主题。 数据集市可以在一定程度上缓解访问 数据仓库的瓶颈。 d s s : 决 策支 持 系 统 ( d e c i s io n s u p p o r t s y s t e m ) , 相当 于 基于 数 据 仓库的 应 用。 决 策支持就是在收集所有有关数据和信息, 经过加工整理, 来为企业决策管理层提供 信息,为决策者的决策提供依据。 c r m: 客户关系管 理的 简称 ( c u s t o m e r r e l a t i o n s h i p m a n a g e m e n t ) . c r m是一 种商 业管理策略, 它通过使企业组织结构、 业务工作流程、技术支持和客户服务都以客 户为中心来协调统一地与客户进行交互, 达到保留有价值客户、 挖掘潜在客户、 赢 得客户忠诚,并最终获得客户终身价值的目的。 o l a p : , 在线分析处理 ( o n - li n e a n a l y t i c a l p r o c e s s ) , 或联机分析处理。 o l a p 是 使分析人员、管理人员或管理执行人员能够从多种角度对从原始数据中转化出来、 北京邮电大学硕士学位论文第 s 页共 7 0 页 数据仓库建模技术在电信行业中的应用 能够真正为用户所理解、并真实反映企业维特性的信息进行快速、 一致、交互地存 取、展现,从而获得对数据更深入了解的一类软件技术。 o d s : 操作数据 存储 ( o p e r a t i o n a l d a t a s t o re ) 的 简 称。 用于支持企业日 常、 全局应 用的数据集合,保存在 o d s中的数据具有四个基本特点:面向主题的、集成的、 可变的、数据是当前的或接近当前的. e t l :数据抽取 ( e x t r a c t ) 、转换 ( t r a n s f o r m ) 、 清洗 ( c l e a n s in g ) 、装载 ( l o a d ) 的过程。构建数据仓库的重要一环,用户从数据源抽取出所需的数据, 经过数据清 洗, 最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。 a d h o e q u e ry:即席查询, 数据库应用最普遍的一种查询, 利用数据仓库技术,可 以让用户随时可以面对数据库,获取所希望的数据。 e i s : 领导信息系统 ( e x e c u t i v e i n f o r m a t i o n s y s t e m ) ,指为了 满足无法专注于计算机 技术的领导人员的信息查询需求, 而特意制定的以简单的图形界面访问数据仓库的 一种应用。 b i : 商 业智 能( b u s in e s s i n t e l li g e n c e ) ,指 数 据仓 库 相 关 技 术与 应 用的 通 称。 指 利 用 各种智能技术,来提升企业的商业竞争力。 北京邮电大学硕士学位论文第9页共 7 0 页 数据仓库建模技术在电信行业中的 应用 第二章 数据仓库 什么是数据仓库?数据仓库中的数据如何组织?如何构建、开发数据仓库?数据 仓库系统的开发生命周期是怎样的?数据仓库模型如何设计?这是本章主要描述的内 容和阐述的问题。 2 . 1 数据仓库的概念 2 . 1 . 1 数据仓库的定义 业界公认的数据仓库概念创始人 w .h .i n m o n在其著作 b u i l d i n g t h e d a t a w a re h o u s e 一书中给予如下描述:数据仓库 ( d a t a w a r e h o u s e )是一个面向主题的 ( s u b j e c t o r ie n t e d ) 、 集 成的( i n t e g r a t e ) 、 相 对 稳定的( n o n - v o l a t i le ) 、 反 映 历史 变 化 ( t i m e v a r i a n t ) 的 数据 集合, 用于 支持管 理决策 制定过 程p l 。 对于 数据仓库的 概念我 们可以从两个层次予以理解,首先,数据仓库用于支持决策,面向分析型数据处理, 它不同于企业现有的操作型数据库;其次, 数据仓库是对多个异构的数据源有效集成, 集成后按照主题进行了重组,并包含历史数据,而且存放在数据仓库中的数据一般不 再修改。 2 . 1 .2 数据 仓库的 特点 根据数据仓库定义的含义, 数据仓库拥有以下四个特点,它们也是数据仓库与传 统操作型信息系统的主要区别: 1 、面向主题。操作型数据库的数据组织面向 事务处理任务,各个业务系统之间各 自 分离,而数据仓库中的数据是按照一定的主题域进行组织。 主题是一个抽象的概念, 是指用户使用数据仓库进行决策时所关心的重点方面,一个主题通常与多个操作型信 息系统相关。例如电信业务支撑系统中的操作型信息系统有营业系统、帐务系统、结 算系统、客服等系统,而数据仓库中包含的主题会是业务收入、业务发展、业务使用 等内容,业务收入主题涉及营业系统中的客户信息、帐务系统和结算系统中 业务收入 信息。 2 、集成的。面向事务处理的操作型数据库通常与某些特定的应用相关,数据库之 间相互独立,并且往往是异构的。而数据仓库中的数据是在对原有分散的数据库数据 抽取、清理的基础上经过系统加工、 汇总和整理得到的,必须消除源数据中的不一致 性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。 3 、相对稳定的。操作型数据库中的数据通常实时更新,数据根据需要及时发生变 化。数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询, 一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般 有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。 北京邮电大学硕士学位论文 第 t o页共 7 0 页 数据仓库建模技术在电 信行业中的应用 2 . 2 数据仓库中的数据组织 2 . 2 . 1 数据仓库中的数据组织结构 一个典型的数据仓库的数据组织结构如下图 所示l1 : 高度综合级 轻度综合级 当前细节级 早期细节级 图2 - 2 : 数据仓库数据组织结构 数据仓库中的数据分为四个级别:早期细节级、当前细节级、轻度综合级、高 度综合级。源数据经过综合后,首先进入当前细节级,并根据具体需要进行进一步 的综合,从而进入轻度综合级乃至高度综合级,老化的数据将进入早期细节级由此 可见,数据仓库中存在着不同的综合级别,一般称之为 粒度, 。粒度越大,表示细 节程度越低,综合程度越高。 元数据 ( m e t a d a t a ) 是关于数据的数据。 在数据仓库系统中,元数据可以帮助数 据仓库管理员和数据仓库的开发人员非常方便地找到他们所关心的数据;元数据是 描述数据仓库内数据的结构和建立方法的数据,可将其按用途的不同分为两类:技 术元数据 ( tec h n i c a l m e t a d a t a ) 和业务元数据 ( b u s in e s s me t a d a t a ) _ ( 1 ) 技术元数据是存储关于数据仓库系统技术细节的数据, 是用于开发和管理数 据仓库使用的数据,它主要包括以下信息: .数据仓库结构的描述,包括仓库模式、视图、维、层次结构和导出数据的 定义,以及数据集市的位置和内容; .业务系统、数据仓库和数据集市的体系结构和模式 .汇总用的算法,包括度量和维定义算法,数据粒度、主题领域、聚集、汇 总、预定义的查询与报告; .由操作环境到数据仓库环境的映射, 包括源数据和它们的内容、 数据分割、 数据提取、清理、转换规则和数据刷新规则、安全 ( 用户授权和存取控制) 。 ( 2 ) 业务元数据从业务角度描述了 数据仓库中的数据, 它提供了 介于使用者和 实际系统之间的语义层,使得不懂计算机技术的业务人员也能够 “ 读懂”数据仓 北京邮电大学硕士学位论文 页共 数据仓库建模技术在电 信行业中的应用 库中的数据。 业务元数据主要包括以下信息:使用者的业务术语所表达的数据模 型、对象名和属性名;访问数据的原则和数据的来源;系统所提供的分析方法以 及公式和报表的信息;具体包括以下信息: .企业概念模型:这是业务元数据所应提供的重要的信息,它表示企业数据 模型的高层信息、整个企业的业务概念和相互关系。以这个企业模型为基础, 不懂数据库技术和 s q l语句的 业务人员对数据仓库中的数据也能做到心中有 数。 .多维数据模型:这是企业概念模型的重要组成部分,它告诉业务分析人员 在数据集市当中有哪些维、 维的类别、 数据立方体以 及数据集市中的聚合规则。 这里的数据立方体表示某主题领域业务事实表和维表的多维组织形式。 .业务概念模型和物理数据之间的依赖:以上提到的业务元数据只是表示出 了数据的业务视图,这些业务视图与实际的数据仓库或数据库、多维数据库中 的表、字段、维、层次等之间的对应关系也应该在元数据知识库中有所体现。 2 . 2 . 2 粒度与分割 粒度和分割是数据仓库中两个重要的概念,它们是数据仓库建模设计时重点考虑 的问题。 1 . 粒度 数据仓库粒度可以分为两种形式,第一种粒度是对数据仓库中的数据的综合程度 高低的一个度量,它既影响数据仓库中的数据量的多少,也影响数据仓库所能回答询 问的 种类。在数据仓库中,多维粒度是必不可少的。由于数据仓库的主要作用是 d s s 分析,因而绝大多数查询都基于一定程度的综合数据之上的,只有极少数查询涉及到 细节。所以应该将大粒度数据存储于快速设备如磁盘上,小粒度数据存于低速设备如 磁带上。 还有一种粒度形式,即样本数据库。它根据给定的采样率从细节数据库中抽取出 一个子集。这样样本数据库中的粒度就不是根据综合程度的不同来划分的,而是有采 样率的高低来划分,采样粒度不同的样本数据库可以具有相同的数据综合程度。 在本文后续章节中讨论的粒度主要是指数据综合程度的高低。选择合适的粒度级 别是体系结构设计环境成功的关键。选择粒度级别的一般方法,是利用常识,建立数 据仓库的一小部分,并让用户去访问这些数据。然后仔细聆听用户的意见,根据他们 的反馈意见适当调整粒度的级别。 2 . 分割 分割是数据仓库中的另一个重要概念, 它的目的同样在于提高效率。它是将数据分 散到各自 的物理单元中去, 以 便能分别独立处理。 有许多数据分割的 标准可供参考加 日 期、 地域、 业务领域等等, 也可以 是其组合。 一般而言,分割标准总应包括日 期项, 它十分 自然而且分割均匀。 北京邮电大学硕士学位论文第 1 3 页共 7 0 页 数据仓库建模技术在电信行业中的应用 2 .2 . 3 数据仓库的 数据组织形式 以 下是数据仓库中 常 见的 几种数 据组织形式 m . 1 . 简单堆积文件: 它将每日由 数据库中提取并加工的数据逐天积累并存储起来。 2 . 轮转综合文件: 数据存储单位被分为日、周、月、年等几个级别。在一个星期 的七天中,数据被逐一记录在每日 数据集中:然后, 七天的数据被综合并记录在周数据 集中;接下去的一个星期。日 数据集被重新使用,以 记录新数据。同理, 周数据集达到 五个后,数据再一次被综合并记入月数据集。以此类推。轮转综合结构十分简捷,数 据量较简单堆积结构大大减少。当 然, 它是以 损失数据细节为代价的, 越久远的 数据, 细节损失越多。 3简化直接文件: 它类似于简单堆积文件,数据仅仅是从操作型环境拖入数据仓 库环境中,并没有任何累积。另外,简单直接文件不是在每天的基础上组织的,而是 以较长时间为单位的,它是间隔一定时间的数据库快照,比如每隔一星期或一个月作 一次。 4 . 连续文件: 通过两个连续的简化直接文件, 可以生成另一种连续文件,它是通 过比较两个简单直接文件的不同而生成的。当 然,连续文件同新的简单直接文件也可 生成新的连续文件。 对于各种文件结构的最终实现,在关系数据库中仍然要依靠1表” 这种最基本的结 构。并且在一个数据仓库体系结构中,不同主题下的表或相同主题下的不同的表可以 采用不同的数据组织形式。 2 . 3 数据仓库系统开发方法 数据仓库是面向主题的、集成的、不可更新的、随时间的变化而不断变化的,这 些特点决定了数据仓库的系统设计不能采用同开发传统的操作型数据库一样的设计方 法。操作型数据库系统的开发生命周期特点是它开始于需求,结束于代码;而数据仓 库系统的开发生命周期的特点则是开始于数据,而结束于需求。 传统操作型数据库系统和数据仓库系统的开发过程主要有以 下区别: . 操作型数据库系统的开发是按一次一个应用问题进行的,数据仓库系统是按 一次一个主题领域进行的; . 操作型数据库系统有一套稳定的需求, 构成操作型环境下设计和开发的基础。 而数据仓库系统的原始需求不明 确,且不断变化与增加,开发者最初不能确切了 解到用户的明确而详细的需求,用户所能提供的无非是需求的大的方向以及部分 需求,更不能较准确地预见到以后的需求; . 对于操作型数据库系统事务响应时间是主要的而且是及其重要的问题。而在 数据仓库系统中事务响应时间基本上不算是个问题; . 对于操作型数据库系统的输入通常来自企业的外部数据源,最常见的是通过 与外部代理的交互获取数据。 数据仓库系统的数据通常来自 企业内 部的各个系统, 而各个系统的数据是由很多种类的现有数据源集成而来的。 . 在操作型数据库系统中,数据几乎都是当前值( 也就是说数据在用的 那一刻是 北京邮电大学硕士学位论文第 1 4 页共7 0 页 数据仓库建模技术在电 信行业中的应用 准确的 ) 。 而在数据仓库系统中, 数据是随时间变化的 ( 也就是说, 数据与某个时 刻相关,在数据仓库中存储了不同时刻的数据) 。 因此,数据仓库系统的开发不能和传统操作型数据库系统的开发一样在严格定义 的s d l c ( 系 统开发生命周 期 ) 下 建立, 不能 按照 传统操作型数据库系 统采用的 需 求驱动 的方法进行设计。但在另一方面,那种认为不预测需求是好思路的想法也是错误的, 在实际中,通常是介于两者之间的。 采用原型法进行数据仓库的开发是比较合适的,因为原型法的思想是从构建系统 的简单的基本框架着手,不断丰富与完善整个系统。但是,数据仓库的设计开发又不 同于一般意义上的原型法,数据仓库的设计是数据驱动的。这是因为数据仓库是在现 存数据库系统基础上进行开发,它着眼于有效地抽取、综合、集成和挖掘己 有数据库 的数据资源,服务于企业高层领导管理决策分析的需要。 但需要说明的是, 数据仓库 系统开发是一个经过不断循环、反馈而使系统不断增长与完善的过程,这也是原型法 区别于系统生命周期法的主要特点。因此,在数据仓库的开发的整个过程中,自 始至 终要求决策人员和开发者的共同参与和密切协作,要求保持灵活的头脑,不做或尽量 少做无效工作或重复工作。 数据仓库开发成功的关键是数据仓库体系结构设计者和d s s 分析者之间的反馈循 环。 d s s分析人员一定要严格遵循 “ 给我我所要的东西,然后我能告诉你我真正需要 的东西”的工作模式;反馈循环的周期越短,越有可能成功;反馈循环时需要调整的 数据量越大,反馈循环所需要的周期就越长,所以在进行数据仓库设计时应保证系统 有较好的可调整性。 2 .4 数据仓库开发生命周期 在上面一节中已阐明数据仓库的开发适宜用原型法,尽可能快的为d s s 分析者提 供出数据仓库原型,再在数据仓库体系结构设计者和d s s 分析者之间的反馈循环中不 断丰富、完善数据仓库系统。 数 据仓库的 开 发过 程大体包括以 下几个步 骤 1 3 1 . . 数据仓库模型设计 . 数据仓库技术准备 . 数据仓库的生成 . 数据仓库的使用和维护 数据仓库模型设计就是根据目 前业务系统具有的数据和可以捕获到的系统需求两 个角度设计出数据仓库的信息存储结构,数据仓库模型的设计可以分为三个层面的设 计,分别是概念模型设计、逻辑模型设计和物理模型设计,详细内容将在下一小节详 细介绍,下面分别描述一下数据仓库开发过程中其它几个重要的步骤。 2 . 4 . 1 技术准备工作 这一阶段的工作包括:技术评估,技术环境准备。 a 七 京邮电大学硕士学位论文 第 1 5 页共 7 0 页 数据仓库建模技术在电 信行业中的应用 这一阶段的成果是: 技术评估报告、 软硬件配置方案、 系统( 软、 硬件) 总体设计方 案。 管理数据仓库的技术要求与管理操作型环境中的数据与处理的技术要求区别很大, 两者所考虑的方面也不同。我们之所以在一般情况下总是将分析型数据与操作型数据 分离开来,将分析型数据单独集中存放,也就是用数据仓库来存放,技术要求上的差 异是一个重要原因。 1 . 技术评估 进行技术评估,就是确定数据仓库的各项性能指标。一般情况下,需要在这一步 里确定的性能指标包括: . 管理大数据量数据的能力: . 进行灵活数据存取的能力: . 根据数据模型重组数据的能力; . 透明的数据发送和接收能力; . 周期性成批装载数据的能力; . 可设定完成时间的作业管理能力。 2 . 技术环境准备 一旦数据仓库的体系化结构的模型大体建好后,下一步的工作就是确定我们应该 怎样来装配这个体系化结构模型,主要是确定对软硬件配置的要求;我们主要考虑相 关的问题: . 预期在数据仓库上分析处理的数据量有多大? . 如何减少或减轻竟争性存取程序的冲突? . 数据仓库的数据量有多大? . 进出数据仓库的数据通信量有多大? . 等等。 根据这些考虑,我们就可以 确定各项软硬件的配备要求,并且在这一步工作结束 时各项技术准备工作应已就绪,可以装载数据了。这些配备有: . 直接存取设备( d a s d ) ; . 网络; . 管 理直接存取设 备 ( d a s d ) 的 操作系统; . 数据抽取、转换、装载工具的选择: . 进出 数据仓库的界面( 主要是数据查询和报表产生和分析工具) ; . 管理数据仓库的软件,目 前即选用数据库管理系统及有关的选件,购 买的 d b ms产品不能满足管理数据仓库需要的,还应考虑自己或软件 集成商开发有关模块等等。 2 .4 . 2 数据仓库的生成 在这一步里所要做的工作是接口编程, 抽取规则设计、 进行源数据的获取、清洗、 整理及数据装入。 这一步工作的成果是,数据己经装入到数据仓库中,可以在其上建立数据仓库的 应用,即d s s 应用。 1 . 设计接口 北京邮电大学硕士学位论文第 1 6 页共 7 0 页 数据仓库建模技术在电信行业中的应用 将操作型环境下的数据装载进入数据仓库环境,需要在两个不同 环境的记录系统 之间建立一个接口。乍一看,建立和设计这个接口,似乎只要编制一个抽取程序就可 以了,事实上,在这一阶段的工作中,的确对数据进行了抽取,但抽取并不是全部的 工作,这一接口还应具有以下的功能: . 从面向应用和操作的环境生成完整的数据: . 数据的基于时间的转换; . 数据的凝聚; . 对现有记录系统的有效扫描,以便以后进行追加。 当然,考虑这些因素的同时,还要考虑到物理设计的一些因素和技术条件限制, 根据这些内容,严格地制定规格说明,然后根据规格说明,进行接口编程。从操作型 环境到数据仓库环境的数据接口 编程的过程和一般的编程过程并无区别,它也包括伪 码开发、编码、编译、检错、测试等步骤。 在接口 编程中,要注意: . 保持高效性,这也是一般的编程所要求的: . 要保存完整的文档记录; . 要灵活,易于改动; . 要能完整、 准确地完成从操作型环境到数据仓库环境的数据抽取、 转换 与集成。 2 . 抽取规则设计 因为数据仓库中包含粗细粒度不同即综合程度不同的数据,高度综合的数据需要 从轻度综合的数据中汇总而来,轻度综合的数据需要从当前详细数据中汇总而来,所 以在数据仓库内 部也存在多次数据抽取、转换的过程,所以在开发数据仓库与数据源 系统接口的同时,也需要根据数据仓库中不同粒度的模型设计数据仓库内部抽取、转 换、转载的规则。 3 .数据装入 在这一步里所进行的就是运行接口 程序和数据仓库抽取规则,将数据装入到数据 仓库中。主要的工作是: . 确定数据装入的次序; . 清除无效或错误数据; . 数据 “ 老化” . 数据粒度管理; . 数据刷新等。 最初只使用一部分数据来生成第一个主题域,使得设计人员能够轻易且迅速地对 已做工作进行调整,而且能够尽早地提交到下一步骤,即数据仓库的使用和维护。这 样既可以在经济上最快地得到回报,又能够通过最终用户的使用、尽早发现一些问题 并提出新的需求,然后反馈给设计人员,设计人员继续对系统改进、扩展。 2 . 4 .3 数据仓库的使用和维护 在这一步中所要做的工作有建立d s s 型应用、统计报表型应用、查询型应用等 应用, 如o l a p 分析型应用、 数据挖掘发现 ,即使用数据仓库理解需求,调整和完善系 北京邮电大学硕士学位论文第 1 7 页共 7 0页 数据仓库建模技术在电信行业中的应用 统,维护数据仓库。 建立企业的体系化环境,不仅包括建立起操作型和分析型的数据环境,还应包括 在这一数据环境中建立起企业的各种应用。数据仓库装入数据之后,下一步工作是: 一方面,使用数据仓库中的数据服务于决策分析的目的,也就是在数据仓库中建立起 d s s应用;另一方面, 根据用户使用情况和反馈来的新的需求,开发人员进一步完善 系统,并管理数据仓库的一些日常活动,如刷新数据仓库的当前详细数据、将过时的 数据转化成历史数据、清除不再使用的数据、调整粒度级别等。我们把这一步骤称为 数据仓库的使用与维护。 l . 建立d s s 应用 使用数据仓库,即开发d s s 应用,与在操作型环境中的应用开发有着本质区别, 开发d s s应用不同于联机事务处理应用开发的显著特点在于: . d s s 应用开发是从数据出发的; . d s s 应用的需求不能在开发初期明确了解: . d s s 应用开发是一个不断循环的过程, 是启发式的开发。 d s s应用主要可分为两类:例行分析处理和启发式分析处理。例行分析处理是指 那些重复进行的分析处理,它通常是属于部门级的应用,如部门 统计分析,报表分析 等等;而个人级的分析应用经常是随机性很大的,企业经营者受到某种信息启发而进 行的一些即席的分析处理,所以我们称之为启发式的分析处理。 d s s 应用开发的大致步骤如下: 步骤 1 确定所需的数据。为满足 d s s应用的要求,我们必须从数据仓库中确 定一个可能用到的数据范围。这是一个试探的过程。 步骤2 一一抽取数据。 根据上面得到的数据范围, 设计抽取规则。 为适应分析需求 多变的特点,要求所设计的抽取规则应该通用,易于修改。抽取规则的实现可以选择 现成的抽取工具实现或者自己编程实现,著名的抽取工具有 i n f o r ma t i c a公司的 p o we r ma r t 、或者d a t a s t a g e等, 步骤3 合并数据。 如果有多个数据抽取源, 要将抽取来的数据进行合并、 提炼, 使数据符合分析处理的要求。 步骤4 一一分析数据。 在上步准备好的数据基础上进行分析处理, 并看所得的结果 是否满足了原始的要求, 如果不能满足, 则返回步骤1 , 开始新的一次循环, 否则就准 备最终分析结果报告。 步骤 s 回答问题。 生成最终分析结果报告。 一般情况下, 最终的分析结果报告 是在许多次的循环后得到的,因为一次分析处理很少是在一次循环后就完成的。 步骤6 例行化、 一次分析处理的最后、 我们要决定是否将在上面已经建立的分 析处理例行化。 如果建立的分析处理是重复进行的部门级的d s s 应用,那么最好是将 它例行化,这样在进行下一次同样的分析处理时,不必再重复上述六步的循环过程。 而且,不断地积累这种例行处理,形成一个集合,我们就可以通过组合这些已有的处 理来生成新的一个较大的复杂处理,或完成一个复杂处理的一部分。 2 . 理解需求,改善和完普系统,维护数

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论