




已阅读5页,还剩76页未读, 继续免费阅读
(管理科学与工程专业论文)电信行业经营分析系统数据仓库建模研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 近几年来,我国电信市场的不断拓展,为数据仓库和经营分析软 件的开发带来了前所未有的机遇和挑战。面对巨大的市场潜力和激烈 的竞争,如何为电信企业构建一个先进、完善的数据仓库系统进行支 撑,从而提升核心竞争力、增强客户满意度已经成为国内电信企业发 展的当务之急。 本文针对省级电信企业在企业数据组织方面存在的问题,在比较 研究中外电信数据仓库软件技术架构和商业逻辑的基础上,构建了省 级电信企业经营分析系统的数据仓库模型。并以国内某省级电信公司 为例,对其项目实施背景、过程及效果进行了综述。本文重点论述了 如何利用数据仓库技术构建模型的原则、方法和实践,并给出了电信 企业经营分析系统数据仓库的概念模型、逻辑模型及实现模型。 本文的主要研究成果包括: 1 ) 在对电信企业业务和数据仓库相关理论研究的基础上,总结出 了适合大多数电信企业目前实际需求的按五个主题( 客户、产品、话 务量、帐务、市场营销) 划分的数据仓库模型。 2 ) 提出了适合省级电信企业的数据仓库分布方式( 省级数据仓库 中心+ 分布的同构业务数据中心) ; 3 ) 结合实际项目,详细介绍了经营分析系统数据仓库建设的步骤 方法以及实施成效。 关键词数据仓库、建模、经营分析、主题、电信 a b s t r a c t r e c e ms e 删y e a r s ,w i t ht l l er a p i d 伊o w mo ft e i e c o m m u n i c a t i o n s m a r k e ti nc h i n 巩s o r w a r ed c v c l o p m e mo fb u s i n e s sa f i a l y s i sa i l dd a t a w a r e h o u s ef a c eb o t ho p p o n l l n i t i e sa i l dc h a r l l e n g e s c o n f r o n t e dw i t hh u g e m a r k e t p o t e n t i a l a n df i e r c e c o m p e t i t i o n , m o r ea n dm o r e t e l e c o m m u n i c a t i o n sc o m p a n i e sr e a l i z e dt l l a tm em o s ti m p o r 协n ta i l d u r g e mt a l s k i st ob u i l da na d v a n c e da n dp e r f e c td a t aw a r e h o u s e a r c h i t e c m r ef o ri i n p r o v i n gp a n i c u l a rc o m p e t i t i v ea b i l i t ya n de n l l a n c i n g s a t i s 丘c a t i o no f c u s t o m s t h ep 印e ra i m sa tt l l ep r o b l e mo fp r o “n c i a lt e l e c o m m u n i c a t i o n s c o m p a n i e si nt t i ea s p e c to f d a t ao r g a i l i z i l l g b a l s e d 伽m er e s e a r c hi n t ot h e t e c l l f i o l o g ya r c h i t e c t l l r ea i l db u s i n e s sl o 百co f w a r e h o u s es o f t w a r ei n c h i n a 姐dt h ea b r o a d ,b u i l d sad a t aw a r c h o l l s em o d e lo fb u s i n e s s 8 i l a l y s i ss y s t e mi n 也et e i e c o m m u n i c a t i o n sc o m p a n y t a k ee x 锄p l ef o ra p r o 、,i n c i a l t e l e c o m m u i l i c a t i o n sc o m p a n y s 咖m a r i z e s i m p l e m e n t a r y b a c k g r o u n d ,p r o c e s s 卸de 丘e c to ft h ei t e m 1 1 1 i sp a p e re m p h a s i z e s 也e p 咖c i p l e 姐di m p l e m e n t a t i o j no fh o wt ob u i l dd a t am o d e lb yu t i i i z i n g t h ed a t aw a r e h o u t e c h i l o l o g y ,柚db u i l d s 也ec o n c e p t i l a ld a t am o d e l , m el o 百c a l 删e l 柚dm ei m p l e m e n t a id a t am o d e l r e a s e a r c hw o 呔0 f d l i sp a p e ri s 私f o n o w s : 1 ) b 弱e do nt h er e s e a r c hi n t om eb l l s i n e s so ft e l e m o m m u n i c a t i o i l s c o m p a n i e sa n dt l l e o r yo fd a t aw a r c h o u s e ,b u i l d st h e m o d e lw h i c h h a sf i v e 驰b j e c t s ( c 咖m ,p r o d u c t ,舡a f f i c ,b i l l i n g ,m a r k e t i n 曲锄ds a t i 矗e s r e q u 曲m e n t so f n l o s tt c l e c o m m l | n i c a t i o n sc o n l p a n i e s 2 ) m em 锄n e ro fd a t aw a r c h o u s ed i s t r i b m i i l gi sp r c s e n t e d ( p r o v i n c i a l 胁w a r e h o u s cc e n t r e + d i s t r i b u t e db u s i i l e s sd a t ac e n t r e l 3 ) c 0 m b 沁dw i mar e a lp r o j e c t ,m em e t h o da n de 彘c to f b l l i i d i n g 讹w a r e h o u s eo f b i l s i n e s s 觚a l y s i ss y s t e ma r cd i s c l l s s e d k e yw o r d sd a t aw a r c h o l l s e ,m o d e l i n 岛b u s i n e s sa l i a i y s i s s y s t e m ,s u 巧e c t ,t e l e c o 删c a t i o 嬲c o m p a n y 原创性声明 本人声明,所呈交的学位论文是本人在导师指导下进行的研究 工作及取得的研究成果。尽我所知,除了论文中特别加以标注和致谢 的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不 包含为获得中南大学或其他单位的学位或证书而使用过的材料。与我 共同工作的同志对本研究所作的贡献均已在在论文中作了明确的说 明。 作者签名:重塾! 1日期:立竺生年卫月鱼日 关于学位论文使用授权说明 本人了解中南大学有关保留、使用学位论文的规定,即:学校 有权保留学位论文,允许学位论文被查阅和借阅;学校可以公布学位 论文的全部或部分内容,可以采用复印、缩印或其它手段保存学位论 文;学校可根据国家或湖南省有关部门规定送交学位论文。 日期:立唑年丑月上旦日 1 1 研究背景 第1 章导论 传统的眦s 系统以关系型数据库为核心。虽然在数据存储、管理、查询和支 持日常事务管理方面做的相当出色,但随着时代的发展及企业对数据分析需求 的不断提高,传统m i s 系统逐渐显示出其不足之处。由于自身的限制,传统m i s 系统对于决策支持所需的大量数据分析显得力不从心,它无法实现对数据的深 层分析和探索。而企业的信息化建设需要跨越各个业务运营系统,建立综合的、 信息资源平台;利用数据仓库技术,深层次地挖掘、分析当前和历史的生产业 务数据以及相关环境数据;自动快速获取其中有用的决策信息,为企业提供快 速、准确和便捷的决策支持。从而,促进基于数据仓库技术的经营分析系统开 始出现并迅速发展。 近几年,在信息技术革命和经济全球化的推动下,世界电信业发生了巨大的 变化。发展和变革的浪潮席卷全球,世界电信业剧烈动荡。一些主要发达国家 的电信业由于盲目扩张,过度竞争,过度投资,网络经济泡沫破灭,拍卖第三 代移动通信牌照等问题,导致企业效益下滑,经营亏损,股票暴跌,不少企业 破产倒闭,世界电信业在持续多年的高速发展之后滑向低谷。与此同时,中国 电信业进行了一系列的体制改革,在改革中发展,保持了稳健务实的发展势头。 随着中国加入耵0 和体制改革的逐步深化,我国电信市场的竞争也越来越激烈, 电信业特别是老的国有电信企业发展面临着许多困难,电信行业已步入低速增 长阶段,以大投入促进高增长的模式已经不再适应新的市场环境的要求。全面 创新,提高企业的核心竞争力,以客户为中心j 建立面向客户需求的快速高效、 灵活多变的运营体系和反馈体系,信息化管理来替代原有的传统管理手段,是 摆在国内电信企业面前的一个紧迫课题。 电信运营商必须对各种资源进行有效的整合,通过构建共享的企业运营数据 仓库来解决当前面临的突出问题,以增强企业核心竞争力各大电信运营商也 已经开始逐步认识到其重要性,并加大力度投入这一方面的工作然而,在各 大运营商投入大量的人力物力着手经营分析系统的建设实施时,基于自身固有 的特点,也不可避免地面临着许多困难n ,。 ( 1 ) 数据分析经验较少 国外电信业虽然在这方面有较多的成功案例,但是由于数据分析涉及到很多 用户的消费行为,有很多的文化特征,并且国内的电信业务本身也有其自身的 特点;因此,国外的很多数据分析模型并不能够直接搬到国内。这对国内电信 的数据仓库建设提出了很多问题; ( 2 ) 运营数据量大 到2 0 0 4 年8 月,中国拥有移动通信用户数3 1 5 亿,固定用户数3 0 3 亿, 电话用户总数居世界第一位,占世界总数的二成左右。如此庞大的用户群,仅 存在5 6 家电信运营商,必然导致每个运营商的用户数据十分庞大。庞大的数 据量的分析和存储,使数据仓库项目面临许多技术上的挑战。 ( 3 ) 系统集成复杂 国内的电信运营商,涉及的业务种类十分庞杂,不仅有网络管理系统,而且 有大量的网络支撑系统、管理系统等。由于历史的原因,这些庞杂的系统都采 用不同的厂家和系统构成,构建企业级的数据仓库,在技术上面临着很大的问 题。 ( 4 ) 业务种类多 国内的电信运营商都有不同的经营范围和内容,但经营的业务种类都比较 多,仅中国电信就涉及语音业务、数据业务及增值业务等多达几十种业务。数 据仓库的应用是与业务内容紧密结合的,因此也给数据仓库的分析工作带来了 难度。 ( 5 ) 数据仓库建设与管理数据脱离 目前,国内电信企业正处在数据仓库建设过程初期,仅仅构建部门级的数据 仓库,随着业务的不断扩展,必然要实现最终企业级数据仓库的建设工作。在 建设企业级数据仓库的过程中,与管理数据进行结合就变得十分重要。 综上所述,国内的电信企业数据仓库系统建设面临着很多的困难和挑战,也 构成了国内电信行业数据仓库系统建设过程中的重要课题即使对于目前已实 现经营分析系统一期建设的中国移动,如何将耳前现有的部门级的数据仓库, 升级到企业级数据仓库也是当务之急因此,面临这些困难,如何为整个企业 规划和实施单个的一致性主数据仓库具有较高的研究价值。而一个综合的数据 仓库构建过程中。数据仓库建模是其最关键的技术。它直接决定数据仓库的成 败业务的发展促使数据仓库不断变化,而数据模型的可扩展性决定数据仓库 对新需求的适应能力因此,数据仓库建模作为经营分析系统建设的主要难点, 对整个系统的实施起着关键的作用。良好的数据模型不仅有助于目前系统的实 2 现,更有利于将来系统的升级和发展。本文正是从该需要出发,研究如何结合 业务分析需求及最新数据仓库建模思想和理念,着手构建适合中国电信运营商 的企业级数据仓库模型。 1 2 国内外研究现状 1 2 1 数据仓库研究及应用 1 9 6 9 年,e f c o d d 博士发表了著名的关系数据模型的论文此后,关系数 据库的出现开创了数据管理的一个新时代。随后整个2 0 世纪8 0 年代到9 0 年代 初,联机事务处理一直是数据库应用的主流然而,当联机事务处理系统应用 到一定阶段后,用户便发现,单靠拥有联机事务处理能力已经不足以获得市场 竞争的优势,他们需要对其自身业务的运作以及整个市场相关行业的情况进行 分析,从而做出有利的决策。这种决策需要对大量的业务数据,包括历史业务 数据进行分析后才能得到。这种基于业务数据的决策分析,称为联机分析处理 如果说传统联机事务处理强调的是更新数据库一向数据库中添加信息,那么联 机分析处理就是从数据库中获取、利用信息。因此,数据仓库作为一个为业务 的统计分析服务的数据中心,它的概念被提了出来。 1 9 8 8 年,d e v i l i n 和m u r p h y 共同发表了一篇关于数据仓库论述的最早文章 1 9 9 3 年,数据仓库之父霄n l i 锄 li 册o n 首先系统性地阐述了关于数据仓库的 思想理论,为数据仓库的发展奠定了历史基石他将数据仓库定义为“1 。一个 面向主题的、集成的随时间变化的非易失性数据的集合,用于支持管理层的决 策过程” 数据仓库作为近年来兴起的一种新的数据库应用,各大数据库厂商纷纷宣布 产品支持数据仓库并提出一整套用以建立和使用数据仓库的产品i 跚早在9 0 年代初期,就投入大量优秀技术人员和资金开始了数据仓库的研究,并启动了 s t a r b n l s t 大型科研项目该项目主要就是为了攻克数据仓库领域的一些技术 难题,例如优化星型连接( s t a r j o i n ) ,实现多维分析i n f 0 跚i x 公司、o r a c l e 公司、s y b a s e 公司等也都提出了自己的数据仓库解决方案n c r 公司占有全球 数据仓库市场4 0 以上的市场份额,它的t e r a d a t a 数据仓库事业部,作为世界 上第一个数据仓库和目前世界上最大数据仓库的创建者,迄今为止已经为全球 上千家电信、银行、证券、保险、零售和航空业的顶级公司成功地实施了数据 仓库解决方案,近日,s y b a s e 和s u n 公司宣布,根据咨询公司i n f o s i z i n g 独 立审计的结果,s y b a s e 和s l u l 创立了世界上最大的经过验证的数据仓库,其存 储数据量突破了l 万亿行。受益于该数据仓库架构的客户,包括n i e l s e n 媒体 研究机构、美国航空、蒙特利尔银行、b i z r a t e c o m 、a 1 1 i a n z 保险、美国交通 部、西班牙t e l e f o n i c a 电信公司、三星卡、韩国朝兴银行、l j g 卡在内的各国企 业和政府部门。 数据仓库的发展同时也引起了学术界的极大兴趣,国际上许多重要的学术会 议,如超大型数据库国际会议( v l d b ) ,数据工程国际会议( d a t ae n g i n e e r i n g ) 等,都出现了专门研究数据仓库( d a t a 勋r e h o u s e ,简记为d w ) 、联机分析处 理( 咖- l i n ea n a l y t i c a lp r o c e s s i n g ,简记为o l a p ) 、数据挖掘( d a t am i n i n g , 简记为d m ) 的论文。 近年来,数据仓库已经发展到能支持企业决策,甚至支持企业合作伙伴和客 户的新高度。早先,数据仓库只为企业内部高层的某些领域提供战略决策能力, 如市场营销、战略策划和财务。数据仓库提供的信息极大地改善了这些部门的 决策质量。然而,在当今竞争异常激烈的商业环境中,优秀的战略仅仅是成功 的诸多要素之一。若不能付诸有效的实施,任何战略都将是一纸空文。新一代 的数据仓库应用不仅改善了企业战略的形成,更重要的是发展了战略的执行决 策能力。 据调查“】,财富5 0 0 强企业中已经有8 5 的企业建成或正在建立数据仓库。 数据仓库与i n t e r n e t 一样,正在成为最快的i ,r 增长点。1 9 9 6 年,全球企业在 数据仓库上的投资达到1 6 8 亿美元,并且以每年1 9 1 的速度增长。i d c 在1 9 9 6 年的一次对2 0 世纪9 0 年代前期进行的6 2 个数据仓库项目的调查结果表明:进 行数据仓库项目开发的公司平均在2 3 年的的时间内获得了平均为3 2 1 的投资 回报率到2 0 0 3 年,数据仓库达到了2 0 0 亿美元的市场规模。由此可见,数据 仓库技术对企业的发展起着重要作用中国作为一个经济飞速发展的国家,其 数据仓库市场更是前景广阔,充满无限商机。目前,国内的数据仓库市场已首 先在金融、电信等领域进行了应用。 1 2 2 数据仓库建模技术的研究现状 数据仓库模型由于决定了数据仓库的内容和结构,对数据仓库设计有着极其 深刻的影响。相对于传统的实体一关系模型而言,目前国际上普遍采用的建模规 范是维度模型。i l a l p hk i m b a l l 在其一本论著中提到,维度建模方法是为提供 决策支持的数据建立模型的最好方法,可以提供易用性和高性能等方面的最好 4 结果虽然数据仓库之父i n m o n 认为,维度建模仅适用于数据集市的构建,难 以支撑基础的数据仓库建设。但是,由于维度建模方法曾成功地应用到多个数 据仓库设计过程中,因此,维度建模仍然是现在通用的数据仓库建模技术。 很多人部是通过阅读c l l r i sd a t e 的关系数据库概论来了解关系数据库 的。该书初版于2 0 世纪8 0 年代早期,c h r i s 在其中提供了大量的零件、供应商 以及城市数据库样例,试图解释那些基本的概念,即考虑怎样将各种数据表进 行关系连接。随着业界将注意力转移到事务上的若干年中,与实体一关系建模 和规范化相关的问题也获得了进一步发展。 实体一关系建模是用来阐明数据源之间所存在的细微关系的一种规范,其最 高技术形式是删除数据中的所有冗余。这对事务来说非常有好处,因为它使事 务变得十分简单,并且具有极大的确定性可以肯定的是,关系数据库中事务 的成功主要取决于实体一关系建模的规范。 然而,使用实体一关系建模技术,却使得数据仓库目标的实现遭受挫折。该 目标是指能够进行直观、高性能的数据检索。那些试图将数据交付给最终用户 的人员开始意识到:不可能将这些极其复杂的模式介绍给最终用户因此。很 多人返回去,企图采用“更简单的设计”这些简单的设计看上去非常相似, 几乎可以将其中的每一个都看作是“维度”。 实际上,维度建模方法先于实体一关系建模方法产生。可以确定的是,至少 在2 0 世纪6 0 年代后期,g e n e r a lm i l l s 和d a r t u t h 大学发明了。事实”和“维 度”等词汇及相关技术n i e l s e n 市场销售研究公司在2 0 世纪7 0 年代开展的食 品杂货店和药店的审计数据活动中促进了这些技术的应用,后来又在2 0 世纪7 0 年代末期和8 0 年代早期的食品杂货店和药店的扫描数据中获得了进一步发展。 这种按自然方式生成的维度方法并非是任何一个人发明的在数据库设计过程 中,当设计人员将可理解性和性能作为最高设计目标时,它显现出不可抗拒的 力量。 1 2 3 电信行业数据仓库应用状况 在数据仓库技术不断发展的过程中,全球许多著名大型电信运营商已经通过 采用数据仓库系统获得了巨大收益a t t 、美国西南贝尔( s b c ) 、b e l ls 0 u t h 、 s p r i n t ,g t e 、 南新英格兰电信、比利时电信、法国电信、巴西b c p 电信、 比利时电信等几十家全球著名大型电信运营商,就是在激烈的市场竞争中,纷 纷采用数据仓库解决方案获得巨大收益的成功典范。 5 全球各大电信运营商对数据仓库的应用主要集中在以下几个方面: ( 1 ) 消费行为分析 通过对用户的分类,从消费能力、消费习惯、消费周期等诸方面对用户的话 费行为进行分析和预测,为企业的相关解决措施提供依据和帮助。 ( 2 ) 客户流失和优惠仿真预测模型 建立一个客户流失预测模型,尽可能准确地预报客户流失的概率和可能性。 以便及早采取相应的措施,防止现有客户的流失。还可以利用数据仓库技术实 现优惠策略在模型上的仿真,根据优惠策略进行模拟计费和模拟出帐,其仿真 结果将提示所制定的优惠策略是否合适,并可按情况进行调整,优化,使优惠 策略获得最大的成功。 ( 3 ) 客户关系管理( c r m ) 分析 在电信行业内,赢得一个新客户比保留一个老客户所付出的代价要高得多, 因此,提高服务质量,赢得客户的忠诚对企业生存发展意义重大。客户关系管 理应用的目的是根据客户的属性,从不同角度深层次分析客户,从而达到了解 客户的目的。针对不同的客户采取不同的促销活动以及更好和更有针对性的服 务,以增加新的客户量,提高客户的忠诚度,减少客户流失,留住老客户,不 断增加利润贡献度一些世界级的电信运营商,如英国电信、a t t 、德国电信、 m c i 、s p r i n t 、t e l i a 等,无不把c 脚作为企业竞争的利器。 “) 防范欺诈行为分析 电信企业的欺诈行为使用户、投资人蒙受重大的损失同样,电信公司也由 于各种用户欺诈行为,如盗打电话、拖欠拒交话费、伪造身份注册及网上商业 诈骗等,蒙受巨额损失使用数据仓库建立的顾客信息系统,通过欺骗检钡9 功 能,能够很快发现反常电话以及欺骗性的打电话方式,并能在造成重大经济损 失之前终止这种欺骗行为。 ( 5 ) 网络管理和网络优化分析 网络管理和网络优化分析就是对目前网络管理中大量的数据进行分析、聚 类,从面为提高全网质量,优化网络结构、进行网络规划提供可靠的保证。通 过数据仓库的应用,电信运营商可以按照市场情况来了解和分析网络资源的使 用情况,以便进行更好的容量规划 ( 6 ) 动态报表生成 “1 动态报表就是利用数据仓库技术中元数据的思想,将报表元素分解成基本 构件,实现对数据按用户轴、时间轴、地域轴、通话类型轴等,对用户的呼叫 6 量、消费量等进行分析统计,形成各种各样的报表。通过该项应用,使公司主 管能够查看跨业务部门、跨区域的结果,包括收入、客户资料、利益率、费用、 实际情况与预测等。 在国内,从上世纪八十年代开始,在近二十年的时间中。电信企业已全面实 现了生产及服务过程信息化随着业务不断趋于多样化,各电信企业都针对不 同业务建立了多个生产管理系统。如中国电信建设的生产系统就包括了进行业 务受理、配线配号,工单管理的业务支撑系统;进行计费、帐务及欠费处理的 计费系统;1 1 4 、1 1 2 、1 0 0 0 0 号等专业系统;2 0 1 、i c 等卡类管理系统;基于互 联网信息管理的数据业务管理系统以及交换,传输、网管系统等。中国移动也 建设了综合业务支撑( b o s s ) 系统:用于梦网短信接入的短信网关、彩信网关、 g p r s 网关等各专业管理系统。这些支撑系统的建设,规范了电信企业内部管理 流程,大大提高了电信企业的工作效率,增强了业务水平,提高了企业的竞争 力。 但是,随着市场竞争的不断加剧,对客户资源的争夺也进入了白热化的阶段, 如何发展新用户,扩大自己的用户群;如何设计出更适合用户需要的业务,将 用户绑定在自己的网络上;如何合理地设定资费在用户可以接受的水平;一个 个问题摆在了电信运营商的面前。在激烈的市场竞争面前,要想科学的决策, 离不开数据的支持电信运营商们在建立各项系统的过程中,己积累了大量的 经营数据,如用户的通话记录,短信发送记录,用户上网记录,用户资料变更 记录,用户投诉记录,网络运行记录等通过对这些数据进行分析,可以掌握 企业的运营状况,为企业科学、准确的决策提供依据。 正是基于这样的信息化基础,国内电信企业应用数据仓库建设分析型系统的 条件日趋成熟近两年来,各运营商都已不同程度、不同规模地启动了经营分 析系统的规划和实施工作,期望这些系统为企业提供高效的数据分析手段,将 信息转换成竞争优势,提高企业的决策能力、效率和准确性,获得更多的投资 回报各大电信企业都已经开始着手进行这一方面的建设工作,但是目前来说, 基本上还没有形成“全企业、全业务”范围的经营分析活动,应用也多以报表 和指标为主中国移动从2 0 0 1 年到2 0 0 3 年初步完成各省经营分析系统的初期 建设工作( 主要是面向帐务数据) ,但距离全业务还有很大的一段距离中国 电信目前也正在进行各省公司经营分析系统建设的试点,并准备制定具体的数 据仓库建设指导规范中国联通也正在部分省公司推行经营分析系统的建设。 大势所趋,国内电信企业都期望建立起一套。全企业、全业务”范围的经营分 7 析系统,以利于企业不断完善经营活动,从而提高企业的核心竞争力。 1 3 研究目的及意义 信息技术的不断推广应用,将企业带入了一个信息爆炸的时代。面对激烈的 竞争环境,电信运营商们为了提升自己的核心竞争力,解决信息孤岛问题,争 相进行经营分析系统建设。本文进行的课题研究的对象,就是电信企业经营分 析系统建设所基于的数据仓库模型的构建。电信企业数据仓库建模足一个新的 研究方向,希望通过本文的研究达到以下目的: ( 1 ) 对电信行业数据仓库应用特点和需求进行分析归纳,使我们对电信企业 数据仓库建设有一个完整的认识; - ( 2 ) 由于目前电信行业的经营分析系统处于建设初期,基本部足构建部门级 的数据仓库。难以实现全面的数据综合,进行统一的数据分析。因此,本文在 此基础上,通过对部门级的数据仓库进行综合,并结合多方面业务系统的数据, 提出构建电信企业级的综合数据仓库模型的实现方法和技术要点; ( 3 ) 结合研究课题,在一省级电信公司构建和实施该数据仓库模型。从而将 理论与实践更好地结合起来,进一步说明电信企业数据仓库模型的构建方法, 达到研究与实用紧密结合的目的。 1 4 研究内容及论文结构 1 4 1 课题研究内容 本文采用了理论研究与实证分析相结合的方法首先对电信企业目前面临的 困难和挑战进行了详细分析,着重指出建设一个统一的经营分析系统的必要性, 从而引出作为经营分析系统建设难点的数据仓库模型的重要性。随后,本文对 数据仓库理论进行阐述,并结合国内外研究理论探讨数据仓库建模技术及方法 在此基础上针对我国且前电信行业基于数据仓库的经营分析系统存在的问题, 在分析研究和实践的基础上,作者结合经营分析系统设计的工作经历,提出如 何构建一个实现全企业全业务性质的经营分析系统数据仓库模型的策略。模型 的构建步骤按三个层次展开: 1 ) 高层建模( 实体关系层) ,构建概念模型,界定数据范围,以业务系统 的信息模型为依据进行主题的划分; 2 ) 中间层建模( d is ,数据项集) ,构建逻辑模型,对高层模型中标识 8 出的每个主要主题域或实体,再进一步扩展成它们各自的中间层模型; 3 ) 底层建模( 实现模型) ,构建物理模型,扩展中间层模型,使模型中包 含有关键字和物理特性。物理数据模型主要由一系列关系表构成,还需要考虑 性能特性,确定数据的粒度和分区,考虑数据的存储方式,使得系统有较好的 性能。因本文构建的模型基于关系数据库,数据存储方式的管理主要由数据库 实现,因此该步骤主要对物理模型的表结构及其实现进行描述,不对数据的存 储方式进行讨论。 最后,本文通过对某一省级电信公司成功应用数据仓库模型的案例进行实证 分析,对构建的数据仓库模型的实施背景和过程进行了阐述,并对实施结果进 行评价。从而进一步体现了经营分析系统数据仓库模型的构建,对电信企业提。 升其核心竞争优势的巨大效用,验证了该数据仓库模型的有效性和可行性 1 4 1 论文的结构 本文共分为五章,其中第三、四章是本文的核心部分。 第一章:导论。在导论中,介绍了进行数据仓库研究的背景,国内外研究现 状以及本文的研究目的和内容。 第二章:数据仓库及建模理论综述。本章首先对数据仓库的概念进行了阐述, 并对数据仓库建模的技术方法进行归纳和研究,介绍了数据仓库存储及管理方 式的发展 第三章;经营分析系统数据仓库需求分析及模型构建。作为本文的重点,本 章结合电信行业经营分析系统建设的业务需求,采用相关建模技术,按照三个 建模步骤,逐步构建应用于电信行业经营分析的综合数据仓库模型 第四章:实施案例本章也是本文重点。通过列举一个案例,在某省级电信 公司建设经营分析系统的过程中,论述了如何将本文构建的综合数据仓库模型, 应用到电信企业的经营分析系统建设中,提出了数据仓库分布方法,并对模型 实施的可行性及效果进行评价 第五章:结论与展望。 9 亟论塞 差2 童数据佥崖厦建缝翌淦丝述 第2 章数据仓库及建模理论综述 2 1 数据仓库环境 2 1 1 数据仓库概念 数据仓库概念创始人矾儿i n m o n 在其所写的论著中系统性地阐述了关于数 据仓库的思想理论,他在该书中将数据仓库定义为“1 :一个面向主题的、集成的 随时间变化的非易失性数据的集合,用于支持管理层的决策过程。关于数据仓 库的定义还有:“数据仓库是一种体系结构,一种独立存在的不影响其他已经 运行的业务系统的语义致的数据仓储,可以满足不同的数据存取、文档报告 的需要”数据仓库“是一个不断发展的过程,将多个异质的原始数据融合在 一起,用于支持结构化的在线查询、分析报告和决策支持”。 数据仓库中的数据面向主题,与传统数据库面向应用相对应,主题是一个在 较高层次上将数据归类的标准,每一个主题对应一个宏观的分析领域; 数据仓库的集成特性是指在数据进入数据仓库之前,必须经过数据加工和集 成,这是建立数据仓库的关键步骤,首先要统一原始数据中的矛盾之处。还要 将原始敛据结构做一个从面向应用向面向主题的转变; 数据仓库的稳定性是指数据仓库反映的是历史数据的内容,而不是日常事务 处理产生的数据,数据经加工和集成进入数据仓库后是极少或根本不修改的; 数据仓库是不同时间的数据集合,它要求数据仓库中的数据保存时限能满足 进行决策分析的需要,而且数据仓库中的数据都要标明该数据的历史时期。 数据仓库最根本的特点是物理地存放数据,而且这些数据并不是最新的、专 有的,而是来源于其它数据库的。数据仓库的建立并不是要取代数据库,它要 建立在一个较全面和完善的信息应用的基础上,用于支持高层决策分析,而事 务处理数据库在企业的信息环境中承担的是日常操作性的任务 数据仓库的概念一经出现,就首先被用于金融、电信、保险等主要传统数据 处理密集型行业。国外许多大型的数据仓库在1 9 9 6 一1 9 9 7 年建立那么,什么 样的行业最需要和可能建立数据仓库呢? 有两个基本条件:第一。该行业育较 为成熟的联机事务处理系统,它为数据仓库提供客观条件;第二,该行业面临 市场竞争的压力,它为数据仓库的建立提供外在的动力。因此,在国内,电信 1 0 行业成为使用数据仓库的主要用户之,尤其是在经营活动分析方面的应用 2 1 2 数据仓库体系结构 整个数据仓库系统是一个包含四个层次的体系结构,具体如下图2 一l 所示: 图2 一l 数据仓库体系结构图 数据仓库系统体系结构; 数据源:是数据仓库系统的基础,是整个系统的数据源泉。通常包括企业 内部信息和外部信息内部信息包括存放于胁脚s 中的各种业务处理数据和各 类文档数据。外部信息包括各类法律法规、市场信息和竞争对手的信息等等; 数据的存储与管理:是整个数据仓库系统的核心数据仓库的真正关键是 数据的存储和管理数据仓库的组织管理方式决定了它有别于传统数据库,同 时也决定了其对外部数据的表现形式要决定采用什么产品和技术来建立数据 仓库的核心,则需要从数据仓库的技术特点着手分析针对现有各业务系统的 数据,进行抽取、清理,并有效集成,按照主题进行组织。数据仓库按照数据 的覆盖范围可以分为企业级数据仓库和数据集市 0 l a p 服务器:对分析需要的数据进行有效集成,按多维模型予以组织, 硬监窆 蓥2 重熬据盒匪厦建搓型i 金绽述 以便进行多角度、多层次的分析,并发现趋势。其具体实现可以分为:r o l a p 、 m o l a p 和h o l a p 。r o l a p 基本数据和聚合数据均存放在r d b m s 之中;m o l a p 基本 数据和聚合数据均存放于多维数据库中;h o l a p 基本数据存放于r d b m s 之中。聚 合数据存放于多维数据库中。 前端工具:主要包括各种报表工具、查询工具、数据分析工具、数据挖掘 工具以及各种基于数据仓库或数据集市的应用开发工具。其中数据分析工具主 要针对0 l a p 服务器,报表工具、数据挖掘工具主要针对数据仓库。 2 1 3 数据仓库中的数据形式 数据仓库中的数据分为四个级别“】:早期细节级、当前细节级、轻度综合级、 高度综合级。源数据经过综合后,首先进入当前细节级,并根据具体需要进行 进一步的综合,从而进入轻度综合级乃至高度综合级,老化的数据将进入早期 细节级。 由此可见,数据仓库中存在着不同的综合级别,一般称之为粒度,指的是 数据仓库中数据单元的细节程度或综合程度的级别。细节程度越高,粒度级就 越低;相反,细节程度越低,粒度级就越高。例如,一个简单的交易处于低粒 度级,而每月所有交易的汇总则处于一个高粒度级。数据的粒度一直以来都是 一个主要的设计问题,对数据仓库环境所处的整个体系结构都有影响。在早期 建立的操作型系统中,一般不考虑粒度问题。当更新细节数据时,几乎总是假 定把它存放在最低粒度级上。但在数据仓库环境中,对粒度不能作这种假设。 在数据仓库环境中粒度之所以是重要的设计问题,是因为它会深刻地影响存放 在数据仓库中的数据量的大小以及数据仓库所能回答的查询类型。在数据仓库 中的数据量大小与所能回答查询的细节级别之间要做出权衡 数据仓库中还有一种重要的数据一元数据( 啪t a d a t a ) 元数据是关于致 据的数据,如在传统数据库中的数据字典就是一种元数据。在数据仓库环境下, 主要有两种元数据:第一种是为了从操作性环境向数据仓库转化而建立的元数 据,包含了所有源数据项名、属性及其在数据仓库中的转化;第二种元数据在 数据仓库中是用来和终端用户的多维商业模型前端工具之间建立映射,此种元 数据称之为d s s 元数据,常用来开发更先进的决策支持工具 数据仓库的数据组织形式包括“】: 1 简单堆积文件:它将每日由数据库中提取并加工的数据逐天积累并存储 起来。 2 轮转综合文件:数据存储单位被分为日、周、月、年等几个级别。在一 个星期的七天中,数据被逐一记录在每日数据集中;然后,七天的数据被综合并 记录在周数据集中;接下去的一个星期,日数据集被重新使用,以记录新数据。 同理,周数据集达到五个后,数据再一次被综合并记入月数据集。以此类推,轮 转综合结构十分简捷,数据量较简单堆积结构大大减少当然,它是以损失数 据细节为代价的,越久远的数据,细节损失越多。 3 简化直接文件:它类似于简单堆积文件,但它是间隔一定时间的数据库 快照,比如每隔一星期或一个月作一次。 4 连续文件:通过两个连续的简化直接文件,可以生成另一种连续文件, 它是通过比较两个简单直接文件的不同而生成的。当然,连续文件同新的简单 直接文件也可生成新的连续文件。 2 1 4 数据仓库环境的建设 企业数据仓库的建设,是以现有企业业务系统和大量业务数据的积累为基础 的。数据仓库不是静态的概念,只有把信息及时交给需要这些信息的使用者, 供他们做出改善其业务经营的决策,信息才能发挥作用,信息才有意义。而把 信息加以整理归纳和重组,并及时提供给相应的管理决策人员,是数据仓库的 根本任务。从产业界的角度看,数据仓库建设是一个工程,是一个过程。 因此,数据仓库的开发生命周期不同于操作型数据库系统的开发生命周期, 传统的系统开发生命周期( s d l c ) 是由需求驱动的,首先必须理解需求,再进 行设计和开发;而数据仓库的开发遵循c l d s ,也就是“螺旋式”开发方法,即由 数据开始,获取数据后,将数据进行集成并检查数据的准确性,针对数据进行 编程,但得到最后结果后,系统的需求才得到理解。 因此数据仓库环境是按照反复开发方式建立起来,即首先建立系统的一小部 分,然后再建一部分,一直按相同的路径反复进行开发,以。总体规划、分步 实旖、步步见效”为原则 一般来说,建立数据仓库环境遵循以下四个步骤: ( 1 ) 充分了解企业决策层的需求;明确企业关心的主要问题,并按照优先级 进行划分; ( 2 ) 设计数据仓库模型; ( 3 ) 实现业务操作系统及外部数据源的数据向数据仓库的迁移( e t l ) ; ( 4 ) 通过信息展现工具以可视化手段提供给企业内各级信息客户使用 亟i 金g 筮2 童数坦佥廑厦建搓堡淦绽述 数据仓库的开发是一个高风险的项目,在建设过程中,可考虑以数据仓库示 范项目的形式展开,通过面向一两个关键业务的开发,以保证建设的重点突出 和范围适中以及成功率。一旦成功地建设了示范项目,将增加技术人员和业务 人员的信心,为业务问题和技术问题之间达到平衡摸索一套经验,这样有助于 整个项目在一个可控制的状态下实施。同时示范项目也是数据仓库迸一步开发 的组成部分,通过类似于示范项目的循环的开发,有助于增加功能,减小风险。 2 2 数据仓库的数据存储和管理 数据仓库的组织管理方式决定了它有别于传统数据库的特性,同时也决定了 其对外数据表现形式。要决定采用什么产品和技术来建立数据仓库核心,则需 要从数据仓库的技术特点着手分析。 数据仓库遇到的第一个问题是对大量数据的存储和管理。这里所涉及的数据 量比传统事务处理大得多。且随时间的推移而累积。从现有技术和产品来看, 只有关系数据库系统能够担当此任关系数据库经过近3 0 年的发展,在数据存 储和管理方面已经非常成熟,非其它数据管理系统可比目前不少关系数据库 系统已支持数据分割技术,能够将一个大的数据库表分散在多个物理存储设备 中,进一步增强了系统管理大数据量的扩展能力采用关系数据库管理数百个 g b 甚至到t b 的数据已是一件平常的事情。 数据仓库要解决的第二个问题是并行处理。在传统联机事务处理应用中,用 户访问系统的特点是短小而密集:对于一个多处理机系统来说,能够将用户的 请求进行均衡分担是关键,这便是并发操作而在数据仓库系统中,用户访问 系统的特点是庞大而稀疏,每一个查询和统计都很复杂,但访问的频率并不是 很高。此时系统需要有能力将所有的处理机调动起来为这一个复杂的查询请求 服务,将该请求并行处理。因此,并行处理技术在数据仓库中比以往更加重要 数据仓库的第三个问题是针对决策支持查询的优化这个问题主要针对关系 数据库而言,因为其它数据管理环境连基本的通用查询能力都还不完善在技 术上,针对决策支持的优化涉及数据库系统的索引机制、查询优化器、连接策 略、数据排序和采样等诸多部分普通关系数据库采用b 树类的索引,对于性 别、年龄、地区等具有大量重复值的字段几乎没有效果而扩充的关系数据库 则引入了位图索引的机制,以二进制位表示字段的状态,将查询过程变为筛选 过程,单个计算机的基本操作便可筛选多条记录由于数据仓库中各数据表的 数据量往往极不均匀,普通查询优化器所得出得最佳查询路径可能不是最优的。 1 4 因此,面向决策支持的关系数据库在查询优化器上也作了改进,同时根据索引 的使用特性增加了多重索引扫描的能力。 数据仓库的第四个问题是支持多维分析的查询模式,这也是关系数据库在数 据仓库领域遇到的最严峻的挑战之一。用户在使用数据仓库时的访问方式与传 统的关系数据库有很大的不同。对于数据仓库的访问往往不是简单的表和记录 的查询,而是基于用户业务的分析模式,即联机分析。它的特点是将数据想象 成多维的立方体,用户的查询便相当于在其中的部分维( 棱) 上施加条件,对立 方体进行切片、分割,得到的结果则是数值的矩阵或向量,并将其制成图表或 输入数理统计的算法。 关系数据库本身没有提供这种多维分析的查询功能,而且在数据仓库发展的。 早期,人们发现采用关系数据库去实现这种多维查询模式非常低效、查询处理 的过程也难以自动化为此,人们提出了多维数据库的概念多维数据库是一 种以多维数据存储形式来组织数据的数据管理系统,它不是关系型数据库,在 使用时需要将数据从关系数据库中转载到多维数据库中方可访问。采用多维数 据库实现的联机分析应用,我们称之为l a p 多维数据库在针对小型的多维分 析应用时有较好的效果,但它缺少关系数据库所拥有的并行处理及大规模数据 管理扩展性,因此难以承担大型数据仓库应用这样的状态直到。星型模式” 在关系数据库设计中得到广泛的应用才彻底改变几年前,数据仓库专家们发 现,关系数据库若采用星型模式来组织数据就能很好地解决多维分析的问题。 星型模式只不过是数据库设计中数据表之间的一种关联形式,它的巧妙之处 在于能够找到一个固定的算法,将用户的多维查询请求转换成针对该数据模式 的标准s q l 语句,而且该语句是最优化的星型模式的应用为关系数据库在 数据仓库领域打开绿灯采用关系数据库实现
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 山东文化产业职业学院《中国文学史三》2023-2024学年第二学期期末试卷
- 云南省文山州砚山县2025年数学三下期末质量跟踪监视试题含解析
- 吉林省汪清县2025届初三期中考试语文试题(A卷)试题含解析
- 吉林省三校联考2025届高三3月一模英语试题含解析
- 手术室护理文书书写制度
- 沈阳工业大学工程学院《作曲理论基础》2023-2024学年第一学期期末试卷
- 温州商学院《ORACE数据库》2023-2024学年第二学期期末试卷
- 扬州大学广陵学院《供应链物流管理》2023-2024学年第二学期期末试卷
- 山东省菏泽市鄄城县重点名校2024-2025学年初三数学试题下学期第三次月考试题含解析
- 南昌航空大学科技学院《设计速写》2023-2024学年第二学期期末试卷
- 中国成人心肌炎临床诊断与治疗指南2024解读
- 《消化性溃疡医学》课件
- 物理教师老师个人简历
- 智慧鱼塘系统设计方案
- 学生入学合同协议书范本格式
- 光伏工程施工安全方案
- 声乐课课件教学
- 上消化道出血健康宣教
- 统编版四年级下册道德与法治7、我们的衣食之源 课件
- GB/T 44395-2024激光雷达测风数据可靠性评价技术规范
- 20以内加减法口算练习题带括号填空135
评论
0/150
提交评论