已阅读5页,还剩51页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 长期以来,电信企业大量而详尽的电信业务数据只被简单的应用在各种业 务系统中,而没有被更有效的开发利用。随着电信市场的竞争日趋激烈,如何 利用这些数据为电信业提供决策支持服务,从而进一步拓宽电信业务,促进电 信业务发展,成为当务之急。因此有必要建立一套基于全省综合业务的支持系 统,该系统针对电信业务种类多,业务系统更新周期短的特点,利用数据仓库 技术将大量电信数据转换成可靠的、商用的决策支持信息,并在数据仓库基础 之上进行多维数据分析、数据挖掘和建模分析,帮助明确决策目标和进行问题 的识别,了解经营情况,查看、细分客户群,从而帮助决策者科学地进行投资、 开拓新业务产品等决策。 本文主要研究数据仓库、数据挖掘等技术在电信行业经营分析中应用的相 关理论和实际应用。本文首先对数据仓库,数据挖掘和d s s 技术进行了系统的阐 述,主要介绍了它们的概念和特点,体系结构,方法,工具等方面,为论文中讨论 的议题进行知识准备;其次利用湖北电信立项实施企业级电信综合业务支持系 统的机会,联合大唐公司和l o n g s h i n e 公司,通过对各部门级的数据进行整合, 并结合多方面业务系统的数据,提出构建电信企业级的综合业务支撑系统模型 的实现方法和技术要点来实现电信综合业务运营支持系统;再次通过对数据挖 掘技术的经典算法一a p f i o r i 算法的研究,分析电信企业内部运营系统中已存在 的海量历史数据,挖掘数据中的关联关系,从中提炼出业务发展情况和客户消 费行为相关联的核心信息,找出潜在消费特征,消费群体等,为企业不同层次 的管理者提供广泛的管理和决策支持,从而使其在激烈的市场竞争中谋取一席 之地;最后,利用改进后的关联规则算法对湖北电信移动市话一小灵通的海量 呼叫做试验分析,得出有效地改进结果一利用改进后的关联规则算法,能够有 效地降低传统的关联规则算法中因支持度阈值和置信度阈值微小变化而引起的 规则数量的巨大变化,使得对用户数量少得资费信息进行挖掘成为可能。 关键词;数据仓库,数据挖掘,决策支持,联机分析,a p r i o r i a b s t r a c t f o ral o n gt i m e ,l a r g ea n dd e t a i l e dd a t ao ft e l e c o m m u n i c a t i o n se n t e r p r i s e sh a s o n l yb e e na p p l i e di ns i m p l eo p e r a t i o n a ls y s t e m sw i t h o u tb e i n gu s e dm o r ee f f e c t i v e w i t hi n c r e a s i n g l yf i e r c ec o m p e t i t i o ni nt h et e l e c o m m u n i c a t i o nm a r k e t ,h o wt ou s c t h e s ed a t at os u p p o r td e c i s i o na n dd e v e l o pt e l e c o m m u n i c a t i o nb u s i n e s sf o rt h e t e l e c o m m u n i c a t i o n si n d u s t r yb 圮o m eaf o c u s t h e r e f o r e i ti sn e c e s s a r yf o rt h e e n t e r p r i s e st oe s t a b l i s hac o m p r e h e n s i v eb u s i n e s ss u p p o r ts y s t e m ,w h i c hw a sa i m e da t t h ef e a t u r e so fm u i r i p l et e l e c o m m u n i c a t i o nb u s i n e s sa n dt h es h o r tu p d a t ec y c l e t h e s y s t e m u s e sw a r e h o u s e t e c h n o l o g y t oc o n v e r t l a r g e s n u m b e r so f t e l o c o m m u n i c a t i o nd a t ai n t or e l i a b l ea n dc o m m e r c i a li n f o r m a t i o nf o rd e c i s i o n , a n d b a s e do l ld a t aw a r e h o u s et h es y s t e ms h o u l db ea b l et oa n a l y z et h em u l t i d i m e n s i o n a l d a t a , d a t am i n i n ga n dm o d e l i n ga n a l y s i s s oi t 啪h e l pe n t e r p r i s et od e c i d ei t sp o l i c y o b j e c t i v e s ,r e c o g n i z cp r o b l e m s , l e a r n a b o u ti t s m a n a g e m e n t s i t u a t i o n u n d e r s t a n d i n gb u s i n e s sa n d i t sc u s t o m e r s t h i sw i l lh e l pd e c i s i o nm a k e r st oi n v e s to r d e v e l o pn e wp r o d u c t sa n do t h e rb u s i n e s sd e c i s i o n sr e a s o n i n g l y t h i st h e s i sm a i n l yd i ds o m er e s e a r c ho fd a t aw a r e h o u s ea n dd a t am i n i n g t e c h n o l o g yi nt h et e l e c o m m u n i c a t i o n si n d u s t r ya n di t sb u s i n e s sa n a l y s i sa p p l i c a t i o n o ft h et h e o r ya n dp r a c t i c a la p p l i c a t i o n a n di t f i r s t l ys y s t e m i cd e s c r i b e dt h o s e t h e o r ya n dt e c h n o l o g ya b o u tw a r e h o u s e ,d a t am i n i n ga n dd s s ,w h i c hm a i n l y i n t r o d u c e dt h e i rc o n c e p ta n d c h a r a c t e r i s t i c , s y s t e ms t r u c t u r e , m e t h o d , t o o l s , e t c t h es u b j e c tw h i c hd i s c u s s e df o rt h ep a p e rw a sc a r d e do nt h ek n o w l e d g e p r e p a r a t i o n ;n e x t ,i nt h i sa r t i c l e ,i t u n i t e dt h ed a t a n gc o r p o r a t i o na n dl o n g s h i n e c o r p o r a t i o n , c a i r i c s o nt h ec o n f o r m i t yf o rv a r i o u sd e p a r t m e n t sl e v e ld a t a , a n du n i f i e d t h ev a r i o u so p e r a t i o n a lc h a n n e ld a t a , p r o p o s e dc o n s t r u c t st h et e l e c o m m u n i c a t i o n e n t e r p r i s el e v e lc o m p r e h e n s i v es e r v i c es u p p o r ts y s t e mm o d e lr e a l i z a t i o nm e t h o da n d m a i n l yt e c h n i c a lp o i n t sf o rt h er e a l i z a t i o no ft h et e l e c o m m u n i c a t i o ns y n t h e t i c a l s e r v i c eo p e r a t i o ns u p p o r ts y s t e m ,i nt h eo p p o r t u n i t yo fs e t t i n gu pt h ei m p l e m e n t a t i o n e n t e r p r i s el e v e lt e l e c o m m u n i c a t i o ns y n t h e t i c a ls e r v i c es u p p o r ts y s t e mf o rh u b e i t e l e c o m ;a n dt h i r d l y , a c c o r d i n gt ot h er e s e a r c ho ft h et e c h n o l o g yo fd a t am i n i n g n a l g o r i t h m s - a p r i o r ic l a s s i c a la l g o r i t h m ,i ta n a l y s e dt h o s em a s s i v eh i s t o r i c a ld a t ao f t e l e c o mo p e r a t i o na n dt h ec o r r e l a t i o nb e t w e e nd a t am i n i n g a t t a i n e df r o mt h e b u s m e 姆d e v e l o p m e n ta n dc o n s u m e rb e h a v i o rr e l a t e dt ot h ec o r ec l i e n ti n f o r m a t i o n , i d e m i f yp o t e n t i a lc o n s u m e rg r o u p s , c o n s u m p t i o nc h a r a c t e r i s t i c sf o raw i d er a n g eo f e n t e r p r i s em a n a g e r sa td i f f e r e n tl e v e l so fm a n a g e m e n ta n dd e c i s i o ns u p p o r t , w h i c h c o u l dg a i naf o o t h o l di nt h ef i e r c em a r k e tc o m p e t i t i o n ;f i n a l y , i td i ds o m ea n a l y s i sf o r t h o s eh u b e it e l e c o mp h sw i t ht h ei m p r o v e dd a t am i n i n ga l g o r i t h m , a n dg o ta n a v a i l a b l ei m p r o v e dr e s u l t - - w h i c hc o u l dr e d u c el a r g ec h a n g ef o rt h es u p p o r ta n d b e l i e v et h e s h o l dv a i u ec h a n g e sr e a s o l li nt h et r a d i t i o n a lr e l a t i o n s h i p a l g o r i t h m s o i tc o u l dm a k ei tp o s s i b l ef o rt h o s ef e wc u s t o m e r s d a t am i n i n g k e yw o r d s :d a t aw a r e h o u s e ,d a t am i n i n g ,d e s i g ns u p p o r t ,o l a p ,a p r i o r , m 此页若属实请申请人及导师签名。 独创性声明 本人声明,所呈交的论文是我个人在导师指导下进行的研究工 作及取得的研究成果据我所知,除了文中特别加以标注和致谢 的地方外,论文中不包含其他人已经发表或撰写过的研究成果, 也不包含为获得武汉理工大学或其它教育机构的学位或证书面使 用过的材料与我一同工作的同志对本研究所做的任何贡献均已 在论文中作了明确的说明并表示了谢意 研究生签名:i 丝j 复乏兰月 关于论文使用授权的说明 本人完全了解武汉理工大学有关保留、使用学位论文的规定, 即:学校有权保留送交论文的复印件,允许论文被查阅和借阋; 学校可以公布论文的全部内容,可以采用影印、缩印或其他复制 手段保存论文 ( 保密的论文在解密后应遵守此规定) 研究生张喜唯咎导师虢二 么垮易期乒乍 注;请将此声明装订在学位论文的目录前 7 武汉理工大学硕士学位论文 1 1 课题来源与背景 第1 章绪论 自从中国加入w r o 后,电信行业日益开放、国外电信企业也慢慢进入中国 市场,而民间资本也开始介入电信运营领域,使国内电信企业面临前所未有的 挑战;另外原有电信企业内部的大规模重组所带来的问题也是一个很大的挑战。 由于自身和外在环境都在发生着剧烈的变化,能否对问题快速做出科学的决策, 对企业的成败有着重大的影响。湖北省电信公司对全省主要业务( 固网,小灵通以 及数据业务1 进行资源重新分配、拓展新业务、划分业务资费、制定营销策略等 管理工作,而这些工作需要快速科学地进行各种决策,但是现有系统多数只能 提供单一模式的数据,要收集全面的决策信息和发展趋势常常因各种原因不能 及时提供,加之好多数据是以w o r d , e x c e l 等办公软件的报表形式存储,查找 很不方便,另外许多对决策非常有用的信息平时都没有积累( 如全国和湖北的宏 观经济情况、其他通讯公司的业务发展情况等) ,造成了决策时的数据依靠不足, 缺乏科学性,决策者的经验和主观意志往往直接影响着决策对象。 但科学决策是现代企业的管理的核心与基础,因此有必要建立一套基于全 省综合业务的支撑系统,该系统针对电信业务种类多,业务系统更新周期短的 特点,利用数据仓库技术将大量电信数据转换成可靠的、商用的决策支持信息, 并在数据仓库基础之上进行多维数据分析、数据挖掘和建模分析,帮助明确决 策目标和进行问题的识别,了解经营情况,查看,细分客户群,从而帮助决策 者科学地进行投资、开拓新业务产品等决策。本课题源于“电信综合业务支持 系统”的实际项目。该项目已在中国电信集团湖北电信公司正式立项,该系统能 够通过对电信企业内部运营系统中已存在的海量历史数据进行深入处理和分 析,从中提炼出业务发展情况和客户消费行为相关联的核心信息,为企业不同 层次的管理者提供广泛的管理和决策支持,在电信业务内有着广阔的应用前景。 2 武汉理工大学硕士学位论文 1 2 课题研究的目的及意义 信息技术的不断推广应用,将企业带入了一个信息爆炸的时代。面对激烈 的市场竞争环境,电信运营商们为了提升自己的核心竞争力,解决信息孤岛问 题,争相进行业务支撑系统的建设。本文进行的课题研究对象是电信综合业务 支撑系统中数据仓库及数据挖掘的研究和应用。而基于数据仓库和数据挖掘的 电信企业综合业务系统建模是一个新的研究方向,希望通过本文的研究达到以 下目的: 1 1 对电信行业数据仓库应用特点和需求进行归纳分析,使我们对电信企业数 据仓库建设及数据挖掘有一个完整的认识: 由于目前电信行业的业务支撑系统处于建设期,基本都是构建部门级或者 单一的业务系统的业务支撑系统,难以实现全面的数据综合,进行统一的数据 分析。因此,本文在此基础上,通过对各部门级的数据进行整合,并结合多方 面业务系统的数据,提出构建电信企业级的综合业务支撑系统模型的实现方法 和技术要点 3 1 结合研究课题,在湖北电信公司构建和实施该业务支撑系统,从而将理论 与实践更好地结合起来,并在此基础上,对湖北电信移动市话小灵通的海量 呼叫数据进行分类,利用经典挖掘算法a p r i o r i 算法进一步说明电信业务支撑系统 中数据仓库及数据挖掘的研究和应用以达至研究与实用紧密结合的目的。 1 3 论文研究的主要内容 本文着重研究了几个方面的内容: 1 ) 本文第1 章为绪论,概要的介绍了本研究的来源与背景、当前业务遇到的 瓶颈、以及本论文研究的目的和应用前景。 2 ) 第2 、3 章主要介绍了数据仓库和数据挖掘方面的相关知识和技术特点。 包括d s s 理论,数据仓库和数据挖掘方面的知识。其中在第2 章详细的介绍了 d s s 的产生和发展以及相关技术的基础理论和技术;第3 章第一部分重点阐述 了数据仓库的一些理论知识和技术基础,包括其产生、概念、特点、体系结构、 实现策略和o l a p 技术等;第二部分主要介绍了数据挖掘方面的一些知识,同 样包括定义、概念、方法、技术、体系结构、挖掘步骤、挖掘工具选择等知识。 3 武汉理工大学硕士学位论文 3 1 第4 章主要研究了数据仓库和数据挖掘技术在电信业中的实现电信 综合业务营运支撑系统中的实现。 4 ) 第5 章主要对数据库、数据挖掘技术进行了较为深入的理论研究,并对 经典挖掘算法a p r i o r i 算法尝试做出了一些小的方面的改进。将改进后的算法应 用于电信移动市话中的海量呼叫的关联分析,并根据前后试验数据的对比验证 了改进的可行性、有效性。 第6 章对整个系统的设计进行了总结,并从实用角度出发,提出了今后 的工作方向。 4 武汉理工大学硕士学位论文 第2 章d s s 及其相关技术 2 1d s s 的概述 决策问题,或大或小,或局部或全面,是每个组织和个人都需要面对的, 与我们日常的学习、生活和工作密切相关。对于企业而言,能否做出及时的判 断、制定正确的决策,是经营成功与否的关键。近几十年来,随着生产规模的 不断扩大和影响因素的不断增加,决策问题的数量日益增多、复杂程度逐渐加 大。同时,心理学家的研究表明,决策者在同时考虑1 0 个以上的变动或者矛盾 因素,或者考虑2 0 - 4 0 个单项因素时,将会感到十分困难。在当前企业的经营过 程中,高层决策者往往需要考虑几十个复杂的决策因素,以往那种依靠个人经 验和直觉的决策方式远远不能满足现代管理决策的需求。 传统的m i s 系统在很大程度上提高了企业运作的效率,但是在辅助决策方 面存在着不足。为了克服m i s 系统的局限性,更好地适应市场竞争和提高企业 效益的需要,更好地进行市场预测和优化企业资源,在运筹学、数理统计、人 工智能等技术的推动下,人们开始关注决策支持系统的开发和利用i l j 。 自从美国麻省理工学院的m i c h a e ls s c o t tm o r t o n 和p e t e rgw 1 【n 于2 0 世纪7 0 年代提出决策支撑系统 1 1 ( d e s i g ns u p p o r ts y s t e m ,d s s ) 的概念以来, d s s 己经成为系统工程与计算机应用领域中的重要研究课题。各国学者在d s s 的理论与应用上进行了卓有成效的工作并取得了很大的进展,我国科研学者近 年来在d s s 的研究和应用上也取得了不小的进步。 2 1 1d s s 的定义 在d s s 的发展过程中,决策支持实际上是一个先导的概念 2 1 ,决策支持的 概念形成若干年以后,才出现决策支持系统。直到现在,人们仍认为决策支持 是比d s s 更基本的一个概念。可以这样说:决策支持是目标,d s s 是通向目标 的工具。决策支持的基本含义是指用计算机来达到如下目的或者说它应具备如 下特征: 1 ) 帮助决策者在半结构化和非结构化的任务中作决策; 5 武汉理工大学硕士学位论文 支持决策者的决策,显然并无替代决策者的判断力的意思; 3 ) 改进决策效能( e f f e c t i v e n e s s ) ,而不是提高它的效率( e f f i c i e n c y ) 。 要达到这三个目标并不是一件轻而易举的事情,但随着计算机技术的飞速 发展,实现这些目标的可能性也在不断增加。 时至今日,d s s 仍没有一个学术界公认的定义。正如d s s 这一术语的创始 者k e n n 在1 9 8 6 年所说的那样:“从d s s 产生开始直到今天,仍然没有建立 起一个关于d s s 的定义”【3 】。当然,对于一个发展迅速但尚未完全成熟的领域 过早地追求一个完善的定义并非是明智之举,只要把握住这个领域的基本特征 和基本构成就可以了这样做的好处是给该领域的扩充和改变发展方向提供了 足够的灵活性,但是它也可能导致人们陷入无休止的争论。为了让人们把握住 d s s 的基本特征和发展方向,以便摆脱目前对d s s 的定义的争论的混乱局面, 将d s s 的基本特征归纳为以下五个方面: 1 1 针对上层管理人员经常面临的结构化程度不高、说明不够充分的问题; 2 ) 把模型或分析技术与传统的数据存取技术及检索技术结合起来 3 ) 便于为非计算机专业人员以人机交互的方式使用 4 ) 强调对环境及用户决策方法改变的灵活性及适应性 5 1 支持但不是替代高层决策者制定决策 2 1 2d s s 的分类 人们面对的决策问题很多,可以从不同角度对决策问题进行分类。按照企 业的管理层次划分,可以有高层决策、中层决策和作业决策。高层决策重点解 决企业与外部环境的关系,如确定企业的发展方向和战略规划;中层决策关注 如何组织内部力量和掌握作业进度,如制订年度计划和对基层的管理控制等: 作业决策是有效地利用现有资源来完成各项活动,实施中层决策和实现高层决 策,如利用运筹学方法制定库存计划等。 按照决策问题结构化程度的不同,可以将决策问题划分为结构化决策问题、 半结构化决策问题和非结构化闯题( 如表2 - 1 所示) 。但是,决策问题的结构化 程度并不是一成不变的,当掌握了足够的信息时,非结构化问题可以转化为半 结构化问题,半结构化问题也可以转化为结构化问题。 6 武汉理工大学硕士学位论文 表2 - 1 决策问题结构化程度分类表 分类问题及解决过程说明 结构化决比较简单、直接、决策过程和决策方法有规律可循,能用明确的语言和模型描 策问题述,并可以依据一定的通用模型和决策规则实现其决策过程的自动化 非结构化决策过程复杂,决策方法没有规律,决策者的主观行为( 经验、直觉、偏好和决 决策问题策分格1 对决策效果有相当影响,往往是决策者根据掌握的情况临时做出决定 半结构化介于上述两者之间,决策过程和决策方法有一定规律但又不能完全确定这样 决策问题的决策问题一般可以适当建立模型,但无法确定最优方案 另外,按照决策条件和决策问题性质划分,可以有确定型决策、风险型决 策不确定型决策和竞争型决策;按照决策方法划分,可以有定量决策和定性决 策;按照决策目标的多少,又可以分为单目标决策和多目标决策;按照决策者 的数量则可以分为个体决策和集体决策。 2 1 3d s s 的过程 h e r b e r t a s i m o n 教授指出:以决策者为主体的管理决策过程一般经历信息、 设计和选择三个阶段h ( 如图2 1 所示) 。其中,信息收集阶段用来进行数据决策 收集、处理分析和确定影响决策的各种因素,是为了识别问题,结果为决策陈 述;设计阶段是制定和分析各种可能的行动方案,陈述决策的目标;而选择阶 段就是对各种可能的方案进行评估和审核,最终选择一个可行的方案并付诸实 施。三个决策阶段是相互作用的,每个阶段都是一个复杂的决策过程,但是侧 重点不同。 7 武汉理工大学硕士学位论文 图2 - 1s i m o n 的三个决策阶段流程图 对决策者来说,科学的决策过程一般包含发现问题、确定目标、收集信息、 探索方案、方案选定和举措执行等阶段。客观存在的问题,只有当人们能够清 楚地表达出来的时候,才能构成决策问题。对决策问题的本质进行概括和抽象、 可以替代系统的决策目标,该目标应该是合理的、现实的、可以衡量和可以达 到的,同时应该有时间的限制。信息是决策的基础,预测是决策的前提,两者 为决策方案的产生和选择提供可靠的依据。从各种方案中确定最合理的一个方 案,使决策成功或者是把的关键阶段,通常包括方案论证和决策形成两个步骤。 在决策执行过程中,需要及时收集有关反馈信息,消除可能出现的问题【4 l 。 另外,c h a r l e sk e p n e r 和b e n j a m i nt r e g o e 提出的k - t 决策方法垆1 ( 如图2 - 2 所示b 可以帮助决策者了解在何处计算机和决策过程相适应,并概括出一种计 算机能使用的完成决策工作的方法,从而可以改善人类的决策。 图2 - 2k - t 方案决策示意图 其中: 决策目的:将陈述规范化,形成书面文件,表明试图做什么样的决策; 8 武汉理工大学硕士学位论文 设定目标:包括人、组织、设施和设备、原材料、资金、生产输出等目标; 目标分类:按照重要性的不同,分为必须和想要实现两种,同时量化加权; 形成替代方案:根据必须事先想要实现的目标,确定所有可能的决策方案; 评估替代方案:根据决策准则,将各方案进行加权、评估、排序; 初选最佳方案:挑选具有最大的总加权数的替代方案作为尝试性选择; 评估不利后果:对各种不利后果的可能性和严重性分析,得出恰当的判断; 最终选择:综合所有的有利和不利因数,选出一个最佳方案并实施; 2 2d s s 体系结构 对于d s s 的系统结构,最初r h s p r a g u e 提出了基于人机对话系统、数 据库与模型库的两库结构。而后出现的三数据库结构则实现了模型与方法的分 离存储,即添加了方法库。近年来,把人工智能技术、专家系统、知识工程的 思想方法引入d s s 后,即在原来的结构基础上,增加了知识库,并引入了推理 机制,就形成了d s s 的四库结构” 基于以上的分析,结合目前国内外关于d s s 的开发与研究现状,我们认为 d s s 的基本部件还是由五部分组成的:人机交互,数据库、模型库、知识库和方 法库( d s s 的结构图如图2 3 ) 。 图2 - 3d s s 体系结构 由上图可以看出,d s s 使人机交互界面、模型库系统、数据库系统、知识库、 方法库能够有机地结合起来,大大扩充了数据库功能和模型库功能,使管理信 息系统上升到决策支持系统的新台阶上,使那些原来不能用计算机解决的问题 逐步变成能用计算机解决。 9 武汉理工大学硕士学位论文 2 2 1 数据库 数据库( d a t a b a s e ) 是d s s 的一个最基本的部件。一般情况下,任何一个d s s 都不能缺少数据库及其管理系统。d s s 和m i s 的数据库及其管理系统在概念上 有许多共同点,如数据库的功能及其实现的方法,数据库管理系统的某些作用 等,这主要是由于d s s 对数据库系统的某些概念来自m i s 系统。但是,出于 d s s 和m i s 之间存在着根本的区别,所以它们对数据库的要求有本质上的不同。 首先,两者的工作目标不一样:d s s 使用数据库的主要目的是支持决策,因此 它对综合性数据或者经过预处理后的数据比较重视。m i s 支持日常事务处理, 所以它特别注意对原始资料的收集、整理和组织。一般来讲,为m i s 服务的数 据库和为d s s 服务的数据库相比,后者要庞大、复杂得多。不过从资源共享的 角度看,也许它们在组织机构内使用的同一数据库。 2 2 2 模型库 模型库系统是传统d s s 的三大支柱之一,与m i s 相比,d s s 之所以能够对决 策制订过程提供有效的支持,除了系统设计思想不同外,主要在于d s s 中有能 为决策者提供推理,比较选择和分析整个问题的模型库因此,模型库及其相 应的模型库管理系统在d s s 中占有十分重要的位置。但是,模型库( m o d e l d a t a b a s e ,肋) 并不是d s s 必不可少的部件,少数仅通过信息服务来做决策支持 的系统可以没有如。一些向e s 方向发展的d s s 也不太重视岫在d s s 中的配置。 由此可见,模型库是d s s 最重要的部件,但却不是必不可少的部件。 2 2 3 方法库 方法库系统( m b s ) 主要是一个软件系统,它综合了数据库和程序库。在早期 的方法库系统中,人们采用了面向多种应用的程序包,它们具有某一特定应用 领域的功能程序,用以描述数据结构和功能要求的通用、格式化接口,通过内 部的数据管理系统处理存储的数据。为了扩大应用范围,程序库的规模更大, 并且是层次结构的,通过信息服务手段来选择程序,同时有了增加程序库的功 能:用户接口是前后一致的交互式接口,用户只需用一定的语言形式来描述事 情相关的部分。但是,由于数据管理依然是面向内部的,外部数据源很难引入, 程序库中又有很多限制难于引入外部程序。 武汉理工大学硕士学位论文 2 2 4 知识库 当d s s 向智能方向发展时,知识和推理的研究就显得越来越重要。事实上, 也只有当知识和推理技术被娴熟地用于d s s 时,才可能真正达到决策支持所提 出的目标。d s s 设立知识库,其总的目的是为了扩大与决策者的共有论域,以 便更好沟通思维【刀。具体的讲。开发知识库时应该考虑如下问题:为自然语言理 解创立语义和使用的环境;为建模和数值计算提供必要的分析基础;补充和拓 展决策人员的思维能力。这三个问题所涉及到的知识领域是一致的,所以在表 达知识和设计知识库框架时,不再将这些问题划分为了系统,而是把它们纳入 统一的框架之中。 2 2 5 人机交互界面 人机交互界面的友好程度直接决定了用户对该系统的喜爱程度和使用程 度。由于使用该系统的用户一般年龄都较大,对计算机的使用程度不是很高。 因此需要把用户界面设计得合理、方便、友好、快捷。 1 1 武汉理工大学硕士学位论文 第3 章数据仓库相关技术综述 3 1 数据仓库综述 3 1 1 数据仓库的产生 自1 9 6 9 年e ec o d d 博士发表了他那篇著名的关系数据模型的论文后,关 系数据库就开创了数据管理的一个新时代【鄹近几十年来,大量新技术、新思 路涌现出来并被用于关系型数据库系统的开发和实现:客户服务器系统结构、 存储过程、多线索并发内核、异步加、代价优化等等,这一切足以使得关系数 据库系统的处理能力毫不逊色于传统封闭的数据库系统。而关系数据库在访问 逻辑和应用上所带来的好处则远远不止这些,s o l 的使用已成为一个不可阻挡 的潮流加上近些年来计算机硬件的处理能力呈数量级的递增关系数据库最终成 为联机事务处理系统的主宰。 然而,在整个2 0 世纪年代直到9 0 年代初,联机事务处理一直是数据库 应用的主流。但随着应用在不断地进步,当联机事务处理系统应用到一定阶段 后,用户便发现单靠拥有联机事务处理已经不足以获得市场竞争的优势,他们 需要对其自身业务的运作以及整个市场相关行业的情况进行分析,从而做出有 效的决策。这种决策需要对大量的业务数据包括历史业务数据进行分析才能得 到。在如今这样激烈的市场竞争环境下,这种基于业务数据的决策分析,我们 把它称为联机分析处理,比以往任何时候都显得更为重要。如果说传统联机事 务处理强调的是更新数据库一向数据库中添加信息,那么联机分析处理就是从 数据库中获取信息、利用信息f 9 j 。 事实上,将大量的业务数据应用于分析和统计原本是一个非常简单和自然 的想法。但在实际的操作中,人们却发现要获得有用的信息并非如想象的那么 容易,这主要表现在以下几点: 1 ) 所有联机事务处理强调的是密集的数据更新处理性能和系统的可靠性,并 不关心数据查询的方便与快捷。联机分析和事务处理对系统的要求不同,同一 个数据库在理论上都难以做到两全。 武汉理工大学硕士学位论文 2 ) 业务数据往往存放于分散的异构环境中,不易统一查询访问,而且还有大 量的历史数据处于脱机状态,形同虚设。 3 ) 业务数据的模式针对事务处理系统而设计,数据的格式和描述方式并不适 合非计算机专业人员进行业务上的分析和查询。 因此有人感叹二十年前查询不到数据是因为数据太少了,而今天查询不到 数据是因为数据太多了。针对这一问题,人们设想专门为业务的统计分析建立 一个数据中心,它的数据来自联机事务处理系统、异构的外部数据源和脱机的 历史业务数据。这个数据中心是一个联机的系统,它是专门为分析统计和决策 支持应用服务的,通过它可以满足决策支持和联机分析应用所要求的一切。这 个数据中心就叫做数据仓库。这个概念在9 0 年代初被提出来。如果需要给数据 仓库一个定义的话,那么数据仓库就是一个作为决策支持系统和联机分析应用 数据源的结构化数据环境。数据仓库所要研究和解决的问题就是从数据库中获 取信息的问题。 3 1 2 数据仓库的基本概念和特点 数据仓库专家w h i n m o n 在其著作( b u i l d i n gt h ed a t aw a r e h o u s e 中是这 样描述数据仓库的:“d a t aw a r e h o u s ei sas u b j e c to r i e n t e d , i n t e g r a t e d , n o n - v o l a t i l e a n dt i m ev a r i a n tc o l l e c t i o no fd a t ai ns u p p o r to fm a n a g e m e n t sd e c i s i o n ” i o l 。数据仓 库( d a t aw a r e h o u s e ) 是一个面向主题的( s u b j e c to r i e n t e d ) 、集成的( i n t e g r a t e d ) 、相 对稳定的( n o n - v o l a t i l e ) 、反映历史变化( t l m ev a r i a n t ) 的数据集合,用于支持管理 决策。 对于数据仓库的概念可以从两个层次予以理解1 1 1 】: 首先,数据仓库用于支持决策,面向分析型数据处理,它不同于企业现有 的操作型数据库。 其次,数据仓库是对多个异构的数据源有效集成,集成后按照主题进行了 重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改。 根据数据仓库概念的含义,数据仓库有以下四个特点【1 2 1 : 1 ) 面向主题 数据仓库中的数据是按照一定的主题进行组织的。 主题是一个抽象概念,是指用户使用数据仓库进行决策时所关心的重点方 面,一个主题通常与多个操作型信息系统相关。主题是一个在较高层次将数据 武汉理工大学硕士学位论文 归类的标准,每一个主题基本对应一个宏观的领域,基于主题组织的数据被划 分为各自独立的领域,每一个领域都有自己的逻辑内涵互不交叉。 传统的数据库是面向事务处理而设计的,它的数据是为了具体应用而组织 在一起的,而应用处理对于数据内容的划分未必适用于决策分析的需求。因此, 在数据进入数据仓库之前,必然要经过加工和集成,将原始数据结构做一个从 面向应用到面向主题的转变。 集成数据 数据仓库中的数据是在对原有分散数据库中的数据抽取、清理的基础上经 过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据 仓库内的信息是关于整个企业的一致的全局信息。 操作型数据与分析型数据之间的差别甚大。在数据进入数据仓库之前,必 须要经过加工与集成。这一步是数据仓库实施过程中最为关键、最为复杂的一 步。首先,要统一原始数据中的所有矛盾之处,如字段的同名异义、异名同义、 单位不统一、字长不一致等等,还要将原始数据结构做一个从面向应用到面向 主题的转变。 3 ) 相对稳定 数据仓库的数据主要是供企业进行决策分析的,所涉及的数据操作主要是 数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就 是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定 期的加载、刷新。 4 ) 反映历史变化 联机事务处理系统经常只是包含当前的数据,然而,数据仓库中的数据通 常还包含历史信息,系统记录了企业从过去某一时刻( 如开始应用数据仓库的时 刻1 到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋 势做出定量分析和预测。存储在数据仓库中的数据一般表示过了一段比较长的 时间的数据,一般是五年到十年。数据仓库存储了企业一段时间的快照形式。 与此不同的是,业务数据库通常只保存有用事务数据3 0 - 9 0 天。数据仓库不是静 态的概念,只有把信息及时交给需要这些信息的便用者,供他们做出改善其业 务经营的决策,信息才能发挥作用,信息才有意义。而把信息加以整理归纳和 重组,并及时提供给相应的管理决策人员,是数据仓库的根本任务。因此,从 产业界的角度看,数据仓库建设是一个工程,是一个解决方案。 1 4 武汉理工大学硕士学位论文 3 1 3 数据仓库的体系结构 数据仓库系统由数据仓库( d w ) 、数据仓库管理系统( d w m s ) ,数据仓库工 具三个部分组成【圩1 。数据仓库的体系结构如图3 - 1 所示: ,。、,。、,- - _ _ - - - 一 l 数据报表ll 数据挖掘il 数据分析i 前段工具与应用 - _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ - _ 。一- _ _ _ _ _ _ 。_ _ _ - _ _ _ _ _ _ 一k _ _ - _ _ _ _ _ _ _ _ _ _ _ - _ _ _ _ _ 一 于 o l ”服务器 | | | | ; 理 一云磊e t l 。矿。 ll l 1li 占百j 日l 叫 在整个系统中,d w 居于核心地位,是信息挖掘的基础,它决定了整个数据 仓库系统的构造及数据结构,它的实现需要利用数据库管理系统( d b m s ) 的功 能。 1 1 数据源 数据仓库的数据来自于多个数据源,包括企业内部业务运作数据库的数据 和来自企业外部的信息的外部数据,如市场调查与分析及各种文档之类的外部 数据。他们包含了大量的细节数据,且彼此具有不同的作用。 2 ) 数据仓库管理 在确定数据仓库信息需求后,首先进行数据建模,然后确定从源数据到数 武汉理工大学硕士学位论文 据仓库的数据抽取、清理和转换过程,最后划分维数及确定数据仓库的存储结 构。元数据是数据仓库的核心,它用于存储数据模型和定义数据结构、转换规 则、仓库结构、控制信息等。仓库管理包括对数据的安全、归档、备份、维护、 恢复等工作。 3 1 数据存储 由数据仓库、数据集市【1 4 1 与o d s ( o p e r a t i o n a ld a t as t o r e ) 构成,由关系或非 关系的数据引擎提供来自数据源的数据存储和管理。 4 ) 数据仓库工具 数据仓库工具则是整个系统发挥作用的关键,包含用于完成实际决策问题 所需的各种查询检索工具、多维数据的0 l a p 分析工具、数据挖掘d m 工具等, 以实现决策支持的各种要求。 可见,从本质上讲,数据仓库是一个使用数据库管理系统的数据库应用。 数据仓库不仅包含了分析所需的数据,而且包含了处理数据所需的应用程序, 这些程序包括了将数据由外部媒体转入数据仓库的应用程序,也包括了将数据 加以分析并呈现给用户的应用程序。 3 1 4 数据仓库实现策略 数据仓库的实现策略有如下六种模式嗍: 1 1 “自顶向下”模式 “白顶向下”的开发策略是指从原来分散存储在企业各处的o l t p 数据库中 的有用数据通过提取( e x t r a c t i o n ) 、清洁( c l e 柚) 、转换( t r a n s f o r m a t i o n ) 、聚焦 ( a g g r e g a t i o n ) 等处理步骤建立一个全局数据仓库。这个全局的数据仓库将提供给 用户一个一致的数据格式,一致的软件环境。从理论上来说,决策支持所需的 数据都应该包含在这个全局数据库中。数据集市中存储的数据是为某个部门的 d s s 应用而专门从全局数据仓库中提取的,它是全局数据仓库中数据的一个子 集。在“自顶向下”模式中,数据集市和数据仓库的关系是单方向的,即数据 从数据仓库流向数据集市。 “自底向上”模式 “自底向上”模式是从建立各个部门或特定的商业问题的数据集市开始, 全局性数据仓库是建立在这些数据集市的基础上。“自底向上”模式的特点是初 期投资少,见效快。因为它在建立部门数据集市时只需要较少的人做出决策, 1 6 武汉理工大学硕士学位论文 解决的是较小的商业问题。“自底向上”的开发模式可以使一个单位在数据仓库 发展初期尽可能少的花费资金,也可以在做出有效的投入之前评估技
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 浅谈“双减”背景下三年级英语作业设计有效性的策略
- 《水电站》重点笔记
- SZSD 0067-2024智慧社区 老年人智能助餐场景设计指南
- 海口-PEP-2024年11版小学三年级下册英语第六单元真题
- 物质推断与转化(专项训练)-2023年中考化学二轮复习(原卷版)
- 2024年民宿旅游项目资金申请报告代可行性研究报告
- 强迫对流管簇管外放热系数测定实验
- 【沪科】期末模拟卷【九年级上下册】
- 护士聘岗个人工作总结范文(3篇)
- 读书伴我行演讲稿(35篇)
- 【仁爱】七上地理知识点总结
- 第四单元达标练习(单元练习)2024-2025学年统编版语文一年级上册
- 期中综合测试 2024-2025学年牛津译林版八年级英语上册
- 2025届山东省部分地区高三语文上学期期初试题汇编:写作专题
- TCECA-G 0304-2024 数字化碳管理平台 总体框架
- 2024-2030年云网融合行业市场发展分析及发展趋势与投资前景研究报告
- 2024-2025学年全国中学生天文知识竞赛考试题库(含答案)
- 2024-2025年新教材高中生物 第3章 第2节 第2课时 细胞器之间的协调配合和生物膜系统教案 新人教版必修1
- TSDPIA 03-2023 宠物猫砂生产质量安全管理规范
- 企业灭火和应急疏散应急预案
- 慕课《如何写好科研论文》期末考试答案
评论
0/150
提交评论