仓库管理_数据仓库在钢铁能源分析系统中的应用论文_第1页
仓库管理_数据仓库在钢铁能源分析系统中的应用论文_第2页
仓库管理_数据仓库在钢铁能源分析系统中的应用论文_第3页
仓库管理_数据仓库在钢铁能源分析系统中的应用论文_第4页
仓库管理_数据仓库在钢铁能源分析系统中的应用论文_第5页
已阅读5页,还剩58页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

东北大学 硕士学位论文 数据仓库在钢铁能源管理分析系统中的应用 姓名:张曦 申请学位级别:硕士 专业:软件工程 指导教师:吕振辽;唐海东 20081201 东北大学硕士学位论文摘要 数据仓库在钢铁能源管理分析系统中的应用 摘要 数据仓库技术是当前信息技术领域的研究热点。数据仓库系统以传统的数据库为主 要的信息源,通过联机分析处理和数据挖掘等技术对各类大量的数据和信息进行分析处 理,实现了数据向信息的转换,为管理者的决策提供有效地支持。 随着能源资源的紧缺及国家对节能工作的R 益重视,对于宝钢公司而言,如何通过 节能降耗手段来满足需求已成为宝钢生存与发展的瓶颈。因此迫切需要建立一个能源管 理支持平台,最大限度地支撑能源系统的生产与管理要求,满足公司生产用能需求。 文章紧密联系了以宝钢的生产实际基础,结合实际工程背景,介绍了在企业中构建 实施企业级数据仓库的整体架构,如数据仓库的逻辑结构、企业数据仓库、数据集市和 数据仓库的元数据。宝钢企业级数掘仓库是通过有效的信息来满足和促进企业的决策制 定过程,它是一种可信的企业数据仓库平台。这种数据来自于各种各样的数扼源,并结 合S A S 工具对宝钢企业级数据仓库的数掘经过抽取、清理和转换后根据用户的查询需 要实时地提供给用户。文中针对宝钢能源管理系统中水质部分做了详细的需求、设计与 实现。 该系统自上线以来,使信息的处理更加集中化透明化,充分发挥了计算机对信息管 理的综合作用,使企业管理工作向实时管理方向进一步发展,整个生产过程控制更加科 学化,受到用户的欢迎,较好地实现了系统设计目标。 关键词:数据仓库;数据集市;数据挖掘;能源管理;S A S 东北大学硕士学位论文 A b s t r a c t A p p l i c a t i o n o fD a t aW a r e h o u s ei nS t e e lE n e r g y M a n a g e m e n tA n a l y s i sS y s t e m A bs t r a c t D a t aw a r e h o u s eh a sb e c a m eo n eh o tr e s e a r c hf i e l di nc u r r e n tI n f o r m a t i o nT e c h n o l o g y f i e l d T h et r a d i t i o n a ld a t a b l a s ei St h em a i ni n f o r m a t i o ns o u r c eo fd a t aw a r e h o u s e s y s t e m T h r o u g ht h et e c h n o l o g yo fO n L i n eA n a l y t i c a lP r o c e s s i n g ,D a t aM i n i n ga n dS Oo n , d a t aw a r e h o u s ec a na n a l y s eag r e a td e a lo fd a t aa n di n f o r m a t i o na n dt r a n s f o r md a t ai n t o i n f o r m a t i o n T h er e s u l t so f a n a l y s i sc a ns u p p o r tt h eg o v e r n o r s d e c i s i o n s O n et h a ti sw i t he n e r g yr e s o u r c ei si ns h o r ts u p p l ya n dn a t i o n a la t t e n t i o nt ot h ee n e r g y c o n s e r v a t i o n A st oc o m p a n yo fB a o s t e e l ,h o wt oc o m et h r o u g ht h ee n e r g y - s a v i n ga n d c o s t r e d u c i n gm e a n st os a t i s f yt h ed e m a n d s ,h a v ea l r e a d yb e c o m et h eb o t t l e n e c ko fs u r v i v a l a n dd e v e l o p m e n to fB a o s t e e l S on e e dt os e tu pas y s t e mo fe n e r g ym a n a g eu r g e n t l y , s u p p o r t t h ep r o d u c t i o no ft h ee n e r g ys y s t e ma n dm a n a g e m e n te x p e c t a n c yt ot h em a x i m u me x t e n t , a c c o r dw i t ht h ec o m p a n y Sp r o d u c t i o nd e m a n d T h ep a p e rc l o s e l yl i n k e dt ot h eB a o s t e e lb a s e do nt h e a c t u a l p r o d u c t i o n ,w i t ha c t u a l e n g i n e e r i n gb a c k g r o u n d ,i n t r o d u c e di nt h ee n t e r p r i s ec o n s t r u c t i o no ft h ei m p l e m e n t a t i o no f e n t e r p r i s ed a t aw a r e h o u s eo v e r a l lf r a m e w o r k F o re x a m p l e ,S t r u c t u r eo fD a t aW a r e h o u s e , D a t aW a r e h o u s eo fE n t e r p r i s e ,D a t aM a r k e ta n dM e t a d a t ao fD a t aW a r e h o u s e B a o s t e e l e n t e r p r i s ed a t aw a r e h o u s ei st h r o u g he f f e c t i v ei n f o r m a t i o na n dt h ep r o m o t i o no fe n t e r p r i s e st o m e e tt h ed e c i s i o n m a k i n gp r o c e s s ,i ti sac r e d i b l ep l a t f o r mf o re n t e r p r i s ed a t aw a r e h o u s e T h e d a t ac o m e sf r o mav a r i e t yo fd a t as o u r c e s ,a n dt h ec o m b i n a t i o no fS A Ss t a t i s t i c a lt o o l B a o s t e e le n t e r p r i s ed a t aw a r e h o u s ed a t ae x t r a c t i o n ,l i q u i d a t i o n ,c o n v e r s i o nd e p e n d i n go nt h e u s e r Sn e e df o rr e a l - t i m ed e l i v e r yt ou s e r s T h ep a p e ri st h ed e s i g na n di m p l e m e n t a t i o no f B a o s t e e lh o t - r o l l e dq u a l i t ys t a t i s t i c a ls y s t e m S i n c et h e s y s t e mw a st a k e n i n t ou s e ,u s i n gt h ei n t e g r a t e di n f o r m a t i o nm a k e st h e c o m p u t e rm a n a g e m e n te a s i e ra n dq u i c k I ta l s om a k e st h ep r o d u c i n gp r o c e s sm a n a g e m e n t s c i e n t i f i c ,a n dp l a y sa ni m p o r t a n tr o l ei nt h ec o m p u t e ri n f o r m a t i o ns y s t e mi nB a o s t e e lG r o u p U s e r sw e l c o m et h es y s t e ma n dw ea c h i e v et h es y s t e mg o a lp r e f e r a b l ys i n c ei tw a si n s t a l l e d r u n n i n g K e yw o r d s :D a t aW a r e h o u s e ;D a t aM a r k e t ;D a t aM i n i n g ;E n e r g yM a n a g e m e n t ;S A S 1 1 1 一 东北大学硕士学位论文第一章引 言 第一章引言 1 1 论文研究的理论与背景 管理分析系统,是一个由人、计算机及其他外围设备等组成的能进行信息的收集、 传递、存贮、加工、维护和使用的系统,管理分析系统因具体对象不同而千差万别,可 以是科学的、经济的、教育的、政治的等。管理分析系统的整体是由相对独立的不同部 分组成的。其主要任务是最大限度的利用现代计算机及网络通讯技术加强企业的信息管 理,通过对企业拥有的人力、物力、财力、设备、技术等资源的调查了解,建立正确的 数据,加工处理并编制成各种信息资料及时提供给管理人员,以便进行正确的决策,不 断提高企业的管理水平和经济效益【lJ 。 传统管理分析系统是7 0 年代在信息系统基础上发展起来的,它以模型库为核心, 还包括数据库知识、方法库。用户通过系统接口将需求传递给系统,系统调用相应的模 型解决问题,将结果在输出界面上反应给用户。 以模型库为主体的管理分析系统已经发展了十几年,它对计算机辅助决策起到了很 大的推动作用。近年来随着数据仓库、数据挖掘、O L A P 等新技术的H 现,管理分析系统 的形式也发生了变化。数据仓库、数据挖掘与O I ,A P 都是数据驱动的。它们构成了管理 分析系统的新形式。 数据仓库和O L A P 足9 0 年代初提出的概念,到9 0 年代中期已经肜成潮流。在美国, 数据仓库已成为紧次于I n t e r n e t 之后的又一技术热点。数据仓库是市场激烈竞争的产 物,它的目标是达到有效的决策支持。大型企业几乎都建立或计划建立自己的数据仓库, 数掘库厂商也纷纷推出自己的数据仓库软件。目前,已建立和使用的数据仓库应用系统 都取得了明显的经济效益,在市场竞争中显示了强劲的活力。数据仓库将大量用于事务 处理的传统数掘库数掘进行清理、抽取和转换,并按决策主题的需要进行重新组织。数 据仓库的逻辑结构可分为近期基本数据层、历史数掘层和综合数据层( 其中综合数据是 为决策服务的) 。数据仓库的物理结构一般采用星型结构的关系数据库。星型结构由事 实表和维表组成,多个维表之间形成多维数据结构。星型结构的数据体现了空间的多维 立方体。这种高度集中的数据为各种不同决策需求提供了有用的分析基础。随着数据仓 库的发展,O L A P 也得到了迅猛的发展。数掘仓库侧重于存储和管理面向决策主题的数据: 而O L A P 则侧+ 蕈于数掘仓库中的数据分析,并将其转换成辅助决策信息。O l 。A P 的一个重要 东北大学硕士学位论文 第一章引言 特点是多维数据分析,这与数据仓库的多维数据组织j 下好形成相互结合、相互补充的关 系。O L A P 技术中比较典型的应用是对多维数据的切片和切块、钻取、旋转等,它便于使 用者从不同角度提取有关数据。O L A P 技术还能够利用分析过程对数据进行深入分析和加 工。例如,关键指标数据常常用代数方程进行处理,更复杂的分析则需要建立模型进行计 算。数据挖掘( D a t aM i n i n g ) 就是从大量的数据中,提取人们事先不知道的有用的信息和 知识的过程。数据挖掘技术从一开始就是面向应用的。它不仅是面向特定数据库的简单 检索查询调用,而且要对这些数据进行微观、中观乃至宏观的统计、分析、综合和推理, 以指导实际问题的求解,企图发现事件间的相互关联,甚至利用已有的数据对未来的活 动进行预测2 。 由数据仓库、数据挖掘、O L A P 构成的更高级管理分析系统和传统管理分析支持相互 补充、相互依赖,发挥各自的辅助决策优势,实现更有效的辅助决策。 宝钢分公司于1 9 9 9 年开始全面启动企业级数据仓库的建设并陆续投入使用,能源 数据仓库也于2 0 0 4 年底投入运行。该系统实现了能源数据记录、整理、查询、形成报 表等功能,实现了能源数据信息化管理模式,为后续的功能拓展提供了一个完整、高效 的数据环境。 能源数据仓库是建立在S A S 平台上,S A S 平台的强大分析功能,为系统趋势、能耗 差异、能源成本分析、产品能耗分析、等系统评价决策提供了可能。 通过多年的积累与完善,一套成熟的能耗分析、指标预测模型已形成,只不过每次 需要人工去收集大量的数据,并人工通过E X E C L 来比较分析,数据源多、工作量大,在 时间上不能很好地实现及时性。 1 2 论文研究目的和意义 随着能源资源的紧缺及国家对节能工作的R 益重视,节约能源资源已成为困家一项 基本国策。对于宝钢分公司而言,规模的扩大及加工深度的延伸,用能需求骤增,而供 能系统受环境等诸多因素的制约无法扩容,如何通过节能降耗手段来满足十一五项目的 用能需求已成为宝钢生存与发展的瓶颈。2 0 0 7 年股份公司又与分公司签订了“到十一五 未实现节约总量1 0 0 万吨、力元产值能耗下降2 0 “ 的二项约束性指标,首次把节能目 标与领导责任挂起钩来。逼人的形势变化,对能源管理工作提出了苛刻的要求,迫切需 要建立一个能源管理决策支持平台,通过对大量能源数据的分析、对比,及时预警、指 导能源,E 产及系统平衡,最大限度地支撑能源系统的生产与管理要求,满足公司生产用 2 东北大学硕士学位论文 第一章引 言 能需求。 对能源数据的分析、预测、评价是支撑能源生产及系统管理的决策基础。随着宝钢 分公司规模的同益扩大,能源用户增多,系统庞大且纷繁复杂,能源数据项量大逻辑关 系复杂,技术人员需要化费大量的时问去整理、分析数据并找出影响因素,时问的滞后 给能源生产、系统平衡、管理决策带来困难。 节能工作的同益重视,对能源管理的要求变得越来越高,要求支撑能源管理决策的 能源分析评价等也同趋精细。而1 9 9 7 年开发的能源消耗及成本分析系统( E C A S ) 系统是 用P O W E R B U L I D 建立起来的一个独立系统,并在2 0 0 2 年进行局部修正时发现原有功 能受设计框架的制约无法扩容升级及功能的拓展,要满足现在的要求几无可能,更无法 实现与宝钢数据仓库的无缝联接。 同时,原系统( E C A S 系统) 保存了大量的历史数据,这些数据是能源管理分析、历 史对比、查询的历史基础。有必要建立一种灵活、高效的数据管理模式,对系统现有和 历史数据进行有序管理,既要保证系统数据的完整性和延续性,又要满足系统使用人员 能方便取出现有和历史数据进行个性化分析。 另外,水质管理系统于1 9 9 8 年开发,一直独立于能源管理系统之外,2 0 0 4 原样搬 迁至数据仓库。由于受原构架的制约,无法进行维护,原有的功能已满足不了现有工作 的需求,用户迫切要求水质分析的多样性、全方面服务。能源水质指标众多,因此需要 建立灵活、全新的水质指标体系,方便用户对水质系统进行跟踪,同时保证水质系统与 检测中心过来的数据信息保持一致。 1 3 实际工作 ( 1 ) 建立高效的预警和异常信息分析功能,使相关人员能在众多的指标数掘中及 时发现和跟踪异常数据;建立异常数据分析功能,查找发生异常的原因;建立系统重要 信息的提醒功能,使系统相关功能的实现更高效、更人性化。 ( 2 ) 进一步拓展系统分析、评价功能,在日前系统收集和整理大量数据的基础上, 运I I S A S 强大的数据分析和挖掘功能,建立E P 法能耗分析模型、各工序能耗分析、炼 钢热轧产品能耗分析模型等,对数据进行更加深入的分析、挖掘。提供灵活的重点指标 定义功能,生成重点指标表提供给公司财务部和运营改善部参考。 ( 3 ) 完成水质组的功能需求,建立全新、灵活的水质指标体系,在此基础上提供 带预警信息各类水质报表、水质个性化报表和水质指标A 询分析功能。 一3 东北大学硕士学位论文 第一章引言 ( 4 ) 完成能源平衡表的改版,调整原有平衡表的内容,增加综合平衡表;为保证 数据严肃性,新增平衡表编制和发布的控制流程,保证发布后的平衡表数据是J 下确的; 提供用于对标的平衡表编制以及上报国家统计局的平衡表。 ( 5 ) 完成能源财务成本管理和销售管理的相关内容。 ( 6 ) 完成运行相关的功能需求。 ( 7 ) 建立灵活、高效的数据管理模式,既要保证系统数据的完整性和延续性,又 要满足方便取出现有和历史数据进行个性化分析的需求。 ( 8 ) 系统现有逻辑改进和功能拓展。 1 4 论文主要内容及其结构 ( 1 ) 第一章引言介绍了数据仓库在宝钢能源管理分析系统中的应用,并根据课题 的研究背景提出本课题任务,并给出文章的主要研究内容及组织结构。 ( 2 ) 第二章介绍了与管理分析系统和数据仓库的相关知识与技术。 ( 3 ) 第三章介绍了宝钢数据仓库的建设架构的概述及其需求分析,涉及了在建设 企业级数据仓库时所需要的需求,并了解了宝钢数据仓库在宝铡信息化管理的重要性。 最后以水质分析系统为例的详细分析。 ( 4 ) 第四章介绍了能源管理分析系统的设计与实现,并以水质分析系统为例阐述 设计理念。 ( 5 ) 第五章对全文进行了总结,并指出在宝钢数据仓库系统上运用数据仓库等技 术开发企业级数据仓库重要性。 4 东北大学硕士学位论文 第二章管理分析系统和数据仓库相关技术 第二章管理分析系统和数据仓库相关技术 2 1 管理分析系统的形成及发展 2 1 1 管理分析系统的兴起和定义 管理分析系统是7 0 年代在管理信息系统( M I S ) 和运筹学基础上发展起来的。管理分 析系统的出现是要解决由计算机自动组织和协调多模型的运行和数据库中大量数据的 存取和处理,达到更高层次的辅助决策能力,管理分析系统的新特点就是增加了模型库 和模型库管理系统,它把众多的模型有效地组织和存储起来,通过人机交互功能,建立 模型库和数据库的有机结合。它不同于M I S 数据处理,也不同于模型的数值计算,而是 它们的有机集成。它既具有数据处理功能,又具有数值计算功能【3 】。 管理分析系统具有交互式计算机系统的特征,帮助决策者利用数据和模型去决策半 结构化问题【。 管理分析系统具有如下功能: ( 1 ) 解决高层管理者常碰到的半结构化和非结构化问题。 ( 2 ) 把模型或分析技术以传统的数据存储和检索功能结合起来。 ( 3 ) 以对话方式使用决策支持系统。 ( 4 ) 能适应环境和用户要求的变化。 管理分析系统是“管理”、“分析”二者汇集成一体。即通过不断发展的计算机建立 系统的技术,逐渐扩展支持能力,达到更好的辅助分析功能。 传统的管理分析能力是指提供的工具能适用于当前的处理过程,而理想的管理分析 能力是主动地给出被选方案甚至于决策被选方案。 2 1 2 管理分析系统的发展 随着科技的发展,管理分析系统的形式也在不断变化。下面主要介绍基于数据仓库、 O L A P 和数据挖掘的管理分析系统。 进入9 0 年代,数据仓库、数据挖掘、0 L A P 新技术的出现为管理分析系统丌辟了新 途径。把数据仓库、0 L A P 、数据挖掘结合起来形成更高级形式的管理分析系统1 4 1 。其中 数掘仓库能够实现对分析主题数据的存储和综合,0 L A P 实现多维数据分析,数据丌采用 以挖掘数据库和数据仓库中的知识。系统结构如图2 1 所示: 5 东北大学硕士学位论文第二章管理分析系统和数据仓库相关技术 图2 1 基于数据仓库、0 L A P 、数据挖掘的管理分析系统 F i g 2 1M a n a g e m e n tA n a l y s i sS y s t e mo nt h eb a s i so f D a t aW a r e h o u s e ,O L A Pa n dD a t aM i n i n g 同时,由于W E B 技术的飞速发展,系统结构已经由传统的C S 结构转变为B S 结构 或C S + B S 结构。如图2 2 所示: 第1 层第2 层+第3 层+ 图2 2 新管理分析系统的系统组成结构 F i g 2 2T h es y s t e mo fn e wm a n a g e m e n ta n a l y s i ss t r u c t u r e 传统的软件系统,采用的是客户服务器( 即C S ) 结构,很难满足实际使用的要求, 因此本文提出了基于浏览器服务器( 即B S ) 模式。8 S 模式简化了客户端软件,只需 安装上浏览器作为客户端应用的运行平台,而将所有的开发、维护和升级工作集中在服 务器端。用户使用浏览器上网,向W e b 发送请求,W e b 服务器处理请求,查询数据库, 执行应用程序,并将结构信息组织成超文本标记语言( H T M L ) 页面发送给用户,在用户 的浏览器上显示,大大方便了系统的应用。 6 东北大学硕士学位论文 第二章管理分析系统和数据仓库相关技术 其应用系统具有层次式结构,第1 层是W e b 浏览器,运行的是保存在W e b 服务器上 的A p p l e t 及H T M L 等程序,当用户通过浏览器发出连接请求时,这些程序就自动的被浏 览器下载到用户本地及其内存中,由客户浏览器解释执行。 第2 层是W e b 服务器和应用服务器。W e b 服务器负责将静态的内容和动态的内容组 装成W e b 页面( w e bp a g e s ) 并发送到客户端,是实现人一机交互及人一交互功能中客 户端的部分;应用服务器是整个系统的核心。它一方面负责与客户A p p l e t 进行交互通 信,另外还要对第3 层的数据源进行数据挖掘操作、并把结果返回给客户程序。 第3 层提供数据挖掘的数据源,包括数据库和W e b 站点。 2 1 3 管理分析系统的特点和分类 管理分析系统的主要特点有如下几方面: ( 1 ) 系统的使用面向决策者,在运用管理分析的过程中,参与者都是决策者。 ( 2 ) 系统解决的问题是针对半结构化的决策问题,模型和方法的使用是确定的, 但是决策者对问题的理解存在差异,系统的使用有特定的环境,问题的条件也不确定和 唯一,这使得决策结果具有小确定性。 ( 3 ) 系统强调的是支持的概念,帮助加强决策者作 科学决策的能力。 ( 4 ) 系统的驱动力来自模型和用户,人是系统运行的发起者,模型是系统完成各 环节转换的核心。 ( 5 ) 系统运行强调交互式的处理方式,一个问题的决策要经过反复的、大量的、 经常的人机对话,人的因素如偏好、主观判断、能力、经验、价值观等对系统的决策结 果有重要的影响。 根据管理分析的影响范围,可以分成业务型、战术型和战略型。业务型管理分析是 针对某个情况做出反应,例如,红色警报响起后,立即关闭设备。战术型管理分析一般 是中层管理人员在某个比较长的时间内对管理对象做出的决策,如某厂小型设备的月内 维修计划。而战略型管理分析足长期影响整个组织或组织主要部分的决策,如企业关键 设备是否进行大修。 2 2 管理分析系统中数据仓库的构建方法 从以上的讨论中可以看出,数据仓库是整个管理分析系统的核心。数据仓库中的数 据是管理分析的基础,为管理分析服务。所以数据仓库的构建必须始终围绕着管理分析 需求来进行。数据仓库足面向分析型处理的数据环境,从数据的组织到数掘的处理与传 7 东北大学硕士学位论文 第二章管理分析系统和数据仓库相关技术 统数据库都有较大的区别。这就决定了在进行数据仓库设计时不能照搬传统数据系统的 开发方法。 在操作型环境中,设计人员能够清楚的了解应用的需求和数据的流程,系统设计以 业务流程为基础来展开。而在分析型环境中,设计人员要在与用户不断交流的基础上, 逐步明确与完善用户的决策需求,并围绕此需求来设计数据仓库。 数据仓库的构建是一个不断循环、反馈而使系统不断增长与完善的过程,因此这里 所讨论的数据仓库开发步骤并不是绝对的。数据仓库的设计大体上可分为以下几个步 骤: ( 1 ) 决策需求分析阶段。 ( 2 ) 数据仓库建模阶段。 ( 3 ) 数据仓库生成阶段。 ( 4 ) 数据仓库维护阶段。 下面分别介绍各步骤的具体内容。 2 2 1 需求分析和建模 这一阶段主要完成三个方面的工作,即需求分析、界定系统边界、确定主题域。数 据仓库的开发是一个不断丰富与完善的过程,设计之初虽然不可能得到详细而明确的需 求,但是用户能够提供需求的大方向。因此开始建立数据仓库时,首先要根据对这些基 本需求信息的分析,划定一个大致的系统边界,集中精力进行最需要部分的开发。其次, 要深入分析企业原有业务处理系统的数据,理解企业运作规律,进一步明确用户的管理 分析需求,并在这些工作的基础上确定数据仓库系统的主要主题域以及其关系。 为数据仓库中存储的数据建立模型是数据仓库设计的关键一步。通过数据模型,可 以得到企业完整而清晰的描述信息。实体关系建模通常用于为企业的所有业务进程创建 一个复杂的模型。这种方法已被证实在创建高效的联机事务处理( O L T P ) 系统方面很 有效。相反,维度建模针对零散的业务进程创建个别的模型。例如,销售信息可以创建 为一个模型,库存可以创建为另一个模型。每个模型捕获事实数据表中的事实,以及链 接到事实数据表的维度表中的有关事实的特性。由这些排列产生的架构称为星形架构或 雪花型架构,已被证实在数据仓库设计中很有效。维度建模将信息组织到结构中,这些 结构通常对应于分析者希望对数据仓库数据使用的查洵方法。 ( 1 ) 多维数据模型 数据仓库的多维数据模型以! 缸实、度篷和维,作为其基本元素。维有不同的层次, - R 东北大学硕士学位论文 第二章管理分析系统和数据仓库相关技术 沿不同的维,可以在不同的层次上对事实的度量进行不同程度的聚合【5 1 并且能够支持 切片、切块、钻取、旋转等操作。 事实是数据分析或预测分析时人们感兴趣的焦点,往往用来模型往一个企业、一个 部门所需要关心的事件或分析的目标。例如,对于销售企业它所关心的是各个时期各种 产品在不同地区的销售情况,酒店关心的是不同时期客人的入住率,航空公司关心的是 各条航线各个时期的订座情况等。 为分析数据的需要,对事实的度量信息往往需要从不同的角度进行度量,从每个角 度又可以以不同的程度来反应度量的精度。维是一组对事实进行分析时使用的属性。维 允许用户从不同的角度观察事实。例如考虑销售的总量时,可能关心某一天、某一月、 某年的销售情况,也可能关心某个城市、某个地区、某个国家的销售情况,或将它们 结合起来,关心某个时期某个地区的销售情况等。度量的每个角度都模型化为多维数据 模型的一个维。维的成员可以根据需要度量的程度不同分成彼此相关不同度量等级,这 些不同的度量等级构成维的层次,层次提供一个维的详细信息。 ( 2 ) 数据仓库的架构 星型架构从支持商务决策者观点的角度定义数据实体,这些实体反应上午重要运行 方面的内容,是最流行的实现数据仓库的设计结构。星型架构通过使用一个包含主题的 事实表和多个维度表来执行典型的分析支持查询。星型架构中心是事实表,包含描述特 定商业事件的数据。周围是维度表,每个维度表有自己的属性,用来从不同角度描述和 分析事实数据。事实表中的每条记录除含有事实数据外,还含有每个维表的外键( 主键 在各个维表中) ,这些键的组合构成了事实表的主键,将事实与各个维联系起来,事实 表中在所有维的交叉点即为一个或多个指标。星型架构具有建模方便,结构简单清晰, 便于用户理解等优点,并能支持用户从多个维度对数掘进行分析。在多维模型中,星型 架构是表示商务实体及其之问关系的最简单的架构。但有时一个或多个维表可能变得很 大,这时就不得不采用雪花架构。 雪花架构是星型架构的一种扩展,它对维表进一步层次化。雪花架构将一个维拆成 几个,每个有时还有自己的分级结构。有一个或多个维度表连接到其他维度表上,而不 是事实数掘表上。雪花架构的本质是对数据表进行规范化处理,以消除数据冗余。它的 优点是最大限度地减少数据存储量并且联合较小的维表来改善查询性能。缺点是增加了 用户的必须处理的表的数量,同时也增加了一些查询的复杂度。 9 东北大学硕士学位论文第二章管理分析系统和数据仓库相关技术 ( 3 ) 物理模型 根据上面建立的星型架构或雪花架构能够方便地定义出物理数据库表,即数据仓库 的事实表和维表。 事实表是星型架构的核心,一般包括两个部分,一个是主键,通常是各维表的外键 , 组合,如果有特殊情况还可以含有其他部分。另一个是用户关心的事实数据。事实数据 是一种度量,一般应具有数值化和可加性的特征。事实表由于包含大量的基本业务详细 信息,是数据仓库中最大的表。在设计事实表时,一定要注意使事实表尽可能的小。可 以利用减少列的数量,降低每列的大小等方法降低事实表的大小。 维度表主要包含帮助汇总事实数据的层次结构信息。也可以包含一些有关维度特性 的描述性信息。每个维度表都包含独立于其他维度的事实特性。维度表和事实表通过维 表关键字相关联。除了建立以上的物理数据结构外,还应确定索引策略,提高数据仓库 的性能。 2 2 2 数据仓库的生成和维护 创建数据仓库最重要的一个步骤足将数据从各种操作型数据库系统中抽取出来,排 除数据中的数据缺陷,完成一系列转换,最后将数据加载到数据仓库。这个避程非常繁 杂,是整个数据仓库建设过程中工作量最大的一部分。下面将详细介绍数据抽取、数据 转换、数据清洗及数据装载各个部分的设计细节。 ( 1 ) 数据抽取( D a t aE x t r a c t ) 并不是源数据库的所有细节数据对于数据仓库的主题域都是有用的,必须根据己确 定主题的需要,从原有操作型数据库中抽取相关数据到数据仓库。一般在设计数据抽取 时要考虑以下几个方面:第一,源数据库和目标数据库各A 的数据库格式是否一致? 第 二,从源数据库中要访问哪些文件和表? 第三,从源数据库中可以提取哪些字段,抽取 记录的条件是什么? 第四,目标数据库的表结构是什么? ( 2 ) 数据转换( D a t aT r a n s f o r m ) 数据仓库中的数据往往来自于一个或多个异构的数据库系统,这些数据源之问往往 存在着不一致的问题,如不一致的字段长度、不一样的赋值等。数据不一致会严重影响 数据仓库的数据质量。数据转换就是处理这些不一致性的过程。 数据转换般包括两个方面的内容。一方面是数据名称及格式的统一,如统一的命 名、统的数据格式、统一的计量译位等等。另一方面,数据仓库中存在着源数据库中 可能不存在的数据,冈此需要创建新的数据逻辑视图并进行转换。 10 东北大学硕士学位论文 第二章管理分析系统和数据仓库相关技术 ( 3 ) 数据清洗( D a t aC l e a n s i n g ) 数据质量是决定信息价值的关键因素。高质量的信息导致高质量的决策,而低质量 的信息将导致低劣的决策。数据仓库是分析决策的基础,所以数据仓库中数据的准确性 是非常重要的。传统数据库中的数据大都存在错误,这是活生生的事实。尽管数据仓库 项目能把注意中心放在数据质量问题和引导未来的进步改进上,但数据仓库开发者却 并不能改变数据仓库的基础历史数据的质量。因此,有必要对进入数据仓库的数据 进行全面检查并使他们尽可能无差错。这一过程就称作数据清洗。 数据清洗应该处理许多可能存在的错误类型。这些类型包括数据源中丢失数掘和有 错误数据,还包括两个或多个数据源里的不一致数据和冲突数据,所有这些都必须处理。 有时如果系统不能自动处理,还必须借助于手工操作来完成。 ( 4 ) 数据装载( D a t aL o a d i n g ) 这一步所进行的工作是运行以上的处理步骤,将数据装入到数据仓库。主要的工作 包括确定数据装入的次序、载入初始数据等。 创建数据仓库的目的足采集和组织历史数据以支持决策分析。为实现这一目的,当 创建数据仓库时,初次加钱已有的历史数据到数掘仓库中以后,随着时间的推移,应该 根据操作型数据库系统的数掘变化,周期地更新数据仓库中的数据。因此,周期地加载 或更新数据仓库中的数据是一件非常重要的R 常维护工作。此外,为了保证数据仓库的 数据在系统被破坏之后,可以顺利的恢复到破坏前的状态,需要对数据仓库做好备份工 作。 最后,数据仓库应用丌发往往采取逐步完善的原型法的丌发方法,因此在系统运行 或使用过程中,还要不断理解需求,逐步完善系统。 2 3 数据仓库概述 2 3 1 数据仓库的概念和特征 数掘仓库的概念由美国著名工程学家w H 1 n m o n 博士于2 0 世纪9 0 年代在建立数 据仓库一书中提出:“数据仓库( D a t aW a r e h o u s e ) 是一个面向主题的、集成的、稳定 的、包含历史数据的数据集合,它用于支持经营管理中的决策制定过程。”把信息加以 整理归纳,并及时提供给相应的管理决策人员,是数据仓库的根本任务【6 8 】。数据仓库 是来自多个源的数捌的存储库,它可通过I n t e r n e t 将不同的数据库连接起来,将数据 全部或部分复制到一个数掘存储中心。数据仓庠倾向于个逻辑的概念,它建电在一定 东北大学硕士学位论文第二章管理分析系统和数据仓库相关技术 数量的数据库之上,这些数据库在物理上可以是分开的,甚至可以属于不同的国家。数 据仓库通过I n t e r n e t 打破地域界限,将它们合成一个逻辑整体,把一个海量的数据库 展现在用户面前1 9 1 。 对于什么是数据仓库,许多人提出了不同的看法。数据仓库概念的创始人 W H I n m o n 提出的数据仓库概念最为全面。下面将分别论述数据仓库的这四个特征1 1 0 , 1 1 】。 ( 1 ) 面向主题的数据 与传统的操作型系统面向应用进行数据组织的特点相对应,数据仓库中的数据是面 向主题进行组织的。主题是一个抽象的概念,是在较高层次上将企业信息系统中的数据 综合、归类并进行分析利用的抽象。在逻辑意义上,它对应企业中某一宏观分析领域所 涉及的分析对象,是针对某一决策问题而设置的。简言之,即是指用户使用数据仓库进 行决策时所关心的重点方面。如银行存款情况、贷款情况、客户群情况、利润情况等; 面向主题的数据组织方式,即数据仓库内的信息足按主题进行组织的,为按主题进行决 策的过程提供信息,是在较高层次上对分析对象的数据的一个完整的、统一的、一致的 描述,能完整、统一地刻画各个分析对象所涉及的企业的各项数据,以及数据之问的联 系。对于一个保险公司来说,应用I u J 题可能是汽车保险、健康保险、人寿保险与意外伤 亡保险,而公司的主要主题范旧可能是顾客、保险单、保险费与索赔。 ( 2 ) 集成的数据 数据仓库中存贮的数据是从原来分散的各个业务系统中提取出来的,但并不是原有 数据的简单拷贝,而是经过系统加工、汇总和整理的,以消除不一致性,保证数据仓库 内的信息是关于整个企业的一致的全局信息。其一,数据仓库的数据不能直接从原有数 据库系统中得到。原有数据库系统记录的是每一项业务处理的流水账,这些数据不适合 于分析处理,在进入数据仓库之前必须经过综合、计算,抛弃分析处理不需要的数据项, 增加一些可能涉及的外部数据。其二,数据仓库每一个主题所对应的源数据在原分散数 据库中有许多重复或不一致的地方,必须将这些数据转换成全局统一的定义,消除不一 致和错误的地方,以保证数据的质量。否则,对不准确,甚至不正确的数据进行分析得 出的结果不能指导企业做出科学的决策。 ( 3 ) 不可更新的数据 操作型环境中的数据是按逐个记录方式处理的,如可对I 己录进行访问、插入、修改 和删除,而数据仓库中的数据是批量载入和访I U J 的。数据仓库的数据不可史新也可晚是 数据本身相对稳定,指一旦某个数据进入数据仓库后,一般情况下将被长期保帮,也就 _ 12 东北大学硕士学位论文第二章管理分析系统和数据仓库相关技术 是数据仓库中一般有大量的插入和查询操作,但修改和删除操作很少。数据仓库的这个 特征可以从两个角度去理解。第一,从数据的使用方式上看,数据仓库的数据不可更新, 也就是说,数据仓库的数据对最终用户而言是只读的。由于数据仓库的查询数据量往往 很大,所以对数据查询、查询界面的友好和数据的表示提出了更高的要求,另外,由于 对数据仓库进行查询分析的用户多是企业的高层领导,他们是所在领域的专家,但对计 算机却不一定熟悉。第二,从数据的内容上看,数据仓库存贮的是企业当前的和历史的 数据,在一定的时问间隔以后,当前的数据需要按一定的方法转换成历史数据,年代久 远的、查询率低的数据需要从数据仓库脱离到廉价慢速设备( 如磁带) 上,对分析处理不 再有用的数据需要从数据仓库中删除。因此,也可以说数据仓库在一定时间间隔内是稳 定的。 ( 4 ) 随时问不断变化的数据 数据仓库数据的不可更新是针对应用而言,即用户进行分析处理时不对数据进行更 新操作,但不是说,数据从进入数据仓库到被删除就永远不变。数据仓库中的数据随时 间的变化不断变化的,即数据仓库内的信息并不只是关于企业当时或某一时点的信息, 而是系统记录了企业从过去某一时点到目前的各个阶段的信息,通过这些信息,可以对 企业的发展历程和未来趋势做出定量分析和预测。这主要表现在三个方面:第一,数据 仓库的数据内容是随时问变化不断增加的。每隔一段固定的时问| 、日J 隔后,运作数据库系 统中产生的数据被抽取、转换并集成,追加到数据仓库中,但不对数据的过去版本进行 修改,也就是说,数据仓库中的数据是一系列某一时刻生成的复杂快照;第二,数据仓 库的数据内容随时f H J 的变化会不断被删除。数据仓库的数据存储是有一定期限的,过了 这个期限或者对分析不再有用时,数据就会被删除,只是由于决策分析的需要,数据仓 库中的数据的存储期限远远超过操作性环境,前者的时问期限一般是5 1 0 年,而后者 只有6 0 9 0 天。第三,数据仓库中的数掘随时I 1 1 J 的变化不断进行重新综合。数据仓库中 有大量的综合数据,它们或者按时l 日J 段进行综合,或者隔一定的时问片进行抽样等等, 都与时问有关,所以数壬l 仓库中的键码结构总是包含时I H J 元素,而操作型数据的键码结 构可能包含也可能不包含时l 、日J 元素。 2 3 2 数据仓库的组成和作用 传统的数据库技术是以单一的数据资源,即数扼库为中心,进行事务处理工作。主要 划分为两大类,操作型处理和分析犁处理( 或信息型处理) 。操作型处理也叫事务处理, 是指对数嵌眸联机的| I 常操作,通常足对一个或一组纪录的杏询和修改,: = 要为企业的特 13 东北大学硕士学位论文第二章管理分析系统和数据仓库相关技术 定应用服务,注重响应时间、数据的安全性和完整性;分析型处理则用于管理人员的决 策分析,经常要访问大量的历史数据【1 2 】。传统数据库系统精于企业的日常事务处理工作, 而难于实现对数据分析处理要求,从而形成了数据仓库技术( D a t aW a r e h o u s i n g ,简称 D W ) 。数据仓库系统包括:数据仓库技术、联机分析处理技术( O n L i n eA n a l y t i c a l P r o c e s s i n g ,简称O L A P ) 和数据挖掘技术( D a t aM i n i n g ,简称D M ) 。数据仓库弥补了原有 的数据库的缺点,将原来的以单一数据库为中心的数据环境发展为一种新环境的一体系 化环境【1 3 】。如图2 3 所示: i 。”。一。“一”一” 摄作型环境全局级部门级个人级 图2 3 数据仓库体系化环境 F i g 2 3D a t aW a r e h o u s eS y s t e mE n v i r o n m e n t 数据仓库最根本的特点是物理地存放数据,而且这些数据并不是最新的、专有的, 而是来源于其它数据库的。数据仓库的建立并不是要取代数据库,它要建立在一个较全 面和完善的信息应用的基础上,用于支持高层决策分析,而事务处理数据库在企业的信 息环境中承担的是F = l 常操作性的任务。数据仓库是数据库技术的一种新的应用,而且到 目前为止,数据仓库还是用关系数据库管理系统来管理其中的数据【1 4 1 。 数据仓库主要有三方面的作用:首先,数据仓库提供了标准的报表和图表功能,其 中的数据来源于不同的多个事务处理系统,因此,数据仓库的报表和图表是关于整个企 业集成信息的报表和图表I l5 1 。其次,数据仓库支持多维分析,多维分析是通过把一个实 体的多项重要的属性定义为多个维度,使得用户能方便地汇总数据集,简化了数据的分 析处理逻辑,并能对不同维度值的数据进行比较,而维度则表示了对信息的不同理解角 度。应用多维分析可以在一个查询中对不同阶段的数据进行纵向或横向比较,这在决策 过程中非常有用。第三,数据仓库是数据挖掘技术的关键基础,数据挖掘技术要在已有 数据中识别数据的模

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论