(管理科学与工程专业论文)数据仓库技术及其在erp中的应用.pdf_第1页
(管理科学与工程专业论文)数据仓库技术及其在erp中的应用.pdf_第2页
(管理科学与工程专业论文)数据仓库技术及其在erp中的应用.pdf_第3页
(管理科学与工程专业论文)数据仓库技术及其在erp中的应用.pdf_第4页
(管理科学与工程专业论文)数据仓库技术及其在erp中的应用.pdf_第5页
已阅读5页,还剩77页未读 继续免费阅读

(管理科学与工程专业论文)数据仓库技术及其在erp中的应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

塑塑鱼壁垫查垦茎垄星些主盟堡旦 a b s t r a c t t h et h e s i sf o c u s e so nt h et e c h n o l o g ya n dt h ea p p l i c a t i o no ft h ed a t a w a r e h o u s e i nd i s c u s s i n gt h et e c h n o l o g yo fd a t aw a r e h o u s e ,t h eb a s i cc o n c e p t o fd a t aw a r e h o u s ei si n t r o d u c e d ,t h em e t h o d so fb u i l d i n gd a t aw a r e h o u s ea r e c o m p a r e d ,t h em o d e l b u il d i n gm e t h o d s ,s t e p sa n dp r o c e s sa r ed e s c r i b e d ,a n d t h ec l l e n td i s p l a yo fd a t aw a r e h o u s ea r et a l k e di nd e t a i l i na d d i t i o n ,ip r o b es i m p l yt h ea p p l i c a t i o no fd a t aw a r e h o u s ei ne r p , d e s c r i b i n gt h en e c e s s i t ya n dt h ev a l u eo ft h ea p p l i c a t i o no fd a t aw a r e h o u s e i ne r p ,a n da tt h es s m et i m eo f f e rs o m es u g g e s t i o n so ns o m eo ft h ei m p o r t a n t t h i n g so ft h ea p p l i c a t i o no fd a t aw a r e h o u s ei n e r p k e yw o r d s :d a t aw a r e h o u s e e r p d e c i s i o n - m a k i n g d a t am a r t 2 南京航空航天大学硕士学位论文 绪论 从8 0 年代开始,许多企业就开始进行企业信息化的工作,逐步建立了企业的各 种信息系统。经过十几、二十几年的积累,已经有相当一部分的企业积累了大量的 企业数据。对于这些企业来说,它们已经不是缺乏数据资料了,而是由于企业数据 是如此的众多和复杂,因而淹没在浩瀚的数据汪洋中了。可以看到,这些企业数据 虽然众多,但是它们却不能有效地利用这些数据,使这些数据发挥应有的作用。另 一方面,数据如果不能利用,就会变成“数据垃圾”,这也将使企业不胜其烦,必 将为此浪费大量的人物财力。 目前企业的信息化建设,主要目的是进行日常的事务处理,即用计算机代替人 工劳动。但是随着社会经济的发展,竞争的加剧,企业对信息的处理需求不光只是 事务处理,而是希冀能对企业决策提供支持,也就是说,企业迫切希望能将原来事 务处理的数据转变为决策支持的数据。 所以,当前有许多企业迫切需要一种方式来从企业浩瀚的数据中筛选出对企业 有用的信息,增强企业的决策能力,从而提升企业的竞争力。数据仓库技术就是这 样一种很好的解决方案。 本论文研讨了如何利用数据仓库技术创建企业的决策支持系统,以及初步探讨 了如何在e r p 系统中应用数据仓库技术来增强e r p 系统的商业智能。在进行数据仓 库技术研究的同时,结合前人的经验,总结探讨了一种实用的数据仓库的建设方法 和步骤,细致地分析描述了数据仓库建设地全过程,并详细介绍了数据仓库的展现 及应用。在研究e r p 中应用数据仓库技术的时候,简要探讨了e r p 系统应用数据仓 库技术建造商业智能的重要意义、内容,以及在建造过程中应注意的一些问题。 本论文的创新点主要体现在两个方面:一是详细系统地论述了一种数据仓库设 计的方法和步骤;二是对数据仓库技术在e r p 中的应用提出了一些看法和建议,特 别提出了o l t p 数据库和数据仓库互动设计的概念。 墼塑垒塞垫查垦墨垄里些! 塑堡旦 第一章从数据库到数据仓库 1 1 企业信息系统的三个层次 企业的信息系统,大致可分为以下的三个层次: 第一层次,是与企业生产活动相关的信息系统。以机械设备的生产厂家来 说,与生产流程相关的机械c a d ( 计算机辅助设计) 、c a m ( 计算机辅助制造) 、c a p p ( 计算机辅助工艺设计) 等是属于这个层次。这部分的特点是:专业知识与计算机 知识紧密结合,主要解决企业生产过程中的问题。 第二层次,是与企业日常事务及管理相关的o l t p ( 事务处理系统) 系统。例 如,进销存管理、工资管理、人事管理、收费管理等业务系统。这部分的特点是: 主要处理企业日常事物,通过日常事务处理的窗口将企业日常数据输入数据库,然 后对其作修改、查询及简单统计分析等操作。这一层次从数据处理角度来说,叫做 操作型处理。 第三层次,是企业的决策支持系统( d s s ) 。这部分系统主要为企业中高层 的决策提供支持,提供企业决策的数据。这一层次从数据处理角度来说,叫做分析 型处理。 1 2 事务处理( o l t p ) 环境不适合d s s 应用 从上面的第二层次可以看到,在o l t p 环境下,可以作简单的统计分析。但这种 统计分析数据量极小,功能较弱,决不能满足企业分析决策的需要。能不能在o l t p 环境下进行复杂的分析处理? 答案是否定的。因为事务处理与分析处理具有极不相 同的性质,概括起来有下面四条: 事务处理与分析处理的性能特点不同。事务处理的特点是数据存取操作的 频率高而每次操作的时间短。因此,系统可以允许多个用户按分时方式使用系统资 源,同时保持较短的响应时间。而分析处理的特点是某个分析程序有时可能需要连 续运行好几个小时,占用大量的系统资源。所以,如果把分析处理建立在事务处理 的环境下,将会严重影响事务处理系统的性能,延长事务处理的响应时间。 数据集成的不同。事务处理所需的数据仅仅是与本部门有关的数据,分析 处理所需的数据往往是整个企业范围的全局数据。 历史数据问题。事务处理一般只需当前数据,在数据库中一般也只储存当 前的数据。分析处理却是依托于历史数据的,没有大量的历史数据,难以完成有些 如企业发展趋势这样的分析。 数据的综合问题。分析处理在分析前,往往需要对细节数据进行不同程度 2 墼塑垒塞垫查垦墨垄里些! 塑堡旦 第一章从数据库到数据仓库 1 1 企业信息系统的三个层次 企业的信息系统,大致可分为以下的三个层次: 第一层次,是与企业生产活动相关的信息系统。以机械设备的生产厂家来 说,与生产流程相关的机械c a d ( 计算机辅助设计) 、c a m ( 计算机辅助制造) 、c a p p ( 计算机辅助工艺设计) 等是属于这个层次。这部分的特点是:专业知识与计算机 知识紧密结合,主要解决企业生产过程中的问题。 第二层次,是与企业日常事务及管理相关的o l t p ( 事务处理系统) 系统。例 如,进销存管理、工资管理、人事管理、收费管理等业务系统。这部分的特点是: 主要处理企业日常事物,通过日常事务处理的窗口将企业日常数据输入数据库,然 后对其作修改、查询及简单统计分析等操作。这一层次从数据处理角度来说,叫做 操作型处理。 第三层次,是企业的决策支持系统( d s s ) 。这部分系统主要为企业中高层 的决策提供支持,提供企业决策的数据。这一层次从数据处理角度来说,叫做分析 型处理。 1 2 事务处理( o l t p ) 环境不适合d s s 应用 从上面的第二层次可以看到,在o l t p 环境下,可以作简单的统计分析。但这种 统计分析数据量极小,功能较弱,决不能满足企业分析决策的需要。能不能在o l t p 环境下进行复杂的分析处理? 答案是否定的。因为事务处理与分析处理具有极不相 同的性质,概括起来有下面四条: 事务处理与分析处理的性能特点不同。事务处理的特点是数据存取操作的 频率高而每次操作的时间短。因此,系统可以允许多个用户按分时方式使用系统资 源,同时保持较短的响应时间。而分析处理的特点是某个分析程序有时可能需要连 续运行好几个小时,占用大量的系统资源。所以,如果把分析处理建立在事务处理 的环境下,将会严重影响事务处理系统的性能,延长事务处理的响应时间。 数据集成的不同。事务处理所需的数据仅仅是与本部门有关的数据,分析 处理所需的数据往往是整个企业范围的全局数据。 历史数据问题。事务处理一般只需当前数据,在数据库中一般也只储存当 前的数据。分析处理却是依托于历史数据的,没有大量的历史数据,难以完成有些 如企业发展趋势这样的分析。 数据的综合问题。分析处理在分析前,往往需要对细节数据进行不同程度 2 南京航空航天大学硕士学位论文 的综合,以提高分析的效率。而事务处理不需要这种综合,在数据库中,根据规范 化理论,这种综合往往被作为数据冗余而加以限制。 综上所述,现在企业中已有大量的事务处理系统,但是,在建立分析型系统时, 由于事务处理与分析处理这两种系统具有本质的差别,所以分析型系统不能建立在 现有的事务处理环境中,必须另辟蹊径。 1 3 什么是数据仓库? 现代商业的复杂性和市场竞争的日益激烈,使企业对有关企业的全局信息、支 持企业进行决策的信息的需求日益增强。事务处理系统已不能满足企业决策的需 要。市场竞争要求捕获和分析事物级的业务数据。建立在事务处理业务环境上的分 析系统无法达到这一要求。要提高分析和决策的效率和有效性,分析型处理及其数 据必须与操作性处理及数据相分离。必须把分析型数据从事务处理环境中提取出 来,按照d s s 处理的需要进行重新组织,建立单独的分析处理环境。数据仓库技术 正是为了构件这种新的分析处理环境而出现的一种数据存储和组织技术。 数据仓库之父b i i ii n i n o n 在他的专著b u i i d i n gt h ed a t a h o u s e ( j o h nw i l e y & s o n si n c ,1 9 9 6 ) 中,把数据仓库描述为一个“面向主题的、完整的、非易失的、 不同时间的、用于决策支持管理的数据集合”。 b i i ii n m o n 在这本书中,也列出了事务处理的操作型数据和分析处理的分析型 数据之间的区别。如表卜1 。 表卜1 操作型数据和分析型数据的区别 操作型数据分析型数据 细节的综合的、或提炼的 在存储瞬间是准确的代表过去的数据 可更新不更新 操作需求事先可知道操作需求事先不知道 生命周期符合s d l c *完全不同的生命周期 对性能要求高对性能要求宽松 一个时刻操作一单元一个时刻操作一集合 事物驱动分析驱动 面向应用面向分析 一次操作数据最小一次操作数据量大 支持日常操作支持管理需求 s d l c :s y s t e md e v e l o p m e n tl i f ec y c l e ( 系统生命周期法) 从上表中所列出的分析型数据的特点可以概括为四点也就是数据仓库的四个 南京航空航天大学硕士学位论文 的综合,以提高分析的效率。而事务处理不需要这种综合,在数据库中,根据规范 化理论,这种综合往往被作为数据冗余而加以限制。 综上所述,现在企业中已有大量的事务处理系统,但是,在建立分析型系统时, 由于事务处理与分析处理这两种系统具有本质的差别,所以分析型系统不能建立在 现有的事务处理环境中,必须另辟蹊径。 1 3 什么是数据仓库? 现代商业的复杂性和市场竞争的日益激烈,使企业对有关企业的全局信息、支 持企业进行决策的信息的需求日益增强。事务处理系统已不能满足企业决策的需 要。市场竞争要求捕获和分析事物级的业务数据。建立在事务处理业务环境上的分 析系统无法达到这一要求。要提高分析和决策的效率和有效性,分析型处理及其数 据必须与操作性处理及数据相分离。必须把分析型数据从事务处理环境中提取出 来,按照d s s 处理的需要进行重新组织,建立单独的分析处理环境。数据仓库技术 正是为了构件这种新的分析处理环境而出现的一种数据存储和组织技术。 数据仓库之父b i i ii n i n o n 在他的专著b u i i d i n gt h ed a t a h o u s e ( j o h nw i l e y & s o n si n c ,1 9 9 6 ) 中,把数据仓库描述为一个“面向主题的、完整的、非易失的、 不同时间的、用于决策支持管理的数据集合”。 b i i ii n m o n 在这本书中,也列出了事务处理的操作型数据和分析处理的分析型 数据之间的区别。如表卜1 。 表卜1 操作型数据和分析型数据的区别 操作型数据分析型数据 细节的综合的、或提炼的 在存储瞬间是准确的代表过去的数据 可更新不更新 操作需求事先可知道操作需求事先不知道 生命周期符合s d l c *完全不同的生命周期 对性能要求高对性能要求宽松 一个时刻操作一单元一个时刻操作一集合 事物驱动分析驱动 面向应用面向分析 一次操作数据最小一次操作数据量大 支持日常操作支持管理需求 s d l c :s y s t e md e v e l o p m e n tl i f ec y c l e ( 系统生命周期法) 从上表中所列出的分析型数据的特点可以概括为四点也就是数据仓库的四个 数据仓库技术及其在e r p 中的应用 基本特征:数据仓库的数据是面向主题的;数据仓库的数据是集成的:数据仓库的 数据是只读的;数据仓库的数据是随时间不断变化的。 以下讨论数据仓库的四个基本特征: 1 3 1 数据仓库的数据是面向主题的 什么是主题? 主题是一个抽象的概念,是在较高层次上将企业信息系统的数据 综合、归类并进行分析利用的抽象。以商场为例,“商品”、“供应商”、“销售商” 等就是一些可以进行分析研究的主题。 数据仓库的数据是按面向主题的组织方式进行组织的,即对所分析的主题的数 据作一个完整、一致的描述,能完整、统一地刻画各个分析对象所涉及的企业的各 项数据,以及数据之间的联系。 为了更好地理解主题与面向主题的概念,说明面向主题的数据组织与传统的面 向应用的数据组织方式的不同,在此举一例:一家采用“会员制”经营方式的商场, 按业务已建立起销售、采购、库存管理以及人事管理子系统,按照其业务处理要求, 建立了各自的数据库模式: 采购子系统: 订单( 订单号,供应商号,总金额,日期) 订单细则( 订单号,商品号,类别,单价,数量) 供应商( 供应商号,供应商名,地址,电话) 销售子系统: 顾客( 顾客号,姓名,性别,年龄,文化程度,地址,电话) 销售( 员工号,顾客号,商品号,数量,单价,日期) 库存管理子系统: 领料单( 领料单号,领料人,商品号,数量,日期) 进料单( 进料单号,订单号,进料人,收料人,日期) 库存( 商品号,库房号,库存量,日期) 库房( 库房号,仓库管理员,地点,库存商品描述) 人事管理子系统: 员工( 员工号,姓名,性别,年龄,文化程度,部门号) 部门( 部门号,部门名称,部门主管,电话) 显然,上述的数据模式是传统的面向应用的数据组织方式,其特点如下: 面向应用进行数据组织应反映一个企业内数据的动态特征,即它要便于表 达企业各部门内数据流动情况以及部门间的数据输入输出关系,通俗地讲是要表达 每个部门的实际业务处理数据流程:即从那儿获取输入数据,在部门进行什么样的 数据处理,以及向什么地方输出数据。按照实际应用即业务处理流程来组织数据, 4 数据仓库技术及其在e r p 中的应用 基本特征:数据仓库的数据是面向主题的;数据仓库的数据是集成的:数据仓库的 数据是只读的;数据仓库的数据是随时间不断变化的。 以下讨论数据仓库的四个基本特征: 1 3 1 数据仓库的数据是面向主题的 什么是主题? 主题是一个抽象的概念,是在较高层次上将企业信息系统的数据 综合、归类并进行分析利用的抽象。以商场为例,“商品”、“供应商”、“销售商” 等就是一些可以进行分析研究的主题。 数据仓库的数据是按面向主题的组织方式进行组织的,即对所分析的主题的数 据作一个完整、一致的描述,能完整、统一地刻画各个分析对象所涉及的企业的各 项数据,以及数据之间的联系。 为了更好地理解主题与面向主题的概念,说明面向主题的数据组织与传统的面 向应用的数据组织方式的不同,在此举一例:一家采用“会员制”经营方式的商场, 按业务已建立起销售、采购、库存管理以及人事管理子系统,按照其业务处理要求, 建立了各自的数据库模式: 采购子系统: 订单( 订单号,供应商号,总金额,日期) 订单细则( 订单号,商品号,类别,单价,数量) 供应商( 供应商号,供应商名,地址,电话) 销售子系统: 顾客( 顾客号,姓名,性别,年龄,文化程度,地址,电话) 销售( 员工号,顾客号,商品号,数量,单价,日期) 库存管理子系统: 领料单( 领料单号,领料人,商品号,数量,日期) 进料单( 进料单号,订单号,进料人,收料人,日期) 库存( 商品号,库房号,库存量,日期) 库房( 库房号,仓库管理员,地点,库存商品描述) 人事管理子系统: 员工( 员工号,姓名,性别,年龄,文化程度,部门号) 部门( 部门号,部门名称,部门主管,电话) 显然,上述的数据模式是传统的面向应用的数据组织方式,其特点如下: 面向应用进行数据组织应反映一个企业内数据的动态特征,即它要便于表 达企业各部门内数据流动情况以及部门间的数据输入输出关系,通俗地讲是要表达 每个部门的实际业务处理数据流程:即从那儿获取输入数据,在部门进行什么样的 数据处理,以及向什么地方输出数据。按照实际应用即业务处理流程来组织数据, 4 南京航空航天大学硕士学位论文 其主要目的是为了进行联机事务处理,以提高日常业务处理的速度和准确性等,提 高服务质量。 面向应用数据组织方式生成的各项数据库模式与企业中实际的业务处理流 程中所涉及的单据或文档有很好的对应关系,这种对应关系使得数据库模式具有很 强的操作性,因而可以较好地在这些数据库模式上建立起各项实际的应用处理。如 库存管理中的领料单、进料单和库存等是实际管理中就存在的单据或报表,并且其 各项内容也是相互对应的。在有些应用中,这种数据组织方式只是对企业业务活动 所涉及的数据的存储介质的改变,即从纸介质到磁介质的改变。 面向应用进行数据组织的方式并没有体现数据库这一概念提出的原本意 图:数据与数据处理的分离;即要将数据从数据处理或应用中抽象出来、解放出来, 组织成一个和具体的应用独立的数据世界。所以说,实际中的数据库建设由于偏重 对联机事务处理的支持,而将数据应用逻辑与数据在一定程度上又重新捆绑在一起 了,造成的后果是:使得本来是描述同一客观实体的数据由于与不同的应用逻辑捆 绑在一起而变得不统一;使得本来是一个完整的客观实体的数据分散在不同的数据 库模式中。 总的说来,面向应用来进行企业数据的组织,其抽象程度还不够高,没有完全 实现数据与应用的分离。但是这种方式能较好地将数据数据库模式和企业的现实业 务活动对应起来,从而具有很好的操作性,便于将企业原来的各项业务从手工处理 方式向计算机处理方式的转变,所以在进行o l t p 数据库系统的开发时,面向应用 的数据组织方式仍不失为一种有效的数据组织方式,它可以较好地支持联机事务处 理。 那么按照面向主题的方式,上述数据应该怎样来组织昵? 应该分为两个步骤: 抽取主题以及确定每个主题所应包含地数据内容。 在数据仓库中,主要是进行数据分析处理,那么商品采购时的分析活动主要是 了解各供应商的情况,显然“供应商”是采购分析的分析对象。所以我们并不需要 组织向“订单”和“订单细则”这样的数据库模式,因为它们包含的是操作型地数 据;但是仅仅只用o l t p 数据库的“供应商”中的数据又是不够的,因而要重新组 织“供应商”这么一个主题。 根据各种分析领域的分析对象,我们可以综合得到其它的主题。仍以商场为例, 它所应有的主题包括:供应商、商品、顾客等。每个主题有着各自独立的逻辑内涵, 对应了一个分析对象。这三个主题所包含的内容列出如下: 商品: 商品固有信息: 商品采购信息: 商品销售信息: 商品库存信息: 商品号 商品号 商品号 商品号 商品名,小类,大类,颜色等 供应商号,供应价,供应日期,供应量等 顾客号,售价,销售日期,销售量等 库房号,库存量,日期等 5 数据仓库技术及其在e r p 中的应用 供应商: 供应商固有信息:供应商号,供应商名,地址,电话等 供应商品信息:供应商号,商品号,供应价,供应日期,供应量等 顾客: 顾客固有信息:顾客号,顾客名,性别,年龄,文化程度,住址,电话等 顾客购物信息:顾客号,商品号,售价,购买日期,购买量等 以“商品”主题为例,关于商品的各种信息已综合在“商品”这一个主题中, 主要是两个方面的内容:第一,它包含了商品固有信息,如商品名称、类别等商品 的描述信息;第二,“商品”主题也包含有商品流动的信息,如“商品”主题也描 述了某商品采购信息、商品销售信息及商品库存信息等。比较商场原有数据库的数 据模式,可以看到:首先,丢弃了将原有数据库中不必要、不适合分析的信息,如 有关订单信息、领料单等。其次,在原有的数据库模式中,关于商品的信息分散在 各子系统中,如,商品的采购信息存在采购子系统中,商品的销售信息则存在于销 售子系统中,商品库存信息却又在库存管理子系统中,根本没有形成一个有关商品 的完整一致的描述。面向主题的数据组织方式所强调的就是要形成关于商品的一致 的信息集合,以便在此基础上针对“商品”这一分析对象进行分析处理。 以上过程可由图卜1 所示: 商品采购商品销售商品库存 子系统子系统子系统 一 商品主题 图1 - 1 数据仓库中的商品主题域 1 3 2 数据仓库的数据是集成的 o l t p 系统 数据仓库 数据仓库的数据是从原有的分散的数据库数据中抽取来的。第一,数据仓库的 每一个主题所对应的源数据在原有的各分散数据库中有许多重复和不一致的地方, 且来源于不同的联机系统的数据都和不同的应用逻辑捆绑在一起;第二,数据仓库 南京航空航天大学硕士学位论文 中的综合数据不能从原有的数据库系统直接得到,因此在数据进入数据仓库之前, 必定要经过统一与综合,这一步是数据仓库建设中最关键、最复杂的一步,所要完 成的工作有: 要统一源数据中所有矛盾之出,如字段的同名异义、异名同义、单位不统 一、字段不一致,等等。 进行数据综合和计算。数据仓库中的数据综合工作可以在从原有数据库抽 取数据时生成,但许多是在数据仓库内部生成的,即进入数据仓库以后进行综合生 成的。 1 3 3 数据仓库的数据是只读的 数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查 询,一般情况下并不进行修改操作。数据仓库的数据反映的是一段相当长的时间内 历史数据的内容,是不同时点的数据库快照的集合,以及基于这些快照进行统计、 综合和重组的导出数据,而不是联机处理的数据。数据库中进行联机处理的数据经 过集成输入到数据仓库中,一旦数据仓库存放的数据已经超过数据仓库的数据存储 期限,这些数据将从当前的数据仓库中删去。 1 3 4 数据仓库的数据是随时间不断变化的 这个特征表现在以下三方面: 数据仓库随时间变化不断增加新的数据内容,数据仓库系统必须不断捕捉 o l t p 数据库中变化的数据,追加到数据仓库中去,也就是要不断地生成o l t p 数据 库的快照,经统一集成后增加到数据仓库中去。 数据仓库库随时间变化不断删去旧的数据内容。数据仓库的数据也有存储 期限,一旦超过了这一期限,过期数据就要被删除。 数据仓库中包含有大量的综合数据,这些综合数据中很多跟时间有关,如 数据经常按照时间段进行综合,或隔一定的时间片进行抽样等等。这些数据要随时 间的变化不断的进行重新综合。 因此,数据仓库数据的码键都包含时间项,以表明数据的历史时期。 数据仓库技术及其在e r p 中的应用 1 4 数据仓库中的数据组织 1 4 1 数据仓库中的数据组织结构 一个典型的数据仓库组织结构入图卜1 所示 i _ i i i _ i i 高度综合级 - 轻度综合级 - 当前细节级 早期细节级 图1 - 2 数据仓厍的数据组织结构 数据仓库中地数据分为四个级别:早期细节级、当前细节级、轻度综合级、高 度综合级。源数据经过综合后,首先进入当前细节级,并根据具体需要进行进一步 的综合从而进入轻度综合级乃至高度综合级别。老化的数据进入早期数据级。从中 可以看出,数据仓库中存在着不同的综合级别,我们一般称之为“粒度”。粒度越 大,表示细节程度越低,综合程度越高。级别的划分是根据粒度进行的。 1 4 2 有关数据组织的基本概念 数据仓库中常用的概念有以下一些: 元数据 数据仓库中还有一部分重要数据是元数据( m e t a d a t a ) ,元数据是“关于数据 的数据”,如传统数据库中的数据字典就是一种元数据。在数据仓库环境中,主要 有两种元数据:第一种是为了从操作型环境向数据仓库环境转换而建立的元数据, = 数据仓库技术及其在e r p 中的应用 1 4 数据仓库中的数据组织 1 4 1 数据仓库中的数据组织结构 一个典型的数据仓库组织结构入图卜1 所示 i _ i i i _ i i 高度综合级 - 轻度综合级 - 当前细节级 早期细节级 图1 - 2 数据仓厍的数据组织结构 数据仓库中地数据分为四个级别:早期细节级、当前细节级、轻度综合级、高 度综合级。源数据经过综合后,首先进入当前细节级,并根据具体需要进行进一步 的综合从而进入轻度综合级乃至高度综合级别。老化的数据进入早期数据级。从中 可以看出,数据仓库中存在着不同的综合级别,我们一般称之为“粒度”。粒度越 大,表示细节程度越低,综合程度越高。级别的划分是根据粒度进行的。 1 4 2 有关数据组织的基本概念 数据仓库中常用的概念有以下一些: 元数据 数据仓库中还有一部分重要数据是元数据( m e t a d a t a ) ,元数据是“关于数据 的数据”,如传统数据库中的数据字典就是一种元数据。在数据仓库环境中,主要 有两种元数据:第一种是为了从操作型环境向数据仓库环境转换而建立的元数据, = 南京航空航天大学硕士学位论文 它包含了所有源数据项名、属性及其在数据仓库中的转换;第二种元数据在数据仓 库中是用来与终端用户的多维商业模型前端工具之间建立映射,此种元数据称为 d s s 元数据,常用来开发更先进的决策支持工具。 粒度 粒度是数据仓库的重要概念。粒度可以分为两种形式: 第一种粒度是对数据仓库中的数据仓库的综合程度高低的一个度量,它既影响 数据仓库钟的数据量的多少,也影响数据仓库所能回答询问的种类。显然,粒度越 小,数据细节程度越高,综合程度越低,能回答查询的种类就越多,但同时必然造 成数据仓库中数据大量堆积;反之,粒度越大,数据细节程度越低,综合程度越高, 这种情况下数据仓库中的数据量较少,但能回答查询的种类也较少,回答细节问题 的能力将下降。 粒度是如此地重要,所以,设计数据仓库时,要对粒度进行认真规划,采用多 重粒度是必不可少的。 第二种粒度是另一种特殊形式的粒度,即样本数据库。样本数据库的粒度级别 不是根据综合程度的不同来划分的,而是根据采样率的高低来划分的。 样本数据库不是一般目的的数据库,它是根据一定需求从源数据中获得的个 抽样,因而也就不能回答一些细节性的问题。建立样本数据库进行分析的目的并不 是分析本身,也不是为得到精确的结果,而只是为建立起分析模型或是得到相对准 确、能反映趋势的数据,从而验证用户的猜想。 1 4 3 数据仓库中的数据组织形式 数据仓库中常见的几类数据组织形式有以下几种: 简单堆积文件。它将每日由数据库中提取并加工的数据逐天积累地存储起 来。 轮转综合文件。数据存储单位被分为日、周、月、年等几个级别。在星 期的七天中,数据被逐一记录在每日数据集中;然后,七天的数据被综合,记录在 周数据集中,接下去的一个星期,日数据集被重新使用,以记录新数据。同理,周 数据集达到五个后,数据再一次被综合并记入月纪录集,以此类推。 简化直接文件。类似于简单堆积文件,但它是间隔一定时间的数据库快照, 比如每隔一星期或一个月作一次。简化直接文件也可以认为是按一定的时间间隔对 数据库的采样。 连续文件。通过两个简化直接文件,我们可以生成连续文件,它是比较两 个简化直接文件的不同而生成的( 见图1 - 3 ) 。当然,连续文件也可以同新的简单文 件一起生成新的连续文件。 南京航空航天大学硕士学位论文 它包含了所有源数据项名、属性及其在数据仓库中的转换;第二种元数据在数据仓 库中是用来与终端用户的多维商业模型前端工具之间建立映射,此种元数据称为 d s s 元数据,常用来开发更先进的决策支持工具。 粒度 粒度是数据仓库的重要概念。粒度可以分为两种形式: 第一种粒度是对数据仓库中的数据仓库的综合程度高低的一个度量,它既影响 数据仓库钟的数据量的多少,也影响数据仓库所能回答询问的种类。显然,粒度越 小,数据细节程度越高,综合程度越低,能回答查询的种类就越多,但同时必然造 成数据仓库中数据大量堆积;反之,粒度越大,数据细节程度越低,综合程度越高, 这种情况下数据仓库中的数据量较少,但能回答查询的种类也较少,回答细节问题 的能力将下降。 粒度是如此地重要,所以,设计数据仓库时,要对粒度进行认真规划,采用多 重粒度是必不可少的。 第二种粒度是另一种特殊形式的粒度,即样本数据库。样本数据库的粒度级别 不是根据综合程度的不同来划分的,而是根据采样率的高低来划分的。 样本数据库不是一般目的的数据库,它是根据一定需求从源数据中获得的个 抽样,因而也就不能回答一些细节性的问题。建立样本数据库进行分析的目的并不 是分析本身,也不是为得到精确的结果,而只是为建立起分析模型或是得到相对准 确、能反映趋势的数据,从而验证用户的猜想。 1 4 3 数据仓库中的数据组织形式 数据仓库中常见的几类数据组织形式有以下几种: 简单堆积文件。它将每日由数据库中提取并加工的数据逐天积累地存储起 来。 轮转综合文件。数据存储单位被分为日、周、月、年等几个级别。在星 期的七天中,数据被逐一记录在每日数据集中;然后,七天的数据被综合,记录在 周数据集中,接下去的一个星期,日数据集被重新使用,以记录新数据。同理,周 数据集达到五个后,数据再一次被综合并记入月纪录集,以此类推。 简化直接文件。类似于简单堆积文件,但它是间隔一定时间的数据库快照, 比如每隔一星期或一个月作一次。简化直接文件也可以认为是按一定的时间间隔对 数据库的采样。 连续文件。通过两个简化直接文件,我们可以生成连续文件,它是比较两 个简化直接文件的不同而生成的( 见图1 - 3 ) 。当然,连续文件也可以同新的简单文 件一起生成新的连续文件。 数据仓库技术及其在e r p 中的应用 一月份顾客表 姓名i 顾客号 张平 i c 9 5 0 1 0 0 l 北京 王英lc 9 5 0 1 0 1l 天津 二月份顾客表 i 姓名顾客号地址 l 张平c 9 5 0 1 0 0北京 l 王英c 9 5 0 1 0 1大连 1 、2 月份顾客表 比较不同 姓名顾客号时间地址 张平 c 9 5 0 1 0 0 1 2 月北京 王英c 9 5 0 1 0 11 1 月天津 王英c 9 5 0 1 0 12 2 月大连 图1 - 3 连续文件的生成 1 5 数据仓库的建设方法 1 5 1 数据集市的概念 企业全局性的数据仓库存储了大量的企业全局数据,若分析查询有关企业全局 的问题,使用企业全局的数据仓库是比不可少的。但当某个部门只想查询本部门的 应用时,在全局数据仓库中的查询效率就显得较低了,所以有必要建立数据仓库的 部门级应用,以满足各部门本身对于数据分析的要求。因此,这些部门级的数据库 数据集市就产生了。企业建立了部门级的数据集市后,好处是明显的:一、提 高了查询的效率。在查询有关部门级的数据时,仅在与本部门相关的数据集市中查 询,这比在集中了企业各部门、各主题的全局数据的数据仓库中查找的数据量要小 的多:二、数据集市结构简单,管理简单方便;三、有时,各部门对于本部门的应 用有一些特殊的要求,这些特殊的要求可以建立在数据集市上。 数据仓库与数据集市的区别:面向的对象不同:数据仓库面向的是整个企业, 为整个企业提供所需的数据数据集市面向的是部门,仅为部门提供所需的数据。数 据粒度不一样:数据仓库中的数据粒度一般来说较小;数据集市中的数据主要是一 些概括性的数据。 数据仓库技术及其在e r p 中的应用 一月份顾客表 姓名i 顾客号 张平 i c 9 5 0 1 0 0 l 北京 王英lc 9 5 0 1 0 1l 天津 二月份顾客表 i 姓名顾客号地址 l 张平c 9 5 0 1 0 0北京 l 王英c 9 5 0 1 0 1大连 1 、2 月份顾客表 比较不同 姓名顾客号时间地址 张平 c 9 5 0 1 0 0 1 2 月北京 王英c 9 5 0 1 0 11 1 月天津 王英c 9 5 0 1 0 12 2 月大连 图1 - 3 连续文件的生成 1 5 数据仓库的建设方法 1 5 1 数据集市的概念 企业全局性的数据仓库存储了大量的企业全局数据,若分析查询有关企业全局 的问题,使用企业全局的数据仓库是比不可少的。但当某个部门只想查询本部门的 应用时,在全局数据仓库中的查询效率就显得较低了,所以有必要建立数据仓库的 部门级应用,以满足各部门本身对于数据分析的要求。因此,这些部门级的数据库 数据集市就产生了。企业建立了部门级的数据集市后,好处是明显的:一、提 高了查询的效率。在查询有关部门级的数据时,仅在与本部门相关的数据集市中查 询,这比在集中了企业各部门、各主题的全局数据的数据仓库中查找的数据量要小 的多:二、数据集市结构简单,管理简单方便;三、有时,各部门对于本部门的应 用有一些特殊的要求,这些特殊的要求可以建立在数据集市上。 数据仓库与数据集市的区别:面向的对象不同:数据仓库面向的是整个企业, 为整个企业提供所需的数据数据集市面向的是部门,仅为部门提供所需的数据。数 据粒度不一样:数据仓库中的数据粒度一般来说较小;数据集市中的数据主要是一 些概括性的数据。 南京航空航天大学硕士学位论文 1 5 2 建立数据仓库系统 企业建立数据仓库系统,一般说来,有三种方法: 第一种方法:先开发建立中央数据仓库,在从数据仓库中提取部门数据建立数 据集市,即“自上而下”的建设方法: 企业中央数据仓库,即企业全局性的数据仓库,从规模上来说往往是十分宏大 的。企业要完成这么大的工程,是一项严峻的考验,而且,将面临以下的困难: 建设周期长:企业的生产经营活动十分复杂,其所需的数据量庞大。所以, 要建立面向整个企业、面向企业各种经营活动的数据仓库是一件十分耗时的工作, 甚至长达数年。这对于大多数的企业来说,是难以忍受的。 投资大:建立企业的数据仓库耗资巨大,大部分企业难以一次性投资。 风险高:企业的生产经营活动太复杂,企业面临的问题不断变化,企业的 要求也不断变化。这些大量的不确定的因素使企业一次性建成数据仓库的风险极 高。 所以,采用这种方法是很困难、不太现实的。 第二种方法:先逐个建立各部门的数据集市,再将各数据集市集成起来,以构 成全局数据仓库,即“自下而上”的建设方法: 这种建设数据仓库的方法见效快、投资少、风险低,缺点是由于分散建设、缺 乏整体的规划,所以往往集成困难,容易形成“信息孤岛”:而且,由于建立数据 仓库时数据的清理、转换等工作都转移到了数据集市的建设过程中,所以,这种方 法建立数据集市的所需时间比第一种方法长:另外,分散建立数据集市,还容易造 成某些功能的重复,浪费人力物力;此外,按这种方法建立的数据集市由于其数据 来源于各业务系统,各个独立的数据集市分别从业务系统中提取数据,数据提取路 线相互交叉,所以但数据仓库系统复杂时,容易形成严重的“蜘蛛网”问题。 第三种方法:在全局的基础上进行数据仓库的设计,实现时抓紧企业最紧急、 最迫切的领域,集中精力首先建立这一领域的数据集市并投入运行,然后再逐步添 加其他应用的数据集市。 这种方法的好处就是既统一规划,又能投资少、见效快,能迅速投入运行使用。 这种方法,已经获得较多的赞同和认可。本论文也强烈推荐采用第三种方法来构建 数据仓库。 第二章数据仓库技术 数据仓库技术及其在e r p 中的应用 2 1 数据仓库的组成部分 数据仓库之父b 订1i n m o n 对数据仓库的定义虽为世人所公认,但对于数据仓库 仍存在着两种观点。一种观点是狭义的观点,认为数据仓库就是存储着数据仓库数 据的数据库。这种观点即认为数据仓库是一种特殊的数据库。另一种是广义的观点, 认为数据仓库是一个概念,它包括多个元素,如数据准备区、清理进程、含有数据 仓库数据的数据库、数据集市以及组织数据并将其提供给客户端应用程序的工具。 按照这种广义的观点,可以得到图卜3 的数据仓库拓扑图。本论文是按照广义的观 点来进行阐述的。 数据源 数据准备区数据仓库 数据集市终端用户查询 图2 1 数据仓库拓扑图 从拓扑图中可以看到,数据是从诸如操作型系统和平面文件这样的信息源抽取 的。其中,操作型系统指的就是事务处理系统,而平面文件指的是诸如e x c e l 文档 等存有重要数据的文件。然后,这些数据可通过一些途径装载到数据仓库中。数据 仓库将在用户所要求信息的最详细级别上建立。然后,数据仓库被用于聚集各种不 同的面向处理的数据集市。这样,数据仓库就形成一个能够为最终用户提供报表服 务和为用户提供分析需求服务的集成系统。 从拓扑图中也可以看到,数据仓库是由以下几部分组成的: 数据源 数据仓库用于为决策者提供信息。为此,数据仓库必须将来自企业中许多源的 数据聚集和合并为一致的数据集,以准确地反映企业的业务运作情况和历史记录。 数据仓库的数据源主要是e x c e l l 等平面文件、企业业务系统( 0 l t p ) 。由于企业0 l t p 往往缺乏规划,而且往往是由不同的人员与组织开发的,所以各0 l t p 系统中数据 南京航空航天大学硕士学位论文 存在着严重的不一致性,因此,数据仓库要从数据源中提取数据而成为一致的数据 集是十分费时的一件事。 关系数据库中的数据转换服务( d t s ) 提供功能强大的工具,可从多种不同的 数据源中析取和转换数据。 数据准备区 用于数据仓库的数据必须从数据源中析取,进行清理及格式化以保持一致性, 并转换为数据仓库架构。数据准备区有时称为数据中间存储区,它是关系数据库, 在这里从数据源中析取数据,将数据转换为常用格式,检查一致性和引用完整性, 并准备装入数据仓库数据库。在某些数据仓库实施方案中,数据准备区和数据仓库 数据库可以组合在一起,只要清理和转换操作不影响为数据仓库数据的最终用户提 供服务的性能或操作。由于数据源不同以及数据准备操作强加在联机事务处理系统 上的处理负荷,几乎无法选择在源数据库中执行准备操作。 最初装载数据仓库后,需不断地利用数据准备区为更新数据仓库准备新数据。 使用数据仓库和独立于数据源的数据准备区可提高管理数据仓库的效率。数据准备 区应将原始数据同数据仓库数据隔离开,以保护数据仓库的完整性。 数据仓库( 狭义的) 常用的数据库如s q ls e r v e r 、d b 2 、o r a c l e 、s y b a s e 、i n f o r m i x 等均提供了数 据仓库的功能。数据仓库的作用主要是容纳和管理数据仓库数据库中的大量数据。 数据仓库存储、管理和操作巨大的数据量,这些数据常由数亿行历史信息组成。关 系数据库必须提供快速的数据传输和更新、灵活高效的索引以及先进高效的查询能 力,以便组织和检索数据仓库的数据。 数据集市 在有些数据仓库版本中,数据集市是微型的数据仓库;而在有些版本中,数据 集市仅仅是数据仓库的一段。数据集市通常用于为单位的职能部门提供信息。典型 示例是销售部门、库存和发货部门、财务部门、高级管理部门等的数据集市。数据 集市还可用于将数据仓库数据分段以反映按地理划分的业务,其中的每个地区都是 相对自治的。例如,大型服务单位可能将地区运作中心视为单独的业务单元,每个 这样的单元都有自己的数据集市以补充主数据仓库。 如果数据仓库的开发采用的是“第三种方法”,则数据集市通过定期更新接收 来自数据仓库的数据。这样,数据集市就成为主数据仓库的组件,数据集市内数据 的组织、格式和架构与整个数据仓库内数据的组织、格式和架构就保持一致了。 数据仓库的数据在中央数据仓库中维护,数据首先装入中央位置的数据仓库 中,然后分发到各数据集市。关系数据库的数据转换服务( d t s ) 可用于调度和执 行数据转换,包括筛选出适合数据集市的数据和更新数据集市中适当的表。某些数 据仓库分发方案还可以通过复制来协调和维护数据集市的数据。 终端用户查询 13 数据仓库技术及其在e r p 中的应用 数据仓库的目的是表现业务信息供单位的决策者使用。如果没有工具帮助分析 和评估,包含数亿条数据的数据仓库对决策者将毫无用处。 终端用户查询主要包括报表生成、o l a p 分析、数据挖掘等方面。 报表生成:数据仓库中数据的生成不是实时的,一般说来,数据仓库中使用较 频繁的数据的更新时间是2 4 小时,所以数据仓库的报表生成不具有实时性。如果 需要实时的报表,最好从联机事务系统( o l t p ) 中获得。使用历史数据评估趋势的 报表虚在数据仓库中完成,数据仓库中包含具有适当格式且随时可用的历史数据, 并且可以处理大量的汇总数据。可以开发客户端应用程序来访问数据仓库或数据 集市,以生成所需的报表。 o l a p 分析:预定义报表很适合其特殊目的,但不适合探测分析。分析者希望在 数据中发现趋势和异常,并探测数据的不同区域以找到趋势和异常的根源。联机分 析处理( o l a p ) 是一个分析工具,旨在帮助对大量的数据仓库数据进行这种分析。 数据挖掘:o l a p 分析是用户首先提出自已的假设,然后利用各种工具通过反复 的、递归的检索查询以验证或否定自己假设的一种分析过程。而数据挖掘与o l a p 很大的不同在于,用户不需有自已的假设,不是验证自己的假

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论