商务智能技术基础教学课件PPT_第1页
商务智能技术基础教学课件PPT_第2页
商务智能技术基础教学课件PPT_第3页
商务智能技术基础教学课件PPT_第4页
商务智能技术基础教学课件PPT_第5页
已阅读5页,还剩72页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第二章第二章 商务智能技术基础商务智能技术基础 内容提要 2.1 商务智能系统组成及技术基础商务智能系统组成及技术基础 2.2 数据仓库技术数据仓库技术 2.3 联机分析技术联机分析技术 2.4 数据挖掘技术数据挖掘技术 2.5 数据展现技术数据展现技术 2.1 商务智能系统架构 商务智能系统架构 抽取抽取 转换转换 装载装载 olapolap服务服务 器器 数据挖掘数据挖掘 服务器服务器 报表设计报表设计 工具工具 外部外部 数据数据 源源 业务系业务系 统数据统数据 源源 元元 数数 据据 元元 数数 据据 数 据 仓数 据 仓 库库 用户用户 分 析 人分 析 人 员员 。 。 数据源数

2、据源 数据预处理数据预处理 数据仓库数据仓库 数据分析数据分析 数据展现数据展现 图图1.3 商务智能系统的组成商务智能系统的组成 商务智能系统架构 商务智能系统的最大好处是可以得到准商务智能系统的最大好处是可以得到准 确、及时的信息,帮助企业赢得竞争优确、及时的信息,帮助企业赢得竞争优 势,这些功能的完成主要依靠势,这些功能的完成主要依靠dw、 dm 和和olap三大技术和三大技术和数据预处理、建立数据预处理、建立 数据仓库、数据分析及数据展现数据仓库、数据分析及数据展现四个阶四个阶 段。段。 数据预处理数据预处理是整合企业原始数据的第一步,包括是整合企业原始数据的第一步,包括 数据抽取、转

3、换和装载三个过程数据抽取、转换和装载三个过程; 数据仓库数据仓库则是处理海量数据的基础则是处理海量数据的基础; 数据分析数据分析是体现系统智能的关键,一般采用是体现系统智能的关键,一般采用olap 和和dm两大技术。两大技术。olap不仅进行数据汇总不仅进行数据汇总/聚集,聚集, 同时还提供切片、切块、下钻、上卷和旋转等数同时还提供切片、切块、下钻、上卷和旋转等数 据分析功能,用户可以方便地对海量数据进行多据分析功能,用户可以方便地对海量数据进行多 维分析。数据挖掘则是挖掘数据背后隐藏的知识,维分析。数据挖掘则是挖掘数据背后隐藏的知识, 通过关联分析、聚类和分类等方法建立分析模型,通过关联分析

4、、聚类和分类等方法建立分析模型, 预测企业未来发展趋势和将要面临的问题。预测企业未来发展趋势和将要面临的问题。 数据展现数据展现则主要保障系统分析结果的可视化。则主要保障系统分析结果的可视化。 数据分析平台数据分析平台 (数据挖掘、报表展现和数据挖掘、报表展现和 olap工具工具) 外部外部 数据数据 源源 业务业务 处理处理 系统系统 数据数据 源源 数据仓库数据仓库 商务智能应用商务智能应用 元数据元数据 商务智能框架图商务智能框架图 二、商务智能技术简介 1. dw(数据仓库)(数据仓库) 必要性:必要性: 实施实施bi首先要从企业内部和企业外部不同的数首先要从企业内部和企业外部不同的数

5、 据源,如客户关系管理据源,如客户关系管理(crm)、供应链管理、供应链管理(scm)、企业资源、企业资源 规划规划(erp)系统以及其他应用系统等搜集有用的数据,进行转系统以及其他应用系统等搜集有用的数据,进行转 换和合并,因此需要数据仓库和数据集市技术的支持。换和合并,因此需要数据仓库和数据集市技术的支持。 概念:概念:数据仓库数据仓库(data warehouse)是一种是一种语义语义上一致的上一致的 数据存储,是指从多个数据源收集的信息,以一种一致的存储数据存储,是指从多个数据源收集的信息,以一种一致的存储 方式保存所得到的数据集合。面向不同的需求,对数据进行清方式保存所得到的数据集合

6、。面向不同的需求,对数据进行清 洗以保证数据的正确性,然后对数据进行抽取,转换成数据仓洗以保证数据的正确性,然后对数据进行抽取,转换成数据仓 库所需形式,并实现加载到数据仓库。库所需形式,并实现加载到数据仓库。 数据仓库技术是基于信息系统业务发展的需要,基于数数据仓库技术是基于信息系统业务发展的需要,基于数 据库系统技术发展而来,并逐步独立的一系列新的应用技术。据库系统技术发展而来,并逐步独立的一系列新的应用技术。 数据仓库技术就是基于数学及统计学严谨逻辑思维的并达成数据仓库技术就是基于数学及统计学严谨逻辑思维的并达成 “科学的判断、有效的行为科学的判断、有效的行为”的一个工具。数据仓库技术也

7、是的一个工具。数据仓库技术也是 一种达成一种达成“数据整合、知识管理数据整合、知识管理”的有效手段。的有效手段。 二、商务智能技术简介 2. olap(联机分析处理)(联机分析处理) 联机分析处理联机分析处理(olap) (olap) 又称多维分析,它对数据仓库中的数据进行多维分析和展又称多维分析,它对数据仓库中的数据进行多维分析和展 现,是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来现,是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来 的、能够真正为用户所理解的、并真实反映企业维特性的信息进行快速、一致、交的、能够真正为用户所理解的、并真实反映企业维

8、特性的信息进行快速、一致、交 互地存取,从而获得对数据更深入了解的一类软件技术。它的技术核心是互地存取,从而获得对数据更深入了解的一类软件技术。它的技术核心是“维维”这这 个概念,因此个概念,因此olapolap也可以说是多维数据分析工具的集合。也可以说是多维数据分析工具的集合。 进行进行olapolap分析的分析的前提是已有建好的数据仓库前提是已有建好的数据仓库,之后即可利用,之后即可利用olap olap 复杂的查询复杂的查询 能力、数据对比、数据抽取和报表来进行探测式数据分析了。称其为探测式数据分能力、数据对比、数据抽取和报表来进行探测式数据分析了。称其为探测式数据分 析,是因为用户在选

9、择相关数据后,通过切片析,是因为用户在选择相关数据后,通过切片( (按二维选择数据按二维选择数据) )、切块、切块( (按三维选按三维选 择数据择数据) )、上钻、上钻( (选择更高一级的数据详细信息以及数据视图选择更高一级的数据详细信息以及数据视图) )、下钻、下钻( (展开同一级数展开同一级数 据的详细信息据的详细信息) )、旋转、旋转( (获得不同视图的数据获得不同视图的数据) ) 等操作,可以在不同的粒度上对数据等操作,可以在不同的粒度上对数据 进行分析尝试,得到不同形式的知识和结果。联机分析处理研究主要集中在进行分析尝试,得到不同形式的知识和结果。联机分析处理研究主要集中在 rola

10、p(rolap(基于关系数据库的基于关系数据库的olap) olap) 的查询优化技术和的查询优化技术和molap(molap(基于多维数据组织的基于多维数据组织的olap) olap) 中减少存储空间和提高系统性能的方法等。中减少存储空间和提高系统性能的方法等。 olapolap操作语言:通过扩展数据库的操作语言操作语言:通过扩展数据库的操作语言sqlsql,得到,得到msqlmsql(multiple sqlmultiple sql)。)。 二、商务智能技术简介 3. dm3. dm(数据挖掘)(数据挖掘) 数据挖掘是从大量的数据中,抽取出潜在的、有价值的知识(模型或规则)数据挖掘是从大量

11、的数据中,抽取出潜在的、有价值的知识(模型或规则) 的过程。的过程。 与与olap 的探测式数据分析不同,数据挖掘是按照的探测式数据分析不同,数据挖掘是按照预定的规则预定的规则对数据库和对数据库和 数据仓库中已有的数据进行信息开采、挖掘和分析,从中识别和抽取隐含的模式数据仓库中已有的数据进行信息开采、挖掘和分析,从中识别和抽取隐含的模式 和有趣知识,为决策者提供决策依据。数据挖掘的任务是从数据中发现模式。模和有趣知识,为决策者提供决策依据。数据挖掘的任务是从数据中发现模式。模 式有很多种,按功能可分为两大类:预测型式有很多种,按功能可分为两大类:预测型( predictive)模式和描述型模式

12、和描述型 (descriptive)模式。模式。 预测型模式是可以根据数据项的值精确确定某种结果的模式。挖掘预测型模预测型模式是可以根据数据项的值精确确定某种结果的模式。挖掘预测型模 式所使用的数据也都是可以明确知道结果的。描述型模式是对数据中存在的规则式所使用的数据也都是可以明确知道结果的。描述型模式是对数据中存在的规则 做一种描述,或者根据数据的相似性把数据分组。做一种描述,或者根据数据的相似性把数据分组。 二、商务智能技术简介 4. 4. 三大核心技术之间关系三大核心技术之间关系 dw是前提和基础。负责统一数据规则的处理和存储。是前提和基础。负责统一数据规则的处理和存储。 olap是操作

13、,侧重显性知识处理和分析。是操作,侧重显性知识处理和分析。 dm是发现,侧重于隐性知识发掘和利用是发现,侧重于隐性知识发掘和利用 。 olap 与数据挖掘的区别和联系是:olap 侧重于与用户的交互、快速的响应速度 及提供数据的多维视图,而数据挖掘则注重自动发现隐藏在数据中的模式和有用信 息,尽管允许用户指导这一过程。olap 的分析结果可以给数据挖掘提供分析信息 作为挖掘的依据,数据挖掘可以拓展olap 分析的深度,可以发现olap 所不能发现 的更为复杂、细致的信息。数据挖掘的研究重点则偏向数据挖掘算法以及数据挖掘 技术在新的数据类型、应用环境中使用时所出现新问题的解决上, 如对各种非结构

14、 化数据的挖掘、数据挖掘语言的标准化以及可视化数据挖掘等。 2.2.1 2.2.1 从数据库到数据仓库从数据库到数据仓库 2.2.2 2.2.2 数据仓库的定义和特点数据仓库的定义和特点 2.2.3 2.2.3 数据仓库体系结构数据仓库体系结构 2.2.4 2.2.4 数据仓库的设计与实施建立数据仓库的设计与实施建立 2.2.5 2.2.5 数据仓库系统的评价标准数据仓库系统的评价标准 2.2 2.2 数据仓库数据仓库 (dadata ta warehousewarehouse) 事务型处理事务型处理 事务型处理:即操作型处理,是指对数据库的联机事务型处理:即操作型处理,是指对数据库的联机 操

15、作处理操作处理oltp。事务型处理是用来协助企业对响。事务型处理是用来协助企业对响 应事件或事务的日常商务活动进行处理。它是事件应事件或事务的日常商务活动进行处理。它是事件 驱动、面向应用的,通常是对一个或一组记录的增、驱动、面向应用的,通常是对一个或一组记录的增、 删、改以及简单查询等(大量、简单、重复和例行删、改以及简单查询等(大量、简单、重复和例行 性)。性)。 在事务型处理环境中,数据库要求能支持日常事务在事务型处理环境中,数据库要求能支持日常事务 中的大量事务,用户对数据的存取操作频率高而每中的大量事务,用户对数据的存取操作频率高而每 次操作处理的时间短。次操作处理的时间短。 2.2

16、.1 2.2.1 从数据库到数据仓库从数据库到数据仓库 分析型处理分析型处理 分析型处理:用于管理人分析型处理:用于管理人 员的决策分析,例如员的决策分析,例如dssdss、 eiseis和多维分析等。它帮助和多维分析等。它帮助 决策者分析数据以察看趋决策者分析数据以察看趋 向、判断问题。向、判断问题。 分析型处理经常要访问大分析型处理经常要访问大 量的历史数据,支持复杂量的历史数据,支持复杂 的查询。的查询。 分析型处理过程中经常用分析型处理过程中经常用 到外部数据,这部分数据到外部数据,这部分数据 不是由事务型处理系统产不是由事务型处理系统产 生的,而是来自于其他外生的,而是来自于其他外

17、部数据源。部数据源。 事务型处理数据和分析型处理数据的区别事务型处理数据和分析型处理数据的区别 特性oltpolap 特征 面向 用户 功能 db 设计 数据 汇总 视图 工作单位 存取 关注 操作 访问记录数 用户数 db规模 优先 度量 操作处理 事务 办事员、dba、数据库专业人员 日常操作 基于e-r,面向应用 当前的;确保最新 原始的,高度详细 详细,一般关系 短的、简单事务 读/写 数据进入 主关键字上索引/散列 数十个 数千 100mb到gb 高性能,高可用性 事务吞吐量 信息处理 分析 知识工人(如经理、主管、分析员) 长期信息需求,决策支持 星形/雪花,面向主题 历史的;跨时

18、间维护 汇总的,统一的 汇总的,多维的 复杂查询 大多为读 信息输出 大量扫描 数百万 数百 100gb到tb 高灵活性,端点用户自治 查询吞吐量,响应时间 数据库系统的局限性数据库系统的局限性 数据库适于存储高度结构化的数据库适于存储高度结构化的 日常事务细节数据,而决策型日常事务细节数据,而决策型 数据多为历史性、汇总性或计数据多为历史性、汇总性或计 算性数据,多表现为算性数据,多表现为静态数据静态数据, 不需直接更新,但可周期性刷不需直接更新,但可周期性刷 新。新。 决策分析型数据是决策分析型数据是多维性多维性,分,分 析内容复杂。析内容复杂。 在事务处理环境中,决策者可在事务处理环境中

19、,决策者可 能并不关心具体的细节信息,能并不关心具体的细节信息, 在决策分析环境中,如果这些在决策分析环境中,如果这些 细节数据量太大一方面会严重细节数据量太大一方面会严重 影响分析效率,另一方面这些影响分析效率,另一方面这些 细节数据会分散决策者的注意细节数据会分散决策者的注意 力。力。 db2 oracle sql server excel spreadsheet xml document internet ssl client applications browsers data management layer application layer web servers 数据库系统的局

20、限性(续)数据库系统的局限性(续) 当事务型处理环境和分析型处理环境在同一个数当事务型处理环境和分析型处理环境在同一个数 据库系统中,事务型处理对数据的存取操作频率据库系统中,事务型处理对数据的存取操作频率 高,操作处理的时间短,而分析型处理可能需要高,操作处理的时间短,而分析型处理可能需要 连续运行几个小时,从而消耗大量的连续运行几个小时,从而消耗大量的系统资源系统资源。 决策型分析数据的数据量大,这些数据有来自决策型分析数据的数据量大,这些数据有来自企企 业内部业内部的,也有来自的,也有来自企业外部企业外部的。来自企业外部的。来自企业外部 的数据又可能来自不同的数据库系统,在分析时的数据又

21、可能来自不同的数据库系统,在分析时 如果直接对这些数据操作会造成分析的混乱。对如果直接对这些数据操作会造成分析的混乱。对 于外部数据中的一些非结构化数据,数据库系统于外部数据中的一些非结构化数据,数据库系统 常常是无能为力常常是无能为力。 多库系统的限制多库系统的限制 可用性:可用性:源站点或通信网络故障将导致系统瘫痪源站点或通信网络故障将导致系统瘫痪, , 源站点不能通过网络在线联入多库系统。源站点不能通过网络在线联入多库系统。 响应速度:响应速度:全局查询多级转换和通信传输全局查询多级转换和通信传输, , 延迟延迟 和低层效率影响响应速度。和低层效率影响响应速度。 系统性能:系统性能:总体

22、性能取决于源站点中性能最低的总体性能取决于源站点中性能最低的 系统系统, , 影响系统性能的发挥影响系统性能的发挥; ; 系统开销:系统开销:每次查询要启动多个局部系统每次查询要启动多个局部系统, , 通信通信 和运行开销大。和运行开销大。 实施数据仓库的条件实施数据仓库的条件 n数据积累已达到一定规模数据积累已达到一定规模 n面临激烈的市场竞争面临激烈的市场竞争 n在在itit方面的资金能得到保障方面的资金能得到保障 数据仓库的发展数据仓库的发展 自从自从ncr公司为公司为wal mart建立了第一个数据仓库。建立了第一个数据仓库。 1996年,加拿大的年,加拿大的idc公司调查了公司调查了

23、62家实现了数家实现了数 据仓库的欧美企业,结果表明:数据仓库为企业据仓库的欧美企业,结果表明:数据仓库为企业 提供了巨大的收益。提供了巨大的收益。 早期的数据仓库大都采用当时流行的早期的数据仓库大都采用当时流行的客户客户/服务器服务器 结构。近年来结构。近年来分布式对象技术分布式对象技术飞速发展,整个数飞速发展,整个数 据仓库体系结构从功能上划分为若干个分布式对据仓库体系结构从功能上划分为若干个分布式对 象,这些分布式对象不仅可以直接用于建立数据象,这些分布式对象不仅可以直接用于建立数据 仓库,还可以在应用程序中向用户提供调用的接仓库,还可以在应用程序中向用户提供调用的接 口。口。 ibm的

24、实验室在数据仓库方面已经进行了的实验室在数据仓库方面已经进行了10多年多年 的研究,并将研究成果发展成为商用产品。的研究,并将研究成果发展成为商用产品。 其他数据库厂商在数据仓库领域也纷纷提出了各其他数据库厂商在数据仓库领域也纷纷提出了各 自的解决方案。自的解决方案。 2.2.2 2.2.2 数据仓库数据仓库(data warehouse)(data warehouse)的定义和特点的定义和特点 数据仓库用来保存从多个数据库或其它信息源选取的数据数据仓库用来保存从多个数据库或其它信息源选取的数据, 并为上层应用提供统一并为上层应用提供统一 用户接口,完成数据查询和分析。用户接口,完成数据查询和

25、分析。 支持整个企业范围的主要业务来建立的,主要特点是,包支持整个企业范围的主要业务来建立的,主要特点是,包 含大量面向整个企业的综合信息及导出信息。含大量面向整个企业的综合信息及导出信息。 数据仓库是作为数据仓库是作为dss服务基础的分析型服务基础的分析型db,用来存放大容,用来存放大容 量的只读数据,为制定决策提供所需要的信息。量的只读数据,为制定决策提供所需要的信息。 数据仓库是与操作型系统相分离的、基于标准企业模型集数据仓库是与操作型系统相分离的、基于标准企业模型集 成的、带有时间属性的、面向主题及不可更新的数据集合。成的、带有时间属性的、面向主题及不可更新的数据集合。 以以1992年

26、年w h inmon出版出版building the data warehouse为标志,数据仓库发展速度很快。为标志,数据仓库发展速度很快。 w h inmon被誉为数据仓库之父。被誉为数据仓库之父。 w h inmon对数据仓库所下的定义:对数据仓库所下的定义:数据仓库是面向主题数据仓库是面向主题 的、集成的、稳定的、随时间变化的数据集合,用以支持的、集成的、稳定的、随时间变化的数据集合,用以支持 管理决策的过程。管理决策的过程。 面向主题面向主题 数据仓库中的数据是按照各种主题来组织的。主题数据仓库中的数据是按照各种主题来组织的。主题 在数据仓库中的物理实现是一系列的相关表,这不在数据仓

27、库中的物理实现是一系列的相关表,这不 同于面向应用环境。如保险公司按照应用组织可能同于面向应用环境。如保险公司按照应用组织可能 是汽车保险、生命保险、伤亡保险,而数据仓库是是汽车保险、生命保险、伤亡保险,而数据仓库是 按照客户、政策、保险金和索赔来组织数据。按照客户、政策、保险金和索赔来组织数据。 面向主题的数据组织方式可在较高层次上对分析对面向主题的数据组织方式可在较高层次上对分析对 象的数据给出完整、一致的描述,能完整、统一的象的数据给出完整、一致的描述,能完整、统一的 刻画各个分析对象所涉及的企业的各项数据以及数刻画各个分析对象所涉及的企业的各项数据以及数 据之间的联系,从而适应企业各个

28、部门的业务活动据之间的联系,从而适应企业各个部门的业务活动 特点和企业数据的动态特征,从根本上实现数据与特点和企业数据的动态特征,从根本上实现数据与 应用的分离。应用的分离。 面向主题面向主题 汽车汽车 人寿人寿 健康健康 意外伤亡意外伤亡 操作性环境操作性环境 应应 用用 顾客顾客 保险单保险单 保险费保险费 索赔索赔 数据仓库数据仓库 主主 题题 集成性集成性 数据仓库中的数据是数据仓库中的数据是 从原有分散的源数据从原有分散的源数据 库中提取出来的,其库中提取出来的,其 每一个主题所对应的每一个主题所对应的 源数据在原有的数据源数据在原有的数据 库中有许多冗余和不库中有许多冗余和不 一致

29、,且与不同的应一致,且与不同的应 用逻辑相关。为了创用逻辑相关。为了创 建一个有效的主题域,建一个有效的主题域, 必须将这些来自不同必须将这些来自不同 数据源的数据集成起数据源的数据集成起 来,使之遵循统一的来,使之遵循统一的 编码规则。编码规则。 集成集成 数据库数据库 应用应用a m,fa m,f 应用应用b 1,0b 1,0 应用应用c x,yc x,y 应用应用d d 男男,女女 数据仓库数据仓库 m,fm,f 编码编码 应用应用a a 管道管道cmcm 应用应用b b 管道管道inchesinches 应用应用c c 管道管道mcfmcf 应用应用d d 管道管道ydsyds 管道管

30、道cmcm 属性度量属性度量 稳定性稳定性 数据仓库内的数据有很长的时间跨度,通常是数据仓库内的数据有很长的时间跨度,通常是 5-10年。年。 数据仓库中的数据反映的是一段时间内历史数数据仓库中的数据反映的是一段时间内历史数 据的内容,是不同时点的数据库快照的集合,据的内容,是不同时点的数据库快照的集合, 以及基于撰写快照进行统计、综合和重组的导以及基于撰写快照进行统计、综合和重组的导 出数据。主要供企业高层决策分析之用,所涉出数据。主要供企业高层决策分析之用,所涉 及的数据操作主要是查询,一般情况下并不进及的数据操作主要是查询,一般情况下并不进 行修改操作行修改操作. 数据仓库中的数据是不可

31、实时更新的,仅当超数据仓库中的数据是不可实时更新的,仅当超 过规定的存储期限,才将其从数据仓库中删除,过规定的存储期限,才将其从数据仓库中删除, 提取新的数据经集成后输入数据仓库。提取新的数据经集成后输入数据仓库。 稳定性稳定性 插入插入 删除删除 插入插入 修改修改 删除删除 访问访问 修改修改 访问访问 数据的逐个记录方式处理数据的逐个记录方式处理数据的批量载入数据的批量载入/访问访问 数据库数据库数据仓库数据仓库 时变性时变性 时变性:许多商业分析要求对发展趋势做出预测,时变性:许多商业分析要求对发展趋势做出预测, 对发展趋势的分析需要访问历史数据。因此数据对发展趋势的分析需要访问历史数

32、据。因此数据 仓库必须不断捕捉仓库必须不断捕捉oltpoltp数据库中变化的数据,生数据库中变化的数据,生 成数据库的快照,经集成后增加到数据仓库中去;成数据库的快照,经集成后增加到数据仓库中去; 另外数据仓库还需要随时间的变化删去过期的、另外数据仓库还需要随时间的变化删去过期的、 对分析没有帮助的数据,并且还需要按规定的时对分析没有帮助的数据,并且还需要按规定的时 间段增加综合数据。间段增加综合数据。 随时间变化随时间变化 数据库数据库数据仓库数据仓库 时间期限:当前到时间期限:当前到6090天天 记录更新记录更新 键码结构可能包括也可能不键码结构可能包括也可能不 包括时间元素包括时间元素

33、时间期限:时间期限:510年年 数据的复杂快照数据的复杂快照 键码结构包括时间元素键码结构包括时间元素 支持管理决策支持管理决策 数据仓库支持数据仓库支持olapolap(联机分析处理)、数据挖(联机分析处理)、数据挖 掘和决策分析。掘和决策分析。olapolap从数据仓库中的综合数据从数据仓库中的综合数据 出发,提供面向分析的多维模型,并使用多维出发,提供面向分析的多维模型,并使用多维 分析的方法从多个角度、多个层次对多维数据分析的方法从多个角度、多个层次对多维数据 进行分析,使决策者能够以更加自然的方式来进行分析,使决策者能够以更加自然的方式来 分析数据。数据挖掘则以数据仓库和多维数据分析

34、数据。数据挖掘则以数据仓库和多维数据 库中的数据为基础,发现数据中的潜在模式和库中的数据为基础,发现数据中的潜在模式和 进行预测。因此,数据仓库的功能是支持管理进行预测。因此,数据仓库的功能是支持管理 层进行科学决策,而不是事务处理。层进行科学决策,而不是事务处理。 bibi系统系统vsvs决策盲点决策盲点 某大型国有企业老总当他查看近十年企业的生产和运营数据某大型国有企业老总当他查看近十年企业的生产和运营数据 时,手边得到了各种各样不同的数据报表。这些数据报表大时,手边得到了各种各样不同的数据报表。这些数据报表大 致可以分成两种类型:一种是两年前、即致可以分成两种类型:一种是两年前、即erp

35、上线之前的,上线之前的, 这是一些简单、杂乱而又枯燥的数字;另一种是有了这是一些简单、杂乱而又枯燥的数字;另一种是有了erp以以 后的,数据变得清楚而有条理起来,同时还有来自后的,数据变得清楚而有条理起来,同时还有来自erp、 crm、scm以及计费业务等不同应用的数据和各种分析报以及计费业务等不同应用的数据和各种分析报 告。在仔细查看这些报表之后,这位国企老总惊讶地发现,告。在仔细查看这些报表之后,这位国企老总惊讶地发现, 不同的系统可以得出截然相反的两种结论。例如某一产品,不同的系统可以得出截然相反的两种结论。例如某一产品, 它的动态成本反映在它的动态成本反映在erp系统和系统和crm、s

36、cm系统里面相差系统里面相差 很大,如果引用很大,如果引用erp和和crm里面的数据,它就是一款很成里面的数据,它就是一款很成 功、销量很好的产品,但在功、销量很好的产品,但在scm里面来看,它的采购和物流里面来看,它的采购和物流 成本过高,导致了这款看起来很成功的产品实际上是一笔赔成本过高,导致了这款看起来很成功的产品实际上是一笔赔 钱的买卖。钱的买卖。 bibi系统系统vsvs决策盲点决策盲点( (续续) ) 其实从这些来自不同系统的数据基础产生不同的判断很正其实从这些来自不同系统的数据基础产生不同的判断很正 常,因为这些系统并不会去周密地常,因为这些系统并不会去周密地“思考思考”在自己在

37、自己“职责职责” 之外的事情。这样就给企业的领导提交了相当多顾此失彼之外的事情。这样就给企业的领导提交了相当多顾此失彼 的分析报告,结果就是导致了许多市场决策上的混乱和失的分析报告,结果就是导致了许多市场决策上的混乱和失 误。误。 把企业的内部数据和外部数据把企业的内部数据和外部数据(企业内部数据就是指上述企业内部数据就是指上述 通过业务系统通过业务系统scm、erp、crm等收集到的数据,这些等收集到的数据,这些 数据可能在不同的硬件、数据库、网络环境中,为不同的数据可能在不同的硬件、数据库、网络环境中,为不同的 业务部门服务。外部数据是市场信息和外部竞争对手的信业务部门服务。外部数据是市场

38、信息和外部竞争对手的信 息息)。进行有效的集成,形成直观的、易于理解的信息,。进行有效的集成,形成直观的、易于理解的信息, 再进行分析和思考,为企业的各层决策及分析人员使用。再进行分析和思考,为企业的各层决策及分析人员使用。 数据仓库系统的结构数据仓库系统的结构 数 据 质 量 控 制 数 据 重 新 组 织 eii 解决方案 数 据 质 量 控 制 数 据 重 新 组 织 eii 解决方案 数 据 质 量 控 制 数 据 重 新 组 织 eii 解决方案 企 业 信 息 集 成(eii) 数据展现 数据管理 数据获取 数据迁移 数据清洗 数据仓库 元数据管理 数据集市管理 安全性、 分析管理

39、 最终用户 数 据 质 量 控 制 数 据 重 新 组 织 etl 解决方案 数 据 抽 取、 迁 移、 加 载 周 数据加载 日常 数据增加 日 周期 etl 周 日 周期 数据源 etl 数据存储管理 业务模型 数据展现 利 润 成 本 分 析 资产分析 营销分析 投 资 组 合 分 析 平衡记分卡 / kpi 解决的业务问题 利润成本分析 资产分析 营销分析 投资组合分析 平衡计分卡 数据分析 采购系统 生产系统 销售系统 财务系统 采购系统 生产系统 销售系统 财务系统 数据仓库 企 业 数 模型 rd mddb dw 即席查询 intranet/ internet 产品报告 数据挖掘

40、 olap 分析 随即查询 报表 例外分析 数据挖掘 决策人员 管理人员 分析人员 业务人员 实时 增量 虚拟 数据仓库 实时 增量 虚拟 数据仓库 实时 增量 实时 增量 虚拟 数据仓库 访问工具 ods 元数据管理(业务元数据、技术元数据等) 2.2.3 数据仓库体系结构 源数据部分源数据部分 1 生产数据:企业的各种事务型数据库生产数据:企业的各种事务型数据库 2 内部数据:用户自己的数据资料内部数据:用户自己的数据资料 内部数据增加了数据转换和整合过程内部数据增加了数据转换和整合过程 的复杂性的复杂性 3 存档数据:定期存储的旧数据存档数据:定期存储的旧数据 4 外部数据:是决策主要的

41、信息来源外部数据:是决策主要的信息来源 2.2.3 数据仓库体系结构 数据准备数据准备 1 数据抽取:数据抽取: 从数据仓库的角度来看,并不是业务数据库从数据仓库的角度来看,并不是业务数据库 中的所有数据都是决策支持所必需的。通常,数中的所有数据都是决策支持所必需的。通常,数 据仓库按照分析的主题来组织数据,我们只需要据仓库按照分析的主题来组织数据,我们只需要 提取出系统分析必需的那一部分数据。例如,某提取出系统分析必需的那一部分数据。例如,某 超市确定以分析客户的购买行为为主题建立数据超市确定以分析客户的购买行为为主题建立数据 仓库,则我们只需将同客户购买行为相关的数据仓库,则我们只需将同客

42、户购买行为相关的数据 提取出来,而超市服务员工的数据就没有必要放提取出来,而超市服务员工的数据就没有必要放 进数据仓库。进数据仓库。 现有的数据仓库产品几乎都提供各种关系型现有的数据仓库产品几乎都提供各种关系型 数据接口,从关系型数据中提取数据。数据接口,从关系型数据中提取数据。 2.2.3 数据仓库体系结构 数据准备数据准备 2 数据转换:数据转换: 数据仓库的数据转换比事务型系数据仓库的数据转换比事务型系 统的更复杂,因为数据仓库的数据来统的更复杂,因为数据仓库的数据来 自不同的数据源。自不同的数据源。 步骤:步骤: (1)数据清洗)数据清洗 (2)数据标准化)数据标准化 (3)数据汇总)

43、数据汇总 (1)数据清洗()数据清洗(data cleaning) 由于企业常常为不同的应用对象建立不同的由于企业常常为不同的应用对象建立不同的 业务数据库,比如一个电信运营公司拥有计费数业务数据库,比如一个电信运营公司拥有计费数 据库、账务数据库、客户数据库、客户投诉数据据库、账务数据库、客户数据库、客户投诉数据 库等业务系统,这些业务系统中可能包含库等业务系统,这些业务系统中可能包含重复的重复的 信息信息,比如客户数据库中的部分客户基本信息也,比如客户数据库中的部分客户基本信息也 在客户投诉数据库中存在。在客户投诉数据库中存在。 由于不同的数据库可能使用不同数据库公司由于不同的数据库可能使

44、用不同数据库公司 的产品,不同的业务系统可能有不同的软件开发的产品,不同的业务系统可能有不同的软件开发 商提供,这使得各个业务数据库中的商提供,这使得各个业务数据库中的数据数据存在存在不不 一致一致的现象,数据库使用人员的操作失误也会造的现象,数据库使用人员的操作失误也会造 成数据的不一致。成数据的不一致。 如图如图2-2所示,显示了一个数据不一致的例子。所示,显示了一个数据不一致的例子。 客户数据库中有一张客户基本信息表,其中记录了客户数据库中有一张客户基本信息表,其中记录了 客户的客户号、姓名、年龄等基本信息。在客户服务数据客户的客户号、姓名、年龄等基本信息。在客户服务数据 库中有一张客户

45、咨询信息表用于记录客户咨询问题的内容库中有一张客户咨询信息表用于记录客户咨询问题的内容 和解答。由于数据库使用人员的失误,使得在客户基本信和解答。由于数据库使用人员的失误,使得在客户基本信 息表中的息表中的100号客户号客户“张山张山”,在客户咨询表中的客户姓,在客户咨询表中的客户姓 名被错误的录入为名被错误的录入为“张三张三”。 客户基本信息表客户咨询信息表 客户号:100 姓名:张山 年龄:23 客户号:100 姓名:张三 咨询问题: 图2-2 操作失误导致数据不一致 由于冗余的数据存放在不同的数据库中,如由于冗余的数据存放在不同的数据库中,如 果不同数据库间的数据刷新不是实时的,则可能果

46、不同数据库间的数据刷新不是实时的,则可能 出现出现数据不同步数据不同步的情况。如图的情况。如图2-3所示,在客户所示,在客户 基本信息表中记录了基本信息表中记录了100号客户号客户“张山张山”的手机的手机 状态正常,如果此时张山去办理停机手续,在客状态正常,如果此时张山去办理停机手续,在客 户业务变更表中,张山的手机状态将被修改为户业务变更表中,张山的手机状态将被修改为 “停机停机”,如果数据刷新不够实时,客户基本信,如果数据刷新不够实时,客户基本信 息表中的手机服务状态将与客户业务变更表不同息表中的手机服务状态将与客户业务变更表不同 步。步。 客户基本信息表客户业务变更表 客户号:100 姓

47、名:张山 年龄:23 手机服务状态:正常 客户号:100 姓名:张三 业务变更:停机 图2-3 数据刷新不实时导致 数据不同步 (2)数据标准化)数据标准化 由于业务系统可能使用不同的数据库厂商的由于业务系统可能使用不同的数据库厂商的 产品,比如产品,比如ibm db2、informix、sybase、sql server、ncr 等,各种数据库产品提供的数据类等,各种数据库产品提供的数据类 型可能不同,因此需要将不同格式的数据转换成型可能不同,因此需要将不同格式的数据转换成 统一的数据格式。比如统一的数据格式。比如图图2-4中所示的不同时间格中所示的不同时间格 式的差异。式的差异。 (3)数

48、据汇总)数据汇总 组合从不同数据源提取的数据;清除没组合从不同数据源提取的数据;清除没 有用途的源数据,将原纪录进行新的组有用途的源数据,将原纪录进行新的组 合。合。 2.2.3 数据仓库体系结构 数据准备数据准备 3 数据装载:数据装载: 数据仓库创建之初的数据装载;数据仓库创建之初的数据装载; 数据仓库使用过程中的数据装载。数据仓库使用过程中的数据装载。 2.2.3 数据仓库体系结构 数据存储数据存储 1 数据仓库:数据仓库:提供数据存放的地方并提供数据提供数据存放的地方并提供数据 检索支持。检索支持。数据的存储方式主要有数据的存储方式主要有3种:多维数种:多维数 据库、关系型数据库以及前

49、两种存储方式的结合。据库、关系型数据库以及前两种存储方式的结合。 2 数据集市数据集市 3 元数据元数据 2. 数据集市(数据集市(data market) 面向企业的某个部门(主题)而在逻面向企业的某个部门(主题)而在逻 辑上或物理上划分出来的数据仓库中的数辑上或物理上划分出来的数据仓库中的数 据子集称为数据集市。据子集称为数据集市。 区别:区别:数据仓库面向整个企业,而数据集数据仓库面向整个企业,而数据集 市则是面向企业中的某个部门。数据仓库市则是面向企业中的某个部门。数据仓库 中存放了企业的整体信息,而数据集市只中存放了企业的整体信息,而数据集市只 存放了某个主题需要的信息,其目的是减存

50、放了某个主题需要的信息,其目的是减 少数据处理量,使信息的利用更快捷、灵少数据处理量,使信息的利用更快捷、灵 活。活。 3.3.元数据元数据 数据是对事物的描述,数据是对事物的描述,“元数据元数据”就是描述数据就是描述数据 的数据,它提供了有关数据的环境。的数据,它提供了有关数据的环境。 事务型元数据:事务型元数据:元数据描述关于源数据的说明,包元数据描述关于源数据的说明,包 括源数据的来源、源数据的名称、源数据的定义、括源数据的来源、源数据的名称、源数据的定义、 源数据的创建时间等对源数据进行管理所需要的信源数据的创建时间等对源数据进行管理所需要的信 息。息。 源数据的来源说明源数据是从哪个

51、系统、哪个历史源数据的来源说明源数据是从哪个系统、哪个历史 数据、哪个办公数据、哪个数据、哪个办公数据、哪个web页、哪个外部系统页、哪个外部系统 抽取而来。源数据说明源数据在数据仓库的作用、抽取而来。源数据说明源数据在数据仓库的作用、 用途、数据类型和长度等。用途、数据类型和长度等。 元数据元数据 n抽取和转换元数据:抽取和转换元数据:是用来描述数据的数据。是用来描述数据的数据。 它描述和定位数据组件、它们的起源及它们在它描述和定位数据组件、它们的起源及它们在 数据仓库进程中的活动;关于数据和操作的相数据仓库进程中的活动;关于数据和操作的相 关描述关描述( (输入、计算和输出输入、计算和输出

52、) )。元数据可用文件。元数据可用文件 存在元数据库中。元数据反映数据仓库中的数存在元数据库中。元数据反映数据仓库中的数 据项是从哪个特定的数据源填充的,经过哪些据项是从哪个特定的数据源填充的,经过哪些 转换、集成过程。转换、集成过程。 n要有效的管理数据仓库,必须设计一个描述能要有效的管理数据仓库,必须设计一个描述能 力强、内容完善的元数据。力强、内容完善的元数据。 元数据元数据 n最终用户元数据:最终用户元数据:是数据仓库的导航图,是是数据仓库的导航图,是 最终用户可以在数据仓库中找到自己需要的最终用户可以在数据仓库中找到自己需要的 信息,建立了最终用户的多维商业模型和前信息,建立了最终用

53、户的多维商业模型和前 端工具之间的映射。端工具之间的映射。 下面通过一个简单的例子说明元数据的基本内容,如图下面通过一个简单的例子说明元数据的基本内容,如图2-5所示所示 : 我们从我们从customer业务数据库的业务数据库的user表中取出表中取出3列列 (user_id,user_name,address),在清洗转换过程中,将在清洗转换过程中,将 user_name从从char(20)转化成转化成varchar(50)格式,最终放进格式,最终放进user维表维表 (user_id,user_name,address)中。在转换后,)中。在转换后, (user_id,user_name,

54、address)3列原始的存放位置、进行的清列原始的存放位置、进行的清 洗转化处理、数据最终的存放位置、数据格式、数据使用的规则等洗转化处理、数据最终的存放位置、数据格式、数据使用的规则等 等都将作为元数据的一部分等都将作为元数据的一部分 。 通常数据库将建立专用的元数据库来存放和管理元数据。通常数据库将建立专用的元数据库来存放和管理元数据。 2.2.3 数据仓库体系结构 信息传递信息传递 独立的数据集市架构(独立的数据集市架构(independent data mart architecture) 独立的数据集市架构有时也称为独立的数据仓库架构,独立的数据集市架构有时也称为独立的数据仓库架构

55、, 应该是出现最早的架构方式,也是很常见的方式。特别是应该是出现最早的架构方式,也是很常见的方式。特别是 对于中小企业、中小开发公司,出于成本和见效快的考虑对于中小企业、中小开发公司,出于成本和见效快的考虑 都会采用这种架构方式。大家对这种架构方式一定也很熟。都会采用这种架构方式。大家对这种架构方式一定也很熟。 这种架构方式的缺点也很明显,不是企业内一致的这种架构方式的缺点也很明显,不是企业内一致的 数据,产生信息孤岛。当然如果企业就是很小,就一个系数据,产生信息孤岛。当然如果企业就是很小,就一个系 统,不用整合,一个数据集市足以的情况下采用这种方式统,不用整合,一个数据集市足以的情况下采用这

56、种方式 也没什么。先期小投资,让企业看看效果,以后发展大了也没什么。先期小投资,让企业看看效果,以后发展大了 再考虑重新建立数据仓库。再考虑重新建立数据仓库。 数据仓库系统的体系架构 数据仓库系统的体系结构数据仓库系统的体系结构 l基于独立数据集市的数据仓库体系结构基于独立数据集市的数据仓库体系结构 2.2.4 数据仓库的设计与实施建立 数据仓库的体系架构数据仓库的体系架构 与数据库应用系统的开发过程相比,有如 下几方面不同: 面向的处理类型不同; 面向的需求不同; 系统设计的目标不同; 两者的数据来源或系统的输入不同; 系统设计的方法和步骤不同; 2.2.4 数据仓库的设计与实施建立 数据库

57、应用开发过程sdlc 应用 b 应用 a 应用 c 收集应用需求 分析应用需求 构建数据库 应用编程 系统测试 系统实施 db 数据仓库的开发过程clds 外部数据 数据获取与集成 构建数据仓库 系统测试 理解需求 数据仓库建模 dss应用编程 dbdb 数据仓库开发的特点:数据驱动 数据驱动 :从已有数据出发的数据仓库设计方法 称为“数据驱动”的系统设计方法。 利用以前所取得的工作成果 不再是面向应用 利用数据模型 数据模型是联系操作型数据环境的设计、数据仓 库数据环境的设计、操作型数据处理应用的开发 和设计以及dss应用的开发与设计的纽带 设计 体系 结构 开发 概念 模型 开发 逻辑 模

58、型 数据 库与 元数 据设 计 数据 抽取 转换 与加 载 开发 中间 件 填充 与测 试数 据仓 库 数据 仓库 应用 数据 仓库 维护 数据 仓库 评价 规划 与确 定需 求 规划 分析阶段 数据仓库 开发过程 设计实施 使用维护阶段 阶段 数据仓库的螺旋式开发方法数据仓库的螺旋式开发方法 数据仓库实现策略数据仓库实现策略 数据仓库的数据模型数据仓库的数据模型 星型图模型星型图模型 物理数据模型物理数据模型 概念模型概念模型 逻辑模型逻辑模型 物理模型物理模型 面向用户的需求面向用户的需求 细细 化化 层层 次次 更详细的更详细的 技术细节技术细节 信息包图信息包图 概念模型概念模型 由于

59、大多数商务数据是多维的,由于大多数商务数据是多维的, 但传统的数据模型表示三维以但传统的数据模型表示三维以 上的数据有一定困难。概念模上的数据有一定困难。概念模 型简化了这个过程并且允许用型简化了这个过程并且允许用 户与开发者和其他用户建立联户与开发者和其他用户建立联 系:系: 确定系统边界:决策类型、需确定系统边界:决策类型、需 要的信息、原始信息要的信息、原始信息 确定主题域及其内容:主题域确定主题域及其内容:主题域 的公共键码、联系、属性组的公共键码、联系、属性组 确定维度:如时间维、销售位确定维度:如时间维、销售位 置维、产品维、组别维等置维、产品维、组别维等 确定类别:相应维的详细类

60、别确定类别:相应维的详细类别 确定指标和事实:用于进行分确定指标和事实:用于进行分 析的数值化信息析的数值化信息 实例实例 例例试画出销售分析的概念模型。试画出销售分析的概念模型。 解:首先根据销售分析的实际需求,确定信息包的维度、类解:首先根据销售分析的实际需求,确定信息包的维度、类 别和指标与事实:别和指标与事实: (1)维度:包括日期维、销售地点维、销售产品维、年龄)维度:包括日期维、销售地点维、销售产品维、年龄 组别维、性别维等。组别维、性别维等。 (2)类别:确定各维的详细类别,如:日期维包括年)类别:确定各维的详细类别,如:日期维包括年 (10)、季度()、季度(40)、月()、月

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论