BI数据仓库基础概念_第1页
BI数据仓库基础概念_第2页
BI数据仓库基础概念_第3页
BI数据仓库基础概念_第4页
BI数据仓库基础概念_第5页
已阅读5页,还剩16页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、Bl、数据仓库基础概念BI、数据仓库商业智能技术培训BI、数据仓库基础概念商业智能(Businessintelligence)简介 数据仓库概念及发展2.1.1什么 是 数 据 仓 库212数据仓库的关键技术10在线分析处理(OLAP )13数据挖掘(Data Mining )19第4页共21页1 商业智能(Business Intelligence)简介随着经济的发展,企业所面临的竞争日益激 烈。同时,信息技术的发展也使企业获取信息的段和渠道也在不断增加,企业所面对的信息浩 如烟海。而任何好的决策都需要事实和真实的数 据。企业决策的正确程度也取决于所使用的事实 和数字的准确程度。另一方面,随

2、着竞争的增加, 决策需要在较短的时间内做出。因此,在特定的 时间段内,能够尽可能多地获得相关信息就变得 越来越关键。而为了使决策具有较好的正确度, 却又需要更长的时间。因此,企业需要高效数据 分析工具,以减少高速、精确分析大量数据所需 时间。商业智能技术正是一种能够帮助企业迅速地BI、数据仓库 完成信息采集、分析的先进技术。它以数据仓库(Data Warehousing )、在线分析处理(OLAP )、 数据挖掘(Data Mining )3种技术的整合为基础, 建立企业数据中心和业务分析模型, 以提高企业 获取经营分析信息的能力,从而提高企业经营和 决策的质量与速度。、数据仓库(Data W

3、arehousing)数据仓库是面向主题的、集成的、稳定的、不 同时间的数据集合,用以支持经营管理中的决策 制定过程。目的是为了解决在信息技术发展中存 在的拥有大量数据、然而有用信息贫乏的问题。它是集成各系统的历史数据而建立的面向主题 的企业数据中心,其特点是面向主题、集成, 企业数据框架、历史性和稳定,第5页共21页BI、数据仓库、在线分析处理(OLAP )OLAP 是种高度交互式的过程,它能够将原第7页共21页始的数据转化成为真正能够为用户所理解的、 真 实反映数据维特性的信息,以便分析人员从多种 角度对这些信息进行快速、一致、交互地访问和 反复的分析从而获得有用信息、达到对数据更深 入了

4、解的目的。在线分析处理同时也是对存储在多维数据库(MDD )或关系型数据库(RDBMS)中的数据进行分析、处理的过程。这种分析可以是多维在 线分析处理、关系型在线分析处理,也可以是混 合在线分析处理。在线分析处理的特点是灵活、 动态、快速的多维分析、可以进行随机查询、产 生即席报表。、数据挖掘(Data Mining )数据挖掘是通过数学模型从浩如瀚海的数据 和文档中发现以前未知的、隐藏的、潜在的规律 和可以理解的信息,以辅助决策的过程。也就是 说从大量的、不完全的、有噪声的、模糊的、随 机的数据中,提取隐含在其中的、人们事先不知道 的、但又是潜在有用的信息和知识的过程。数据挖掘的特点是涉及数

5、据库、统计分析和人智能等多种技术,具有预测和验证功能并且能 够进行特征和规律的描述。2数据仓库概念及发展 2.1.1什么是数据仓库业界公认的数据仓库概念创始人BI、数据仓库W.H.Inmon 在建立数据仓库一书中对数据 仓库的定义是:数据仓库就是面向主题的、集成 的、不可更新的(稳定性)、随时间不断变化(不 同时间)的数据集合,用以支持经营管理中的决 策制定过程。数据仓库中的数据面向主题,与传 统数据库面向应用相对应。主题是一个在较高层 次上将数据归类的标准,每一个主题对应一个分 析领域:数据仓库的集成特性是指在数据进入数 据仓库之前,必须对数据加工和集成,这是建立 数据仓库的关键步骤,首先要

6、统一原始数据中的 矛盾之处,还要将原始数据结构做一个从面向应 用向面向主题的转变;数据仓库的稳定性是指数 据仓库反映的是历史数据,而不是日常事务处理 产生的数据,数据经加工和集成进入数据仓库后BI、数据仓库 数据集合,它要求数据仓库中的数据保存时限能 满足进行决策分析的需要,而且数据仓库中的数 据都要标明该数据的历史时期。数据仓库最根本的特点是物理地存放数据,而且这些数据并不是最新的、专有的,而是来源 于其它数据库的。数据仓库的建立并不是要取代 数据库,它要建立在一个较全面和完善的信息应 用的基础上,用于支持高层决策分析,而事务处 理数据库在企业的信息环境中承担的是日常操 作性的任务。数据仓库

7、是数据库技术的一种新的 应用,而且到目前为止,大多数据仓库还是用关 系数据库管理系统来管理其中的数据,例如Oracle8i/9i、DB2、SQL Server SY BASE IQ 等。第9页共21页BI、数据仓库2.1.2数据仓库的关键技术、数据抽取数据抽取又成为 ETL ( data extraction,transformation and loading ), 是对数据进行抽 取、清洗、转换和整合的过程,是数据进入数据 仓库的入口。通过ETL的过程,数据从联机事 务处理系统、外部数据源、脱机的数据存储介质 中导入到数据仓库。数据抽取在技术上主要涉及 互连、复制、增量、转换、调度、监控以

8、及数据 安全性等方面。在技术发展上,数据抽取所涉及的单个技术环 节都已相对成熟,市场上提供了很多数据抽取具,例如 Microsoft DTS、DataStage 等。、数据的存储和管理第10页共21页BI、数据仓库 数据仓库的真正关键是数据的存储和管理。数据仓库的组织管理方式决定了它有别于传统数 据库的特性,同时也决定了其对外部数据表现形 式。首先,数据仓库的数据量比传统事务处理大得 多,且随时间的推移还在不断累积。因此,对大 量数据的存储和管理是数据仓库首先要解决的 问题。不过从现有技术和产品来看,关系数据库 经过近30年的发展,在数据存储和管理方面已 经非常成熟,能够支持数据分割技术,能够

9、将 个大的数据库表分散在多个物理存储设备中, 进步增强了系统管理大数据量的扩展能力。其次是支持多维分析的查询模式,这也是关系 数据库在数据仓库领域遇到的最严峻的挑战之。在使用数据仓库时的访问方式与传统的关系第11页共21页BI、数据仓库 数据库有很大的不同。对于数据仓库的访问往往 不是简单的表和记录的查询,而是基于业务分析 主题的,如果用传统的关系型数据库设计方法来实现这种多维查询模式效率非常低下、并且查询处理的过程也难以自动化。但是,关系数据库若采用“星型模式”来组织数据则能很好地解决多 维分析的问题。那么什么是“星型模式”?这将 在数据仓库的数据组织方式中详细描述。、数据仓库的数据组织结构

10、数据仓库中的数据组织将多维结构划分为两 类表:一类是事实表,用来存储数据和维关键字;另一类是维表,即对每个维至少使用一个表来存 放维的层次、成员类别等维的描述信息。维表和 事实表通过主关键字和外关键字联系在一起,形BI、数据仓库 成“星型模式”。对于层次复杂的维,为避免冗 余数据占用过大的存储空间,可以使用多个表来 描述,这种星型模式的扩展称为“雪花模式”。3在线分析处理(OLAP )联机分析处理(On-Line AnalyticalProcessOLAP)技术是使分析人员、管理人员或执行人员 能够从多种角度对从原始数据中转化出来的、 能 够真正为用户所理解的并真实反映企业维特, 的信息进行快

11、速、一致、交互地存取,从而获得 对数据的更深入了解的一类软件技术。OLAP技 术是对由语义动态对象建立的、 以动态微立方结 构形式存储的表进行向下钻取、向上钻取、跨越 钻取、切片和切块等操作。第13页共21页BI、数据仓库OLAP的目标是满足决策支持或多维环境特定的查询和报表需求,它的技术核心是“维”这个概念,因此OLAP也可以说是多维数据分 析工具的集合,是数据仓库中大容量数据得以有 效利用的重要保障。其基本思想是:企业的决策 者应能灵活地操纵企业的数据,以多维的形式从 多方面和多角度来观察企业的状态、 了解企业的 变化。OLAP的一个重要特点是多维数据分析,这与 数据仓库的多维数据组织正好

12、形成相互结合、 相 互补充的关系。OLAP技术中比较典型的应用是 对多维数据的切片和切块、钻取、旋转等,它便 于使用者从不同角度提取有关数据。OLAP技术 还能够利用分析过程对数据进行深入分析和加。例如,关键指标数据常常用代数方程进行处第14页共21页BI、数据仓库 理,更复杂的分析则需要建立模型进行计算OLAP所涉及的常用术语:元数据元数据(Metadata )是关于数据的数据,它描 述了多维数据库的数据和环境。它是对源数据及 其内容、分析主题、维信息、指标信息等多维数 据库结构信息的描述。主题:在OLAP分析中,用户所关注业务的一个考核方面;女口:电信行业中可能的客户信用度分析、客户帐务、

13、话务量分析等,而分析类型相近的主 题可能会划分在一个分组中维:在OLAP分析中,维是作为主题的一个分析角度,比如:客户分析中对其年龄、性别、所在第15页共21页BI、数据仓库 地区、行业分布等因素有关,这样,地区和行业 等就是该客户的维。层次:在一个维中,划分各成员之间的父子关系的方式,称层次;如时间维通常可分为年、季、月、 日等层。成员:特定层次中的某一特定元素,称为该层上的 个成员;如“ JAN ”为时间维月这一层次上的成 员。指标:种考核标准,由多个因素(维)共同决定,如:某个时段的话务量、话务员坐席数等;有时 指标也称为测量值。钻:BI、数据仓库 通过上钻,可以查看所选维成员的上一级聚

14、合值,即显示该成员的父级数据;如在“05JAN99 ” 这个成员上执行上钻,可以查看 99年一月份的 数据。F钻:与上钻相反,该操作是实现从父级信息查看下级的详细数据,即从“ JAN99 ”执行下钻后, 可以看到99年一月各天的数据;层钻:维通常是以一种层次关系展现出来的, 要查看 某一层次上所有数据时,可以使用层钻,比如时 间维通常分为年、季、月、日这些层次,要查看 所有月(包括所有年的各个月份)的数据,则可 在月这一层次上执行层钻;它与下钻的区别在于:下钻只对选定的成员,查看其下一级的数据第17页共21页BI、数据仓库BI、数据仓库 它的操作必须遵从从父到子的顺利,也就是说必须在父成员上执

15、行下钻;而在 BI系统中,层钻 通常没限制可以任意跨层,并且显示的是所有成 员在该层次的成员,与所选的成员无关。旋转:对一次查询的返回结果中,把数据表的行和列 调换位置,即转换分析点或观察角度。切片:以分页的形式列出某一范围内的数据, 一页里 只显示切片维的一个成员内的数据。切块获取多维数据集中数据的一个子集,由维度的 成员限制一个或多个维度来指定。多个切片构成个切块。例如,特定月份的事实构成该年数据个切块。4 数据挖掘(Data Mining )数据挖掘是从浩如瀚海的数据和文档中发现 以前未知的、可以理解的的信息的过程。由于数 据挖掘的价值在于扫描数据仓库或建立非常复 杂的查询,数据和文本挖掘工具必须提供很高的 吞吐量,并拥有并行处理功能,而且可以支持多 种采集技术。数据挖掘工具应该拥有良好的扩展 功能,并且能够支持将来可能遇到的各种数据(或文档)和计算环境。数据挖掘的特点是涉及 数据库、统计分析和人工智能等多种技术,具有 预测和验证功能并且能够进行特征和规律的描 述。常用的数据挖掘分析模型有模型、预测模型、第19页共21页BI、数据仓库聚类模型和评分模型分类模型:

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论