《商业分析概论》数据库与数据仓库_第1页
《商业分析概论》数据库与数据仓库_第2页
《商业分析概论》数据库与数据仓库_第3页
《商业分析概论》数据库与数据仓库_第4页
《商业分析概论》数据库与数据仓库_第5页
已阅读5页,还剩43页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

商业分析概论数据库与数据仓库目录传统数据库从数据库到数据仓库数据仓库的相关概念数据仓库的相关模型数据仓库的体系结构34.1传统数据库:数据的描述与组织三个世界1.现实世界

2.信息世界

3.计算机世界(或数据世界)

事物集合事物性质实体集合属性实体数据项记录文件现实世界信息世界数据世界数据组织的结构4现实世界最新价格浦发银行当日行情历史行情概念世界特

性个

股整

体整体间联系逻辑世界属

性实

体同质实体集合异质实体集合计算机世界字

段记

录表文件数据库数据组织的层次数据的组织一般分为:数据项——反映实体的某种属性记录——反映一个实体或其部分数据文件——反映某类实体数据库——反映整个实体集合54.1数据库范式关系型数据库设计时是要遵循一定的规则的,尤其是数据库的设计范式。1NF(第一范式)2NF(第二范式)3NF(第三范式)4NF(第四范式)5NF(第五范式)各范式关系图5NF4NFBCNF3NF2NF1NF第一范式(1NF)在关系模式R中的每一个具体关系,如果每个属性值都是由不可分割的最小数据单位组成或者说每个属性的值必须是唯一的,则称R属于第一范式,换一句话说是指:在关系每个元组的所有属性上的值都必须是原子值,相反的凡具有集合属性或嵌套子关系的关系都不是第一范式;例如:由“职工号”、“姓名”、“电话号码”组成的表(一个人可能有一个办公室电话和一个家庭电话号码),这时将其规范成为1NF有三种方法:重复存储“职工号”和“姓名”。此时,关键字只能是“电话号码”。“职工号”为关键字,“电话号码”分为“单位电话”和“住宅电话”两个属性。“职工号”为关键字,但强制每条记录只能有一个电话号码。以上三个方法,第一种方法最不可取,按实际情况选取后面两种情况。非第一范式表姓名系书本书名编号价格张三计算机数据结构0000345物理0000134“书本”属性不是一个不可再分的原子属性,即他是由3个部分组成第二范式(2NF)

如果关系模式R为第一范式,并且R中每一个非主键属性完全依赖于R的某个候选关键字(通常为主键),即所有非主键列的值都完全依赖于主键列,则称关系R属于第二范式。 例如:在选课关系表SCI(SNO,CNO,GRADE,CREDIT)中,SNO为学号,CNO为课程号,GRADE为成绩,CREDIT为学分。由以上条件可知,关键字为组合关键字(SNO,CNO)。第三范式(3NF)

属于第二范式,且表中的任何一个非主属性都不传递函数依赖于任何主键,则为第3范式;如果关系模式R中的所有非主属性对于任何候选键都不存在传递依赖,则称关系R属于第三范式。 即如果一个表中的任意三列A、B、C,存在着A决定B,且B决定C的情况,那么这个表就不属于第三范式,因为A可以通过传递依赖决定C,这时应该将传递依赖分解到两个表中。同时上表中的3个表都属于第3范式;

所谓传递函数依赖,指的是如果存在“A—>B—>C”的决定关系,则C传递函数依赖于A。因此,满足第三范式的数据库表应该不存在如下依赖关系:

关键字段—>非主键字段x—>非主键字段y

假如学生关系表为Student(学号,姓名,年龄,所在学院,学院地点,学院电话),主键为“学号”,因为存在如下决定关系:(学号)—>(姓名,年龄,所在学院,学院地点,学院电话)这个数据库表是符合2NF,但是不符合3NF,因为存在如下决定关系:(学号)—>(所在学院)—>(学院地点,学院电话)即存在非主键“学院地点,学院电话”对关键字段学号的传递函数依赖第三范式(3NF)它会存在数据冗余,更新异常,插入异常,删除异常。将学生关系表分为如下两个表:学生:(学号,姓名,年龄,所在学院)学院:(学院,学院地点,学院电话)这样的数据库表是符合3NF,消除了数据冗余,更新异常,插入异常,删除异常。BCNF若关系模式R是第一范式,且每个属性都不传递依赖于R的候选键。这种关系模式就是BCNF模式。即在第三范式的基础上,数据库表中如果不存在任何字段对任一候选关键字段的传递函数依赖则符合鲍依斯-科得范式。假设仓库管理关系表为StorehouseManage(仓库ID,存储物品ID,管理员ID,数量),且有一个管理员只在一个仓库工作;一个仓库可以存储多种物品。这个数据库表中存在如下决定关系:(仓库ID,存储物品ID)→(管理员ID,数量)(管理员ID,存储物品ID)→(仓库ID,数量)所以,(仓库ID,存储物品ID)和(管理员ID,存储物品ID)都是StorehouseManage的候选关键字,表中的唯一非关键字段为数量,它是符合第三范式的。但是,由于存在如下决定关系:(仓库ID)→(管理员ID)(管理员ID)→(仓库ID)即存在关键字段决定关键字段的情况,所以其不符合BCNF范式。它会出现如下异常情况:(1)删除异常:

当仓库被清空后,所有"存储物品ID"和"数量"信息被删除的同时,"仓库ID"和"管理员ID"信息也被删除了。(2)插入异常:

当仓库没有存储任何物品时,无法给仓库分配管理员。(3)更新异常:如果仓库换了管理员,则表中所有行的管理员ID都要修改。把仓库管理关系表分解为二个关系表:仓库管理:StorehouseManage(仓库ID,管理员ID);仓库:Storehouse(仓库ID,存储物品ID,数量)。

这样的数据库表是符合BCNF范式的,消除了删除异常、插入异常和更新异常。BCNF四种范式之间的关系

164.2从数据库到数据仓库传统数据库:是按一定组织方式存储在计算机存储器中的相互关联的数据集合,数据库的建立独立于程序。数据库管理系统是一个管理数据库的软件系统,它为用户提供了查询、定义、操纵、控制数据库的方法和命令。1、从传统数据库到数据仓库17传统数据库以及联机事务处理(OLTP)传统数据库在联机事物处理中取得了较大的成功,但在基于事物处理的数据库帮助决策分析时却产生了很大的困难。主要原因是传统数据库的处理方式和决策分析中的数据需求不相称,导致传统数据库无法支持决策分析活动。1、从传统数据库到数据仓库从数据库到数据仓库18传统数据库决策处理的系统响应问题在传统的事务处理系统中,用户对系统和数据库的要求是数据存取频率要高、操作时间要快。但在决策分析处理中,用户对系统和数据的要求发生了很大的变化。有的决策问题处理请求,可能会导致系统长达数小时的运行。有的决策分析问题的解决,则需要遍历数据库中大部分数据。决策数据需求的问题进行决策分析时,需要有全面、正确的集成数据,大量的历史信息。这些集成数据不仅包含企业内部各部门的有关数据,而且还包含企业外部的、甚至竞争对手的相关数据。但是在传统数据库中,只存储了当前的业务处理信息、本部门的事务处理数据,面没有与决策问题有关的集成数据,更没有企业外部数据。例如:企业进行兼并活动后,或者企业内部不同部门开发了不兼容的程序,人事管理系统中关于性别的表达:(男、女)、(M、F)、(0、1)19传统数据库(3)决策数据操作的问题事务处理远远不能满足决策人员的需要。事务性处理基本上是典型的固定结构,操作人员只能使用系统所提供的有限参数进行数据操作,用户对数据的访问受很大的限制。表达方式上只能以固定的报表方式为用户提供信息。决策分析人员则往往希望以专业用户的身份对数据进行操作,并以商务智能的方式表达出来。对比内容数据库数据仓库数据内容当前值历史的、存档的、归纳的、计算的数据数据目标面向业务操作程序、重复处理面向主体域、管理决策分析应用数据特性动态变化、按字段更新静态、不能直接更新、只是定时添加数据结构高度结构化、复杂,适合操作计算简单、适合分析使用频率高中到低数据访问量每个事务只访问少量记录有的事务可能要访问大量记录对相应时间的要求以秒为单位计量以秒、分钟、甚至小时为计量单位数据仓库与传统数据库的比较214.3数据仓库的概念数据仓库它是一个提供决策支持功能的数据库,它与公司的操作数据库分开维护。为统一的历史数据分析提供坚实的平台,对信息处理提供支持定义“数据仓库是一个面向主题的、集成的、随时间而变化的、不容易丢失的数据集合,支持管理部门的决策过程adatawarehouseisasubject-oriented,integrated,non-volatile,time-variantcollectionofdatainsupportofmanagementdecisions..”—W.H.Inmon本质DW在物理本质上,和DB,FILESYSTEM一样,也是一堆数据的集合数据仓库的定义22数据仓库的概念数据仓库关键特征面向主题的集成的随时间变化的非易失的数据仓库23数据仓库的概念3、数据仓库关键特征面向主题(subject-oriented):数据仓库显著区别于关系数据库系统的一个特征围绕一些主题,如顾客、供应商、产品等关注决策者的数据建模与分析,而不是集中于组织机构的日常操作和事务处理。排除对于决策无用的数据,提供特定主题的简明视图。例如,优质客户分析采购信息(数量、品种):销售部门客户信用:财务部门客户购买竞争对手产品的信息:从企业的销售代理商或市场调查公司那里所获取,不是企业的内部24采购子系统:

订单(订单号,供应商号,商品号,类别,单价。数量,总金额,日期,…

)供应商(供应商号,供应商名,地址,电话,…)销售子系统:客户(客户号,姓名,地址,电话,…

)销售(客户号,商品号,数量,单价,日期,…

)库存子系统:进库单(编号,商品号,数量,单价,日期,…

)出库单(编号,商品号,数量,单价,日期,…

)库存(商品号,库房号,类别,单价,库存数量,总金额,日期,…

)数据源

商品固有信息:商品号,类别,单价,颜色,…

商品采购信息:商品号,类别,供应商号,供应日期,单价,数量,…

商品销售信息:商品号,客户号,数量,单价,销售日期,…

商品库存信息:商品号,库房号,库存数量,日期,…

)商品主题域:采购子系统销售子系统库存子系统数据仓库中的数据分为四个级别:早期细节级,当前细节级,轻度综合级,高度综合级。2005~2012年销售明细表2013~2015年销售明细表2013~2015年每月销售表2013~2015年每季度销售表28数据仓库的概念数据仓库关键特征数据仓库的集成性(integrated):是指根据决策分析的要求,将分散于各处的源数据进行抽取、筛选、清理、综合等工作,使数据仓库的数据具有集成性。数据仓库在从业务处理系统那里获取数据时,并不能将源数据库中的数据直接加载到数据仓库中,而是需要进行一系列的数据预处理,即数据的抽取、筛选、清理、综合等集成工作。首先要从源数据库中挑选出数据仓库所需要的数据,然后将这些来自不同数据库中的数据按照某一标准进行统一,即将不同数据源中的数据的单位、字长与内容按照数据仓库的要求统一起来,消除源数据中字段的同名异义、异名同义现象,这些工作称为数据的清理(clean),把数据仓库的数据呈现给用户一个一致统一的视图。29数据仓库的概念数据仓库关键特征数据仓库的集成性(integrated):一个数据仓库是通过集成多个异种数据源来构造的。关系数据库,一般文件,联机事务处理记录使用数据清理和数据集成技术。确保命名约定、编码结构、属性度量等的一致性。当数据被移到数据仓库时,它们要经过转化。304.3数据仓库的概念数据仓库关键特征数据仓库是从历史的角度提供信息随时间而变化(time-variant)数据仓库的时间范围比操作数据库系统要长的多。操作数据库系统:主要保存当前数据。数据仓库:从历史的角度提供信息(比如过去5-10年)314.3数据仓库的概念数据仓库关键特征数据仓库关键特征四——数据不易丢失数据不易丢失(non-volatile)尽管数据仓库中的数据来自于操作数据库,但他们却是在物理上分离保存的。操作数据库的更新操作不会出现在数据仓库环境下。不需要事务处理,恢复和并发控制等机制只需要两种数据访问:数据的初始转载和数据访问(读操作)4.4数据仓库的相关模型概念模型逻辑模型物理模型元数据模型粒度模型32现实世界概念模型(概念世界)逻辑模型(逻辑世界)物理模型(计算机世界)数据仓库元数据模型粒度模型4.4数据仓库的相关模型概念模型不能直接用传统的E-R图,但对某些元素修改后可使用因为数据仓库中有了指标实体(事实实体)和维度实体数据仓库中的各个实体不对等,建设数据仓库时需要考虑两类模型星型模型雪花模型33概念模型事实表事实表是用于存放经过汇总的历史信息,也就是事实数据的表,是星型架构或雪花型架构的中心。每个数据仓库或数据集市都包括一个或多个事实表。事实表一般不包含描述性信息,具有可以聚合的特点。维表维表是存储描述事实表中事实数据特性的表,每个维表都是独立于其它维表的,并且包含了事实特性的层次结构信息。事实表维度表维度表维度表维度表维度表星型模型是最常用的数据仓库设计结构的实现模式。使数据仓库形成了一个集成系统,为用户提供分析服务对象。核心是事实表,围绕事实表的是维度表。通过事实表将各种不同的维度表连接起来,各个维度表都连接到中央事实表。每一个维度表通过一个主键与事实表进行连接。维度表利用主键通过事实表中的外键约束于事实表中的某一行。事实表中的外键不得为空。星型模型星型模型实例

time_keydayday_of_the_weekmonthquarteryeartimelocation_keystreetcitystate_or_provincecountrylocationSalesFactTabletime_keyitem_keybranch_keylocation_keyunits_solddollars_soldavg_salesMeasuresitem_keyitem_namebrandtypesupplier_typeitembranch_keybranch_namebranch_typebranch星雪花模型是对星型模型的扩展,每一个维度都可以向外连接到多个详细类别表。雪花模型对星型模型的维度表进一步标准化,对星型模型中的维度表进行了规范化处理。雪花模型事实表维度表维度表维度表维度表维度表详细类别表详细类别表雪花模式实例time_keydayday_of_the_weekmonthquarteryeartimelocation_keystreetcity_keylocationSalesFactTabletime_keyitem_keybranch_keylocation_keyunits_solddollars_soldavg_salesMeasuresitem_keyitem_namebrandtypesupplier_keyitembranch_keybranch_namebranch_typebranchsupplier_keysupplier_typesuppliercity_keycitystate_or_provincecountrycity4.3数据仓库的相关模型粒度模型粒度是指数据仓库中数据单元的详细程度和级别。数据越详细,粒度就越小,数据综合度越高,粒度就越大,级别就越高。粒度可定义成数据仓库中数据细节的最低层次,如事务层次。这种数据层次是高度细节化的,这样就能使用户按所需的任何层次进行汇总。根据粒度的划分标准可以将数据划分为:详细数据、轻度总结、高度总结三级或更多级粒度。粒度的具体划分将直接影响到数据仓库中的数据量以及查询质量。39粒度级别综合性数据细节低(如事务)高(如汇总)低高非常高中等到低一年数据五年数据数据量(行数)粒度划分策略数据量(行数)粒度划分策略10,000,0001,000,000100,00010,000双重粒度并仔细设计双重粒度仔细设计不考虑20,000,00010,000,0001,000,000100,000双重粒度并仔细设计双重粒度仔细设计不考虑数据粒度的划分第一步,是估算数据仓库中将来要使用的数据行数和所需的直接存取存储设备数。每一个表的存储空间,应该是每一个表的数据存储空间和索引存储空间之和。数据粒度的划分考虑因素:要接受的分析类型可接受的数据最低粒度能存储的数据量。粒度的层次定义越高,就越不能在该仓库中进行更细致的分析。通常在同一模式中使用多重粒度:对不同数据采用不同粒度。如存储资源有一定的限制,只能采用较高粒度的数据粒度划分策略。粒度的确定实质上是业务决策分析、硬件、软件和数据仓库使用方法的一个折衷。数据粒度划分策略一定要保证数据的粒度确实能够满足用户的决策分析需要,这是数据粒度划分策略中最重要的一个准则。424.4数据仓库的体系结构数据分析/应用层

数据获取/管理层数据存储层外部数据源

…..

业务数据仓库元数据

数据集市

434.5数据仓库的体系结构单一数

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论