仓库管理_数据仓库培训案例_第1页
仓库管理_数据仓库培训案例_第2页
仓库管理_数据仓库培训案例_第3页
仓库管理_数据仓库培训案例_第4页
仓库管理_数据仓库培训案例_第5页
已阅读5页,还剩37页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据仓库 三 数据仓库设计大致有如下几个步骤 2 6数据仓库的设计 明确主题概念设计技术准备逻辑设计物理设计数据仓库生成数据仓库的运行与维护 针对每一个选定的当前实施的主题 概念模型设计 逻辑模型设计 物理模型设计 数据仓库生成 数据仓库运行与维护 2 6数据仓库的设计 2 6数据仓库的设计 确定系统边界要做的决策类型有哪些 决策者感兴趣的是什么问题 这些问题需要什么样的信息 要得到这些信息需要包含哪些数据源 概念模型设计确定系统边界确定主要的主题及其内容OLAP设计 2 6数据仓库的设计 确定主要的主题即明确数据仓库的分析对象 然后对每个主题的内容进行较详细的描述 包括 确定主题及其属性信息描述每个属性的取值情况固定不变的半固定的经常变化的确定主题的公共码键主题间的关系 主题间联系及其属性在确定上述内容后 就可以用传统的实体联系模型 E R模型 来表示数据仓库的概念数据模型 例如 2 6数据仓库的设计 2 6数据仓库的设计 供应商固有信息 供应商 供应商品信息 日期 供应商号 顾客固有信息 顾客号 顾客 日期 顾客购物信息 商品采购信息 商品销售信息 商品 商品号 日期 商品固有信息 商品库存信息 商品 顾客和供应商之间的E R图 2 6数据仓库的设计 逻辑模型设计将E R图转换成关系数据库的二维表定义数据源和数据抽取规则 在逻辑模型的设计过程中 需要考虑以下一些问题 适当的粒度划分合理的数据分割策略定义合适的数据来源等 2 6数据仓库的设计 逻辑模型设计 粒度划分 在设计过程中需要考虑数据仓库中数据粒度的划分原则 即数据单元的详细程度和级别 数据越详细 粒度越小 级别就越低数据综合度越高 粒度越大 级别就越高 一般将数据划分为 详细数据 轻度总结 高度总结三种粒度 或者采用更多级的粒度划分方法 例如 根据时间跨度进行的统计有 天 周 月 季度 年对于不适合进行统计的属性值 可以采样获取数据粒度的划分将直接影响到数据仓库中的数据量以及所适合的查询类型 粒度划分是否适当是影响数据仓库性能的一个重要方面 2 6数据仓库的设计 商品固有信息 商品表 商品号 商品名 类型 颜色 细节数据 商品采购信息 采购表1 商品号 供应商号 供应日期 供应价 细节数据 采购表2 商品号 时间段1 采购总量 综合数据 采购表n 商品号 时间段n 采购总量 商品销售信息 销售表1 商品号 顾客号 销售日期 售价 销售量 细节数据 销售表2 商品号 时间段1 销售总量 综合数据 销售表n 商品号 时间段n 销售总量 商品库存信息 库存表1 商品号 库房号 库存量 日期 细节数据 库存表2 商品号 库房号 库存量 星期 样本数据 库存表n 商品号 库房号 库存量 年份 其它导出数据 2 6数据仓库的设计 逻辑模型设计 数据分割 数据的分割是指把逻辑上是统一整体的数据分割成较小的 可以独立管理的数据单元进行存储 关系 以便于重构 重组和恢复 以提高创建索引和顺序扫描的效率 选择数据分割的因素有 数据量的大小数据分析处理的对象 主题 简单易行的数据分割标准数据粒度的划分策略通常采用 时间 属性作为数据分割的依据数据分割技术类似于数据库中的数据分片技术 其目的是为了提高数据仓库的性能 2 6数据仓库的设计 逻辑模型设计 定义数据来源及其抽取规则 定义数据仓库中数据的来源 以及数据的抽取规则 例如 2 6数据仓库的设计 物理模型设计在逻辑模型设计基础上确定数据的存储结构 确定索引策略 确定存储分配及数据存放位置等与物理有关的内容 物理模型设计的具体方法与数据库设计中的大致相似 其目的是为了提高数据仓库系统的访问性能 常用的一些技术有 合并表建立数据序列引入冗余表的物理分割生成导出数据建立广义索引 2 6数据仓库的设计 在常见的一些分析处理操作中 可能需要执行多表连接操作 为了节省I O开销 可以把这些表中的记录混合存放在一起 以减低表的连接操作的代价 这样的技术我们称为合并表 合并表技术与传统关系数据库中的集簇 Clustering 技术类似 物理模型设计 合并表 2 6数据仓库的设计 按照数据的处理顺序调整数据的物理存放位置 以减少减少系统的磁盘I O的开销 物理模型设计 建立数据序列 page1page2page3page4 2 6数据仓库的设计 物理模型设计 建立数据序列 page1page2page3page4 调整后的存储组织 2 6数据仓库的设计 在面向某个主题的分析过程中 通常需要访问不同表中的多个属性 而每个属性又可能参与多个不同主题的分析过程 因此可以通过修改关系模式把某些属性复制到多个不同的主题表中去 从而减少一次分析过程需要访问的表的数量 采用该种数据组织方法回带来大量的数据冗余存储 数据仓库系统必须保证这些冗余数据的一致性 由于数据仓库中的数据是稳定的 很少执行更新操作 不会因此带来过高的数据更新的代价 却可以有效地提高数据仓库系统的性能 物理模型设计 引入冗余 2 6数据仓库的设计 类似于在逻辑设计阶段的数据分割 可以根据表中每个属性数据的访问频率和稳定性程度对表的存储结构进行分割 对于访问频率较高的属性 可以单独考虑其物理存储组织 以便选择合适的索引策略和特定的物理组织方式 对于需要频繁更新的属性 也可以单独组织其物理存储 以免因数据更新而带来的空间重组 重构等工作 物理模型设计 表的物理分割 2 6数据仓库的设计 在原始的细节数据的基础上进行一些统计和计算 生成导出数据 并保存在数据仓库中 采用该方法既可以避免在分析过程中执行过多的统计或计算操作 减少输入 出的次数 又避免了不同用户进行的重复统计操作可能产生的偏差 物理模型设计 生成导出数据 2 6数据仓库的设计 用于记录数据仓库中数据于 最 有关的统计结果的索引被称为 广义索引 如 当月销售额最高的商店 当月销售情况最差的商品 这样的广义索引的数据量是非常小的 可以在每次进行数据仓库数据加载工作时生成或刷新这样的广义索引 用户可以从已经建立的广义索引里直接获取这些统计信息 而不必对整个数据仓库进行扫描 物理模型设计 建立广义索引 2 6数据仓库的设计 数据仓库生成 建立数据模式根据逻辑设计与物理设计的设计结果建立数据仓库的数据模式 编制数据抽取程序根据数据仓库元数据中的定义信息 编制抽取程序 将数据源中的数据作加工以形成数据仓库中的数据 数据加载将数据源中的数据 通过数据抽取程序加载到数据仓库的模式中去 2 6数据仓库的设计 在数据仓库建立后 就可以建立分析 决策型的应用系统 在应用系统的使用过程中不断加深理解 改进主题 依照原型法的思想使系统更趋完善 在系统的运行过程中 随着数据源中数据的不断变化 需要通过数据刷新操作来维护数据仓库中数据的一致性 数据仓库的使用与维护 2 7联机分析处理 OLAP 联机事务处理 OLTPOn LineTransactionProcessing联机分析处理 OLAPOn LineAnalyticalProcessing 2 7联机分析处理 OLAP OLAP中的几个基本概念 对象 Object 在分析型处理中我们所关心和分析的对象 例如 商品的销售金额维 Dimension 观察分析对象的角度 例如 可以从三个 维 角度观察 销售金额 这个对象 时间维 可按时间角度分析 统计其销售金额 商品维 可按不同商品分类角度分析 统计 地域维 可按连锁点不同地域角度分析 统计其销售金额 2 7联机分析处理 OLAP OLAP中的几个基本概念 层 Layer 在分析型应用中 对对象可以从不同深度分析与观察并可得到不同结果 因此 层 反映了对对象观察的深度 一般而言 层是与维相关联的 一个维中可允许存在若干个层 并且可以又不同的层次划分方法 例如 时间维 可以有日 周 月 季 年地域维 可以有市 省 国 洲商品维 商品的分类 2 7联机分析处理 OLAP OLAP中的几个基本概念 维成员维的一个取值称为该维的一个维成员 如果一个维是多层次的 则该维的维成员是在不同维层次的取值的组合 例如 对时间维来说 某年某月某日 某年某月 某月某日 某年 都是其维成员 对一个数据项来说 维成员是该数据项在某维中位置的描述 2 7联机分析处理 OLAP OLAP中的几个基本概念 多维数组一个多维数组可以表示为 维1 维2 维n 变量 这样可以构成三维 四维及多维的数据表示结构 其中 变量表示我们所观察的数据对象 维1 维2 维n分别表示我们观察该数据对象的角度 如 时间 商品种类 商店 销售额 从而构成一个有关商品销售额的三维数组 2000年 家电 南京市 1亿 2000年7月 女性服装 江苏省 10亿 2 7联机分析处理 OLAP OLAP中的几个基本概念 数据单元 单元格 多维数组的取值称为数据单元 当多维数组的各个维都选中一个维成员 这些维成员的组合就唯一确定了一个观察对象的值 即 维成员1 维成员2 维成员n 对象值 2 7联机分析处理 OLAP 假设 在一个分析型应用中有若干个分析对象 设为r个 以它们为聚焦点作不同角度 设为m个 与深度 设为n个 的分析 那么可以得到多种不同的统计分析结果 共为 r m n 个 为了方便快速地查到这些统计分析结果 OLAP需要解决以下三个问题 OLAP的基本数据模型OLAP数据构造方式数据立方体 DataCube 与数据超立方体 DataSuperCube 2 7联机分析处理 OLAP OLAP的基本数据模型 星型模式 StarSchema 星形模式是一种多维表结构 它一般有两种不同性质的二维表组成 事实表 facttable 它存放多维表中的主要事实称为量 Measure 维表 DimensionTable 用以建立多维表中之维成员值一般一个n维的多维表往往有n个维表和一个事实表 它们构成了一个星形结构 称为星形模式 在星形模式中主体是事实表 而有关维的细节则构作于维表内以达到简化事实表的目的 事实表与维表间有公共属性相连以使它们构成一个整体 2 7联机分析处理 OLAP 销售表 产品表 商店表 日期表 星型模式示意图 2 7联机分析处理 OLAP 上述的星型模式可以转化成下面的四个关系 事实表 销售表 产品标识符 商店标识符 日期标识符 销售额 维表1 产品表 产品标识符 类别 大类别 维表2 商店表 商店标识符 市名 省名 国名 洲名 维表3 时间表 时间标识符 日期 月份 季度 年份 2 7联机分析处理 OLAP OLAP的基本数据模型 雪花模式 SnowflakeSchema 如果每个维表也是一个类似星型的模式结构 则称其为雪花模式 例如 上述的 产品表 也可以是一个星型结构 产品 类别 供应商 顾客 在上述的星型模式中 我们只考虑产品的分类 在这里我们还可以从产品的供应商或购买顾客角度来来考虑对产品进行分析 也可以以其中的 供应商 为中心再构成一个星型模式 2 7联机分析处理 OLAP OLAP数据构造方式ROLAP RelationalOLAP 用传统的关系数据库管理系统 RDBMS 管理 将星型 雪花型 模式用二维表形式存储 表间用关键字相连 从而构成一个关系模式 它称为ROLAP 用户在ROLAP上的查询操作将被改写成RDBMS中的查询操作并执行获得查询结果 MOLAP Multi DemensionalOLAP 用 多维数据库管理系统 管理 多维数据库的基本数据模式是一个多维数组 在MOLAP中 事实表被表示成一个多维数组 维的属性值被映射成多维数组下标 而总结数据则作为多维数据值存储在数据单元中 在查询时 可以通过下标值取出相应数组中的总结数据 2 7联机分析处理 OLAP OLAP数据构造方式OLAP服务器必须提高对OLAP数据的访问效率 包括 数据抽取 转换及加载的效率OLAP数据查询效率OLAP数据更新效率 2 7联机分析处理 OLAP 目前可有多种方法以提高OLAP中的处理效率 它们是 尽量采用并行操作方式以提高处理速度 采用物化视图方式 将视图这种虚表形式转换成实际存在的二维表 以达到快速取得总结性数据的目的 采用特殊的索引与集簇方式 以加速星型模式内表的连接速度 采用OLAP中的查询优化技术 如共享排序技术等 采用增量技术 在OLAP数据更新时保留不变的数据 仅更改变动的数据以加快数据更新速度 2 7联机分析处理 OLAP 数据立方体 DataCube 数据仓库的数据模式通常可以看成是定义在多个数据源上的数据视图 分析数据的基本内容是一些统计数据 获取这些统计数据的常用方法是在视图中用统计函数进行计算 但这种方法的缺点是显见的 时间开销太大 为了提高对统计信息的查询速度 我们可以预先计算好数据视图中的统计信息并保存在数据仓库中 这称为物化视图 即将虚的视图转变成实际的视图 存放物化视图的三维数据模型叫数据立方体 2 7联机分析处理 OLAP 以上面的星型模式为例 其事实表共有三维 即产品P product 商店S store 及日期D Date 可以为它们定义一系列的物化视图 1 PSD视图CREATEVIEWPSD 产品标识符 商店标识符

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论