仓库管理_数据仓库概述1_第1页
仓库管理_数据仓库概述1_第2页
仓库管理_数据仓库概述1_第3页
仓库管理_数据仓库概述1_第4页
仓库管理_数据仓库概述1_第5页
已阅读5页,还剩84页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第1章数据仓库概述 DW DM 1 l数据库到数据仓库的演变 DW DM 第一章数据仓库概述 1 1数据库到数据仓库的演变 1 3仓库的应用前景 数据库到数据仓库的演变 数据库的发展 企业运营环境 以数据库为中心 企业级数据库 市场部 销售 市场策划财务部 产生财务报表人事部 人员变动情况 蜘蛛网问题 图1 1 数据分析的结果缺乏可靠性图1 2中展示了某电信公司的市场部和计划部对业务A是否具有市场前景的分析过程和结果 市场部认为 业务A的市场前景很好 而计划部却得到截然相反的结果 业务A没有市场前景 作为企业的最棕决策者 将如何根据这样的结论进行决策呢 一 蜘蛛网问题 DW DM 第一章数据仓库概述 1 1数据库到数据仓库的演变 1 3仓库的应用前景 图1 1企业中存在的 蜘蛛网 现象 企业级 部门极 抽取程 个人级 DW DM 第一章数据仓库概述 1 1数据库到数据仓库的演变 1 3仓库的应用前景 外部市场信息A 分析程序1 分析结果1 业务A市场前景很好 分析结果2 业务A没有市场前景 外部市场信息B 外部市场信息C 抽取数据的时间不同 分析程序2 抽取数据的内容不同 外部信息 分析程序和内容不同 图1 2两个分析过程的差异 企业级数据库 市场部 计划部 两个分析的数据都来自于企业数据库 但是结论却不同 下面通过分析两个过程的差异来寻求原因 首先 市场部门和计划部门从企业数据库中抽取的数据可能不同 比如 市场部抽取的是在大客户中对业务A的使用情况 而计划部抽取的是在普通客户中对业务A的使用情况 二者分析的数据存在差异 其次 市场部分析的时间是2001年3月5日 而计划部分析的时间是2001年3月25日 两个分析过程从企业数据库中抽取数据的时间不同 企业数据库中的内容已经发生了变化 这很可能导致分析的结果不同 再次 分析业务的发展趋势常常需要引入企业外部的信息 比如客户的满意程度 国家的政策等 市场部门引用的外部信息来源可能与计划部不同 而外部信息必然是仁者见仁 智者见智 这也可能是导致最终分析结果不同 最后 市场部门使用的分析程序可能与计划部不同 通过上面的分析 我们可以看出导致两个分析过程出现截然相反的结论的根本原因是数据的来源部一致 对于不同来源的数据的分析结果显然是不一致的 2 数据处理的效率很低 在错综复杂的体系中 不同级别的数据库可能使用不同类型的数据库系统 对于有巨型数据量的企业级数据库可能使用IBMDB2 对于中小型数据库可能使用SQLServer 各种数据库的开发工具和开发环境不同 抽取程序应用的技术不同 因而难以集成 如果一个大型企业的决策者需要一份关于公司整体运营情况的报表 通常需要动用大量的人力和物力才能达到 首先 需要确定报表涉及的内容分布在哪个数据库的哪个位置 然后调动各个部门的程序员 分析员对应用进行分析 设计和编码 由于数据分散在各个数据库中 因此需要编写的程序很多 由于在企业中使用的数据库类型很多 因此可能需要使用多种的技术来实现 程序的重用性很差 因为决策者明天想看的内容很可能和今天是不同的 可见 动用大量的人力 物力和时间才能完成的报表不仅实效性很差 数据处理的效率也很低 DW DM 第一章数据仓库概述 1 1数据库到数据仓库的演变 1 3仓库的应用前景 图1 3以数据库为中心的环境发展为以数据仓库为中心的环境的过程示意图 3 难以将数据转化成信息除了数据处理效率和数据的可信度之外 蜘蛛网 式的结构还难以将数据转化为信息 比如 某电力公司想分析某个大客户今年的情况和过去的3年有什么不同 大客户的情况可能包括客户的呼叫行为 话费情况 交费情况 咨询问题等 因此想要比较完整的回答这个问题 实际上需要将客户多方面的数据综合成信息 在实际的数据库系统中 记录客户呼叫行为的数据库通常只保留客户最近3个月的呼叫话单 帐务数据库可能保留客户今年的交费情况 客户咨询数据库可能保留客户2年内的咨询信息 如图1 4所示 每个数据库由于其数据量和业务处理的需求不同 对于历史数据的存储时间也不同 因此以现有的数据库系统难以提供完整的历史数据 鉴于这样的原因 用户根本不可能从这些数据中提取出完整的信息 DW DM 第一章数据仓库概述 1 1数据库到数据仓库的演变 1 3仓库的应用前景 图1 4现有数据库系统难以提供完整的数据历史数据 操作型系统的使用人员通常是企业的具体操作人员 处理的数据通常是企业业务的细节信息 其目标是实现企业的业务运营 而分析型系统的使用人员通常是企业的中高层的管理者 或者是从事数据分析的工程师 分析型系统包含的信息而非具体的细节 其目的是为企业的决策者提供支持信息 操作型系统和分析型系统的划分如图1 4所示 操作型处理和分析型处理的分离 划清了数据处理的分析型环境和操作型环境之间的界限 从而由原来以单一数据库为中心的数据环境发展为以数据库为中心的业务处理系统和以数据仓库为基础的分析系统 企业的生产环境 也由以数据库为中心的环境发展为以数据仓库为中心的环境 如图1 5所示 DW DM 第一章数据仓库概述 1 1数据库到数据仓库的演变 1 3仓库的应用前景 图1 5以数据库为中心的环境发展为以数据仓库为中心的环境的过程示意图 DW DM 2 1数据仓库的体系结构 2 2数据仓库的特点 2 3数据仓库的数据组织 2 4数据仓库建设的两条技术路线 1 2数据仓库体系结构 一 数据仓库体系结构 图1 6 由于数据库和数据仓库的出发点不同 数据仓库将独立于业务数据库系统 但是数据仓库又同数据库系统息息相关 也就是说 数据仓库不是简单对数据进行存储 而是对数据进行 再组织 2 5操作数据存储ODS 2 6外部数据和非结构数据 DW DM 数据挖掘系统 数据展现系统 数据集市 数据提取 提取仓库 数据 元数据 数据集市 数据集市 数据集市 数据仓库存储 企业外部数据 业务操作型数据 2 1数据仓库的体系结构 2 2数据仓库的特点 2 3数据仓库的数据组织 2 4数据仓库建设的两条技术路线 2 5操作数据存储ODS 2 6外部数据和非结构数据 数据清洗 转换 DW DM 1 3数据仓库重要名词 数据提取 DataExtraction 数据抽取数据仓库按主题从业务数据库提取相关数据的过程 从数据仓库的角度来看 并不是业务数据库中的所有数据都是决策支持所必须的 数据仓库按照分析的主题来组织数据 我们只需要提取出系统分析必须的那一部分数据 例如 某超市确定以分析客户的购买行为为主题建立数据仓库 只需将同客户购买行为相关的数据提取出来 超市员工的数据没有必要放进数据仓库 2数据清洗 DataCleaning 企业建立很多不同的数据库数据的不一致是将错误的 不一致的数据在进入数据仓库之前予以更正或删除 以免影响DSS决策的正确性 图2 2所示 客户数据库中有客户基本信息表 客户服务数据库中有一张客户咨询信息表 由于操作人员的失误 将客户信息表中的 张山 在客户咨询表录入为 张三 图2 3所示 客户信息表 张三 的手机状态是正常 此时张山去办理停机 在客户业务变更表中 手机状态修改为 停机 如果数据刷新不够实时 导致客户基本信息表和客户业务表变更不同步 2 1数据仓库的体系结构 DW DM 客户基本信息表 客户咨询信息表 客户基本信息表 客户业务变更信息表 图1 7操作失误导致数据不一致 图1 8数据刷新不时实导致数据不同步 客户号 100姓名 张山年龄 23 客户号 100姓名 张山咨询问题 客户号 100姓名 张山年龄 23手机服务状态 正常 客户号 100姓名 张山业务变更 停机 2 1数据仓库的体系结构 2 2数据仓库的特点 2 3数据仓库的数据组织 2 4数据仓库建设的两条技术路线 2 5操作数据存储ODS 2 6外部数据和非结构数据 DW DM 3数据转化 DataTransformation 图2 4 把源数据的数据格式转换成统一的数据格式的过程 也叫 数据集成 DataIntegration 由于业务系统可能使用不同的数据库厂商的产品 比如IBMDB2 informix Sybase Sqlserver等 各种数据库产品提供的数据类型可能不同 需要将不同格式的数据转换成统一的格式 4提取仓库由于业务数据库系统中的数据和数据格式存在不一致的问题 因此在数据放进数据仓库前需要进行缓存 以等待清洗和转换 这些数据缓存的位置即提取仓库 提取日志 ExtractionStore 当从业务系统提取数据时 需要记录提取数据的过程 该过程被记载在提取日志中 提取日志详细的记录了数据的来源 数据的转化过程等 6数据管理员是负责数据导入时管理数据质量的专业人员 还检阅提取日志 发现其中数据提取的错误和源于业务系统的错误 2 1数据仓库的体系结构 2 2数据仓库的特点 2 3数据仓库的数据组织 2 4数据仓库建设的两条技术路线 2 5操作数据存储ODS 2 6外部数据和非结构数据 DW DM 图1 9数据格式的不一致 2000 2 3 2000 2 5 2000 2 4 2 3 2000 2 5 2000 2 4 2000 2000 2 3 2000 2 5 2000 2 4 2 1数据仓库的体系结构 2 2数据仓库的特点 2 3数据仓库的数据组织 2 4数据仓库建设的两条技术路线 2 5操作数据存储ODS 2 6外部数据和非结构数据 DW DM 7外部数据源 ExternalSource 从系统外部获取的同主题分析相关的数据来源 例 采购部 确定采购订单 采购货单 产品销售情况 内部 商品的价格水平质量水平竞争对手的采购信息 外部 数据仓库存储用于存放数据仓库数据和元数据的存储空间 数据存储方式 多维数据集 关系型数据库以及二者的结合 数据业务系统中提取的或者从外部数据源中导入的数据进行清洗 转化后成为数据仓库的原始数据 它们是数据仓库数据的一部分 不是全部 2 1数据仓库的体系结构 2 2数据仓库的特点 2 3数据仓库的数据组织 2 4数据仓库建设的两条技术路线 2 5操作数据存储ODS 2 6外部数据和非结构数据 DW DM 10元数据 MetaData 图2 5 数据是对事物的描述 而元数据是对数据的描述 它提供了有关数据的环境 数据仓库中的元数据有两类 第一种是为了从操作型环境向数据仓库环境转换而建立的元数据 它包括所有源数据的名称 属性及其在提取仓库中的转化 第二种是在数据仓库中是用来与最终用户的多维商业模型和前端工具之间建立映射的 这种数据成为决策支持系统元数据 包括 1 数据仓库中的信息的种类 存储位置 存储格式 2 信息之间的关系 信息和业务的关系 数据使用的业务规则 3 数据模型 4 数据模型和数据仓库的关系 例如 从customer业务数据库的user表中取出3列 user id user name address 在清洗转换过程中 将user name从char 20 转化为varchar 50 格式 最终放进user维表 User ID User name Address 中 转换后 User ID User name Address 3列原始的存放位置 进行的清洗转化处理 数据最终的存放位置 数据格式 数据使用的规则等等都作为元数据的一部分 图2 5所示 2 1数据仓库的体系结构 2 2数据仓库的特点 2 3数据仓库的数据组织 2 4数据仓库建设的两条技术路线 2 5操作数据存储ODS 2 6外部数据和非结构数据 DW DM Char 20 User name Varchar 50 User Name User表 User id User name address User ID User Name Address User维表 图1 10元数据内容示例 原始数据位置 数据清洗转化 数据最终存放位置 格式转化 Customer数据库 维表数据库 2 1数据仓库的体系结构 2 2数据仓库的特点 2 3数据仓库的数据组织 2 4数据仓库建设的两条技术路线 2 5操作数据存储ODS 2 6外部数据和非结构数据 数据集市 DataMarket 面向企业中的某个部门 主题 而在逻辑上或物理上划分出来的数据仓库中的数据子集 减少数据处理量 使信息更快捷 灵活 DW DM 权威定义 WilliamInmon博士90年代初 给出 数据仓库 通常是一个面向主题的 集成的 随时间变化的 但信息本身是相对稳定的数据集合 用于对管理决策过程的支持 1 4数据仓库定义 操作型数据和分析型数据的特性比较 2 1数据仓库的体系结构 2 2数据仓库的特点 2 3数据仓库的数据组织 2 4数据仓库建设的两条技术路线 2 5操作数据存储ODS 2 6外部数据和非结构数据 DW DM 一 数据库的功能和特性 数据的安全性 以SQLServer为例 用户 DBAP DBMS 操作系统 数据库 身份验证 操作权控制 文件操作控制 加密存储与控制 计算机系统的安全模式 数据库数据的加密存取 防止有意的非法活动 使用用户身份验证限制操作权 控制有意的非法操作 提高系统可靠性数据备份 控制无意的损坏 2 1数据仓库的体系结构 2 2数据仓库的特点 2 3数据仓库的数据组织 2 4数据仓库建设的两条技术路线 2 5操作数据存储ODS 2 6外部数据和非结构数据 DW DM 2数据处理的并发性 事务T1时间事务T2 读A 16T1T2读A 16B B 2 写回B 200 A A 1T3写回A 15 T4A A 4写回A 12 覆盖了T1对A的修改 丢失数据修改 2 1数据仓库的体系结构 2 2数据仓库的特点 2 3数据仓库的数据组织 2 4数据仓库建设的两条技术路线 2 5操作数据存储ODS 2 6外部数据和非结构数据 DW DM 事务T1时间事务T2 对A加X锁T1获得读A 16T2 T3要对A加X锁等待 修改A A 1T4等待写回A 15 释放对A的X锁T5等待T6获得对A的X锁T7读A 15T8修改A A 4写回A 11 T9释放对A的X锁 没有丢失数据 2 1数据仓库的体系结构 2 2数据仓库的特点 2 3数据仓库的数据组织 2 4数据仓库建设的两条技术路线 2 5操作数据存储ODS 2 6外部数据和非结构数据 DW DM 3事务处理的可靠性 事务 Transaction 是用户定义的数据操作系列 这些操作可作为一个完整的工作单元 一个事务内的所有语句是一个整体 要么全部执行 要么全部不执行 例如 A账户向B账户转帐100元第一个动作 A账户 100元第二个动作 B账户 100元 事务的特征 1 原子性 Atomicity 事务是数据库的逻辑工作单位 其中的操作 要么都进行 要么都不进行 2 一致性 Consistency 事务的执行结果 必须是从数据库的一个一致性状态转换到另一个一致性状态 3 隔离性 Isolation 一事务的操作不受其它事务的干扰 即事务操作中使用的数据是隔离的 4 持续性 Durability 事务一旦提交 对数据库的操作就是永久性 Permanence 的 2 1数据仓库的体系结构 2 2数据仓库的特点 2 3数据仓库的数据组织 2 4数据仓库建设的两条技术路线 2 5操作数据存储ODS 2 6外部数据和非结构数据 DW DM 4数据的一致性和完整性 二 数据仓库的功能和特性 1面向主题主题 用户使用数据仓库进行决策时所关心的重要方面 如 销售情况 利润情况 客户情况 面向主题 数据仓库中的信息是按主题进行组织的 为按主题进行决策的过程提供支持 尽管数据仍以表方式存储 但数据组织和建模方法已不同 需要数据库设计 应用开发 系统维护等方面进行复杂的大量工作 由此可见 操作型的环境涉及到事务管理 封锁管理 死锁管理 数据备份恢复 系统日志管理 数据存储管理等一系列复杂技术 2 1数据仓库的体系结构 2 2数据仓库的特点 2 3数据仓库的数据组织 2 4数据仓库建设的两条技术路线 2 5操作数据存储ODS 2 6外部数据和非结构数据 DW DM 计费数据库 客户服务数据库 市场信息数据库 帐务数据库 收益数据 客户数据 市场数据 图1 11数据仓库面向主题的特性 现有业务系统 2 1数据仓库的体系结构 2 2数据仓库的特点 2 3数据仓库的数据组织 2 4数据仓库建设的两条技术路线 2 5操作数据存储ODS 2 6外部数据和非结构数据 DW DM 客户标识号客户姓名客户年龄客户地址 客户基本信息表 客户呼叫记录表 客户标识号客户呼叫时间客户呼叫地点客户呼叫号码呼叫时长呼叫费率 客户话费表 客户标识表客户本月总话费本月月租费本月通话费本月短信费 客户标识号客户咨询内容咨询答案 客户咨询表 图1 12属于相同主题域的数据集合使用相同的公共键码连接 2 1数据仓库的体系结构 2 2数据仓库的特点 2 3数据仓库的数据组织 2 4数据仓库建设的两条技术路线 2 5操作数据存储ODS 2 6外部数据和非结构数据 DW DM 2数据的集成性 OLTP建表的数据在多个库中抽取 蜘蛛网问题OLAP要求数据的一致性 集成的 李强 李强 图2 8所示中 示例了一个数据集成的例子 某电信公司建立数据仓库时包括了客户这个主题 公司的业务系统中 客户的信息分散在各个业务数据库中 需要从客户基本信息表 客户呼叫记录表 客户话费表 客户咨询表等表中将数据提取并进行集成 图2 9示例了在实际问题中可能遇到的需要进行数据转换的工作 数据的集成性需要对数据进行ETL 特别是转化和清洗 其中 要注意的问题 数据格式 测量单位 数据代码 数据名称数据的集成是动态的 不是静态的 2 1数据仓库的体系结构 2 2数据仓库的特点 2 3数据仓库的数据组织 2 4数据仓库建设的两条技术路线 2 5操作数据存储ODS 2 6外部数据和非结构数据 DW DM 客户基本信息表 客户标识号客户姓名客户年龄客户地址 客户呼叫记录表 客户标识号客户呼叫时间客户呼叫地点客户呼叫号码呼叫时长呼叫费率 客户话费表 客户标识号客户本月总话费本月月租费本月通话费本月短信费 客户咨询表 客户标识号客户咨询内容咨询答案 客户标识号客户姓名客户年龄客户地址 客户标识号客户呼叫时间客户呼叫地点客户呼叫号码呼叫时长呼叫费率 客户标识号客户本月总话费本月月租费本月通话费本月短信费 客户标识号客户咨询内容咨询答案 图1 13数据从操作型环境提取到分析型环境的同时进行数据集成 2 1数据仓库的体系结构 2 2数据仓库的特点 2 3数据仓库的数据组织 2 4数据仓库建设的两条技术路线 2 5操作数据存储ODS 2 6外部数据和非结构数据 DW DM 客户信息表 客户呼叫记录表 客户话费表 客户咨询表 1 0 FM 女男 fm A表通话时长 B表通话时长 C表通话时长 2小时 120分钟 7200秒 客户信息表 客户呼叫记录表 客户话费表 客户咨询表 name user name USERNAME NAME 客户信息表 客户呼叫记录表 客户话费表 客户咨询表 姓名 姓名 姓名 姓名 char 10 varchar 10 char 12 varchar 20 统一编码 编码间转化 统一度量单位 统一变量命名 统一字段格式 集成后数据 图1 14数据集成中数据转化的工作 2 1数据仓库的体系结构 2 2数据仓库的特点 2 3数据仓库的数据组织 2 4数据仓库建设的两条技术路线 2 5操作数据存储ODS 2 6外部数据和非结构数据 DW DM 任务调度 定期进行数据刷新 业务系统 数据清洗 转换整理 数据仓库 图1 15数据刷新示意 进一步考虑 决策支持系统需要的不是静态的集成 而是动态的集成 静态集成的最大缺点在于数据集成后数据源中的数据发生了变化 这些变化将不能反映给决策者 导致决策者使用的是过时的数据 因此数据仓库必须能够使集成数据以一定的周期 例如24小时 进行刷新 使决策者能够使用新增的数据 其过程如图1 15所示 2 1数据仓库的体系结构 2 2数据仓库的特点 2 3数据仓库的数据组织 2 4数据仓库建设的两条技术路线 2 5操作数据存储ODS 2 6外部数据和非结构数据 DW DM 3数据的稳定性 OLTP中的操作 存入 查询 修改 删除OLAP中的操作 存入 查询 注意 两个存入的不同 数据仓库中 数据一旦写入 就不再变化了 所以 也可以把数据仓库看作是一个虚拟的只读存储器 我们在图中演示了一个简单的例子 例如在3月23日 100号顾客的消费金额变成250元 这一信息在业务系统中被更新了 但是在数据仓库中 假定数据仓库每天进行一次数据提取 3月23日的数据提取结果是在数据仓库中增加了记录XXX 说明100号顾客在3月23日的消费金额为200元 在执行3月24日的数据提取工作后 原先记录的XXX并没有发生任何的改变 而是在数据仓库中增加了一条新的纪录YYY 说明100号顾客在3月24日的消费金额为250元 可见 数据仓库实际上是为100号顾客的消费行为进行了定期的拍照 并将快照存储起来后供后续的分析工作使用 2 1数据仓库的体系结构 2 2数据仓库的特点 2 3数据仓库的数据组织 2 4数据仓库建设的两条技术路线 2 5操作数据存储ODS 2 6外部数据和非结构数据 DW DM 客户号 100费用 元 200 客户号 100费用 元 250 记录号 XXX时间 3月23日客户号 100费用 元 200 记录号 XXX时间 3月23日客户号 100费用 元 200 记录号 YYY时间 3月24日客户号 100费用 元 250 业务运营系统 数据仓库系统 数据仓库中增加一个记录 3月23日数据抽取 3月24日数据抽取 数据更新 图1 16数据仓库的数据稳定性 2 1数据仓库的体系结构 2 2数据仓库的特点 2 3数据仓库的数据组织 2 4数据仓库建设的两条技术路线 2 5操作数据存储ODS 2 6外部数据和非结构数据 DW DM 4数据随时间变化的特性OLTP的存入 修改OLAP的存入 增加 数据保存大约5 10年 数据仓库 记录系统的各个瞬态 并通过各个瞬态的连接形成动画 由于在数据仓库中数据只增不删 这使得数据仓库中的数据总是拥有时间维度 数据仓库实际上就是记录系统的各个瞬间 并通过各个瞬间连接起来形成动画 从而在数据分析的时候再现系统运动的全过程 数据提取的周期实际上决定了动画间隔的时间 数据提取的时间短 则动画的速度快 图1 17示意了这个特点 2 1数据仓库的体系结构 2 2数据仓库的特点 2 3数据仓库的数据组织 2 4数据仓库建设的两条技术路线 2 5操作数据存储ODS 2 6外部数据和非结构数据 DW DM 业务系统的运营 数据仓库的快照集合 t1 t2 t3 tn 图1 17数据仓库数据随时间变化的特点 2 1数据仓库的体系结构 2 2数据仓库的特点 2 3数据仓库的数据组织 2 4数据仓库建设的两条技术路线 2 5操作数据存储ODS 2 6外部数据和非结构数据 DW DM 5多维性 数据是带有时间轴的 数据是多维的 形成立方体 Cube 支持决策 三 数据仓库的工作目标 2 1数据仓库的体系结构 2 2数据仓库的特点 2 3数据仓库的数据组织 2 4数据仓库建设的两条技术路线 2 5操作数据存储ODS 2 6外部数据和非结构数据 数据库系统中硬件资源利用率曲线 数据仓库系统中硬件资源利用率曲线 时间 时间 0 0 100 100 DW DM 一 数据仓库的数据组织形式 数据仓库的数据级别 早期细节级当前细节级轻度综合级高度综合级 1 5数据仓库的数据组织 2 1数据仓库的体系结构 2 2数据仓库的特点 2 3数据仓库的数据组织 2 4数据仓库建设的两条技术路线 2 5操作数据存储ODS 2 6外部数据和非结构数据 DW DM 后备数据 后备数据 后备数据 后备数据 高度细节级 轻度细节级 当前细节级 早期细节级 图1 18数据仓库的数据组织结构图 2 1数据仓库的体系结构 2 2数据仓库的特点 2 3数据仓库的数据组织 2 4数据仓库建设的两条技术路线 2 5操作数据存储ODS 2 6外部数据和非结构数据 DW DM 如图1 19 所示是一个数据仓库数据组织的示例 由于客户的呼叫数据的数据量很大 并且数据仓库的使用者常常只关心近期的细节数据 因此我们可以在系统中只保留近三个月的呼叫数据 而将3个月之前的详细数据到处到备份设备中 在数据仓库中 细节数据可以聚合成轻度和高度综合级别的数据 比如按 月 季度 年 统计 需要说明的是轻度和高度是一种相对的概念 而没有绝对的边界 并且在数据仓库中数据的综合程度常常有很多的级别 在2001 3时 系统保留了从2001 1 2001 3的呼叫详细数据 等到2001 4月 2001 1的细节数据被导出 保留的是从2001 2 2001 4的呼叫详细数据 实际上综合数据也可能被导出系统 比如企业的管理者认为企业的决策只同企业近15年来的运营数据有关 则15年前的综合数据也可以导出 对于高度综合的数据 由于其数据量已经很少 所以一般不考虑它们的导出问题 总的来说 数据仓库的这种组织方式的核心思想是在系统中保留最有可能被客户使用的数据 而用户很少使用的数据则备份出系统 2 1数据仓库的体系结构 2 2数据仓库的特点 2 3数据仓库的数据组织 2 4数据仓库建设的两条技术路线 2 5操作数据存储ODS 2 6外部数据和非结构数据 DW DM 当前细节级 轻度综合级 高度综合级 最近3个月 2001年1月 2001年3月 客户呼叫详细数据 1995 2001年按月统计的客户呼叫信息 1995 2001年按季度统计的客户呼叫信息 1995 2001年按年统计的客户呼叫信息 2001年1月以前的呼叫详细数据 2001 3数据仓库中数据的状态 最近3个月 2001年2月 2001年4月 客户呼叫详细数据 1995 2001年按月统计的客户呼叫信息 1995 2001年按季度统计的客户呼叫信息 1995 2001年按年统计的客户呼叫信息 2001年2月以前的呼叫详细数据 2001 4数据仓库中数据的状态 图1 19数据仓库数据组织示例 2 1数据仓库的体系结构 2 2数据仓库的特点 2 3数据仓库的数据组织 2 4数据仓库建设的两条技术路线 2 5操作数据存储ODS 2 6外部数据和非结构数据 DW DM 二 数据的颗粒度数据粒度越小 信息越细节 数据粒度级别越低 数据量越大数据粒度越大 综合度越高 数据粒度级别越高 数据量越小 数据粒度的两种形式 是对数据仓库中数据的综合程度的度量 如图所示的例子 按照每 月 统计的客户呼叫数据和按照每次呼叫记载的客户呼叫数据 两者的数据量相差极大 我们假定每个字段为8个字节 每个用户一天进行5次通话 则一个客户一个月的呼叫细节数据的数据量为 8 6 30 5 7200字节 而一个客户1个月的呼叫汇总数据的数据量为8 4 32字节 图1 20所示细节数据和综合数据用途上的差异 图1 21所示的细节数据和综合数据在回答综合问题上代价的差异 2 1数据仓库的体系结构 2 2数据仓库的特点 2 3数据仓库的数据组织 2 4数据仓库建设的两条技术路线 2 5操作数据存储ODS 2 6外部数据和非结构数据 DW DM 8X6 30X5 8X4 客户呼叫记录表 客户呼叫记录按月汇总表 客户标识号客户呼叫时间客户呼叫地点客户呼叫号码呼叫时长呼叫费率 客户标识号月份呼叫总时长呼叫总次数 图1 20按 月 统计的客户呼叫数据和按每次呼叫记载的客户呼叫数据 2 1数据仓库的体系结构 2 2数据仓库的特点 2 3数据仓库的数据组织 2 4数据仓库建设的两条技术路线 2 5操作数据存储ODS 2 6外部数据和非结构数据 DW DM 细节数据 综合数据 综合数据能够回答的问题 王五这个月打了几个电话 王五这个月的通话总时长是多少 细节数据回答的问题 王五这个月3号在北京打了几个电话 王五这个月3号给李明打过电话妈 通话时间是多少 图1 21综合数据和细节数据的用途不同 2 1数据仓库的体系结构 2 2数据仓库的特点 2 3数据仓库的数据组织 2 4数据仓库建设的两条技术路线 2 5操作数据存储ODS 2 6外部数据和非结构数据 DW DM 细节数据 综合数据 综合数据回答综合问题 只需在访问很少的数据 细节数据回答综合问题需要访问大量的记录 进行大量的计算 图1 22综合数据和细节数据回答综合问题的代价不同 2 1数据仓库的体系结构 2 2数据仓库的特点 2 3数据仓库的数据组织 2 4数据仓库建设的两条技术路线 2 5操作数据存储ODS 2 6外部数据和非结构数据 DW DM 从图中我们可以看出 综合程度不同的数据其用途不同 在数据仓库多重的数据粒度是必不可少的 但是由于数据仓库最主要的目的是反映企业整体信息和DSS分析 回答综合程度较高的问题 如果为了回答许多细节问题 而使系统的数据量极度膨胀 从而降低系统的运营效率 就背离了系统建设的初衷 这也是我们在数据仓库数据组织方式中说明的 对细节数据和综合数据采用不同综合策略的原因 实际的工程项目中 我们可以将综合程度较高的数据存放在访问速度较高的磁盘上 而将细节数据定期导出到低俗的磁带上 例如 我们将近三个月的呼叫细节数据和按月综合的数据 按年综合的数据放在高速磁盘上 而将以往的细节数据放在低俗磁带上 如图1 23所示 需要注意的是 从数据仓库中导出的数据仍然属于数据仓库 只是在存储介质上发生了变化 2 1数据仓库的体系结构 2 2数据仓库的特点 2 3数据仓库的数据组织 2 4数据仓库建设的两条技术路线 2 5操作数据存储ODS 2 6外部数据和非结构数据 DW DM 3个月内的客户呼叫细节数据 3个月以前的客户呼叫细节数据 高速磁盘 低速的磁带设备 5年内按月综合的呼叫数据 10年内按年综合的呼叫数据 图1 23不同的数据采用不同的存储介质 2 1数据仓库的体系结构 2 2数据仓库的特点 2 3数据仓库的数据组织 2 4数据仓库建设的两条技术路线 2 5操作数据存储ODS 2 6外部数据和非结构数据 DW DM 针对数据挖掘 统计中的抽样样本空间 数据挖掘常常会使用非常负责的算法 如神经元网络 其计算的复杂度较高 如果我们将数据仓库中存放的巨量数据直接运算 则计算时间和空间复杂度将太高 以致于系统难以承受 因此我们在进行数据挖掘时 需要对数据仓库中的数据进行抽样 粒度的第二种形式是指抽样率 即以一定的抽样率对数据仓库中的数据进行抽样后得到一个样本数据库 数据挖掘将在这个样本数据库上进行 如图2 20 这样抽象的思想是合理的 因为我们进行数据挖掘是为了建立分析模型 反映事务发展的规律和趋势 由抽样带来的模型误差可以在模型建立之后再次使用源数据对模型进行校验和调整 这样可以大大缩短模型建立的时间 提高模型的精确度 实际上 数据挖掘通过循环不断地改进分析模型 如图1 24所示 2 1数据仓库的体系结构 2 2数据仓库的特点 2 3数据仓库的数据组织 2 4数据仓库建设的两条技术路线 2 5操作数据存储ODS 2 6外部数据和非结构数据 DW DM 数据仓库 样本数据库 数据挖掘算法 以一定抽样率进行抽样 图1 24使用样本数据库进行数据挖掘 2 1数据仓库的体系结构 2 2数据仓库的特点 2 3数据仓库的数据组织 2 4数据仓库建设的两条技术路线 2 5操作数据存储ODS 2 6外部数据和非结构数据 DW DM 数据仓库 样本数据库 数据挖掘算法 1 以一定抽样率进行抽样 2 通过挖掘建立模型 3 使用源数据进行校验 4 再次进行循环 分析模型 图1 25数据挖掘的循环 2 1数据仓库的体系结构 2 2数据仓库的特点 2 3数据仓库的数据组织 2 4数据仓库建设的两条技术路线 2 5操作数据存储ODS 2 6外部数据和非结构数据 DW DM 评价抽样率和抽样方法是否合适 关键在于抽样得到的样本是否能够反映源数据集合的特征 图1 26所示一种常见的评价方法 通过比较样本集合间的数值特征来评价本集合和元数据之间的相似性 如 我们使用某种抽样方法进行随即抽样 得到样本1和样本2 然后比较这两个样本集合之间如均值 方差等数值特征 如果这两个样本的数值特征不类似 则继续抽样 等到抽样获得的样本4 样本5和样本6它们的数值特征非常的相似 则认为再继续进行抽样的样本集合的数值特征也都类似 并且都同数据源具有类似的特征 抽样的过程到此即可以结束 过程如图1 26 2 1数据仓库的体系结构 2 2数据仓库的特点 2 3数据仓库的数据组织 2 4数据仓库建设的两条技术路线 2 5操作数据存储ODS 2 6外部数据和非结构数据 DW DM 源数据 样本1 样本2 样本3 样本4 样本5 样本6 抽样1 抽样2 抽样3 抽样4 抽样5 抽样6 图1 26数据抽样的评价方法 2 1数据仓库的体系结构 2 2数据仓库的特点 2 3数据仓库的数据组织 2 4数据仓库建设的两条技术路线 2 5操作数据存储ODS 2 6外部数据和非结构数据 DW DM 三 数据分割 将数据分散到各自的物理单元中 以便能够独立处理 提高数据处理的效率 数据分割后的数据单元成为 分片 数据分割没有固定的标准 分割的方法和粒度应当根据实际情况来确定 分割方法常常可以选择时间 地点 业务领域来划分 如图1 28所示 显示了按照地理位置进行的一个分割 如果涉及的数量非常大 可爱按照问题的需求从多个角度进行分割 例如按照时间和地理位置两个角度进行分割 如图1 29 按照时间进行分割符合数据仓库数据随时间变化的特点 并且分割后数据分布比较均匀 所以是最常见的分割方法 分割使得数据可以更容易索引 监控和顺序扫描 并且重构 重组简单 重构是分割的反面 而重组是对分割的数据进行新的组合 如图1 27所示 2 1数据仓库的体系结构 2 2数据仓库的特点 2 3数据仓库的数据组织 2 4数据仓库建设的两条技术路线 2 5操作数据存储ODS 2 6外部数据和非结构数据 DW DM 2 1数据仓库的体系结构 2 2数据仓库的特点 2 3数据仓库的数据组织 2 4数据仓库建设的两条技术路线 2 5操作数据存储ODS 2 6外部数据和非结构数据 DW DM 中国各地区的产量 福建 上海 宁夏 贵州 图1 28按照地理位置分割 1999 2000 2001 1999福建 34340 000条记录 30 000 000条记录 1999广东 1999山西 2000福建 2000广东 2000山西 2001福建 2001广东 2001山西 图1 29按照时间和地理位置分割 2 1数据仓库的体系结构 2 2数据仓库的特点 2 3数据仓库的数据组织 2 4数据仓库建设的两条技术路线 2 5操作数据存储ODS 2 6外部数据和非结构数据 DW DM 1995 2001 1995 1996 1997 1998 1999 2001 2000 分割 重构 1996 1997 1998 2000 2001 重组 图1 30重构和重组 2 1数据仓库的体系结构 2 2数据仓库的特点 2 3数据仓库的数据组织 2 4数据仓库建设的两条技术路线 2 5操作数据存储ODS 2 6外部数据和非结构数据 DW DM 四 数据仓库的数据组织形式 发展过程中出现 简单堆积文件数据由数据库中提取后逐天存储简单直接文件 对数据库进行快照 不一定按天 并存储 图1 31 定期综合文件数据存储单位被分成日 周 旬 月 季 年等多个级别 定期进行综合 图1 32 优点 存储量小 缺点 细节在综合中丢失 2 1数据仓库的体系结构 2 2数据仓库的特点 2 3数据仓库的数据组织 2 4数据仓库建设的两条技术路线 2 5操作数据存储ODS 2 6外部数据和非结构数据 DW DM 2001 1 1 2001 1 2 2001 1 3 2001 2 1 2001 2 2 2001 2 3 业务系统 数据库快照 图1 31简单堆积文件 2 1数据仓库的体系结构 2 2数据仓库的特点 2 3数据仓库的数据组织 2 4数据仓库建设的两条技术路线 2 5操作数据存储ODS 2 6外部数据和非结构数据 DW DM 2001 1 1 2001 1 2 2001 1 7 2001年第1周 2001年第2周 2001年第7周 2001年1月 2001年2月 2001年12月 2001年1季度 2001年2季度 2001年4季度 2001年 数据综合逐渐增加 图1 32定期综合文件 丢失细节换空间 2 1数据仓库的体系结构 2 2数据仓库的特点 2 3数据仓库的数据组织 2 4数据仓库建设的两条技术路线 2 5操作数据存储ODS 2 6外部数据和非结构数据 DW DM 连续文件连续文件保留了简单堆积和定期综合的优点 图1 34 1 35 1 36 在简单堆积文件中 每天的数据表中有很多雷同的信息 如图2 29所示的某商场2001 1和2001 2的两张采购表 其中 牙膏 和 毛巾 在两个表都出现了 牙膏在2001 1是从上海购买的 而2001 2是在北京购买 其他的信息都相同 如果能够记录两表之间不同的信息 则既能保留细节信息 又能大大减少数据量 图1 35中显示了对两张表使用连续文件的形式进行存储的结果 对于两个表中相同的表项 毛巾 只需在时间列上说明使用范围是 2001 1 2001 2 对于两表不同的表项分别记录 随着时间的推移 如果又有新的数据表加入 则我们可以使用连续文件和新的数据表进行类似的处理 以达到 两全其美 的目的 如图2 31所示 我们将2001年1月 2001年2月的连续文件和2001年3月的新文件进行综合 而后得到2001年1月 2001年3月的连续文件 但是 我们应当指出 连续文件增加的 时间 列也会为查询带来一定的不便 一个系统某些性能的提高 总是通过牺牲其他的性能来获得的 注意 连续文件的缺点是给查询带来不方便 2 1数据仓库的体系结构 2 2数据仓库的特点 2 3数据仓库的数据组织 2 4数据仓库建设的两条技术路线 2 5操作数据存储ODS 2 6外部数据和非结构数据 DW DM 2001 1月采购表 2001 2月采购表 图1 34某商场2001 1和2001 2的两张采购表 2 1数据仓库的体系结构 2 2数据仓库的特点 2 3数据仓库的数据组织 2 4数据仓库建设的两条技术路线 2 5操作数据存储ODS 2 6外部数据和非结构数据 DW DM 2001 1月采购表 2001 2月采购表 1 商品编号 商品名 购买地点 1 2 1 商品编号 商品名 购买地点 1 2 4 牙膏 毛巾 水杯 上海 广州 深圳 3 毛巾 牙膏 笔 北京 广州 杭州 6 裤子 宁波 2001 1 2001 2月采购表 商品编号 1 1 2 3 4 6 商品名 牙膏 牙膏 毛巾 笔 水杯 裤子 购买地点 上海 北京 广州 杭州 深圳 宁波 时间 2001 1 2001 2 2002 1 2001 2 2001 2 2001 1 2001 2 图1 35连续文件示例 2 1数据仓库的体系结构 2 2数据仓库的特点 2 3数据仓库的数据组织 2 4数据仓库建设的两条技术路线 2 5操作数据存储ODS 2 6外部数据和非结构数据 DW DM 2001 1 2001 2月采购表 商品编号 1 1 2 3 4 6 商品名 牙膏 牙膏 毛巾 笔 水杯 裤子 购买地点 上海 北京 广州 杭州 深圳 宁波 时间 2001 1 2001 2 2002 1 2001 2 2001 2 2001 1 2001 2 2001 3月采购表 1 商品编号 商品名 购买地点 1 2 3 毛巾 牙膏 笔 北京 广州 杭州 6 裤子 宁波 2001 1 2001 3月采购表 商品编号 1 1 2 3 4 6 商品名 牙膏 牙膏 毛巾 笔 水杯 裤子 购买地点 上海 北京 广州 杭州 深圳 宁波 时间 2001 1 2001 2 2001 3 2002 1 2001 3 2001 2 2001 3 2001 1 2001 2 2001 3 图1 36连续文件和新的数据表的结合 2 1数据仓库的体系结构 2 2数据仓库的特点 2 3数据仓库的数据组织 2 4数据仓库建设的两条技术路线 2 5操作数据存储ODS 2 6外部数据和非结构数据 DW DM 五 数据仓库的数据追加技术 数据组织结构数据组织形式 解决数据存储问题 数据仓库完成数据的初始加载后 还需要不断地增加新数据 数据追加技术 关键是捕获数据变化 把变化记录下来 时标法给 数据库 中的数据增加一个时间标记 当检索到新的时间标记时 把带有新时间标记的记录作为数据仓库的数据追加内容 如图1 37 在完成2001 1的数据导入工作后 2001 1 2日数据条目 2001 1 1 1 牙膏 上海 发生了变化 则将其时间标记改成2001 1 2 这样在执行2001 1 2的数据导入工作时 数据库将会检索到的具有新时间标记的条目 2001 1 2 1 牙膏 北京 作为数据追加的内容 问题 一般数据库不会增加时间标记 因为时间标记对于OLTP没有意义 2 1数据仓库的体系结构 2 2数据仓库的特点 2 3数据仓库的数据组织 2 4数据仓库建设的两条技术路线 2 5操作数据存储ODS 2 6外部数据和非结构数据 DW DM 比较时间标记 发现比2001 1 1更新的时间标记的记录 追加进数据仓库 时间标记 商品编号 商品名 购买地点 2001 1 1 2001 1 1 1 2 牙膏 毛巾 上海 上海 时间标记 2001 1 2 2001 1 1 商品编号 1 2 商品名 牙膏 毛巾 购买地点 北京 上海 2001 1 2 1 牙膏 北京 2001 1 1完成数据导入后 2001 1 2再次数据导入 图1 37时标法 2 1数据仓库的体系结构 2 2数据仓库的特点 2 3数据仓库的数据组织 2 4数据仓库建设的两条技术路线 2 5操作数据存储ODS 2 6外部数据和非结构数据 DW DM 前后映像比较法 对数据库进行快照 把当前快照和原来快照作比较 决定数据追加内容 图1 38 缺点 数据库数据量大时 全数据库比较无法做到 DELTA文件法从应用程序中记录修改了哪些数据 形成DELTA文件 作为数据追加内容 图1 39 很难使所有应用程序都支持DELTA文件功能 日志文件法由数据库服务器详细记录数据操作 形成数据库日志文件 通过分析数据库日志文件 获取数据变化情况 得到数据追加内容图1 40中我们示意了一段简化了的系统日志 它包含操作时间 操作人员 操作内容 操作结果 包括正确和错误 等基本信息 我们可以通过对数据追加任务完成后新生成的系统日志进行分析 得到追加内容 2 1数据仓库的体系结构 2 2数据仓库的特点 2 3数据仓库的数据组织 2 4数据仓库建设的两条技术路线 2 5操作数据存储ODS 2 6外部数据和非结构数据 DW DM 原先业务数据库 当前业务数据库 快照1 快照2 比较后追加 图1 38前后映像比较法 业务数据库 应用程序 DELTA文件 记录应用程序对业务数据成功的修改 对于修改操作 图1 39DELTA文件示意图 2 1数据仓库的体系结构 2 2数据仓库的特点 2 3数据仓库的数据组织 2 4数据仓库

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论