




已阅读5页,还剩34页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据仓库基础知识 数据仓库基本概念 1 1从传统数据库到数据仓库1 2数据仓库定义及基本特性1 3数据仓库与决策支持系统1 4数据仓库体系结构1 5数据仓库相关概念 1 1从传统数据库到数据仓库 随着市场竞争的加剧 信息系统的用户已经不满足于仅仅用计算机去处理每天所发生的事务数据 而是需要信息 能够支持决策的信息 去帮助管理决策 这就需要一种能够将日常业务处理中所收集到的各种数据转变为具有商业价值信息的技术 传统数据库系统无法承担这一责任 因为传统数据库的处理方式和决策分析中的数据需求不相称 这些不相称性主要表现在决策处理中的系统响应问题 决策数据需求的问题和决策数据操作的问题 1 1从传统数据库到数据仓库 续 传统的事务处理环境不适宜于决策支持应用事务处理和分析处理的性能特性不同数据集成问题数据动态集成问题历史数据问题数据的综合问题操作型环境和分析型环境的分离 数据抽取 现实生活中面临的问题 人们在日常生活中经常会遇到这样的情况 超市的经营者希望将经常被同时购买的商品放在一起 以增加销售 保险公司想知道购买保险的客户一般具有哪些特征 医学研究人员希望从已有的成千上万份病历中找出患某种疾病的病人的共同特征 从而为治愈这种疾病提供一些帮助 企业面临的问题 经过多年的计算机应用和市场积累 许多企业保存了大量原始数据和各种业务数据 它是企业生产经营活动的真实记录由于缺乏集中存储和管理 这些数据不能为本企业加以利用 不能进行有效的统计 分析及评估 无法将这些数据转换成企业有用的信息 数据爆炸问题 自动的数据收集工具和成熟的数据库技术导致巨大的数据存储在文件系统 数据库和其它的信息库中 我们会淹死在数据中 但却为信息 知识所饿 面临的挑战 如何在堆积如山的企业交易数据中发现具有商业价值的闪光点 如何使您的企业或组织在激烈的市场竞争中保持对客户的吸引力 如何预先发现和避免企业运作过程中不易察觉的商业风险 数据仓库应运而生 数据仓库的出现和发展是数据库和OLTP技术发展 数据库应用深化的产物 目的是把数据库中的大量数据转化为有用信息 为企业更好地进行决策服务 讨论话题一 数据仓库产生的源动力是什么 数据仓库系统是数据驱动还是需求驱动的 我们花了20多年的时间将数据放入数据库 如今是该将它们拿出来的时候了 著名的数据仓库专家RalphKimball 市场需求是技术发展的源动力 1 2数据仓库定义及基本特性 1 2 1数据仓库定义1 2 2数据仓库基本特性 1 2 1数据仓库定义 数据仓库 DataWarehouse 是一个面向主题的 SubjectOriented 集成的 Integrate 相对稳定的 Non Volatile 反映历史变化 TimeVariant 的数据集合 用于支持管理决策 1 2数据仓库定义 数据仓库是在企业管理和决策中面向主题的 集成的 与时间相关的 不可修改的数据集合 数据仓库之父 BillInmon 1 2数据仓库基本特性 面向主题性数据集成性数据的时变性数据的非易失性 面向主题性 面向主题性表示了数据仓库中数据组织的基本原则 数据仓库中的所有数据都是围绕着某一主题组织的 确定主题以后 需要确定主题应该包含的数据 不同的主题之间可能会出现相互重叠的信息 主题在数据仓库中可以用多维数据库方式进行存储 主题的划分中 必须保证每一个主题的独立性 数据集成性 根据决策分析的要求 将分散于各处的源数据进行抽取 筛选 清理 综合等工作 最终集成到数据仓库中 数据的时变性 数据应该随着时间的推移而发生变化 不断地生成主题的新快照 存量数据 T1时点增量数据 Tn时点增量数据 数据仓库 抽取转换清洗加载 初始主题数据 T1时点主题数据 Tn时点主题数据 数据的非易失性 数据的相对稳定性 数据仓库中的数据只进行刷新 从不进行更新处理 反映历史变化 存量数据 T1时点增量数据 Tn时点增量数据 数据仓库 抽取转换清洗加载 初始主题数据 T1时点主题数据 Tn时点主题数据 时间戳锁定数据 讨论话题二 数据库和数据仓库有什么不同 数据库与数据仓库的对比 1 3数据仓库与决策支持系统 决策支持系统的发展阶段初始阶段 DSS阶段 与专家系统结合阶段 IDSS阶段 基于数据仓库技术阶段 BI阶段 基于数据仓库的决策支持系统 DSS的先天不足 DSS的先天不足决策所需信息不足 难以满足决策支持系统的需要 模型库提供的分析能力有限人机接口部件占整个DSS开发工作量的一半 成为DSS实施中的一个瓶颈 基于数据仓库的DSS 基于数据仓库的DSS数据仓库为DSS的发展开辟了新途径目前DSS的开发模式 BI解决方案 以数据仓库技术为基础以联机分析 数据挖掘工具为手段 1 4数据仓库体系结构 数据仓库管理环境 业务数据系统 市场调查信息 数据源 外部数据 专家经验数据 1 4 1数据仓库的概念结构 从数据仓库的概念结构看 应该包含 数据源 数据准备区 数据仓库数据库 数据集市 知识挖掘库以及各种管理工具和应用工具 数据集市 知识挖掘库 1 4 2虚拟数据仓库结构 虚拟数据仓库利用描述了业务系统中数据位置和抽取数据算法的元数据直接从业务系统中抽取查询的数据进行概括 聚合操作后 将最终结果提供给用户 1 4 3数据集市结构 数据集市结构或称为主题结构的数据仓库是按照主题进行构思所形成的数据仓库 没有一个独立的数据仓库 系统的数据不存储在同一数据仓库中 每个主题有自己的物理存储区 1 4 4单一数据仓库结构 将所有的主题都集中到一个大型数据库中的体系结构 数据源中数据被按照同一标准抽取到独立的数据仓库中 用户在使用时再根据主题将数据仓库中的数据发布到数据集市中 1 4 5分布式数据仓库结构 在企业各个分公司具有相当大的独立性时 企业总部设置一个全局数据仓库 各个分公司设置各自的局部数据仓库 局部数据仓库主要存储各自的未经转换的细节数据 全局数据仓库中主要存储经过转换的综合数据 站点A站点B总部站点C站点D站点C站点D 全局数据仓库 局部数据仓库 局部数据仓库 局部数据仓库 局部数据仓库 讨论话题三 数据仓库 数据集市 分析主题的关系是什么 在数据集市间如何保证数据的一致性 1 5数据仓库相关概念 BI 商务智能 ETL 抽取 转换 加载 METADATA 元数据 DATAMART 数据集市 SUBJECT 主题 DIMENSION 维度 商务智能 简单定义综合企业所有沉淀下来的信息 用科学的分析方法 为企业领导提供科学决策信息的过程 完整定义基于数据仓库技术的决策支持系统 DSS 它以数据仓库 DW 技术为基础 通过抽取 转换和清洗将分散在企业各处的数据整合在一起 转化为信息 进而以联机分析处理 OLAP 工具 数据挖掘 DM 工具 报表工具为手段将信息提升为知识 最后运用可视化技术以快捷直观的方式将探察分析结果呈现给最终用户 为管理决策层提供量化依据的过程 ETL 抽取 转换 加载 ETL 数据抽取 Extract 转换Transform 清洗 Cleansing 装载 Load 的过程 是构建数据仓库的重要一环 用户从数据源抽取出所需的数据 经过数据清洗 最终按照预先定义好的数据仓库模型 将数据加载到数据仓库中去 元数据 元数据 MetaData 关于数据仓库的数据 指在数据仓库建设过程中所产生的有关数据源定义 目标定义 转换规则等相关的关键数据 同时元数据还包含关于数据含义的商业信息 所有这些信息都应当妥善保存 并很好地管理 为数据仓库的发展和使用提供方便 数据集市 数据集市 Datamart 即 小数据仓库 如果说数据仓库是建立在企业级的数据模型之上的话 那么数据集市就是企业级数据仓库的一个子集 他主要面向部门级业务 并且只是面向某个特定的主题 数据集市可以在一定程度上缓解访问数据仓库的瓶颈 主题 主题 SUBJECT 是一个在较高层次将
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 有关安全的施工规范
- 静脉血气操作技巧
- 学校危房加固方案范本
- 临泽硅pu跑道施工方案
- 宁夏葡萄酒与防沙治沙职业技术学院《医学显微形态学(一)》2023-2024学年第一学期期末试卷
- 重庆资源与环境保护职业学院《电脑辅助设计一(AutoCAD)》2023-2024学年第二学期期末试卷
- 新疆轻工职业技术学院《临床医学概要2》2023-2024学年第二学期期末试卷
- 山西卫生健康职业学院《网球》2023-2024学年第二学期期末试卷
- 《全球文化交流盛宴》课件
- 四川师范大学《医学科研方法入门及设计》2023-2024学年第二学期期末试卷
- 骆驼祥子考点单选题100道及答案解析
- 新教科版小学1-6年级科学需做实验目录
- 技术开发部个人技能矩阵图
- 住院患者探视登记表
- 废气处理工程施工方案模板
- 境外所得个税新政解析PPT课件
- 工程网络计划技术概述
- 《不定期船营运管理模拟系统》实验指导书
- 华上集团基本法讲述
- s参数定义、矢量网络分析仪基础知识和s参数测量义讲
- 重症培训重症监测的基本原则和方法
评论
0/150
提交评论