2012青大《数据仓库与数据挖掘》复习_第1页
2012青大《数据仓库与数据挖掘》复习_第2页
2012青大《数据仓库与数据挖掘》复习_第3页
2012青大《数据仓库与数据挖掘》复习_第4页
2012青大《数据仓库与数据挖掘》复习_第5页
已阅读5页,还剩7页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、2012 春数据仓库与数据挖掘复习提纲1、商务智能【参考:BI是一种解决方案,它的目的是把用户积累下来的、大量的数据转化为业务容易理解的信息,进而辅助决策。】2、Kimball对数据仓库的定义【参考DW仅仅是构成它的数据集市的联合。3、Inmon 对数据仓库的定义【参考:一个面向主题的、集成的、随时间变化的、非易逝的用于支持管理的决策过程的数据集合。】4、ETL【参考:数据的提取、转换和装载,预处理数据并装在DW中。】5、数据仓库总线矩阵【参考:该矩阵将公司业务过程映射到参与这些过程 的实体或对象。矩阵的每一行对应一个业务过程,每一列描述对象,它 们参与了各种业务过程。】6、事实【参考:对一些

2、事件发生结果的度量。】7、维度【参考:维度是维度模型的基础,用来描述业务的对象。】8、粒度【参考:事实表中包含信息的详尽程度。】9、维度模型【参考:由一个中心事实表(或者多个事实表)和与其相关的维度构成。事实表位于中心,而所有维度表环绕在其周围,类似于星形结构,因此又把维 度模型称为星形模式。】10、业务过程维度模型【参考:关于一个业务过程所有的维度模型的集合。】11、多维数据集(又称为数据立方体)由维度和一个或多个度量组构成的多维分析结构,用于 OLAP12、部署【参考:将多维数据集的定义发布到OLAP服务器上的过程。13、OLAP 联机分析处理采用多维数据结构和层次结构作为导航,探查 汇总

3、数据,辅助决策。14、代理键【参考:对于DW/BI系统,需要在数据仓库数据库中建立一 组与事务处理源系统中的键分离开来的全新的键,称这种键为代理键。】独立于业务键的用 于数据仓库中的从ETL中的人工键15、渐变维度【参考:属性值可以改变的维度。分为值的改变需要跟踪 和不需要跟踪两种。】16、聚合【参考:经过预先计算后形成的汇总表,主要目标是用来改进 查询性能。】17、星型模型【参考:由一个事实表和多个维度表构成的模型。事实表 与维度表是1 对多关系。事实表位于中心,而所有维度表环绕在其周围, 类似于星形结构。】18、雪花模型【参考:雪花模型是将维度表中的字段和查找表相连接而 得到的结果。】19

4、、事实星座模型 由多个星型模型或雪花模型通过共享维度形成的多 事实表多维度表的模型20、多维数据库【参考:采用多维数据组存储数据,主要应用于 OLAP服务器的数据存储结构。】21、SQL Server 2005的维度层次22、SQL Server 2005 的属性层次 SQL Server Analysis Service 默认为每个维度每个属性构成的单层结构23、数据挖掘【参考答案:从海量数据中提取有趣模式或知识(有趣是指:隐含的、非平凡的、事先未知的、潜在有用的)】24、数据挖掘的两大类通用功能【参考答案:描述型数据挖掘和预测型数据挖掘。前者用于刻画数据集的一般特征,后者对现有数据进行推演

5、 以用于新实例(某个属性的取值)的预测。】25、OLAM【参考答案:On-Line Analytical Mining,联机分析挖掘,将OLAP 与数据挖掘相互融合进行数据探查分析,是未来基于数据仓库的 数据分析的一种趋势】26、简单了解关联分析(又称为关联规则挖掘或购物篮分析)、分类、回 归、聚类分析的功能关联分析:发现交易数据库中不同商品(项)之间的联系分类:预测离散属性的取值回归:预测连续属性的取值聚类分析:将数据分类到不同的类或者簇27、数据仓库各环节工具(如ETL )的市场占有率最高的公司【参考:(1) OLAP市场 微软第一(2 ETL市场三大主流:Powerce nte(美国In

6、 formation 公司)一ETL 市场老大;DataStage( IBM 公司);ETL Automation (数据仓 库(引擎)老大美国Teradata公司)DI ( Data Integrator ( BO公司)28、数据库和数据仓库的区别【参考答案:(1)应用目的不同:数据库 主要用于构建联机事务处理(OLTP )系统,这种系统自己产生新数据,每次事务处理涉及的记 录数较少,通常为几条;而数据仓库主要用于构建分析型决策支持系统,这种系 统自己不产生新数据,所使用的数据来自于 OLTP 系统或其他数据源。(2)数 据的时间跨度不同:数据库通常存放较新的业务数据;而数据仓库中存放的是历

7、 史业务数据,其时间跨度为510年。(3)数据的业务范围不同:数据库系统通 常关注局部业务范围的事务处理;数据仓库通常要关注整个企业的全部业务。(4) 所采用的设计技术不同:数据库面向事务,采用三范式(3NF )建模;数据仓库 则面向主题,采用三范式(3NF )或维度模型建模。(5 )注重的技术不同:数据 库系统存在大量的数据查询和数据更新,需要重点考虑包括数据更新和并发控制 技术在内的各种数据处理技术,而数据仓库以数据查询为主,数据更新较少,所 以不需过多的考虑数据更新和并发控制,主要考虑数据查询性能的提升。】29、数据仓库的两大技术流派及主要差异。【参考:Inmoon和Kimball。(1

8、)数据仓库定义的差异:Bill Inmon将数据仓库定义为“一个面向主题的、集成的、随时间变 化的、非易逝的用于支持管理的决策过程的数据集合”。Ralph Kimball说“数据 仓库仅仅是构成它的数据集市的联合” 。(2)数据仓库构建方法之争:恩门的 Building the Data Warehouse”主张建立数据仓库时采用自上而下(DWDM )方 式,以第3范式进行数据仓库模型设计,而他生活上的好朋友Ralph Kimball在 The DataWarehouse Toolkit”则是主张自下而上(DMDW )的方式,力推数据 集市建设,以致他们的FANS吵闹得差点打了起来,直至恩门推

9、出新的BI架构 CIF ( Corporation in formation factory ),把 Kimball 的数据集市包括了进来才算平息。恩门认为星型模型只适用于数据集市(星型模型对于数据集市是十分理想的),而不适用于数据仓库。(3)对数据集市的理解差异:Inmon :面向部门 (Department )的小型数据仓库 BPR, Kimball :面向业务过程(Process) 的小型数据仓库 BPM。】30、Kimball 流派主张基于哪四个主要原则的迭代方法来构建数据仓库 体系【参考:( 1)从业务着手出发点;( 2)构建一个信息基础设施设计一个单一、集成、 易用、高效的信息基础

10、平台能够满足企业内部的各种需求;( 3)按时间周期增量交付根据业务价值进行优先级排序,每个时间周期对应时间轴上的 612个月;(4 )发布整个解决方案一一交付DW仅仅是个开始,还要交付即席查询、 报表、OLAP、DW等BI应用。】31、多对多维度(或多值维度)怎样表达?包括哪两类? 【参考答案: 多对多维度需要增加一个桥接表来表示。它包括维度表和事实表之间的多对多、维度表与维度 表之间的多对多两类。前者将桥接表与事实表相连,后者将其中的一个维度表与事实表相连。】32、如何使用2x2矩阵确定各业务过程所对应子项目的优先级。【参考:区 分优先级过程是规划会议,涉及DW/BI小组、DW/BI项目的业

11、务赞助商,以及 公司各部门的其他关键高层管理人员。在会议中,要描述在企业需求收集过程中 所标识的业务过程,以便每个人都能理解每个业务过程的可能性。参加这个会议 要准备PowerPoint演示,以便描述每个业务过程,要列举几个将支持的相关分 析的示例,以增加对这些分析的业务价值的感性认识,包括实现业务过程(可行 性)所需付出努力的级别。描述要尽可能明快、清晰。试着把演示时间控制在 2 个小时以内。当描述每个业务过程的时候,也就描述了提供必要数据所涉及的有 关努力。一旦每个人都理解了业务过程和术语,可以休息一会儿。会议的后半部 分包括区分业务过程的优先级。引导会议小组把每个棘手的业务过程注释放置到

12、两-两(two-by-two)网格上。】33、SQL SERVER 2005 的三个版本及区别 。【参考:标准版、企业版和开 发版。对多数 小型和中等规模的实现,标准版可能就足够了。如果按照不带索引的数据来度量, 数据卷为50GB或者更少,那么不需要使用企业版中的可伸缩特性即可实现。根 据增量加载的卷、频率和正常运行时间的需求,中等规模的、高达250GB数据 量的实现也可以运行在标准版上。对于任何大型的、实时的、或者其他具有挑战 性的实现,应该计划使用企业版。无论生产中采用哪个版本,开发人员都应该使 用开发版。除了选择标准版还是企业版外,还需要决定使用 32 位平台还是 64 位平台。】34、

13、SQL SERVER 2005 的主动缓存技术。【参考:对于低延迟的数据库 来说,主动缓存相当有意义它针对的是实时多维数据集(或者接近实时的多维数据集)。当用户 建立主动缓存时,要求 Analysis Services 监控针对度量组分区的关系源,并在 数据发生变化时自动执行增量处理。】35、事实表分哪三类?有什么区别?【参考:事务、周期快照及累积快 照。迄今为止提到的大多数事实表都属于事务类型。事务事实表跟踪发生在非连续时间点上的每 次事务。周期快照事实表捕获特定时间间隔的累积性能,并且对于跨越同一值链 中的几个业务过程组合数据相当有用。周期快照事实也跨越时间间隔聚合许多事 实,并且向用户提

14、供获得事实总数的快速方法。在特定的时间点获得快照的位置, 例如月末停业后,累积快照会随时间而经常更新。一般来说,累积快照的设计包 括几个日期字段,用来捕获当问题中的项经过值链中的每个业务过程或者里程碑 时的日期。累积快照提供了延期交付的订单在任意时间点上的状态,以及已完成 订单的历史纪录,通过详细检查历史记录以获得感兴趣的度量。】36、列出 BI 行业2007-2008年最大的三笔企业收购案和现在的四大主宰 公司。【参考:甲骨文公司(Oracle,下称甲骨文)收购了海波龙公司(Hyperion,下称海波龙),SAP公司买下了博奥杰软件公司(Bus in ess Objects,下称博奥杰),国

15、际商用机 器公司(IBM )则吞并了 Cog nos 公司。IBM、Oracle、SAP、Microsoft。】37、业务需求定义的主要步骤(1)初始项目作用域,定义业务范围(2)定义企业级业务需求(3)区分需求优先级(4)项目规划(5)定义项目业务需求38、企业级业务需求定义过程的主要步骤【参考:(1)准备;(2)采访业务人员和 IT人员;(3)采访摘要和分析主题;(4)数据审核/数据记录;(5)标识支持分析主题的业务过程;(6 )构建初始DW总线矩阵;(7 )创建全局需求文档。】39、典型的数据仓库/商务智能(DW/BI )系统三层体系结构。【参考:数 据获取层(ETL)数据存储层(ODS

16、和数据仓库)和数据展现层(随即 查询、报表、OLAP和数据挖掘)】40、OLAP 数据库数据的物理存储有 MOLAP 等三种可选模式,试简述事实数据和维度数据可以采取的存储模式以及每种模式中数据的存放位置。这三种模式中哪种最节 省存储空间?【参考:MOLAP :叶子数据和聚合存储为Analysis Services的MOLAP格式。HOLAP :叶子数据存储在关系数据库中,聚合存储为MOLAP 格式。ROLAP :叶子数据和聚合都存储在源关系数据库中。MOLAP最节省存 储空间。】41、维度建模的主要步骤及每个步骤的主要成果(或检查点)【参考:首先是高级维度模型设计会话/过程(session

17、),该会话定义业务过程维度模型的边界;然后是详细模型开发阶段,包括逐个表地填充属性列表、解决各 种问题和不确定性等;最后阶段是一系列模型评审、重新设计、确认步骤。高层维度模型设计的 3 个检查点是高级图形模型、初始属性列表和初始 问题列表。】42、简要描述建立 Analysis Services OLAP 数据库的步骤【。参考:(1) 建 立设计和开发环境(2) 创建数据源视图(3) 创建并调整维度(4) 运行多维数据集(或立方体 cube) 向导并编辑所生成的多维数据集 (5) 在开发服务器上部署数据库 (6) 创建计算(calculations )及其他修饰(7)重复以上步骤(Iterate, iterate, iterate)】43、请画出业务维度生命周期框图并标明每个环节上微软( Micr

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论