最新数据仓库复习提纲讲课稿_第1页
最新数据仓库复习提纲讲课稿_第2页
最新数据仓库复习提纲讲课稿_第3页
最新数据仓库复习提纲讲课稿_第4页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、学习资料数据库应用技术(数据仓库与数据挖掘复习提纲)说明:考试形式:闭卷考试题型:填空、选择、判断、名词解释、简答题、综合题。 (由于试题是随机从试题库中抽取,有可能抽取的试题中不会全部包含上述的所有题型)另外:本提纲仅针对试题中的名词解释、简答题和综合题提供复习参考,不包括填空、选择、判断等其它题型的参考。一、名词解释:1、 数据仓库:是面向主题的、综合的、不同时间的、稳定的数据的集合,用以支持经营管理中的决策制定过程;2、 数据挖掘:就是从大量数据中获取有效的、新颖的、潜在有用的、最终可以理解的模式的过程;简单的说是从大量数据中提取或挖掘知识,又被称为数据库中的知识发现。3、 操作数据存储

2、: 是一种 DW 的混合形式, 它面向主题的、 及时的、 最近的和集成的信息,用于支持企业的日常的全局应用和决策制定,其中数据可以作为DW 的通用数据源。4、 OLAP :是数据库系统主要应用,支持复杂的分析操作,侧重决策支持,且提供直观易懂的结果。5、 商业智能:是数据仓库(DW )、联机分析处理(OLAP )、数据挖掘等技术与资源管理系统 ERP 结合起来应用于商业活动实际过程中,实现了技术服务于决策的目的。二、简答题:1、 试叙述数据仓库系统与传统数据库系统的区别:( 1)、操作型数据库中的数据针对事务处理任务, 各个业务系统之间各自分离, 而数据仓库中的数据是按照一定的主题域进行组织的

3、;( 2)、操作型数据库通常与某些特定的应用相关,数据库之间相互独立, 并且往往是并构的,而数据仓库中的数据在对原有分期的数据库数据做抽取、清理的基础上经过系统的加工、汇总和整理得到的;( 3)、操作型数据库中的数据通常实时更新,数据根据需要及时发生变化, 数据仓库的数据主要用于决策分析, 对涉及的数据操作主要是数据查询和定期更细, 一旦某个数据加载到数据仓库以后,一般情况下将作为数据档案长期保存;( 4)、操作型数据库主要关心当前某一个时间段内的数据, 而数据仓库中的数据通常包含较久远的历史单位,因此总是包括一个时间维,以便可以研究趋势和变化。2、试叙述数据仓库设计的步骤及每一步完成的工作:

4、( 1)、概念模型:界定系统的边界;确定主要的主题域;( 2)、技术准备工作:技术评估;技术环境准备;( 3)、逻辑模型设计:分析主题域;粒度层次的划分;确定数据分割策略;关系模式定义;定义记录系统;( 4)、物理模型设计:确定数据存储结构;确定索引策略;确定数据存放位置;确定存储分配;( 5)、数据仓库生成:设计接口和数据装入;( 6)、数据仓库的使用和维护:建立DSS;不断理解需求和完善系统;维护DW ;精品文档学习资料3、 OLAP 与 OLTP 的区别有哪些?它们适合于运行在同一个服务器上吗?为什么?OLTPOLAP用户操作人员 ,低层管理人员决策人员 ,高级管理人员功能日常操作处理分

5、析决策DB 设计面向应用面向主题数据当前的 , 最新的细节的 ,历史的 , 聚集的 ,二维的分立的多维的集成的 , 统一的存取读 / 写数十条记录读上百万条记录工作单位简单的事务复杂的查询用户数上千个上百万个DB 大小100MB-GB100GB-TB时间要求具有实时性对时间的要求不严格主要应用数据库数据仓库4、为什么要进行数据的预处理及其方法:(适当举例即可)(1)、在现实社会中,存在着大量的“脏”数据1)、不完整性:缺少感兴趣的属性;感兴趣的属性缺少部分属性值;仅仅包含聚合数据,没有详细数据;2)、噪音数据:数据中包含错误的信息;存在着部分偏离期望值的孤立点;3)、不一致性数据结构的不一致性

6、;Label 的不一致性;数据值的不一致性;( 2)、数据挖掘的数据源可能是多个互相独立的数据源关系数据库;多维数据库( Data Cube);文件、文档数据库( 3)、数据转换为了数据挖掘的方便( 4)、海量数据的处理数据归约(在获得相同或者相似结果的前提下)数据预处理的方法:( 1)、数据清理填入缺失数据;平滑噪音数据;确认和去除孤立点;解决不一致性;( 2)、数据集成多个数据库、 Data Cube 和文件系统的集成;( 3)、数据转换规范化、聚集等;( 4)、数据归约在可能获得相同或相似结果的前提下,对数据的容量进行有效的缩减;( 5)、数据离散化对于一个特定的连续属性, 尤其是连续的

7、数字属性, 可以把属性值划分成若干区间, 以区间值来代替实际数据值,以减少属性值的个数。5、在现实世界的数据中, 元组在某些属性上缺少值是常有的。 描述处理该问题的各种方法。6、对于类特征化,基于数据立方体的实现与诸如面向属性归纳的关系实现之间的主要不同是什么?讨论哪种方法最有效,在什么条件下最有效。精品文档学习资料7、数据仓库和数据集市的区别是什么?数据仓库的体系环境具有什么特点?有哪些建立数据仓库体系化环境的方法?它们各有何优劣?8、 为了提高数据仓库的性能,可以在哪些方面作一些努力?在各个方面分别采用什么样的技术?这些技术易于实现吗?9、数据仓库中的数据是数据库中数据的简单堆积吗?它有哪

8、些常用的数据组织方式?(1)、简单堆积文件(2)、轮转综合文件(3)、简单直接文件(4)、连续文件10、一般来说, 数据仓库采用什么样的数据模型?与OLTP 的数据库模型相比,这些模型有什么特点?11、数据仓库的设计包括哪些内容?收集、 分析和确认业务分析需求,分析和理解主题和元数据, 事实及其量度,粒度和维度的选择与设计,数据仓库的物理存储方式的设计等。12、在内容和使用者方面,数据仓库环境中的元数据与操作型环境中的元数据有何异同?内容:( 1)、DW 的主题描述:主题名,公共码键,描述信息等;( 2)、外部数据和非结构化数据的描述:外部数据源名,存储地点,存储内容描述;( 3)、记录系统定

9、义:主题名,属性名,数据源系统,源表名,源属性名;( 4)、逻辑模型的定义:关系名,属性1, ,属性 n;( 5)、数据进入 DW 的转换规则;( 6)、数据的抽取历史;( 7)、粒度的定义;( 8)、数据分割的定义;( 9)、广义索引:广义索引名,属性1, ,属性 n;( 10)、有关存储路径和结构的描述。定义:元数据是关于数据的数据,它描述了数据的结构、内容、码、索引等项内容。功能:(1)、元数据为决策人员访问 DW 提供直接或辅助信息;(2)、元数据描述和管理从 DBS 到 DW 的数据转换;(3)、元数据要管理 DW 中的数据。13、什么是维、维层次、维成员?举例说明:维:观察数据的特

10、定角度,比如时间维;维层次:数据的维可以存在细节程度不同的多个描述方面,比如时间维可以由日期、月份、季度、年等不同的层次来描述;维成员: 维的一个取值称为该维的一个维成员。若一个维是多层次的,则该维的维成员是在不同维层次的取值的组合,比如2014 年夏季 6 月 22 日;14、 OLAP 提供哪些基本操作?( 1)、切片:选定二维数组的一个二维子集的动作;( 2)、切块:选定二维数组的一个三维子集的动作;( 3)、旋转:改变一个页面显示的维方向的操作;( 4)、上卷:通过一个维的概念分层向上攀升或者通过维归约,在数据立方体上进行聚集。( 5)、下钻:下钻是上卷的逆操作,它由不太详细的数据到更

11、详细的数据。下钻可以通过沿维的概念分层向下或引入新的维来实现。( 6)、查询多维数据库的星型网查询模型: 多维数据库查询也可以基于星型网模型。 星型网由从中点发出的射线组成,其中每一条射线代表一个维概念分层。精品文档学习资料15、 OLAP 服务器有哪些实现方法?它们的优劣是什么?(1)、关系 OLAP (ROLAP )服务器优势:没有大小限制;现有的关系数据库技术可以沿用;可以通过SQL 实现详细数据与概要数据的存储;现有数据库已经对OLAP做了很多优化,包括并行存储,并行查询,并行数据管理,基于成本的查询优化,位图索引、SQL 的 OLAP 扩展等大大提高了OLAP 的速度。缺点:一般比

12、MDD 相应的速度慢; 不支持有关预计算的读写操作;SQL 无法完成部分计算:无法完成多行的计算;无法完成维之间的计算。(2)、多维 OLAP (MOLAP )服务器优势:性能好,相应速度快;专为 OLAP 所设计支持高性能的决策支持计算,如:复杂的跨维的计算;多用户的读写操作;行级的计算。缺点: 增加系统复杂度, 增加系统培训及维护费用;受操作系统平台中文件大小的限制,难以达到 TB 级( 10-20G)需要进行预计算,可能导致数据爆炸;无法支持维的动态变化,缺乏数据模型和数据访问的标准。( 3)、混合 OLAP (HOLAP )服务器16、为什么不能依靠传统的业务处理系统决策分析?(1)、

13、所有联机事务处理强调的是密集的数据更新处理性能和系统的可靠性, 并不太关心数据查询的方便与快捷。( 2)、业务数据往往被存放于分散的衣钩环境中, 不易统一查询问题, 而且还有大量的历史数据处于脱机状态,形同虚设。( 3)、业务数据的数据库模式针对事务处理系统而设计, 数据的格式和描述方式并不太适合非计算机专业人员进行业务上的分析和统计。17、自然演化体系结构中存在的问题( 1)、 “蜘蛛网”问题;( 2)、数据缺乏可信性: a、数据无时机; b、数据算法上的差异; c、抽取的多层; d、外部数据问题;( 3)、生产问题:生产率低;( 4)、从信息到数据的转换不可行性:a、集成化问题; b、没有

14、足够的历史数据18、试述建立多维数据库的过程( 1)、选择主题域及其主题域的商业过程;( 2)、确定事实表的粒度;( 3)、区分每一个事实表的维层次;( 4)、区分事实表的度量;( 5)、确定每一个维表的属性;( 6)、让用户验证数据类型。19、数据挖掘的主要方法统计分析方法、决策树、人工神经网络、基因算法、粗糙集、联机分析处理技术20、数据挖掘中的数据分类是个两步过程,简述每步过程( 1)、学习:建立一个模型,描述预定的数据类集或概念集,该模型是通过分析由属性描述的 DB 元组而构造的。假定每个元组属于一个预定义的类,由类标号属性确定。为建立模型所使用的元组形成训练数据集。 其中的单个元组称

15、作训练样本, 并随机地由样本群选取。 由于提供了每个训练样本的类标号,该步也称作有指导的学习。( 2)、分类:首先评估模型(分类法)的预测准确率。保持方法是一种使用类标号样本测试集的简单方法。 这些样本随机选取, 并独立于训练样本。 模型在给定测试集上的准确率是正精品文档学习资料确被模型分类的测试样本的百分比。 对于每个测试样本, 将已知的类标号与该样本的学习模型类预测比较。21、 试述商业智能系统的演化过程( 1)、第一代:基于主机的查询与报表、面向专家早期的商务信息系统使用批处理应用程序为商业用户提供它们所需的信息。第一代的商务信息系统只能被诸如业务分析人员之类的熟悉数据且有相当计算机经验

16、的人员使用。管理人员很少能够使用这些早期的系统, 他们必须依靠信息提供者来解答他们的问题, 并给他们所需要的信息。( 2)、第二代 : 数据仓库第二代信息系统应用了数据仓库技术。从而使性能有了一个飞跃。( 3)、第三代:商业智能数据仓库仍然不能完全解决商业用户的需求问题。22、 ODS 与 DW 的区别:(1)、存放的数据内容不同(最大差别)ODS :当前或接近当前数据,细节数据,可联机更新DW : 历史数据,细节数据和综合数据,不可变快照( 2)、数据量是不同等级( 3)、技术支持不同ODS: 要支持面向记录的联机更新,又要保证数据与源数据库系统中数据的一致性,需要的技术支持同面向应用的 D

17、BS 的一样复杂。DW: 只需支持装入和存取。(4)、面向的需求不同ODS: 满足企业的全局应用(企业级OLTP 和即时 OLAP )或作为 DW 的通用数据源。DW :长期趋势分析或战略决策。(5)、用户不同ODS :企业的中层管理者。DW :DSS 分析员或企业高级决策者。23、 ODS 的作用( 1)、在 ODS 上可实现企业级的 OLTP( 2)、在 ODS 上可实现即时 OLAP( 3)、分层 ODS 体系24、 ODS 在 DB-ODS-DW 三层体系结构的作用( 1)、一方面,在原来独立的各个 DB 基础上建立了一个一致的、面向主题的数据环境,使原有的 DBS 得到改造。( 2)

18、、另一面, ODS 将 DW 和 DB 隔离开,使 DW 卸去数据集成,结构转换等一系列负担,使往 DW 的数据追加通过 ODS 进行从而变得异常简单, 大大简化了 DW 的数据传输接口及DW 管理数据的复杂度。(3)、由于数据已经过ODS 集成,并且是面向主题组织的,所以所作的变换仅限于数据模式上某些差异的转换,以及对码结构的改造。这样使得DW 与操作型环境的界面变得简单了。25、概念分层最常用的两种类型( 1)、概念分层:以 DB 模式中属性的全序或偏序来定义的概念分层称作模式分层。( 2)、集合分组分层:通过将给定维或属性的值离散化或分组来定义概念分层。精品文档学习资料26、试述维层次和

19、类的概念有什么不同1)维层次和类表达的意义不同维层次:是维所描述的变量的不同综合层次。类:某一子集维成员的共同特征。2)在层次和类上进行分析的动作不同按维层次关系分析从维低层到高层的数据综合分析;从维高层到低层的数据钻取分析。按维成员的类分析分类(选择类属性分类)归纳(归纳出类的共同特征)三、计算题1、 假设有如下的“雇员基本信息”表的结构及数据,其中属性“工资”为类别标识属性,属性“部门” 、“职位”、“年龄”作为决策属性集,其中属性“年龄”与“工资”以离散化,表中给出的是离散化后的数据,属性“工资”列中同时给出了相应元组的类别属性部门职位年龄工资销售部高级31 4041K 55K C2销售

20、部初级21 3026K 40K C3销售部初级31 4026K 40K C3系统部初级21 3041K 55K C2系统部高级31 4056K 70K C1系统部初级21 3041K 55K C2系统部高级41 5056K 70K C1市场部高级31 4041K 55K C2市场部初级31 4041K 55K C2秘书处高级41 5026K 40K C3秘书处初级21 3026K 40K C3根据示例中的类别标识属性的取值,将该示例分为3 类(即 m=3 ),分别是c1、c2、c3。训练样本数据集S 中,共有 11 个元组,其中c1、 c2、 c3 类所对应的子集R1、R2、R3中元组的个数分

21、别为r1=2 、 r2=5 、 r3=4 。计算得到集合S 的关于分类的期望信息量:对每一个决策属性计算其期望信息量(即熵值):对属性“部门”有:当部门 =销售部时:s11=0, s21=1, s31=2, I ( s11, s21, S31) =0.918;当部门 =系统部时:s12=2, s22=2, s32=0, I ( s12, s22, S32) =1 ;当部门 =市场部时: s13=0, s23=2, s33=0, I ( s13, s23, S33) =0 ;当部门 =秘书处时: s14=0, s24=0, s34=2, I ( s14, s24, S34) =0 ;由此得出属性

22、“部门”的熵值:精品文档学习资料因此属性“部门”的信息增益为:Gain(部门) =I ( r1,r2,r3) -E(部门) =0.881 ;同理,可以分别得到属性“职位”及“年龄”的信息增益:Gain(职位) =0.243;Gain(年龄) =0.326。由于属性“部门”具有最大的信息增益值,故而选择该属性作为决策树的根节点。对应每一个分枝,重复上述步骤,例如,对于分枝:属性部门 = “销售部”来说,可以生成下表给出的子集, 对该子集重复上述属性选择操作。 依次对其他分枝进行相同操作,可得到一个完整的决策树。之后就可以对该决策树进行剪枝操作了。部门职位年龄工资销售部高级31 4041K 55K

23、 C2销售部初级21 3026K 40K C3销售部初级31 4026K 40K C3决策树:通过简单贝叶斯分类对未知数据进行分类:P(C1)=2/11=0.1818P(C2)=5/11=0.4545P(C3)=4/11=0.3636P(部门 = 系统部 |C1 ) =2/2=1P(部门 = 系统部 |C2 ) =2/5=0.4P(部门 = 系统部 |C3 ) =0/4=0P(职位 = 高级 |C1 )=2/2=1P(职位 = 高级 |C2 )=2/5=0.4P(职位 = 高级 |C3 )=1/4=0.25P(年龄 = 21 30 |C 1) =0P(年龄 = 21 30 |C2 ) =2/5

24、=0.4P(年龄 = 21 30 |C3 ) =2/4=0.5有上述结果可导出P(X|C1 )=0P(X|C2 )=0.4× 0.4× 0.4=0.064P(X|C3 )=0P(X|C1 )P( C1) =0精品文档学习资料P(X|C2 )P( C2) =0.064× 0.4545=0.029P(X|C1 )P( C3) =0简单贝叶斯分类方法的预测结果是该未知训练样本数据有可能属于C2 类,该结果表示对于年龄在21 30 岁之间,所属部门是系统部同时其职位属于高级的员工的工资水平最有可能在41K 55K 之间。2、 假设现有如下所示的一个事务数据库,数据库中有1

25、0 个事务,即 |D|=10 。假定这些事务中的项按顺序存放。最小支持度minsup=20% ,最小置信度阈值minconf=65% ,求出强关联规则。TID项列表T11,2,5T21,2T32,4T41,2,4T51,3T61,2,3,5T71,2,3T82,5T92,3,4T103,4利用 Apriori 算法产生频繁项集的过程如下:(1)由 I=1,2,3,4,5 的所有项目直接产生 1-候选项集 C1,计算其支持度。 去除支持度小于 supmin 的项集,形成 1-频繁集 L1,如下表所示:项集 C1支持度项集 L1支持度16/1016/1028/1028/1035/1035/1044/1044/1053/1053/10(2) 为发现频繁2-项集 L2,首先利用L1 中的各项目组

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论