上海海洋大学数据仓库复习内容_第1页
上海海洋大学数据仓库复习内容_第2页
上海海洋大学数据仓库复习内容_第3页
上海海洋大学数据仓库复习内容_第4页
免费预览已结束,剩余1页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、数据仓库与数据挖掘复习容4 .说明OLTP概念和OLAO既念答:OLTP(On Line Transaction Processing,联机事物处理)是在网络环境下的事务处理工作以快速的响应和频繁的数据修改为特征,使用户利用数据库能够快速地处理具体的业 务。OLAP (On Line Analytical Processing )联机分析处理,是使用多维数据库和多维分 析的方法,对多个关系数据库共同进行大量的综合计算来得到结果的方法。6 .说明OLTP与OLAP的主要区别。答:OLTP针对的是细节性数据、当前数据、经常更新、一次性处理的数据量小、对响应时间要求高且面向应用,事务驱动;OLAP针

2、对的是综合性数据、历史数据、不更新,但周期性刷新、一次处理的数据量大、响应时间合理且面向分析,分析驱动。9 .元数据与数据字典的关系什么答:在数据仓库中引入了 “元数据”的概念,它不仅仅是数据仓库的字典,而且还是数据仓 库本身信息的数据。15 .数据挖掘与OLAPW"什么不同答:OLAP是在带层次的维度和跨维度进行多维数据分析的。数据挖掘则不同,它是以变量 和记录为基础进行分析的。第二章16 说明数据集市与数据仓库的区别与联系。答:联系:数据集市是一种更小,更集中的数据仓库,为公司提供了一条分析商业数据的廉价途径。数据集市是指具有特定应用的数据仓库,主要针对某个具有战略意义的应用或者

3、具体部门级的应用支持用户利用已有的数据获得重要的竞争优势或者找到进入新市场的具体解决方案。(1)数据仓库是基于整个企业的数据模型建立的,它面向企业围的主题。而数据集市是 按照某一 特定部门的数据模型建立的。(2)部门的主题与企业的主题之间可能存在关联,也可能不存在关联。(3)数据集市的数据组织一般采用星型模型。,从属型数据集市从企业级数据仓库获取数* 一 tNiJl". 一4:"(4)画出数据集市的两种结构图,说明它们白不同点.独立型数据集市直接从操作型环境获取数据 据,带有从属型数据集市的体系结构。17.简单说明ETL过程的主要步骤.ETL过程的主要步骤概括为:(1)决定

4、数据仓库中需要的所有的目标数据(2)决定所有的数据源,包括部和外部的数据源(3)准备从源数据到目标数据的数据映射关系(4)建立全面的数据抽取规则(5)决定数据转换和清洗规则(6)为综合表制定计划(7)组织数据缓冲区域和检测工具(8)为所有的数据装载编写规程(9)维度表的抽取、转换和装载(10)事实表的抽取、转换和装载22.说明数据库中的元数据以及数据仓库中元数据的不同。答:关于数据源的元数据是现有业务系统的数据源的描述信息,是对不同平台上的数据源的物理结构和含义的描述。具体为:(1)数据源中所有物理数据结构,包括所有的数据项及数据类型。(2)所有数据项的业务定义。(3)每个数据项更新的频率以及

5、由谁或哪个过程更改过。(4)每个数据项的有效值。(5)其他系统中具有相同业务含义的数据项的清单。p24数据仓库的四种数据模型。答:星形模型。大多数数据仓库都采用星型模型,是事实表(大表)以及多个维表(小表)所组成。事实表存放着大量关于企业事实数据(数字实际值),对象(元组)个数通常都很大,而且非规化程度很高。事实表有大量的行(元组),维表相对来说有较少的行。优点:存取速度快,主要针对各个维做了大量处理,做报表时速度很快。与规化关系数据库相比,以增加存储空间为代价, 提高了多维数据的查询速度,而规化的关系数据库设计是使数据的冗余保持在最少并减少当数据改变时系统必须执行的动作。缺点:当业务问题发生

6、变化,原来的维不能满足要求时需要增加新的维,维的变化非常 复杂耗时,数据冗余量很大。雪花模型。对星型模型的维表进一步的层次化,原来的各维表可能被扩展为小的事实表,形成一些局部的“层次”区域,优点是最大限度地减少数据存储量,以及把较小的维表联合 在一起来改善查询信息。 缺点:增加了用户必须处理的表的数量,增加了某些查询的复杂性。星网模型。多个相关的星型模型通过相同的维表连接起来形成网状结构,各个事实共享 的维表是时间维。第三式。3NF解决数据冗余,数据被分割为多个实体,实体在数据库中用表来表示,使 用3NF会形成比较复杂的关系表,但适合于操作型处理。星型模型的设计模式适用于决策分析应用。第三章3

7、.2节OLAP勺三种数据模型及其比较 ;答:MOLA啜据模型:MOLA瞰据模型是基于多维数据库的OLAP简称多维 OLARROLA嗷据模型:ROLAPb基于关系数据库的 OLAR简称关系OLAR HOLAR 即?!合 OLAP介于 MOLA侪口 ROLAP1 间。MOLAP与RALAP的上乜粗技以弗&MOLAP1, 1+但娄拒忖关芹衷.今借点 就擢色序中;2,力伸汇总依 务锤存在多域戮张中:即从 就把令中中询问炉做世博,A 多能被据房中西问汇寻救将1台RUL4。寸 装全j建:三以 之足 主蚊如主治如:电31寿 的也陈列中,后不足我将中; 4可以港或畦云林蛾耳:5的 用标一面将事技未会昔

8、这正总的1 %鸿响立虫比奥;耗我校也 班里H奇炳:2瘠广迂站 %干息极,多通"的香他能力RDLAP1全部靛把& %美.于寻信在叙 样色中;?邛筑穹短节科玮 0.二hJVT,士:m芭士始效推冬4 ; 4从数搪金庄中间 "F十三里士上士1 '灵期灵亲ML乩宓将士盛中盛 翼七据:2RCLAP*在分码中 包渡代把才方球;一无手法能 在吊篝停髭观咫tA夏岳川产班农一声思院理.温央总司批 七的。L*P12 心下也病能.才勒.但圆冷拜的T砧自比M S蹄.在HOLAP的多维数据库中的数据维度少于MOLAP中的维度库,数据储存容量也少于MOLA昉式。(1是,HOLA中数据存取

9、速度上又低于 MOLAP第四章数据仓库概念模型将需求分析过程中得到的用户抽象为计算机表示的信息结构。它是从客观世界(用户)到计算机世界的一个中间层次,即用户需求的数据模型。常用 E-R图 特点:1、能真实反映现实世界,能满足用户对数据的分析,达到决策支持的要求,它是现实世界 的一个真实模型。2、易于理解,有利于和用户交换意见,在用户的参与下,能有效地完成对数据仓库的成功 设计。3、易于更改,当用户需求发生变化时,容易对概念模型进行修改和扩充。4、易于向数据仓库的数据模型(星型模型)转换。逻辑模型设计把概念模型设计好的 E-R图转换成计算机所支持的数据模型。主要工作为:1、主要域进行概念模型(E

10、-R图)到逻辑模型(星型模型)的转换;2、颗粒层次划分;3、关系模式定义;4、定义记录系统;物理模型设计为了逻辑模型设计的数据模型确定一个最合适应用要求的物理结构(包括存储结构和存取方法)。数据存储的数据模型。工作主要是:1、估计存储容量;2、确定数据的存储结构;3、确定索引;4、确定数据存放位置;5、确定存储分配;时间维度概念:以时间作为描述、表达变量的度量尺度。是在分析经济变量时加上时间要素 的角度而形成的。对于经济变量的考察, 凡能用时间单位来表达的,就必须在分析中加上时间这一维度,才能使经济变量准确的表达出来。 可以用来表示经济变量中存量和流量的区别。 存量是在某一时点测定的,其大小没

11、有时间维度, 而流量则必须用时间单位宋表示 (年、月、日,小时、分、秒等),即时间维度。不说明时间单位,流量的计量便没有意义。数据粒度概念:数据仓库的数据中保存数据的细化程度或综合程度的级别。细化程度越高,粒度级别就越小;相反, 细化程度越低,粒度级别就越高。影响存放在数据库中的数据量大小和所能回答的查询类型。注意雪花模型和综合事实表的区别!(8990、4.11和4.12 )雪花模型:减少各维度的记录数,使查询过程中搜索记录数目减少。 综合事实表:是由基础事实表衍生出来的。特别地看一下上次做过的数据仓库的实验及其实验文档,涉及到实验的具体步骤和容.第八章数据掘,看关联规则数据挖掘的算法思想,分

12、析课本上P177的例子,要看它的分析步骤和处理办法,特别是如何画对应的图8.4;1 基本概念:关联规则挖掘是发现大量数据库中项集之间的关联关系。关联规则模式属于描述型模式,发现关联规则的算法属于无监督学习的方法。 原理:(1) 关联规则是形如 Z B的蕴涵式,这里 AcI,BcI,且AA Bw ?。(2) 规则的支持度:规则A- B在数据库D中具有支持度S,表示S是D中事务同时包含AB的百分比,它是概率P(AB),即:S(A-B)=P(AB)=|AB|/|A|,其中|D|表示事务数据库 D的个数,|AB|表示A、B两个项集同时发生的事务个数。(3) 规则的可信度,规则A- B具有可信度C,表示

13、C是包含A项集的同时也包含B项集,相对于包含 A项集的百分比,这是条件概率P(B|A),即C g B)=P(B|A)=|AB|/|A|,A表示数据库中包含项集A的事务个数。(4) 阈值:为了在事务数据库中找出有用的关联规则,需要由用户确定两个阈值:最小支持度(min_sup)和最小可信度(min_conf ).(5) 项的集合称为项集,包含k个项的项集称之为 K-项集。若项集满足最小支持度,则它称为 频繁项集。(6) 关联规则:同时满足最小支持度和最小可信度的规则称为关联规则,即S(A-B)>min_sup,且C (A- B) >min_conf成立时,规则 A- B称为关联规则,

14、 也可以称为强关联规则。(7) 兴趣度(不小于 0) : I g B) =P(AB)/P(A)P(B),反映了项集 A与项集B的相关程度,若I (A-B) =1,即P(AB)=P(A)P(B),表示项集A出现和项集是 相互独立的。若I (A- B) V 1,表示A出现和B出现是负相关。若I (A-B) >1,表示A出现和B出现是正相关,意味着A的出现蕴含B出现。算法基本思想:找到所有支持度大于最小支持度的项集,这些项集称为频繁项集。使用一种称作逐层搜索的迭代方法,“ K-项集”用于搜索“ K+1-”项集,直到不能找到“K-项集”为止,找每个Lk需要一次数据库扫描。性质:频繁项集的所有非空

15、子集都必须也是频繁的。设K-项集Lk, K+1-项集Lk=i,产生Lk=i的候选集。+1.有公式:Q+i=Lk*Lk=XU Y,其中X,YC Lk,|XY|=K+1,其中C1是1-项集的集合,取自所有事 务中的单项元素。如 L1=A,B,C2=A U B=A,B,且|AB|=2 , L2=A,B,A,C, C3=A,B UA,C=A,B,C,且|ABC|=3.【2】Apriori算法中候选集与频繁项集产生实例对表8.6所示的事物数据库,Apriori算法步骤如下:表8.6事物,事物的巩目集事物1口事物的厘口提T1A,瓦FT6T2氏口T7A. CT3氏GTBAk 氏 G ET4A,乩DT9A,

16、B CTD1、 在算法的第一次迭代,每个项都是候选1-项集的集合C1的成员。算法扫描所有的事务,对每个项的出现次数计数,图 8.4中第一列。2、 假定最小事务支持计数为2 (即min-sup=2/9=22% )。可以确定频繁 1-项集的集合L1.它由具有最小支持度的候选1-项集组成,见图8.4第二列。3、 为发现频繁2-项集的集合L2,算法使用L1*L1 ,来产生候选集 C2,见图第3列。4、 扫描D中事务,计算C2中每个候选集的支持度计数,如图 8.4第4歹U。5、 确定频繁2-项集的集合L2,它由具有最小支持度的 C2中候选2-项集组成,见图第5歹U。6、 候选3-项集C3产生,仍按3步骤

17、进行。得到候选集。C3=A,B,C,A,B,E,A,C,E,B,C,D,B,C,E,B,D,E按Apriori性质,频繁项集的所有子集必须是频繁的。由于A,D,C,D.C,E,D,E不是频繁项集,故 C3后4个候选不可能是频繁的,在C3中删除它们,见图第6歹U。扫描D中事务,对C3中的候选集计数支持度计数,图第 7列。7、 确定L3,它由具有最小支持度的C3中候选3-项集组成,见图第 8歹U。8、 按公式产生候选 4-项集的集合C4,产生结果A,B,C,E,这个项集被剪去,因为它的子集B,C,E不是频繁白勺。这样 L4W?,此算法终止。L3是最大 的频繁项集,即A,B,C和A,B,E.图8.4

18、候选集与频繁项集的产生L1型触1-顶施du*.生匚21候选型项K计羽比校项尾计酰产生0及品".也克持府1十射AGA6小A. B4一7C-冉川4金Cga,D乩口1口A. F色.E2工H2B, CE, C4B. DE. 口3B.E& E2CDL 1C. ELD, ELL 111K何绢:1.:吊一 丁限,ttftt卿施网具计排k川田 Ittt儿B4产生瓦匚JL.艮 UZL £ C2f4九E J2工4. E2C3三打康E,C4民口2HE2【3】课本P184习题八:18, 25 题(Apriori性质)18、数据库有4个事务,设最小支持度为50%使用Apriori 、算法找出所有数据频繁项目T1D项T1D项T1乐C, DT芯kr b, C, ET2& 3 FT4E.E,学定也.Tl V *特rt 3勾2 Min皿一打4一0,C1假地热人支疗度W + B支持度事匚支用庇露口支料展3 E支冲度3 II不是胤聚T&# 【11小作fl -i:2 . H&秸后3,。定井碓3

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论