数据挖掘知识点_第1页
数据挖掘知识点_第2页
数据挖掘知识点_第3页
数据挖掘知识点_第4页
数据挖掘知识点_第5页
已阅读5页,还剩9页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

简答题(第一章)数据库与数据仓库的不同:数据库用于事物处理,数据仓库用于决策分析;数据库保持事物处理的当前状态,数据仓库既保存过去的数据也保存当前的数据;数据仓库的数据是大量数据库的集成;对数据库的操作比较明确,操作数量少。(第三章)广义OLAP功能如何提高多维数据分析能力:绝对模型(静态数据分析,通过比较历史数据值或行为来描述过去发生的事实)该模型查询比较简单,综合路径是预先定义好的,用户交互少;解释模型(属于静态数据分析,分析人员利用系统已有的多层次的综合路径层层细化(进行向下钻取操作),找出事实发生的原因);思考模型(属于动态数据分析,旨在说明在一维或多维上引入一组具体变量或参数后将会发生什么。)分析人员在引入确定的变量或公式关系时,须创建大量的综合路径;公式模型(它的动态分析能力更强,该模型表示在多个维上,需要引入那些变量或参数,以及引入后所产生的后果。)(第四章)概念模型的特点:能真实反映现实世界,能满足用户对数据的分析,达到决策支持的要求,它是现实世界的一个真实模型;易于理解,有利于和用户交换意见,在用户的参与下,能有效地完成数据仓库的成功设计;易于更改,当用户要求发生变化时,容易对概念模型进行修改和扩充;易于向数据仓库的数据模型转换。(第五章)数据仓库增长的原因:数据仓库收集历史数据;数据仓库包含满足未知需求的数据收集;数据仓库不仅有详细数据,还有占数据存储比例很大的汇总数据;数据仓库包括外部数据,用来支持多种可预测的数据挖掘任务其他题型:(第一章)数据仓库的定义与特点(选择或判断)数据仓库是面向主题的、集成的、稳定的、不同时间的数据集合,用于支持经营管理中决策制定过程。特点:是面向主题的,集成的,稳定的,是随时间变化的,数据仓库的数据量很大,数据仓库软硬件要求较高(需要一个巨大的硬件平台,需要一个并行的数据库系统)。(一章)OLAP与OLTP的区别:OLAP专门用于支持复杂的分析操作,侧重对分析员和高层管理人员的决策支持,(基本思想是从决策者的多方面多角度以多维的形式还观察企业的状态和了解企业的变化)OLTP(是事务处理从单机到网络环境的发展新阶段。主要应用于银行,航空,邮件订单,超级市场和制造业的输入数据和取回交易数据。)在于事务处理量大,应用要求多个并行处理,事务处理内容比较简单且重复率高。(第二章)数据仓库结构的了解(图):数据仓库是在原有关系型数据库基础上发展形成的但由于不同于数据库系统的组织形式,它从原有的大量业务数据中获得的数据,经过转换后形成当前基本数据层,它经综合后形成轻度综合数据层,轻度综合数据在经过综合形成高度综合数据层,数据仓库结构包括前基本数据,历史基本数据,轻度综合数据,高度综合数据和元数据当前基本数据是最近时期的业务数据,是数据仓库用户最感兴趣的部分,数据量大。当前基本数据随着时间的推移,由数据仓库的时间控制机制转为历史基本数据,一般被转存于介质中,如磁盘。轻度综合数据是从当前基本数据中提取出来的,设计这层数据结构时会遇到综合处理数据的时间段选取,综合数据包含哪些数据属性和内容等问题。最高一层是综合数据层,该层数据十分精炼,是一种准决策数据。粒度(选择或判断):(粒子度与综合)指数据仓库的数据单元中保存数据的细化活综合程度的级别,细化程度越详细,粒度级就越低。粒度大综合级别高,粒度小详细级别高。在低粒度级上,纪录详细。高粒度级只需要少得多的字节存放数据,且只需要较少的索引项。数据存储效率高。当提高数据力度时,数据所能回答查询的能力降低。且小粒度的数据可以回答任何问题,但高粒度数据回答的问题具有宏观性。

商希赭数据量差距粮大*例如,在慵粒度级(详细数据,上,每状电姑祁许绿之钦茶记录.您共需要10000个字节*在高粒度敬综含也#露3嚣驾馈#"要莪少的索引呢隹"数据七嚣:库**嵩丈#*霁野郭好财依霹IX岩"疝岬能力将会圈之降低•而秘限度的鹭?测■至寿综合娅八数据g产…*L一必*地项以回答的咐具有宏醐性。♦粒度•数据综合程度高低的一个度量•粒度越小,越细节,综合程度越低,回答查询种类越多,数据量大I性能低舞昏程度俺

闺春生前嘲亲多

谥倨噌我

粮锥偶粽金程表为

国参戋询辩圭步

瓠据唾小舞昏程度俺

闺春生前嘲亲多

谥倨噌我

粮锥偶粽金程表为

国参戋询辩圭步

瓠据唾小折打出的长金电j话平为次致?—KX淬的折打出的长金电j话平为次致?—KX淬的士职麦打电讶J糠&或第月1个记亲,20。个字节每A200今记豪,40D00个字惦当提高数据粒度级时,数据所能回答查询的能力就会随之降低。换句话说,在一个很低的粒度级上,实际可以回答任何问题,但在高粒度级上,数据所能处理的问题的数量是有限的。元数据(选择判断,综合分析):在数据仓库建设过程中产生的有关数据源定义、目标定义、转换规则等关键数据,是定义数据仓库对象的数据。包含的信息有:数据仓库的目录信息、数据从业务环境向数据仓库环境转换时的目录内容、指导从当前基本数据到轻度综合数据的算法选择、轻度综合数据到高度综合数据的综合算法的选择。(第三章)OLAP基本概念:变量:变量是数据的实际意义,即描述数据“是什么”。例如:销售量、销售额,……而具体数据(如“10000”)是变量的一个值维:维是人们观察数据的特定角度。如产品维、顾客维、时间维,地理位维等。维的层次:数据的细节不同程度为维的层次。特定角度的不同细节程度,通常称这描述的多个方面叫维的层次,一个微往往具有很多个层次,例如,描述时间维时,日期,季度,年,就是时间维的层次。城市,地区国家就地理维的层次。维成员:维的一个取值(称为该维的一个成员)或不同维层次的取值的集合(对多层次情况)•例如:时间维:三个层次,日、月、年维成员:1999年5月20日•可以在某些层次上不取值,如1999年5月;5月20日;1999年•维成员是数据在该维上的位置描述例如:1999年5月20日销售额表示销售额数据在时间维上的位置(相当于时间轴上的某一点或某一区间)多维数组:一个多维数组可以表示为:(维1,维2, ,维n,变量)一个4维的结构,即(产品,地区,时间,销售渠道,销售额)。数据单元(单元格):多维数组的取值。如:4维数据单元(牙膏,上海,1998年12月,批发,销售额为100000)多维数据分析的基本操作(判断选择)01入?的目的是为决策管理人员通过一种灵活的多维数据分析手段,提供辅助决策信息。基本的多维数据分析操作包括切片、切块、旋转、钻取等。(1)切片(slice)选定多维数组的一个二维子集的操作叫切片,即选定多维数组(维1,维2,…,维n,变量)中的两个维,设为维i和维j,在这两个维上取某一区间或任意维成员,而将其余的维都取定一个维成员,得到的就是多维数据在维i和维j上的一个二维子集,称为多维数据在维i和维j上的一个切片,表示为(维i,维j,变量)。切片就是在某两个维上取一定区间的维成员或全部成员,而在其余的维上选定一个维成员的操作。

分析动作之切片斗在村向尊入iljt*或I-1997JF1M-樗N峙间嬉上的切岸(询区,"1997^114"-> «<«;(2)切块切块有两种情况:♦在多维数组的某一个维上选定某一区间的维成员的操作。切块可以看成是在切片的基础上,确定某一个维成员的区间得到的片段,也即由多个切片叠合起来。♦选定多维数组的一个三维子集的操作。在多维数组(维1,维2,……,维n,变量)中,选定3个维,维i、维j、维k,在这3个维上分别取一个区间或任意维成员,而其它维都取定一个维成员。

(下面2图了解)♦切块,在给定数据立方体的两个或多个维上执行选择,定义子方的操作称为切块操作。,例;涉及三个^的切块.条件为:(地点=“南京”QR“北京M)AND{时间=(1Qr,0R"Q2H)AND(类型虾家庭娱乐”OR“计算机”)(3)钻取(drill)钻取有向下钻取(drilldown)和向上钻取(drillup)操作。向下钻取是使用户在多层数据中能通过导航信息而获得更多的细节性数据。向上钻取获取概括性的数据。(下面图了解)♦上卷通过一个雄的概念分层向上攀升或者通过维归约,在数据立方体上进行聚集,称为上卷操作,斜在地区维层次向上攀升.在中心数据立方体执行上卷操作.(这个分层被定义为全序:县〈城市〈州或省〈国家)•下钻下钻是上卷的逆操作,它由不太洋细的数据到更详细的数据.下钻可以通过沿维的概念分层向下或引入新的维来实现。例;沿着天〈月〈季〈年定义的时间维的概念分层向下’在中心数据立方体执行下钻操作的结果中

(4)旋转(pivot)通过旋转可以得到不同视角的数据。旋转操作相当于平面数据将坐标轴旋转。例如,旋转可能包含了交换行和列,或是把某一个行维移到列维中去;或是把页面显示中的一个维和页面外的维进行交换(令其成为新的行或列中的一个)改变一个页面显示的维方向的操作称为旋转(或转轴)。

索引位图索引非聚集索引rm位图索引非聚集索引rm_1_"I1 -wk聚集索引♦叶绡点是数据本身♦在毒引上码足唯•的,如果聚集索引不是唯-的索

引,系统坊添加在内部生成的值以使直复的箧唯txti♦叶结点包含

,•索引码•到ftistr

的林筑♦标识可以是•RID(File#,PageSlot#).哦的聚集It引码♦针对一些特殊的列建立索引♦列中的每一个值对应一个向剧中的一位♦向量的长度对应与记录的条数♦不适合列中值的个数太多的情况♦查询?SelectcustFromBaseTableWhereRegion=4Asia*andType='Dealer':BltMapforRegion(Asia):10100BitMapforType(Dealer):01101•查询结果:向量与操作:00100 位片索引(Bit-slicedIndex);♦位片索引是将属性列的域值按照某种方式进行垂宜分割,然后以一进制位图的形式存储SalesinbinaryfoiwSaie& inb)mQ,(onn Kbit4bir2bitlb)r投影索引(ProjectIndex) 。♦按“列,,为单位存储数据IM,MewMiuCUu iwt«ow (.Im*♦投影索引在存储数据的方式上与传统的IRDBMS寤全不同.它不是以”记录行”而是按计列为单位来存储数据,即所谓的"对数据进行垂直分割,♦--般的DSS查询往往仅涉及大魅数据记录中的少数列,因而不需访问原始数据就能快速获得查询结果。显然,利用这些不同取值也就能快速地进行数据聚集、分组、求最大值、最小仇及平均值等.数据分析模型分为四类:绝对模型(categoricalmodel)属于静态数据分析,通过比较历史数据值或行为来描述过去发生的事实。解释模型(exegeticalmodel)属于静态数据分析,利用系统已有的多层次的综合路径层层细化,找出事实发生的原因。思考模型(contemplativemodel)属于动态数据分析,说明在一维或多维上引入一组具体变量或参数后将会发生什么。公式模型(formulaicmodel)公式模型的动态数据分析能力很高,它表示在多个维上,需要引入哪些变量或参数,以及引入后所产生的结果。休眠数据:休眠数据是那些存在于数据仓库中当前不使用,将来也很少使用或不使用的数据。限数据仓库的数据量为口数据处理次数为m平均每次处理数据的字节数为M则一年中数据处理的总数据量为;nxd,在各次数据处理祯程中,可能会出现数据的重I复使用,我们用系数日表示为;'1:群宇逢旺逮硝雇籁冷u=.0>史果平赤沃藐簇涕韭-翼&、登9:野妃钱牡否僵福-眺贝mo曜a耘为:pI】=匚-廿:■=乃:■=冬*偷曝据脚仓库顿据的比例稼却樨婚R,用割耘为:氐二二j壬」随着时间的推移,数据倾向于两种状态之一,频繁被使用的活动数据(每个月2〜3次)和很少被使用的休眠数据(每年不到0.5次)(第六章)知识发现(KDD)是从数据中发现有用知识的整个过程。它是从大量数据中提取出可信的、新颖的、有用的并能被人理解的模式的高级处理过程。KDD过程可

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论