数据挖掘概念与技术(第三版)课后答案-第四章_第1页
数据挖掘概念与技术(第三版)课后答案-第四章_第2页
数据挖掘概念与技术(第三版)课后答案-第四章_第3页
数据挖掘概念与技术(第三版)课后答案-第四章_第4页
数据挖掘概念与技术(第三版)课后答案-第四章_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、数据挖掘概念与技术(第三版)课后答案第四章=需要原版答案请留!=4.1 试述多个异构信息源的集成,为什么许多公司更喜欢更新驱动的法(构造和使数据仓库),不是查询驱动的法(适包装器和集成器)。 描述查询驱动的法更新驱动的法更可取的情况。对于决策查询和经常问到的查询,更新驱动的法更为可取。这是因为昂贵的数据集成和聚合计算是在查询处理时间之前完成的。为了将在多个异构数据库中收集的数据于决策过程,必须分析和解决多个数据库之间的任何语义异构问题,以便可以对数据进集成和汇总。如果采查询驱动的法,这些查询将被转换为每个数据库的多个(通常是复杂的)查询。转换后的查询将与本地站点的活动竞争资源,从降低其性能。此

2、外,这些查询将成个复杂的答案集,这将需要进步的过滤和集成。因此,查询驱动的法通常是效且昂贵的。数据仓库中使的更新驱动法更快,更效,因为多数查询可以在线进。对于很少使的查询,参考最新数据和/或不需要聚合的查询,与更新驱动法相,查询驱动法更为可取。在这种情况下,如果仅使少量和/或相对较的数据库,则组织为建和维护数据仓库付出的沉重费可能是不合理的。如果查询依赖于当前数据,则情况也是如此,因为数据仓库不包含最新信息。4.2 简要较以下概念,可以使例解释你的观点。(a)雪花模型,事实星座,星查询模型(b)数据清理,数据转换,刷新(c)企业仓库,数据集市,虚拟仓库(a)雪花模式和事实星座都是星形模式的变种

3、,它由个事实表和组维表组成;雪花模式包含些规范化的维度表,事实星座则包含组事实表共享维表。星查询模型是查询模型(不是模式模型),它由从中点发出的组径向线组成。 每条径向线代表个尺,沿该线的每个点(称为“迹”)代表该尺的平。 距中的每步代表维度概念层次的逐步降低。 顾名思义,星查询模型于查询,并为户提供OLAP操作的全局视图。(b)数据清理是检测数据中的错误并在可能时进纠正的过程。 数据转换是将数据从异构源转换为统的数据仓库格式或语义的过程。 刷新是将更新从数据源传播到仓库的功能。(c)企业仓库收集有关整个组织的主题的所有信息,数据集市则包含整个企业范围数据的集,这对特定的户群来说很有价值。企业

4、仓库通常通过个或多个操作系统或外部信息提供者提供企业范围的数据集成,并且在范围上具有跨功能,数据集市则局限于特定的选定主题(例如客户,物料和销售对象,营销数据集市)。企业仓库通常包含详细数据以及汇总数据,数据集市中的数据往往是汇总的。 企业数据仓库可以在传统型机,计算机超级服务器或并体系结构平台上实现,数据集市通常在基于UNIX /LINUX或Windows的低成本部门服务器上实现。企业仓库的实施周期可能需要数或数年,数据集市的实施周期更可能以周为单位。虚拟仓库是对操作数据库的组视图。 为了进有效的查询处理,可能仅实现些可能的摘要视图。 虚拟仓库易于构建,但在操作数据库服务器上需要额外的容量。

5、4.3 假设数据仓库包含三个维 time, doctor, 和patient,两个度量count和charge,其中,charge是医对位病的次诊治的费。(a)列举三种流的数据仓库建模模式。(b)使(a)中列出的模式类别之为上述数据仓库绘制个模式图。(c)由基本体day,doctor,patient开始,为列出2010年每位医的收费总数,应该执哪些的OLAP操作?(d)为了获得相同的结果,编写个SQL查询,假设数据已存放在关系数据库中,其模式为fee(day,month,year,doctor,hospital,patient,count,charge)。(b)(c)time维:由“day”上

6、卷到“year”, patient维:由“patient_name”上卷到“all”,对year=2010进切(d)select doctor, SUM(charge) from fee where year=2010 group by doctor4.4 假设Big_University的数据仓库包含如下四个维student,course,semester和teacher,两个度量count 和 avg_grade。在最低的概念层时(例如,对于给定的学,课程,学期和教师的组合),度量avg_grade存放学的实际课程成绩。 在较的概念层,avg_grade存放给定组合的平均成绩。(a)绘制该

7、数据仓库的雪花模式图。(b)由基本体student,course,semester,instructor开始,为列出Big_University每个学的CS课程的平均成绩学,应该执哪些特定的OLAP操作(如由学期上卷年级)。(c)如果每个维有5层(包括all),例如“student major status university all”,那么这个数据体将包含多少个体(包括基础体和顶点体)?(a)(c)这个数据体包含个体。4.5 假定数据仓库包含4个维 date、 spectator、 location 和game,2个度量count和charge,其中charge是观众在给定的期观看节的费。

8、观众可以是学、成年或年,每类观众有不同的收费标准。(a)画出该数据仓库的星形模式图。(b)由基本体date,spectator, location, game 开始,为列出2010年学观众在GM_Place 的总付费,应当执哪些OLAP操作?(c)对于数据仓库,位图索引是有的。以该数据体为例,简略讨论使位图索引结构的优点和问题。(a)(b) Roll-up on date from date_id to year. Roll-up on game from game_id to all. Roll-up on location from location_id to location name

9、. Roll-up on spectator from spectator_id to status. Dice with status=“students”, location_name=“GM_Place”, and year=2010.(c)位图索引对于基数较的值域是有利的。 例如,在此多维数据集中,如果对维度位置进了位图索引,则位置上的较,联接和聚集操作将化为位算术,从减少了处理时间。 此外,长位置名称的字符串可以个位表,这导致空间和I/ O的显着减少。对于具有基数的维(例如本例中的期),于表位图索引的向量可能会很长。 例如,年的数据收集可能会产3650个期记录,这意味着事实表中的每个

10、元组都需要3650位(或约456个字节)来保存位图索引。4.6 数据仓库可以星形模式或雪花模式建模。简略讨论这两种模式的相似点和不同点,然后分析它们的相对优缺点。哪种模式更实?给出你的观点并陈述理由。从某种意义上来说,它们都是相似的,因为它们都具有个事实表以及些维表。主要区别在于雪花模式中的某些维表已被规范化,从将数据进步拆分为其他表。星型模式的优点是其简单性,可以提效率,但需要更多空间。对于雪花模式,它通过共享公表来减少些冗余:这些表易于维护并节省些空间。但是,与事实表的典型相,效率较低且节省的空间可忽略不计。因此,从经验上讲,星型案会更好,因为只要空间要求不是太,效率通常就空间具有更的优先

11、级。在业中,有时来雪花模式的数据可能会被规范化成星形模式以加快处理速度。另个选择是使雪花模式来维护维,然后向户呈现折叠成星形的相同数据。4.7为地区象局设计 个数据仓库。象局约有1000个观测点,散布在该地区的陆地和海洋,收集基本象数据,包括每时的压、温度、降量。所有的数据都送到中站,那已收集了这种数据长达余年。你的设计应当有利于有效的查询和联机分析处理,以及有效地导出多维空间的般天模式。由于象局在整个陆地和海洋各地散布着约1000个探测器,因此我们需要构建个空间数据仓库,以便户可以按,按地区以及温度和降的不同组合在地图上查看天模式, 并可以在任何维度上动态向下或向上滚动以探索所需的模式。4.

12、8 数据仓库实现的流法是构造-个称为数据体的多维数据库。不幸的是,这常常产的、稀疏的多维矩阵。(a) 给出个例,解释这种型稀疏数据体。(b) 设计种实现法,可以很好地克服稀疏矩阵问题。注意,你需要详细解释你的数据结构,讨论空间需求,以及如何从你的结构中提取数据。(c)修改你在(b)中的设计,以便处理增量数据更新。给出你的设计理由。(a)个巨稀疏的数据体的例:是从电话公司的计费数据库中成的,该数据库保留有关每个客户的计费信息的记录,例如联系信息,付款式,付款期和详细的呼叫记录。 对于电话公司,为每个客户保留详细的通话记录超过三个将常昂贵。因此,从数据库中删除该信息将是有益的,例如,仅保留已拨打的

13、电话总数,记帐的总分钟数和记帐的额。 计费数据库的最终计算出的数据体将具有量丢失或删除的数据,从导致庞稀疏的数据体。(类似于个魔样,该多维体有好多属性缺失就类似于魔有好多个组成块丢失。)(b)(c)4.9 关于数据体度量计算:(a)根据计算数据体所的聚集函数,列出度量的三种类型。(b)对于具有三个维time、location 和product的数据体,函数variance (差)属于哪类?如果体被分割成些块,说明如何计算它。提:计算variance函数的公式是:(c) 假定函数是“最的10个销售额”。讨论如何在数据体中有效地计算该度量。(a)度量的三种类型:分布的(整体计算和将整体分成多个单元

14、计算的结果样),代数的(不是分布的,但可由分布函数相互之间的运算得到)和整体的(只能直接由整体给出结果)。(b)差属于代数的度量。如果将多维数据集划分为多个块,则可以按以下式计算差:逐读取块,跟踪累积(1)元组数量,(2)(xi)2之和,(3)xi之和。 读取所有块后,计算xi的平均值,即xi的总和除以元组总数。 使提中所的公式来获得差。在体中读元组,如果其销售额于这10个销售额中的元素,就把该元素插到刚好它的元组后,并且去掉最后个最的销售额。重复3中的操作,直到整个体的元组取完。4.10 假设公司想设计个数据仓库,以便于以联机分析处理式分析移动车辆。公司以如下格式记录量汽车运动数据:(Aut

15、o_JID,location, speed, time)。 其中Auto_ID每个代表个车辆,涉及诸如ve-hicle_category、 driver_category 等信息;每个location 沙及城市的条街道。假定有个该城市的街道图。(a)设计个数据仓库,以便于多维空间的有效联机分析处理。(b)运动数据可能包含噪声。讨论如何开发种法, 动地发现该数据库中可能被错误地记录的数据记录。(c)运动数据可能是稀疏的。讨论如何开发种法, 尽管数据稀疏,但是仍然能够构造可靠的数据仓库。(d)如果你想在特定的时间开车从A到B.讨论系统如何使仓库中的数据,设计条快速的路线。4.11 射频识别 (RF

16、ID)通常来跟踪对象运动,进库存控制。RFID阅读器可以在任意预定的时间近距离成功地读取RFID标签。假设公司想设计个数据仓库,便于以联机分析处理式分析具有RFID标签的对象。假设公司以格式(RFID,at_lcation, time) 记录量RFID数据,并且还有些关于携带RFID标签的对象的信息,例如(RFID,produed_mame, product_calegory, poducer, date_produced, price)。(a)设计个数据仓库,以便这类数据的有效登记和联机分析处理。(b) RFID数据可能包含量冗余信息。讨论种法, 它在数据登该RFID数据仓库时,最限度减少冗

17、余。(c) RFID数据可能包含量噪声,如遗漏登记和ID误读。讨论-种有效清理 RFID数据仓库中噪声的法。(d)你可能想进联机分析处理,按、品牌和价格区间确定有多少台电视机从洛杉矶港运到伊利诺伊州尚佩恩市的BestBuy。如果你在该数据仓库中存放了这种RFID数据,概述如何有效地做这件事。(e)如果位顾客送回桶奶,并抱怨说在过期之前它已经变质,讨论如何在数据仓库中调查这情况,找出问题是出在运输还是储在上。4.12在许多应中,新的数据集递增地添加到已有的型数据集中。因此,个重要的考虑是,度量是否能够以增量式有效地计算。以计数、标准差和中位数为例,说明分布或代数度量有利于有效的增量计算,整体度量

18、不。4.13 假设你需要在数据体中记录三种度量:min()、average ()和median()。 倘若数据体允许递增地删除数据(即每次部分),为每种度量设计有效的计算和存储法。对于min,请为每个长体保留对,以注册最值和其计数。 对于每个删除的元组,如果其值于min_val,则不执任何操作。 否则,减少相应节点的计数。 如果计数减少到零,请重新计算结构。对于平均值,每个长体都保持对。 对于每个删除的节点N,减少计数并从总和中减去值N。 计算平均值=总和/计数。对于中位数,请保留少量的中值p(例如p = 10)和两个计数:向上计数和向下计数。 每次删除可能会更改计数或删除中值。 如果中位数不

19、再属于这些中值,请重新计算该集合。 否则,可以很容易地从以上设置中计算出中位数。4.14 在数据仓库技术中,多维视图可以关系数据库技术(ROLAP)、或多维数据库技术(MOLAP)或混合数据库技术(HOLAP)实现。(a)简要描述每种实现技术。(b)对每种技术,解释如下函数如何实现:i数据仓库的产(包括聚集)ii.上卷i下钻iv.增量更新(c)你喜欢哪种实现技术?为什么?(a)ROLAP服务器:这是种中间服务器,介于关系的后端服务器和客户前端具之间。它们使关系的或扩充关系的DBMS存储并管理数据仓库数据,OLAP中间件持其余部分。MOLAP服务器:这些服务器通过基于数组的多维存储引擎,持数据的

20、多维视图。它们将多维视图直接映射到数据体数组结构。HOLAP服务器:结合POLAP和MOLAP技术,得益于POLAP较的伸缩性和MOLAP的快速计算。HOLAP服务器将量详细的数据存放在关系数据库中,聚集保持在分离的MOLAP存储中。(b)i数据仓库的产(包括聚集)ROLAP:使个OLAP服务器,由个汇总事实表关系的或扩充关系的DBMS来产数据仓库,这个事实表可以存储给定体的聚集数据和给定体的模式连接键指出的抽象级别的数据。ROLAP:为了执增量更新,先检查相应元组是否在汇总的事实表中,如若不在,则插元组到汇总的事实表中,并且向上传播;否则更新元组值,并且也向上传播。MOLAP:检查相应元组是

21、否在数据体中,如若不在则插元组到数据体中,并向上传播;否则更新元组值,并且向上传播。HOLAP通常是选,因为它结合了ROLAP和MOLAP法的优点并避免了它们的缺点。 如果体常密集,则通常选MOLAP。 如果数据稀疏且维数,则单元太多(由于指数增长),在这种情况下,通常希望计算冰体不是实现完整的体。4.15 假设数据仓库包含20个维,每个维有5级粒度。(a)户感兴趣的主要是4个特定的维,每维有3个上卷和下钻频繁访问的层。如何设计数据体结构,能有效地对此予以持?(b)户时常想从两个特定的维钻透数据体,到原始数据。如何持这特征?(a)个有效的数据体结构能够给予持,可以使部分物化或者体的选择计算。通过仅计算整个可能的体集合的适当集,可以将所需的存储空间总量最化,同时保持快速的响应时间并避免重复计算。(b)由于户只想在维或维中钻透数据体,因此可以通过动态计算所需的体来持这特征。由于户可能很少需要该功能,因此在运中维或维上计算聚合所需的时间应该可以接受。4.16数据体C具有n个维。 每个维在基本体中怡有p个不同值。假定没有与这些维相关联的概念(a)基本体单元的最个数可能是多少?(b)基本体单元的最个数可能是多少?(c)数据体C的单元(包括基本单元和聚集单元)的最个数是多少?(d)数据体C的单元的最个数是多少?(a) ,这是您可以在每个维度上使p个不同值形成的最元组数。(b)p,少需要p

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论