版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、数据仓库与数据挖掘 习题关重要的。这种商务需要什么数据挖掘功能?他该数据库包括如下信息:每个学生的姓名,地址和状态(例如,本科生或研究生),所修课程,以及他们 用你熟悉的现实生 要 战。2.1 试述对于多个异种信息源的集成,为什么许多公司宁愿使用更新驱动的方法(构造使用数据仓库), 而不愿使用查询驱动的方法(使用包装程序和集成程序)。描述一些情况,其中查询驱动方法比更新驱动 概念,可以用例子解释你的观点(a) 雪花模式、事实星座、星型网查询模型(b) 数据清理、数据变换、刷新(c) 发现驱动数据立方体、多特征方、虚拟仓库 (a) 列举三种流行的数据仓库建模模式。(b) 使用(a)列举的模式之一
2、,画出上面数据仓库的模式图。P (a) 为数据仓库画出雪花模式图; (c) 如果每维有 5 层(包括 all),如 studentMAJORSTATUSUNIVERSITY (c) 对于数据仓库,位图索引是有用的。以该数据立方体为例,简略讨论使用位图索引结构的优点和问 压、温度、降雨量。所有的数据都送到中心站,那里已收集了这种数据长达十 (a) 根据计算数据立方体所用的聚集函数,列出度量的三种分类; (即每次一小部分),为每种度量设计有效的计算和存储方法。流行方法是构造一个称为数据立方体的多维数据库。不幸的是,这常常产生大的、稀 (a) 给出一个例子,解释这种大的、稀疏的数据立方体;(b) 设
3、计一种实现方法,可以很好的克服这种稀疏矩阵问题。注意,需要详细解释你的数据结构,讨论 (c) 修改你在(b)的设计,处理递增的数据更新。给出你的新设计的理由。 (b)用户时常想由一两个特定的维钻透数据立方体,到原始数据。你如何支持这一特征?(a)假定每维只有一层,画出完整的立方体的格。b放一个 4 字节的度量,若方是稠密的,所计算的立方体有多大?(c)指出立方体中空间需求量最小的块计算次序,并对计算2维平面所需要的内存空间计算空间量。0 d如下属性子集选择过程 youngmiddleaged和senior。 层。ndergrad假定学校的学生人数(即任务相关的元组数)为5000,其中 56%的
4、在校本科生的专业是科学, 64%的学生注 b下面的规则(4.9):major(X,biology)=status(X,undergrad) 17%,80% (4.9)标准化的数据挖掘查询语言的重要性。涉及这一任务的一些潜在好处和挑战是什么?列举一些 dtypeplacemadesupplierrnametypeheadquarterlocationownersizeassetsrevenue 向属性的归纳导出class &n bsp; birth-mer&nbs p; 180s&nbs p; 20a现实相关 t-权和 d-权的交叉表(b) 将类 Programmer 转换成(双向的)量化描述规
5、则。例如erX5.3 讨论为什么需要解析特征化和如何进行。比较两种归纳方法的结果:(I)包含相关分析和(ii)不包 5.4 对于数据离散的特征化,另外给出三个常用统计度量(未在本章说明),并讨论如何在大型数据库中 25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70 A 该数据的平均值是多少?中位数是多少?B 该数据的模是多少?评论数据的模态性(即双模态,三模态等).C中列数是什么D你能找出(粗略地)数据的第一个四分位数(q1)和第三个四分位数(Q3)吗?E数据的五数概括F 画出数据的盒图G数-分位数图与分位数图的不同之处是什么?掘方法。Apri
6、ori使用子集支持度性质的先验知识D IDDATEITEMSBOUGHTT0 10/15/99 K, A, D, BT0 10/15/99 D, A, C, E, BT00 10/19/99 C, A, B, ET0 10/22/99 B, A, Dxtransaction, buys(X, item1)buys(X, item2) = buys(X, item3) s, c 如“IBM desktop computer, b/w printer”的“后代”项集的挖掘吗?给出一 HotdogshotdogsHamburgers 2000 500 2500hamburgers00 1500 25
7、00rgers TKings-Carb, Sunset-Milk, Dairyland-Cheese, best-BreadTBest-Cheese, Dairyland-Milk, Goldenfarm-Apple, Tasty-Pie, Wonder-BreadTWestcoast-Apple, Dairyland- Milk, Wonder-Bread, Tasty-PieTWonder-Bread, Sunset-Milk, Dairyland-Cheesea) 在 item_category 粒度(例如, itemi 可以是”milk” ),对于下面规则模板 xtransaction
8、, buys(X, item1)buys(X, item2) = buys(X, item3) s, cb) 在 brand-item_category 粒度(例如: item 可以是“sunset-milk ”),对于下面的规则模板:xcustomerbuysXitem)buys(X, item2) = buys(X, item3) 法,挖掘全局关联规则(不考虑多层关联规则)。可以给出你的算法的要点。你的算法不必将所有的数据 6.8 假定大型事务数据库 DB 的频繁项集已经存储。讨论:如果新的事务集DB(增量地)加进,在相同 的最小支持度阈值下,如何有效地挖掘(全局)关联规则?出挖掘多层关联
9、规则的层共享挖掘方法的要点。其中,每个项用它的层位置编码,一次初 概念层的每个项的计数,识别频繁和子频繁项集。将用该方法挖掘多层关联规则与 6.11 提出一种挖掘混合维关联规则(多维关联规则带有重复谓词)的方法。 c。7.4 比较急切分类(如判定树、贝叶斯、神经网络)相对于懒散分类(如, k-最临近、基于案例的推理) 7.7 证明准确率是灵敏性和特效性度量的函数,即证明( 7.31 )式。时属于多个类时,很难评估分类的准确率。陈述在这种情况下,你将使用何种 XY81 77 9086 7583 7965 7 7288 74 90usdepartmentStatusAgeSalary counts
10、alessenior35 46K.50K 30salesnbspjunior26K.30K 40salesjunior 31K.35K 40systemssystemsor.25 46K.50K 20systems senior 31.35 66K.70K 5systemsjunior 26.30 46K.50K 3systems senior 41.45 66K.70K 3marketing senior 36.40 46K.50K 10marketing junior 31.35 41K.45K 4secretarysenior50&nbs p;36K.40K 4secretaryjuni
11、or.30 26K.30K 6(a) 你将如何修改 ID3 算法,以便考虑每个概化数据元组(即每一行)的 count? alesseniorKK 8.2 给定两个对象,分别用元组(22 ,1 , 42 ,10 )和(20 , 0 ,36 ,8 )表示a之间的欧几里的距离b计算两个对象之间的曼哈坦距离 什么是聚类?简单描述下列聚类方法:划分方法,层次方法,基于密度的方法,基于网格的方8.4 假设数据挖掘的任务是将如下 8 个点(用(x , y )代表位置)聚类为 3 个簇:A1 ( 2 ,10 ), A2 ( 2 ,5 ), A3 ( 8 ,4 ),B1 ( 5 ,8 ), B2 ( 7 ,5
12、), B3 ( 6 ,4 ),C1 ( 1 ,2 ), C2 ( 4 ,9 ) 人眼在判断聚类方法对二位数据的聚类质量上是快速而有效的。你能否设计出一个数据可视的 给出如何集成特定聚类算法的例子,例如,什么情况下一个聚类算法被用作另一个算法的预处 对象之间的空间关联关系;(ii)预先计算出空间对象间的空间距离,使得关联挖掘可以基于这些预计算 结果求得。试述(i)如何高效实现上述方法;(ii)各方法的适用条件。 (b)可以从该空间数据仓库中挖掘什么样的信息用于支持城市规划人员?(c)该数据仓库既包含了空间数据,也包含了时态数据。设计一种挖掘技术,可以高效地从该空间时态 相似检索已经成为多媒体数据
13、检索系统开发中的主要内容。然而,许多多媒体数据挖掘方 。(b)请概述应用基于相似性的搜索方法增强多媒体数据中聚类质量的实现技术。 (a)找出星期五某一给定地区的相似的能源消耗曲线;(c)如何找出可以区分稳定能源消耗地区与不稳定能源消耗地区的最突出特征?(a)给出一种找出这种模式的有效方法。 于数据库投影的频繁模式(FP)增长方法,对挖掘频繁项集是十分有效的。可否扩展 FP增长方法去找出 9.8 一个电子邮件数据库是指包含了大量电子邮件(e-mail)信息的数据库。它可以被视为主要包含文本 (a)如何使一个 e-mail 数据库变成结构化的,以便支持多维检索,如按发送者、接受者、主题和时问等 bemail中可以挖掘什么信息?( c )假设对以前的一组 e-mail 信息有一个粗略的对类,如 junk (垃圾), unimportant (不重要), l 消息或反分类(unclassify ) e-mail 信息。何使用各种不同的数据挖掘方法(a)考虑数据挖掘系统与数据库和数据仓库系统耦合方式,试述无耦合、松耦合、半紧耦合和紧耦合之间 (b)行可伸缩性和列可伸缩性
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论