数据挖掘模拟卷_第1页
数据挖掘模拟卷_第2页
数据挖掘模拟卷_第3页
数据挖掘模拟卷_第4页
数据挖掘模拟卷_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、于 网格的方法和基于模型的方法。 7、两种常用的大数据集的数据概化方法是: 数据立方体方法(或 OLAP)和面向属性的归 1下面哪种分类方法是属于神经网络学习算法?( )A. 判定树归纳 B. 贝叶斯分类 C. 后向传播分类 D. 基于案例的推理2置信度(confidence)是衡量兴趣度度量( )的指标。A、简洁性 B、确定性 C. 、实用性 D、新颖性A、目标市场分析 B、购物篮分析 C、模式识别 D、信用卡欺诈检测A、顶点方体 B、方体的格 C、基本方体 D、维 5数据归约的目的是( )A、填补数据种的空缺值 B、集成多个数据源的数据C、得到数据集的压缩表示 D、规范化数据6下面哪种数据

2、预处理技术可以用来平滑数据,消除数据噪声?A.数据清理 B.数据集成 C.数据变换 D.数据归约7 ( )通过将属性域划分为区间,从而减少给定连续值的个数。 A.概念分层 B.离散化 C.分箱 D. 直方图A、上卷(roll-up) B、选择(select) C、切片(slice) D、转轴(pivot) 9假设现在的数据挖掘任务是解析数据库中关于客户的一般特征的描述,通常所使用的数 据挖掘功能是( )A.关联分析 B.分类和预测 C. 孤立点分析 D. 演变分析 E. 概念描述10下列哪个描述是正确的?( )A、分类和聚类都是有指导的学习B、分类和聚类都是无指导的学习C、分类是有指导的学习,

3、聚类是无指导的学习D、分类是无指导的学习,聚类是有指导的学习A、布尔关联规则 B、单维关联规则 C、多维关联规则 D、多层关联规则 A、数据压缩 B、数据概化 C、维归约 D、规范化 3说明任务相关的数据时,涉及说明( )A、包含相关数据的数据库或数据仓库名 B、选择相关数据的条件C、相关的属性或维 D、关于检索数据的排序和分组指令 4从结构的角度看,数据仓库模型包括以下几类:A.企业仓库 B.数据集市 C.虚拟仓库 D.信息仓库5数据仓库的主要特征包括( )A、面向主题的 B、集成的 C、时变的 D、非易失的 25 分)(7 分)答:面向属性归纳的基本思想是:首先使用关系数据库查询收集任务相

4、关的数据;然后 通过考察任务相关数据中每个属性的不同值的个数,进行概化(通过属性删除或者属性 概化)。聚集通过合并相等的广义元组,并累计他们相应的计数值进行。这压缩了概化 后的数据集合。结果广义关系可以映射到不同形式,如图表或规则,提供用户。(3分) 使用属性删除的情况:如果初始工作关系的一个属性上有大量的不同值,但是(1)在 此属性上没有概化操作符,或(2)它的较高层概念用其他属性表示;(2分)使用属性概化的情况: 如果初始工作关系的一个属性上有大量的不同值,并且该属性上存在着概化操作符。(2 分) 2为什么在进行联机分析处理(OLAP)时,我们需要一个独立的数据仓库,而不是直接在日 操作数

5、据库支持多事务的并行处理,而数据仓库往往只是对数据记录进行只读访问;这OLAPOLAP性 往往只是最新的数据。括:逐层独立:完全的宽度搜索,没有频繁项集的背景知识用于剪枝。考察每一个节点,不管其父节点是否频繁。特点是条件很松,可能导致在低层考察大量非频繁的项,找出一些不重要的关联;(2分) 它是上述两个极端策略的折中。(2分)4跟其他应用领域相比,在电子商务中进行数据挖掘有哪些优势?(6 分) “点击流” (Clickstreams)将会产生电子商务挖掘的大量数据; 报表和计算各种收益。五、算法题(共 20 分)1Apriori 算法是从事务数据库中挖掘单维布尔关联规则的常用算法,该算法利用频

6、繁项集 性质的先验知识,从候选项集中找到频繁项集。(1) Aprior 算法包括哪两个基本步骤(2 分); (2)对下图中所示的事务数据记录 D,(|D|4),请用图示与说明解释如何使用 Apriori 算 DTIDoriLCCL L2=ACBCBECEACBCB,EC,E = A,B,C,A,C,E,B,C,E A,C,E的2项子集是A,C,A,E,C,E,其中A,E 不是L2的元素,所以删除这个选 CEL 得到C3=B,C,EC3=B,C,E2判定树归纳算法是一种常用的分类算法(1)请简述判定树归纳算法的基本策略 (4 分); (2)使用判定树归纳算法,根据顾客年龄 age (分为 3 个

7、年龄段: 23), 收入 income (取值为 high,medium,low),是否为 student (取值为 yes 和 no),信用 credit_rating 等级(取值为 fair 和 excellent)来判定用户是否会购买 PC Game,即构建 判定树 buys_PCGame,假设现有的数据经过第一次划分之后得到如下图所示结果,并根据该 结果对每一个划分中的各个属性计算信息增益对 age23 的 顾 客 : Gain(income)=0.042 , Gain(student)=0.462 ,Gain(credit_rating)=0.155credit_ratinghighexcellentmediumcredit_ratinghighmediumhighmediumcredit_ratingrrrexcellentrrrexcellentexcellentudentudenthighmediumhighmediumrrrexcellentudentassassasshigh(1)判定树归纳算法的基本策略如下: 。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论