




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、数据挖掘模拟卷一、填空题(每格1分,共20分)1、在数据挖掘中,常用的聚类算法包括:划分方法、层次方法、基于密度的方法、基于网格的方法和基于模型的方法。2、数据仓库的多维数据模型可以有三种不同的形式,分别是:星型模式、雪花模式和事实星座模式。3、从数据分析的角度看,数据挖掘可以分为两类:描述性的数据挖掘和预测性的数据挖掘。4、给定基本方体,方体的物化有三种选择:不物化、全物化和部分物化。5、当前的数据挖掘研究中,最主要的三个研究方向是:数据库技术、统计学、机器学习。6、概念分层有四种类型,分别是:模式分层、集合分组分层、操作导出的分层和基于规则的分层。7、两种常用的大数据集的数据概化方法是:数
2、据立方体方法(或)和面向属性的归纟内方法。二、单选题(请选择一个正确答案填入括号内,每题2分,共20分)面哪种分类方法是属于神经网络学习算法?()判定树归纳贝叶斯分类2D置信度(confidence)判定树归纳贝叶斯分类2D置信度(confidence)是衡量兴趣度度量A、简洁性B、确定性孤立点挖掘适用于下列哪种场合?A、目标市场分析B、购物篮分析存放最低层汇总的方体称为:A、顶点方体B、方体的格数据归约的目的是()A、填补数据种的空缺值C、得到数据集的压缩表示后向传播分类()的指标。C.、实用性基于案例的推理D、新颖性C、模式识别D、信用卡欺诈检测C、基本方体D、维B、集成多个数据源的数据D
3、、规范化数据面哪种数据预处理技术可以用来平滑数据,消除数据噪声?数据清理数据集成数据变换数据归约()通过将属性域划分为区间,从而减少给定连续值的个数。A.概念分层B.离散化C.分箱D.直方图下面的数据操作中,()操作不是多维数据模型上的OLAP操作。A、上卷(roll-up)B、选择(select)C、切片(slice)D、转轴(pivot)假设现在的数据挖掘任务是解析数据库中关于客户的一般特征的描述,通常所使用的数据挖掘功能是()A.关联分析B.分类和预测C.孤立点分析D.演变分析E.概念描述下列哪个描述是正确的?()A、分类和聚类都是有指导的学习B、分类和聚类都是无指导的学习C、分类是有指
4、导的学习,聚类是无指导的学习D、分类是无指导的学习,聚类是有指导的学习三、多选题(请选择两个或两个以上正确答案填入括号内,每题3分,共15分)1根据关联分析中所涉及的数据维,可以将关联规则分类为:()D、多层关联规则D、规范化A、布尔关联规则BD、多层关联规则D、规范化下列哪些是数据变换可能涉及的内容?A、数据压缩B、数据概化C、维归约说明任务相关的数据时,涉及说明()A、包含相关数据的数据库或数据仓库名B、选择相关数据的条件C、相关的属性或维D、关于检索数据的排序和分组指令4从结构的角度看,数据仓库模型包括以下几类:企业仓库数据集市虚拟仓库信息仓库5.数据仓库的主要特征包括()A、面向主题的
5、B、集成的C、时变的D、非易失的四、简答题(共25分)简述面向属性归纳的基本思想,并说明什么时候使用属性删除,什么时候使用属性概化。(7分)答:面向属性归纳的基本思想是:首先使用关系数据库查询收集任务相关的数据;然后通过考察任务相关数据中每个属性的不同值的个数,进行概化(通过属性删除或者属性概化)。聚集通过合并相等的广义元组,并累计他们相应的计数值进行。这压缩了概化后的数据集合。结果广义关系可以映射到不同形式,如图表或规则,提供用户。(分使用属性删除的情况:如果初始工作关系的一个属性上有大量的不同值,但是()在此属性上没有概化操作符,或()它的较高层概念用其他属性表示;(分)使用属性概化的情况
6、:如果初始工作关系的一个属性上有大量的不同值,并且该属性上存在着概化操作符。(分)为什么在进行联机分析处理(OLAP)时,我们需要一个独立的数据仓库,而不是直接在日常操作的数据库上进行。(6分)答:使用一个独立的数据仓库进行处理是为了以下目的:提咼两个系统的性能操作数据库是为而设计的,没有为操作优化,同时在操作数据库上处理查.询,会大大降低操作任务的性能;而数据仓库是为而设计,为复杂的查询多.维视图,汇总等功能提供了优化。两者有着不同的功能操作数据库支持多事务的并行处理,而数据仓库往往只是对数据记录进行只读访问;这时如果将事务处理的并行机制和恢复机制用于这种操作,就会显著降低的性能。两者有着不
7、同的数据数据仓库中存放历史数据;日常操作数据库中存放的往往只是最新的数据。对于具有递减支持度的多层关联规则挖掘,分别都有哪些搜索策略?各有什么特点?(6分)答:具有递减支持度的多层关联规则挖掘中使用的搜索策略包括:逐层独立:完全的宽度搜索,没有频繁项集的背景知识用于剪枝。考察每一个节点,不管其父节点是否频繁。特点是条件很松,可能导致在低层考察大量非频繁的项,找出一些不重要的关联;(分)层交叉项集过滤:一个第层的项集被考察,当且仅当它在第层的对应父节点.的项集是频繁的。特点是限制太强,有些有价值的模式可能被该方法过滤掉;(分)层交叉单项过滤:一个第层的项被考察,当且仅当它在第层的父节点是频繁的。
8、它是上述两个极端策略的折中。(分)4跟其他应用领域相比,在电子商务中进行数据挖掘有哪些优势?(6分)答:跟其他应用领域相比,在电子商务中进行数据挖掘的优势包括:电子商务提供海量的数据:点击流()将会产生电子商务挖掘的大量数据;丰富的记录信息:良好的站点设计将有助于获得丰富的关于商品、分类、访客等等信息;干净的数据:从电子商务站点收集的都是电子数据,无需人工输入或者是从历史系统进行整合;研究成果容易转化:在电子商务中,很多知识发现都可以进行直接应用;投资收益容易衡量:所有数据都是电子化的,可以非常方便的生成各种报表和计算各种收益。五、算法题(共20分)1.Apriori算法是从事务数据库中挖掘单
9、维布尔关联规则的常用算法,该算法利用频繁项集性质的先验知识,从候选项集中找到频繁项集。(1)Aprior算法包括哪两个基本步骤(2分);连接与剪枝(2)对下图中所示的事务数据记录D,(IDI=4),请用图示与说明解释如何使用Apriori算法寻找D中的频繁项集。(假设最小事务支持计数为2)(10分)TID项ID的列表T100A,C,DT200B,C,ET300A,B,C,ET400B,E使用性质由产生连接:使用性质剪枝:频繁项集的所有子集必须是频繁的,对候选项,我们可以删除其子集为非频繁的选项:的项子集是,其中不是的元素,所以删除这个选项;的项子集是,其中不是的元素,所以删除这个选项;的项子集
10、是,它的所有一项子集都是的元素,因此保留这个选项。这样,剪枝后得到枝后得到2判定树归纳算法是一种常用的分类算法(1)请简述判定树归纳算法的基本策略(4分);()使用判定树归纳算法,根据顾客年龄(分为个年龄段:,)3收入(取值为,),是否为(取值为和),信用等级(取值为和)来判定用户是否会购买,即构建判定树,假设现有的数据经过第一次划分之后得到如下图所示结果,并根据该结果对每一个划分中的各个属性计算信息增益TOC o 1-5 h z对的顾客:,对的顾客:,请根据以上结果绘制出判定树,(分)答:()判定树归纳算法的基本策略如下:树以代表单个训练样本的节点开始。如果样本都在同一个类,则该节点成为树叶,并用该类标记。否则,算法使用成为信息增益的基于熵的度量作为启发信息,选择能够最好的将样本分类的属性。对测试属性每个已知的值,创建一个分枝,并据此划分样本。算法使用同样的过程,递归的形成每个划分上的样本
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 光学软件测试题及答案
- 美术培训讲座
- 2025年 阜阳临泉城关街道桃花源幼儿园教师招聘考试笔试试卷附答案
- 2025年 北京公务员考试笔试考试试卷附答案
- 2025年主题团日活动策划与实施
- 小学交通教育课件
- 左膝关节置换术后护理
- 2025年中国墨西哥胡椒盐行业市场全景分析及前景机遇研判报告
- 子宫畸形超声分类及诊断
- 支气管肺炎相关疾病知识
- 2024年浙江宁波慈溪市民政局及所属事业单位招聘编外用工6人历年(高频重点提升专题训练)共500题附带答案详解
- 角色转身-从校园到职场
- DZ/T 0462.2-2023 矿产资源“三率”指标要求 第2部分:石油、天然气、煤层气、页岩气、二氧化碳气(正式版)
- 电力设计创新创业项目计划书
- 【语文】2023-2024学年统编版高中语文选择性必修下册 课本知识要点梳理 课件
- 2024年南昌市产业投资集团有限公司招聘笔试参考题库附带答案详解
- 试验检测单位安全培训课件
- 2024届高考语文二轮复习小说专题训练凌叔华小说(含解析)
- 新概念英语第二册课文及翻译
- 电子商务招生宣传
- 桥梁系梁施工方案
评论
0/150
提交评论