



下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
【MOOC】数据仓库与数据挖掘-青岛大学中国大学慕课MOOC答案数据挖掘导论单元测试1、【判断题】数据挖掘的主要任务是从数据中发现潜在的规则,从而能更好的完成数据描述、预测数据等任务.本题答案:【正确】2、【判断题】寻找模式和规则主要是对数据进行干扰,使其符合某种规则以及模式。本题答案:【错误】3、【判断题】分类和回归都可用于预测,分类的输出是离散的类别值,而回归的输出是连续数值。本题答案:【正确】4、【判断题】数据挖掘的过程可以粗略分为:问题定义、数据准备、数据预处理、数据挖掘,以及结果的解释和评估等步骤。本题答案:【正确】5、【判断题】决策树方法可以称为一种数据挖掘技术,也可以称为一种机器学习技术,所以数据挖掘和机器学习是一样的。本题答案:【错误】6、【判断题】数据挖掘是从大量的数据中筛选出有效的、可信的以及隐含信息的高级处理过程。本题答案:【正确】数据仓库与OLAP单元测试1、【单选题】数据仓库是随着时间变化的,下面的描述不正确的是:本题答案:【数据仓库随事件变化不断删去旧的数据内容。】2、【单选题】OLAP技术的核心是:本题答案:【多维分析】数据预处理单元测试1、【单选题】假定某属性的最小与最大值分别为8000元和14000元。要将其映射到区间[0.0,1.0],按照最小-最大规范化方法对属性进行变换,属性值12600将变换为:本题答案:【0.767】2、【单选题】若属性income的平均值和标准差分别为32000元和17000元,则使用z-score规范化后,65600元被转换为:本题答案:【1.867】3、【判断题】等宽分箱法使每个箱子的取值区间相同。本题答案:【正确】4、【判断题】数据取样时,除了要求抽样时严把质量关外,还要求抽样数据必须在足够范围内有代表性。本题答案:【正确】5、【判断题】数据集成是将多个数据源中的数据结合起来存放在一个一致的数据存储(如数据仓库)中。数据源可能涉及多个数据库、数据立方体或一般文件。本题答案:【正确】6、【判断题】数据归约是用来得到数据集的归约表示,它比源数据集小得多,但仍接近于保持源数据的完整性。本题答案:【正确】7、【判断题】采用分箱方法不能进行数据离散化。本题答案:【错误】关联分析单元测试1、【单选题】设X={1,2,3}是频繁项集,则可由X产生个关联规则。本题答案:【6】2、【单选题】某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?本题答案:【关联分析】3、【单选题】一般数据挖掘的流程顺序,下列正确的是①选择数据挖掘的技术、功能和合适的算法②选择数据,数据清洗和预处理③了解应用领域,了解相关的知识和应用目标④寻找感兴趣的模式、模式评估、知识表示⑤收集数据,创建目标数据集本题答案:【③⑤②①④】4、【判断题】频繁项集的非空子集一定是频繁项集。本题答案:【正确】5、【判断题】FP-Growth算法挖掘频繁项集,只需扫描一次数据库。本题答案:【错误】6、【判断题】只要有两个频繁3项集,就一定能够生成一个候选4项集。本题答案:【错误】7、【判断题】非频繁项集的超集有可能是频繁的。本题答案:【错误】8、【判断题】根据顾客去药店的买药记录,想要知道哪些药经常被同时服用,可以采用关联规则挖掘技术来解决。本题答案:【正确】决策树单元测试1、【单选题】决策树中不包含以下哪种节点。本题答案:【外部节点(externalnode)】2、【单选题】下列应用场景不属于分类的是本题答案:【为了解用户特点,公司将客户分群】3、【单选题】下面对C4.5决策树算法的描述错误的是:本题答案:【只能处理连续属性。】4、【单选题】已知某一连续属性数据集如下,当分割点为31时,该分割点的信息增益比为:属性值:25,30,32,40,48,67,98,100类别:1,1,1,1,2,2,2,2本题答案:【0.39】5、【单选题】假设有14个样本,包含两类,其中1类为9个样本,2类为5个样本,则根据熵的计算公式,此数据集的信息量为:本题答案:【0.940】6、【判断题】分类是总结已有类别对象的特点,并根据这些特点,进行未知类别对象的类别预测的过程,又可称为无监督学习。本题答案:【错误】7、【判断题】决策树方法可用于连续数据离散化。本题答案:【正确】8、【判断题】留一法是交叉验证法的特殊情况。本题答案:【正确】9、【判断题】ID3的分裂属性选择条件是选择信息增益最大的作为分裂属性。本题答案:【正确】10、【判断题】决策树构建之后,为了避免过度拟合,需要对树进行剪枝。本题答案:【正确】11、【判断题】数据分类由两步过程组成:第一步,建立一个分类模型,描述指定的数据类集或概念集;第二步,使用模型进行分类。本题答案:【正确】贝叶斯单元测试1、【单选题】根据下表的训练数据学习一个朴素贝叶斯分类器并确定x=(2,S)的类标签y。表中X1,X2为特征,取值的范围分别为{1,2,3}和{S,M,L},Y为类标签。---------------------------------------------------------------------------------123456789101112131415----------------------------------------------------------------------------X1111112222233333X2SMMSSSMMLLLMMLLY001100011111110---------------------------------------------------------------------------本题答案:【y=0】2、【单选题】假设吸烟的本科生比例为15%,而吸烟的研究生占23%。如果五分之一的大学生是研究生,其余的是本科生,那么吸烟的学生是研究生的概率是多少?本题答案:【0.277】3、【单选题】公司里面男性有60人,女性有40人,男性穿皮鞋的人数有25人,穿运动鞋的人数有35人,女性穿皮鞋的人数有10人,穿高跟鞋的人数有30人。现在你只知道有一个人穿了皮鞋,推测他是男性的概率为:本题答案:【0.714】4、【判断题】先验概率是根据历史资料或主观估计的方法得到的概率。本题答案:【正确】5、【判断题】后验概率P(H|X)表示条件X下H的概率。本题答案:【正确】6、【判断题】朴素贝叶斯算法能够解决特征之间有相关性的问题。本题答案:【错误】聚类分析单元测试1、【单选题】简单地将数据对象集划分成不重叠的子集,使得每个数据对象恰在一个子集中,这种聚类类型称作本题答案:【划分聚类】2、【单选题】BIRCH是一种本题答案:【聚类算法】3、【单选题】关于K均值和DBSCAN的比较,以下说法不正确的是本题答案:【K均值丢弃被它识别为噪声的对象,而DBSCAN一般聚类所有对象。】4、【单选题】设有6个二维样本点,p1(0,0),p2(1,2),p3(3,1),p4(8,8),p5(9,10),p6(10,7),若想将其聚类为2类,首先选择p1和p2为两类中心点,采用欧式距离测算方式,则第一轮划分结束,新生成的簇中心点分别为:本题答案:【(0,0),(6.2,5.6)】5、【判断题】聚类分析可以作为其它算法的预处理步骤,如数据离散化,数据归约等。本题答案:【正确】期末考试1、【单选题】假设数据挖掘的任务是将如下8个点(用(x,y)代表位置)聚类为3个簇:A1(2,10),A2(2,5),A3(8,4),B1(5,8),B2(7,5),B3(6,4),C1(1,2),C2(4,9)距离函数是欧式距离。假设初始选择A1,B1和C1分别为每个聚类的中心,用K-平均算法来给出在第一次循环执行后的三个聚类中心:本题答案:【(2,10),(6,6),(1.5,3.5)】2、【单选题】设训练样本集包含{ID,收入(万元),婚否,爱旅游}四个特征,8条记录如表所示,采用C4.5算法进行连续属性划分,请问“收入”属性具有几种划分可能?12.5否否212否是33否否43.2是是54否否64.8否否76.8是是89.8否是本题答案:【7】3、【单选题】设训练样本集包含{ID,收入(万元),婚否,爱旅游}四个特征,8条记录如表所示,采用C4.5算法进行连续属性划分,对于“收入”属性的划分“2.75”,计算其信息增益率:12.5否否212否是33否否43.2是是54否否64.8否否76.8是是89.8否是本题答案:【0.255】4、【单选题】在下表中给定的样本上进行合并(凝聚)层次聚类,初始簇{1},{2},{3},{4},{5},{6},{7},{8}.假定算法的终止条件为3个簇,则此3个簇为:序号属性1属性2序号属性1属性21210575225664384712458849本题答案:【最后3个簇为:{2,7},{1,4,8},{3,5,6}】5、【单选题】简单的将数据对象集划分成不重叠的子集,使得每个数据对象恰在一个子集中,这种聚类类型称作本题答案:【划分聚类】6、【多选题】1.数据库有5个事物,设min_sup=60%,min_conf=80%。TID购买的商品I100{M,O,N,K,E,Y}I200{D,O,N,K,E,Y}I300{M,A,K,E}I400{M,U,C,K,Y}I500{C,O,O,K,I,E}使用Apriori算法找出所有频繁项集包括:本题答案:【频繁1项集:{M},{O},{K},{E},{Y}#频繁2项集:{M,K},{O,K},{O,E},{K,E},{K,Y}#频繁3项集:{O,K,E}】7、【多选题】数据库有5个事物,设min_sup=60%,min_conf=80%。TID购买的商品I100{M,O,N,K,E,Y}I200{D,O,N,K,E,Y}I300{M,A,K,E}I400{M,U,C,K,Y}I500{C,O,O,K,I,E}列举所有的强关联规则(给出支持度s和置信度c):本题答案:【{O,K}-{E}(60%,100%)#{O,E}-{K}(60%,100%)】8、【多选题】假设数据挖掘的任务是将如下8个点(用(x,y)代表位置)聚类为3个簇:A1(2,10),A2(2,5),A3(8,4),B1(5,8),B2(7,5),B3(6,4),C1(1,2),C2(4,9)距离函数是欧式距离。假设初始选择A1,B1和C1分别为每个聚类的中心,用K-平均算法来给出最后的三个簇以及簇中心:本题答案:【最后三个簇为:{A1,B1,C2}、{A3,B2,B3}、{A2,C1}#最后三个簇中心为:(3.67,9),(7,4.33),(1.5,3.5)】9、【多选题】设训练样本集包含{ID,收入(万元),婚否,爱旅游}四个特征,8条记录如表所示,采用C4.5算法进行连续属性划分,通过构建决策树,输出规则为:12.5否否212否是33否否43.2是是54否否64.8否否76.8是是89.8否是本题答案:【If收入5.8and婚否=“是”,则爱旅游=“是”;#If收入5.8and婚否=“否”,则爱旅游=“否”;#If收入=5.8,则爱旅游=“是”。】10、【多选题】已知数据集如下,下面描述正确的为:赞成反对合计男性40120160女性103040合计50150200本题答案:【P(男性,赞成)=40/200#P(赞成)=5
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 《几何基础:空间几何习题讲解与练习》
- 承包个人餐厅协议
- 工程例会制度完整版
- 2025年宿州萧县交通投资有限责任公司招聘6人笔试参考题库附带答案详解
- 2024-2025学年第二学期天域全国名校协作体高三3月联考 生物试卷(含答案)
- 2025年上半年安徽芜湖鸠江区所属事业单位招聘拟聘用人员易考易错模拟试题(共500题)试卷后附参考答案
- 2025年上半年安徽省马鞍山市博望区政府部门招聘派遣制人员14人易考易错模拟试题(共500题)试卷后附参考答案
- 2024年火车制品项目资金申请报告代可行性研究报告
- 2025年上半年安徽皖维集团限责任公司招聘1名易考易错模拟试题(共500题)试卷后附参考答案
- 2024年溶栓药项目资金需求报告代可行性研究报告
- 2024年人力资源管理师三级考试真题及答案
- 2024年中国远洋海运集团有限公司招聘笔试冲刺题(带答案解析)
- 商品房施工组织设计
- 科目一知识大全课件
- 2016-2023年大庆医学高等专科学校高职单招(英语/数学/语文)笔试历年参考题库含答案解析
- 泛微协同OA与SAP集成应用解决方案V讲诉
- 探讨电磁感应现象对电能转化效率的影响
- EHS法律法规清单及合规性评估
- 桥梁定期检查-主要部件检查要点与评定标准
- 长途汽车客运站调研报告
- 陕西各市(精确到县区)地图PPT课件(可编辑版)
评论
0/150
提交评论