【MOOC】数据仓库与数据挖掘-北京理工大学 中国大学慕课MOOC答案_第1页
【MOOC】数据仓库与数据挖掘-北京理工大学 中国大学慕课MOOC答案_第2页
【MOOC】数据仓库与数据挖掘-北京理工大学 中国大学慕课MOOC答案_第3页
【MOOC】数据仓库与数据挖掘-北京理工大学 中国大学慕课MOOC答案_第4页
【MOOC】数据仓库与数据挖掘-北京理工大学 中国大学慕课MOOC答案_第5页
免费预览已结束,剩余5页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

【MOOC】数据仓库与数据挖掘-北京理工大学中国大学慕课MOOC答案Test11、【单选题】某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?本题答案:【关联规则发现】2、【单选题】当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?本题答案:【聚类】3、【判断题】判断以下行为是否属于数据挖掘任务:根据顾客的职业将顾客进行分组本题答案:【错误】4、【判断题】判断以下行为是否属于数据挖掘任务:根据顾客的购物记录预测顾客感兴趣的商品本题答案:【正确】5、【判断题】判断以下行为是否属于数据挖掘任务:监测患者的心率是否异常本题答案:【正确】6、【判断题】判断以下行为是否属于数据挖掘任务:提取声波的频率本题答案:【错误】7、【判断题】判断以下行为是否属于数据挖掘任务:预测掷骰子的结果本题答案:【错误】8、【填空题】数据挖掘是从大量数据中挖掘重要、隐含的、以前未知、______的模式或知识。本题答案:【潜在有用】9、【填空题】从数据仓库的角度可以将数据挖掘过程划分为数据清理、数据集成、数据选择与变换、数据挖掘及_______等阶段。本题答案:【知识评估】10、【填空题】数据挖掘任务主要包括描述性和______任务本题答案:【预测性】Test21、【单选题】age值(以递增序)为:13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70。使用z-score规范化将age值35变换到[0.0,1.0]区间,变换后的值为()本题答案:【0.4】2、【单选题】一所大学内的各年纪人数分别为:一年级200人,二年级160人,三年级130人,四年级110人。则年级属性的众数是:()本题答案:【一年级】3、【单选题】假设属性income的最大最小值分别是12000元和98000元。利用最大最小规范化的方法将属性的值映射到0至1的范围内。对属性income的73600元将被转化为:()本题答案:【0.716】4、【单选题】属性Hair_color={auburn,black,blond,brown,grey,red,white},该属性属于()类型本题答案:【标称】5、【单选题】下面不属于数据集特征的是()本题答案:【连续性】6、【填空题】一个数据集的分布的五数概括由最小值、第一个四分位数、_______、第三个四分位数、和最大值构成。本题答案:【中位数】7、【填空题】定用于分析的数据包含属性age。age值(以递增序)为:13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70。则数据的第一个四分位数的值为__,第三个四分位数的值为35本题答案:【20】8、【填空题】考虑值集{12243324556826},其四分位数极差是:___本题答案:【31】9、【填空题】数据集的属性可以划分为____和连续型两种。本题答案:【离散型】10、【填空题】两个向量d1=(1,1,2,1,1,1,0,0,0)d2=(1,1,1,0,1,1,1,1,1)的余弦相似度为()本题答案:【[0.8,0.83]】Test31、【单选题】假设12个销售价格记录组已经排序如下:5,10,11,13,15,35,50,55,72,92,204,215使用如下每种方法将它们划分成四个箱。等频(等深)划分时,15在第几个箱子内?()本题答案:【第二个】2、【单选题】以下哪种方法不是常用的数据约减方法()本题答案:【关联规则挖掘】3、【单选题】假定用于分析的数据包含属性age。数据元组中age的值如下(按递增序):13,15,16,16,19,20,20,21,22,22,25,25,25,30,33,33,35,35,36,40,45,46,52,70,问题:使用按箱平均值平滑方法对上述数据进行平滑,箱的深度为3。第二个箱子值为:()本题答案:【18.3】4、【判断题】主成分分析法是一种有参的数据约减方法本题答案:【正确】5、【判断题】离散属性总是具有有限个值。本题答案:【错误】6、【判断题】特征提取技术并不依赖于特定的领域。本题答案:【错误】7、【判断题】可以通过创造新的属性并加入到现有属性集中实现更有效的挖掘本题答案:【正确】8、【判断题】通过离散化操作可以将连续属性转化为序数属性本题答案:【正确】9、【判断题】通过数据集成可以维护数据源整体上的数据一致性本题答案:【正确】10、【判断题】可以将异常视为缺失值,利用缺失值处理的方法处理也可以用前后俩个观测值的平均值修正该异常值本题答案:【正确】Test41、【单选题】考虑下面的频繁3-项集的集合:{1,2,3},{1,2,4},{1,2,5},{1,3,4},{1,3,5},{2,3,4},{2,3,5},{3,4,5}假定数据集中只有5个项,采用合并策略,由候选产生过程得到4-项集不包含()本题答案:【1,2,4,5】2、【单选题】设X={1,2,3}是频繁项集,则可由X产生()个关联规则。本题答案:【6】3、【单选题】下面购物篮能够提取的3-项集的最大数量是多少()ID购买项1牛奶,啤酒,尿布2面包,黄油,牛奶3牛奶,尿布,饼干4面包,黄油,饼干5啤酒,饼干,尿布6牛奶,尿布,面包,黄油7面包,黄油,尿布8啤酒,尿布9牛奶,尿布,面包,黄油10啤酒,饼干本题答案:【3】4、【多选题】Apriori算法的计算复杂度受()影响。本题答案:【支持度阀值#项数(维度)#事务数#事务平均宽度】5、【多选题】非频繁模式()本题答案:【其支持度小于阈值#对异常数据项敏感】6、【多选题】利用Apriori算法计算频繁项集可以有效降低计算频繁集的时间复杂度。在以下的购物篮中产生支持度不小于3的候选3-项集,在候选2-项集中需要剪枝的是()ID购买项1面包、牛奶2面包、尿布、啤酒、鸡蛋3牛奶、尿布、啤酒、可乐4面包、牛奶、尿布、啤酒5面包、牛奶、尿布、可乐本题答案:【啤酒、面包#啤酒、牛奶】7、【多选题】下表是一个购物篮,假定支持度阈值为40%,其中()是频繁闭项集。TID项1abc2abcd3bce4acde5de本题答案:【abc#de】8、【判断题】关联规则挖掘过程是发现满足最小支持度的所有项集代表的规则。本题答案:【错误】9、【判断题】具有较高的支持度的项集具有较高的置信度。本题答案:【错误】10、【判断题】如果一个项集是频繁的,那包含它的所有项集也是频繁的。本题答案:【错误】Test51、【单选题】下面哪一项关于CART的说法是错误的本题答案:【CART输出变量只能是离散型】2、【单选题】假定你现在训练了一个线性SVM并推断出这个模型出现了欠拟合现象。在下一次训练时,应该采取下列什么措施?本题答案:【增加特征】3、【单选题】以下哪项关于决策树的说法是错误的本题答案:【决策树算法对于噪声的干扰非常敏感】4、【单选题】通过聚集多个分类器的预测来提高分类准确率的技术称为()本题答案:【组合(ensemble)】5、【单选题】以下两种描述分别对应哪两种对分类算法的评价标准?()(a)警察抓小偷,描述警察抓的人中有多少个是小偷的标准。(b)描述有多少比例的小偷给警察抓了的标准。本题答案:【Precision,Recall】6、【单选题】以下哪些算法是基于规则的分类器()本题答案:【C4】7、【判断题】KNN算法不仅可以用于分类,还可以用于回归本题答案:【正确】8、【判断题】FP表示被错误地划分为负例的个数,即实际为正例但被分类器划分为负例的实例数;本题答案:【错误】9、【判断题】KNN算法是一种典型的消极学习器。本题答案:【正确】10、【判断题】在决策树中,随着树中结点数变得太大,即使模型的训练误差还在继续减低,但是检验误差开始增大,这是出现了模型拟合不足的问题。本题答案:【错误】Test61、【单选题】简单地将数据对象集划分成不重叠的子集,使得每个数据对象恰在一个子集中,这种聚类类型称作()本题答案:【划分聚类】2、【单选题】在基本K均值算法里,当邻近度函数采用()的时候,合适的质心是簇中各点的中位数。本题答案:【曼哈顿距离】3、【单选题】()将两个簇的邻近度定义为不同簇的所有点对的平均逐对邻近度,它是一种凝聚层次聚类技术。本题答案:【组平均】4、【单选题】DBSCAN在最坏情况下的时间复杂度是()本题答案:【O(n^2)】5、【判断题】K均值很难处理非球形的簇和不同大小的簇,DBSCAN可以处理不同大小和不同形状的簇本题答案:【正确】6、【判断题】从点作为个体簇开始,每一步合并两个最接近的簇,这是一种分裂的层次聚类方法。本题答案:【错误】7、【判断题】DBSCAN中密度相连关系满足对称性本题答案:【正确】8、【判断题】聚类中把小簇划分成更小簇比把大簇划分为小簇的危害更大本题答案:【正确】9、【判断题】聚类中,当对象o的轮廓系数值接近0时,意味着包含o的簇是紧凑的,并且o远离其他簇本题答案:【错误】10、【判断题】基于K-均值的聚类中可以使用肘线图辅助确定k值本题答案:【正确】Test71、【单选题】以下不属于异常的是()本题答案:【噪声】2、【单选题】以下()属于无参数的异常检测方法本题答案:【直方图】3、【判断题】样本p的局部异常因子接近1意味样本p为异常点的概率较高本题答案:【错误】4、【判断题】异常检测前不需要剔除噪声点本题答案:【错误】5、【判断题】在异常检测评价中,召回率比精度更重要本题答案:【正确】6、【判断题】使用聚类方法可以有效检测出群体异常本题答案:【错误】7、【判断题】聚类中不属于任何簇的数据对象可以被认为是异常点本题答案:【正确】8、【判断题】局部异常因子计算中,将样本的局部密度与其邻居的局部密度进行比较,被密度明显低于其邻居的样本被认为是异常点。本题答案:【正确】9、【判断题】样本p的局部异常因子值接近1,说明p与其邻域点密度差不多,p可能和邻域点属于同一簇。本题答案:【正确】10、【填空题】局部异常因子计算中,样本p的第k邻域内点到p的平均可达距离的倒数成为样本p的________本题答案:【局部可达密度】test81、【单选题】在图的简化中,通过()可减少点的数目本题答案:【聚类】2、【单选题】文本可视化将文本中蕴含的语义特征直观展示出来。以下()不属于文本可视化方式。本题答案:【时空数据可视化】3、【判断题】数据的可视化是将数据以各种图表的形式展现在用户的面前,使用户能观察数据,并在较高的层次上找出数据间可能的关系。本题答案:【正确】4、【判断题】数据挖掘和可视化都是知识提取的方式。本题答案:【正确】5、【判断题】面向应用场景的可视化交互式数据挖掘方法是以数据挖掘算法和模型为主,并不针对具体应用场景或数据类型本题答案:【错误】6、【判断题】图是一种数据结构,其中的节点至少具有一个相邻元素。本题答案:【错误】7、【判断题】传统的统计数据可视化方法主要有两种:报表和统计图形。本题答案:【正确】8、【判断题】主成分分析法(PCA)是一种有监督的降维方法。本题答案:【错误】9、【填空题】___是使用线性或非线性变换把高维数据投影到低维空间。常用的方法有主成分分析法、线性判别分析、多维定标等。本题答案:【降维】10、【填空题】将时间事件流与地图进行融合,反映信息对象随时间进展与空间位置所发生的行为变化,可以用______来表示。本题答案:【流式地图】test91、【单选题】将原始数据进行集成、变换、维度规约、数值规约是以下哪个步骤的任务?()本题答案:【数据预处理】2、【多选题】数据仓库的数据ETL过程中,ETL软件的主要功能包括()本题答案:【数据抽取#数据加载#数据转换】3、【判断题】数据挖掘的主要任务是从数据中发现潜在规则,从而能更好的完成描述数据、预测数据的任务。本题答案:【正确】4、【填空题】传统数据仓库包括数据仓库数据库、数据抽取/转换/加载、元数据、访问工具、数据集市、和信息发布系统七个部分组成。本题答案:【数据仓库管理】5、【填空题】数据仓库的生命周期包括_规划分析阶段_、_设计实施阶

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论