版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、数据挖掘-题库带答案1、最早提出“大数据”时代到来的是全球知名咨询公司麦肯锡()答案:正确2、决策将日益基于数据和分析而作出,而并非基于经验和直觉()答案:错误解析:决策将日益基于数据和分析而作出,而并非基于经验和直觉3、2011年被许多国外媒体和专家称为“大数据元年”()答案:错误解析:2013年被许多国外媒体和专家称为“大数据元年”4、我国网民数量居世界之首,每天产生的数据量也位于世界前列()答案:正确5、商务智能的联机分析处理工具依赖于数据库和数据挖掘。()答案:错误解析:商务智能的联机分析处理工具依赖于数据仓库和多维数据挖掘。6、数据整合、处理、校验在目前已经统称为EL()答案:错误解
2、析:数据整合、处理、校验在目前已经统称为ETL7、大数据时代的主要特征()A、数据量大B、类型繁多C、价值密度低D、速度快时效高答案:ABCD8、下列哪项不是大数据时代的热门技术()A、数据整合B、数据预处理C、数据可视化D、SQL答案:D9、()是一种统计或数据挖掘解决方案,包含可在结构化和非结构化数据中使用以 确定未来结果的算法和技术。A、预测B、分析C、预测分析D、分析预测答案: C10、大数据发展的前提?答案:解析:硬件成本的降低,网络带宽的提升,云计算的兴起,网络技术的发展,智能终 端的普及,电子商务、社交网络、电子地图等的全面应用,物联网的兴起11、调研、分析大数据发展的现状与应用
3、领域。?答案:解析:略12、大数据时代的主要特征?答案:解析:数据量大(Volume)第一个特征是数据量大。大数据的起始计量单位至少是P(1000个T)、E(100万个T)或Z(10亿个T)。类型繁多(Variety)第二个特征是数据类型繁多。包括网络日志、音频、视频、图片、地理位置信息 等等,多类型的数据对数据的处理能力提出了更高的要求。价值密度低(Value)第三个特征是数据价值密度相对较低。如随着物联网的广泛应用,信息感知无处 不在,信息海量,但价值密度较低,如何通过强大的机器算法更迅速地完成数据的 价值“提纯”,是大数据时代亟待解决的难题。速度快、时效高(Velocity)第四个特征是
4、处理速度快,时效性要求高。这是大数据区分于传统数据挖掘最显 著的特征。13、列举大数据时代的主要技术?答案:解析:预测分析:预测分析是一种统计或数据挖掘解决方案,包含可在结构化和 非结构化数据中使用以确定未来结果的算法和技术。可为预测、优化、预报和模 拟等许多其他用途而部署。随着现在硬件和软件解决方案的成熟,许多公司利用 大数据技术来收集海量数据、训练模型、优化模型,并发布预测模型来提高业务 水平或者避免风险;当前最流行的预测分析工具当属IBM公司的SPSS,SPSS这个 软件大家都已经很熟悉了,它集数据录入、整理、分析功能于一身。用户可以根 据实际需要和计算机的功能选择模块,SPSS的分析结
5、果清晰、直观、易学易用, 而且可以直接读取EXCEL及DBF数据文件,现已推广到多种各种操作系统的计算 机上。NoSQL数据库:非关系型数据库包括Key-value型(Redis)数据库、文档型 (MonogoDB)数据库、图型(Neo4j)数据库;虽然NoSQL流行语火起来才短短一年的 时间,但是不可否认,现在已经开始了第二代运动。尽管早期的堆栈代码只能算是 一种实验,然而现在的系统已经更加的成熟、稳定。搜索和认知商业:当今时代大数据与分析已经发展到一个新的高度,那就是认知 时代,认知时代不再是简单的数据分析与展示,它更多的是上升到一个利用数据 来支撑人机交互的一种模式,例如前段时间的围棋大
6、战,就是一个很好的应用、现 已经逐步推广到机器人的应用上面,也就是下一个经济爆发点一人工智能,互联 网人都比较熟悉国内的BAT,以及国外的apple、google、facebook、IBM、微软、 亚马逊等等;可以大致看一下他们的商业布局,未来全是往人工智能方向发展,当 然目前在认知商业这一块IBM当属领头羊,特别是当前主推的watson这个产品, 以及取得了非常棒的效果;关于更多认知商业资料流式分析:目前流式计算是业界研究的一个热点,最近Twitter、LinkedIn等公司 相继开源了流式计算系统Storm、Kafka等,加上Yahoo!之前开源的S4,流式计算 研究在互联网领域持续升温,
7、流式分析可以对多个高吞吐量的数据源进行实时的 清洗、聚合和分析;对存在于社交网站、博客、电子邮件、视频、新闻、电话记 录、传输数据、电子感应器之中的数字格式的信息流进行快速处理并反馈的需求。 内存数据结构:通过动态随机内存访问(DRAM)、Flash和SSD等分布式存储系统 提供海量数据的低延时访问和处理;分布式存储系统:分布式存储是指存储节点大于一个、数据保存多副本以及高性 能的计算网络;利用多台存储服务器分担存储负荷,利用位置服务器定位存储信 息,它不但提高了系统的可靠性、可用性和存取效率,还易于扩展。当前开源的 HDFS还是非常不错数据可视化:数据可视化技术是指对各类型数据源(包括had
8、oop上的海量数据以 及实时和接近实时的分布式数据)进行显示;当前国内外数据分析展示的产品很 多,如果是企业单位以及政府单位建议使用cognos ,安全、稳定、功能强大、支 持大数据、非常不错的选择。数据整合:通过亚马逊弹性 MR(EMR)、Hive、Pig、Spark、MapReduce、Couchbase、 Hadoop和MongoDB等软件进行业务数据整合;数据预处理:数据整合是指对数据源进行清洗、裁剪,并共享多样化数据来加快数 据分析;数据校验:对分布式存储系统和数据库上的海量、高频率数据集进行数据校验, 去除非法数据,补全缺失。数据整合、处理、校验在目前已经统称为ETL ,ETL过程
9、可以把结构化数据以及 非结构化数据进行清洗、抽取、转换成你需要的数据、同时还可以保障数据的安 全性以及完整性、关于ETL的产品推荐使用datastage就行、对于任何数据源 都可以完美处理。14、数据挖掘就是知识发现的过程()答案:错误解析:数据挖掘是数据库知识发现(英语:Knowledge-Discovery in Databases, 简称:KDD)中的一个步骤15、数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程()答案:正确16、Data Mining有相当大的比重是由高等统计学中的多变量分析所支撑()答案:正确17、现实意义中的数据挖掘分析对象是真实的海量数据;这些数据
10、之间存在一定 的逻辑关系;数据大多是模糊的、随机的、不完整的、无意义的噪声数据()答案:错误解析:现实意义中的数据挖掘分析对象是真实的海量数据;这些数据之间没有一 定的逻辑关系;数据大多是模糊的、随机的、不完整的、无意义的噪声数据18、数据挖掘主要构建四大类模型包括:分类、聚类、预测和关联()答案:正确19、基于事物发展的延续性和随机性预测事物未来的发展属于时间序列分析()答案:正确20、数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随 机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用 的信息和知识的过程。A、大量的B、不完全的C、有噪声的D
11、、模糊的答案: ABCD21、下列哪个领域没有应用数据挖掘技术A、农业B、金融C、教育D、以上全部应用 答案: D22、依据历史数据形成刻画用户特征的类标识,进而可以预测未来数据的归类情 况,属于()A、聚类B、分类C、预测D、关联答案:B23、在事先不知道数据分类的情况下,根据数据之间的相似程度进行划分,目的 是使得同类别的数据对象之间的差别尽可能的小,不同类别的数据对象之间的 差别尽可能的大。属于()A、聚类B、分类C、预测D、关联答案: A24、基于输入的用户信息,通过模型的训练学习,找出数据中的规律和趋势,以确 定未来目标数据的预测值()A、聚类B、分类C、预测D、关联答案: C25、
12、从购物篮商品集中找出商品与商品之间的关系,有助于发兀同商品之间的联 系()A、聚类B、分类C、预测D、关联 答案: D26、阐述数据挖掘与数据分析的区别?答案:27、数据挖掘就是知识发现的过程()答案:错误28、数据挖掘被认为是从数据中发现有用知识的整个过程() 答案:错误解析:知识发现(KDD)被认为是从数据中发现有用知识的整个过程29、数据挖掘被认为是KDD过程中的一个特定步骤,它是用专门算法从数据中 抽取模式。答案:正确30、知识发现的原始数据,可以是结构化的,如数据库中的数据;也可以是半结 构化的,如文本、图形和图像数据;但不能是异构型数据()答案:错误解析:可以是结构化的,如数据库中
13、的数据;也可以是半结构化的,如文本、图形 和图像数据;甚至是分布在网络上的异构型数据。31、发现知识的方法可以是数学的,也可以是非数学的;可以是演绎的,也可 以是归纳的()答案:正确32、从大量的数据中经过深层分析,获得有利于商业运作、提高竞争力的信息, 就像从矿石中淘金一样,数据挖掘也因此而得名()答案:正确33、CRISP-DM过程是正确的顺序是:商业理解一数据准备一理解数据一建立模型-模型评估一结果发布()答案:错误解析:商业理解一理解数据一数据准备一建立模型一模型评估一结果发布34、CRISP-DM是“跨行业数据挖掘标准过程”的简写()答案:正确35、整个挖掘过程是一个不断反馈的过程答
14、案:对选择题;36、知识发现的英文简写是() TOC o 1-5 h z A、DKDB、KDDC、DMD、DA 答案:B37、数据挖掘的英文简写是() TOC o 1-5 h z A、DKDB、KDDC、DMD、DA答案: C38、CRISP-DM过程模型过程包括()个阶段 HYPERLINK l bookmark100 o Current Document A、5B、6C、7D、8答案: B39、CRISP-DM是哪个术语的简写()A、跨行业数据挖掘标准过程B、数据分析C、数据挖掘标准D、数据挖掘过程答案: A40、下面哪个CRISP-DM过程是正确的()A、商业理解一理解数据一数据准备一模
15、型评估一建立模型一结果发布B、商业理解一理解数据一建立模型一数据准备一模型评估一结果发布C、商业理解一理解数据一数据准备一建立模型一模型评估一结果发布D、商业理解一数据准备一理解数据一建立模型一模型评估一结果发布 答案: C41、KDD过程主要包括()A、数据准备B、数据挖掘C、结果表达D、结果表示答案:ABCD42、判断题:SPSS M中的一个图标代表一个操作()答案:正确43、判断题:单击选项板上的节点,自动把新节点连接到数据流区域中的“中心”节点上()答案:错误解析:双击选项板上的节点,自动把新节点连接到数据流区域中的“中心”节点 上44、源节点是连接到初始数据源的节点,源节点只能发送数
16、据()答案:正确45、终端节点是生成输出、图形、表格和模型的节点,可以连接到任何节点()答案:错误解析:终端节点是生成输出、图形、表格和模型的节点,不能从终端节点连接到 任何节点46、填空题:一系列连接在一起的节点被称作答案:解析:工作流47、用来将数据读入SPSS Modeler中答案:解析:源节点48、SPSS Modeler可以运行在 和两种模式下答案:解析:SPSS Modeler可以运行在客户端和服务器端两种模式下11.当节点在选项板中被选中后,会变成()红色黄色淡蓝色绿色49、在选项板上()节点,自动放置节点到数据流区域A、单击B、双击C、选中D、右键单击答案:B50、SPSS 中
17、所有的节点都放在()A、数据流区B、项目窗口C、工具栏D、选项板区答案: D51、在Modeler中数据使用下列类型()A、连续型:用于描述数值。B、离散型:用于当一个具体值的精确数量未知时描述字符串。C、标志型:用于只取两个具体值的数据,如T或F,Y或N,0或1。答案: ABC52、位于SPSS M窗口中间部分的是()区A、工具箱B、流管理C、数据流编辑D、工程管理答案: C53、位于SPSS M主窗口左侧下方的窗口是()A、工具箱B、流管理C、数据流编辑D、工程管理窗口答案: D54、节点工具箱窗口位于主窗口的()A、下方B、左侧C、右侧D、上方答案:A55、()是组成数据流的最小单位A、
18、节点B、文件C、数据D、超节点答案: A56、SPSS M中()用于存放数据流中最常用的节点A、收藏夹B、源C、字段选项D、建模答案: A57、SPSS M中()用于存放绘制各种统计图形的节点A、收藏夹B、源C、字段选项D、图形答案: D58、SPSS M中()存放读入各种外部数据的节点A、收藏夹B、源C、字段选项D、建模答案: B59、SPSS M中()用于存放针对字段操作的节点A、收藏夹B、源C、字段选项D、建模答案:C60、SPSS M中()存放建立各种数据模型的节点A、收藏夹B、源C、字段选项D、建模答案:D61、SPSS M中()用于存放显示数据集其基本统计特征的节点A、收藏夹B、输
19、出C、字段选项D、建模答案: B62、SPSS M中()存放将数据转换成其他格式的节点A、收藏夹B、导出C、字段选项D、建模答案: B63、通过窗口上的上下按钮可以使窗口呈现“可见”和“不可见”状态()答案:正确64、管理数据流是Modeler的核心操作()答案:正确65、源选项卡中的节点作为起始节点,可以有父节点连接()答案:错误解析:源选项卡中的节点作为起始节点,不能有父节点连接66、缓冲节点用于建立一个数据缓冲区,存放数据流执行至此的中间结果()答案:正确67、在Modeler中从“源”节点的“可变文件”读入TXT数据()答案:正确68、变量类型可以从数据挖掘和数据存储两个角度划分:答案
20、:正确69、Modeler中变量分为实例化和非实例化两种状态:错Modeler中变量分为实例化、半实例化和非实例化两种状态答案:70、当变量的存储类型和取值都未知时,变量为()状态A、实例化B、半实例化C、非实例化D、赋值答案: C71、当变量的存储类型和取值都已经确定时,变量为()状态:A、实例化B、半实例化C、非实例化D、赋值答案:72、当仅知道变量的存储类型,但取值范围未知时,变量为()状态A、实例化B、半实例化C、非实例化D、赋值 答案: B73、在数据挖掘的实际问题中,人么更多考虑变量的存储类型:错 在数据挖掘的实际问题中,人么更多考虑变量的计量类型答案:74、变量类型可以从数据挖掘
21、和数据存储两个角度划分:答案:正确75、Modeler中,表示客户的年龄、家庭人数的变量是类型变量()答案:错误解析:表示客户的年龄、家庭人数的变量是数值型变量76、Modeler中,表示性别、职业的变量是定序型变量()答案:错误解析:表示性别、职业的变量是定类型变量()77、Modeler中,表示学历和收入水平的变量是定序型变量()答案:正确78、Modeler中,学号等编号变量或者长文字等复杂数据变量,往往是无类型变量, 无类型变量可以参与数据建模()答案:错误解析:学号等编号变量或者长文字等复杂数据变量,往往是无类型变量,无类型变 量不可以参与数据建模79、Modeler中,缺省型是一种
22、尚未明确的变量类型()答案:正确80、Modeler中,连续数值型变量可采用整数型或者实数型类型存储()答案:正确81、Modeler中,多分类型变量可采用整数型或字符串型存储答案:对选择题:;82、Modeler中,()选项卡用于指定读入数据的基本格式A、【数据】B、【文件】C、【过滤】D、【类型】 答案: B83、Modeler中,()选项卡用于指定所读变量的存储类型和输入格式A、【数据】B、【文件】C、【过滤】D、【类型】答案:A84、Modeler中,()选项卡用于指定读数据时不读哪些变量,还可以重新修改变量 名A、【数据】B、【文件】C、【过滤】D、【类型】答案: C85、Model
23、er中,()选项卡用于指定变量的计量类型,对变量的缺失值和取值合理 性进行检查A、【数据】B、【文件】C、【过滤】D、【类型】答案: D86、Modeler中,数据理解主要包括()A、数据质量评估B、数据调整C、数据的有序浏览D、多维度汇总答案: ABCD87、Modeler中,可以通过【字段选项】中的()进行变量说明A、【源】B、【节点】C、【合并】D、【类型】答案:D88、Modeler中,离群点和极端值的调整方法中:()表示剔除离群点和极端值A、无效B、丢弃C、强制替换丢弃极值D、强制替换使极值无效答案: B89、Modeler中,离群点和极端值的调整方法中:()用系统缺失值$null$
24、代替离群 点或极端值A、无效B、丢弃C、强制替换丢弃极值D、强制替换使极值无效答案: A90、Modeler中,离群点和极端值的调整方法中:()表示按照强制方法修正离群点, 并提出极端值A、无效B、丢弃C、强制替换丢弃极值D、强制替换使极值无效答案: C91、Modeler中,离群点和极端值的调整方法中:()表示按照强制方法修正离群点, 并将极端值调整为系统缺失值A、无效B、丢弃C、强制替换丢弃极值D、强制替换使极值无效答案: D92、填空:Modeler中,可以通过【输出】选项卡中的节点评估数据质量答案:【数据审核】;93、Modeler中,【类型】节点可以添加到数据流中的任何位置答案:正确
25、94、Modeler中的空,就是传统意义上的空字符串()答案:错误解析:Modeler中的空,并非一般意义上的空串,它可以使数值,也可以是空格,还 可以是$null$95、,在Modeler中,分析顾客的收入对其消费的影响时,收入就是输入变量,消 费就是目标变量答案:正确96、Modeler中,借助【数据】节点的执行结果,可自动保留质量高的变量,剔除质量不高的变量()答案:错误解析:Modeler中,借助【数据审核】节点的执行结果,可自动保留质量高的变量, 剔除质量不高的变量97、单变量排序只根据一个变量的升序或者降序排列数据答案对答案:98、【记录选项】选项卡中的【汇总】节点可实现数据的分类
26、汇总()答案:正确99、分类汇总是根据一个变量对数据分组后,计算其他指定变量的基本描述统计量()答案:错误解析:单变量分类汇总是根据一个变量对数据分组后,计算其他指定变量的基本 描述统计量100、判断题:CLEM可用于描述算数表达式和条件表达式()答案:正确101、判断题:在Modeler中,可通过【字段选项】选项卡中的【填充】节点实现 对变量的重新计算答案:正确102、判断题:【字段选项】中的【导出】节点可实现变量类别的调整()答案:错误解析:【字段选项】中的【重新分类】节点可实现变量类别的调整103、判断题:【字段选项】中的【导出】节点可实现派生新变量()答案:正确104、判断题:有些统计
27、分析方法对变量的分布有限定,当不满足要求时,通过【变 换】节点,来将原有变量变更为服从正态分布的新变量()答案:正确105、判断题:可以通过【记录选项】中的【筛选】节点,来实现对数据的精简和 抽样()答案:错误解析:可以通过【记录选项】中的【样本】节点,来实现对数据的精简和抽样106、判断题:可以通过【记录选项】中的【样本】节点,来实现对数据的条件选 取()答案:错误解析:可以通过【记录选项】中的【选择】节点,来实现对数据的条件选取107、选择题:Modeler中,【填充】的【设置】选项卡中(),表示指定一个或多个 重新计算的变量名A、填入字段B、替换为C、替换D、设置答案:A108、选择题:
28、Modeler中,【填充】的【设置】选项卡中(),指定重新计算的计算 方法A、填入字段B、替换为C、替换D、设置答案: B109、选择题:Modeler中,【填充】的【设置】选项卡电【替换】提供了几种变 量值重新计算的条件,其中()表示所有样本都重新计算A、始终B、空值C、无效值D、空值与无效值答案:A110、Modeler中,【填充】的【设置】选项卡中,【替换】提供了几种变量值重 新计算的条件,其中()用【替换为】框的计算结果替代变量中的系统缺失值 $null$A、始终B、空值C、无效值D、空值与无效值答案: C111、Modeler中,【填充】的【设置】选项卡中,【替换】提供了几种变量值重
29、 新计算的条件,其中()用【替换为】框的计算结果替代变量中的空A、始终B、空值C、无效值D、空值与无效值答案: B112、Modeler中,【填充】的【设置】选项卡中,【替换】提供了几种变量值重 新计算的条件,其中()用【替换为】框的计算结果替代变量中的系统缺失值 $null$和空A、始终B、空值C、无效值D、空值与无效值答案: D113、信息论的基本出发点认为:第一,信息传递是通过一个传递系统实现;第二()答案:传递系统处于一个随机干扰的环境中 ;114、置信度越大,所允许的悲观误差估计越()答案:高;115、被减去的子树越大,最终的决策树越()答案:小;116、一个只有一个根节点答案:正确
30、117、没有下层的节点成为叶节点答案:正确118、某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种 属于数据挖掘的哪类问题?()A、关联规则发现B、聚类C、分类D、自然语言处理答案: A119、以下两种描述分别对应哪两种对分类算法的评价标准?()A、警察抓小偷,描述警察抓的人中有多少个是小偷的标准。B、描述有多少比例的小偷给警察抓了的标准。Precision, RecallRecall, PrecisionC、Precision, ROCD、Recall, ROC答案: A120、将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任 务?()A、频繁模式挖掘B、分
31、类和预测C、数据预处理D、数据流挖掘答案:C121、当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带 其他标签的数据相分离?()A、分类B、聚类C、关联分析D、隐马尔可夫链答案: B122、什么是 KDD?()A、数据挖掘与知识发现B、领域知识发现C、文档知识发现D、动态知识发现答案: A123、使用交互式的和可视化的技术,对数据进行探索属于数据挖掘的哪一类任 务?()A、探索性数据分析B、建模描述C、预测建模D、寻找模式和规则答案: A124、为数据的总体分布建模;把多维空间划分成组等问题属于数据挖掘的哪一 类任务?( )A、探索性数据分析B、建模描述C、预测建模D、寻找模式
32、和规则 答案: B125、建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值属 于数据挖掘的哪一类任务?()A、根据内容检索B、建模描述C、预测建模D、寻找模式和规则答案:C126、用户有一种感兴趣的模式并且希望在数据集中找到相似的模式,属于数据 挖掘哪一类任务?()A、根据内容检索B、建模描述C、预测建模D、寻找模式和规则答案: A127、下面哪种不属于数据预处理的方法?()A、变量代换B、离散化C、聚集D、估计遗漏值答案: D128、假设12个销售价格记录组已经排序如下:5,10, 11, 13, 15,35, 50, 55, 72, 92, 204, 215使用如下每种方法将
33、它们划分成四个箱。等频(等深)划分时,15在第几个箱子内?()A、第一个B、第二个C、第三个D、第四个答案: B129、上题中,等宽划分时(宽度为50),15又在哪个箱子里?()A、第一个B、第二个C、第三个D、第四个答案:A130、下面哪个不属于数据的属性类型:()A、标称B、序数C、区间D、相异答案: D131、在上题中,属于定量的属性类型是:()A、标称B、序数C、区间D、相异答案: C132、只有非零值才重要的二元属性被称作:()A、计数属性B、离散属性C、非对称的二元属性D、对称属性答案: C133、以下哪种方法不属于特征选择的标准方法:()A、嵌入B、过滤C、包装D、抽样 答案:
34、D134、下面不属于创建新属性的相关方法的是:()A、特征提取B、特征修改C、映射数据到新的空间D、特征构造答案:B 135、考虑值集1、2、3、4、5、90,其截断均值(p=20%)是() TOC o 1-5 h z A、2B、3C、3.5D、5答案: C 136、下面哪个属于映射数据到新的空间的方法?()A、傅立叶变换B、特征加权C、渐进抽样D、维归约答案: A 137、熵是为消除不确定性所需要获得的信息量,投掷均匀正六面体骰子的熵是: ( )A、1比特B、2.6比特C、3.2比特D、3.8比特答案: B 138、假设属性income的最大最小值分别是12000元和98000元。利用最大最
35、 小规范化的方法将属性的值映射到0至1的范围内。对属性income的73600元 将被转化为:() TOC o 1-5 h z A、0.821B、1.224C、1.458D、0.716答案:D139、假定用于分析的数据包含属性age。数据元组中age的值如下(按递增 序):13,15,16,16,19,20,20,21,22,22,25,25,25,30,33,33,35,35,36,40,45,4 6,52,70,问题:使用按箱平均值平滑方法对上述数据进行平滑,箱的深度为3。 第二个箱子值为:() TOC o 1-5 h z A、18.3B、22.6C、26.8D、27.9答案: A140、
36、考虑值集12 24 33 2 4 55 68 26,其四分位数极差是:()A、31B、24C、55D、3答案: A141、一所大学内的各年纪人数分别为:一年级200人二年级160人三年级130 人四年级110人。则年级属性的众数是:()A、一年级B、二年级C、三年级D、四年级答案: A142、下列哪个不是专门用于可视化时间空间数据的技术:()A、等高线图B、饼图C、曲面图D、矢量场图 答案: B143、在抽样方法中,当合适的样本容量很难确定时,可以使用的抽样方法是:()A、有放回的简单随机抽样B、无放回的简单随机抽样C、分层抽样D、渐进抽样答案:D144、数据仓库是随着时间变化的,下面的描述不
37、正确的是()A、数据仓库随时间的变化不断增加新的数据内容;B、捕捉到的新数据会覆盖原来的快照;C、数据仓库随事件变化不断删去旧的数据内容;D、数据仓库中包含大量的综合数据,这些综合数据会随着时间的变化不断地进 行重新综合.答案: C145、关于基本数据的元数据是指:()A、基本元数据与数据源,数据仓库,数据集市和应用程序等结构相关的信息;B、基本元数据包括与企业相关的管理方面的数据和信息;C、基本元数据包括日志文件和简历执行处理的时序调度信息;D、基本元数据包括关于装载和更新处理,分析处理以及管理方面的信息.答案: D146、下面关于数据粒度的描述不正确的是:()A、粒度是指数据仓库小数据单元
38、的详细程度和级别;B、数据越详细,粒度就越小,级别也就越高;C、数据综合度越高,粒度也就越大,级别也就越高;D、粒度的具体划分将直接影响数据仓库中的数据量以及查询质量.答案: C147、有关数据仓库的开发特点,不正确的描述是:()A、数据仓库开发要从数据出发;B、数据仓库使用的需求在开发出去就要明确;C、数据仓库的开发是一个不断循环的过程,是启发式的开发;D、在数据仓库环境中,并不存在操作型环境中所固定的和较确切的处理流,数据 仓库中数据分析和处理更灵活,且没有固定的模式答案:A148、在有关数据仓库测试,下列说法不正确的是:()A、在完成数据仓库的实施过程中,需要对数据仓库进行各种测试.测试
39、工作中要 包括单元测试和系统测试.B、当数据仓库的每个单独组件完成后,就需要对他们进行单元测试.C、系统的集成测试需要对数据仓库的所有组件进行大量的功能测试和回归测 试.D、在测试之前没必要制定详细的测试计划.答案:D149、OLAP技术的核心是:()A、在线性;B、对用户的快速响应;C、互操作性.D、多维分析;答案: D150、关于OLAP的特性,下面正确的是:()快速性可分析性(3)多维性(4)信息性(5)共享性 TOC o 1-5 h z A、(1)(2)(3)B、(2)(3)(4)C、(1)(2)(3)(4)D、(1)(2)(3)(4) (5)答案: D151、关于OLAP和OLTP的
40、区别描述,不正确的是:()A、OLAP主要是关于如何理解聚集的大量不同的数据.它与OTAP应用程序不同.B、与OLAP应用程序不同,OLTP应用程序包含大量相对简单的事务.C、OLAP的特点在于事务量大,但事务内容比较简单且重复率高.D、OLAP是以数据仓库为基础的,但其最终数据来源与OLTP 一样均来自底层的 数据库系统,两者面对的用户是相同的.答案: C152、OLAM技术一般简称为”数据联机分析挖掘”,下面说法正确的是:()A、OLAP和OLAM都基于客户机/服务器模式,只有后者有与用户的交互性;B、由于OLAM的立方体和用于OLAP的立方体有本质的区别.C、基于WEB的OLAM是WEB
41、技术与OLAM技术的结合.D、OLAM服务器通过用户图形借口接收用户的分析指令,在元数据的知道下,对 超级立方体作一定的操作.答案:D153、关于OLAP和OLTP的说法,下列不正确的是:()A、OLAP事务量大,但事务内容比较简单且重复率高.B、OLAP的最终数据来源与OLTP不一样.C、OLTP面对的是决策人员和高层管理人员.D、OLTP以应用为核心,是应用驱动的.答案: A154、设乂=1,2,3是频繁项集,则可由X产生_( )_个关联规则。 TOC o 1-5 h z A、4B、5C、6D、7答案: C155、概念分层图是_( )_图。A、无向无环B、有向无环C、有向有环D、无向有环答
42、案: B156、频繁项集、频繁闭项集、最大频繁项集之间的关系是:()A、频繁项集频繁闭项集二最大频繁项集B、频繁项集二频繁闭项集最大频繁项集C、频繁项集频繁闭项集最大频繁项集D、频繁项集二频繁闭项集二最大频繁项集157、考虑下面的频繁3-项集的集合:1,2,3,1,2,4,1,2,5,1,3,4,1,3,5,2,3,4,2,3,5,3,4,5假定数据集中只有5个项,采用合并策略,由候选产生过程得到4-项集不包含()A、1,2,3,4B、1,2,3,5C、1,2,4,5D、1,3,4,5答案:C158、下面选项中t不是s的子序列的是()A、s= t=B、s= t=C、s= t=D、s= t=答案
43、: C159、在图集合中发现一组公共子结构,这样的任务称为()A、频繁子集挖掘B、频繁子图挖掘C、频繁数据项挖掘D、频繁模式挖掘答案: B160、下列度量不具有反演性的是()A、系数B、几率C、Cohen 度量D、兴趣因子答案: D161、下列_( )_不是将主观信息加入到模式发现任务中的方法。A、与同一时期其他数据对比B、可视化C、基于模板的方法D、主观兴趣度量答案:A162、下面购物篮能够提取的3-项集的最大数量是多少 ID购买项答案:C;163、牛奶,啤酒,尿布答案:164、面包,黄油,牛奶答案:165、牛奶,尿布,饼干答案:166、面包,黄油,饼干答案:167、啤酒,饼干,尿布答案:1
44、68、牛奶,尿布,面包,黄油答案:169、面包,黄油,尿布答案:170、啤酒,尿布答案:171、啤酒,饼干 TOC o 1-5 h z A、1B、2C、3D、4 答案:172、以下哪些算法是分类算法,()A、,DBSCAN TOC o 1-5 h z B、,C4.5C、,K-MeanD、,EM答案:B173、以下哪些分类方法可以较好地避免样本的不平衡问题,()A、,KNN HYPERLINK l bookmark711 o Current Document B、,SVMC、,BayesD、,神经网络答案: A174、决策树中不包含一下哪种结点,()A、,根结点(root node)B、,内部结
45、点(internal node)C、,外部结点(external node)D、,叶结点(leaf node)答案: C175、以下哪项关于决策树的说法是错误的()A、冗余属性不会对决策树的准确率造成不利的影响B、子树可能在决策树中重复多次C、决策树算法对于噪声的干扰非常敏感D、寻找最佳决策树是NP完全问题答案: C176、在基于规则分类器的中,依据规则质量的某种度量对规则排序,保证每一个 测试记录都是由覆盖它的“最好的”规格来分类,这种方案称为()A、基于类的排序方案B、基于规则的排序方案C、基于度量的排序方案D、基于规格的排序方案。177、以下哪些算法是基于规则的分类器()A、C4.5B、
46、KNNC、Na?ve BayesD、ANN答案:A178、如果规则集R中不存在两条规则被同一条记录触发,则称规则集R中的规 则为();A、,无序规则B、,穷举规则C、,互斥规则D、,有序规则答案: C179、如果对属性值的任一组合,R中都存在一条规则加以覆盖,则称规则集R中 的规则为( )A、,无序规则B、,穷举规则C、,互斥规则D、,有序规则答案: B180、如果规则集中的规则按照优先级降序排列,则称规则集是()A、,无序规则B、,穷举规则C、,互斥规则D、,有序规则答案: D181、如果允许一条记录触发多条分类规则,把每条被触发规则的后件看作是对 相应类的一次投票,然后计票确定测试记录的类
47、标号,称为()A、,无序规则B、,穷举规则C、,互斥规则D、,有序规则答案:A182、考虑两队之间的足球比赛:队0和队1。假设65%的比赛队0胜出,剩余的 比赛队1获胜。队0获胜的比赛中只有30%是在队1的主场,而队1取胜的比赛 中75%是主场获胜。如果下一场比赛在队1的主场进行队1获胜的概率为()A、,0.75B、,0.35C、,0.4678D、,0.5738答案: C183、以下关于人工神经网络(ANN)的描述错误的有()A、,神经网络对训练数据中的噪声非常鲁棒B、,可以处理冗余特征C、,训练ANN是一个很耗时的过程D、,至少含有一个隐藏层的多层神经网络答案: A184、通过聚集多个分类器
48、的预测来提高分类准确率的技术称为()A、,组合(ensemble)B、,聚集(aggregate)C、,合并(combination)D、,投票(voting)答案: A185、简单地将数据对象集划分成不重叠的子集,使得每个数据对象恰在一个子 集中,这种聚类类型称作()A、层次聚类B、划分聚类C、非互斥聚类D、模糊聚类186、在基本K均值算法里,当邻近度函数采用()的时候,合适的质心是簇中各 点的中位数。A、曼哈顿距离B、平方欧几里德距离C、余弦距离D、Bregman 散度答案:A187、()是一个观测值,它与其他观测值的差别如此之大,以至于怀疑它是由不 同的机制产生的。A、边界点B、质心C、
49、离群点D、核心点答案: C188、BIRCH 是一种()。A、分类器B、聚类算法C、关联分析算法D、特征选择算法答案: B189、检测一元正态分布中的离群点,属于异常检测中的基于()的离群点检测。A、统计方法B、邻近度C、密度D、聚类技术答案: A190、()将两个簇的邻近度定义为不同簇的所有点对的平均逐对邻近度,它是一 种凝聚层次聚类技术。A、MIN(单链)B、MAX(全链)C、组平均D、Ward方法答案:C191、()将两个簇的邻近度定义为两个簇合并时导致的平方误差的增量,它是一 种凝聚层次聚类技术。A、MIN(单链)B、MAX(全链)C、组平均D、Ward方法答案: D192、DBSCA
50、N在最坏情况下的时间复杂度是()。A、O(m)B、O(m2)C、O(log m)D、O(m*log m)答案: B193、在基于图的簇评估度量表里面,如果簇度量为proximity(Ci , C),簇权值 为mi ,那么它的类型是()。A、基于图的凝聚度B、基于原型的凝聚度C、基于原型的分离度D、基于图的凝聚度和分离度答案: C194、关于K均值和DBSCAN的比较,以下说法不正确的是()。A、K均值丢弃被它识别为噪声的对象,而DBSCAN 一般聚类所有对象。B、K均值使用簇的基于原型的概念,而DBSCAN使用基于密度的概念。C、K均值很难处理非球形的簇和不同大小的簇,DBSCAN可以处理不同
51、大小和不 同形状的簇。D、K均值可以发现不是明显分离的簇,即便簇有重叠也可以发现,但是DBSCAN 会合并有重叠的簇。答案: A195、以下是哪一个聚类算法的算法流程:构造k-最近邻图。使用多层图划 分算法划分图。repeat:合并关于相对互连性和相对接近性而言,最好地保持 簇的自相似性的簇。until:不再有可以合并的簇。()。A、MSTB、OPOSSUMC、ChameleonD、Jarvis-Patrick(JP)答案:C196、考虑这么一种情况:一个对象碰巧与另一个对象相对接近,但属于不同的类, 因为这两个对象一般不会共享许多近邻,所以应该选择()的相似度计算方法。A、平方欧几里德距离B
52、、余弦距离C、直接相似度D、共享最近邻答案: D197、以下属于可伸缩聚类算法的是()。A、CUREB、DENCLUEC、CLIQUED、OPOSSUM答案: A198、以下哪个聚类算法不是属于基于原型的聚类()。A、模糊c均值B、EM算法C、SOMD、CLIQUE答案: D199、关于混合模型聚类算法的优缺点,下面说法正确的是()。A、当簇只包含少量数据点,或者数据点近似协线性时,混合模型也能很好地处理。B、混合模型比K均值或模糊c均值更一般,因为它可以使用各种类型的分布。C、混合模型很难发现不同大小和椭球形状的簇。D、混合模型在有噪声和离群点时不会存在问题。答案:B200、以下哪个聚类算法
53、不属于基于网格的聚类算法()。A、STINGB、WaveClusterC、MAFIAD、BIRCH答案: D201、一个对象的离群点得分是该对象周围密度的逆。这是基于()的离群点定 义。A、概率B、邻近度C、密度D、聚类答案: C202、下面关于Jarvis-Patrick(JP)聚类算法的说法不正确的是()。A、JP聚类擅长处理噪声和离群点,并且能够处理不同大小、形状和密度的簇。B、JP算法对高维数据效果良好,尤其擅长发现强相关对象的紧致簇。C、JP聚类是基于SNN相似度的概念。D、JP聚类的基本时间复杂度为O(m)。二、多选题答案: D203、通过数据挖掘过程所推倒出的关系和摘要经常被称为
54、:()A、模型B、模式C、模范D、模具答案: AB204、寻找数据集中的关系是为了寻找精确、方便并且有价值地总结了数据的某 一特征的表示,这个过程包括了以下哪些步骤?(A、B C D)A、决定要使用的表示的特征和结构B、决定如何量化和比较不同表示拟合数据的好坏C、选择一个算法过程使评分函数最优D、决定用什么样的数据管理原则以高效地实现算法。答案:205、数据挖掘的预测建模任务主要包括哪几大类问题?()A、分类B、回归C、模式发现D、模式匹配答案: AB206、数据挖掘算法的组件包括:(A、B C D)A、模型或模型结构B、评分函数C、优化和搜索方法D、数据管理策略答案:207、以下哪些学科和数
55、据挖掘有密切联系?()A、统计B、计算机组成原理C、矿产挖掘D、人工智能答案: AD208、在现实世界的数据中,元组在某些属性上缺少值是常有的。描述处理该问 题的各种方法有:()A、忽略元组B、使用属性的平均值填充空缺值C、使用一个全局常量填充空缺值D、使用与给定元组属同一类的所有样本的平均值E、使用最可能的值填充空缺值答案:ABCDE209、下面哪些属于可视化高维数据技术()A、矩阵B、平行坐标系C、星形坐标D、散布图E、Chernoff 脸答案: ABCE210、对于数据挖掘中的原始数据,存在的问题有:()A、不一致B、重复C、不完整D、含噪声E、维度高答案: ABCDE211、下列属于不
56、同的有序数据的有:()A、时序数据B、序列数据C、时间序列数据D、事务数据E、空间数据答案: ABCE212、下面属于数据集的一般特性的有:()A、连续性B、维度C、稀疏性D、分辨率E、相异性答案:BCD213、下面属于维归约常用的线性代数技术的有:()A、主成分分析B、特征提取C、奇异值分解D、特征加权E、离散化答案: AC214、下面列出的条目中,哪些是数据仓库的基本特征:()A、数据仓库是面向主题的B、数据仓库的数据是集成的C、数据仓库的数据是相对稳定的D、数据仓库的数据是反映历史变化的E、数据仓库是面向事务的答案: ACD215、以下各项均是针对数据仓库的不同说法,你认为正确的有()。
57、A、数据仓库就是数据库B、数据仓库是一切商业智能系统的基础C、数据仓库是面向业务的,支持联机事务处理(OLTP)D、数据仓库支持决策而非事务处理E、数据仓库的主要目标就是帮助分析,做长期性的战略制定答案: BCDE216、联机分析处理包括以下哪些基本分析功能?()A、聚类B、切片C、转轴D、切块E、分类答案:BCD217、利用Apriori算法计算频繁项集可以有效降低计算频繁集的时间复杂度。 在以下的购物篮中产生支持度不小于3的候选3-项集,在候选2-项集中需要剪 枝的是ID项集答案:BD;218、面包、牛奶答案:219、面包、尿布、啤酒、鸡蛋答案:220、牛奶、尿布、啤酒、可乐答案:221、
58、面包、牛奶、尿布、啤酒答案:222、面包、牛奶、尿布、可乐A、啤酒、尿布B、啤酒、面包C、面包、尿布D、啤酒、牛奶答案:223、下表是一个购物篮,假定支持度阈值为40%,其中是频繁闭项集。TID项答案:(A D);224、abc答案:225、abcd答案:226、bce答案:227、acde答案: TOC o 1-5 h z 228、deA、abcB、adC、cdD、de答案:229、Apriori算法的计算复杂度受_( )_影响。A、支持度阀值B、项数(维度)C、事务数D、事务平均宽度答案: ABCD230、非频繁模式_( )_A、其支持度小于阈值B、都是不让人感兴趣的C、包含负模式和负相关
59、模式D、对异常数据项敏感答案: AD231、以下属于分类器评价或比较尺度的有:()A、,预测准确度B、,召回率C、,模型描述的简洁度D、,计算复杂度答案: ACD232、在评价不平衡类问题分类的度量方法有如下几种,()A、,F1度量B、,召回率(recall)C、,精度(precision)D、,真正率(ture positive rate,TPR)答案:ABCD233、贝叶斯信念网络(BBN)有如下哪些特点,()A、,构造网络费时费力B、,对模型的过分问题非常鲁棒C、,贝叶斯网络不适合处理不完整的数据D、,网络结构确定后,添加变量相当麻烦答案: AB234、如下哪些不是最近邻分类器的特点,(
60、)A、,它使用具体的训练实例进行预测,不必维护源自数据的模型B、,分类一个测试样例开销很大C、,最近邻分类器基于全局信息进行预测D、,可以生产任意形状的决策边界答案: C235、如下那些不是基于规则分类器的特点,()A、,规则集的表达能力远不如决策树好B、,基于规则的分类器都对属性空间进行直线划分,并将类指派到每个划分C、,无法被用来产生更易于解释的描述性模型D、,非常适合处理类分布不平衡的数据集答案: AC236、以下属于聚类算法的是()。A、K均值B、DBSCANC、AprioriD、Jarvis-Patrick(JP) 答案: ABD237、()都属于簇有效性的监督度量。A、轮廓系数B、
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年度年福建省高校教师资格证之高等教育法规真题练习试卷B卷附答案
- 2024年光学纤维面板系列项目资金需求报告代可行性研究报告
- 第七章 面谈课件
- “双减”背景下小学数学作业设计的策略研究实施方案范文
- 2024年适用职工劳动协议格式文件
- 2024年专业期货交易中介服务协议
- 扬州大学封志明老师预测《导游基础知识》模拟试题参考答案
- 设备设施运行维护管理方案5篇
- 2024年化工业品买卖协议
- 2024阁楼房屋销售协议模板
- 2024-2030年中国危化品行业发展趋势与投资前景展望报告
- 中国企业投资缅甸光伏发电市场机会分析及战略规划报告2024-2030年
- 2024年广东省深圳市中考历史试题
- 化工(危险化学品)企业主要负责人、安管员安全生产管理专项培训考核试卷(附参考答案)
- 2024年人教版小学三年级语文(上册)期中考卷及答案
- 《信息化项目验收工作规范》
- 2024年全国软件水平考试之高级网络规划设计师考试重点黑金模拟题(详细参考解析)
- 经济学题库(200道)
- 2024年巴西私人安保服务市场机会及渠道调研报告
- 课《闻王昌龄左迁龙标遥有此寄》跨学科公开课一等奖创新教学设计
- 2024年江苏省连云港市中考英语真题(含解析)
评论
0/150
提交评论