大数据工具应用知到智慧树章节测试课后答案2024年秋广东金融学院_第1页
大数据工具应用知到智慧树章节测试课后答案2024年秋广东金融学院_第2页
大数据工具应用知到智慧树章节测试课后答案2024年秋广东金融学院_第3页
大数据工具应用知到智慧树章节测试课后答案2024年秋广东金融学院_第4页
大数据工具应用知到智慧树章节测试课后答案2024年秋广东金融学院_第5页
已阅读5页,还剩11页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大数据工具应用知到智慧树章节测试课后答案2024年秋广东金融学院第一章单元测试

2011年麦肯锡研究院提出的大数据定义是:大数据是指其大小超出了常规数据库工具获取、储存、管理和(

)能力的数据集。

A:访问

B:应用C:计算

D:分析

答案:分析用4V来概括大数据的特点的话,一般是指:Value、Velocity、Volume和(

)。

A:VagaryB:VainlyC:VarietyD:Valley

答案:Variety大数据分析四个方面的工作主要是:数据分类、(

)、关联规则挖掘和时间序列预测。

A:数据统计

B:数据聚类

C:数据清洗

D:数据计算

答案:数据聚类

新浪和京东联合推出的大数据商品推荐,是由京东盲目推送到当前浏览新浪网站的用户的页面上的。

A:错B:对

答案:错目前的大数据处理技术只能处理结构化数据。

A:对B:错

答案:错

第二章单元测试

我们常用的微软Office套件中的Access数据库软件的数据库文件格式后缀名是(

)。

A:dbf

B:mdb

C:xls

D:mdf

答案:mdb

大多数日志文件的后缀名是(

)。

A:csv

B:xml

C:txt

D:log

答案:log

本课程重点介绍的weka软件的专有文件格式是(

)。

A:ARFFB:valueC:MongoDB

D:keymap

答案:ARFF数据清洗工作的目的主要是要解决数据的完整性、唯一性、合法性和(

)。

A:共享性

B:专业性

C:排他性

D:一致性

答案:一致性

八爪鱼软件的“自定义采集”工作方式下,需要在软件里输入一个(

)来作为采集的目标。

A:网页地址

B:用户名

C:电话号码

D:关键词

答案:网页地址

八爪鱼软件的采集规则可以通过文件的形式来导入或者导出,这种文件的后缀名是(

)。

A:otd

B:jpg

C:png

D:gif

答案:otd

Excel可以通过“数据有效性”按钮操作来规范数据输入的范围。

A:对B:错

答案:对Excel不能导入txt或csv格式的文件。

A:错B:对

答案:错八爪鱼软件只能对软件内建了“简易采集”规则的网站采集数据。

A:错B:对

答案:错八爪鱼软件进行自定义采集时,需要了解对网页的页面结构。

A:错B:对

答案:对

第三章单元测试

使用DBSCAN算法对鸢尾花数据集(Iris.arff)进行聚类,将epsilon参数设置为0.2,minPoints参数设置为5,忽略class属性,那么将形成(

)个簇。

A:

4B:

1C:

2D:

3

答案:

2使用EM算法对天气数据集(weather.numeric.arff)进行聚类,将numClusters设置为4,即簇数为4,其他参数保持默认值,忽略play属性,从结果中可知,下列选项中,(

)是错误的。

A:

模型的最大似然估计值是-7.18B:

这组数据用算法迭代15次C:

第四个簇的先验概率是0.14D:

第四个簇的实例数为4

答案:

第四个簇的实例数为4

使用SimpleKMeans算法对天气数据集(weather.numeric.arff)进行聚类,保持默认参数,即3个簇以及欧氏距离。选择play属性为忽略属性,从结果中可知,下列选项中,(

)是错误。

A:

产生了三个中心点B:

这组数据用算法迭代四次C:

聚合为3个簇,分别有7,3,4个实例D:

平方和误差为8.928

答案:

这组数据用算法迭代四次使用线性回归(LinearRegression)分类器和用M5P分类器对cpu.arff分别进行分类,由其输出的误差指标可知(

)。

A:

LinearRegression的标准误差比M5P的标准误差小B:

LinearRegression的相对误差比M5P的相对误差小C:

LinearRegression的平均绝对误差比M5P的平均绝对误差小D:

LinearRegression的平均方根误差比M5P的平均方根误差大

答案:

LinearRegression的平均方根误差比M5P的平均方根误差大

删去cpu.arff数据文件中的CACH属性后,使用M5P分类器构建方案,在结果中,到达LM2的实例数有(

)个。

A:

21B:

23C:

30D:

165

答案:

21根据J48分类器训练weather.nominal.arff所生产的决策树,当outlook=sunny;temperature=cool;humidity=high;windy=TRUE时,分类的结果是(

)。

A:

NoB:

无法分类

C:

没有结果D:

Yes

答案:

No根据J48分类器训练iris.arff所生产的决策树,当sepallength=4.4;sepalwidth=3.0;petallength=1.3;petalwidth=0.2时,分类的结果是(

)。

A:

Iris-setosaB:

Iris-virginicaC:

Iris-versicolorD:

无法分类

答案:

Iris-setosa关于Weka离散化说明正确的是(

)。

A:

离散化包括无监督离散化和有监督离散化B:

有监督离散化有两种等宽和等频方法C:

离散化是将数值属性转换为字符串型属性D:

等宽离散化是使实例分布均匀的

答案:

离散化包括无监督离散化和有监督离散化以下(

)不是Weka的数据类型。

A:

decimalB:

numericC:

stringD:

nominal

答案:

decimal关于Weka的文件类型描述错误的是(

)。

A:

Weka可以打开文件格式有.arff、.csv、.xlsxB:

arff是ASCII文件,可以用Word等文本编辑器打开查看C:

Weka处理的数据集类似于关系数据库横行实例,竖行属性D:

@relation定义数据集名称,@data之后呈现实例,每一行就是一个实例

答案:

Weka可以打开文件格式有.arff、.csv、.xlsx以下属于关联分析的是(

)。

A:

购物篮分析B:

CPU性能预测C:

股票趋势建模D:

自动判断鸢尾花类别

答案:

购物篮分析大数据时代的到来,使我们无法人为地去发现数据中的奥妙,与此同时,我们更应该注重数据中的相关关系,而不是因果关系。其中,数据之间的相关关系可以通过以下(

)算法直接挖掘。

A:

BayesNetworkB:

C4.5C:

K-meansD:

Apriori

答案:

Apriori某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的(

)问题。

A:

分类B:

自然语言处理C:

关联规则发现D:

聚类

答案:

关联规则发现在进行自动选择属性时,必须设立两个对象,其中确定使用什么方法为每个属性子集分配一个评估值的对象是下面的(

)。

A:

元分类器B:

搜索方法C:

属性评估器D:

规则挖掘

答案:

属性评估器以下属于属性空间的搜索方法的是(

)。

A:

SymmetricalUncertAttributeEvalB:

GainRatioAttributeEvalC:

PrincipalComponentsD:

BestFirst

答案:

BestFirst在weka软件探索者界面中,利用Visualize标签页通过更改各个参数来进行数据集的可视化属性设置后,需要单击以下(

)按钮,所有更改才会生效。

A:

SelectAttributeB:

UpdateC:

FastscrollingD:

SubSample

答案:

Update给定关联规则AB,意味着:若A发生,B也会发生。

A:对B:错

答案:错支持度是衡量关联规则重要性的一个指标。

A:对B:错

答案:对Ranker方法既可以用于单个属性评估器,又可以用于属性子集评估器。

A:对B:错

答案:错利用weka软件进行数据可视化时,用户可以选择类别属性对数据点着色,如果类别属性是标称型,则显示为彩色条。

A:错B:对

答案:错

第四章单元测试

贝叶斯网络中的节点代表(

)。

A:随机过程B:随机变量C:随机函数D:变量

答案:随机变量贝叶斯网络中,节点需给出概率分布描述,对于离散型随机变量而言,可以用(

)的形式表示。

A:正态分布B:条件概率表C:

均匀分布D:条件概率密度函数

答案:条件概率表贝叶斯网络中节点之间的边代表(

)。

A:概率因果B:随机结果C:随机关系D:组合关系

答案:随机关系贝叶斯网络保存的文件格式是(

)。

A:

TXTB:DOCXC:XLSD:XMLBIF

答案:XMLBIF下面(

)不是反向传播神经网络的结构。

A:隐含层B:输入层C:计算层D:输出层

答案:计算层神经网络中的节点代表(

)。

A:激励变量B:随机变量C:激励函数D:随机函数

答案:激励函数下列(

)不是常见的激励函数。

A:阈值函数B:线性函数C:正弦函数D:Sigmoid函数

答案:正弦函数在贝叶斯网络编辑界面时,如果节点的名称没法完全显示,需要从(

)菜单项进行调整。

A:View|ZoomOutB:Tools|SetDataC:View|ZoomInD:Tools|Layout

答案:Tools|LayoutWEKA中选择神经网络分类器操作时,应该选择(

)。

A:默认的分类器B:functions条目下的SGD分类器C:rules条目下的PARTD:functions条目下的MultilayerPerceptron分类器

答案:functions条目下的MultilayerPerceptron分类器下面关于PackageManager安装后的目录说明不正确的是(

)。

A:src子目录存放源代码文件B:sample-data子目录存放数据集文件C:doc子目录存放API文档D:lib子目录存放包所需要的说明文件

答案:lib子目录存放包所需要的说明文件

第五章单元测试

Tableau是一款定位于数据可视化敏捷开发和实现()展现工具。Tableau连续第6年在Gartner分析和商业智能魔力象限中蝉联领导者殊荣。

A:商业行为B:商务智能C:商业统计D:商务计算

答案:商务智能以下()不是Tableau的数据类型?

A:DateB:StringC:DecimalD:Boolean

答案:DecimalTableau可以用来实现交互的、()的分析和仪表板应用,从而帮助我们快速地认识和理解数据。

A:可视化B:连续性C:离散性D:智能化

答案:可视化下列说法错误的是()。

A:Tableau通过内存数据引擎,可以直接查询外部数据库同时动态的从数据仓库抽取实时数据,极大的提高了数据访问和查询效率B:用户仅需要通过轻点鼠标和简单拖放就可以迅速创建出智能、精美、直观和具有强交互性的报表和仪表盘C:Tableau允许从多个数据源访问数据,包括带分隔符的文本文件、Excel文件、SQL数据库、Oracle数据库和多维数据库等D:Tableau不提供应用编程接口

答案:Tableau不提供应用编程接口度量往往是()字段,度量是我们的指标。度量常常是连续的,连续的字段在图表中形成轴.将其拖放到功能区时,Tableau默认会进行()。

A:分类,聚合运算B:数值,混合运算C:数值,聚合运算D:分类,混合运算

答案:数值,聚合运算关于数据分层描述错误的是()。

A:数据分层的层级结构由数据维度的上下顺序决定B:数据分层的层次结构可以手工调整C:数据分层可以实现向上钻取D:数据分层可以实现向下钻取

答案:数据分层可以实现向上钻取以下不属于集的创建方式的是()。

A:[常规]创建B:[顶部]创建C:[分组]创建D:[条件]创建

答案:[分组]创建Tableau右边数据目录栏中,不能单击右键创建参数的纬度是()。

A:度量B:参数C:纬度D:集

答案:集以下不是创建计算字段时的运算逻辑的是()。

A:数字B:表结构C:日期D:用户

答案:表结构仪表板版面大小设计选项,()不属于大小设计选项。

A:自动B:固定大小C:范围D:自定义

答案:自定义

第六章单元测试

Logistic函数的定义域是()。

A:[0,1]B:(-INF,1)C:(0,+INF)D:(-INF,+INF)

答案:(-INF,+INF)下列叙述错误的是()。

A:逻辑回归预测事件发生的概率并分析导致事件发生的因素B:逻辑回归是一种监督机器学习算法C:逻辑回归主要用于回归分析D:逻辑回归采用Sigmoid函数对样本数据进行拟合,以构建回归模型

答案:逻辑回归主要用于回归分析使用IBk分类器和SMO分类器对vote.arff分别进行分类,由其输出的结果可知()。

A:SMO对democrat和republican的分类正确率都比IBk大B:SMO对democrat的分类正确率比IBk小C:IBk正确分类百分比比SMO大D:IBk对republican的分类正确率比SMO大

答案:SMO对democrat和republican的分类正确率都比IBk大

A:true或falseB:0或1C:1或-1D:0或-1

答案:1或-1以下描述错误的是()。

A:聚类分析可以看作是一种非监督的分类B:SVM寻找具有最小边缘的超平面,因此经常被称为最小边缘分类器C:SVM对噪声不具备鲁棒性D:k-最近邻算法(K-NN)是一种消极学习器

答案:SVM寻找具有最小边缘的超平面,因此经常被称为最小边缘分类器线性支持向量机的最大化间隔正确的描述是()。

A:B:C:D:

答案:以下计算距离的公式中,计算欧氏距离的是()。

A:B:C:D:

答案:

第七章单元测试

以下数据和信息的说法,不正确的是()。

A:凡是可以电子化记录下来的都是数据B:信息是客观世界各种事物特征的反映C:数据对用户来说是有价值的D:数据的形式是多样化的

答案:数据对用户来说是有价值的以下关于数据分析的方法,正确的是()。

A:所有的分析都是要从“过程”出发,没有结论的数字罗列并不是分析B:分析是一个过程,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论