大数据工具应用2026608-知到答案、智慧树答案_第1页
大数据工具应用2026608-知到答案、智慧树答案_第2页
大数据工具应用2026608-知到答案、智慧树答案_第3页
大数据工具应用2026608-知到答案、智慧树答案_第4页
免费预览已结束,剩余4页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大数据工具应用2026608-知到答案、智慧树答案第一章单元测试1、问题:年麦肯锡研究院提出的大数据定义是:大数据是指其大小超出了常规数据库工具获取、储存、管理和()能力的数据集。选项:A:分析B:应用C:计算D:访问答案:【分析】2、问题:用4V来概括大数据的特点的话,一般是指:、、和()。选项:答案:【】3、问题:大数据分析四个方面的工作主要是:数据分类、()、关联规则挖掘和时间序列预测。选项:A:数据聚类B:数据清洗C:数据计算D:数据统计答案:【数据聚类】4、问题:新浪和京东联合推出的大数据商品推荐,是由京东盲目推送到当前浏览新浪网站的用户的页面上的。选项:A:错B:对答案:【错】5、问题:目前的大数据处理技术只能处理结构化数据。选项:A:错B:对答案:【错】第二章单元测试1、问题:我们常用的微软套件中的Access数据库软件的数据库文件格式后缀名是()。选项:A:xlsB:mdbC:dbfD:mdf答案:【mdb】2、问题:大多数日志文件的后缀名是()。选项:A:xmlB:csvC:logD:txt答案:【log】3、问题:本课程重点介绍的weka软件的专有文件格式是()。选项:A:MongoDBB:keymapC:valueD:ARFF答案:【ARFF】4、问题:数据清洗工作的目的主要是要解决数据的完整性、唯一性、合法性和()。选项:A:排他性B:专业性C:共享性D:一致性答案:【一致性】5、问题:八爪鱼软件的“自定义采集”工作方式下,需要在软件里输入一个()来作为采集的目标。选项:A:用户名B:关键词C:电话号码D:网页地址答案:【网页地址】6、问题:八爪鱼软件的采集规则可以通过文件的形式来导入或者导出,这种文件的后缀名是()。选项:A:gifB:jpgC:otdD:png答案:【otd】7、问题:Excel可以通过“数据有效性”按钮操作来规范数据输入的范围。选项:A:对B:错答案:【对】8、问题:Excel可以不能导入txt或csv格式的文件。选项:A:对B:错答案:【错】9、问题:八爪鱼软件只能对软件内建了“简易采集”规则的网站采集数据。选项:A:错B:对答案:【错】10、问题:八爪鱼软件进行自定义采集时,需要了解对网页的页面结构。选项:A:对B:错答案:【对】第三章单元测试1、问题:使用DBSCAN算法对鸢尾花数据集(Iris.arff)进行聚类,将epsilon参数设置为0.2,minPoints参数设置为5,忽略class属性,那么将形成()个簇。选项:A:2B:3C:4D:1答案:【3】2、问题:使用EM算法对天气数据集()进行聚类,将numClusters设置为4,即簇数为4,其他参数保持默认值,忽略class属性,从结果中可知,下列选项中,()是错误的。选项:A:模型的最大似然估计值是-7.18B:这组数据用算法迭代15次C:第四个簇的先验概率是0.14D:第四个簇的实例数为4答案:【第四个簇的实例数为4】3、问题:使用SimpleKMeans算法对天气数据集()进行聚类,保持默认参数,即3个簇以及欧氏距离。选择play属性为忽略属性,从结果中可知,下列选项中,()是错误。选项:A:这组数据用算法迭代四次B:聚合为3个簇,分别有7,3,4个实例C:产生了三个中心点D:平方和误差为8.928答案:【这组数据用算法迭代四次】4、问题:使用线性回归(LinearRegression)分类器和用M5P分类器对分别进行分类,由其输出的误差指标可知()。选项:A:LinearRegression的相对误差比M5P的相对误差小B:LinearRegression的平均绝对误差比M5P的平均绝对误差小C:LinearRegression的标准误差比M5P的标准误差小D:LinearRegression的平均方根误差比M5P的平均方根误差大答案:【LinearRegression的平均方根误差比M5P的平均方根误差大】5(、问题:删去数据文件中的CACH属性后,使用M5P分类器构建方案,在结果中,到达LM2的实例数有)个。选项:A:23B:165C:30D:21答案:【21】6、问题:根据J48分类器训练所生产的决策树,当outlook=sunny;temperature=cool;humidity=high;windy=TRUE时,分类的结果是()。选项:A:没有结果B:无法分类C:No答案:【No】7、问题:根据J48分类器训练iris.arff所生产的决策树,当sepallength=4.4;sepalwidth=3.0;petallength=1.3;petalwidth=0.2时,分类的结果是()。选项:A:Iris-virginicaB:Iris-versicolorC:Iris-setosaD:无法分类答案:【Iris-setosa】8、问题:关于离散化说明正确的是()。选项:A:有监督离散化有两种等宽和等频方法B:离散化是将数值属性转换为字符串型属性C:离散化包括无监督离散化和有监督离散化D:等宽离散化是使实例分布均匀的答案:【离散化包括无监督离散化和有监督离散化】9、问题:以下()不是的数据类型。选项:A:decimalB:stringC:numericD:nominal答案:【decimal】10、问题:关于的文件类型描述错误的是()。选项:是ASCII文件,可以用等文本编辑器打开查看处理的数据集类似于关系数据库横行实例,竖行属性可以打开文件格式有、.csv、.xlsxD:@relation定义数据集名称,@data之后呈现实例,每一行就是一个实例答案:【可以打开文件格式有、.csv、.xlsx】11、问题:以下属于关联分析的是()。选项:A:股票趋势建模B:CPU性能预测C:购物篮分析D:自动判断鸢尾花类别答案:【购物篮分析】12、问题:大数据时代的到来,使我们无法人为地去发现数据中的奥妙,与此同时,我们更应该注重数据中的相关关系,而不是因果关系。其中,数据之间的相关关系可以通过以下()算法直接挖掘。选项:A:C4.5B:BayesNetworkC:AprioriD:K-means答案:【Apriori】13、问题:某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的()问题。选项:A:自然语言处理B:关联规则发现C:聚类D:分类答案:【关联规则发现】14、问题:在进行自动选择属性时,必须设立两个对象,其中确定使用什么方法为每个属性子集分配一个评估值的对象是下面的()。选项:A:元分类器B:属性评估器C:规则挖掘D:搜索方法答案:【属性评估器】15、问题:以下属于属性空间的搜索方法的是()。选项:A:GainRatioAttributeEvalB:PrincipalComponentsC:SymmetricalUncertAttributeEvalD:BestFirst答案:【BestFirst】16、问题:在weka软件探索者界面中,利用标签页通过更改各个参数来进行数据集的可视化属性设置后,需要单击以下()按钮,所有更改才会生效。选项:A:FastscrollingB:SelectAttributeC:UpdateD:SubSample答案:【Update】17、问题:给定关联规则AB,意味着:若A发生,B也会发生。选项:A:错B:对答案:【错】18、问题:支持度是衡量关联规则重要性的一个指标。选项:A:错B:对答案:【对】19、问题:Ranker方法既可以用于单个属性评估器,又可以用于属性子集评估器。选项:A:对B:错答案:【错】20、问题:利用weka软件进行数据可视化时,用户可以选择类别属性对数据点着色,如果类别属性是标称型,则显示为彩色条。选项:A:对B:错答案:【错】第四章单元测试1、问题:贝叶斯网络中的节点代表()。选项:A:随机函数B:随机变量C:变量D:随机过程答案:【随机过程】2、问题:贝叶斯网络中,节点需给出概率分布描述,对于离散型随机变量而言,可以用()的形式表示。选项:A:正态分布B:条件概率密度函数C:均匀分布D:条件概率表答案:【条件概率表】3、问题:贝叶斯网络中节点之间的边代表()。选项:A:随机结果B:组合关系C:随机关系D:概率因果答案:【随机关系】4、问题:贝叶斯网络保存的文件格式是()。选项:A:DOCXB:TXTC:XLSD:XMLBIF答案:【XMLBIF】5、问题:下面()不是反向传播神经网络的结构。选项:A:输出层B:计算层C:输入层D:隐含层答案:【计算层】6、问题:神经网络中的节点代表()。选项:A:激励函数B:激励变量C:随机变量D:随机函数答案:【激励函数】7、问题:下列()不是常见的激励函数。选项:A:正弦函数B:线性函数C:Sigmoid函数D:阈值函数答案:【正弦函数】8、问题:在贝叶斯网络编辑界面时,如果节点的名称没法完全显示,需要从()菜单项进行调整。选项:答案:【】9、问题:WEKA中选择神经网络分类器操作时,应该选择()。选项:A:functions条目下的SGD分类器B:默认的分类器C:rules条目下的D:functions条目下的MultilayerPerceptron分类器答案:【functions条目下的MultilayerPerceptron分类器】10、问题:下面关于PackageManager安装后的目录说明不正确的是()。选项:A:doc子目录存放API文档B:lib子目录存放包所需要的说明文件C:src子目录存放源代码文件D:sample-data子目录存放数据集文件答案:【lib子目录存放包所需要的说明文件】第五章单元测试1、问题:一般情况下在作图时先不添加()区。选项:A:图例区B:标题区C:坐标轴D:绘图区答案:【标题区】2、问题:连续性单变量图不包括()。选项:A:箱线图B:P-P图C:条形图D:直方图答案:【条形图】3、问题:两个定性变量可选择的作图不包括()。选项:

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论