数据工程智慧树知到课后章节答案2023年下同济大学_第1页
数据工程智慧树知到课后章节答案2023年下同济大学_第2页
数据工程智慧树知到课后章节答案2023年下同济大学_第3页
数据工程智慧树知到课后章节答案2023年下同济大学_第4页
数据工程智慧树知到课后章节答案2023年下同济大学_第5页
已阅读5页,还剩13页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据工程智慧树知到课后章节答案2023年下同济大学同济大学

第一章测试

下列哪个数据库不属于NoSQL数据库?

A:RedisB:Bigtable

C:OracleD:Neo4J

答案:Oracle

MongoDB属于哪类NoSQL数据库?

A:列数据库B:图数据库C:文档数据库D:键值数据库

答案:文档数据库

关系数据库中的参照完整性主要通过()实现。

A:审计B:外键C:关键字D:主键

答案:外键;主键

在关系数据库中,为了保证数据的一致性,事务处理必须保证具有哪些特性?()

A:一致性B:持久性C:隔离性D:原子性

答案:一致性;持久性;隔离性;原子性

下面哪些是NoSQL数据库的特点?

A:可用性强B:模式灵活C:高可扩展D:严格的模式定义

答案:可用性强;模式灵活;高可扩展

大数据价值挖掘是一个从数据到信息,再由信息到知识的凝练过程。

A:对B:错

答案:对

NoSQL数据库是对SQL数据库的否定,可以完全代替SQL数据库。

A:对B:错

答案:错

在并行和分布式数据库中,共享内存架构的每个处理器都有自己的磁盘,所有处理器共享一个内存空间。

A:错B:对

答案:对

关系数据库采取了强一致性约束,符合CAP理论中的C和P。

A:错B:对

答案:错

关系数据库的实体完整性主要通过()实现。

A:访问控制B:审计C:主键D:关系表

答案:主键

第二章测试

OLAP一般运行于业务数据库上,OLTP则一般运行于数据仓库上。

A:错B:对

答案:错

数据清洗是剔除数据里的异常,使数据集成为现实世界的准确、没有重复表示的过程。

A:对B:错

答案:对

联邦数据库模式不适宜进行需要在很多的数据源之间进行通讯和数据交换的数据集成。

A:对B:错

答案:对

列存储数据对排序操作和数据压缩有较好的支持。

A:对B:错

答案:对

在数据仓库中,ETL操作包括()。

A:加载B:抽取C:转换D:传输

答案:加载;抽取;转换

数据源之间的异构性主要包括()。

A:数据模式的异构性B:数据类型的异构性C:通讯协议异构性D:数据管理系统的异构性

答案:数据模式的异构性;数据类型的异构性;通讯协议异构性;数据管理系统的异构性

下列哪些技术可以用于在大数据使用过程中保护用户隐私?

A:同态加密B:联邦数据库C:内存数据库D:差分隐私

答案:同态加密;联邦数据库;差分隐私

下列那一项不属于数据清理中的数据异常?

A:覆盖类异常B:语义类异常C:语法类异常D:插入类异常

答案:插入类异常

在数据库中,规定了员工表的工资字段必须大于0。如果某个员工的工资<0,则属于()。

A:语义类异常B:词法错误C:不规则取值D:语法类异常

答案:语义类异常

下列哪一项不是大数据管理的新挑战()。

A:高性能数据服务要求B:数据规模大C:私保护D:多源、异构、跨领域

答案:数据规模大

第三章测试

下列关于不同的簇类型的说法中,不正确的是()。

A:在明显分离的簇中,同簇中的对象之间的距离要大于异簇的对象B:在基于邻近度的簇中,度量方式通常是最近邻或连通度C:在基于密度的簇中,簇通常是高密度的区域D:在基于中心的簇中,簇的中心通常叫质心,即簇中所有点的平均值

答案:在明显分离的簇中,同簇中的对象之间的距离要大于异簇的对象

以下哪些选项是K-均值聚类面临的问题?

A:贪心算法存在的问题B:K的选择具有挑战性C:难以处理噪声、异常值D:关于数据的球形假设(到聚类中心的距离)

答案:贪心算法存在的问题;K的选择具有挑战性;难以处理噪声、异常值;关于数据的球形假设(到聚类中心的距离)

凝聚层次聚类中,定义簇间的相似度的方法有()。

A:MIN(单链)B:Ward方法C:MAX(全链)D:组平均

答案:MIN(单链);Ward方法;MAX(全链);组平均

DBSCAN算法的缺点包括?

A:对输入参数敏感B:对于高维问题,密度定义是个比较麻烦的问题C:易受到噪声和异常值的影响D:当簇的密度变化太大时,不能很好的处理

答案:对输入参数敏感;对于高维问题,密度定义是个比较麻烦的问题;当簇的密度变化太大时,不能很好的处理

CHAMELEON算法的优点包括:()。

A:复杂度低,适合在大规模数据集应用B:能够有效地聚类空间数据C:对噪声和异常数据不敏感

D:能识别具有不同形状、大小和密度的簇

答案:能够有效地聚类空间数据;对噪声和异常数据不敏感

;能识别具有不同形状、大小和密度的簇

同一组数据通过不同聚类算法得到的簇的个数是相同的。

A:错B:对

答案:错

相似度的度量方式随着数据对象的属性类型改变而改变。

A:错B:对

答案:对

全链在处理大小不同的簇时,可能使大的簇破裂。

A:错B:对

答案:对

DBSCAN聚类结果受参数影响较小。

A:错B:对

答案:错

使用KMEANS、DBSCAN等多种聚类算法对同一数据集进行聚类时,可能会得到不同的分组数(类数),分组数较多的聚类算法一般是比较好的。

A:对B:错

答案:错

第四章测试

在贝叶斯定理的公式当中,哪一个是先验概率?

A:P(B|A)B:P(B)C:P(A)D:P(A|B)

答案:P(A)

在电视游戏节目中,参赛者选择三个门之一;一扇门的后面有奖,而另两扇的后面没有奖。参赛者选择一扇门后,游戏节目主持人将打开其余的一扇门,并显示门后没有任何奖金。然后,主持人询问参赛者是将自己的选择切换到另一扇未打开的门,还是将STICK切换到其原始选择。这对参赛者来说切换们是有利的。

A:错B:对

答案:对

贝叶斯决策是由先验概率和类条件概率,推导后验概率,然后利用这个概率进行决策。

A:对B:错

答案:对

关于决策树算法的描述正确的是()。

A:决策树剪枝的目的是为了降低决策树算法的过拟合B:决策树可以看成一个If-then规则的集合。C:在决策树算法中,每个内部结点表示在一个特征或属性;每个分支代表这个特征或属性在某个值域上的输出;每个叶结点代表一种类别。D:在决策树的各个结点上以信息增益为准则,选择划分后信息增益最大的属性作为划分属性,递归地构建决策树。

答案:决策树可以看成一个If-then规则的集合。

决策树中属性选择的方法有()。

A:信息值B:信息增益C:GINI系数D:信息增益率

答案:信息增益;GINI系数;信息增益率

对于信息增益,决策树分裂节点,下面说法正确的是()1.纯度高的节点需要更多的信息去区分2.信息增益可以用”1比特-熵”获得3.如果选择一个属性具有许多归类值,那么这个信息增益是有偏差的

A:1B:3

C:2D:2和3

答案:2和3

SVM中的泛化误差代表什么?

A:分类超平面与支持向量的距离B:SVM中的误差阈值C:SVM对新数据的预测准确度

答案:SVM对新数据的预测准确度

若参数C(costparameter)被设为无穷,下面哪种说法是正确的?

A:软间隔SVM分类器将正确分类数据B:在如此高的误分类惩罚下,存在软间隔分类超平面C:只要最佳分类超平面存在,它就能将所有数据全部正确分类

答案:只要最佳分类超平面存在,它就能将所有数据全部正确分类

怎样理解“硬间隔”?

A:SVM只允许极小误差B:SVM不允许有误差

C:SVM允许分类时出现一定范围的误差

答案:SVM只允许极小误差

VM算法的最小时间复杂度是O(n²),基于此,以下哪种规格的数据集并不适该算法?

A:不受数据集大小影响B:大数据集C:小数据集D:中等数据集

答案:大数据集

第五章测试

梯度下降算法的正确步骤是什么?a.计算预测值和真实值之间的误差b.重复迭代,直至得到网络权重的最佳值c.把输入传入网络,得到输出值d.用随机值初始化权重和偏差e.对每一个产生误差的神经元,调整相应的(权重)值以减小误差

A:cbaed

B:abcde

C:edcba

D:dcaeb

答案:dcaeb

已知:大脑是有很多个叫做神经元的东西构成,神经网络是对大脑的简单的数学表达。-每一个神经元都有输入、处理函数和输出。-神经元组合起来形成了网络,可以拟合任何函数。-为了得到最佳的神经网络,我们用梯度下降方法不断更新模型给定上述关于神经网络的描述,什么情况下神经网络模型被称为深度学习模型?

A:有维度更高的数据B:当这是一个图形识别的问题时C:加入更多层,使神经网络的深度增加

答案:加入更多层,使神经网络的深度增加

训练CNN时,可以对输入进行旋转、平移、缩放等预处理提高模型泛化能力。

A:对B:错

答案:对

下面哪项操作能实现跟神经网络中Dropout的类似效果?

A:Boosting

B:MappingC:Bagging

D:Stacking

答案:Bagging

下列哪一项在神经网络中引入了非线性?

A:卷积函数B:随机梯度下降C:修正线性单元(ReLU)

答案:修正线性单元(ReLU)

多对一RNN架构可以应用于以下哪些任务?

A:语音中的性别识别(输入音频剪辑并输出表明说话者性别的标签)B:情感分类(输入一段文字并输出0/1表示正面或负面情绪)C:语音识别(输入一个音频输出一段字幕)D:图像分类(输入图像输出标签)

答案:语音中的性别识别(输入音频剪辑并输出表明说话者性别的标签);情感分类(输入一段文字并输出0/1表示正面或负面情绪)

您正在训练RNN,发现您的权重和激活都具有NaN的值(“非数字”)。以下哪项最可能是此问题的原因?

A:在sigmoid激活函数当中z太大B:梯度爆炸问题C:在ReLU激活函数当中z太大D:梯度消失问题

答案:梯度爆炸问题

为了使RNN更容易训练,需要选取更好的激活函数,如Relu激活函数。ReLU函数的左侧导数为0,右侧导数恒为1,这就避免了梯度爆炸问题的发生。

A:对B:错

答案:错

RNN会发生梯度消失的问题,产生这样的问题的原因是RNN在算是会有激活函数导数的累乘,如果取tanh或sigmoid函数作为激活函数的话,那么必然是一堆小数在做乘法,结果就是越乘越小。随着时间序列的不断深入,小数的累乘就会导致梯度越来越小直到接近于0,这就是“梯度消失“现象。

A:错B:对

答案:对

假设你正在训练LSTM。你有10000个单词的词汇,并且正在使用具有100维激活的LSTM。每步当中的维数是多少?

A:100B:300C:1000D:1

答案:100

第六章测试

数据可视化有哪些主要分支方向?

A:信息可视化B:科学可视化

C:可视分析D:统计数据可视化

答案:信息可视化;科学可视化

;可视分析

信息可视化主要是针对什么类型数据的?

A:科学数据B:图形数据C:统计数据D:抽象数据

答案:抽象数据

下列选项中哪一项不属于可视化的基本设计准则。()

A:设计能够高效传达信息的可视化

B:设计能够直观传递信息的可视化C:设计能够让人赏心悦目的可视化D:设计能够正确表达信息的可视化

答案:设计能够直观传递信息的可视化

谎言因子是设计用来度量可视化中什么设计指标的方法?

A:可视化美观程度的度量方法B:可视化呈现数据时夸张程度的度量方法

C:可视化表达信息效率的度量方法

答案:可视化呈现数据时夸张程度的度量方法

以下哪一种交互不属于常见的可视化交互类型。

A:过滤B:编码C:定向D:选择

答案:定向

“数据浏览”交互主要是为了完成什么任务:()。

A:展现数据中的不同子集

B:展现不同的数据粒度

C:展现不同的数据映射方式D:浏览并筛选数据

答案:展现数据中的不同子集

以下哪一项不属于数据的维度的类型()。

A:分类属性B:有序属性C:时间属性D:数据属性

答案:时间属性

PCA

的设计原理是:()。

A:最小化数据点与数据点之间的距离在高、低维空间中的差异B:最大化数据点在低维空间中点的差异

C:最大化数据点在高维空

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论