机器学习理论与方法知到章节答案智慧树2023年同济大学

上传人：题*** IP属地：浙江上传时间：2023-05-17 格式：DOCX 页数：34 大小：56.05KB 积分：8.4 举报 版权申诉

已阅读5页，还剩29页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

机器学习理论与方法知到章节测试答案智慧树2023年最新同济大学第一章测试

机器学习是研究发现数据模型的算法并利用这些模型做出决策。（）

参考答案:

对

机器学习通常要经过数据选择，模型训练，模型优化矫正等过程。（）

参考答案:

对

决策树模型是一种典型的聚类模型。（）

参考答案:

错

决策树是随机森林模型的子结构。（）

参考答案:

对

以下哪种情况适合使用SVM算法（）。

参考答案:

单细胞分类

关于机器学习的基本流程，下列顺序正确的是（）。

参考答案:

建模—评价—改进

监督式学习根据输出形式可分为（）。

参考答案:

分类和回归

机器学习根据学习方式可分为（）。

参考答案:

监督学习

;无监督学习

;强化学习

;半监督学习

朴素贝叶斯适合下列哪种场景分析（）。

参考答案:

消费者细分

;情感分析

机器学习根据模型性质可分为（）。

参考答案:

非线性模型

;线性模型

第二章测试

若非零矩阵A满足A=O，则A+E与A-E均可逆（）

参考答案:

对

矩阵的特征值为（）

参考答案:

-1

设P(A)=0.4，P(B)=0.7，事件A，B相互独立，则P(B-A)=（）

参考答案:

0.42

已知离散型随机变量X可取值{-3,-1,0,2},且取这些值的概率依次为，则b的取值为2（）

参考答案:

对

若随机变量X服从N(5,4)的分布，若P(X＞c)=P(X＜c)，则c=（）

参考答案:

事件A，B，C至少有一个发生可以表示为。（）

参考答案:

对

事件A与B互不相容，是指P(AB)=P(A)P(B)。()

参考答案:

对

下列关于矩阵的运算法则正确的是（）。

参考答案:

(AB)C=A(BC);(A+B)C=AC+BC;(At)t=A

假设A和B都是同阶可逆矩阵，且A为对称矩阵，则下列等式成立的为（）。

参考答案:

(ABt)-1=A-1(B-1)t

假设感染了新冠病毒的病人中感到身体发热的概率为0.88，病人感染新冠病毒的概率为0.001，病人发热的概率为0.02，则如果检测到一个病人发热，则判断他感染了新冠病毒的概率为（）。

参考答案:

0.044

第三章测试

机器学习模型都是从经验中Experience学习任务Task。假设我们为了让一个机器学习算法学会预测肿瘤病人的存活率。以下哪一项不是Experience的合理选择？（）

参考答案:

肿瘤病人的基因组信息

通过细胞的转录组信息预测细胞类型，属于以下哪一种问题？（）

参考答案:

分类问题

下图为某任务损失函数随参数变化的曲面图，则以下说法正确的是（）

参考答案:

当使用梯度下降法求解损失函数的最小值时，loss可能会从A点到达C点

;学习率过大可能会导致loss在B点附近来回震荡

以下哪一项是使用特征缩放的原因？（）

参考答案:

通过减少迭代次数来获得一个好的解，从而加速了梯度下降

以下说法正确的是（）

参考答案:

利用癌症的组学数据将癌症划分成各个亚型，从而研究不同的治疗手段，该任务属于非监督学习

;预测基因的功能，该任务属于监督学习

利用患者的年龄来预测药物的治疗效果，并使用回归模型进行学习，则该回归模型属于一元回归模型。（）

参考答案:

对

在训练模型时，我们可以使用梯度下降法求解损失函数的最大值。（）

参考答案:

错

在模型训练过程中，学习率越大越好。（）

参考答案:

错

梯度下降法可以表征为。（）

参考答案:

对

现有以下任务：利用基因A的表达量（X）预测肿瘤的大小（Y），下图为训练数据，我们利用线性回归模型，假设，则以下说法正确的是（）。

参考答案:

第四章测试

选择模型时，我们倾向于选择高方差的模型，因为它们能够更好的适应训练集。（）

参考答案:

错

训练完逻辑回归分类器后，必须使用0.5作为预测正负的阈值。（）

参考答案:

错

训练一个逻辑回归模型时，以下哪项陈述是正确的？（）

参考答案:

向模型中添加新特征总是会在训练集上获得相同或更好的性能

Sigmoid函数的优点有（）

参考答案:

输出映射在(0,1)之间，单调连续

;易于求导

;定义域在整个实数集上

当模型出现过拟合现象时，下列哪些做法可以改善（）

参考答案:

尝试增加正则化项

;尝试使用较少的特征

下列哪些情景可以用逻辑回归（）

参考答案:

从病人的肿瘤切片数据中获取一些特征，判断该肿瘤是良性还是恶性。

;给定病人的一些临床数据，判断特定疗法能否发挥作用。

为了实现特征选择，选择L2正则化（）

参考答案:

错

过拟合在训练集上效果好，在测试集上效果差（）

参考答案:

对

训练逻辑回归分类器时，将阈值从0.5下调至0.3。以下哪项是正确的：（）

参考答案:

分类器现在可能具有更高的召回率。

Sigmoid函数的形式是()。

参考答案:

第五章测试

分类器的实际预测输出与样本的真实输出之间的差异称为“误差”。()

参考答案:

对

过拟合是可以避免的。()

参考答案:

错

交叉验证法中，如果选择留一法，是为了避免不受随机样本划分的影响。()

参考答案:

对

学习算法训练程度不足时，偏差会高，方差会低。()

参考答案:

对

交叉验证法中的测试集是来自于()。

参考答案:

训练集

一般用来评价模型在训练集上的表现时，用作标准的是()。

参考答案:

均方误差

当学习算法偏差高，方差低时，呈现出()。

参考答案:

欠拟合

交叉验证法中，设数据集包含m个样本，不计计算开销，比较准确的是()。

参考答案:

m折交叉验证

用来比较检验分类器的统计方法中，包括以下()。

参考答案:

交叉t检验

;二项检验

平均均方误差(Meansquareerror)可以分解为()

参考答案:

方差

;偏差

第六章测试

公司里面男性有60人，女性有40人，男性穿皮鞋的人数有25人，穿运动鞋的人数有35人，女性穿皮鞋的人数有10人，穿高跟鞋的人数有30人。现在你只知道有一个人穿了皮鞋，他是男性的概率是多少（）。

参考答案:

0.25

A,B,C产品占比分布为1/2，1/6，1/3；A,B,C的次品率分布为0.2，0.1，0.3；那么出现次品是A做出来的概率（）；

参考答案:

0.46

下列关于朴素贝叶斯说法正确的是（）。

参考答案:

对小规模数据表现良好

假设吸烟的本科生比例为15%，而吸烟的研究生占23%。如果五分之一的大学生是研究生，其余的是本科生，那么吸烟的学生是研究生的概率是多少？（）。

参考答案:

0.2

朴素贝叶斯的应用场景主要有（）。

参考答案:

情感判别

;文本分类

;推荐系统

;垃圾邮件判别

有两枚硬币，其中一枚均匀，另一枚不均匀，随机拿一枚，并投掷10次，记X1：前9次有7次为正面，X2：第10次为反面，X3：这枚硬币不均匀，则X1，X2关于X3条件独立。（）。

参考答案:

对

贝叶斯学习最终输出结果为模型和模型参数。（）

参考答案:

错

贝叶斯估计认为参数θ是某种已知先验分布的随机变量。

参考答案:

对

下列关于朴素贝叶斯说法正确的是（）

参考答案:

通过最大后验概率进行单点估计

;生成式模型

以下哪项是后验概率项，假设A为分类变量（）。

参考答案:

P(A/B)

第七章测试

决策树是基于规则的树状结构的机器学习算法，可以用来进行分类任务。（）

参考答案:

对

熵越小，纯度越低，不确定性越高。（）

参考答案:

错

一堆细胞中含有16个B细胞和48个T细胞，那么这堆细胞的熵是多少（log）（）。

参考答案:

0.811

信息增益本质上遵循的是熵减原则。（）

参考答案:

对

决策树深度越深越好，越能拟合数据。（）

参考答案:

错

过拟合是指模型在训练样本拟合过度，表现极好,而在验证数据集以及测试数据集中表现不佳。（）

参考答案:

对

决策树的剪枝是为了防止树的过拟合，增强其泛化能力。包括预剪枝和后剪枝。（）

参考答案:

对

常见的后剪枝包括（）。

参考答案:

减少错误的剪枝

;基于规则的剪枝

决策树无法处理特征为连续值的情况。（）

参考答案:

错

预剪枝是人观测后手动停止树的生长的。（）

参考答案:

错

第八章测试

最近邻算法核心思想直观，可解释性强。（）

参考答案:

对

最近邻算法的缺点有（）。

参考答案:

预测过程计算复杂度高

;对类别不平衡数据预测效果差

;对特征不平衡数据预测效果差

最近邻算法可用于分类和回归任务。（）

参考答案:

对

最近邻算法中，将k值设置更小可以降低预测计算复杂度。（）

参考答案:

错

最近邻算法对于类别不平衡数据预测效果好。（）

参考答案:

错

最近邻算法有很多新的改进版本，其中weighted-distanceknn可以有效提升更近的样本在决策时的权重。（）

参考答案:

对

最近邻算法理论复杂，实现难度高。（）

参考答案:

错

最近邻算法不需要训练过程。（）

参考答案:

对

最近邻算法预测过程计算复杂度高主要是因为要计算待分类样本和其他所有样本的距离。（）

参考答案:

对

最近邻算法计算样本间的距离时，只能用欧氏距离。（）

参考答案:

错

第九章测试

支持向量是最接近决策平面的点。（）

参考答案:

对

SVM非常适合于大规模的数据。（）

参考答案:

错

核函数是将低维数据映射到高维空间。（）

参考答案:

对

以下情况中哪一情况SVM的效果会不太好（）。

参考答案:

数据是有噪声并且包含重合的点

如果SVM的惩罚项C设置成非常大，会导致（）。

参考答案:

对于这样的C，我们可以很好的对训练集进行正确分类

如果有一个线性SVM模型过拟合了，以下哪一个操作你会优先考虑进行下一步的模型迭代（）。

参考答案:

增加更多变量

对于4分类问题，如果你要训练SVM模型使用一对多方法，则需要训练多少次模型（）。

参考答案:

SVR与SVM的不同点在于（）。

参考答案:

SVR的支持向量在边际的外面，SVM的支持向量在边际上

;SVR可以使用核技巧和软间隔

SVM的有效性将基于（）。

参考答案:

核函数的选择

;软间隔的惩罚项C

SVM及其扩展可以应用在（）。

参考答案:

聚类问题

;分类问题

;预测问题

第十章测试

CNN网络中，每一层的输出维度由什么决定（）。

参考答案:

Kernel的尺寸

;是否进行补全（padding）

;步长（strides）

;该层的输入

在对病历数据进行建模时，以下那些操作是必须的（）。

参考答案:

计算病历中所含的词的种类

;使用数字对分词后的病历进行标记

;对病历进行分词

图（Graph）和图像（Image）是同一类数据。（）

参考答案:

错

深度学习模型只能接收数字矩阵作为输入。（）

参考答案:

对

Inception结构的设计目标是（）。

参考答案:

增加模型宽度

在生成式对抗网络（GAN）中，判别器（Discriminator）所起到的作用是（）。

参考答案:

识别出输入的样本是真实样本还是来源于生成模型

如果想使用深度学习模型去生成有一定生物活性的药物分子，可以选择哪些模型结构（）。

参考答案:

GAN

;VAE

;CharRNN

我们想要自己去实现一个深度学习模型，可以使用以下哪些框架（）。

参考答案:

TensorFlow

;Pytorch

;PaddlePaddle

实验室想要部署一台可以进行深度学习运算的服务器，最好选配GPU。（）

参考答案:

对

若使用深度学习模型对病历数据进行建模，则应该选择哪种模型（）。

参考答案:

RNN

第十一章测试

聚类分析所聚类的cluster数量限制在十个以内。（）

参考答案:

错

聚类分析的目标是尽可能的使组间差异变大。（）

参考答案:

对

聚类分析的方法受初始点的影响比较小。（）

参考答案:

错

理论上，如果某个混合高斯模型融合的高斯模型个数足够多，它们之间的权重设定得足够合理，这个混合模型可以拟合任意分布的样本。（）

参考答案:

对

对于每一个样本，使用EM算法学习高斯混合模型的参数，当得到的值时EM算法运行结束。（）

参考答案:

错

以下哪些是距离的衡量方式？（）

参考答案:

Manhattandistance

;Euclideandistance

;Cosinesimilarity

聚类分析适用于多少维的数据（）？

参考答案:

没有限制

新冠病毒已蔓延全世界，如果需要比较各个地区新冠病毒的基因突变特征并构建系统发育树，以下什么聚类方法最合适？（）

参考答案:

层次聚类

关于基于高斯混合模型（GMM）的聚类描述哪项是正确的？（）

参考答案:

GMM会学习出一个概率分配函数

;每个点只会分配到一个类中，并计算分配这个点的概率

;基于高斯混合模型的聚类属于软聚类

下列说法正确的是？（）

参考答案:

EM算法常被人分为两步，E步是使用当前参数计算点的聚类结果，M步是更新参数进行迭代

;EM算法常被用来学习高斯混合模型

第十二章测试

假设有基因A和基因B表达量的二维数据，PC1的斜率为0.25，则基因A和基因B的载荷得分为（）。

参考答案:

0.97;0.242

主成分学习是一种非监督学习的降维方法。（）

参考答案:

对

数据降维可能会带来哪些负面影响（）。

参考答案:

降低后续算法的表现

;转化后的特征可解释性降低

在生物信息学研究中，常常需要对数据进行降维，这是因为（）。

参考答案:

需要对数据可视化

;生物学数据往往具有变量多，样本少的特点

自编码器的的解码器部分负责进行数据降维。（）

参考答案:

错

高维空间中数据具有稀疏性，容易导致模型过拟合。（）

参考答案:

对

下列哪些是常用的数据降维算法（）。

参考答案:

主成分分析

;因子分析

;线性判别分析

选择主成分个数时，通常累计解释方差的贡献率应在哪个区间较合适（）。

参考答案:

85%~95%

自编码器有以下哪些特点（）。

参考答案:

自编码器是一种自监督算法

;自编码器主要应用于数据降维和去除噪声

;自编码器是神经网络的一种

如果生物学数据的不同变量间具备较强相关性，那么更适合哪种降维方法（）。

参考答案:

因子分析

第十三章测试

异常值检测是特殊的分类任务。（）

参考答案:

对

通常在异常值检测中，数据符合,则该数据为异常值。（）

参考答案:

错

独立二元高斯分布图中每一个纵切面都是一个一元高斯分布。（）

参考答案:

对

基于内容的推荐系统中,对于每一部电影,我们都掌握了可用的特征,使用这些特征训练出了每一个用户的参数。但如果我们拥有用户的参数,我们无法学习得出电影的特征。（）

参考答案:

错

在协同过滤中，一般会将等初始值设置的比较大以获得更好的效果。（）

参考答案:

错

下列属于异常值检测在应用的有？（）

参考答案:

筛选出身体患病的病人

;检测系统故障

;表达谱数据中缺失基因的寻找

下面对于异常值检测的数据分布说法正确的有？（）

参考答案:

对于符合高斯分布的数据，直接运用检测算法

;对于非高斯分布的数据，虽然也可以使用检测算法，但往往效果不是很好

;应使用对应的概率密度分布函数来改变数据的分布

;应尽量将非高斯分布转化成（近似）高斯分布，然后再进行处理

推荐系统常用的方法有哪些？（）

参考答案:

基于协同过滤的推荐

;基于内容的推荐

下面哪些属于协同过滤算法存在的不足？（）

参考答案:

协同过滤算法适用于更迭快的物品（比如新闻，广告），在更新速度过快用户评论不多的情况下，比起其他算法，协同过滤算法能有好的的准确度。

在进行crisper基因编辑实验时，通常需要进行引物的设计。有三个生物信息学工具可以对引物进行打分，其中A将引物分为有效，可能有效，无效这三个等级。B将引物分为1至10共十个等级，C对引物进行打分，满分为100分。如果想将这三个推荐工具的结果整合，下面哪个说法是正确的？（）

参考答案:

可以将三个数据集合并到一个数据集，但是应该首先将每个数据集的打分方式标准化

第十四章测试

画学习曲线是为了观察模型状态，如过拟合或欠拟合。（）

参考答案:

对

可以采用哪些方法提高模型表现（）。

参考答案:

调整模型复杂度

;设计更好的特征

;增加更多数据

解决过拟合最好的方式是（）。

参考答案:

增大数据量

随机梯度下降法比小批量梯度下降法训练更稳定

人人文库> 全部分类> 教育资料 > 考试试卷

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

机器学习理论与方法知到章节答案智慧树2023年同济大学

文档简介

温馨提示

最新文档

评论

相关文档