《大数据习题库汇总-机器学习》复习题库（含答案）

上传人：r*** IP属地：山东上传时间：2023-07-01 格式：DOCX 页数：134 大小：115.31KB 积分：15 举报 版权申诉

已阅读5页，还剩129页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

PAGEPAGE1《大数据习题库汇总-机器学习》复习题库（含答案）一、单选题1.训练完SVM模型后,不是支持向量的那些样本我们可以丢掉,也可以继续分类:（）。A、正确B、错误答案：A解析：训练完SVM模型后,不是支持向量的那些样本我们可以丢掉,也可以继续分类。2.（）是利用样本的实际资料计算统计量的取值，并以引来检验事先对总体某些数量特征的假设是否可信作为决策取舍依据的一种统计分析方法A、假设检验B、逻辑分析C、方差分析D、回归分析答案：A解析：假设检验，又称统计假设检验，是用来判断样本与样本、样本与总体的差异是由抽样误差引起还是本质差别造成的统计推断方法。其基本原理是先对总体的特征做出某种假设，然后通过抽样研究的统计推理，对此假设应该被拒绝还是接受做出推断。3.假设您已在数据集上拟合了一个复杂的回归模型。现在，您正在使用Ridge回归，并调整参数λ以减少其复杂性。选择下面的描述，哪个表达了偏差和方差与λ的关系（）。A、在λ非常小的情况下，偏差低，方差低B、在λ非常小的情况下，偏差低，方差高C、在λ非常小的情况下，偏差高，方差低D、在λ非常小的情况下，偏差低，方差低答案：B解析：λ很小，则意味着模型比较复杂，在这种情况下，会产生偏差低且方差高的结果，模型会对数据过拟合。4.在方差分析中，（）反映的是样本数据与其组平均值的差异。A、总离差B、组间误差C、抽样误差D、组内误差答案：D解析：组内误差是来自样本内部数据之间的随机误差，它反映了样本数据自身的差异程度；组间误差由因子的不同处理造成的处理误差和抽样的随机误差组成，反映了不同样本之间数据的差异程度。5.（）是以样本统计量作为未知总体参数的估计量，并通过对样本单位的实际观察取得样本数据，计算样本统计量的取值作为被估计参数的估计值A、参数估计B、逻辑分析C、方差分析D、回归分析答案：A解析：参数估计，是统计推断的一种。根据从总体中抽取的随机样本来估计总体分布中未知参数的过程。6.能够直观显示出学习器在样本总体上的查全率、查准率的图是（）。A、ROC曲线B、误差曲线C、方差曲线D、P-R曲线答案：D解析：能够直观显示出学习器在样本总体上的查全率、查准率的图是P-R曲线。7.机器学习训练时，Mini-Batch的大小优选为2的幂，如256或512。它背后的原因是什么（）。A、Mini-Batch为偶数的时候，梯度下降算法训练的更快B、Mini-Batch设为2的幂，是为了符合CPU、GPU的内存要求，利于并行化处理C、不使用偶数时，损失函数是不稳定的D、以上答案都不正确答案：B解析：Mini-Batch设为2的幂，是为了符合CPU、GPU的内存要求，利于并行化处理8.下面（）属于SVM应用。A、文本和超文本分类B、图像分类C、新文章聚类D、以上均是答案：D解析：SVM可用于分类与回归，文本和超文本分类、图像分类、新文章聚类均属于SVM的应用。9.在一个线性回归问题中，我们使用R平方（R-Squared）来判断拟合度。此时，如果增加一个特征，模型不变，则下面说法正确的是（）。A、如果R-Squared增加，则这个特征有意义B、如果R-Squared减小，则这个特征没有意义C、仅看R-Squared单一变量，无法确定这个特征是否有意义。D、以上说法都不对答案：C解析：单独看R-Squared，并不能推断出增加的特征是否有意义。通常来说，增加一个特征，R-Squared可能变大也可能保持不变，两者不一定呈正相关。10.通常来说，下面哪种方法能够用来预测连续因变量（）A、线性回归B、逻辑回归C、线性回归和逻辑回归D、以上答案都不正确答案：A解析：逻辑回归被用来处理分类问题。11.如果规则集R中不存在两条规则被同一条记录触发，则称规则集R中的规则为（）。A、无序规则B、穷举规则C、互斥规则D、有序规则答案：C解析：如果规则集R中不存在两条规则被同一条记录触发，则称规则集R中的规则为互斥规则。12.聚类是一种典型的无监督学习任务，然而在现实聚类任务中我们往往能获得一些额外的监督信息，于是可通过（）来利用监督信息以获得更好的聚类效果。A、监督聚类B、半监督聚类C、聚类D、直推聚类答案：B解析：聚类是一种典型的无监督学习任务，然而在现实聚类任务中我们往往能获得一些额外的监督信息，于是可通过半监督聚类来利用监督信息以获得更好的聚类效果。13.以下哪种情况LDA会失败（）。A、如果有辨识性的信息不是平均值，而是数据的方差B、如果有辨识性的信息是平均值，而不是数据方差C、如果有辨识性的信息是数据的均值和方差D、以上答案都不正确答案：A解析：LDA的思想是投影后类内方差最小，类间方差最大。14.随机森林中的随机是（）的意思。A、随便构建树模B、随机选择一个树模型C、随机选择多个树模型D、在构建每个树模型时随机选择样本和特征答案：D解析：随机森林里的随机包含的意思是：样本随机、特征随机、参数随机、模型随机（ID3,C4.5）。15.CART决策树通常采用（）剪枝方法。A、REP(错误率降低)B、CCP(代价复杂度)C、PEP(悲观剪枝)D、预剪枝答案：B解析：CART决策树通常采用CCP(代价复杂度)剪枝方法。16.点击率问题是这样一个预测问题,99%的人是不会点击的,而1%的人是会点击进去的,所以这是一个非常不平衡的数据集.假设,现在我们已经建了一个模型来分类,而且有了99%的预测准确率,我们可以下的结论是:（）。A、模型预测准确率已经很高了,我们不需要做什么了B、模型预测准确率不高,我们需要做点什么改进模型C、无法下结论D、以上答案都不正确答案：C解析：类别不均衡的情况下，不能用准确率做分类评估指标，因为全判断为不会点，准确率也是99%，此时分类器一点用都没有。17.以下哪种方法不属于特征选择的标准方法：（）。A、嵌入B、过滤C、包装D、抽样答案：D解析：特征选择的三种方法分别是过滤式(filter)、包裹式(wrapper)和嵌入式(embedded)。18.在集成学习中，对于数据型输出，最常见的结合策略是（）。A、平均法B、投票法C、学习法D、以上答案都正确答案：A解析：在集成学习中，对于数据型输出，最常见的结合策略平均法。对于分类任务来说，最常见的结合策略投票法。当训练数据很多时?一种更为强大的结合策略是使用学习法。19.二项分布的数学期望为（）。A、n(1-n)pB、np(1-p)C、npD、n(1-p)答案：C解析：二项分布，即重复n次的伯努利试验。如果事件发生的概率是p,则不发生的概率q=1-p.则期望为np，方差为npq。20.线性判别分析（LDA）从贝叶斯决策理论阐释，当两类数据同先验且满足（）时，LDA达到最优分类。A、满足高斯分布B、协方差相等C、满足高斯分布且协方差相等D、协方差不等答案：C解析：线性判别分析（LDA）从贝叶斯决策理论阐释，当两类数据同先验且满足满足高斯分布且协方差相等时，LDA达到最优分类。21.对于PCA说法正确的是:（）。1.我们须在使用PCA前标准化化数据;2.我们应该选择使得模型有最大variance的主成分;3.我们应该选择使得模型有最小variance的主成分;4.我们可以使用PCA在低维度上做数据可视化A、1,2and4B、2and4C、3and4D、1and3答案：A解析：须在使用PCA前标准化化数据，应选择使得模型有最大variance的主成分，PCA在低维度上做数据可视化。22.以下说法正确的是（）。A、关联规则挖掘过程是发现满足最小支持度的所有项集代表的规则。B、寻找模式和规则主要是对数据进行干扰，使其符合某种规则以及模式C、数据挖掘的主要任务是从数据中发现潜在的规律，从而能更好的完成描述数据、预测数据等任务。D、在聚类分析当中，簇内的相似性越大，簇间的差别越大，聚类的效果就越差。答案：C解析：关联规则挖掘过程是发现满足最小支持度的所有项集代表，再利用代表生成生成需要的关联规则，根据用户设定的最小置信度进行取舍，最后得到强关联规则。数据挖掘的主要任务是从数据中发现潜在的规律，从而能更好的完成描述数据、预测数据等任务。在聚类分析当中，簇内的相似性越大，簇间的差别越大，聚类的效果就越好。23.（）操作属于预剪枝。A、信息增益B、计算最好的特征切分点C、限制树模型的深度D、可视化树模型答案：C解析：预剪枝是指在决策树生成过程中，对每个结点在划

分前先进行估计，若当前结点的划分不能带来决策树泛化性能提升，则停止划

分并将当前结点标记为叶结点。限制树模型的深度属于预剪枝。24.（）在训练的每一轮都要检查当前生成的基学习器是否满足基本条件。A、支持向量机B、Boosting算法C、贝叶斯分类器D、Bagging算法答案：B解析：Boosting算法在训练的每一轮都要检查当前生成的基学习器是否满足基本条件。25.下列关于支持向量回归说法错误的是（）。A、支持向量回归是将支持向量的方法应用到回归问题中B、支持向量回归同样可以应用核函数求解线性不可分的问题C、同分类算法不同的是，支持向量回归要最小化一个凹函数D、支持向量回归的解是稀疏的答案：C解析：支持向量机最大间隔模型是一个凸二次规划问题。26.在机器学习中，不属于常用的冲突消解策略是（）。A、投票法B、排序法C、元规则法D、加权法答案：D解析：常用的冲突消解策略有投票法、排序法、元规则法等。27.关于boosting下列说法错误的是（）。A、boosting方法的主要思想是迭代式学习B、训练基分类器时采用并行的方式C、测试时，根据各层分类器的结果的加权得到最终结果D、基分类器层层叠加，每一层在训练时，对前一层基分类器分错的样本给予更高的权值答案：B解析：Boosing训练基分类器时只能采用顺序的方式，Bagging训练基分类器时采用并行的方式。28.下列（）算法更适合做时间序列建模。A、CNNB、决策树C、LSTMD、贝叶斯算法答案：C解析：LSTM算法更适合做时间序列建模。29.在抽样方法中，当合适的样本容量很难确定时，可以使用的抽样方法是：（）。A、有放回的简单随机抽样B、无放回的简单随机抽样C、分层抽样D、渐进抽样答案：D解析：在抽样方法中，当合适的样本容量很难确定时，可以使用的抽样方法是渐进抽样。30.关于L1、L2正则化下列说法正确的是（）A、L2正则化能防止过拟合，提升模型的泛化能力，但L1做不到这点B、L2正则化技术又称为LassoRegularizationC、L1正则化得到的解更加稀疏D、L2正则化得到的解更加稀疏答案：C解析：L1正则化可以产生稀疏权值矩阵，即产生一个稀疏模型，可以用于特征选择，L2正则化可以防止模型过拟合，一定程度上；L1也可以防止过拟合；L1正则化，又称LassoRegression。31.假如我们使用Lasso回归来拟合数据集，该数据集输入特征有100个（X1，X2，...，X100）。现在，我们把其中一个特征值扩大10倍（例如是特征X1），然后用相同的正则化参数对Lasso回归进行修正。

那么，下列说法正确的是（）A、特征X1很可能被排除在模型之外B、特征X1很可能还包含在模型之中C、无法确定特征X1是否被舍D、以上答案都不正确答案：B解析：将特征X1数值扩大10倍，它对应的回归系数将相应会减小，但不为0，仍然满足β的正则化约束，因此可能还包含在模型之中。32.可分解为偏差、方差与噪声之和的是（）。A、训练误差(trainingerror)B、经验误差(empiricalerror)C、均方误差(meansquarederror)D、泛化误差(generalizationerror)答案：D解析：泛化误差可分解为偏差、方差与噪声之和。33.以等可能性为基础的概率是（）A、古典概率B、经验概率C、试验概率D、主观概率答案：A解析：关于古典概率是以这样的假设为基础的,即随机现象所能发生的事件是有限的、互不相容的,而且每个基本事件发生的可能性相等。根据大量的、重复的统计试验结果计算随机事件中各种可能发生结果的概率，称为试验概率或频率概率。主观概率，是指建立在过去的经验与判断的基础上，根据对未来事态发展的预测和历史统计资料的研究确定的概率。反映的只是一种主观可能性。34.（）是交叉验证法的一种特例。A、自助法B、留一法C、交叉验证法D、错误率分析答案：B解析：留一法是交叉验证法的一种特例。35.聚类算法己经默认所有的记录都是（）的实体。A、相关联B、有备份C、不独立D、独立答案：D解析：聚类算法己经默认所有的记录都是独立的实体。36.（）采用概率模型来表达聚类原型。A、k均值算法B、学习向量量化C、高斯混合聚类D、密度聚类答案：C解析：高斯混合聚类采用概率模型来表达聚类原型。37.下面哪一项用决策树法训练大量数据集最节约时间（）。A、增加树的深度B、增加学习率C、减少数的深度D、减少树的个数答案：C解析：减少树的深度，相当于加入了一个正则化项，可以降低模型复杂度。38.回归分析的任务，就是根据（）和因变量的观察值，估计这个函数，并讨论与之有关的种种统计推断的问题A、相关变量B、样本C、已知数据D、自变量答案：D解析：回归分析指的是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。回归分析按照涉及的变量的多少，分为一元回归和多元回归分析；按照因变量的多少，可分为简单回归分析和多重回归分析；按照自变量和因变量之间的关系类型，可分为线性回归分析和非线性回归分析。

多选题（共79题）39.下列不属于聚类性能度量外部指标的是（）。A、Jaccard系数B、FM系数C、Rand指数D、DB指数；答案：D解析：聚类常用的外部指标包括：Jaccard系数、FM指数、Rand指数；聚类常用的内部指标包括：DB指数、Dunn指数。40.假如使用逻辑回归对样本进行分类，得到训练样本的准确率和测试样本的准确率。现在，在数据中增加一个新的特征，其它特征保持不变。然后重新训练测试。则下列说法正确的是（）。A、训练样本准确率一定会降低B、训练样本准确率一定增加或保持不变C、测试样本准确率一定会降低D、测试样本准确率一定增加或保持不变答案：B解析：在模型中增加更多特征一般会增加训练样本的准确率，减小偏差。但测试样本准确率不一定增加，除非增加的特征是有效特征。41.当不知道数据所带标签时，可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离（）A、分类B、聚类C、关联分析D、隐马尔可夫链答案：B解析：聚类是一种典型的无监督学习任务，不要求样本集数据带标签。42.令N为数据集的大小（注：设训练样本(xi,yi)，N即训练样本个数），d是输入空间的维数（注：d即向量xi的维数）。硬间隔SVM问题的原始形式（即在不等式约束（注：yi(wTxi+b)≥1）下最小化(1/2)wTw）在没有转化为拉格朗日对偶问题之前，是（）。A、一个含N个变量的二次规划问题B、一个含N+1个变量的二次规划问题C、一个含d个变量的二次规划问题D、一个含d+1个变量的二次规划问题答案：D解析：欲找到具有最大间隔的划分超平面，也就是要找到能满足式题中不等式约束的参数w和b，是一个含d+1个变量的二次规划问题。43.关于bagging下列说法错误的是：（）。A、各基分类器之间有较强依赖，不可以进行并行训练B、最著名的算法之一是基于决策树基分类器的随机森林C、当训练样本数量较少时，子集之间可能有重叠D、为了让基分类器之间互相独立，需要将训练集分为若干子集答案：A解析：Bagging方法在训练过程中，各基分类器之间无强依赖，可以进行并行训练，随机森林就是一种典型的例子。44.信息熵是度量（）最常用的一种指标。A、样本的个数B、样本的维度C、样本的纯度D、样本的冗余度答案：C解析：信息熵是度量样本纯度最常用的一种指标。45.关于Logistic回归和SVM不正确的是:（）。A、Logistic回归本质上是一种根据样本对权值进行极大似然估计的方法，用先验概率的乘积代替后验概率B、Logistic回归的输出就是样本属于正类别的几率C、SVM的目标是找到使得训练数据尽可能分开且分类间隔最大的超平面，属于结构风险最小化D、SVM可以通过正则化系数控制模型的复杂度，避免过拟合答案：A解析：Logit回归目标函数是最小化后验概率，Logit回归可以用于预测事件发生概率的大小，SVM目标是结构风险最小化，SVM可以有效避免模型过拟合。46.下面对集成学习模型中的弱学习者描述错误的是（）。A、他们经常不会过拟合B、他们通常带有高偏差，所以其并不能解决复杂学习问题C、他们通常会过拟合答案：C解析：弱学习者是问题的特定部分。所以他们通常不会过拟合，这也就意味着弱学习者通常拥有低方差和高偏差。47.点击率的预测是一个数据比例不平衡问题（比如训练集中样本呈阴性的比例为99%，阳性的比例是1%），如果我们用这种数据建立模型并使得训练集的准确率高达99%。我们可以得出结论是：（）。A、模型的准确率非常高，我们不需要进一步探索B、模型不好，我们应建一个更好的模型C、无法评价模型D、以上答案都不正确答案：C解析：对于失衡数据，模型的准确率不能作为衡量模型效果的标准。因为我们需要探索的是少数1%的数据，为更好的评估模型效果，可以用灵敏度、特异度、Fmeasure来判断。48.两个变量相关，它们的相关系数r可能为0。这句话是否正确（）A、正确B、错误答案：A解析：Pearson相关系数r=0,这表示两个变量间不存在线性相关关系。49.不属于判别式模型的是（）。A、决策树B、BP神经网络C、支持向量机D、贝叶斯答案：D解析：贝叶斯不属于判别式模型。50.以下说法正确的是:（）。1.一个机器学习模型，如果有较高准确率，总是说明这个分类器是好的;2.如果增加模型复杂度，那么模型的测试错误率总是会降低;3.如果增加模型复杂度，那么模型的训练错误率总是会降低A、1B、2C、3D、1and3答案：C解析：如果增加模型复杂度，那么模型的测试错误率总是会降低，训练错误率可能降低，也可能增高。51.信息增益对可取值数目（）的属性有所偏好，增益率对可取值数目（）的属性有所偏好。A、较高，较高B、较高，较低C、较低，较高D、较低，较低答案：B解析：信息增益准则对可取值数目较多的属性有所偏好,增益率对可取值数目较少的属性有所偏好。52.bootstrap数据是什么意思（）。A、有放回地从总共M个特征中抽样m个特征B、无放回地从总共M个特征中抽样m个特征C、有放回地从总共N个样本中抽样n个样本D、无放回地从总共N个样本中抽样n个样本答案：C解析：自助来样法(bootstrapsampling)，给定包含N个样本的数据集，我们先随机取出一个样本放入采样集中，再把该样本放回初始数据集，使得下次采样时该样本仍有可能被选中，这样经过n次随机采样操作，我们得到含n个样本的采样集。53.变量的不确定性越大，相对应信息熵有什么变化（）。A、熵变小B、熵变大C、不变D、以上答案都不正确答案：B解析：信息熵(informationentropy)是度量样本集合纯度最常用的一种指标，信息熵越大，变量的不确定性越大。54.机器学习中，基于样本分布的距离是以下哪一个（）A、马氏距离B、欧式距离C、曼哈顿距离D、闵可夫斯基距离答案：A解析：马氏距离是基于样本分布的一种距离。55.决策树的基本流程遵循（）的策略。A、贪心B、最优化C、分而治之D、顺序答案：C解析：决策树的基本流程遵循分而治之的策略。56.关于K均值和DBSCAN的比较,以下说法不正确的是（）。A、K均值丢弃被它识别为噪声的对象,而DBSCAN一般聚类所有对象B、K均值使用簇的基于原型的概念,而DBSCAN使用基于密度的概念C、K均值很难处理非球形的簇和不同大小的簇,DBSCAN可以处理不同大小和不同形状的簇D、K均值可以发现不是明显分离的簇,即便簇有重叠也可以发现,但是DBSCAN会合并有重叠的簇答案：A解析：DBSCAN和K均值都是将侮个对象指派到单个簇的划分聚类算法，但K均值一般聚类所有对象，而DBSCAN丢弃被它识别为噪声的对象。57.学习率对机器学习模型结果会产生影响，通常我希望学习率（）。A、越小越好B、越大越好C、较小而迭代次数较多D、较大而迭代次数较小答案：C解析：学习率对机器学习模型结果会产生影响，通常我希望学习率较小而迭代次数较多。58.机器学习中L1正则化和L2正则化的区别是（）。A、使用L1可以得到稀疏的权值，使用L2可以得到平滑的权值B、使用L1可以得到平滑的权值，使用L2可以得到平滑的权值C、使用L1可以得到平滑的权值，使用L2可以得到稀疏的权值D、使用L1可以得到稀疏的权值，使用L2可以得到稀疏的权值答案：A解析：使用L1可以得到稀疏的权值，使用L2可以得到平滑的权值。59.（）的基本想法是适当考虑一部分属性间的相互依赖信息，从而既不需要进行完全联合概率计算，又不至于彻底忽略了比较强的属性依赖关系。A、贝叶斯判定准则B、贝叶斯决策论C、朴素贝叶斯分类器D、半朴素贝叶斯分类器答案：D解析：半朴素贝叶斯的基本想法是适当考虑一部分属性间的相互依赖信息，从而既不需要进行完全联合概率计算，又不至于彻底忽略了比较强的属性依赖关系。60.一般而言，在个体学习器性能相差较大时宜使用（），而在个体学习器性能相近时宜使用（）。A、简单平均法,加权平均法B、加权平均法,简单平均法C、简单平均法,简单平均法D、加权平均法,加权平均法答案：B解析：一般而言,在个体学习器性能相差较大时宜使用加权平均法,而在个体学习器性能相近时宜使用简单平均法。61.下面有关分类算法的准确率，召回率，F1值的描述，错误的是（）。A、准确率是检索出相关文档数与检索出的文档总数的比率，衡量的是检索系统的查准率B、召回率是指检索出的相关文档数和文档库中所有的相关文档数的比率，衡量的是检索系统的查全率C、正确率、召回率和F值取值都在0和1之间，数值越接近0，查准率或查全率就越高D、为了解决准确率和召回率冲突问题，引入了F1分数答案：C解析：正确率、召回率取值都在0和1之间，数值越接近1，查准率或查全率就越高。62.对参数进行L2正则，是机器学习常用的防止过拟合的方法。请问对参数做L2正则，下列（）是对参数本身做先验分布假设。A、高斯分布B、拉普拉斯分布C、泊松分布D、均匀分布答案：A解析：L2正则假设参数的先验分布是Gaussian分布，可以保证模型的稳定性，也就是参数的值不会太大或太小。63.机器学习算法在学习过程中对某种类型假设的偏好，称为（）。A、训练偏好B、归纳偏好C、分析偏好D、假设偏好答案：B解析：机器学习算法在学习过程中对某种类型假设的偏好，称为归纳偏好。64.以下说法哪些是正确的（）A、在使用KNN算法时，k通常取奇数B、KNN是有监督学习算法C、在使用KNN算法时，k取值越大，模型越容易过拟合D、KNN和k-means都是无监督学习算法答案：B解析：在使用KNN算法时，k取值越大，模型越容易欠拟合，KNN是有监督的机器学习算法。65.如下哪些不是最近邻分类器的特点（）。A、它使用具体的训练实例进行预测，不必维护源自数据的模型B、分类一个测试样例开销很大C、最近邻分类器基于全局信息进行预测D、可以生产任意形状的决策边界答案：C解析：k-近邻中的近邻指的是距离待预测数据的数据点，而k-近邻就指的是取前k近的数据点，并非基于全局信息进行预测。66.多分类LDA将样本投影到N-1维空间，N-1通常远小于数据原有的属性数，可通过这个投影来减小样本点的维数,且投影过程中使用了类别信息,因此LDA也常被视为一种经典的（）技术。A、无监督特征选择B、无监督降维C、监督特征选择D、监督降维答案：D解析：多分类LDA将样本投影到N-1维空间，N-1通常远小于数据原有的属性数，可通过这个投影来减小样本点的维数,且投影过程中使用了类别信息,因此LDA也常被视为一种经典的监督降维技术。67.下面回归模型中的哪个步骤/假设最能影响过拟合和欠拟合之间的平衡因素（）。A、多项式的阶数B、是否通过矩阵求逆或梯度下降学习权重C、使用常数项D、使用正则化答案：A解析：选取合适的多项式阶数对于回归的拟合程度会产生重要的影响。多项式阶数越高，越容易产生过拟合现象。68.随着集成中个体分类器（相互独立）数目T的增大，集成的错误率将呈（）下降，最终趋向于零。A、指数级B、对数级C、线性级D、平方级答案：C解析：随着集成中个体分类器数目T的增大,集成的错误率将指数级下降,最终趋向于零。69.以下哪个分类方法可以较好地避免样本的不平衡问题（）。A、KNNB、SVMC、BayesD、神经网络答案：A解析：KNN只是取了最近的几个样本点做平均，离预测数据较远的训练数据对预测结果不会造成影响，但是svm、Bayes和NN每一个训练样本果都会对预测结果产生影响。70.DBSCAN算法的MinPts参数的意义是（）。A、数据点的邻域半径B、密度阈值C、高密度点距离阈值D、低密度点距离阈值答案：B解析：DBSCAN算法的MinPts参数的意义是密度阈值。71.可用信息增益来进行决策树的（）。A、树高B、叶子结点数C、总结点数D、划分属性选择答案：D解析：可用信息增益来进行决策树的划分属性选择。72.（）算法是一种最有影响的挖掘关联规则频繁项目集的算法。A、FP-growthB、EClatC、聚类D、Apdori答案：D解析：Apdori算法是一种最有影响的挖掘关联规则频繁项目集的算法。73.决策树中，同一路径上的所有属性之间是（）关系。A、因果B、相关C、逻辑或D、逻辑与答案：D解析：决策树中，同一路径上的所有属性之间是逻辑与的关系74.假设一个线性回归模型完美适合训练数据(训练误差为0)，下面那个说法是正确的（）。A、测试集误差一直为0B、测试集误差可能为0C、测试集误差不会为0D、以上都不对答案：B解析：测试误差有可能为0，假如测试数据里面没有噪声数据。或者说，如果测试数据能够完美表征训练数据集，测试误差即可为0，但测试数据不会总这样。75.如果我使用数据集的全部特征并且能够达到100%的准确率，但在测试集上仅能达到70%左右，这说明：（）。A、欠拟合B、模型很棒C、过拟合D、以上答案都不正确答案：C解析：当学习器把训练样本学得太好了的时候，很可能巳经把训练样本自身的一些特点当作了所有潜在样本都会具有的一般性质，这样就会导致泛化性能下降这种现象在机器学习中称为过拟合。76.多分类学习中，最经典的三种拆分策略不包括（）。A、一对一B、一对其余C、一对多D、多对多答案：C解析：多分类学习中，最经典的三种拆分策略包括一对多，多对多，一对其余。77.当训练集特征非常多，而实例非常少的时候，可以采用（）。A、sigmoid核的支持向量机B、不带核的支持向量机C、高斯核的支持向量机D、多项式核的支持向量机答案：B解析：当不采用非常复杂的函数，或者当我们的训练集特征非常多但是实例非常少的时候，可以采用不带核函数的支持向量机。78.随机试验所有可能出现的结果，称为（）A、基本事件B、样本C、全部事件D、样本空间答案：D解析：随机试验中的每一个可能出现的试验结果称为这个试验的一个样本点。全体样本点组成的集合，即随机试验的所有可能出现的结果称为这个试验的样本空间。79.（）试图学得一个属性的线性组合来进行预测的函数。A、决策树B、贝叶斯分类器C、神经网络D、线性模型答案：D解析：线性模型试图学得一个属性的线性组合来进行预测的函数。80.在k近邻学习算法中，随着k的增加，上界将逐渐降低，当k区域无穷大时，上界和下界碰到一起，k近邻法就达到了（）。A、贝叶斯错误率B、渐进错误率C、最优值D、上界答案：A解析：在k近邻学习算法中，随着k的增加，上界将逐渐降低，当k区域无穷大时，上界和下界碰到一起，k近邻法就达到了贝叶斯错误率。81.在k-均值算法中，以下哪个选项可用于获得全局最小（）A、尝试为不同的质心（centroid）初始化运行算法B、调整迭代的次数C、找到集群的最佳数量D、以上答案都正确答案：D解析：所有都可以用来调试以找到全局最小。82.假如我们使用非线性可分的SVM目标函数作为最优化对象,我们怎么保证模型线性可分（）。A、设C=1B、设C=0C、设C=无穷大D、以上答案都不正确答案：C解析：C无穷大保证了所有的线性不可分都是可以忍受的。83.通过聚集多个分类器的预测来提高分类准确率的技术称为（）。A、组合(ensemble)B、聚集(aggregate)C、合并(bination)D、投票(voting)答案：A解析：通过聚集多个分类器的预测来提高分类准确率的技术称为组合。84.Adaboost的核心思想是（）。A、给定一个弱学习算法和一个训练集，将该学习算法使用多次,得出预测函数序列,进行投票B、针对同一个训练集训练不同的弱分类器集合起来，构成一个强分类器C、利用多棵树对样本进行训练并预测的一种分类器D、基于前向策略的加法模型,每阶段使用一个基模型去拟合上一阶段基模型的残差答案：B解析：Adaboost的核心思想是给定一个弱学习算法和一个训练集，将该学习算法使用多次,得出预测函数序列,进行投票。85.（）和假设检验又可归结为统计推断的范畴，即对总体的数量特征做出具有一定可靠程度的估计和判断.A、参数估计B、逻辑分析C、方差分析D、回归分析答案：A解析：推断统计包括两方面的内容：参数估计和假设检验。86.所有预测模型在广义上都可称为一个或一组（）。A、公式B、逻辑C、命题D、规则答案：D解析：所有预测模型在广义上都可称为一个或一组规则。87.Relief是为（）问题设计的。A、二分类B、多分类C、回归D、降维答案：A解析：Relief是为二分类问题设计的。88.特征工程的目的是（）。A、找到最合适的算法B、得到最好的输入数据C、减低模型复杂度D、加快计算速度答案：B解析：特征工程的目的是筛选出更好的特征，获取更好的训练数据。89.假如使用一个较复杂的回归模型来拟合样本数据，使用Ridge回归，调试正则化参数λ，来降低模型复杂度。若λ较大时，关于偏差（bias）和方差（variance），下列说法正确的是（）A、若λ较大时，偏差减小，方差减小B、若λ较大时，偏差减小，方差增大C、若λ较大时，偏差增大，方差减小D、若λ较大时，偏差增大，方差增大答案：C解析：λ较小，偏差减小，方差增大，容易发生过拟合；λ较大：偏差增大，方差减小，容易发生欠拟合。90.在图集合中发现一组公共子结构,这样的任务称为（）。A、频繁子集挖掘B、频繁子图挖掘C、频繁数据项挖掘D、频繁模式挖掘答案：B解析：频繁子图挖掘是指在图集合中挖掘公共子结构。91.kNN最近邻算法在什么情况下效果较好（）。A、样本较多但典型性不好B、样本较少但典型性好C、样本呈团状分布D、样本呈链状分布答案：B解析：K近邻算法主要依靠的是周围的点，因此如果样本过多，则难以区分，典型性好的容易区分。92.与生成方法、半监督SVM、图半监督学习等基于单学习机器利用未标记数据不同，基于分歧的方法（disagreement-basedmethods）使用多学习器，而学习器之间的分歧（disagreement）对未标记数据的利用至关重要。（）是此类方法的重要代表。A、协同训练B、组合训练C、配合训练D、陪同训练答案：A解析：与生成方法、半监督SVM、图半监督学习等基于单学习机器利用未标记数据不同，基于分歧的方法（disagreement-basedmethods）使用多学习器，而学习器之间的分歧（disagreement）对未标记数据的利用至关重要。协同是此类方法的重要代表，它很好地利用了多视图的相容互补性。93.可用作数据挖掘分析中的关联规则算法有（）。A、机器学习、对数回归、关联模式B、K均值法、SOM机器学习C、Apriori算法、FP-Tree算法D、RBF机器学习、K均值法、机器学习答案：C解析：关联规则包括Apriori、FP-Tree等算法。94.K-means++算法选择初始seeds的基本思想就是：初始的聚类中心之间的相互距离要尽可能的远。那么算法流程为（）。1.从输入的数据点集合中随机选择一个点作为第一个聚类中心;2.对于数据集中的每一个点x，计算它与最近聚类中心(指已选择的聚类中心)的距离D(x);3.选择一个新的数据点作为新的聚类中心，选择的原则是：D(x)较大的点，被选取作为聚类中心的概率较大;4.重复2和3直到k个聚类中心被选出来;5.利用这k个初始的聚类中心来运行标准的k-means算法A、2.5.4.3.1B、1.5.4.2.3C、1.2.3.4.5D、4.3.2.1.5答案：C解析：k-means++算法基本流程为：1.从输入的数据点集合中随机选择一个点作为第一个聚类中心2.对于数据集中的每一个点x，计算它与最近聚类中心(指已选择的聚类中心)的距离D(x)3.选择一个新的数据点作为新的聚类中心，选择的原则是：D(x)较大的点，被选取作为聚类中心的概率较大4.重复2和3直到k个聚类中心被选出来5.利用这k个初始的聚类中心来运行标准的k-means算法95.当学习器将训练样本自身的特点作为所有潜在样本都具有的一般性质，这样会导致泛化性能下降，这种现象称之为（）。A、欠拟合B、过拟合C、拟合D、以上答案都不正确答案：B解析：当学习器把训练样本学得太好了的时候，很可能巳经把训练样本自身的一些特点当作了所有潜在样本都会具有的一般性质，这样就会导致泛化性能下降这种现象在机器学习中称为过拟合。96.线性回归的基本假设不包括哪个（）。A、随机误差项是一个期望值为0的随机变量B、对于解释变量的所有观测值，随机误差项有相同的方差C、随机误差项彼此相关D、解释变量是确定性变量不是随机变量，与随机误差项之间相互独立答案：C解析：线性回归的基本假设：(1)线性关系假设(2)正态性假设，指回归分析中的Y服从正态分布。(3)独立性假设，包含两个意思：①与某一个X值对应的一组Y值和与另一个X值对应的一组Y值之间没有关系，彼此独立。②误差项独立，不同的X所产生的误差之间应相互独立，无自相关。(4)误差等分散性假设：特定X水平的误差，除了应呈随机化的常态分配，其变异量也应相等，称为误差等分散性。97.以下哪项关于决策树的说法是错误的（）。A、冗余属性不会对决策树的准确率造成不利的影响B、子树可能在决策树中重复多次C、决策树算法对于噪声的干扰非常敏感D、寻找最佳决策树是NP完全问题答案：C解析：决策树算法对于噪声的干扰具有相当好的鲁棒性。98.下列策略（）可在保证训练精度的情况下降低模型的复杂度。A、正则化系数无穷大B、正则化系数几乎为0C、选择合适的正则化参数D、以上答案都不正确答案：C解析：选择合适的正则化参数可在保证训练精度的情况下降低模型的复杂度。99.在其他条件不变的前提下，以下哪种做法容易引起机器学习中的过拟合问题（）。A、增加训练集量B、减少神经网络隐藏层节点数C、删除稀疏的特征D、SVM算法中使用高斯核/RBF核代替线性核答案：D解析：神经网络减少隐藏层节点，就是在减少参数，只会将训练误差变高，不会导致过拟合。D选项中SVM高斯核函数比线性核函数模型更复杂，容易过拟合。100.关于Apriori算法的原理中叙述错误的是（）。A、Apriori算法通常使用先验知识或者假设B、如果某个项集是频繁的，那么它的所有子集也是频繁的C、如果一个项集是非频繁集，那么它的所有超集也是非频繁的D、Apriori算法不可以用来发现频繁集答案：D解析：Apriori算法可以用来发现频繁集。101.下列哪项选择是直接把最终将要使用的学习器的性能作为特征子集的评价准则（）。A、嵌入式B、过滤式C、包裹式D、一体式答案：C解析：包裹式特征选择直接把最终将要使用的学习器的性能作为特征于集的评价准则。102.已知一个数据集，n为特征数，m为训练样本数，如果n较小，而且m大小中等（例如n在1-1000之间，而m在10-10000之间），则一般选择什么核函数的支持向量机（）。A、逻辑回归模型B、不带核的支持向量机C、高斯核的支持向量机D、多项式核的支持向量机答案：C解析：高斯核函数需要选择合适的sigma^2参数，适用于少量特征，大量样本的情况，可以拟合出非常复杂的非线性决策边界。103.以下关于随机森林的说法正确的是（）。A、随机森林对于高维数据集的处理能力比较好B、在对缺失数据进行估计时,随机森林是一个十分有效的方法C、当存在分类不平衡的情况时,随机森林能够提供平衡数据集误差的有效方法D、以上答案都正确答案：D解析：随机森林对于高维数据集的处理能力比较好，在对缺失数据进行估计时,随机森林是一个十分有效的方法，当存在分类不平衡的情况时,随机森林能够提供平衡数据集误差的有效方法。104.留出法直接将数据集划分为（）个互斥的集合。A、一B、二C、三D、四答案：B解析：留出法(hold-out)直接将数据集D划分为两个互斥的集合，其中一个集合作为训练集，另一个作为测试集T。105.下列哪一种方法的系数没有封闭形式（closed-form）的解（）。A、Ridge回归B、LassoC、Ridge回归和LassoD、以上答案都不正确答案：B解析：Ridge回归是一般的线性回归再加上L2正则项，它具有封闭形式的解，可以基于最小二乘法求解。106.一元线性回归方程y=0.7+0.82x，判定系数等于0.64，则x与y的相关系数为（）。A、0.82B、0.64C、0.8D、0.7答案：C解析：一元回归分析中，自变量和因变量的相关系数的平方等于回归模型的判定系数。所以，相关系数=sqrt(0.64)=0.8。107.如果使用线性回归模型，下列说法正确的是（）A、检查异常值是很重要的，因为线性回归对离群效应很敏感B、线性回归分析要求所有变量特征都必须具有正态分布C、线性回归假设数据中基本没有多重共线性D、以上说法都不对答案：A解析：异常值是数据中的一个非常有影响的点，它可以改变最终回归线的斜率。因此，去除或处理异常值在回归分析中是很重要的。了解变量特征的分布是有用的，类似于正态分布的变量特征对提升模型性能很有帮助，数据预处理的时候经常做的一件事就是将数据特征归一化到（0，1）分布，但不是必须的。当模型包含相互关联的多个特征时，会发生多重共线性。因此，线性回归中变量特征应该尽量减少冗余性。108.下列关于bootstrap说法正确的是（）。A、从总的M个特征中，有放回地抽取m个特征（m<M）B、从总的M个特征中，无放回地抽取m个特征（m<M）C、从总的N个样本中，有放回地抽取n个样本（n<N）D、从总的N个样本中，无放回地抽取n个样本（n<N）答案：C解析：bootstrap抽样是从总的N个样本中，有放回地抽取n个样本（n<N）109.概率模型的训练过程就是（）过程。A、分类B、聚类C、参数估计D、参数选择答案：C解析：概率模型的训练过程就是参数估计的过程。110.对数值型输出，最常见的结合策略是（）。A、投票法B、平均法C、学习法D、排序法答案：B解析：对数值型输出，最常见的结合策略是平均法。111.机器学习中做特征选择时，可能用到的方法有（）。A、卡方B、信息增益C、平均互信息D、期望交叉熵E、以上答案都正确答案：E解析：以上都是机器学习中做特征选择时，可能用到的方法。112.（）表达了在当前任务上任何学习算法所能达到的期望泛化误差的下界，即刻画了学习问题本身的难度。A、偏差B、方差C、噪声D、泛化误差答案：C解析：泛化误差可分解为偏差、方差与噪声之和。偏差度量了学习算法的期望预测与真实结果的偏离程度，即刻画了学习算法本身的拟合能力;方差度量了同样大小的训练集的变动所导致的学习性能的变化，即刻画了数据扰动所造成的影响;噪声则表达了在当前任务上任何学习算法所能达到的期望泛化误差的F界，即刻画了学习问题本身的难度。113.阶跃函数与sigmoid函数均为典型激活函数（）。A、正确B、错误答案：A解析：阶跃函数与sigmoid函数均为典型激活函数114.以下关于降维，表述错误的是：（）。A、降维过程中可以保留原始数据的所有信息B、多维缩放的目标是要保证降维后样本之间的距离不变C、线性降维方法目标是要保证降维到的超平面能更好的表示原始数据D、核线性降维方法目标是通过核函数和核方法来避免采样空间投影到高维空间再降维之后的低维结构丢失答案：A解析：降维过程中尽量保留原始数据的信息，但不能保留原始数据的全部信息。115.SVM在下列哪种情况下表现糟糕：（）。A、线性可分数据B、清洗过的数据C、含噪声数据与重叠数据点答案：C解析：SVM含噪声数据与重叠数据点下表现糟糕。116.异常检测过程查找基于（）组标准值偏差的异常个案。A、单体B、分类C、聚类D、回归答案：C解析：异常检测”过程查找基于聚类组标准值偏差的异常个案。该过程设计为在探索性数据分析步骤中，快速检测到用于数据审核的异常个案，并优先于任何推论性数据分析。117.哪种聚类方法采用概率模型来表达聚类（）。A、K-meansB、LVQC、DBSCAND、高斯混合聚类答案：D解析：高斯混合聚类(MixtureofGaussian)采用概率模型来表达聚类。118.核矩阵是（）的。A、没有规律B、半正定C、正定D、样本矩阵答案：B解析：只要一个对称函数所对应的核矩阵半正定，它就能作为核函数使用。119.著名的C4.5决策树算法使用（）来选择最优划分属性。A、信息增益B、增益率C、基尼指数D、均值答案：B解析：C4.5决策树算法使用增益率来选择最优划分属性。120.后剪枝是先从训练集生成一颗完整的决策树，然后（）对非叶结点进行考察。A、自上而下B、在划分前C、禁止分支展开D、自底向上答案：D解析：后剪枝是先从训练集生成一颗完整的决策树，然后自底向上对非叶结点进行考察。121.（）算法是一种挖掘关联规则的频繁项集算法，其核心思想是通过候选集生成和检测两个阶段来挖掘频繁项集。A、AprioriB、EMC、PCAD、PAC答案：A解析：Apriori算法是一种挖掘关联规则的频繁项集算法，其核心思想是通过候选集生成和检测两个阶段来挖掘频繁项集。PCA是无监督的降维算法。概率近似正确（简称PAC)学习理论计算学习理论中最基本的理论。最大期望算法（Expectation-EM），是一类通过迭代进行极大似然估计的优化算法。122.子集搜索中，逐渐增加相关特征的策略称为（）。A、前向搜索B、后向搜索C、双向搜索D、不定向搜索答案：A解析：子集搜索中，逐渐增加相关特征的策略称为前向搜索。123.（）是指数据减去一个总括统计量或模型拟合值时的残余部分A、极值B、标准值C、平均值D、残值答案：D解析：残差在数理统计中是指实际观察值与估计值（拟合值）之间的差。124.在逻辑回归输出与目标对比的情况下，以下评估指标中哪一项不适用（）。A、AUC-ROCB、准确度C、LoglossD、均方误差答案：D解析：LogisticRegression是一个分类算法，所以它的输出不能是实时值，所以均方误差不能用于评估它。125.某篮运动员在三分线投球的命中率是2(1)，他投球10次，恰好投进3个球的概率（）。A、128(15)B、16(3)C、8(5)D、16(7)答案：A解析：投篮只有两种结果，进或者不进，符合二项分布，二项分布概率的概率可以用以下公式求得，

其中n=10代表试验次数,k=3代表事件连续发生的次数,p=1/2代表事件发生的概率。126.如果两个变量相关，那么它们一定是线性关系吗（）A、是B、不是答案：B解析：相关不一定是线性关系,也有可能是非线性相关。127.假设我们使用原始的非线性可分版本的Soft-SVM优化目标函数。我们需要做什么来保证得到的模型是线性可分离的（）A、C=0B、C=1C、C正无穷大D、C负无穷大答案：C解析：C为分类错误项的参数，即正则化中的惩罚因子，C的值越大，边界越窄，尽可能把更多点正确分类，分类错误越少。C的值越小，边界越宽，分类错误点的个数增加。因此，C正无穷大时，可以实现没有分类错误的点，模型线性可分。128.聚类算法的性能度量可称为（）。A、密度估计B、异常检测C、有效性指标D、分布结构答案：C解析：聚类算法的性能度量可称为有效性指标。129.以下哪些方法不可以直接来对文本分类（）A、KmeansB、决策树C、支持向量机D、KNN答案：A解析：Kmeans是聚类方法，属于无监督学习。BCD都是常见的分类方法。130.若A与B是任意的两个事件，且P（AB）＝P（A）·P（B），则可称事件A与B（）。A、等价B、互不相容C、相互独立D、相互对立答案：C解析：若A与B为互斥事件，则有概率加法公式P(A+B)=P(A)+P(B)，若A与B不为互斥事件，则有公式P(A+B)=P(A)+P(B)-P(AB)；若A与B为相互独立事件，则有概率乘法公式P(AB)=p(A)P(B)131.对于SVM分类算法，待分样本集中的大部分样本不是支持向量，下列说法正确的是（）。A、需要将这些样本全部强制转换为支持向量B、需要将这些样本中可以转化的样本转换为支持向量，不能转换的直接删除C、移去或者减少这些样本对分类结果没有影响D、以上都不对答案：C解析：支持向量机的一个重要性质:训练完成后，大部分的训练样本都不需保留，最终模型仅与支持向量有关。132.下列的哪种方法可以用来降低深度学习模型的过拟合问题（）。

1增加更多的数据

2使用数据扩增技术(dataaugmentation)

3使用归纳性更好的架构

4正规化数据

5降低架构的复杂度A、145B、123C、1345D、所有项目都有用答案：D解析：增多数据、数据扩增、正规化数据、选择归纳性更好、复杂度更低的架构均可以用来降低深度学习模型的过拟合问题。133.我们建立一个5000个特征,100万数据的机器学习模型.我们怎么有效地应对这样的大数据训练（）。A、我们随机抽取一些样本,在这些少量样本之上训练B、我们可以试用在线机器学习算法C、我们应用PCA算法降维,减少特征数D、以上答案都正确答案：D解析：样本数过多,或者特征数过多,而不能单机完成训练,可以用小批量样本训练,或者在线累计式训练,或者主成分PCA降维方式减少特征数量再进行训练。134.（）选择成为支持向量机的最大变数。A、核函数B、样本空间C、模型D、算法答案：A解析：在不知道特征映射的形式时，我们并不知道什么样的核函数是合适的，而核函数也仅是隐式地定义了这个特征空间.于是，核函数选择成为支持向量机的最大变数。135.下列关于L1正则化与L2正则化描述错误的是（）。A、L1范数正则化有助于降低过拟合风险B、L2范数正则化有助于降低过拟合风险C、L1范数正则化比L2范数正则化更有易于获得稀疏解D、L2范数正则化比L1范数正则化更有易于获得稀疏解答案：D解析：周志华机器学习136.在多元线性回归模型中，若某个解释变量对其余解释变量的判定系数接近于1，则表明模型中存在（）。A、异方差B、序列相关C、多重共线性D、高拟合优度答案：C解析：在多元线性回归模型中，若某个解释变量对其余解释变量的判定系数接近于1，则表明模型中存在多重共线性。137.检测一元正态分布中的离群点，属于异常检测中的基于（）的离群点检测。A、统计方法B、邻近度C、密度D、聚类技术答案：A解析：检测一元正态分布中的离群点，属于异常检测中的基于统计方法的离群点检测。138.下面哪个问题不适合使用机器学习方法解决（）。A、判断电子邮件是否是垃圾邮件B、判断给定的图中是否有环C、判断是否给指定用户办理信用卡D、对滴滴拼车乘客分簇答案：B解析：判断给定的图中是否有环采用深度学习。139.关联规则的评价指标是（）。A、均方误差、均方根误差B、Kappa统计、显著性检验C、支持度、置信度D、平均绝对误差、相对误差答案：C解析：支持度、置信度是关联规则的评价指标。140.k-NN最近邻方法在什么情况下效果较好（）A、样本较多但典型性不好B、样本较少但典型性好C、样本呈团状分布D、样本呈链状分布答案：B解析：K近邻算法主要依靠的是周围的点，如果样本过多，那肯定是区分不出来的。样本都是呈团状分布，KNN就发挥不出其求近邻的优势了，整体样本应该具有典型性好，样本较少，比较适宜。141.下列关于支持向量的说法正确的是（）。A、到分类超平面的距离最近的且满足一定条件的几个训练样本点是支持向量B、训练集中的所有样本点都是支持向量C、每一类样本集中都分别只有一个支持向量D、支持向量的个数越多越好答案：A解析：在支持向量机中，距离超平面最近的且满足一定条件的几个训练样本点被称为支持向量。一般情况下，支持向量的个数等于训练样本数目，并不是越多越好。142.数据清洗的方法不包括（）。A、缺失值处理B、噪声数据清除C、一致性检查D、重复数据记录处理答案：D解析：本题考查信息处理基本概念。刚收集得到的原始数据很可能有一部分是脏的，需要清洗才能使用。例如，有些是重复的数据，有些是含有矛盾的数据(回答的多个问题中发现有矛盾)，有些是填写错误的数据(包括格式错误、数字错误)。对以上不同的情况要做不同的处理，这属于数据清洗工作。对过大的或者过小的异常数据要慎重处理，有可能是错误数据，但也有可能是正确的非常重要的超常数据。分析处理异常数据需要专业水平，不属于数据清洗工作。143.假负率是指（）。A、正样本预测结果数/正样本实际数B、被预测为负的正样本结果数/正样本实际数C、被预测为正的负样本结果数/负样本实际数D、负样本预测结果数/负样本实际数答案：B解析：假负率是指被预测为负的正样本结果数/正样本实际数。144.考虑这么一种情况：一个对象碰巧与另一个对象相对接近，但属于不同的类，因为这两个对象一般不会共享许多近邻，所以应该选择（）的相似度计算方法。A、平方欧几里德距离B、余弦距离C、直接相似度D、共享最近邻答案：D解析：SNN相似度通过共享最近邻的个数考虑了对象的环境，因此可以处理两个对象相对接近却不属于同一类的情况。145.在留出法、交叉验证法和自助法三种评估方法中，（）更适用于数据集较小、难以划分训练集和测试集的情况。A、留出法B、交叉验证法C、自助法D、留一法答案：C解析：自助法更适用于数据集较小、难以划分训练集和测试集的情况。146.下列算法中，不属于外推法的是（）。A、移动平均法B、回归分析法C、指数平滑法D、季节指数法答案：B解析：外推法（Extrapolation）是根据过去和现在的发展趋势推断未来的一类方法的总称，回归分析法不属于外推法。147.决策树的父节点和子节点的熵的大小关系是什么（）。A、父节点的熵更小B、子节点的熵更小C、两者相等D、根据具体情况而定答案：B解析：决策树分解策略是保证子结点的熵小于父结点的熵。但子结点的熵是该父结点所有孩子结点的熵的总和，因此，并保证任意一个子节点的熵都小于父结点熵。148.参数估计又可分为（）和区间估计。A、线型估计B、点估计C、回归估计D、二维分析答案：B解析：参数估计是根据从总体中抽取的随机样本来估计总体分布中未知参数的过程。从估计形式看，区分为点估计与区间估计。149.有N个样本，一般用于训练，一般用于测试。若增大N值，则训练误差和测试误差之间的差距会如何变化（）。A、增大B、减小C、无法确定D、无明显变化答案：B解析：增加数据，能够有效减小过拟合，减小训练样本误差和测试样本误差之间的差距。150.使用似然函数的目的是（）。A、求解目标函数B、得到最优数据样本C、找到最适合数据的参数D、改变目标函数分布答案：C解析：似然估计是一种确定模型参数值的方法。确定参数值的过程，是找到能最大化模型产生真实观察数据可能性的那一组参数。151.下列说法错误的是（）A、当目标函数是凸函数时，梯度下降算法的解一般就是全局最优解B、进行PCA降维时，需要计算协方差矩C、沿负梯度的方向一定是最优的方向D、利用拉格朗日函数能解带约束的优化问题答案：C解析：沿负梯度的方向是函数值减少最快的方向但不一定就是最优方向。152.如果线性回归模型中的随机误差存在异方差性，那么参数的OLS估计量是（）。A、无偏的，有效的B、无偏的，非有效的C、有偏的，有效的D、有偏的，非有效的答案：B解析：OLS即普通最小二乘法，由高斯-马尔可夫定理，在给定经典线性回归的假定下，最小二乘估计量是具有最小方差的线性无偏估计量。根据证明过程可知，随机误差中存在异方差性不会影响其无偏性，而有效性证明中涉及同方差性，即异方差性会影响参数OLS估计量的有效性，得到的参数估计量不是有效估计量。153.对分类任务来说，学习器从类别标记集合中预测出一个标记，最常见的结合策略是（）。A、投票法B、平均法C、学习法D、排序法答案：A解析：对分类任务来说，学习器从类别标记集合中预测出一个标记，最常见的结合策略是投票法。154.（）对应于决策树结果，其他节点对应于（）。A、叶节点，属性测试B、根结点，学习测试C、内部节点，学习测试D、叶节点，分类测试答案：A解析：决策树包含一个根节点、若干内部节点和若干叶节点。叶节点对应于决策结果，其他每个节点则对应于一个属性测试。155.（）先对数据集进行特征选择，然后再训练学习器。A、过滤式选择B、包裹式选择C、稀疏表示D、嵌入式选择答案：A解析：过滤式选择先对数据集进行特征选择，然后再训练学习器。156.（）是一种著名的密度聚类算法，它基于一组邻域参数来刻画样本的紧密程度。A、DBSCANB、原型聚类C、密度聚类D、层次聚类答案：A解析：DBSCAN是一种著名的密度聚类算法，它基于一组邻域参数来刻画样本的紧密程度。157.评估完模型之后，发现模型存在高偏差（highbias），应该如何解决（）。A、减少模型的特征数量B、增加模型的特征数量C、增加样本数量D、以上答案都正确答案：B解析：如果模型存在高偏差，意味着模型过于简单，为了使模型更加健壮，可以在特征空间中添加更多的特征。而增加样本数量将减少方差。158.（）算法是分类算法。A、DBSCANB、C4.5C、K-MeanD、EM答案：B解析：C4.5是分类算法；DBSCAN、K-Mean、EM是聚类算法。159.下列关于支持向量机优化性问题的形式说法正确的是（__)。A、它是一个凸二次规划问题B、它是一个凸一次规划问题C、它是一个凹二次规划问题D、它是一个凹一次规划问题答案：A解析：支持向量机优化性问题的一个凸二次规划问题。160.如果一个SVM模型出现欠拟合，那么下列哪种方法能解决这一问题（）A、增大惩罚参数

C的值B、减小惩罚参数

C的值C、减小核系数（gamma参数）答案：A解析：SVM模型出现欠拟合，表明模型过于简单，需要提高模型复杂度。C值越大，相应的模型越复杂。161.过滤式特征选择与学习器（）,包裹式特征选择与学习器（）。A、相关相关B、相关不相关C、不相关相关D、不相关不相关答案：C解析：过滤式方法先对数据集进行特征选择，然后再训练学习器，特征选择过程与后续学习器无关。包裹式特征选择把最终将要使用的学习器的性能作为特征于集的评价准则。162.KNN最近邻分类算法的过程（）1.计算训练样本和测试样本中每个样本点的距离（常见的距离度量有欧式距离，马氏距离等）；2.对上面所有的距离值进行排序；3.选前k个最小距离的样本；4.根据这k个样本的标签进行投票，得到最后的分类类别。A、1.3.2.4B、2.4.1.3C、1.2.3.4D、1.2.4.3答案：C解析：KNN最近邻分类算法的过程是：1.计算训练样本和测试样本中每个样本点的距离（常见的距离度量有欧式距离，马氏距离等）；2.对上面所有的距离值进行排序；3.选前k个最小距离的样本；4.根据这k个样本的标签进行投票，得到最后的分类类别。163.选择Logistic回归中的One-Vs-All方法中的哪个选项是真实的（）。A、我们需要在n类分类问题中适合n个模型B、我们需要适合n-1个模型来分类为n个类C、我们需要只适合1个模型来分类为n个类D、以上答案都不正确答案：A解析：如果存在n个类，那么n个单独的逻辑回归必须与之相适应，其中每个类的概率由剩余类的概率之和确定。164.对于线性回归模型，包括附加变量在内，以下的可能正确的是（）。

1）R-Squared和AdjustedR-squared都是递增的

2）R-Squared是常量的，AdjustedR-squared是递增的

3）R-Squared是递减的，AdjustedR-squared也是递减的

4）R-Squared是递减的，AdjustedR-squared是递增的A、1和2B、1和3C、2和4D、以上都不是答案：D解析：R-squared不能决定系数估计和预测偏差。每次在模型中加入预测器，R-squared递增或不变。165.如果在大型数据集上训练决策树。为了花费更少的时间来训练这个模型，下列哪种做法是正确的（）A、增加树的深度B、增加学习率C、减小树的深度D、减少树的数量答案：C解析：决策树深度越深，在训练集上误差会越小，准确率越高。但是容易造成过拟合，而且增加模型的训练时间。对决策树进行修剪，减小树的深度，能够提高模型的训练速度，有效避免过拟合。166.以下说法正确的是:（）。A、一个机器学习模型，如果有较高准确率，总是说明这个分类器是好的B、如果增加模型复杂度，那么模型的测试错误率总是会降低C、如果增加模型复杂度，那么模型的训练错误率总是会降低答案：C解析：对于不平衡的数据集进行预测时，正确率不能反映模型的性能。模型越复杂，在训练集上越容易表现好，在测试集上越容易表现的不好。167.在抽样估计中，随着样本容量的增大，样本统计量接近总体参数的概率就越大，这一性质称为（）A、无偏性B、有效性C、及时性D、一致性答案：D解析：一致性是指随着样本容量的增大，样本统计量接近总体参数的概率就越大，对于给定的偏差控制水平，两者间偏差高于此控制水平，两者间偏差高于此控制水平的可能性越小。168.如果我们说线性回归模型完美地拟合了训练样本（训练样本误差为零），则下面哪个说法是正确的（）A、测试样本误差始终为零B、测试样本误差不可能为零C、以上答案都不对答案：C解析：根据训练样本误差为零，无法推断测试样本误差是否为零。如果测试样本集很大，则很可能发生过拟合，导致模型不具备很好的泛化能力。169.假设在庞大的数据集上使用Logistic回归模型，可能遇到一个问题，Logistic回归需要很长时间才能训练，如果对相同的数据进行逻辑回归，如何花费更少的时间，并给出比较相似的精度（）。A、降低学习率，减少迭代次数B、降低学习率，增加迭代次数C、提高学习率，增加迭代次数D、增加学习率，减少迭代次数答案：D解析：如果在训练时减少迭代次数，就能花费更少的时间获得相同的精度，但需要增加学习率。170.关于层次聚类算法：（1）不断重复直达达到预设的聚类簇数（2）不断合并距离最近的聚类簇（3）对初始聚类簇和相应的距离矩阵初始化（4）对合并得到的聚类簇进行更新。正确的执行顺序为（）。A、1234B、1324C、3241D、3412答案：C解析：层次聚类算法的过程是：

对初始聚类簇和相应的距离矩阵初始化；不断合并距离最近的聚类簇；对合并得到的聚类簇进行更新；不断重复直达达到预设的聚类簇数。171.划分聚类算法是一种简单的较为基本的重要聚类方法。它的主要思想是通过将数据点集分为（）个划分，并使用重复的控制策略使某个准则最优化，以达到最终的结果A、DB、KC、ED、F答案：B解析：划分聚类算法K-Means将数据点集分为K个子集。172.回归方程判定系数的计算公式R^2=SSR/SST=1-SSE/SST，对判定系数描述错误的是（）。A、式中的SSE指残差平方和B、式中的SSR指总离差平方和C、判定系数用来衡量回归方程的扰合优度D、判定系数R^2等于相关系数的平方答案：B解析：SSR指回归平方和。173.下列哪一项能反映出X和Y之间的强相关性（）A、相关系数为0.9B、对于无效假设β=0的p值为0.0001C、对于无效假设β=0的t值为30D、以上说法都不对答案：A解析：相关系数反映了不同变量之间线性相关程度，取值范围在[-1,1]之间，值越大表示相关程度越高；因此，A选项中中r=0.9，表示X和Y之间有较强的相关性。p和t的数值大小没有统计意义，只是将其与某一个阈值进行比对,以得到二选一的结论。174.基于Bagging的集成学习代表算法有（）。A、AdaboostB、GBDTC、XGBOOSTD、随机森林答案：D解析：随机森林是基于Bagging的集成学习算法。175.在回归模型中，下列哪一项在权衡欠拟合（under-fitting）和过拟合（over-fitting）中影响最大（）A、多项式阶数B、更新权重w时，使用的是矩阵求逆C、使用常数项D、使用梯度下降法答案：A解析：选择合适的多项式阶数非常重要。如果阶数过大，模型就会更加复杂，容易发生过拟合；如果阶数较小，模型就会过于简单，容易发生欠拟合。176.如果需要训练的特征维度成千上万，在高维情形下出现的数据样本稀疏、距离计算困难。我们通过什么方法可以缓解这个问题（）。A、K均值算法B、支持向量机C、降维D、以上答案都不正确答案：C解析：如果需要训练的特征维度成千上万，在高维情形下出现的数据样本稀疏、距离计算困难，可懂过降维降低特征维度。177.机器学习中发生过拟合的主要原因不包括（）。A、使用过于复杂的模型B、数据噪声较大C、训练数据少D、训练数据充足答案：D解析：训练数据充足可以降低过拟合。178.采样分析的精确性随着采样随机性的增加而（），但与样本数量的增加关系不大。A、降低B、不变C、提高D、无关答案：C解析：采样分析的精确性随着采样随机性的增加而提高，但与样本数量的增加关系不大。当样本数量达到某个值后，我们从新个体上得到的信息会越来越少。179.支持向量回归与传统回归模型的差别（）。A、模型输出与真实值相同B、模型输出与真实值存在ε偏差C、模型输出大于真实值D、模型输出小于真实值答案：B解析：以线性回归为例，通过模型输出的f(x)与真实输出的y值之间的差别来计算损失。而SVR假设模型输出f(x)与真实的y值之间可以容忍有eps大小的偏差，也就意味只要样本的预测值落在f(x)两侧在y轴方向上绝对值只差小于eps的间隔带上就是预测正确的。180.对于PCA(主成分分析)转化过的特征,朴素贝叶斯的不依赖假设总是成立,因为所有主要成分是正交的,这个说法是:（）.A、正确的B、错误的答案：B解析：说法错误,首先,不依赖和不相关是两回事,其次,转化过的特征,也可能是相关的。181.假设你需要调整参数来最小化代价函数（costfunction），会使用（）技术。A、穷举搜索B、随机搜索C、Bayesian优化D、以上全是答案：D解析：要使用的学习器的性能作为特征于集的评价准则.182.已知一组数据的协方差矩阵P,下面关于主分量说法错误的是（）。A、主分量分析的最佳准则是对一组数据进行按一组正交基分解,在只取相同数量分量的条件下,以均方误差计算截尾误差最小B、在经主分量分解后,协方差矩阵成为对角矩阵C、主分量分析就是K-L变换D、主分量是通过求协方差矩阵的特征值得到答案：C解析：主分量分析的变换矩阵是协方差矩阵，K-L变换的变换矩阵可以有很多种（二阶矩阵、协方差矩阵、总类内离散度矩阵等等）。当K-L变换矩阵为协方差矩阵时，等同于PCA。183.选择哪一个解作为输出，将由学习算法的归纳偏好决定，常见的做法是引入（）。A、线性回归B、线性判别分析C、正则化项D、偏置项答案：C解析：选择哪一个解作为输出，将由学习算法的归纳偏好决定，常见的做法是引入正则化(regularization)项。184.Apriori算法的核心思想是（）。A、通过频繁项集生成和情节的向下封闭检测两个阶段来挖掘候选集B、通过候选集生成和情节的向下封闭检测两个阶段来挖掘频繁项集C、数据集中包含该项集的数据所占数据集的比例，度量一个集合在原始数据中出现的频率D、若某条规则不满足最小置信度要求，则该规则的所有子集也不满足最小置信度要求答案：B解析：Apriori算法是一种挖掘关联规则的频繁项集算法，其核心思想是通过候选集生成和情节的向下封闭检测两个阶段来挖掘频繁项集。185.在IBMPASS中，聚类算法分为分层聚类、Kohonennetwork、K平均值聚类和（）四种。A、系统聚类B、两步聚类C、模型聚类D、其它聚类答案：B解析：在IBMPASS中，聚类算法分为分层聚类、Kohonennetwork、K平均值聚类和两步聚类四种。186.在Apriori算法中，候选项集划分为不同的桶，存放在（）中。A、字典B、集合C、Hash树D、列表答案：C解析：在Apriori算法中，候选项集划分为不同的桶，存放在Hash树中。187.在一个简单的线性回归模型中（只有一个变量），如果将输入变量改变一个单位（增加或减少），那么输出将改变多少（）A、一个单位B、不变C、截距D、回归模型的尺度因子答案：D解析：假设线性回归模型是：y=a+bx，若x改变一个单位，

人人文库> 全部分类> 教育资料 > 考试试卷

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

《大数据习题库汇总-机器学习》复习题库（含答案）

文档简介

温馨提示

最新文档

评论