机器学习实战-基于Scikit-Learn智慧树知到期末考试答案章节答案2024年兰州石化职业技术大学_第1页
机器学习实战-基于Scikit-Learn智慧树知到期末考试答案章节答案2024年兰州石化职业技术大学_第2页
机器学习实战-基于Scikit-Learn智慧树知到期末考试答案章节答案2024年兰州石化职业技术大学_第3页
机器学习实战-基于Scikit-Learn智慧树知到期末考试答案章节答案2024年兰州石化职业技术大学_第4页
免费预览已结束,剩余5页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

机器学习实战——基于Scikit-Learn智慧树知到期末考试答案+章节答案2024年兰州石化职业技术大学20‏‍SVM中核函数将高维空间中的数据映射到低维空间。()

答案:错数据标准化有利于加快模型的收敛速度,提升模型的泛化能力。()

答案:对当预测器尽可能互相独立时,集成方法的效果最优。()

答案:对ID3和C4.5和CART都只能用于分类问题,不能用于回归问题。()

答案:错在堆叠法中,训练混合器常用的方法是使用留存集。()

答案:对监督学习的学习数据既有特征(feature),也有标签(label)。()

答案:对支持向量机中硬间隔硬间隔要求所有数据分类完全准确,不允许出现错误。()。

答案:对硬间隔有利于消除模型的过拟合。()

答案:错我们想要减少数据集中的特征数,即降维,选择以下适合的方案:()

答案:我们先把所有特征都使用,去训练一个模型,得到测试集上的表现.然后我们去掉一个特征,再去训练,用交叉验证看看测试集上的表现.如果表现比原来还要好,我们可以去除这个特征###使用前向特征选择方法###使用后向特征排除方法###查看相关性表,去除相关性最高的一些特征对应GradientBoostingtree算法,以下说法正确的是()

答案:当我们减少训练单个学习器的样本个数,我们可以降低variance###当增加最小样本分裂个数,我们可以抵制过拟合以下那种算法需要对数据进行归一化或者标准化()。

答案:线性回归###逻辑回归###KNN()和()是分类任务中最常用的两种评估指标。()

答案:准确率(精度)###错误率随机森林和Adaboost的描述不正确的是()

答案:两者都是使用了Boosting思想以下关于剪枝操作说法正确的是()。

答案:ID3没有剪枝策略在逻辑斯蒂(对数几率)回归中将输出y视为样本x属于正例的概率。给定训练数据集,通常采用()来估计参数w和b,最大化样本属于其真实类标记的概率的对数,即最大化对数似然。

答案:极大似然法以下那种说法是错误的()。

答案:中国足球队战胜巴西足球队的信息熵要小于中国乒乓球队战胜巴西乒乓球队的信息熵下列方法中,不可以用于特征降维的方法包括()

答案:最小二乘法LeastSquares‌以下关于决策树特点分析的说法错误的有()。

答案:算法考虑了数据属性之间的相关性随机森林在书的生长上引入了更多的随机性,体现在()。

答案:在一个随机生成的特征子集里搜索最好的特征‌在SVM中,margin的含义是()

答案:间隔关于各类核函数的优缺点说法错误的是:()。

答案:高斯核计算简单,不容易过拟合SVM原理描述不正确的是()。

答案:SVM的基本模型是在特征空间中寻找间隔最小化的分离超平面的线性分类器一般使用以下哪种方法求解线性回归问题:()。

答案:最小二乘法决策树中的分类结果是最末端的节点,这些节点称为()。

答案:叶节点一个正例(2,3),一个负例(0,-1),下面哪个是SVM超平面?()

答案:x+2y-3=0对于随机森林和GradientBoostingTrees,下面说法正确的是()

答案:这两个模型都使用随机特征子集,来生成许多单个的树‌ID3算法的缺点不包括()。

答案:既能用于处理离散分布的特征,也能用于连续分布的特征处理C4.5算法在选择根节点和各内部节点中的分支属性时,采用信息增益作为评价标准。()

答案:错‍C4.5是通过代价复杂度剪枝。()

答案:错Adaboost算法中新生成的分类器的权重与上一个分类器分类的结果有关系。()

答案:对支持向量机中多项式核需要多次特征转换。()

答案:对‍SVM的数据需要归一化或者标准化。()

答案:对超参数选择不当,会对模型有较大的负面影响,所以在参数调整策略方面,所有超参数都同等重要。()

答案:错随机森林和Bagging算法没有区别,只是将每个基学习器换做了决策树算法。()

答案:错‌ID3算法的核心思想就是以信息增益来度量特征选择,选择信息增益最大的特征进行分裂。()

答案:对对于PCA(主成分分析)转化过的特征,朴素贝叶斯的”不依赖假设”总是成立,因为所有主要成分是正交的。()

答案:错如果一个属性的信息增益量越大,这个属性作为一棵树的根节点就能使这棵树更简洁。()

答案:对软间隔有利于获取更大的分类间隔。()

答案:对使用堆叠法只能训练出一种混合器。()

答案:错包外评估时,对所有预测器来说,未被采样的训练实例都一样。()

答案:错ID3算法只能用于处理离散分布的特征。()

答案:对集成学习中流行的几种集成方法,包括()。

答案:stacking###boosting###bagging关于剪枝,以下算法正确的是:()。

答案:ID3算法没有剪枝操作###决策树剪枝的基本策略有预剪枝和后剪枝###剪枝是防止过拟合的手段下面关于支持向量机的描述正确的是()。

答案:支持非线性的核函数###是一种监督学习的方法###可用于多分类的问题在有监督学习中,我们如何使用聚类方法?()

答案:我们可以先创建聚类类别,然后在每个类别上用监督学习分别进行学习###我们可以使用聚类“类别id”作为一个新的特征项,然后再用监督学习分别进行学习决策树的说法正确的是()。

答案:其可作为分类算法,也可用于回归模型###它易于理解、可解释性强###CART使用的是二叉树对于PCA说法正确的是:()

答案:我们应该选择使得模型有最大variance的主成分###我们必须在使用PCA前规范化数据###我们可以使用PCA在低维度上做数据可视化控制BaggingClassifier对特征进行抽样的超参数为()。

答案:bootstrap_features###max_features决策树有哪些代表算法()。

答案:C4.5###ID3###CARTSVM算法的性能取决于:()

答案:.以下所有哪种决策树没有剪枝操作()。

答案:ID3‍对于在原空间中线性不可分问题,支持向量机()。

答案:将数据映射到核空间中如果一个样本空间线性可分,那么,我们能找到()个平面来划分样本。

答案:无数以下关于决策树原理介绍错误的有()。

答案:决策树算法属于无监督学习对于k折交叉验证,以下对k的说法正确的是:()

答案:A,B,C梯度提升与AdaBoost的不同之处在于()。

答案:新的预测器针对前一个预测器的残差进行拟合你正在使用带有L1正则化的logistic回归做二分类,其中C是正则化参数,w1和w2是x1和x2的系数。当你把C值从0增加至非常大的值时,下面哪个选项是正确的?()

答案:w1和w2同时成了0在随机森林里,你生成了几百颗树(T1,T2…..Tn),然后对这些树的结果进行综合,下面关于随机森林中每颗树的说法正确的是?()

答案:每棵树是通过数据集的子集和特征的子集构建的以下关于集成学习特性说法错误的是()。

答案:集成多个线性分类器也无法解决非线性分类问题‌SVM普遍使用的准则描述不正确的是:()(n为特征数,m为训练样本数。)

答案:支持向量机理论上不能处理太多的特征。关于C4.5算法,错误的是()。

答案:C4.5算法采用基尼系数的大小来度量特征的各个划分点用于度量样本点之间距离的距离度量函数有()。

答案:A,B,C关于CART算法,错误的是()。

答案:CART算法采用信息增益率的大小来度量特征的各个划分点‍Adboost的优点不包括()

答案:对异常点敏感,异常点会获得较高权重‌线性SVM和一般线性分类器的区别主要是:()。

答案:是否确保间隔最大化一般,k-NN最近邻方法在()的情况下效果较好。

答案:样本较少但典型性好下列哪些不特别适合用来对高维数据进行降维?()

答案:聚类分析关于Bagging方法,以下说法错误的是()

答案:对各弱分类器的训练可以通过串行方式进行以下关于随机森林(RandomForest)说法正确的是()。

答案:随机森林学习过程分为选择样本、选择特征、构建决策树、投票四个部分将数据集划分成训练集S和测试集T的常见方法有()。

答案:A,B,C一般来说,在机器学习中,用计算机处理一幅的图像,维度是:()

答案:上万维以下那种算法不是集成学习算法()

答案:决策树下面哪个选项中哪一项属于确定性算法?()

答案:PCASVM算法的最小时间复杂度是O(n2)。基于这一点,以下哪种规格的数据集并不适用于该算法?()

答案:大数据集关于主成分分析,以下说法正确的是()。

答案:要先识别出最接近数据的超平面###要将数据投影在超平面上在PCA投影上运行投影的逆转换,得到的数据与原始数据一摸一样。()

答案:错重建误差最低的核和超参数时,()。

答案:重建的点存在于特征空间Scikit-Learn中的LocallyLinearEmbedding类可展开瑞士卷。()

答案:对关于数据降维,以下说法正确的是()。

答案:维护难度上升###能够加速训练###会丢失一些信息###会轻微降低系统性能堆叠法又称层叠泛化法,它训练一个模型来执行聚合任务。()

答案:对关于bagging与pasting两种方法错误的是()。

答案:采样时bagging要将样本放回使用梯度提升方法找到书的最佳数量,可以使用()。

答案:晚期停止法特征的重要性表现为()。

答案:重要的特征更可能出现在靠近根节点的位置使用Scikit-Learn使,将应投票更改为软投票,则()。

答案:确保所有分类器都可以估算出概率###用voting=”soft”代替voting=”hard”###超参数probability设置为Ture我们想要在大数据集上训练决策树模型,为了使用较少的时间,可以:()。

答案:减少树的深度大部分的机器学习工程中,数据搜集、数据清洗、特征工程这三个步骤绝大部分时间,而数据建模,占总时间比较少。()

答案:对决策树算法中特征空间越大,过拟合的可能性越大。()

答案:对‌哪些机器学习模型经过训练,能够根据其行为获得的奖励和反馈做出一系列决策?()

答案:监督学习当数据分布不平衡时,我们可采取的措施不包括()。

答案:对数据分布较多的类别赋予更大的权重以下关于支持向量机的说法正确的是()。

答案:SVM分类面取决于支持向量以下关于训练集、验证集和测试集说法不正确的是()。

答案:训练集是用来训练以及评估模型性能假定你使用阶数为2的线性核SVM,将模型应用到实际数据集上后,其训练准确率和测试准确率均为100%。现在增加模型复杂度(增加核函数的阶),会发生以下哪种情况:过拟合。()

答案:对下列哪种方法可以用来缓解过拟合的产生:()。

答案:正则化SVM的原理的简单描述,可概括为:最大间隔分类。()

答案:对一些分类算法也可以用于回归。()

答案:对梯度下降是一种非常通用的优化算法,它能够很好地解决一系列问题。梯度下降的整体思路是通过的迭代来逐渐调整参数使得损失函数达到最大值。()

答案:对一些回归算法也可以用于分类。()

答案:对可以使用线性模型来拟合非线性数据。()

答案:对当特征的个数较大的时候(例如:特征数量为100000),标准方程求解将会非常慢()

答案:对可以使用混淆矩阵进行误差分析。()

答案:对多输出分类是多标签分类的泛化()

答案:对多标签分类和多类别分类器本质上是相同的。()

答案:错分析混淆矩阵可以帮助我们深入了解如何改进分类器。()

答案:对使用二元分类器将数字图片分为10类(从0到9),意味着要训练()个二元分类器

答案:45数据可视化是数据探索的方法之一。()

答案:对机器学习系统启动后,需要()

答案:评估系统输入数据的质量。###编写监控代码,以定期检查系统的实时性能,在性能发生下降时触发报警。###定期使用新数据训练模型。###评估系统性能,需要对预测值采样并进行评估。流水线的组件通常是同步运行。()

答案:错一个序列的数据处理组件称为一个数据流水线。()

答案:对房价预测模型是典型的()

答案:批量学习任务###监督式学习任务###回归任务回归问题的典型性能衡量指标是均方根误差()

答案:对使用机器学习方法挖掘大量数据,可以发现并不显著的规律。这称作数据挖掘。()

答案:对在线学习系统的一个重要参数是学习速率,它决定了系统可以多快的适应数据的改变。()

答案:对在训练数据中进行模式识别,以建立一个预测模型,这种机器学习应用是基于模型的学习。(

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论