版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第一章测试对西瓜的成熟度进行预测得到结果为0.51,这属于()学习任务。
A:回归
B:分类
C:聚类
D:其余选项都不是
答案:A在学习过程中,X表示数据集,Y是所有标记的集合,也称为()。
A:输出空间
B:函数
C:样本集合
D:属性集合
答案:A机器学习算法在学习过程中可能获得多个不同的模型,在解决“什么样的模型更好”这一问题时遵循“若有多个假设与观察一致,则选最简单的那个”,即()原则。
A:里氏替换
B:迪米特法则
C:奥卡姆剃刀
D:没有免费的午餐
答案:C机器学习是整个人工智能的核心,机器学习算法的特征之一就是()。
A:数据
B:类别
C:模型
D:特征
答案:C模型的泛化能力是指
A:适用于训练集样本的能力
B:适用于新样本的能力
C:适用于测试集样本的能力
D:适用于验证集样本的能力
答案:B下列关于学习算法的说法正确的是
A:要谈论算法的相对优劣,必须要针对具体的学习问题
B:学习算法必须有某种偏好,才能产出它认为“正确”的模型
C:在某些问题上表现好的学习算法,在另一些问题上却可能不尽人意
D:学习算法自身的归纳偏好与问题是否相配通常并不起决定性的作用
答案:ABC获得假设(模型)空间时,从特殊到一般的过程属于
A:泛化
B:归纳
C:特化
D:演绎
答案:AB机器学习可以应用在下列哪些领域()
A:商业营销
B:自动驾驶汽车
C:搜索引擎
D:天气预报
答案:ABCD根据训练数据是否拥有标记信息,学习任务可以分为()。
A:回归
B:聚类
C:无监督
D:监督
E:分类
F:半监督
答案:CDF演绎是从一般到特殊的”特化”过程,即从基础原理推演出具体状况
A:对
B:错
答案:A分类预测的是离散值
A:错
B:对
答案:B分类和回归是无监督学习
A:错
B:对
答案:A奥卡姆剃刀原则:即“若有多个假设与观察一致,选最简单的一个”。
A:错
B:对
答案:B实际应用中,“一个模型肯定比另一个模型具有更强的泛化能力”的这种情况是不存在的。
A:对
B:错
答案:A机器学习的目标就是获得与训练集一致的假设。
A:对
B:错
答案:A第二章测试测试性能随着测试集的变化而变化
A:错
B:对
答案:B以下关于回归的说法中,不正确的是()。
A:回归是一种预测建模任务
B:回归也是一种分类
C:回归的目标属性是离散的
D:回归是根据历史数据拟合以函数将属性集映射到相应的值集
答案:C下列关于查全率和查准率的说法哪种正确()。
A:查全率和查准率存在着互逆关系
B:查全率和查准率成正比
C:查全率和查准率成反比
D:好的模型可以做到查全率和查准率都达到100%
答案:A关于性能比较和模型选择,下列说法正确的是()。
A:测试性能随着测试集的变化而变化
B:测试性能等于网络的泛化性能
C:模型的选择可以使用直接选取相应评估方法在相应度量下比较大小的方法
D:相同的参数的机器学习算法在同一测试集下多次运行结果相同
答案:A模型的评估方法不包括()。
A:交叉验证法
B:留出法
C:自助法
D:计分法
答案:D模型评估方法中留出法的缺点是()。
A:改变了初始数据集的分布,引入估计偏差
B:样本利用率低
C:只能得到一个评估值。
D:在数据集比较大的时候,训练M个模型的计算开销可能是难以忍受的
答案:C选择模型的依据包括()。
A:泛化性能
B:时间开销
C:可解释性
D:存储开销
答案:ABCD以下哪些方法可以用于单个学习器性能的比较()。
A:二项检验
B:McNemar检验
C:Friedman检验
D:t-检验
答案:AD模型的泛化性能由()决定。
A:数据集的划分
B:学习算法的能力
C:学习任务本身的难度
D:数据的充分性
答案:BCD解决过拟合的方案包括()。
A:选择合适的迭代次数停止模型的学习
B:为模型添加其他特征项
C:引入正则项
D:增加模型参数,调高模型复杂度
答案:AC以下哪些是可能导致模型过拟合的原因()
A:模型学习到了样本的一般性质
B:训练集和测试集特征分布不一致
C:学习迭代次数过多
D:训练集数量级和模型复杂度不匹配,训练集的数量级小于模型的复杂度
答案:BCD过拟合不可以彻底避免。
A:错
B:对
答案:B回归任务最常用的性能度量是“查准率和查全率”
A:对
B:错
答案:B训练数据较少时更容易发生欠拟合
A:对
B:错
答案:A方差度量了学习算法期望预测与真实结果的偏离程度
A:对
B:错
答案:B第三章测试线性回归目的是学得一个()以尽可能准确地预测实值输出标记
A:对数模型
B:多项式模型
C:线性模型
D:指数模型
答案:C线性回归模型中,联系函数g(∙)为对数几率函数ln(y/(1-y))时,该线性模型成为()
A:指数线性回归
B:曲线线性回归
C:对数几率回归
D:对数线性回归
答案:C线性判别分析可通过该投影减小样本点的维数,且投影过程中使用了类别信息。因此,线性判别分析也常被视为一种经典的()
A:监督分类技术
B:监督降维技术
C:降维技术
D:分类技术
答案:B解决类别不平衡的方法包括()
A:过采样
B:去除正例样本
C:阈值移动
D:欠采样
答案:ACD在线性模型的基础上,引入层级结构或高维映射,构成非线性模型。因此,非线性模型可以转换为线性模型。
A:对
B:错
答案:A线性判别分析(LDA)设法将样例投影到一条直线上,使得同类样例的投影点尽可能接近
A:对
B:错
答案:A分类学习任务中,若不同类别的训练样本数目差别很大时,对学习过程没有明显影响
A:错
B:对
答案:A线性模型学得的参数ω直观地表达了各属性在预测中的重要性,因此,该模型具有较好的可解释性。
A:错
B:对
答案:B线性判别分析在对新样例进行分类时,将其投影到曲线上,再根据投影点的位置来确定新样本的类别。
A:错
B:对
答案:A基于均方误差最小化来进行模型求解的方法,称为“最小二乘法”。
A:对
B:错
答案:A线性判别分析模型中,同类样本的投影点尽可能近,即同类样本的协方差尽可能小
A:错
B:对
答案:B在分类学习任务中,若正例远少于反例时,可以通过增加一些正例解决类别不平衡问题。
A:错
B:对
答案:B线性回归目的是学得多项式模型以尽可能准确地预测实值输出标记。
A:对
B:错
答案:B单一属性的线性回归目标函数为f(x)=ωx+b使得min(f(x)–y)2
A:错
B:对
答案:B常用的广义线性回归有单位跃阶函数、对数线性回归、对数几率回归
A:错
B:对
答案:B第四章测试在属性划分中,信息增益越大,结点的纯度()
A:变为零
B:不变
C:提升越大
D:降低越快
答案:C决策树算法的泛化性能提升,则验证集精度()
A:提高
B:不变
C:降低
D:降为零
答案:A多变量决策树中的非叶子节点是对()属性的线性组合进行测试。
A:零个
B:一个
C:若干个
D:所有
答案:C决策树的结点包含()
A:结点
B:内部结点
C:根结点
D:叶结点
答案:BCD决策树学习算法中,预留一部分数据用作“验证集”,进行性能评估,决定是否剪枝。
A:对
B:错
答案:A决策树模型中,随着划分过程不断进行,我们希望结点的“纯度”越来越小。
A:对
B:错
答案:B决策树学习的目的是为了产生一棵泛化能力强,即处理未见示例能力强的决策树
A:对
B:错
答案:A决策树学习算法中,属性a的信息增益越大,则使用该属性进行划分所获得的“纯度提升”越大。
A:对
B:错
答案:A决策树学习算法中,随着划分过程不断进行,我们希望决策树的分支结点所包含的样本尽可能属于不同类别。
A:对
B:错
答案:B基尼指数,反映了从D中随机抽取两个样本,其类别标记一致的概率
A:错
B:对
答案:A预剪枝策略降低了过拟合风险。
A:错
B:对
答案:B基尼值可以度量样本集合的纯度。
A:错
B:对
答案:B现实学习任务中,常会遇到连续属性,其可取值数目不再有限,可以使用离散化技术将连续属性转化为离散属性
A:错
B:对
答案:B剪枝策略是对付“过拟合”的主要手段,即可通过主动去掉一些分支来降低过拟合的风险。
A:对
B:错
答案:A第五章测试若两类模式是线性可分的,即存在一个线性超平面能将它们分开,则感知机的学习过程一定会收敛。
A:错
B:对
答案:B多隐层感知机比单隐层感知机的表达能力强
A:对
B:错
答案:B误差逆传播算法是迄今最成功的神经网络学习算法。
A:对
B:错
答案:A基于梯度的搜索是使用最广泛的参数寻优方法,若误差函数在当前点的梯度为零,则已达到全局最小。
A:对
B:错
答案:B多层感知机表示异或逻辑时最少需要()个隐含层(仅考虑二元输入)
A:1
B:2
C:4
D:3
答案:BBP算法基于()策略对参数进行调整
A:最小化误差
B:梯度下降
C:梯度上升
D:误差逆传播
答案:BBP神经网络由于其强大的表示能力,经常遭遇()问题,即训练误差持续下降,但测试误差却可能上升。
A:欠拟合
B:梯度消失
C:不收敛
D:过拟合
答案:D在现实任务中,人们常采用以下策略来试图跳出局部极小,进而接近全局最小
A:随机梯度下降
B:遗传算法
C:模拟退火
D:梯度下降
答案:ABC神经网络中的激活函数可以采用线性函数
A:对
B:错
答案:B只拥有一层功能神经元(能进行激活函数处理)的感知机学习能力依然很强,能解决异或这样的非线性可分问题。
A:错
B:对
答案:A第六章测试线性可分支持向量机是一种()模型
A:二分类
B:逻辑回归
C:多分类
D:线性回归
答案:A支持向量机的学习策略是()
A:训练误差最小
B:间隔最小
C:测试误差最小
D:间隔最大
答案:D支持向量机的求解通常采用()来求解
A:最小误差法
B:二次规划算法
C:最大间隔法
D:线性规划算法
答案:B当训练样本线性不可分时可采用()来缓解和解决
A:训练误差最小
B:测试误差最小
C:软间隔
D:核函数
答案:CD为了更好地解决线性不可分问题,我们常常需要扩大可选函数的范围。
A:对
B:错
答案:A支持向量机的经验风险描述了模型的某些性质
A:错
B:对
答案:A在空间上线性可分的两类点,分别向SVM分类的超平面上做投影,这些点在超平面上的投影仍然是线性可分的
A:错
B:对
答案:A引入软间隔是为了允许支持向量机在一些样本上出错。
A:对
B:错
答案:A核函数的引入是将原始空间中不可分的训练样本映射到高维的特征空间后变得可分。
A:错
B:对
答案:B训练样本集越大,SVM的分类结果越好
A:对
B:错
答案:B第七章测试在样本X上的条件风险是指将一个真实标记为Cj的样本x分类为ci所产生的期望损失。
A:对
B:错
答案:A极大似然估计是试图在θc所有可能的取值中,找到一个能使数据出现的“可能性”的最大的值。
A:错
B:对
答案:B拉普拉斯修正没能避免因训练集样本不充分而导致概率估值为0的问题。
A:对
B:错
答案:B贝叶斯网学习的首要任务就是通过对训练样本“计数”,估计出每个结点的条件概率表。
A:对
B:错
答案:B通过已知变量观测值来推测待推测查询变量的过程称为“推断”
A:对
B:错
答案:A贝叶斯网的近似推断常使用吉布斯采样(Gibbssampling)来完成,吉布斯采样可以看做,每一步仅依赖于前一步的状态,这是一个“马尔可夫链”。
A:对
B:错
答案:A对分类任务来说,在所有相关概率都已知的理想情况下,()考虑如何基于这些概率和误判损失来选择最优的类别标记。
A:贝叶斯决策论
B:决策树
C:聚类
D:支持向量机
答案:A朴素贝叶斯分类器假设所有属性相互独立,其训练过程就成了基于训练集D来估计类先验概率P(c),并估计()。
A:条件概率P(x|c)
B:每个属性的条件概率P(xi|c)
C:概率P(x)
答案:B为了适当考虑一部分属性间的相互依赖信息,从而不需要进行完全联合概率计算,又不至于彻底忽略了比较强的熟悉依赖关系,这种分类器是()。
A:贝叶斯网
B:EM算法
C:半朴素贝叶斯分类器
D:朴素贝叶斯分类器
答案:C一个贝叶斯网由结构和参数两部分组成,结构是一个(),每个节点对应个属性,若两属性有直接依赖关系,则它们由一条边连接起来,参数定量描述这种依赖关系。
A:有向无环图
B:无向无环图
C:有向图
D:无向图
答案:A第八章测试Boosting,个体学习器存在强依赖关系,逐个生成基学习器,每次调整训练数据的样本分布
A:错
B:对
答案:B加权平均法的权重,一般是从训练数据中学习而得,规模比较大的集成,要学习的权重比较多,较容易导致欠拟合。
A:错
B:对
答案:A分歧代表了个体学习器在样本x上的不一致性。
A:错
B:对
答案:B假设集成通过()结合T个分类器,若有超过半数的基分类器正确则分类就正确。
A:简单平均法
B:学习法
C:加权投票法
D:简单投票法
答案:DBoosting算法关注降低偏差,可对泛化性能()的学习器,构造出很()的集成。
A:相对强,弱
B:相对强,强
C:相对弱,弱
D:相对弱,强
答案:DBagging是并行式集成学习的最著名的代表,给定训练数据集,采用()方法采样数据。
A:交叉验证法
B:留出法
C:自主采样
答案:C若同时有多个标记获最高票,则从中随机选取一个,该结合策略是()。
A:相对多数投票法
B:加权投票法
C:绝对多数投票法
D:简单平均法
答案:A对基决策树的每个结点,首先,从该结点的属性集合中,随机选择一个包含k个属性的子集。然后,从这个子集中,选择一个最优属性,用于划分。该方法是()。
A:随机森林
B:传统决策树
C:AdaBoost
D:Boosting方法
答案:A随机改变一些训练样本的标记;将多分类任务,拆解为一系列二分类任务,来训练基学习器,这属于()。
A:算法参数扰动
B:输入属性扰动
C:输出表示扰动
D:数据样本扰动
答案:C要获得好的集成,个体学习器应满足()。
A:学习器不能太差
B:学习器应该不同
C:学习器应该相同
D:学习器不需要太好
答案:AB第九章测试无监督学习是指训练样本的标记信息是(),目标是通过对()标记训练样本的学习来揭示数据内在的性质及规律,为进一步的数据分析提供基础
A:部分未知,部分无
B:部分已知,部分有
C:未知,无
D:已知,有
答案:C常用的聚类距离计算采用()。
A:闵可夫斯基
B:余弦距离
C:流形距离
D:马氏距离
答案:A懒惰学习是指在训练阶段(),训练时间开销为零,待收到测试样本后再进行处理。
A:对训练样本进行学习
B:对训练样本进行保存
C:改变训练样本
D:对训练样本不进行操作
答案:B聚类的基本目标是()
A:簇内相似度高
B:簇间相似度高
C:簇间相似度低
D:簇内相似度低
答案:AC聚类性能度量大致有两类指标:外部指标和内部指标。
A:错
B:对
答案:B常见的原型聚类方法:K均值聚类、学习向量量化和密度聚类。
A:错
B:对
答案:A在训练阶段就对样本进行学习处理的方法是急切学习。
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 提升乡村产业发展水平的策略及实施路径
- 2025年度财务内部审计工作计划模板
- 2025年少数民族医改规划工作计划范文
- Unit 2 On the Weekend Lesson 1(说课稿)-2024-2025学年人教新起点版英语四年级上册
- Unit 5 Here and now Section B 2a - 2b说课稿 2024-2025学年人教版(2024)七年级英语下册
- 控烟工作规章制度范文
- Unit 6 Section A 1a-2c 说课稿 2024-2025学年人教版八年级英语上册
- 2025年度学习计划
- 2025年年度爱国卫生工作计划
- 2025年数学教学工作计划例文
- 湘教版七年级上册地理全册教案(共30课时)
- 江西省萍乡市2022-2023学年高一年级上册期末考试数学试题
- 第二单元自测卷(试题)2023-2024学年统编版语文四年级下册
- 山西省吕梁市2023-2024学年高二上学期期末数学试题
- 如何训练宝宝独立就寝
- 血常规报告单
- 设备部年度工作总结和来年计划
- 药品的收货与验收培训课件
- 宝宝大便观察及护理课件
- 公司月度安全生产综合检查表
- 开题报告会记录单
评论
0/150
提交评论