人工智能机器学习技术练习(习题卷2)_第1页
人工智能机器学习技术练习(习题卷2)_第2页
人工智能机器学习技术练习(习题卷2)_第3页
人工智能机器学习技术练习(习题卷2)_第4页
人工智能机器学习技术练习(习题卷2)_第5页
已阅读5页,还剩19页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

试卷科目:人工智能机器学习技术练习人工智能机器学习技术练习(习题卷2)PAGE"pagenumber"pagenumber/SECTIONPAGES"numberofpages"numberofpages人工智能机器学习技术练习第1部分:单项选择题,共62题,每题只有一个正确答案,多选或少选均不得分。[单选题]1.分类模型在进行训练时需要()A)训练集B)训练集与测试集C)训练集、验证集、测试集答案:C解析:[单选题]2.典型的分类算法是()A)决策树B)k-meansC)BIRCH答案:A解析:[单选题]3.假如我们使用Lasso回归来拟合数据集,该数据集输入特征有100个(X1,X2,…,X100)。现在,我们把其中一个特征值扩大10倍(如特征X1),然后用相同的正则化参数对Lasso回归进行修正。那么,下列说法正确的是()。A)特征X1很可能被排除在模型之外B)特征X1很可能还包含在模型之中C)无法确定特征X1是否被舍D)以上答案都不正确答案:B解析:将特征X1数值扩大10倍,它对应的回归系数将相应会减小,但不为0,仍然满足β的正则化约束,因此可能还包含在模型之中。[单选题]4.关于预处理的说法中,下列选项中描述不正确是()。A)concat()函数可以沿着一条轴将多个对象进行堆叠B)merge()函数可以根据一个或多个键将不同的DataFrame进行合并C)可以使用rename()方法对索引进行重命名操作D)unstack()方法可以将列索引旋转为行索引答案:D解析:unstack()方法可以将行索引旋转为列索引。[单选题]5.对Boosting模型的描述错误的是A)采用串行训练模式B)增加被错误分类样本的权值C)通过改变训练集进行有针对性的学习D)基础分类器采用少数服从多数原则进行集成答案:D解析:[单选题]6.(__)度量了学习算法的期望预测与真实结果的偏离程度。A)偏差B)方差C)均方差D)泛化误差答案:A解析:[单选题]7.下面列出特征选择算法中,不属于启发式搜索的有()A)分支限界搜索B)序列前向选择搜索C)增L去R搜索D)序列浮动选择搜索答案:A解析:[单选题]8.下面关于机器学习相关描述不正确的有(__)。A)机器学习的主要议题是如何实现和优化机器的自我学习B)机器学习的基本思路是以训练集为输入,通过机器学习算法让机器学习到能够处理更多数据的能力C)AlphaGo的核心技术是深度学习与增强学习D)机器学习的只能是预定义的答案:D解析:[单选题]9.下面属于Bagging方法的特点是()A)构造训练集时采用Bootstraping的方式B)每一轮训练时样本权重不同C)分类器必须按顺序训练D)预测结果时,分类器的比重不同答案:A解析:[单选题]10.在使用软间隔支持向量机(SVM)时,对于线性不可分数据集,线性支持向量机对每个样本点引进松弛变量,放宽约束条件。为了使这种放宽适度,需要对每一个进行一个代价为的?惩罚?。关于惩罚系数C,正确的说法有:A)惩罚系数C越小,对于错误分类的惩罚越重B)惩罚系数C越大,对于错误分类的惩罚越重C)惩罚系数C越小越好D)惩罚系数C越大越好答案:B解析:[单选题]11.根据_______,目前的集成学习方法大致可分为两大类,即个体学习器间存在强依赖关系、必须串行生成的序列化方法,以及个体学习器间不存在强依赖关系、可同时生成的并行化方法。A)个体学习器的数量B)个体学习器的生成方式C)个体学习器的的类型D)个体学习器的的强弱答案:B解析:[单选题]12.()的系数没有封闭形式(closed-form)的解。A)Ridge回归B)LassoC)Ridge回归和LassoD)以上答案都不正确答案:B解析:Ridge回归是一般的线性回归再加上L2正则项,它具有封闭形式的解,可以基于最小二乘法求解。[单选题]13.与k均值算法类似,(__)也是试图找到一组原型向量来刻画聚类结构,但与一般聚类方法不同的是,该算法假设数据样本带有类别标记,学习过程利用样本的这些监督信息来辅助聚类。A)高斯混合聚类密度聚类B)学习向量量化C)k均值算法D)密度聚类答案:B解析:[单选题]14.多分类学习中,最经典的三种拆分策略不包括()。A)一对一B)一对其余C)一对多D)多对多答案:A解析:多分类学习中,最经典的三种拆分策略包括一对多、多对多、一对其余。[单选题]15.关于降维算法中的主成分分析,()是错误的。A)有监督算法B)可以指定降维的维度C)基于方差来计算D)根据特征值大小来筛选特征答案:A解析:主成分分析法属于无监督算法。[单选题]16.SVM(支持向量机)与LR(逻辑回归)的数学本质上的区别是什么?A)损失函数B)是否有核技巧C)是否支持多分类D)其余选项皆错答案:A解析:LR的损失函数从最大似然的角度理解;SVM损失函数的原始形式则是从最大化分类间隔的角度出发。[单选题]17.TF-IDF模型中TF是指(__)。A)词频数B)逆文档频率C)词频率D)逆文档频数答案:C解析:[单选题]18.有N个样本,一般用于训练,一般用于测试。若N增大,则训练误差和测试误差之间的差距会()。A)增大B)减小C)无法确定D)无明显变化答案:B解析:增加数据,能够有效减小过拟合,减小训练样本误差和测试样本误差之间的差距。[单选题]19.下面符合数据产品链的有(__):1.数据,2.元数据,3.数据对象,4.辅助服务,5.集成应用,6.软件系统,7.增值服务,8.基础设施,9.硬件系统A)23657B)234C)135D)238497答案:A解析:[单选题]20.与卷积神经网络相比,循环神经网络可以学习()。A)细节信息B)文章长度C)单词之间的长距离依赖关系D)歧义答案:C解析:[单选题]21.混合高斯聚类中,运用了以下哪种过程()A)EM算法B)集合运算C)密度可达D)样本与集合运算答案:A解析:[单选题]22.下面有关可视化原理的说法,错误的是哪个()。A)可视化主要是为满足人类决策者对视觉信息的敏感性B)可视化分析的方法论基础是视觉隐喻,可以对数据进行一定的抽象表示C)高维数据可视化需要对数据进行变换,抽取有效特征,从而降低维度D)饼图可分析数据变化的趋势答案:D解析:[单选题]23.决策树的生成是一个__过程。A)聚类B)回归C)递归D)KNN答案:C解析:[单选题]24.当训练一个神经网络来作图像识别任务时,通常会绘制一张训练集误差和验证集误差图来进行调试。在下图中,最好在哪个时间停止训练()A)AB)BC)CD)D答案:C解析:[单选题]25.下面不属于数据归约方法有(__)。A)维归约B)度归约C)值归约D)数据压缩答案:B解析:[单选题]26.K-Means(聚类)算法基于距离来度量实例间的相似程度(与kNN算法一样),然后把较为相似的实例划分到同一簇。下列说法中,不正确的是:A)聚类属于有监督式学习B)聚类属于无监督式学习C)K-Means算法基于距离来度量实例间的相似程度,通过对无标记样本的学习来揭示蕴含于数据中的性质及规律D)聚类算法的任务是根据数据特征将数据集相似的数据划分到同一簇答案:A解析:[单选题]27.GRAY灰度图像的通道数为()。A)0B)1C)2D)3答案:B解析:[单选题]28.下面关于数据粒度的描述不正确的是:A)粒度是指数据仓库小数据单元的详细程度和级别;B)数据越详细,粒度就越小,级别也就越高;C)数据综合度越高,粒度也就越大,级别也就越高;D)粒度的具体划分将直接影响数据仓库中的数据量以及查询质量.答案:C解析:[单选题]29.假负率是指()。A)正样本预测结果数/正样本实际数B)被预测为负的正样本结果数/正样本实际数C)被预测为正的负样本结果数/负样本实际数D)负样本预测结果数/负样本实际数答案:B解析:[单选题]30.OpenCV中的CV指的是()A)开B)开源C)计算机D)计算机视觉答案:D解析:[单选题]31.()算法可以用于特征选择。A)朴素贝叶斯B)感知器C)支持向量机D)决策树答案:D解析:使用决策树也可以计算每个特征的相对重要性。这些重要性能够辅助进行特征选择。[单选题]32.测试集应尽可能与训练集__。A)相容B)相等C)互斥D)包含答案:C解析:[单选题]33.当训练集特征非常多,而实例非常少的时候,可以采用()。A)sigmoid核的支持向量机B)不带核的支持向量机C)高斯核的支持向量机D)多项式核的支持向量机答案:B解析:当不采用非常复杂的函数,或者当我们的训练集特征非常多但是实例非常少的时候,可以采用不带核函数的支持向量机。[单选题]34.下列核函数特性描述错误的是A)只要一个对称函数所对应的核矩阵半正定,就能称为核函数;B)核函数选择作为支持向量机的最大变数;C)核函数将影响支持向量机的性能;D)核函数是一种降维模型;答案:D解析:[单选题]35.以下哪个不是HDFS的守护进程?A)secondarynamenodeB)datanodeC)mrappmaster/yarnchildD)namenode答案:C解析:[单选题]36.双边滤波能够较好的保留图像的(__)。A)边缘信息B)色彩信息C)亮度信息D)高频信息答案:A解析:[单选题]37.Zookeeper在config命名空间下,每个znode最多能存储()数据?A)1MB)16MC)512KD)64K答案:A解析:[单选题]38.假设在庞大的数据集上使用Logistic回归模型,可能遇到一个问题,Logistic回归需要很长时间才能训练,如果对相同的数据进行逻辑回归,则花费更少的时间,并给出比较相似的精度的方法是()。A)降低学习率,减少选代次数B)降低学习率,增加迭代次数C)提高学习率,增加迭代次数D)增加学习率,减少迭代次数答案:D解析:如果在训练时减少选代次数,就能花费更少的时间获得相同的精度,但需要增加学习率。[单选题]39.假定你现在训练了一个线性SVM并推断出这个模型出现了欠拟合现象,在下一次训练时,应该采取的措施是()。A)增加数据点B)减少数据点C)增加特征D)减少特征答案:C解析:欠拟合是指模型拟合程度不高,数据距离拟合曲线较远,或指模型没有很好地捕捉到数据特征,不能够很好地拟合数据。可通过增加特征解决。[单选题]40.()对应于决策树结果,其他节点对应于()。A)叶节点,属性测试B)根结点,学习测试C)内部节点,学习测试D)叶节点,分类测试答案:A解析:决簧树包含一个根节点、若子内部节点和若干叶节点。叶节点对应于决策结果,其他每个节点则对应于一个属性测试。[单选题]41.这是第25道,也是最后一道。请估算一下,包括本题在内,这25道题干及选项总共大约有多少个字符?A)500B)1000C)2000D)4000答案:C解析:[单选题]42.行业应用解决的是行业()问题,并为企业应用提供基础平台。A)单一B)共性C)基础D)根本答案:B解析:[单选题]43.二分类任务中,有三个分类器h1,h2,h3,三个测试样本x1,x2,x3。假设1表示分类结果正确,0表示错误,h1在x1,x2,x3的结果分别(1,1,0),h2,h3分别为(0,1,1),(1,0,1),按投票法集成三个分类器,下列说法正确的是()(注:0,1不是类别标签,而是模型预测结果是正确还是错误的意思)A)集成提高了性能B)集成没有效果C)集成降低了性能D)集成效果不能确定答案:A解析:[单选题]44.关于维数灾难说法错误的是?A)高维度数据可使得算法泛华能力变得越来越弱B)降低高维度数据会对数据有所损伤C)高维度数据增加了运算难度D)高维度数据难以可视化答案:A解析:[单选题]45.分词中的正向最大匹配算法是(__)扫描字符串。A)从左到右B)从右到左C)两边同时进行D)从一个指定的字符发散答案:A解析:[单选题]46.TF-IDF与一个词在文档中的出现次数成(__)。A)正比B)反比C)无关D)幂次答案:A解析:[单选题]47.一般,k-NN最近邻方法在()的情况下效果较好A)样本较多但典型性不好B)样本较少但典型性好C)样本呈团状分布D)样本呈链状分布答案:B解析:[单选题]48.在标准化公式中,使用ε的目的是(D)A)为了加速收敛B)如果μ过小C)使结果更准确D)防止分母为零答案:D解析:[单选题]49.数据战略的目标是(__)。A)数据本身的管理B)培育数据驱动组织或文化C)增强组织机构的敏捷性D)提高组织机构的核心竞争力答案:B解析:[单选题]50.朴素贝叶斯的训练过程就是基于训练集D来估计类的()P(c),并为每个属性估计条件概率A)后验概率B)先验概率C)条件概率D)联合概率答案:B解析:[单选题]51.下列图象边缘检测算子中抗噪性能最好的是︰()A)梯度算子B)Prewitt算子C)Roberts算子D)Laplacian算子答案:B解析:[单选题]52.规则生成本质上是一个贪心搜索的过程,须有一定的机制来缓解过拟合的风险,最常见的做法是A)序列化B)剪枝C)去重D)重组答案:B解析:[单选题]53.(__)主要面向自然科学,尤其是地理、物理、化学、医学等领域。A)信息可视化B)科学可视化C)可视分析学D)数据可视化答案:B解析:[单选题]54.以下()包提供了灵活高效的groupby功能,它使操作者能以一种自然的方式对数据进行切片,切块,摘要等操作。A)PandasB)MatplotlibC)NumPyD)sklearn答案:A解析:[单选题]55.以下描述正确的是(__)。A)客户代表的是项目的最终利益和目的B)项目经理是项目的实际管理者C)项目发起人是项目的投资者D)数据工程师负责在软/硬件上部署和实施数据科学家提出的方法和技术方案答案:A解析:[单选题]56.协同过滤算法解决的是数据挖掘中的哪类问题?()A)分类问题B)聚类问题C)推荐问题D)自然语言处理问题答案:C解析:[单选题]57.用于产生词嵌入的单向语言模型A)BERTB)GPTC)ELMoD)Word2Vec答案:B解析:[单选题]58.根据DIKW信息、数据、知识、智慧模型,以下说法错误的是A)数据是记录下来可以被鉴别的符号,它是最原始的素材,未被加工解释,没有回答特定的问题,没有任何意义B)信息是已经被处理、具有逻辑关系的数据,是对数据的解释,这种信息对其接收者具有意义C)知识是从相关信息中过滤、提炼及加工而得到的有用资料,不能从知识中产生新的知识D)智慧是人类所表现出来的一种独有的能力,主要表现为收集、加工、应用、传播知识的能力,以及对事物发展的前瞻性看法答案:C解析:第2部分:多项选择题,共17题,每题至少两个正确答案,多选或少选均不得分。[多选题]59.在机器学习中,如果单纯去提高训练数据的预测能力,所选模型的复杂度往往会很高,这种现象称为过拟合,可以有效解决过拟合的方法包括A)增加样本数量B)增加特征数量C)训练更多的迭代次数D)采用正则化方法答案:AD解析:[多选题]60.假如使用一个较复杂的回归模型来拟合样本数据,使用岭回归,调试正则化参数λ,来降低模型复杂度。若λ较大时,关于偏差()和方差(variance),下列说法正确的是(C)A)若λ较大时,偏差减小,方差减小B)若λ较大时,偏差减小,方差增大C)若λ较大时,偏差增大,方差减小D)若λ较大时,偏差增大,方差增大答案:AB解析:[多选题]61.从理论上讲数据能力评价方法有(__)。A)评价理论B)评价结果C)评价过程D)评价质量答案:BC解析:[多选题]62.常用的标准化方法()A)min-max标准化B)Z变换C)比例变换D)等宽分箱答案:ABC解析:[多选题]63.实现人工神经元的方法有(__)。A)感知器B)线性单元C)SIGMOD单元D)决策单元答案:ABC解析:[多选题]64.数据集成需要注意的三个基本问题有(__)。A)模式集成B)数据冗余C)冲突检测和消除D)数据错误答案:ABC解析:[多选题]65.以下说法中正确的是()A)SVM对噪声(如来自其他分布的噪声样本)鲁棒B)在AdaBoost算法中,所有被分错的样本的权重更新比例相同C)Boosting和Bagging都是组合多个分类器投票的方法,二者都是根据单个分类器的正确率决定其权重D)给定n个数据点,如果其中一半用于训练,一般用于测试,则训练误差和测试误差之间的差别会随着n的增加而减少答案:BD解析:[多选题]66.Analytics1.0的主要特点有().A)分析活动滞后于数据的生成。B)重视结构化数据的分析。C)以对历史数据的理解为主要目的。D)注重描述性分析。答案:ABCD解析:[多选题]67.大数据?涌现?现象有()。A)价值涌现B)质量涌现C)隐私涌现D)数量涌现答案:ABC解析:[多选题]68.()是通过对无标记训练样本的学习来进行分类的。A)密度估计B)异常检测C)线性回归D)聚类分析答案:ABD解析:[多选题]69.根据边的性质不同,概率图模型可大致分为两类:第一类是使用有向无环图表示变量间的依赖关系,称为();第二类是使用无向图表示变量间的相关关系,称为()。A)有向图模型B)贝叶斯网C)无向图模型D)马尔可夫网答案:ABCD解析:[多选题]70.卷积神经网络可以用于()。A)图像分类B)目标提取C)图像分割D)中文分词答案:ABC解析:[多选题]71.两种代表性的精确推断方法为A)变量消去B)信念传播C)近似推断D)近似推测答案:AB解析:[多选题]72.隐马尔科夫模型和马尔科夫随机场都是(__)模型,而(__)是判别式模型。A)生成式模型B)随机模型C)条件随机场D)感知机模型答案:AC解析:[多选题]73.统计模式分类问题中,当先验概率未知时,可以使用()。A)最小最大损失准则B)最小误判概率准则C)最小损失准则D)N-P判决答案:AD解析:[多选题]74.下列属于Apriori算法特定的是(__)。A)使用先验性质,大大提高了频繁项集逐层产生的效率B)简单易理解C)数据集要求高D)扩展性较好,可以并行计算答案:ABD解析:[多选题]75.(__)不属于元分析方法。A)加权平均法B)优化方法C)时序法D)关联法答案:CD解析:第3部分:判断题,共12题,请判断题目是否正确。[判断题]76.如果两个数组的形状不同,则它们是无法执行算术运算的。A)正确B)错误答案:错解析:当数组满足某一维度等长或满足其中一个数组为一维数组时,便可以通过广播机制进行运算。[判断题]77.贝叶斯决策论是概率框架下实施决策的基本方法,它是决策论+概率论的组合A)正确B)错误答案:对解析:[判断题]78.‍L2正则化往往用于防止过拟合,而L1正则化往往用于特征选择。A)正确B)错误答案:对解析:[判断题]79.计算学习理论目的分析学习任务的困难本质,为学习算法提供理论保证,并根据分析结果知道算法设计A)正确B)错误答案:对解析:[判断题]80.kNN算法的思想就是,物以类聚人以群分,即相似的人和物会相聚在一起A)正确B)错误答案:对解析:[判断题]81.若不与专家交互,没有获得额外信息,还能利用未标记样本来提高泛化性能吗A)正确B)错误答案:对解析:[判断题]82.当损失函数很不规则时(存在多个局部最小值)时,相对批量梯度下降算法,随机梯度下降算法更有可能跳过局部最小值,最终接近全局最小值A)正确B)错误答案:对解析:[判断题]83.梯度下降的中心思想就是迭代地调整参数从而使损失函数最小化A)正确B)错误答案:对解析:[判断题]84.Dropout作用于每份小批量训练数据,由于其随机丢弃部分神经元的机制,相当于每次迭代都在训练不同结构的神经网络。()A)正确B)错误答案:对解析:[判断题]85.调用sklearn中的train_test_split函数将数据集切分为训练集和测试集。训练集与测试集比例为7:3。最合适的代码为X_train,X_test,y_train,y_test=train_test_split(X,y,test_size=0.7)A)正确B)错误答案:错解析:[判断题]86.类脑人工智能及人工神经网络只是智能的一种形式A)正确B)错误答案:对解析:[判断题]87.最近邻分离器的泛化错误率不会超过贝叶斯最优分类器错误率的两倍A)正确B)错误答案:对解析:第4部分:问答题,共9题,请在空白处填写正确答案。[问答题]88.标准梯度下降法若误差曲面存在多个局部最小值,那么标准梯度模型可能找不到()。答案:全局最小值解析:[问答题]89.什么是过学习、过拟合?答案:P102解析:[问答题]90.是说,若有多个假设与观察一致,则选择最简单的那个答案:奥卡姆剃刀解析:[问答题]91.LDA算法设法将样例投影到一条直线上,使得__________(同类/异类)样例的投影点尽可能近。答案:同类解析:[问答题]92.支持

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论