版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
试卷科目:人工智能机器学习技术练习人工智能机器学习技术练习(习题卷10)PAGE"pagenumber"pagenumber/SECTIONPAGES"numberofpages"numberofpages人工智能机器学习技术练习第1部分:单项选择题,共62题,每题只有一个正确答案,多选或少选均不得分。[单选题]1.构建回归树的时间复杂度最重要的因素是()A)特征中类别的个数B)label列值域C)样本总量答案:A解析:[单选题]2.如果一个SVM模型出现欠拟合,那么()能解决这一问题。A)增大惩罚参数CB)减小惩罚参数CC)减小核系数(gamma参数)答案:A解析:SVM模型出现欠拟合,表明模型过于简单,需要提高模型复杂度。C越大,相应的模型越复杂。[单选题]3.下面关于数据科学与统计学的关系描述不正确的有(__)。A)数据科学是统计学的主要基础理论之一B)数据科学的工具往往来自于统计学C)统计学家在数据科学的发展中做出过突出贡献D)第一篇以?数据科学?为标题的论文是由统计学家完成的答案:A解析:[单选题]4.当数据过大以至于无法在RAM中同时处理时,哪种梯度下降方法更加有效?A)随机梯度下降法(StochasticGradientDescent)B)不知道C)整批梯度下降法(FullBatchGradientDescent)D)都不是答案:A解析:[单选题]5.情感分析技术可以应用于()A)股票市场分析B)互联网舆情分析与监控C)商品服务质量评估D)以上都是答案:D解析:[单选题]6.决策论中,将?期望损失?称为(__)。A)均值B)方差C)风险D)概率答案:C解析:[单选题]7.LVW属于哪种特征选择方法A)包裹式B)启发式C)嵌入式D)过滤式答案:A解析:[单选题]8.根据操作的反馈总结更好的策略,这个过程抽象出来,就是A)强化训练B)加强训练C)强化学习D)加强学习答案:C解析:[单选题]9.下面关于数据科学中机器学习思路相关描述不正确的有(__)。A)测试集为输入B)机器学习算法来学习C)用函数比较算法估计目标函数D)现有或部分数据为训练集答案:A解析:[单选题]10.线性模型试图学得一个属性的(__)来进行预测的函数。A)线性组合B)非线性组合C)取值D)维度答案:A解析:[单选题]11.中值滤波对(__)的表现较差。A)泊松噪声B)高斯噪声C)乘性噪声D)椒盐噪声答案:B解析:[单选题]12.以下关于机器学习的发展历程描述错误的是(___)。A)要使机器具有智能,就必须设法使机器拥有知识B)从二十世纪七十年代中期开始,人工智能研究进入了?知识期?C)二十世纪五十年代中后期,基于神经网络的?符号主义?学习开始出现D)二十世纪八十年代是机器学习称为一个独立的学科领域、各种机器学习技术百花初绽的时期答案:C解析:[单选题]13.下列哪一项属于特征学习算法(representationlearningalgorithm)?A)K近邻算法B)随机森林C)神经网络D)都不属于答案:C解析:[单选题]14.正则化的回归分析,可以避免()A)线性化B)过拟合C)欠拟合D)连续值逼近答案:B解析:[单选题]15.位势函数法的积势函数K(x)的作用相当于Bayes判决中的()A)后验概率B)先验概率C)类概率密度D)类概率密度与先验概率的和答案:A解析:势函数:主要用于确定分类平面,其思想源于物理D:积累势函数K(x)的作用相当于Bayes判决中的:后验概率、类概率密度与先验概率的乘积[单选题]16.关于ZooKeeper顺序节点的说法正确的是()A)创建顺序节点的命令为:create/testvalue1B)创建顺序节点时不能连续执行创建命令,否者报错节点已存在C)通过顺序节点,可以创建分布式系统唯一IDD)顺序节点的序号能无限增加答案:C解析:[单选题]17.控制论学派属于()。[]*A)符号主义B)认知主义C)联结主义D)行为主义答案:D解析:[单选题]18.(__)是从海量文本中查询到观点信息,根据主题相关度和观点倾向性对结果排序。A)情感分类B)情感检索C)情感抽取D)情感分析答案:B解析:[单选题]19.卷积的过程是让过滤器在图像上()。A)缩放B)剪切C)镜像对称D)窗口滑动答案:D解析:[单选题]20.如果使用线性回归模型,下列说法正确的是?A)检查异常值是很重要的,因为线性回归对离群效应很敏感B)线性回归分析要求所有变量特征都必须具有正态分布C)线性回归假设数据中基本没有多重共线性D)以上说法都不对答案:A解析:本题考查的是线性回归的一些基本原理。异常值是数据中的一个非常有影响的点,它可以改变最终回归线的斜率。因此,去除或处理异常值在回归分析中一直是很重要的。了解变量特征的分布是有用的。类似于正态分布的变量特征对提升模型性能很有帮助。例如,数据预处理的时候经常做的一件事就是将数据特征归一化到(0,1)分布。但这也不是必须的。当模型包含相互关联的多个特征时,会发生多重共线性。因此,线性回归中变量特征应该尽量减少冗余性。C选择绝对化了。[单选题]21.设有一幅二值图像,其中黑色的背景上有一条宽为5个像素的白线,如要通过空域滤波消除这条白线,需要用?A)3*3的算术均值滤波器B)7*7的算术均值滤波器C)3*3的谐波均值滤波器D)7*7的谐波均值滤波器答案:D解析:[单选题]22.现在在hadoop集群当中的配置文件中有这么两个配置,请问假如集群当中有一个节点宕机,主节点namenode需要多长时间才能感知到?<name>erval</name><value>3</value></property><name>erval</name><value>2000</value></property>A)26秒B)34秒C)30秒D)20秒答案:B解析:[单选题]23.若用φ(n)表示欧拉函数,请问:φ(56)的欧拉函数之积为?A)24B)10C)15D)11答案:A解析:[单选题]24.假定你使用SVM学习数据X,数据X里面有些点存在错误。现在如果你使用一个二次核函数,多项式阶数为2,使用松弛变量C作为超参之一。当你使用较大的C(C趋于无穷),则()。A)仍然能正确分类数据B)不能正确分类C)不确定D)以上均不正确答案:A解析:采用更大的C,误分类点的惩罚就更大,因此决策边界将尽可能完美地分类数据。[单选题]25.下列关于特征选择的说法错误的是A)可以提高特征关联性B)可以减轻维数灾难问题C)可以降低学习任务的难度D)特征选择和降维具有相似的动机答案:A解析:[单选题]26.卷积神经网络中池化层的作用是()。A)寻找图像中的细节特征B)输入图片C)减少下一层的计算,防止过拟合D)输出图片答案:C解析:[单选题]27.若有统计表:包含该词的文档数(亿)IDFTF-IDF中国62.30.6030.0121蜜蜂0.4842.7130.0543养殖0.9732.4100.0482那么这篇文章的关键词是(__)。A)中国B)蜜蜂C)养殖D)不知道答案:B解析:[单选题]28.PCA在做降维处理时,优先选取哪些特征()A)中心化样本的协方差矩阵的最大特征值对应特征向量B)最大间隔投影方向C)最小类内聚类D)最速梯度方向答案:A解析:[单选题]29.一个文本邮件可以被归为【垃圾邮件】和【非垃圾邮件】两类,因此判断文本邮件是否为垃圾邮件,属于()问题A)分类B)回归C)聚类D)以上都不是答案:A解析:[单选题]30.()先对数据集进行特征选择,然后再训练学习器。A)过滤式选择B)包裹式选择C)稀疏表示D)嵌入式选择答案:A解析:[单选题]31.隐马尔可夫模型(HiddenMarkovModel,简称HMM)主要用于()数据建模A)时长B)时间C)时态D)时序答案:D解析:[单选题]32.将输出标记的对数作为线性模型逼近的目标是__。A)对数几率回归B)对数线性回归C)极大似然法D)正则化答案:B解析:[单选题]33.(__)是指同样的一句话,可能有两种或者更多的切分方法。A)生词B)歧义C)断句D)分词答案:B解析:[单选题]34.2.JC系数的度量公式()A)a/b+cB)a/a+bC)b/b+cD)a/a+b+c答案:D解析:[单选题]35.下列不属于大数据4V特性的是().A)大量B)多样C)高速D)快捷答案:D解析:[单选题]36.在训练集上每学到一条规则,就将该规则覆盖的训练样例去除,然后以剩下的训练样例组成训练集重复上述步骤。这个过程称为(__)。A)规则学习B)直推学习C)强化学习D)序贯覆盖答案:D解析:[单选题]37.N-gram是一种简单有效的统计语言模型,通常n采用1-3之间的值,它们分别称为unigram、bigram和trigram。现有给定训练语料合计三个文档如下:D1:JohnreadMobyDickD2:Maryreadadifferentbook,D3:ShereadabookbyCher利用bigram求出句子?Johnreadabook?的概率大约是()A)1B)0.06C)0.09D)0.0008答案:B解析:[单选题]38.数字图像木刻画效果的出现是由于下列原因所产生的()A)图像的幅度分辨率过小B)图像的幅度分辨率过大C)图像的空间分辨率过小D)图像的空间分辨率过大答案:A解析:[单选题]39.关于决策树,以下哪种说法是正确的A)可读性强B)只用于分类问题C)只用于回归问题D)是无监督学习答案:A解析:[单选题]40.下面哪个不属于数据的属性类型?A)标称B)序数C)区间D)相异答案:D解析:[单选题]41.回归分析的任务,就是根据()和因变量的观察值,估计这个函数,并讨论与之有关的种种统计推断的问题。A)相关变量B)样本C)已知数据D)自变量答案:D解析:回归分析指的是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。回归分析按照涉及的变量的多少,分为一元回归和多元回归分析;按照因变量的多少,可分为简单回归分析和多重间归分析:按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析。[单选题]42.(__)为数据科学和大数据产业生态系统提供数据内容的捕获和获取服务。A)数据源和APPsB)数据资源C)数据端D)基础设施答案:A解析:[单选题]43.进行机器学习训练过程使用的接口API是:A)fit()B)predict()C)learn()D)train()答案:A解析:[单选题]44.若学习算法不依赖于环境建模,则称为(__)A)免模型学习B)机器学习C)深度学习D)蒙特卡罗强化学习答案:A解析:[单选题]45.下面是交叉验证的几种方法:1/Bootstrap2/留一法交叉验证3/5折交叉验证4/重复使用两次5折交叉验证请对上面四种方法的执行时间进行排序,样本数量为1000。A)1>2>3>4B)2>4>3>1C)4>1>2>3D)2>4>3>1答案:D解析:本题考查的是k折交叉验证和Bootstrap的基本概念。Bootstrap是统计学的一个工具,思想就是从已有数据集D中模拟出其他类似的样本Dt。Bootstrap的做法是,假设有N笔资料,先从中选出一个样本,再放回去,再选择一个样本,再放回去,共重复N次。这样我们就得到了一个新的N笔资料,这个新的Dt中可能包含原D里的重复样本点,也可能没有原D里的某些样本,Dt与D类似但又不完全相同。值得一提的是,抽取-放回的操作不一定非要是N,次数可以任意设定。例如原始样本有10000个,我们可以抽取-放回3000次,得到包含3000个样本的Dt也是完全可以的。因此,使用bootstrap只相当于有1个模型需要训练,所需时间最少。留一法(Leave-One-Out)交叉验证每次选取N-1个样本作为训练集,另外一个样本作为验证集,重复N次。因此,留一法相当于有N个模型需要训练,所需的时间最长。5折交叉验证把N个样本分成5份,其中4份作为训练集,另外1份作为验证集,重复5次。因此,5折交叉验证相当于有5个模型需要训练。2次重复的5折交叉验证相当于有10个模型需要训练。[单选题]46.感知机只有(__)神经元进行激活函数处理,即只拥有一层功能神经元。A)输入层B)输出层C)第一层D)第二层答案:B解析:[单选题]47.当往往一本书中其实通常使用到的词汇表是非常小的,这就会导致一本书的表示向量中存在大量的0.这样的向量称为()。A)零向量B)满秩向量C)稀疏向量D)普通向量答案:C解析:[单选题]48.下面哪种不属于池化操作()。A)连接池化B)一般池化C)重叠池化D)金字塔池化答案:A解析:[单选题]49.基于统计的分词方法为()A)正向量最大匹配法B)逆向量最大匹配法C)最少切分D)条件随机场答案:D解析:中文分词的基本方法可以分为基于语法规则的方法、基于词典的方法和基于统计的方法。基于语法规则的分词法基本思想是在分词的同时进行句法、语义分析,利用句法信息和语义信息来进行词性标注,以解决分词歧义现象。因为现有的语法知识、句法规则十分笼统、复杂,基于语法和规则的分词法所能达到的精确度远远还不能令人满意,目前这种分词系统应用较少。在基于词典的方法中,可以进一步分为最大匹配法,最大概率法,最短路径法等。最大匹配法指的是按照一定顺序选取字符串中的若干个字当做一个词,去词典中查找。根据扫描方式可细分为:正向最大匹配,反向最大匹配,双向最大匹配,最小切分。最大概率法指的是一个待切分的汉字串可能包含多种分词结果,将其中概率最大的那个作为该字串的分词结果。最短路径法指的是在词图上选择一条词数最少的路径。基于统计的分词法的基本原理是根据字符串在语料库中出现的统计频率来决定其是否构成词。词是字的组合,相邻的字同时出现的次数越多,就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映它们成为词的可信度。常用的方法有HMM(隐马尔科夫模型),MAXENT(最大熵模型),MEMM(最大熵隐马尔科夫模型),CRF(条件随机场)。本题中,基于统计的方法为条件随机场。ABC三个选项为基于词典的方法。[单选题]50.使用high(infinite)regularisation时偏差会如何变化?alt="">有散点图?a?和?b?两类(蓝色为正,红色为负)。在散点图?a?中,使用了逻辑回归(黑线是决策边界)对所有数据点进行了正确分类。A)偏差很大B)偏差很小C)不确定D)都不是答案:A解析:模型变得过于简单,所以偏差会很大。Bias:误差,对象是单个模型,期望输出与真实标记的差别(可以解释为描述了模型对本训练集的拟合程度)Variance:方差,对象是多个模型(这里更好的解释是换同样规模的训练集,模型的拟合程度怎么样;也可以说方差是刻画数据扰动对模型的影响,描述的是训练结果的分散程度)从同一个数据集中,用科学的采样方法得到几个不同的子训练集,用这些训练集训练得到的模型往往并不相同。alt=""class="fr-ficfr-dii">以上图为例:[单选题]51.话题模型的典型代表是。A)贝叶斯模型B)拉普拉模型C)隐狄利克雷模型D)马尔可夫模型答案:C解析:[单选题]52.机器学习是研究如何使用计算机()的一门学科。A)模拟生物行为B)模拟人类解决问题C)模拟人类学习活动D)模拟人类生产活动答案:C解析:[单选题]53.(__)不是遗传算法基本算子。A)选择B)感染C)突变D)交叉答案:B解析:[单选题]54.下面哪种学习方式引入了额外的专家知识,通过与外界的交互来将部分未标记样本转变为有标记样本(__)。A)纯半监督学习B)半监督学习C)直推学习D)主动学习答案:D解析:[单选题]55.()不是最近邻分类器的特点。A)它使用具体的训练实例进行预测,不必维护源自数据的模型B)分类一个测试样例开销很大C)最近邻分类器基于全局信息进行预测D)可以生产任意形状的决策边界答案:C解析:k近邻中的近邻指的是距离待预测数据的数据点,而k近邻指的是取距k近的前几个数据点,并非基于全局信息进行预测。[单选题]56.下列算法中,不属于外推法的是()。A)移动平均法B)回归分析法C)指数平滑法D)季节指数法答案:B解析:外推法(Extrapolation)是根据过去和现在的发展趋势推断未来的一类方法的总称,回归分析法不属于外推法。[单选题]57.向量空间模型的缺陷不包括()A)维度灾难B)模型稀疏性C)语义信息缺失D)无法计算文本相似度答案:D解析:[单选题]58.()可以用衡量真来实值与预测值之间的差异A)权重值B)损失函数C)特征值D)输出值答案:B解析:第2部分:多项选择题,共17题,每题至少两个正确答案,多选或少选均不得分。[多选题]59.下列关于神经网络描述正确的是(__)。A)我们在机器学习中谈论神经网络是指的是生物学意义上的神经网络B)神经网络中最基本的成分是神经元模型C)在MP神经元模型中,神经元接受来自n个其他神经元传递过来的信号D)神经元接收到的总输入值将与神经元的阈值进行比较,然后通过激活函数处理以产生神经元的输出。答案:BCD解析:[多选题]60.RNN的主要应用领域有()。A)自然语言处理B)机器翻译C)音乐推荐D)洗衣服答案:ABC解析:[多选题]61.管理非结构化数据常采用()。A)NoSQLB)NewSQLC)关系云技术D)关系数据库技术答案:ABC解析:[多选题]62.(__)属于图像平滑的滤波。A)盒式滤波B)双边滤波C)导向滤波D)贝叶斯变换答案:ABC解析:[多选题]63.CNN相比于全连接的DNN有哪些优势?()A)参数更少B)泛化更好C)训练更快D)更容易搭建答案:ABC解析:[多选题]64.确定图像分割的阈值的方法有(__)。A)可变阈值法B)判别分析法C)中值滤波D)p尾法答案:ABD解析:[多选题]65.下面算法中不属于图像锐化处理的是()。A)低通滤波B)加权平均法C)高通滤波D)中值滤波答案:ABD解析:[多选题]66.决策树常用的特征分裂方法()A)信息增益B)基尼指数C)距离计算D)频率计算答案:AB解析:[多选题]67.按用途分类,专家系统可分为()**A)诊断型B)预测型C)设计型D)控制型答案:ABCD解析:[多选题]68.下列关于Ridge回归的说法,正确的是()。A)若λ=0,则等价于一般的线性回归B)若λ=0,则不等价于一般的线性回归C)若λ=+∞,则得到的权重系数很小,接近于零D)若λ=+∞,则得到的权重系数很大,接近与无穷大答案:AC解析:Ridge回归中,若λ=0,则等价于一般的线性回归;若λ=+∞,则得到的权重系数很小,接近于零。[多选题]69.当闵可夫斯基距离公式中的系数p值为1时,可得到(__)的公式。A)欧氏距离B)曼哈顿距离C)街区距离D)切比雪夫距离答案:BC解析:[多选题]70.SparkRI的依赖机制包括()A)宽依赖B)深度依赖C)广度依赖D)窄依赖答案:AD解析:[多选题]71.一个完整的人工神经网络包括()A)一层输入层B)多层分析层C)多层隐藏层D)两层输出层答案:AC解析:[多选题]72.半监督学习可进一步划分为(__)和(__)。A)纯半监督学习B)无监督学习C)直推学习D)主动学习答案:AC解析:[多选题]73.产生式系统的推理包括()。**A)正向推理B)直接推理C)验证推理D)反向主义答案:AD解析:[多选题]74.下列说法正确的是A)kNN算法的预测效率与训练集的数量有关B)kNN算法只能用于二分类C)kNN算法只能用于回归D)kNN算法属于监督学习答案:AD解析:[多选题]75.下面属于多元线性回归的是?A)求得正方形面积与对角线之间的关系B)建立股票价格与成交量、换手率等因素之间的线性关系C)建立西瓜价格与西瓜大小、西瓜产地、甜度等因素之间的线性关系D)建立西瓜书销量与时间之间的线性关系答案:BC解析:第3部分:判断题,共12题,请判断题目是否正确。[判断题]76.学习率越大,训练速度越快,最优解越精确。A)正确B)错误答案:错解析:[判断题]77.机器学习方法涉及对生物的学习机理的模仿,在简化的基础上用计算的方法进行再现A)正确B)错误答案:错解析:[判断题]78.超父为假设所以属性都依赖于同一个属性A)正确;B)错误;答案:对解析:[判断题]79.K近邻分类虽简单,但它的泛化错误率不超过贝叶斯最优分类器错误率的两倍A)正确B)错误答案:对解析:[判断题]80.k近邻学习是一种常用的监督学习方法,其工作机制为:给定测试样本,基于某种距离度量找出训练集中与其最靠近的k个训练样本,然后基于这k个邻居信息进行预测。因此k近邻算法的核心是k值和距离度量的选取。A)正确B)错误答案:对解析:[判断题]81.人工神经网络训练的目的就是使得损失函数最小化A)正确B)错误答案:对解析:[判断题]82.K近邻算法既可用于分类,也可用于回归,但更常见的是解决分类问题A)正确B)错误答案:对解析:[判断题]83.聚类效果就是使得类内的点都足够近,类间的点都足够远A)正确B)错误答案:对解析:[判断题]84.logistic函数是一种线性函数A)正确B)错误答案:错解析:[判断题]85.用随机梯度算法训练回归模型前,把各特征缩放到相同尺寸的常用方法有归一化、正则化、标准化A)正确B)错误答案:错解析:[判断题]86.read_html()函数可以读取网页中所有的数据。A)正确B)错误答案:错解析:read_html()方法只能读取网页中table标签中的数据[判断题]87.自然界中生物变异的概率是不确定的,但是基因遗传算法的变异概率可以人为调节A)正确B)错误答案:对解析:第4部分:问答题,共9题,请在空白处填写正确答案。[问答题]88.3.决策树预剪枝与后剪枝的区别和优缺点答案:预剪枝:降低了过拟合的风险,还显著减少了决策树的训练时间开销和测试时间开销。缺点:给决策树带来了欠拟合的风险。后剪枝:后剪枝决策树的欠拟合风险很小缺点:训练时间的开销比为剪枝和预剪枝决策树都要大得多。解析:[问答题]89.Series是一种一维数组对象,包含一个值序列。Series中的数据通过()访问。答案:索引解析:[问答题]90.已知字典dic={'w':97,'a':19},则dic.get('w',None)的值是()。答案:97解析:get()方法语法:dict.get(key,default=None)参数:key--字典中要查找的键。Default--如果指定键的值不存在时,返回该默认值。[问答题]91.逻辑回归问题的衡量指标有准确率、精确率和()答案:召回率解析:[问答
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 离婚协议的个“坑”
- 财务辞职报告范文
- 博士开题报告范文
- 《家居智能综合系统》课件
- 《回归本真品味语言》课件
- 《高考数学备考构想》课件
- 在建影视基地2024年度房产买卖协议
- 会计聘用合同书共
- 中国的自然资源复习课件新湘教版
- 2024年度碳排放交易合同:动力煤进口清关与碳排放权3篇
- 公司员工劳动手册
- 常见的护理诊断与护理措施
- 《影视美术设计》教学课件(全)
- 三级插花花艺师资格考试题库(重点培训400题)
- 30种植物简介课件
- 2022年物流公司组织架构图及部门职责
- 小学语文新课程标准最新版2022
- 小型割草机的设计
- 诉讼材料接收表
- 部编版四年级上册语文第二十六课《西门豹治邺》课文原文及练习题
- 卫生院紫外线消毒登记表
评论
0/150
提交评论