人工智能机器学习技术练习(习题卷4)_第1页
人工智能机器学习技术练习(习题卷4)_第2页
人工智能机器学习技术练习(习题卷4)_第3页
人工智能机器学习技术练习(习题卷4)_第4页
人工智能机器学习技术练习(习题卷4)_第5页
已阅读5页,还剩19页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

试卷科目:人工智能机器学习技术练习人工智能机器学习技术练习(习题卷4)PAGE"pagenumber"pagenumber/SECTIONPAGES"numberofpages"numberofpages人工智能机器学习技术练习第1部分:单项选择题,共62题,每题只有一个正确答案,多选或少选均不得分。[单选题]1.在回归模型中,下列哪一项在权衡欠拟合(under-fitting)和过拟合(over-fitting)中影响最大?A)多项式阶数B)更新权重w时,使用的是矩阵求逆还是梯度下降C)使用常数项答案:A解析:选择合适的多项式阶数非常重要。如果阶数过大,模型就会更加复杂,容易发生过拟合;如果阶数较小,模型就会过于简单,容易发生欠拟合。[单选题]2.关于SVM泛化误差描述正确的是A)超平面与支持向量之间距离B)超平面与支持向量之间距离C)SVM的误差阈值答案:B解析:[单选题]3.发现关联规则的算法通常要经过以下三个步骤:连接数据,作数据准备;给定最小支持度和(),利用数据挖掘工具提供的算法发现关联规则;可视化显示、理解、评估关联规则。A)最小兴趣度B)最大可信度C)最大支持度D)最小置信度答案:D解析:[单选题]4.关于HDFS安全模式说法正确的是?()A)在安全模式下只能写不能读B)在安全模式下只能读不能写C)在安全模式下读写都不允许D)在安全模式下读写都可以答案:B解析:[单选题]5.下列有关人工智能、机器学习、深度学习三者关系的说法正确的是()A)深度学习是实现机器学习的一种方法B)深度学习是实现人工智能的一种技术C)人工智能是实现机器学习的一种方法D)深度学习是实现机器学习的一种技术答案:D解析:[单选题]6.朴素贝叶斯分类器的三种实现不包括A)基于伯努利模型实现B)基于多项式模型实现C)属性条件独立性假设实现D)基于高斯模型实现答案:C解析:[单选题]7.caffe中基本的计算单元为()A)blobB)layerC)netD)Solver答案:B解析:[单选题]8.(__)是神经网络的基本单位。A)神经系统B)神经网络C)神经元D)感知机答案:C解析:[单选题]9.8.K均值算法的K指的是什么?A)K是均值的数值B)K是均值的最大限值C)K是分类的数量D)K是分类的迭代次数答案:B解析:[单选题]10.float表示的数据类型是:A)整数型B)字符型C)布尔型D)浮点型答案:D解析:[单选题]11.决策树依据切分特征来切分数据集。选择切分特征时,我们可以以每个特征的信息增益作为判断标准。A)选择信息增益最大的特征作为切分特征。B)选择信息增益最小的特征作为切分特征。C)选择信息增益不大不小、即适中的特征作为切分特征。D)选择信息增益较大的多个特征同时作为切分特征。答案:A解析:[单选题]12.读取CSV文件中的数据用()包。A)sklearnB)MatplotlibC)PandasD)pylab答案:C解析:[单选题]13.人工智能中用?如果…则…?关联起来的知识称为()A)产生式B)规则C)关系式D)模式答案:B解析:[单选题]14.下列哪些技术能被用于关键词归一化(keywordnormalization),即把关键词转化为其基本形式?A)词形还原(Lemmatization)B)探测法(Soundex)C)余弦相似度(CosineSimilarity)D)N-grams答案:A解析:[单选题]15.下列关于神经元的陈述中,正确的是(A)一个神经元有一个输入,有一个输出B)一个神经元有多个输入,有一个或多个输出C)一个神经元有一个输入,有多个输出D)上述都正确答案:D解析:[单选题]16.当特征值大致相等时。会发生的情况是()。A)PCA将表现出色B)PCA将表现不佳C)不知道D)以上都没有答案:B解析:当所有特征向量相同时将无法选择主成分,因为在这种情况下所有主成分相等。[单选题]17.与生成方法、半监督SVM、图半监督学习等基于单学习机器利用未标记数据不同,基于分歧的方法(disagreement-basedmethods)使用多学习器,而学习器之间的分歧(disagreement)对未标记数据的利用至关重要。()是此类方法的重要代表。A)协同训练B)组合训练C)配合训练D)陪同训练答案:A解析:协同训练是此类方法的重要代表,它很好地利用了多视图的相容互补性。[单选题]18.()可在保证训练精度的情况下降低模型的复杂度。A)正则化系数无穷大B)正则化系数几乎为0C)选择合适的正则化参数D)以上答案都不正确答案:C解析:选择合适的正则化参数可在保证训练精度的情况下降低模型的复杂度。[单选题]19.假设我们想估计A和B这两个参数,在开始状态下二者都是未知的,但如果知道了A的信息就可以得到B的信息,反过来知道了B也就得到了A。可以考虑首先赋予A某种初值,以此得到B的估计值,然后从B的当前值出发,重新估计A的取值,这个过程一直持续到收敛为止,该算法是()的算法思想。A)极大似然法B)朴素贝叶斯分类器C)EM算法D)贝叶斯决策论答案:C解析:[单选题]20.在以下不同的场景中,使用的分析方法不正确的有()A)根据商家最近一年的经营及服务数据,用聚类算法判断出天猫商家在各自主营类目下所属的商家层级B)根据商家近几年的成交数据,用聚类算法拟合出用户未来一个月可能的消费金额公式C)用关联规则算法分析出购买了汽车坐垫的买家,是否适合推荐汽车脚垫D)根据用户最近购买的商品信息,用决策树算法识别出淘宝买家可能是男还是女答案:B解析:[单选题]21.以下说法错误的是()。A)元组的长度可变B)列表的长度可变C)可以通过索引访问元组D)可以通过索引访问列表答案:A解析:[单选题]22.(__)是常用的估计参数隐变量的利器,它是一种迭代的方法。A)边际似然B)EM算法C)贝叶斯决策D)贝叶斯分类器答案:B解析:[单选题]23.关于函数的下列说法不正确的是()。A)函数可以没有参数B)函数都有返回值C)函数可以没有return语句D)函数可以有多个返回值答案:B解析:[单选题]24.以下哪种方法能最佳地适应逻辑回归中的数据?A)LeastSquareErrorB)MaximumLikelihoodC)JaccarddistanceD)BothAandB答案:B解析:LogisticRegression使用可能的最大似然估值来测试逻辑回归过程。[单选题]25.关于决策树节点划分指标描述正确的是()A)类别非纯度越大越好B)信息增益越大越好C)信息增益率越小越好D)基尼指数越大越好答案:B解析:[单选题]26.pandas中,Series使用切片查询代码如下:data=[1,2,3,4,5]res=pd.Series(data,index=["a","b","c","d","e"])print(res[3])输出结果为:()A)4B)3C)cD)d答案:A解析:[单选题]27.关于BP算法信号前向传播的说法正确的是()。A)BP算法在计算正向传播输出值时需要考虑激活函数B)BP算法信号前向传播的计算量跟输入层神经元数目无关C)BP算法只有在隐层才有激活函数D)BP算法信号传播的顺序是输出层、隐层、输入层。答案:A解析:[单选题]28.LDA的以下哪项是正确的?alt="">A)LDA旨在最大化之间类别的距离,并最小化类内之间的距离B)LDA旨在最小化类别和类内之间的距离C)LDA旨在最大化类内之间的距离,并最小化类别之间的距离D)LDA旨在最大化类别和类内之间的距离答案:A解析:[单选题]29.特征工程不包括()。A)特征构建B)特征合并C)特征选择D)特征提取答案:B解析:[单选题]30.在大规模的语料中,挖掘词的相关性是一个重要的问题。以下哪一个信息不能用于确定两个词的相关性。A)互信息B)最大熵C)卡方检验D)最大似然比答案:B解析:[单选题]31.下面不属于商业的有(__)。A)howgoodB)stitchfixC)instacartD)cyence答案:D解析:[单选题]32.以下关于PMF(概率质量函数),PDF(概率密度函数),CDF(累积分布函数)描述错误的是()A)PDF描述的是连续型随机变量在特定取值区间的概率B)CDF是PDF在特定区间上的积分C)PMF描述的是离散型随机变量在特定取值点的概率D)有一个分布的CDF函数H(x),则H(a)等于P(X<=a)答案:A解析:[单选题]33.下列关于HSV色彩空间中描述不正确的是()。A)H表示的是色调,指的是光的颜色B)S表示的是饱和度,指的色彩的深浅C)V表示的是亮度,指的是光的明暗D)HSV色彩空间称为五角锥体模型答案:D解析:[单选题]34.一对一法分类器,k个类别需要多少个SVM:A)k(k-1)/2B)k(k-1)C)kD)k!答案:A解析:[单选题]35.下列度量不具有反演性的是A)系数B)几率C)Cohen度量D)兴趣因子答案:D解析:[单选题]36.定义域为{1,2,3}的离散属性也可称为称为(__)。A)无序属性B)有序属性C)连续属性D)离散属性答案:B解析:[单选题]37.数据科学是一门将?现实世界?映射到?数据世界?,在?数据层次?上研究?现实世界?的问题,并根据?数据世界?的分析结果,对?现实世界?进行预测、解释或决策的()。A)新兴科学B)交叉性学科C)独立学科D)一整套知识体系答案:A解析:[单选题]38.泛化误差可分解为偏差、方差与噪声之和,当学习器拟合程度不够强时,是()主导了泛化错误率。A)偏差B)方差C)噪声D)差与方差共同答案:A解析:学习器拟合程度不够强时,及欠拟合,此时是偏差主导了泛化错误率。[单选题]39.(__)表达了在当前任务上任何学习算法所能达到的期望泛化误差的下界,即刻画了学习问题本身的难度。A)偏差B)方差C)噪声D)泛化误差答案:C解析:[单选题]40.有两个样本点,第一个点为正样本,它的特征向量是(0,-1);第二个点为负样本,它的特征向量是(2,3),从这两个样本点组成的训练集构建一个线性SVM分类器的分类面方程是()A)2x+y=4B)x+2y=5C)x+2y=3D)以上都不对答案:C解析:[单选题]41.概念分层图是()图A)无向无环B)有向无环C)有向有环D)无向有环答案:B解析:[单选题]42.在感知机中(Perceptron)的任务顺序是什么?1随机初始化感知机的权重;2去到数据集的下一批(batch);3如果预测值和输出不一致,则调整权重4对一个输入样本,计算输出值;A)1,2,3,4B)4,3,2,1C)3,1,2,4D)1,4,3,2答案:D解析:[单选题]43.从训练数据中学习出一组能用于对未见示例进行判别的规则,这个过程称为(__)。A)机器学习B)规则学习C)直推学习D)主动学习答案:B解析:[单选题]44.信息熵是度量(__)最常用的一种指标。A)样本的个数B)样本的维度C)样本的纯度D)样本的冗余度答案:C解析:[单选题]45.L1正则和L2正则的共同点是什么?A)都会让数据集中的特征数量减少B)都会增大模型的偏差C)都会增大模型方差D)其余选项皆错答案:D解析:[单选题]46.一批产品共8件,其中正品6件,次品2件。现不放回地从中取产品两次,每次一件,求第二次取得正品的概率A)1/4B)1/2C)3/4D)1答案:C解析:[单选题]47.下列对LVW算法的说法错误的是A)算法中特征子集搜索采用了随机策略B)每次特征子集评价都需要训练学习器,开销很大C)算法设置了停止条件控制参数D)算法可能求不出解答案:D解析:[单选题]48.回归方程判定系数的计算公式R2=SSR/SST=1-SSE/SST,对判定系数描述错误的是()。A)式中的SSE指残差平方和B)式中的SSR指总离差平方和C)判定系数用来衡量回归方程的扰合优度D)判定系数R2等于相关系数的平方答案:B解析:SSR指回归平方和。[单选题]49.密度聚类方法充分考虑了样本间的什么关系()A)范数距离B)集合运算C)密度可达D)样本与集合运算答案:C解析:[单选题]50.下列哪个算法可以用于特征选择A)朴素贝叶斯B)感知器C)支持向量机D)决策树答案:D解析:[单选题]51.循环神经网络适合处理什么数据。()A)节点数据B)序列数据C)结构化数据D)图像数据答案:B解析:[单选题]52.已知表emp存在字段name1,以下语句能够正常运行的是哪一个:A)altertableemprenametoemp1B)altertableemprenameemptoemp1C)altertableempchangecolumnname1toname2D)altertableempchangenamename12答案:A解析:[单选题]53.下列哪种词嵌入支持上下文建模(ContextModeling)?A)Word2VecB)GloVeC)BERTD)以上所有答案:C解析:[单选题]54.下列关于聚类分析的度量标准轮廓系数的描述不准确的是()A)轮廓系数的最大值是1B)一个簇整体的轮廓系数越大,说明聚类的效果越好C)轮廓系数不可能出现负数D)聚类紧密的簇比聚类稀疏的簇的整体轮廓系数要大答案:C解析:[单选题]55.关于Anaconda的组件中,可以编辑文档且展示数据分析过程的是()。A)AnacondaNavigatorB)AnacondaPromptC)SpyderD)JupyterNotebook答案:D解析:JupyterNotebook可以重现整个分析过程,并将说明文字、代码、图表、公式和结论都整合在一个文档中[单选题]56.类别不平衡指分类任务中不同类别的训练样例数目__的情况。A)没有差别B)差别很大C)差别很小D)以上都不正确答案:B解析:[单选题]57.有关k-means下列说法正确的是()A)可以确定样本属性的重要性B)可以处理规则分布数据的聚类C)适合任意数据集的分组D)聚类的结果与初始选择的假设聚类中心无关答案:B解析:有很大的关系,聚类中心影响聚类结果[单选题]58.混淆矩阵的真负率公式是为A)TP/(TP+FN)B)FP/(FP+TN)C)FN/(TP+FN)D)TN/(TN+FP)答案:D解析:第2部分:多项选择题,共17题,每题至少两个正确答案,多选或少选均不得分。[多选题]59.以下各项均是针对数据仓库的不同说法,你认为正确的有()A)数据仓库就是数据库B)数据仓库是一切商业智能系统的基础C)数据仓库是面向业务的,支持联机事务处理(OLTP)D)数据仓库支持决策而非事务处理答案:BD解析:[多选题]60.下列关于spark中的RDD描述正确的有()A)RDD(ResilientDistributedDataset)叫做弹性分布式数据集,是spark中最基本的数据抽象B)Resilient:表示弹性的,弹性表示C)Destributed:分布式,可以并行在集群计算D)Dataset:就是一个集合,用于存放数据的答案:ABCD解析:[多选题]61.下面不属于数据分析平台的有(__)。A)uberB)datameerC)ArimoD)Farmers答案:AD解析:[多选题]62.下面关于集成学习的描述,正确的是()A)Bagging方法可以并行训练B)Bagging方法基学习器的比重不同C)Boosting方法可以并行训练D)Boosting方法基学习器的比重不同答案:AD解析:[多选题]63.数据挖掘的挖掘方法包括()。A)聚类B)回归分析C)神经网络D)决策树算法答案:ABCD解析:利用数据挖掘进行数据分析常用的方法主要有分类、回归分析、聚类、关联规则、特征、变化和偏差分析、Web页挖掘等。分类方法有决策树算法、KNN算法(K-NearestNeighbor))、SVM算法、VSM算法、Bayes算法、神经网络等。聚类算法有基于密度、基于层次、基于模型、基于网格等。关联规则算法有Apriori算法、FP-Growth算法。[多选题]64.贝叶斯网的推断描述正确的为A)通过已知变量观测值来推测待查询变量的过程;B)已知变量观测值称为证据;C)需借助近似推断若网络结点较多时;D)吉布斯采样可完成贝叶斯网的推断;答案:ABCD解析:[多选题]65.词袋模型的局限性表现在()。A)需要仔细考虑词汇表的构建B)信息检索C)向量的稀疏问题D)没有考虑到语序答案:ACD解析:[多选题]66.话题模型中的几个概念有?A)词B)句C)文档D)话题答案:ACD解析:[多选题]67.__可以用来判断学习器的性能。A)P-R曲线B)BEPC)F1度量D)Fβ度量答案:ABCD解析:[多选题]68.目前,机器学习领域所面临的主要挑战包括().A)过拟合B)维度灾难C)特征工程D)算法的可扩展性答案:ABCD解析:[多选题]69.下列是caffe支持的loss优化的方法的是()A)AdamB)SGDC)AdaDeltaD)Nesterov答案:ABCD解析:[多选题]70.(___)是数据集的一般特性。A)特征B)维度C)稀疏性D)分辨率答案:BCD解析:[多选题]71.ZooKeeper节点类型是()A)持久节点(PERSISTENT)B)持久顺序节点(PERSISTENT_SEQUENTIAL)C)临时节点(EPHEMERAL)D)临时顺序节点(EPHEMERAL_SEQUENTIAL)答案:ABCD解析:[多选题]72.在用随机梯度算法训练回归模型前,要把各特征缩放到相同尺寸。把特征缩放到相同尺寸的常用方法有:A)向量化B)正则化C)归一化D)标准化答案:CD解析:[多选题]73.特征归约一般包含()A)离散化B)标准化C)光滑D)聚集答案:ABCD解析:[多选题]74.在选择分治法解决问题时,应考虑待解决问题应具有哪些特征()A)待解决问题规模缩小到一定程度后可以容易解决B)待解决问题应可以分解为若干个规模较小的相同问题,且子问题应可直接求解。C)各子问题之间是相互独立的D)分解后的子问题的解可以合并为源问题的解答案:AC解析:[多选题]75.如右图所示无向图,它的团包括()A){A}B){A,B}C){A,B,C}D){A,B,C,D}答案:ABC解析:第3部分:判断题,共12题,请判断题目是否正确。[判断题]76.F1值是精确率与查全率的加权平均值,综合平衡了精确与查全率两个指标的特点,F1值突出对分类错误的评估。A)正确B)错误答案:对解析:[判断题]77.机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科A)正确B)错误答案:对解析:[判断题]78.在训练集非常大时,批量梯度下降算法会运行得极慢。随机梯度下降和小批量梯度下降可以解决该问题A)正确B)错误答案:对解析:[判断题]79.过拟合比欠拟合更容易克服。A)正确B)错误答案:错解析:[判断题]80.集成学习可得到比单一学习器更好的泛化性能,尤其是弱学习器,泛化性能略大于50%A)正确B)错误答案:对解析:[判断题]81.sort()方法可以对任何轴上的数据进行排序A)正确B)错误答案:对解析:[判断题]82.反应事件或对象在某方面的表现或性质的事项称为属性A)正确B)错误答案:对解析:[判断题]83.Series可以保存任何数据类型。A)正确B)错误答案:对解析:[判断题]84.深度学习是机器学习的一个分支A)正确B)错误答案:对解析:[判断题]85.在Boosting的提升方法中,对于一个复杂任务来说,将多个专家的判断进行适当的综合所得出的判断,要比其中任何一个专家单独的判断好A)正确B)错误答案:对解析:[判断题]86.在数据规模较小时,通过数据增强技术,可以有效弥补数据集的不足,扩充数据量,改善数据分布,提升模型训练质量。A)正确B)错误答案:对解析:[判断题]87.具有多层索引的DataFrame对象经过stack()重塑后,返回的是一个Series对象。A)正确B)错误答案:错解析:第4部分:问答题,共9题,请在空白处填写正确答案。[问答题]88.Numpy中的ndarray的size属性返回的是()。答案:数组元素个数解析:[问答题]89.2.在决策树基本算法中,有哪三种情况

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论