人工智能自然语言技术练习(习题卷32)_第1页
人工智能自然语言技术练习(习题卷32)_第2页
人工智能自然语言技术练习(习题卷32)_第3页
人工智能自然语言技术练习(习题卷32)_第4页
人工智能自然语言技术练习(习题卷32)_第5页
已阅读5页,还剩16页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

试卷科目:人工智能自然语言技术练习人工智能自然语言技术练习(习题卷32)PAGE"pagenumber"pagenumber/SECTIONPAGES"numberofpages"numberofpages人工智能自然语言技术练习第1部分:单项选择题,共43题,每题只有一个正确答案,多选或少选均不得分。[单选题]1.以下哪个模型是属于产生式模型A)HMMB)SVMC)CRFD)MEMM答案:A解析:[单选题]2.什么是自然语言处理(NLP)A)机器理解B)让计算机/机器在理解语言上像人类一样智能C)弥补人类交流和计算机理解之间的差距D)一门计算机科学、人工智能以及语言学的交叉学科答案:D解析:[单选题]3.以下四个选项中关于sigmoid的图形曲线描述正确的是?A)U型B)M型C)X型D)S型答案:D解析:[单选题]4.哪种数据类型数据类型可以看作关系型数据库的一张表A)半结构化数据B)非结构化数据C)结构化数据D)不确定答案:C解析:[单选题]5.在工业应用中经常会碰到NLP中的文本分类,文本分类属于以下哪种任务?A)分类B)回归C)聚类D)降维答案:A解析:[单选题]6.tanh激活函数也有造成梯度消失等问题和sigmoid相比,()sigmoidA)优于B)劣与C)等于D)小于等于答案:A解析:[单选题]7.神经网络中常用的dropout函数,下列选项中关于它的描述正确的是?A)属于正则处理B)一个激活函数C)用于分割数据集D)用于将数据样本多样化答案:A解析:[单选题]8.关于结构化数据,以下是哪个?A)数据库中的数据B)HTML文档C)文本D)图片答案:A解析:[单选题]9.下列不属于感知器学习算法的基本思想的是()A)如果第i个神经元的输出是正确的,即有yi=ti,那么与第i个神经元联接的权值wij和偏差值bi保持不变。B)如果第i个神经元的输出是0,但期望输出为1,即有yi=0,而ti=l,此时权值修正算法为:新的权值wij等于旧的权值wij加上xj;类似的,新的偏差bi为旧偏差bi加上它的输入1。C)如果第i个神经元的输出为1,但期望输出为0,即有yi=1,而ti=0,此时权值修正算法为:新的权值wij等于旧的权值wij减去xj;类似的,新的偏差bi为旧偏差bi减去1。D)寻找样本空间中具有最大分类间隔的超平面(w·x)+b=0答案:D解析:[单选题]10.通常所说的字符编码有两种意思,一是指输入编码,二是指()A)输出编码B)机内编码C)程序编码D)机械编码答案:B解析:[单选题]11.关于logit回归和SVM不正确的是A)Logit回归本质上是一种根据样本对权值进行极大似然估计的方法,而后验概率正比于先验概率和似然函数的乘积。logit仅仅是最大化似然函数,并没有最大化后验概率,更谈不上最小化后验概率。B)Logit回归的输出就是样本属于正类别的几率,可以计算出概率C)SVM的目标是找到使得训练数据尽可能分开且分类间隔最大的超平面,应该属于结构风险最小化。D)SVM可以通过正则化系数控制模型的复杂度,避免过拟合。答案:A解析:[单选题]12.梯度下降是常使用的方法,那么梯度下降是一种怎样的算法A)迭代优化B)一次求解C)求解函数最大值D)迭代求代价函数最小值答案:A解析:[单选题]13.RNN的意思是什么A)全连接网络B)卷积神经网络C)循环神经网络D)感知机网络答案:C解析:[单选题]14.带有深度限制的按叶子生长(leaf-wise)算法,主要做了什么事情A)增加了一个最大深度的限制,在保证高效率的同时防止过拟合B)先把连续的浮点特征值离散化成k个整数,同时构造一个宽度为k的直方图C)不确定D)以上都正确答案:A解析:[单选题]15.聚类中的肘部法则是选择A)就是从K值和代价函数J的二维图中找出J下降变平滑的拐点对应的K值。B)最大K值C)最小K值D)随机K值答案:A解析:[单选题]16.每个Transformer编码器中的第一层是__?A)前馈神经网络B)AttentionC)Self-AttentionD)不确定答案:A解析:[单选题]17.下列叙述错误的是A)1993年提出统计机器翻译B)1994年Candide翻译系统C)1984年提出机器翻译方法D)1970年隐马尔可夫模型答案:D解析:[单选题]18.以下哪个可以在自己的数据上进行微调A)Word2VecB)BERTC)GloVeD)以上所有答案:B解析:[单选题]19.双曲正切激活函数,指的是以下哪个激活函数?A)ReluB)sigmoidC)tanhD)sin答案:C解析:[单选题]20.不属于情感分析应用的是()。A)信息检索B)远程通信C)机器翻译D)语音识别答案:B解析:[单选题]21.能根据学生的特点、弱点和基础知识,以最适当的教案和教学方法对学生进行教学和辅导的专家系统是()。A)解释专家系统B)调试专家系统C)监视专家系统D)教学专家系统答案:D解析:[单选题]22.线性判别分析LDA的思想是什么A)投影后类内方差最大B)类间方差最小C)投影后类内方差最小D)不确定答案:C解析:[单选题]23.以下几个选项中,可以通过哪种方式来选择参数或超参A)通过常识选择B)随机选择点来试验超参数效果C)选择输入的参数即可D)取离散参数的平均值答案:B解析:[单选题]24.在网络模型的构建中,关于dropout运行的描述正确的是哪个?A)dropout能增加新样本防止过拟合B)随机取消一些节点,只是用部分节点进行拟合运算,防止过拟合C)dropout进行归一化操作,防止过拟合D)dropout通过给损失函数增加惩罚项,防止过拟合答案:B解析:[单选题]25.词性标注最困难的是:()A)兼类词B)外来词C)新词D)未登录词答案:A解析:[单选题]26.关于信息熵说法正确的是A)信息熵是消除不确定性所需信息量的度量,也即未知事件可能含有的信息量。B)信息熵就是极大似然函数C)信息熵就是代价函数D)不确定答案:A解析:[单选题]27.关于贝叶斯判别规则,下列选项中描述正确的是?A)就是判断自变量和因变量之间的关系B)把特征向量X落入某类集群wi的条件概率平P(wi/X)当成分类判别函数,把X落入某集群的条件概率最大的类为X的分类这种判别规则叫贝叶斯判别规则C)不确定D)就是通过选择最优的超平面去进行最好的分类超平面答案:B解析:[单选题]28.概率图中的有向边表示的是什么A)表示单向的依赖B)表述互相依赖关系C)表示无依赖关系D)不确定答案:A解析:[单选题]29.目前情感分类的研究主要有基于情感词典的情感分析和基于()的情感分类方法。A)统计学习B)机器学习C)语料库D)模式匹配答案:B解析:[单选题]30.Relu在负半区求导之后值为多少A)0B)1C)2D)-1答案:A解析:[单选题]31.以下机器学习算法中,属于聚类算法的是A)K均值算法B)逻辑回归C)线性回归D)支持向量机答案:A解析:[单选题]32.下列关于不确定性知识描述错误的是()A)不确定性知识是不可以精确表示的B)专家知识通常属于不确定性知识C)不确定性知识是经过处理过的知识D)不确定性知识的事实与结论的关系不是简单的?是?或?不是?答案:C解析:[单选题]33.哪个激活函数用于表示GRU的?门?A)reluB)tanhC)LeakyReluD)sigmoid答案:D解析:[单选题]34.基于信息论的词义消歧方法的关键在于特征选择,为此可以采用①互信息②信息增益③决策树④最大熵等方法进行特征选择()A)①②B)③④C)①②③④D)②③④答案:C解析:[单选题]35.人工智能的模型在优化过程中,学习率LR会:A)保持不变B)持续减小C)持续增大D)不变答案:B解析:[单选题]36.下列四个选项中,哪个选项指的是mini-batchA)小批量梯度下降B)随机梯度下降C)批量梯度下降D)小批量损失计算答案:A解析:[单选题]37.以下几个模型中哪个模型在建模的时候与词的位置无关A)OpenAIGPTB)ELMoC)BERTD)ULMFit答案:C解析:BERTTransformer架构将句子中每个词和所有其他词之间的关系建模,以生成注意力分数。这些注意力分数随后被用作所有词表示的加权平均值的权重,它们被输入到完全连接的网络中以生成新的表示。[单选题]38.以下哪个技术支持双向的上下文A)Word2VecB)BERTC)GloVeD)以上所有答案:B解析:[单选题]39.马尔可夫模型分析的数据来源有A)RCT数据B)RWE数据C)文献数据D)其余选项皆对答案:D解析:[单选题]40.RNN可以将()的时间步进行关联处理A)先前B)之后C)丢失D)LSTM答案:A解析:[单选题]41.在执行了以下的文本清理步骤之后,可从下面的语句中生成多少三元组短语(trigram):停用词移除使用单一空格替换标点符号「#Analytics-vidhyaisagreatsourcetolearn@data_science.」A)3B)4C)5D)6答案:C解析:在执行了停用词移除和标点符号替换之后,文本变成:「Analyticsvidhyagreatsourcelearndatascience」,三元组短语--Analyticsvidhyagreat,vidhyagreatsource,greatsourcelearn,sourcelearndata,learndatascience[单选题]42.SVD在自然语言(NLP)中经常解决的问题A)对新词很轻松的分配词向量B)计算量随着预料和词典增长维度膨胀快C)与其他深度学习模型框架差异小D)同时也可以解决聚类的问题答案:B解析:[单选题]43.(1)关键词归一化(2)潜在语义索引(3)隐狄利克雷分布,这三项技术当中,哪些可以减小特征的维度A)只有(1)B)(2)、(3)C)(1)、(3)D)(1)、(2)、(3)答案:D解析:第2部分:多项选择题,共21题,每题至少两个正确答案,多选或少选均不得分。[多选题]44.寻找数据集中的关系是为了寻找精确、方便并且有价值地总结了数据的某一特征的表示,这个过程包括了以下哪些步骤?A)决定要使用的表示的特征和结构B)决定如何量化和比较不同表示拟合数据的好坏C)选择一个算法过程使评分函数最优D)决定用什么样的数据管理原则以高效地实现算法。答案:ABCD解析:[多选题]45.CBOW中最后一层(softmax)中可以怎么优化A)层次softmaxB)负例采样C)直接省略D)不确定答案:AB解析:[多选题]46.自然语言处理技术的应用有()A)机器翻译技术B)语音识别技术C)语音合成技术D)文本分析程序答案:ABCD解析:[多选题]47.语料库具备的显著特征有()A)语料库中存放的是真实出现过的语言材料B)语料库的内容是虚假文本C)语料库是以计算机为载体,承载语言知识的基础资源D)语料库是对真实语料进行加工、分析和处理的资源答案:ACD解析:[多选题]48.同样是做降维,LDA和PCA的相同点A)两者均可以对数据进行降维;B)两者在降维时均使用了矩阵特征分解的思想;C)有监督的降维方法;D)两者都假设数据符合高斯分布;答案:ABD解析:[多选题]49.问答系统流程由下列哪三个部分组成?()A)问题理解B)知识检索C)答案生成D)信息检索答案:ABC解析:三、填空题(4题)[多选题]50.以下四个选项中,属于无监督算法进行关键词抽取的有哪些A)TF-IDFB)TextRnnC)TextRankD)RNN答案:AC解析:[多选题]51.RNN一般用于如下哪些领域A)问答系统B)文本纠错C)命名实体识别D)文本摘要答案:ABCD解析:[多选题]52.对数据处理时,需要对数据进行切分,那么下列关于切分出的测试集描述正确的是?A)不管数据大小,始终保持30%作为测试集B)测试集和验证集不能共存C)在数据规模小时,可以保留30%测试集D)大数据时代,测试集不必占用数据集的30%,能够保证对模型的考核即可答案:CD解析:[多选题]53.seq2seq+Attention可以做下列哪些任务A)意图识别B)机器翻译C)文本摘要D)标题的提取答案:ABCD解析:[多选题]54.语言模型分为哪几类A)统计的语言模型B)机器学习的语言模型C)神经网络的语言模型D)不确定答案:AC解析:[多选题]55.关于TensorFlow中的语句,tf.variables_initializer以下描述正确的是A)初始化一个变量B)初始化多个变量C)初始化全部变量D)初始化常量答案:ABC解析:[多选题]56.经过Batch归一化的操作会产生相应的良性效果,那么为什么会该操作会产生作用A)通过归一化所有的输入特征值,以获得类似范围的值,加速学习B)将参数归一化可以减缓学习速率C)可以使权重比你的网络更滞后或更深D)可以使权重比你的网络更超前或更深答案:AC解析:[多选题]57.jieba分词支持()三种分词模式。A)精确模式B)全模式C)搜索引擎模式D)其他模式答案:ABC解析:[多选题]58.以下哪些是随机森林的特点:A)A:能够有效地运行在大数据集上B)B:能够处理具有高维特征的输入样本,而且不需要降维C)C:对于缺省值问题也能够获得很好得结果D)D:能够评估各个特征在分类问题上的重要性答案:ABCD解析:[多选题]59.K-NN和K-Means很相像,他们有什么具体的区别A)K-Means是聚类算法,KNN是分类算法。B)KNN需要标记点,因此是有监督的学习,而k-means不是,因此是无监督学习。C)K均值聚类仅需要一组未标记的点和阈值D)以上都正确答案:ABCD解析:[多选题]60.机器学习虽然是人工智能的实现方法,但是它里边会有什么样的缺点A)机器学习准确度不好B)手工特征耗时耗力,还不易拓展C)自动特征学习快,方便拓展D)机器学习无缺点答案:BC解析:[多选题]61.下列几个选项当中,有哪些是属于梯度下降的A)BGDB)SGDC)mini-batchD)dropout答案:ABC解析:[多选题]62.TensorFlow中一般包括哪些数据类型A)int32B)int64C)float32D)float64答案:ABCD解析:[多选题]63.以下四个伪代码中,哪个是pytorch的学习率调整方法A)lr_scheduler.StepLRB)lr_scheduler.MultiStepLRC)lr_scheduler.ExponentialLRD)lr_scheduler.CosineAnnealingLR答案:ABCD解析:[多选题]64.预处理单个特征的时候,通常有哪些操作A)归一化B)离散化C)缺失值处理D)数据变换答案:ABCD解析:第3部分:判断题,共26题,请判断题目是否正确。[判断题]65.中文文本分词主要分为基于词典的分词方法、基于统计的分词方法和基于规则的分词方法。对A)正确B)错误答案:对解析:[判断题]66.end-to-end是由输入端的数据直接得到输出端A)正确B)错误答案:对解析:[判断题]67.一般来说,自动分词需要一个词表,但是无法把所有的词都收进词表,那些在词表外的词就是?未登录词?。A)正确B)错误答案:对解析:[判断题]68.基于机器学习的情感分类的关键在于特征选择、特征权重量化、分类器模型这3个要素。对A)正确B)错误答案:对解析:[判断题]69.字符是一切文本处理中最基本的单位。中文文本里出现的一般是双字节的中文字符,有时也出现一些单字节字符。A)正确B)错误答案:对解析:[判断题]70.激活函数其实就是接了一个线性的变换A)正确B)错误答案:错解析:[判断题]71.降维算法,可以筛选出来更少的特征去做任务,有更好的效果A)正确B)错误答案:对解析:[判断题]72.词法分析中,通常用正确率、召回率、F值来评价系统的性能A)正确B)错误答案:对解析:[判断题]73.元字符由特殊符号组成,元字符的应用是正则表达式强大的原因。对A)正确B)错误答案:对解析:[判断题]74.朴素贝叶斯(NaiveBayesian)是经典的机器学习算法之一,也是为数不多的基于概率论的分类算法A)正确B)错误答案:对解析:[判断题]75.tanh函数与sigmoid函数向下平移和伸缩一致A)正确B)错误答案:对解析:[判断题]76.ReLU就不会有饱和倾向,不会有特别小的梯度出现A)正确B)错误答案:对解析:[判断题]77.文本的分布式表示是一种固定长度的稠密词向量。对A)正确B)错误答案:对解析:[判断题]78.提升隐层层数或者隐层神经元个数,神经网络?容量?会变大,空间表达力会变强。A)正确B)错误答案:对解析:[判断题]79.批量的大小(batch_size)选择的越大越好A)正确B)错误答案:错解析:[判断题]80.CNN在NLP中也有一些应用,比如textCNN做文本分类任务A)正确B)错误答案:对解析:[判断题]81.TF-IDF和FastText都可以提取关键词A)正确B)错误答案:错解析:[判断题]82.通常的语义角色标注分为三个步骤A)正确B)错误答案:错解析:[判断题]83.所谓句法学,就是研究句子结构成分之间的相互关系和组成句子序列的规则。()A)正确B)错误答案:对解析:[判断题]84.线性回归,逻辑回归,SVM输入前都需要做特征归一化A)正确B)错误答案:对解析:[判断题]85.随着状态序列长度T的增加,隐状态序列的个数成倍增长。A)正确B)错误

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论