




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
试卷科目:人工智能自然语言技术练习人工智能自然语言技术练习(习题卷21)PAGE"pagenumber"pagenumber/SECTIONPAGES"numberofpages"numberofpages人工智能自然语言技术练习第1部分:单项选择题,共43题,每题只有一个正确答案,多选或少选均不得分。[单选题]1.关于支持向量机SVM,下列说法错误的是A)L2正则项,作用是最大化分类间隔,使得分类器拥有更强的泛化能力B)Hinge损失函数,作用是最小化经验分类错误C)分类间隔为1/||w||,||w||代表向量的模D)当参数C越小时,分类间隔越大,分类错误越多,趋于欠学习答案:C解析:[单选题]2.贝叶斯判别规则是什么A)就是判断自变量和因变量之间的关系B)把特征向量X落入某类集群wi的条件概率平P(wi/X)当成分类判别函数,把X落入某集群的条件概率最大的类为X的分类这种判别规则叫贝叶斯判别规则C)不确定D)就是通过选择最优的超平面去进行最好的分类超平面答案:B解析:[单选题]3.什么是逻辑回归,如何理解逻辑回归A)逻辑回归是用来做分类的算法,处理离散型的数据B)逻辑回归就是用来处理连续性数据的C)逻辑回归是用来做回归的D)逻辑回归是用来做房价预测的答案:A解析:[单选题]4.欠拟合是什么,怎么去理解欠拟合A)指的就是样本该学习到的特征没有学习到,导致了曲线拟合数据的时候,效果不好。B)指的肯定就是说,这条曲线,过分的去描述现有的数据特征了。C)指得就是说这个曲线能不能去很好的描述现有的数据。D)在训练集上的效果很好,但是在测试集上的效果很差答案:A解析:[单选题]5.交叉熵函数是常用的损失函数,它是通过度量两个什么分布的差异性A)概率B)矢量C)矩阵信息D)空间答案:A解析:[单选题]6.在机器学习算法中,正则化是为了A)防止欠拟合B)防止过拟合C)防止拟合D)其它都不对答案:B解析:[单选题]7.哪个激活函数运行效率最高?A)reluB)tanhC)sigmoidD)不能确定答案:A解析:[单选题]8.GBDT和随机森林都属于集成学习,因此他们有相似的地方,下列描述正确的是A)组成随机森林的树可以并行生成,而GBDT是串行生成B)随机森林的结果是多数表决表决的,而GBDT则是多棵树累加之和C)都是由多棵树组成,最终的结果都是由多棵树一起决定。D)随机森林对异常值不敏感,而GBDT对异常值比较敏感答案:C解析:[单选题]9.决策树有很多的优点,但是它也有缺点那么,构建决策树时有可能会造成什么缺点A)可能会对缺失值很敏感B)无法处理不相关的数据C)可能产生过渡匹配问题D)计算的复杂度很高答案:C解析:[单选题]10.预训练模型GPT的优点是什么A)引入了单向的Transformer效果得到提升B)使用双向的TransformerC)抛开了下文只用了上文信息D)使用了双向的LSTM做特征提取答案:A解析:[单选题]11.word2vec编码的向量时,为什么解决不了同义词问题A)编码成的向量中没有语义信息B)编码成的向量是比较稀疏的向量C)编码成的向量是维度非常大的向量D)它使用了唯一的词向量答案:D解析:[单选题]12.正则表达式的转义符是()A)\\B)\C);D)$$答案:A解析:[单选题]13.朴素贝叶斯分类的思想A)使用训练数据构造决策树进行分类B)利用先验知识层层迭代,穷举所有的可能C)利用贝叶斯定理,使用先验概率求后验概率D)相似的对象分到一类中答案:C解析:[单选题]14.什么是特征工程,如何去理解特征工程A)特征工程就是对原始的数据做一系列的处理B)特征工程就是使用各种算法实现结果C)特征工程就是聚类和降维D)特征工程就是回归和分类答案:A解析:[单选题]15.真正正确的占所有预测为正的比例,这个计算方式可以计算出来什么?A)精确率B)召回率C)F1D)ROC答案:A解析:[单选题]16.ELMO的输入句子中每个单词对应几个EmbeddingA)1B)2C)3D)4答案:C解析:[单选题]17.下列选项中关于Batch归一化的描述,描述错误的是哪个?A)使参数搜索问题变得容易B)使神经网络对超参数的选择更加稳定C)超参数的范围更加庞大D)仅作用于输入层答案:D解析:[单选题]18.设输入句子:?我爱人工智能?,通过自然语言处理产生输出:?我/爱/人工智能?。这个过程称为()。A)中文分词B)词性标注C)依存词法分析D)命名实体识别答案:A解析:[单选题]19.常用的激活函数relu,下列对该激活函数描述正确的是?A)引用了无效的单元格地址B)过滤无效神经元C)不是激发函数D)将正数保留,将负数置0答案:D解析:[单选题]20.以下哪个与卷积神经网络无关A)局部连接B)权值共享C)池化操作D)多层次结构答案:D解析:[单选题]21.激活函数的应用面非常广泛,以下四个选项中属于激活函数的是A)sigmoidB)L1C)L2D)MSE答案:A解析:[单选题]22.大概率事件怎么理解?如何理解大概率事件A)发生可能性不大的事件B)发生可能性大的事件C)发生可能性不去确定的事件D)以上都正确答案:B解析:[单选题]23.模型训练阶段,使用优化算法是为了在迭代的过程中实现怎么的效果A)增大损失值B)使学习率衰减C)降低损失值D)提升正则项范围答案:B解析:[单选题]24.适当的减少正则化的系数,可以预防什么情况A)防止过拟合B)防止欠拟合C)防止完美拟合D)不确定答案:B解析:[单选题]25.RNN和CNN下面说法正确的是A)RNN在处理长依赖序列问题的时候效果会比较好B)RNN属于卷积神经网络C)CNN在处理长序列问题会更好D)CNN又叫循环神经网络答案:A解析:[单选题]26.下列选项中不属于智能问答分类的是()。A)开放领域自动问答B)非特定领域自动问答C)特定领域自动问答D)常用问题集自动问答答案:B解析:[单选题]27.从20世纪()人工智能开始出现了A)50年代B)60年代C)70年代D)80年代答案:A解析:[单选题]28.检索模型和生成模型由不同的应用,下面选项包含检索模型和生成式模型例子是哪个?A)基于词典的学习和词向量模型B)基于规则的学习和序列到序列模型C)词向量和句子到向量模型D)循环神经网络和卷积神经网络答案:B解析:BERT使用token嵌入、段嵌入(SegmentEmbedding)、位置嵌入(PositionEmbedding)。[单选题]29.下列不是语料库的类型的是A)通用语料库B)生词语料库C)历史语料库D)单词语料库答案:C解析:[单选题]30.自然语言理解是人工智能的重要应用领域,下面列举中的()不是它要实现的目标。A)理解别人讲的话B)对自然语言表示的信息进行分析概括或编辑。C)自动程序设计D)机器翻译答案:C解析:[单选题]31.什么是正则表达式?()A)正确表达式B)程序员经常使用的编程语言表达式的集合C)一种排序算法D)用来匹配文本字符串(如特定字符、单词或字符模式)的一种工具答案:D解析:[单选题]32.Tanh的导数范围是多少?A)(0,1]B)(0,0.1]C)(0,-1]D)(0,10]答案:A解析:[单选题]33.在决策树的可视化中可以用以下哪个获取决策树叶子节点的个数A)plotTreeB)plotNodeC)getTreeDepthD)getNumLeafs答案:D解析:[单选题]34.下列说法中关于Batch归一化的描述,说法正确的是?A)批量归一化B)仅对输入数据进行归一化C)仅对隐藏层进行归一化D)提升了参数搜索难度答案:A解析:[单选题]35.sigmoid激活函数在反向传播是可能会造成梯度消失,那么以下哪个激活函数可以对其进行改进A)coshB)sinC)tanhD)sigmoid答案:C解析:[单选题]36.独热表示的缺点不包括()。A)构造简单B)维数过高C)可以保留语义D)矩阵稀疏答案:C解析:[单选题]37.确定性知识是指()知识。A)可以精确表示的B)正确的C)在大学中学到的知识D)能够解决问题的答案:A解析:[单选题]38.预训练模型的优势在哪里A)不用从零还是重新训练只需要微调B)需要重新在自己的数据上训练并且微调C)速度慢D)准确度相比较来说会比较低答案:A解析:[单选题]39.XGBoost中树上叶子节点的得分w的L2模平方,是怎么做的A)对w进行L2正则化B)对w进行L1正则化C)对w进行DropoutD)不确定答案:A解析:[单选题]40.下列不正确的是A)正则文法(3型)通常用于词法分析B)0型文法生成能力弱C)上下文有关文法(1型)的分析算法过于复杂,不便于实际应用D)上下文无关文法(2型)的规则体系便于构造,是研究得最多的一种文法答案:B解析:[单选题]41.数据平滑方法不包括A)laplace法则B)绝对折扣C)交叉检验D)决策树答案:D解析:[单选题]42.以下哪种情况会造成过拟合A)数据样本中的噪声太大B)模型复杂度太低C)模型过于简单D)数据特征太少答案:A解析:[单选题]43.汉语未登录词不包括哪一类()A)专有名词B)实体名词C)衍生词D)特殊名词答案:D解析:第2部分:多项选择题,共23题,每题至少两个正确答案,多选或少选均不得分。[多选题]44.以下4个例子中,你认为哪个是无监督学习算法A)将邮件标记为垃圾邮件和非垃圾邮件,垃圾邮件过滤器B)在网上找一组新闻文章,把这些文章聚类为同一故事C)根据客户数据的数据库,自动发现市场细分市场,并将客户分成不同的细分市场D)考虑到被诊断为患有糖尿病或没有糖尿病的患者的数据集,学会将新患者分类为有无糖尿病答案:BC解析:[多选题]45.bagofword和one-hot的共同点是什么A)编码成的向量稀疏B)都不包含语义信息C)容易造成维度爆炸D)简单快速答案:ABCD解析:[多选题]46.以下属于NLP的是哪些?A)文档分类B)信息抽取C)舆情分析D)信息检索答案:ABCD解析:[多选题]47.以下关于机器学习K-mean聚类描述正确的是?A)A:同一族尽可能相似B)B:不同簇尽可能相异C)C:同一簇尽可能相异D)D:不同簇尽可能相似答案:AB解析:[多选题]48.以下关于概率图模型的表述正确的是A)有向图:贝叶斯网络B)有向图:马尔可夫随机场C)无向图:贝叶斯网络D)无向图:马尔可夫随机场答案:AD解析:[多选题]49.关于动量梯度下降是由哪些因素控制的?A)平均值B)指数加权平均值C)学习率D)方差答案:BC解析:[多选题]50.自然语言的应用都有哪些A)机器翻译B)文本摘要C)文本分类D)多轮会话机器人答案:ABCD解析:[多选题]51.以下哪两项对sigmoid函数的描述是准确的A)概率平均B)能解决非线性分类问题C)将负的权值映射到正值D)将正权值映射到负数答案:BC解析:[多选题]52.词袋子模型的优缺点A)简单方便快速B)在语料充足的前提下,对于简单自然语言处理任务效果不错C)准确率较低D)无法关注词语间的顺序答案:ABCD解析:[多选题]53.模型评估方法有哪些?A)Holdout检验B)不确定C)自助法D)交叉检验答案:ACD解析:[多选题]54.在聚类算法中,当数据缺失时怎么处理A)把缺失值用一个数值,例如0表示B)均值,中值,分位数、众数,随机数,上下数据填充,插值法;C)用算法拟合进行填充;D)以上都正确答案:ABCD解析:[多选题]55.语料库的用途有()A)用于语言研究B)用于编纂工具参考书籍C)用于语言教学D)用于NLP答案:ABCD解析:[多选题]56.情感分析常用方法有()A)基于情感词典的方法B)基于文本分类的方法C)基于LDA模型的方法D)基于语料库的方法答案:ABC解析:[多选题]57.逻辑回归有哪些可以优化的方法A)梯度下降B)随机梯度下降C)mini随机梯度下降D)以上都正确答案:ABCD解析:[多选题]58.在代价函数上加入一个正则项,我们可以使用以下哪种A)L1B)L2C)余弦公式D)正弦公式答案:AB解析:[多选题]59.文本向量化的两种表示方法是。()A)独热编码B)Z-ScoreC)归一化D)词嵌入答案:AD解析:[多选题]60.SVM如何处理多分类问题?A)直接法,直接在目标函数上修改,将多个分类面的参数求解合并到一个最优化问题里面。看似简单但是计算量却非常的大。B)间接法:对训练器进行组合。其中比较典型的有一对一,和一对多。C)不确定D)以上都正确答案:AB解析:[多选题]61.文本挖掘常见应用场景有()A)Web文档自动分类B)情感分析C)信息检索D)关键词提取答案:ABC解析:[多选题]62.生成式模型相比判别式模型有什么优点?A)适用较多类别的识别B)能更充分利用先验知识C)分类边界更灵活D)研究单类问题灵活性强答案:BD解析:[多选题]63.使用决策树去做预测需要以下哪些步骤A)收集数据B)分析数据C)训练算法D)测试算法答案:ABCD解析:[多选题]64.对数据预处理阶段,需要对样本进行切分,那么下列关于其中的测试集描述正确的是?A)在数据规模小时,可以保留30%测试集B)大数据时代,测试集不必占用数据集的30%,能够保证对模型的考核即可C)不管数据大小,始终保持30%作为测试集D)测试集和验证集不能共存答案:AB解析:第3部分:判断题,共24题,请判断题目是否正确。[判断题]65.相比sigmoid函数,relu更容易发生梯度消失现象A)正确B)错误答案:错解析:[判断题]66.一篇文章在讲各式各样的水果及其功效,当?水果?这一关键词没有直接出现在文本中时,应该使用主题模型算法提取关键词。对A)正确B)错误答案:对解析:[判断题]67.基于知识工程的分类方法,指通过计算机自主学习、提取规则进行的分类。错A)正确B)错误答案:错解析:[判断题]68.中文词性标注相比与英文词性标注有一定的难度,这是因为中文不像英文可以通过词的形态变化判断词的词性。对A)正确B)错误答案:对解析:[判断题]69.textCNN和textRNN都属于深度学习的文本分类模型A)正确B)错误答案:对解析:[判断题]70.GMM-HMM模型中,GMM主要用于求某一因素的概率,HMM主要用于对每个文本-语音对建模。A)正确B)错误答案:对解析:[判断题]71.Word2vec最常解决的问题就是一词多意问题A)正确B)错误答案:错解析:[判断题]72.语料库语言学是基于语料库进行的语言学研究A)正确B)错误答案:对解析:[判断题]73.汉字的外码只是研制汉字输入系统时要考虑的问题,跟文本的自动分析没有关系。A)正确B)错误答案:对解析:[判断题]74.问答系统的两个主要难题就是问题的理解和问句与答案之间的匹配关系。对A)正确B)错误答案:对解析:[判断题]75.LDA和PCA都可以做降维操作A)正确B)错误答案:对解析:[判断题]76.RNN的多对一结构通常用于处理序列分类问题。对A)正确B)错误答案:对解析:[判断题]77.神经网络中的大多数参数是随机初始化的A)正确B)错误答案:对解析:[判断题]78.正则表达式的?\d?用于匹配一个字母或者数字A)正确B)错误答案:错解析:[判断题]79.EM算法中要先求解最大化,然后求最大期望A)正确B)错误答案:错解析:[判断题]80.CNN网络只适用于计算机视觉,而不适用于自然语言A)正确B)错误答案:错解析:[判断题]81.基于深度学习的命名实体识别是目前研究与应用的主流方法。对A)正确B)错误答案:对解析:[判断题]82.sigmoid相比较于relu激活函数,速度要快,效果要好A)正确B)错误答案:错解析:[判断题]83.LDA模型是应用比较广泛的一种主题模型,包含词、主题2层结构。错A)正确B)错误答案:错解析:[判断题]84.可以把数据集分割为子集训练,这些子集被取名为mini-batchA)正确B)错误答案:对解析:[判断题]85.语料库的实质是经过科学取样和加工的大规模电子文本库。对A)正确B)错误答案:对解析:[判断题]86.BOW模型不考虑词语的顺序,所以得到的向量不会保存原始句子中词的顺序。对A)正确B)错误答案:对解析:[判断题]87.在应用领域中,不会根据量而划分是否是语料库A)正确B)错误答案:对解析:[判断题]88.Doc2Vec模型与Word2Vec模型类似,只是在Word2Vec模型输入层增添了一个与词向量同维度的段落向量.对A)正确B)错误答案:对解析:第4部分:问答题,共10题,请在空白处填写正确
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 矿产勘查市场分析考核试卷
- 幼儿园防寒防冻安全教育
- 2025尊贵合作伙伴专属商务咨询服务合同
- 2025劳动合同书样本
- 《春晓》小学二年级语文课件
- 2025解除授权合同范文
- 水厂安全生产培训大纲
- 幼儿园家长性教育课堂
- 小学生技能培养课程
- 少儿创意美术:重彩棒坦克绘画课程
- 2025年辽宁省大连市甘井子区中考一模语文试题(原卷版)
- 《关于强化危险化学品“一件事”全链条安全管理的措施》学习解读
- 【2025新教材】教科版一年级科学下册全册教案【含反思】
- 2025年由民政局策划的离婚协议官方文本模板
- 高血压科普健康宣教课件
- 班级安全员信息员培训
- 科技领域实验室质量控制关键技术与方法
- 商场运营部的培训
- 四年级 人教版 数学《小数的意义》课件
- 《糖尿病与肥胖》课件
- 医疗纠纷防范与医患沟通
评论
0/150
提交评论