自然语言处理题库附有答案

上传人：喝*** IP属地：广西上传时间：2024-07-08 格式：DOCX 页数：15 大小：35.91KB 积分：29.99 举报 版权申诉

已阅读5页，还剩10页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

自然语言处理题库[复制]1.1政府部门利用nlp技术分析人们对某一件事、政策法规或社会现象的评论，实时了解百姓的态度，这属于nlp研究内容的（）[单选题]*A信息检索B文本分类(正确答案)C信息过滤D自动过滤1.2.不属于nlp场景的是（）[单选题]*A百度翻译B图灵机器人C微信语音转文字D数据挖掘(正确答案)1.3中文nlp的基本流程由语料获取、（）、文本向量化、模型构建、模型训练和模型评价6部分组成。[单选题]*A预料处理(正确答案)B中文分词C去停用词D词性标注1.4在nlp虚拟环境中安装需要的程序包，并自动安装这个包的依赖项需要用到的是（[单选题]*A.pipinstallpackage_nameB.condainstallpackage_name(正确答案)C.condapackage_nameD.pippackag_name1.5不属于打开JupyterNotebook方式的是（）。[单选题]*A.直接在开始菜单栏中单击“Anaconda”下的“JupyterNotebook＇B.在AnacondaPrompt中输入“jupyternotebook”C.单击桌面上自动生成的JupyterNotebook图标(正确答案)D.首先打开某个文件夹，然后按住“Shift”键并单击鼠标右键，在菜单中单击“在此处打开Powershell窗口”命令，这时会弹出命令行窗口，接着输入“jupyternotebook”命令即可2.1语料库以语料库结构进行划分可分为（）。[单选题]*A.通用语料库与专用语料库B.平衡结构语料库与自然随机结构语料库(正确答案)C.共时语料库与历时语料库D.单媒体语料库与多媒体语料库2.2构建或研究语料库的时候，一般应考虑代表性、结构性、平衡性、（）个特性。[单选题]*A.规模性(正确答案)B.便捷性C.安全性D.高效性2.3NLTK的安装步骤为（[单选题]*A.安装NLP虚拟环境→安装NLTK→检查是否存在NLTK→下载NLTK数据包(正确答案)B.安装NLTK→安装NLP虚拟环境→检查是否存在NLTK→下载NLTK数据包C.安装NLP虚拟环境→安装NLTK→下载NLTK数据包→检查是否存在NLTKD.下载NLTK数据包→安装NLP虚拟环境→安装NLTK→检查是否存在NLTK2.4（）函数用于搜索搭配词语。[单选题]*A.concordanceB.common_contextsC.collocations(正确答案)D.Sorted2.5（）函数用于获取语料库中的文件。[单选题]*A.categorjiesB.rawC.open(fileid)D.fileids(正确答案)3.1.不属于常用的正则表达式函数的是（）。[单选题]*A.match函数B.search函数C.findall函数D.matplotlib函数(正确答案)3.2.＂re．sub（＇自然语言处理＇，＂NLP＂，text1）”表示的含义为（[单选题]*A.将testl中的“自然语言处理”替换为“NLP”(正确答案)B.将testl中的“NLP”替换为“自然语言处理”C．找出test1中的“自然语言处理”D．找出test1中的“NLP”3.3竖线“|”用于对两个正则表达式进行“或”操作。如果A和B是正则表达式，那表示为（)。[单选题]*A匹配A和B一起出现的字符B匹配A或B中出现的任何字符(正确答案)C.匹配A中出现的任何字符D.匹配B中出现的任何字符3.4美元货币符号“＄”表示匹配字符串的（位置。[单选题]*A.结束(正确答案)B.开始C.中间D.表示货币的字符串3.5下列Python中的预定义字符描述正确的是（）。[单选题]*A.＼w：与＼W反义，非数字、非字母和非字B.＼s：空白字符(正确答案)C.\D：数字D.＼d：非数字4.1不属于基于规则的分词方法的是（）。[单选题]*A.正向最大匹配法B.逆向最大匹配法C.反向最大匹配法(正确答案)D.双向最大匹配法4.2不属于未登录词的是（[单选题]*A.网络热门词语B.人名、地名和组织机构名C.化学试剂的名称D.经典文学作品(正确答案)4.3假设有语句序列｛小孩，喜欢，在家，观看，动画片｝，估计这一语句的概率为（B设语料库中总词数为6000，单词出现的次数如图4-6所示。[单选题]*A0.004584(正确答案)B.0.002223C.0.004558D.0.0065874.4适合高阶n-gram模型的平滑方法为（）。[单选题]*A．加1平滑B.古德-图灵平滑(正确答案)C.线性插值平滑D.均值平滑4.5不属于jieba分词步骤的是（）。[单选题]*A.基于前缀词典快速扫描词图，搭建可能的分词结果的有向无环图，构成多条分词路径。B.统计每个出现在词头的位置状态的次数，得到初始概率；统计每种位置状态转移至另一种状态的次数，得到转移概率。(正确答案)C.采用动态规划法寻找最大概率路径，从右往左反向计算最大概率，依此类推，得到概率最大的分词路径，作为最终的分词结果。D5.1下列关于jieba词性标注的流程错误的是（）。[单选题]*A.加载离线统计词典B.构建前缀词典C.构建无向无环图(正确答案)D.计算最大概率路径5.2不属于中文的实体边界识别变得更加有挑战性原因的是（）。[单选题]*A.中文词数量繁多(正确答案)B.中文词灵活多变C.中文词的嵌套情况复杂D.中文词存在简化表达现象5.3CRF模型思想主要来源于（）。[单选题]*A.无向图模型B.最大熵模型(正确答案)C.马尔可夫随机场D.统计方法5.4多分类问题中最经典的模型是（）。[单选题]*A.CRF模型B.聚类模型C.多项逻辑斯谛回归(正确答案)D.神经网络模型5.5下列关于特征函数的输出值是0或1的叙述正确的是（）。[单选题]*A．0表示要标注序列不符合这个特征，1表示要标注序列符合这个特征(正确答案)B．0表示要标注序列符合这个特征，1表示要标注序列不符合这个特征C．0和1都表示要标注序列符合这个特征D．0和1都表示要标注序列不符合这个特征6.1要求关键词提取算法应具有的性质不包括（[单选题]*A.可读性B.高速性C.简洁性(正确答案)D.健壮性6.2不属于关键词提取算法的是（[单选题]*A.TF-IDF算法B.TextRank算法C.主题模型算法D.关联算法(正确答案)6.3TF-IDF算法的主要思想是（）。[单选题]*A.字词的重要性随着它在文档中出现次数的增加而上升，随着它在语料库中出现频率的升高而下降(正确答案)B.字词的重要性随着它在文档中出现次数的增加而下降，随着它在语料库中出现频率的升高而下降C.字词的重要性随着它在文档中出现次数的增加而下降，随着它在语料库中出现频率的升高而上升D.字词的重要性随着它在文档中出现次数的增加而上升，随着它在语料库中出现频率的升高而上升6.4关于逆文档频率说法错误的是（）。[单选题]*A.逆文档频率是一个词出现在文档集中文档频次的统计量B.一个词在文档集中越少的文档中出现，说明这个词对文档的区分能力越强C.一个词在文档集中越少的文档中出现，说明这个词对文档的区分能力越弱(正确答案)D.逆文档频率统计量的计算公式为idf_{i}=\log\frac{\vertD\vert}{\vert\{j:t_{i}\ind_{j}\}\vert+1}6.5一篇文章在讲各式各样的水果及其功效，当“水果”这一关键词没有直接出现在文本中时，应该使用（[单选题]*A.TF-IDF算法B.TextRank算法C.主题模型算法(正确答案)D.PageRank算法7.1独热表示的缺点不包括（）。[单选题]*A.构造简单B维数过高C.不可以保留语义(正确答案)D.矩阵稀疏7.2Bow模型其中的一个缺点是)。[单选题]*A.可以保留语义B.维数低C.没有忽略文档的词语顺序D.矩阵稀疏(正确答案)7.3不属于分布式表示模型的是（)。[单选题]*A.分类模型(正确答案)B.LSA矩阵分解模型C.PLSA潜在语义分析概率模型D．Word2Vec模型7.4下列关于Word2Vec模型说法正确的是（）。[单选题]*A.得到的训练结果不能度量词与词之间的相似性B.当这个模型训练好以后，需要用这个训练好的模型处理新的任务C.真正需要的是这个模型通过训练数据所得的参数(正确答案)D.wWord2Vec模型其实就是简化的遗传算法模型7.5DM模型与CBOW模型的区别为（）。[单选题]*A.DM模型的输入包括上下文B.DM模型预测目标词出现的概率C.DM模型输入不仅包括上下文，而且还包括相应的段落(正确答案)D.CBOW模型输入包括上下文8.1不属于文本挖掘的基本技术分类的是（）。[单选题]*A.文本信息抽取B.文本分类C.文本聚类D文本数据挖掘(正确答案)8.2适用于样本容量较大的文本集合的文本分类算法是（)。[单选题]*A.朴素贝叶斯算法B.支持向量机算法C.神经网络算法D.K最近邻(正确答案)8.3决策树算法的缺点是（）。[单选题]*A.学习时间长，且效果不可保证.B.易出现过拟合，易忽略数据集属性的相关性(正确答案)C.时空复杂度高，样本容量较小或数据集偏斜时容易误分D.对非线性问题没有通用解决方案8.4于满足正态分布的样本数据来说效果会很好，但是过于依赖初始聚类中心的算法是基于（）的聚类算法。[单选题]*A.模型B.网格C.模糊(正确答案)D密度8.5属于特征提取方法的是（）。[单选题]*A.BOW模型(正确答案)B.数据标准化C.训练模型D.模型融合9.1情感分析的基础性工作是([单选题]*A.文本信息抽取B.文本的主客观分类C.情感分类(正确答案)D.情感极性判断9.2基于机器学的情感分类，关键在于特征选择、()、分类模型。[单选题]*A.标记词性B.特征提C.特征权重量化(正确答案)D.情感极性判断9.3不属于情感分析应用的是(又)。[单选题]*A.信息检索B.远程通信人(正确答案)C.机器翻译D.语音识别9.4情感分析技术的核心问题是(A[单选题]*A.情感分类(正确答案)B.“信息预测C舆情分析D.文本抽取9.5基于LDA主题模型的文本情感分析不包括[单选题]*A.文本转换(正确答案)B.主题提取和情感词提取C.主题情感摘要生成D.系统评测10.1NN适用于处理视频、语音、文本等与时序相关的问题，其常见的应用领域不包[单选题]*A.图像处理B.视频剪辑(正确答案)C.语音识别D.文本相似度计算10.2RNN经典结构的输入和输出的序列长度为（）。[单选题]*A.多对一B.一对多C.等长的多对等(正确答案)D.非等长的多对多10.3下列关于双向RNN结构说法正确的是（）。[单选题]*A.只考虑预测词前面的词，并没有考虑该词后面的内容B.不仅从前往后保留该词前面的词的信息，而且还从后往前保留该词后面的词的信息(正确答案)C.不是由两个RNN上下叠加在一起组成D.输出与隐藏层的状态无关10.4下列关于LSTM说法不正确的是([单选题]*A.通过改进使RNN具备避免梯度消失的特性B.LSTM只能够刻画出输人数据中的短距离的相关信息，不能够捕捉到具有较长时间间隔的依赖关系(正确答案)C.LSTM神经网络模型使用门结构实现了对序列数据中的遗忘与记忆D.使用大量的文本序列数据对LSTM模型训练后，可以捕捉到文本间的依赖关系，训练好的模型就可以根据指定的文本生成后序的内容10.5TensorFlow的特点不包括()。[单选题]*A高速性(正确答案)B性能最优化C.多语言性D可移植性11.1问答系统流程由问题理解、(0)、答案生成3个部分组成。[单选题]*A.词性标注C.问题分类B.关键词提取D.知识检索(正确答案)11.2关键词提取最简单、最直观的方法是()方法，用于识别定义类查

人人文库> 全部分类> 教育资料 > 考试试卷

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

自然语言处理题库附有答案

文档简介

温馨提示

最新文档

评论

相关文档