题库NLP精华面试专题介绍及解析_第1页
题库NLP精华面试专题介绍及解析_第2页
题库NLP精华面试专题介绍及解析_第3页
题库NLP精华面试专题介绍及解析_第4页
题库NLP精华面试专题介绍及解析_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

为什么要进行文本表示?1、 根本原因是计算机不方便直接对文本字符串进行处理,因此需要进行数值化或向量化。2、 便于机器学习算法处理。不仅传统的机器学习算法需要这个过程,深度学习也需要这个过程。3良好的文本表示形式可以极大的提高算法的效果。文本表示方法分类有哪些?离散表示•one-hot表示•multi-hot表示分布式表示(一)基于矩阵•基于降维的方法•基于聚类的方法(二)基于神经网络•CBOW•Skip-gram•NNLM•C&W词袋模型的优缺点是什么?与one-hot的关系?词袋模型的优点:•简单,方便,快捷•在语料充足的情况下,对于简单的自然语言处理任务效果不错。如文本分类。词袋模型的缺点:•其准确率往往比较低。凡是出现在文本中的词一视同仁,不能体现不同词在一句话中重要性的不同。•无法关注词语之间的顺序关系,这是词袋模型最大的缺点。如“武松打老虎”跟“老虎打武松”在词袋模型中被认为是一样的。关系:词袋模型用于文本表示,将文本表示为向量。如果对文本进行分词,如果文本中的每个词用one-hot形式表示,然后把每个词的one-hot向量相加,得到的向量就是该文本基于词袋模型的向量表示。TF-IDF的应用与优缺点如何?除了自动提取关键词之外,TF-IDF算法还可以用于许多别的地方。比如,信息检索时,对于每个文档,都可以分别计算一组搜索词("中国","蜜蜂","养殖")的TF-IDF,将它们相加,就可以得到整个文档的TF-IDF。这个值最高的文档就是与搜索词最相关的文档。TF-IDF算法的优点是简单快速,结果比较符合实际情况。缺点是,单纯以“词频"衡量一个词的重要性,不够全面,有时重要的词可能出现的次数并不多。而且,这种算法无法体现词的位置信息,出现位置靠前或靠后的词,都被视为同等重要,这是不正确的(一种解决方案是,对全文第一段和每一段的第一句话有时还包括最后一段,给予较大的权重).TF-IDF与TextRank1.tf-idf中计算idf值需要依赖于语料库,这给他带来了统计上的优势,即它能够预先知道一个词的重要程度。这是它优于textrank的地方.而textrank只依赖文章本身,它认为一开始每个词的重要程度是一样的•2.tf-idf是纯粹用词频的思想(无论是tf还是idf都是)来计算一个词的得分,最终来提取关键词,完全没有用到词之间的关联性•而textrank用到了词之间的关联性(将相邻的词链接起来),这是其优于tf-idf的地方.综上,TF-IDF和TextRank各有优劣,在实际使用中效果差异不大,可以同时使用互相参考。基于TextRank提取关键词的主要步骤?(1)把给定的文本T按照完整句子进行分割;(2)对于每个句子,进行分词和词性标注处理,并过滤掉停用词,只保留指定词性的单词,如名词、动词、形容词等。这些词形成候选关键词;(3)构建候选关键词图G=(V,E),其中V为节点集,由(2)生成的候选关键词组成,然后采用共现关系(co-occurrenee)构造任两点之间的边,两个节点之间存在边仅当它们对应的词汇在长度为K的窗口中共现;根据PageRank原理中的衡量重要性的公式,初始化各节点的权重,然后迭代计算各节点的权重,直至收敛;对节点权重进行倒序排序,从而得到最重要的T个单词,作为候选关键词;由(5)得到最重要的T个单词,在原始文本中进行标记,若形成相邻词组,则组合成多词关键词。例如,文本中有句子“Matlabcodeforplottingambiguityfunction”,如果“Matlab”禾和“code”均属于候选关键词,则组合成“Matlabcode”加入关键词序列。TextCNN原理CNN的核心点在于可以捕获信息的局部相关性,具体到文本分类任务中可以利用CNN来提取句子中类似N-Gram的关键信息。—维卷积:使用不同尺寸的kernel_size来模拟语言模型中的N-Gram,提取句子中的信息。即TextCNN中的卷积用的是一维卷积,通过不同kernel_size的滤波器获取不同宽度的视野。词向量:static的方式采用预训练的词向量,训练过程不更新词向量,本质就是迁移学习,主要用于数据量比较小的情况。not-static的方式是在训练过程中更新词向量。推荐的方式是not-static的fine-tunning方式,它是以预训练的词向量进行初始化,训练过程中调整词向量。在工程实践中,通常使用字嵌入的方式也能得到非常不错的效果,这样就避免了中文分词。最大池化:TextCNN中的池化保留的是Top-1最大信息,但是可能保留Top-K最大信息更有意义。比如,在情感分析场景中,“我觉得这个地方景色还不错,但是人也实在太多了”,这句话前半部分表达的情感是正向的,后半部分表达的情感是负向的,显然保留Top-K最大信息能够很好的捕获这类信息。TextRNN原理TextCNN擅长捕获更短的序列信息,但是TextRNN擅长捕获更长的序列信息。具体到文本分类任务中,BiLSTM从某种意义上可以理解为可以捕获变长且双向的N-Gram信息。将CNN和RNN用在文本分类中都能取得显著的效果,但是有一个不错的地方就是可解释性不好,特别是去分析错误案例的时候,而注意力机制[Attention]能够很好的给出每个词对结果的贡献程度,已经成为Seq2Seq模型的标配,实际上文本分类也可以理解为一种特殊的Seq2Seq模型。因此,注意力机制的引入,可以在某种程度上提高深度学习文本分类模型的可解释性。马尔科夫模型有什么用?我们知道两个状态之间的转移概率是很容易计算出来的,但是一连串的状态出现的概率却没那么容易计算。于是,我们可以先通过计算两两状态之间的转移概率构造出一个马尔科夫链,然后再通过马尔科夫链去计算一连串状态出现的概率(AMarkovchainisusefulwhenweneedtocomputeaprobabilityforasequenceofeventsthatwecanobserveintheworld・)这句话的重点是如何计算一连串状态出现的概率。隐马尔科夫模型的三个基本问题是什么?可以用什么方式解决?(1)给定模型,如何有效计算产生观测序列的概率?换言之,如何评估模型与观测序列之间的匹配程度?⑵给定模型和观测序列,如何找到与此观测序列最匹配的状态序列?换言之,如何根据观测序列推断出隐藏的模型状态?(3)给定观测序列,如何调整模型参数使得该序列出现的概率最大?换言之,如何训练模型使其能最好地描述观测数据?前两个问题模式识别的问题:1)根据隐马尔科夫模型得到一个可观察状态序列的概率;2)找到一个隐藏状态的序列使得这个序列产生一个可观察状态序列的概率最大。第三个问题就是根据一个可以观察到的状态序列集产生一个隐马尔科夫模型。上述为题在现实应用中非常重要。例如许多任务需根据以往的观测序列来推测当前时刻最有可能的观测值,这显然可转化为求取概率,即上述第一个问题。在语音识别等任务中,观测值为语音信号,隐藏的状态为文字,目标就是根据观测信号来推断最优可能的状态序列(即对应的文字),即上述第二个问题。在大多数现实应用中,人工指定的模型参数已变得越来越不可用,如何根据训练样本学得最优的模型参数,恰是上述第三个问题。对应的三大问题解法:1•向前算法(ForwardAlgorithm)、向后算法(BackwardAlgorithm)2.维特比算法(V

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论