自然语言处理理论与实践 课件 第3-5章 语言模型与向量表示、语言分析技术、机器翻译_第1页
自然语言处理理论与实践 课件 第3-5章 语言模型与向量表示、语言分析技术、机器翻译_第2页
自然语言处理理论与实践 课件 第3-5章 语言模型与向量表示、语言分析技术、机器翻译_第3页
自然语言处理理论与实践 课件 第3-5章 语言模型与向量表示、语言分析技术、机器翻译_第4页
自然语言处理理论与实践 课件 第3-5章 语言模型与向量表示、语言分析技术、机器翻译_第5页
已阅读5页,还剩108页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

语言模型与向量表示自然语言处理:理论与实践向量表示语言模型目录语言模型概述统计语言模型n-gram模型n-gram模型神经网络语言模型-1Bengio团队提出前馈神经网络语言模型(FeedforwardNeuralNetworkLanguageModel,FNNLM)有效缓解数据稀疏问题神经网络语言模型-2基于循环神经网络(RecurrentNeuralNetwork,RNN)的语言模型x为输入层,h为带有循环的隐含层,y为输出层解决了n-gram语言模型有限历史的问题但序列长度增加容易梯度消失和梯度爆炸,增加模型训练的难度

神经网络语言模型-3长短时记忆网络(LongShortTermMemroy,LSTM)

语言模型及其变种门控结构(gate)(下图直线箭头部分):向单元状态添加或删除信息的能力,由一层以Sigmoid为激活函数的网络层和一个逐元素相乘操作构成(右图)遗忘门、输入门、输出门神经网络语言模型-4基于注意力(Attention)的语言模型计算字符串中词语之间的注意力权重,有效避免循环神经网络中随着距离变长导致信息传递步骤增多的缺陷,并解决梯度消失和梯度爆炸等问题向量表示语言模型目录向量表示把词语等语言单位表示成向量,转换为机器可以理解的方式符号化的离散表示One-HotRepresentation是最常用的离散表示用一个很长的向量来表示一个词,向量的长度为词典的大小,向量中只有一个1,其他位置全为0。1的位置对应该词在词典中的位置。示例:给我一个话筒,替换身上的麦克。V={给,我,一个,话筒,替换,身上,的,麦克}(V=8)给:[1

0

0

0

0

0

0

0]我:[01

0

0

0

0

0

0]一个:[00

1

0

0

0

0

0]……离散表示的局限语义鸿沟忽略了词语间的语义信息,无法解决“多词一义”问题维数灾难当词汇表的规模特别大,每个词就表示成十几万维的高维且稀疏的词汇向量嵌入式的连续表示分布式表示(distributedrepresentation)最常用将语言的潜在语法或语义特征分散式地存储在一组神经元中,可以用稠密、低维、连续的向量来表示词向量WordEmbedding:将词语映射到一个新的空间中,并以多维的连续实数向量进行表示词向量构造方法基于全局统计信息的方法利用统计方法处理语料,将语料数据建模为蕴含语义特征的词-上下文的共现信息,借助数学方法学习词向量,自动学习词的特征表示如词袋模型、LSA、GloVe

基于预测任务的构造方法将语料建模为窗口形式,依据实际预测任务设定学习目标,在优化过程中学习词向量利用外部信息的构造方法使用人类已经抽象好的语义关系约束语料建模和特征学习过程

word2vecGoogle于2013年发布本质上是只具有一个隐含层的神经元网络。输入是采用One-hot编码的词汇表向量,输出也是One-Hot编码的词汇表向量。word2vecWord2vec具有两种训练模型CBOW模型主要通过目标词语的上下文词语预测目标词语。Skip-gram模型则利用当前目标词语预测上下文词语。向量表示评价内部评价IntrinsicEvaluation

评价向量自身的分布是否合理等词语相似性(wordsimilarity)测试词语类比(wordanalogy)测试外部评价ExtrinsicEvaluation

衡量词向量在各类下游任务中作为特征向量对任务性能的影响常见的下游任务包括命名实体识别,语义角色标注,词性标注,情感分析等。参考文献(部分)YBengio,RDucharme,PVincent,etal.Aneuralprobabilisticlanguagemodel[J].JournalofMachineLearningResearch,2003,3:1137-1155.MikolovT,KombrinkS,BurgetL,etal.Extensionsofrecurrentneuralnetworklanguagemodel[C]//ProceedingsofInternationalConferenceonAcoustics,Speech,andSignalProcessing,2011:5528-5531.

MikolovT,ZweigG.Contextdependentrecurrentneuralnetworklanguagemodel[C]//ProceedingsofSpokenLanguageTechnologyWorkshop,2012:234-239.M.Sundermeyer,R.Schluter,H.Ney.LSTMneuralnetworksforlanguagemodeling.InINTERSPEECH,pages194–197,2012.GSalton,RRoss,JKelleher.AttentiveLanguageModels.ProceedingsoftheEighthInternationalJointConferenceonNaturalLanguageProcessing.2017,441-450.JDevlin,MChang,KLee,andKToutanova.BERT:pre-trainingofdeepbidirectionaltransformersforlanguageunderstanding[C]//ProceedingsofNAACL-HLT,2019,4171–4186思考题什么是语言模型?语言模型的作用是什么?如何理解N-gram语言模型?常见的神经网络语言模型有哪些?利用已有工具和资源,训练一种预训练语言模型。向量表示的方法有哪些?向量表示的优势有哪些?利用程序实现word2vec中的CBOW算法。利用神经网络模型实现命名实体识别任务,并将其作为外部评价任务来评价向量表示的质量。第四章语言分析技术人工智能导论中文分词依存句法分析语义角色标注引言参考文献目录自然语言具有歧义性和非规范性的显著特点,同时也随着时代和社会的进步,现有的自然语言处理文本也表现出了非常强的动态演化特性。比如:大量新词涌现、命名实体类的专有名词更新频繁,用户个性化需求多样化直接导致了NLP的应用场景复杂,表现为自然语言处理系统不得不面对越来越复杂的语言现象。几乎所有的NLP技术目前面临着更新的挑战,对其性能的评价也都被提出了更高的要求,值得大家重新审视和关注。引言引言自然语言处理离不开对语言知识的分析,自然语言的理解和推理能力往往也取决甚至依赖于不同程度(词法分析、句法分析、浅层语义分析、深层语义分析)的语言分析水平。为了更好地理解语言分析流程,本章将依据传统的自然语言处理范式,将分别在词汇、句子(短语)和语义层面进行常见的主要分析技术与方法的介绍,包括基于深度学习技术的语言分析方法。图

4-1语言分析处理流程中文分词依存句法分析语义角色标注引言参考文献目录基本问题经典分词算法中文分词实践概述目录—中文分词概述中文分词是将自然语言文本转换为单词序列的过程,是中文信息处理的基础性技术之一。自然语言处理的底层任务可以按照处理层次的不同,分为词法分析、句法分析和语义分析,其中中文分词往往是词法分析的第一步,自动分词的准确率会直接影响到下游任务的实现效果。在具体研究方面,中文分词的思路主要有三种:基于词典与规则的方法、基于传统机器学习的方法和基于深度神经网络模型的方法。中文分词的思路基于词典的方法需要维护一个尽可能全面的电子词典,也就是说尽可能构建一个收录词汇多的词典,然后在该词典的基础上结合给定的规则对中文字符串进行切分。基于统计机器学习的方法是将中文分词当作序列标注来处理,序列标注问题是给定一个输入序列,为序列中每个基本元素输出一个正确的标签。基于深度学习的中文分词方法是近年来中文分词研究领域的主流方法,此类方法实现了端到端的分词,不需要任何特征设计。但是相比于传统的分词方法,该类方法在分词精度方面存在不足,神经网络的训练和预测效率都比较低,实用系统鲁棒性较差。基本问题经典分词算法中文分词实践概述目录—中文分词词规范问题是指对文本中每个中文词语的边界有一个清晰的界定,看似很容易解决,但在中文分词的发展初期,这个基础性问题却成了第一个拦路虎。虽然我国出台了相关的分词规范国家标准,但在具体操作上这个规范的主观性比较强,究竟哪些组合算作一个词,不同的研究者在不同的应用场景切分可能不尽相同。基本问题——分词规范基本问题——歧义切分歧义切分问题主要包括真歧义、组合型歧义和交集型歧义三种,真歧义是指句子本身确实带有歧义。人工也无法直接判断如何分词,需要结合上下文语境具体分析。组合型歧义是指某些字的组合在一些语境下需要被切分成单独的字,但是在另外一些语境下又不能被切分,只有看作一个完整的词才有意义。交集型歧义是指某个字和其前后相邻的字存在多种不同的组词情况,从词典角度来看,每种切分都是正确的,此时必须结合具体语境进行分析才能给出正确的结论。基本问题——歧义切分所谓未登录词一般是在词典中不存在的词。随着社会进步与发展,有一些新词新出现或旧词新用,有时也当作未登录词来处理。在实际使用中,二者并没有明显的区别。未登录词可以大概分为以下几类:新出现的普通词汇;专有名词实体;专业名词和研究领域名称;其他专名实体等。基本问题——未登录词识别基本问题经典分词算法中文分词实践概述目录—中文分词基于词典和规则的分词算法正向最大匹配法:所谓正向是指从左到右扫描需要切分的字符串。逆向最大匹配法:与正向最大匹配相反,逆向最大匹配法是指从右到左扫描待切分的字符串双向匹配法:将正向最大匹配算法和逆向最大匹配算法进行比较,从而确定正确的分词方法。基于词典的分词方法奠定了中文分词研究的基础,方法简单易实现,但其分词效果严重依赖词典的完善性,面对词典中未出现的词语,准确性会大大降低,同时歧义字符串的消解能力也比较弱。基于统计机器学习的分词方法将中文分词任务视为序列标注问题,在给定输入序列的情况下,为序列中每个基本元素输出一个正确的标签。2003年Xue[1]等人提出基于最大熵的中文分词系统,将中文分词看作是与词性标注相同的问题,其本质属于基于字的序列标注问题,因此后续的改进基本都集中在使用更有效的序列标注算法。代表模型有隐马尔科夫模型、最大熵马尔科夫模型、条件随机场等。基于统计机器学习的分词算法分词算法——基于统计机器学习的分词

隐马尔可夫模型

分词算法——基于统计机器学习的分词

最大熵隐马尔科夫模型最大熵隐马尔科夫模型不关注隐藏序列如何产生观测序列,而是在已知一条输入序列的情况下去寻找一条充分符合特征的标签序列。与隐马尔科夫模型相比,最大熵马尔科夫模型引入了特征函数,增加了更大范围内的上下文特征,拓大了特征选择的范围,但由于最大熵马尔科夫模型使用局部归一化的方法,非常容易陷入局部最优解,最终会出现标签偏置问题。因此引入了全局特征的条件随机场会更合适[2]。分词算法——基于统计机器学习的分词

条件随机场条件随机场与最大熵马尔科夫模型都属于判别模型,并且都做了一阶马尔科夫假设,不同的是条件随机场把观测序列当作是一个整体,使特征函数变成了全局化的特征函数。基于条件随机场的分词模型,通过最大化序列标签的极大似然函数优化条件随机场的权重,并且针对不同参数动态调整学习率,最终模型在多个领域内的中文分词数据集上都取得了很好的效果。2013年,基于神经网络的中文分词方法被首次提出[3],验证了深度学习在中文分词任务上的可行性,是神经网络在中文分词领域的开山之作,模型结构如图所示基于深度学习的分词算法2015年,Chen等人[4]提出一种带有门结构的循环神经网络(gatedrecurrentneuralnetwork,GRNN),对中文分词中的n-gram特征进行建模。同年,基于长短期记忆单元(longshort-termmemory,LSTM)的循环神经网络也被应用于中文分词任务中。分词算法——基于深度学习的分词2018年Bert[5]的出现刷新了自然语言处理的多项榜单,Huang等人[6]在2019年提出在中文分词任务中引入Bert做多标准分词下的特征抽取,多标准指相同的语句在不同任务场景下可能会有不同的分词结果,因此在Transformer上为每个分词数据集都构建了一个参数集,再增加一个共享参数集获取共性信息,最后通过条件随机场得到全局最优规划,该模型在10个中文分词数据集上都取得了最好的分数。分词算法——基于深度学习的分词基本问题经典分词算法中文分词实践概述目录—中文分词Jieba分词因分词领域广且速度快两大特点被广泛应用,其基本原理是先构造一个前缀词典,这个词典包含三列,分别是词、词频和词性;然后使用前缀词典对输入文本进行切分,根据得到的切分结果构造一个有向无环图;再使用动态规划算法计算最大概率路径,得到最终的切分结果。实验一的语料来自2019年5月习总书记在第三届世界智能大会的贺信。实验一:基于jieba分词的中文分词实践生成的词云如图所示,可以发现,贺信中人工智能、世界、发展、科技等词占了较大的比重,出现次数更多一些。实验一:基于jieba分词的中文分词实践实验代码参看教程材P72实验二使用基于文献[5]的pkuseg工具包,具有多领域分词、分词准确率更高、支持用户自训练模型等特点。实验二语料来自戴琼海院士出席2020年全球人工智能大会的主旨报告。实验二:基于pkuseg的中文分词实践生成的词云如图所示,其中人工智能、研究、计算、算力、认知等词出现次数比较多,词频更高。实验二:基于pkuseg的中文分词实践实验代码参看教材P75参考文献XueN,ShenL.ChinesewordsegmentationasLMRtagging[C]in:ProceedingsofthesecondSIGHANworkshoponChineselanguageprocessing-Volume17.Sapporo,Japan:AssociationforComputationalLinguistics,2003:176-179.TianY,SongY,XiaF,etal.ImprovingChineseWordSegmentationwithWordhoodMemoryNetworks[C]//Proceedingsofthe58thAnnualMeetingoftheAssociationforComputationalLinguistics.2020:8274-8285.ZHENGX,CHENH,XUT.DeepLearningforChineseWordSegmentationandPOSTagging[C]//Proceedingsofthe2013ConferenceonEmpiricalMethodsinNaturalLanguageProcessing.Seattle,Washington,USA:AssociationforComputationalLinguistics,2013:647–657.CHENX,QIUX,ZHUC,etal.GatedRecursiveNeuralNetworkforChineseWordSegmentation[C]//Proceedingsofthe53rdAnnualMeetingoftheAssociationforComputationalLinguisticsandthe7thInternationalJointConferenceonNaturalLanguageProcessing.Beijing,China:AssociationforComputationalLinguistics,2015:1744–1753.DevlinJ,ChangMW,LeeK,etal.BERT:Pre-trainingofDeepBidirectionalTransformersforLanguageUnderstanding[J].2018.HuangW,ChengX,ChenK,etal.TowardFastandAccurateNeuralChineseWordSegmentationwithMulti-CriteriaLearning[J].2019.中文分词依存句法分析语义角色标注引言参考文献目录常用的依存句法分析方法依存句法分析性能评价指标依存句法分析实践概述目录—依存句法分析常用依存句法分析工具依存句法分析VS成分句法分析依存句法分析(DependencyParsing)与成分句法分析(ConstituentSyntacticParsing)都是目前主流的句法分析方法。相比成分句法分析,依存句法分析以词为分析单元,使用词和词之间的依存关系来描述语言结构,避免了成分句法分析中的中间语法成分,因此其表现形式更简洁。依存句法的四条公理(1)一个句子中只有一个独立成分,即核心成分,它不依赖于其他任何成分;(2)句子的其他成分都必须依存于某一成分;(3)任何一个成分都不能依存于两个或两个以上的其他成分;(4)如果成分A依存于成分B,成分C位于成分A和成分B之间,那么成分C依存于成分A或成分B,或者依存于成分A和B之间的某一成分。这四条公理对依存树的形式做了约束,保证了句子进行依存句法分析的结果是一棵“树”,这为依存语法的形式化描述以及后来的应用奠定了基础。依存句法的三种结构(1)有向图:采用带有方向的弧来表示两个句子成分之间的依存关系;(2)依存树:采用树结构来表示依存结构。树中子节点依存于其父节点所代表的句子成分;(3)依存投影树:采用带有投影线的树结构,树中实线代表依存联结关系,位置低的成分依存于位置高的成分,虚线为投影线常用的依存句法分析方法依存句法分析性能评价指标依存句法分析实践概述目录—依存句法分析常用依存句法分析工具常用的依存句法分析方法基于规则的依存句法分析:基本思想是由人工制定语法规则,建立语法知识库,通过条件约束和检查机制来实现句法结构歧义的消除。包含基于上下文无关的依存句法分析和基于约束的依存句法分析。基于统计的依存句法分析:包含生成式依存句法分析方法、判别式依存句法分析方法和确定性依存分析方法基于深度学习的依存句法分析:较为经典的包括基于前馈神经网络的依存句法分析,基于双向LSTM网络的依存句法分析分析方法基于上下文无关文法的依存句法分析类似短语结构句法分析方法,该方法源自Hays以及Gaifman的工作,Gaifman所建立的依存语法体系中包含三种规则[1,2]::形如的规则表示范畴按照给定的顺序依存于范畴X,X位于位置*;

:可列出属于某一范畴的所有词的规则,每一个范畴至少包含一个词,每个词至少属于一个范畴,一个词可以属于多个范畴;

:可列出所有可以支配一个句子的范畴的规则。基于上下文无关文法的依存句法分析基于约束的依存分析方法以约束依存语法(ConstraintDependencyGrammar,CDG)[3]为基础,将依存句法分析任务看作是约束满足问题。主要分为三步:(1)根据约束依存语法,建立约束规则集合;(2)根据约束规则集合对所有不满足约束的分析进行裁剪(3)判断是否存在不确定性问题,更新约束集合,并重复(2)过程,直到剩下完全符合约束规则的依存结构。基于约束的依存句法分析

生成式依存句法分析生成式依存句法分析主要有以下三种模型[4,5]:(1)二元词汇亲和模型:模型加入词汇信息,并将词性和词形结合,标记序列通过Markov过程产生,最终得到生成词性、词形和链接关系的联合概率模型。(2)选择偏好模型:模型加入词的选择偏好信息,并限制模型根据选择偏好为每一个词只选择一个父节点。(3)递归生成模型:模型中每个词的左右子节点分别由两个Markov模型生成,是自顶向下的递归生成式模型。生成式依存句法分析

判别式依存句法分析确定性句法分析的基本思想是以特定方向逐步处理每一个待分析的词,为每次输入的词产生一个单一的分析结果,每读入一个词,都要根据当前的状态做出决策,完成了一系列动作决策之后即完成了整个分析过程。确定性依存句法分析方法的典型代表是移进-规约(Shift-Reduce)状态转移模型,该模型在分析过程中会维护一个栈和一个队列,其中栈用于存储目前为止的所有依存子树,队列用于存储尚未被分析到的词。确定性依存句法分析方法传统的依存句法分析特征向量稀疏、向量特征泛化能力差,带来了特征计算成本高等一系列问题。基于深度学习的方法相对于传统的NLP技术,在特征提取、特征表示、非线性建模等方面都有很强的优势。整体来说,现在使用深度学习的依存句法研究已经从对传统方法的改进转变为构建端到端模型,此外,在诸多NLP任务中大放异彩的各种注意力方法也被引入到依存句法分析中。基于深度学习的依存句法分析常用的依存句法分析方法依存句法分析性能评价指标依存句法分析实践概述目录—依存句法分析常用依存句法分析工具依存句法分析性能评价指标无标记依存正确率(UnlabeledAttachmentScore,UAS):测试集中找到正确支配词的词所占总词数的百分比。带标记依存正确率(LabeledAttachmentScore,LAS):测试集中找到其正确支配词的词,且依存关系类型也标注正确的词占总词数的百分比。依存正确率(DependencyAccuracy,DA):测试集中找到正确支配词非根节点词占所有非根节点词总数的百分比。根正确率(RootAccuracy,RA):有两种定义方式,一种是测试集中正确根节点的句子个数占句子总数的百分比。完全匹配率(CompleteMatch,CM):测试集中无标记依存结构完全正确的句子占句子总数的百分比。常用的依存句法分析方法依存句法分析性能评价指标依存句法分析实践概述目录—依存句法分析常用依存句法分析工具本小节以文献[6]的工作为例,带领大家具体实践来了解一种深度学习模型在依存句法分析中的应用。本节实验操作采用的是EnglishPennTreebank(PTB)数据集,数据为CoNLL格式,如图所示:实验一-基于前馈神经网络的依存句法分析经多轮训练之后,最终的结果如图所示,可以看到最终在测试集上模型能得到90%左右的UAS值。实验一-基于前馈神经网络的依存句法分析实验代码参看教材P85常用的依存句法分析方法依存句法分析性能评价指标依存句法分析实践概述目录—依存句法分析常用依存句法分析工具StanfordCoreNLP是斯坦福大学基于Java开发的一个自然语言处理工具,可以用于很多常用的自然语言任务,如:词性标注、句法分析、命名实体识别等等,StanfordCoreNLP提供了已经训练好的模型,可以直接通过Python接口进行调用,因此使用非常方便。StanfordCoreNLP目前支持阿拉伯语、英语、中文德语等多种语言,业内通过它做平行语料对比研究的工作也比较多。StanfordCoreNLPHanLP(HanLanguageProcessing)是由一系列模型和算法组成的自然语言处理工具包。HanLP具备功能完善、性能高效、架构清晰、语料新、可自定义的特点。与StanfordCoreNLP一样,HanLP也支持多种语言,可完成自动分词、词性标注、句法分析等多种自然语言处理任务。HanLP提供了Python的接口pyhanlp,在依存句法分析方面,内部实现了基于神经网络的高性能依存句法分析器和基于ArcEager转移系统的柱搜索依存分析器两种依存句法分析器。HanLP参考文献GaifmanH.Dependencysystemsandphrase-structuresystems*[J].Information&Computation,1965,8(3):304-337.冯志伟.判断从属树合格性的五个条件[A].教育部语言文字应用研究所.世纪之交的中国应用语言学研究——第二届全国语言文字应用学术研讨会论文集[C].教育部语言文字应用研究所:教育部语言文字应用研究所,1998:12.MaruyamaH.Structuraldisambiguationwithconstraintpropagation[C]//28thAnnualMeetingoftheAssociationforComputationalLinguistics.1990:31-38.EisnerJ.ThreenewProbabilisticModelsforDependencyParsing:Anexploration.In:ProceedingsofCOLING,1996,340-345.EisnerJ.Anempiricalcomparisonofprobabilitymodelsfordependencygrammar[J].arXivpreprintcmp-lg/9706004,1997.ChenD,ManningCD.Afastandaccuratedependencyparserusingneuralnetworks[C]//Proceedingsofthe2014conferenceonempiricalmethodsinnaturallanguageprocessing(EMNLP).2014:740-750.中文分词依存句法分析语义角色标注引言参考文献目录语义角色标注方法语义角色标注实践概述目录—语义角色标注语义角色标注(SemanticRoleLabeling,SRL)是一种浅层语义分析(shallowsemanticparsing)技术,其目标是识别出自然语言句子中的每一个谓词及其相应的论元。典型的语义论元包括:施事者、受事者、工具、地点、时间、方式、原因等等,即通过SRL可以理解句子中各成分之间的语义关系。语义角色标注传统的语义角色标注方法通常首先对句子进行句法分析和谓词识别;然后进行剪枝以过滤掉句法分析树中不可能成为语义角色的句法成分;最后进行角色识别,即使用机器学习算法对剩余的句法成分进行角色分类,判断其角色类型。随着深度学习技术的兴起,基于神经网络的端到端SRL方法也取得了很大的进展。该方法通常使用卷积神经网络、双向长短时记忆(DeepBi-directionalLongShortTermMemory,DB-LSTM)网络等模型[1][2][3]。语义角色标注方法语义角色标注实践概述目录—语义角色标注基于统计的语义角色标注方法—

有监督的方法SRL系统所使用的特征存在显著的局部偏置(localbias)问题。为了解决局部偏置问题,Akbik等人[4]构建了上下文特征组合,给出了不同组合之间的距离,用类似KNN(k-nearestneighbors)的算法对论元进行分类,取得了不错的效果。基于统计的语义角色标注方法—

半监督或无监督的方法传统的基于有监督学习的标注方法严重依赖于训练语料的标注正确率、覆盖率和标注方式,当测试数据和训练语料的领域、类型不一致时,标注性能下降非常明显。开发更多的语义语料又需要耗费极大的人力物力。因此,基于半监督或无监督的方法,利用大规模未标注的数据成为有前途的解决方案。基于深度学习的语义角色标注方法Collobert等人[5]最早将卷积神经网络框架,用于词性标注、组块分析、命名实体识别和语义角色标注等任务,除SRL之外的其它三种任务都达到了基于统计的方法的最好性能。基于深度学习的语义角色标注方法2017年,He等人[6]为语义角色标注(SRL)引入了一种新的深度学习模型,该模型使用具有约束解码的深层高效的Bi-LSTM体系结构,将SRL视为BIO标签问题。语义角色标注方法语义角色标注实践概述目录—语义角色标注这一节中“DeepSemanticRoleLabeling:WhatWorksandWhat’sNext”[6]的工作为例,带领大家深入学习了解深度学习在语义角色标注中的应用。数据格式采用BIO标注格式,每一行表示一个训练样本,包含分好词的句子和其角色标注信息。句子和角色标注用|||符号隔开。例如:Mycatslovehats.|||B-A0I-A0B-VB-A1O基于深度学习的语义角色标注实践输出结果示例:基于深度学习的语义角色标注实践实验代码参看教材P101LTP(LanguageTechnologyPlatform)提供了一系列中文自然语言处理工具,用户可以使用这些工具对于中文文本进行分词、词性标注、句法分析等工作。pyltp是语言技术平台LTP的Python封装。基于PyLTP的语义角色标注实践输出结果示例:其含义为:对于谓词“是”,它的A0论元是“小明”,A1论元是“理工大学的学生”。基于PyLTP的语义角色标注实践实验代码参看教材P107参考文献CollobertR,WestonJ,BottouLEO,etal.NaturalLanguageProcessing(Almost)fromScratch[J].JournalofMachineLearningResearch,2011,12:2493-2537.ZhouJ,XuW.End-to-endlearningofsemanticrolelabelingusingrecurrentneuralnetworks[C]//ProceedingsoftheAnnualMeetingoftheAssociationforComputationalLinguistics,2015.WangZAJT.ChineseSemanticRoleLabelingwithBidirectionalRecurrentNeuralNetworks[C]//Proceedingsofthe2015ConferenceonEmpiricalMethodsinNaturalLanguageProcessing,2015,1626–1631.AkbikA,LiY.K-SRL:Instance-basedLearningforSemanticRoleLabeling[C],ProceedingsofCOLING2016,599–608.CollobertR,WestonJ,BottouLEO,etal.NaturalLanguageProcessing(Almost)fromScratch[J].JournalofMachineLearningResearch,2011,12:2493-2537.HeL,LeeK,LewisM,etal.Deepsemanticrolelabeling:Whatworksandwhat’snext[C]//Proceedingsofthe55thAnnualMeetingoftheAssociationforComputationalLinguistics(Volume1:LongPapers).2017:473-483.机器翻译自然语言处理:理论与实践机器翻译主要方法机器翻译质量评价机器翻译质量估计机器翻译概况参考文献与思考题目录机器翻译开源工具与技术评测机器翻译概况——概念机器翻译(MachineTranslation,MT)是利用计算机将一种自然语言(源语言,SourceLanguage)自动翻译到另一种自然语言(目标语言,TargetLanguage)的技术,是自然语言处理与人工智能领域的重要研究方向之一。机器翻译通常包括语音翻译以及文本翻译。机器翻译概况——发展历史开创期机器翻译思想始于上世纪三四十年代。20世纪30年代,利用计算模型进行自动翻译的思想开始出现萌芽。1946年,世界上第一台通用电子数字计算机ENIAC研制成功。美国科学家瓦伦·韦弗(WarrenWeaver)于1949年发表了题为《翻译》的备忘录,正式提出了机器翻译的思想,韦弗也被称为“机器翻译之父”。1954年,美国Georgetown大学在IBM协助下,实现了世界上第一个俄-英MT系统,拉开了全球机器翻译的大幕。机器翻译概况——发展历史受挫期1966年,美国语言自动处理咨询委员会(ALPAC)发布了题为《语言与机器》的ALPAC报告。报告对机器翻译采取全面否定的态度。此后,机器翻译研究受到了严重的打击。机器翻译概况——发展历史复苏期20世纪70年代中后期开始,数据驱动和统计方法的发展为机器翻译研究提供了新的思路,机器翻译开始从受挫中复苏。20世纪80年代后,基于统计方法的机器翻译发展迅速。以Google翻译等为代表的一系列商用产品开始出现。繁荣期2013年以来,神经网络机器翻译开始出现并成为主流,翻译技术飞速发展,翻译产品和服务不断增加,并与不同应用领域和场景深度结合。机器翻译主要方法机器翻译质量评价机器翻译质量估计机器翻译概况参考文献与思考题目录机器翻译开源工具与技术评测机器翻译主要方法基于规则(rule-based)的方法主要依靠语言学家等根据语言现象和语言特点,人工总结和编写机器可读的形式化规则和双语词典,在规则的干预下,实现机器翻译。主要包括分析、转换和生成三个主要阶段。

基于规则的专利机器翻译示例分析:(0)[一种]+(f){(1)[的]}+(2)[NP]LC_TREE(NP,

0,2)转换:

(0)[一种]+(f){(1)[的]}+(2)[方法]|[装置](0)[a]

+

(1)[method]|[equipment]+for+…(0)[当]+…+(1)[时]&END%(0)[when]+DELETE(1)[时]+…生成双语翻译词典:本发明-->

this

invention;提供-->

provide;

……本发明提供了[一种用于专利交易的[推荐方法和装置]],当所述专利权人信息满足第一预定条件时,将所述第一专利发送给第一企业。Thisinventionprovides[arecommendationmethodandequipment

forpatenttransactions],andwhenthepatenteeinformationmeetsafirstpredeterminedcondition,thefirstpatentissenttoafirstenterprise.规则翻译方法的特点优势特定领域针对性强人工制定规则,保证较好的翻译结构较准确的翻译结果不足领域迁移性差人工工作量大,主观性强,系统开发周期长规则冲突问题,形成恶性循环机器翻译主要方法语言模型翻译模型SMT翻译框架解码器我周日在图书馆看书翻译模型P(S|T)语言模型P(T)我去图书馆。I

went

to

the

library.会议将在周日举行.

The

meeting

will

be

held

on

Sunday.他在书店看书。He

reads

books

in

the

book

store.……我I

0.5我me

0.2看书read

book

0.9在周日on

Sunday

0.8……I

work

in

BIT.I

went

to

the

library.The

meeting

will

be

held

on

Sunday.He

reads

books

in

the

book

store.……read

a

->book

0.5read

a

->

TV

0.02……单语目标语语料I

read

books

in

the

library

on

Sunday.argmax

P(T)P(S|T)SMT发展SMT特点优势翻译速度快,人工干预少,更省时省力适用于不同语言对翻译质量有很大改善不足高度依赖双语平行语料的质量和规模对语言的分析不够深入一些特殊问题难以解决机器翻译主要方法基于神经网络(Neural-based

)的方法2013年开始出现,迅速成为了当前的主流方法。NMT的主要思想是,首先使用神经网络模型通过分布式表示(DistributedRepresentation)的方式将源语言语句转换成低维的实数向量,映射到向量空间中,然后再利用神经网络模型将实数向量转换为目标语言语句。北京是中国的首都实数向量0.020.140.330.56……BeijingistheCapitalofChina神经网络编码器(encoder)神经网络解码器(decoder)NMT方法框架的发展端到端(end-to-end)框架采用编码器-解码器实现。容易出现“梯度消失”和“梯度爆炸”

注意力(Attention)机制实时计算动态变化的上下文向量发展出多种注意力变体模型

循环神经网络框架LSTM任意长度的句子都被编码为固定维度向量翻译性能有限Transformer框架多头注意力机制显性位置编码信息

目前的主流方法和最先进技术NMT特点优势目前的主流方法领域迁移性强在特定领域的译文句法可读性和翻译质量更好不足严重依赖数据资源和算力资源可解释性差模型巨大训练耗时低资源语言翻译仍不理想机器翻译主要方法机器翻译质量评价机器翻译质量估计机器翻译概况参考文献与思考题目录机器翻译开源工具与技术评测机器翻译自动评价BLEU(BilingualEvaluationUnderstudy

)使用最广泛、最具代表性的自动评价方式之一比较系统译文和参考译文中的任意n­-gram字符串的相似程度,判断译文的质量。相似程度越高,译文质量就越好。指标范围为0-1,常采用百分比形式表示,越接近1,说明译文质量越好。

机器翻译主要方法机器翻译质量评价机器翻译质量估计机器翻译概况参考文献与思考题目录机器翻译开源工具与技术评测机器翻译质量估计质量估计(Quality

Estimation,QE)不同于BLEU,QE无需参考译文可从词语、句子和文档等不同级别对译文的翻译质量进行估计多用于译后编辑等重要场景,作为BLEU评价的补充机器翻译主要方法机器翻译质量评价机器翻译质量估计机器翻译概况参考文献与思考题目录机器翻译开源工具与技术评测机器翻译开源工具统计机器翻译MosesJoshuaNiuTrans-SMT神经网络机器翻译Tensor2Tensor

Fairseq

NematusOpe

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论