融入词性信息的机器翻译研究_第1页
融入词性信息的机器翻译研究_第2页
融入词性信息的机器翻译研究_第3页
融入词性信息的机器翻译研究_第4页
融入词性信息的机器翻译研究_第5页
已阅读5页,还剩27页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、苏州大学本科生毕业设计(论文)本 科 毕 业 设 计(论 文)学院(部)计算机科学与技术学院题 目融入词性信息的机器翻译研究年 级14级专业计算机科学与技术班 级计科班学号1427405086姓 名施庭雨指导老师段湘煜职称副教授论文提交日期1目 录摘要1Abstract2第1章 前言3第2章 神经机器翻译6第2.1节 编码器6第2.2节 解码器8第2.3节 Attention机制10第3章 融入词性信息的神经机器翻译12第3.1节 融入词性信息的神经网络架构12第3.2节 词与词性的联合解码14第4章 实验分析17第4.1节 实验配置17第4.1.1节 实验环境17第4.1.2节 数据集17第

2、4.1.3节 评价标准18第4.2节 模型18第4.3节 训练程序19第4.3.1节 参数初始化19第4.3.2节 训练19第4.4节 定量结果19第5章 结论22参考文献23致谢25附录26 融入词性信息的机器翻译研究摘要20世纪30年代左右,是机器翻译的思想问世的时代。在20世纪30年代,法国科学家G.B.Archuny提出了用机器翻译来代替人工翻译的思想。目前为止,机器翻译有越来越多显著的成果被各个科学家实现,同时各种新方法在各位科学家的努力之下层出不穷,由此也呈现出百花齐放的局面。目前机器翻译方面提出的最新方法是基于神经网络的机器翻译系统,也就是神经机器翻译。神经机器翻译模型通常属于编

3、码器-解码器族,其具体原理是将源语句编码成固定长度向量,并从该向量解码从而生成翻译。神经机器翻译模型是以建立一个单一的神经网络为目的。建立完毕后,可以通过联合调整,来极大限度提高翻译的性能。本次研究采用的就是以编码器-解码器模型的神经网络机器翻译系统为基准系统,并在该基准系统中引入词性信息,搭建以某种词性出现的概率作为特征,在目标端添加词性,将词和词性进行联合比对。并最终将改进系统的翻译结果与基准系统的翻译结果进行比较,从而验证该方案的可行性。关键词:词性;神经机器翻译;RNN模型;融合A Literature Review of Machine Translation Research In

4、tegrating Part of Speech InformationAbstractAround the 1930s, it was the era of machine translation thinking. In the 1930s, French scientist G.B. Archuny proposed the idea of using machine translation instead of human translation. So far, more and more remarkable achievements in machine translation

5、have been achieved by various scientists. At the same time, various new methods have emerged endlessly under the efforts of scientists, and this has also shown a flourishing situation.The latest method proposed in the field of machine translation is a neural network-based machine translation system,

6、 namely neural machine translation. Neural machine translation models generally belong to the encoder-decoder family, the specific principle of which is to encode the source sentence into a fixed-length vector and decode from this vector to generate a translation. The neural machine translation mode

7、l aims to establish a single neural network. After the establishment is completed, the adjustment can be made through joint adjustment to greatly improve the performance of the translation.In this study, a neural network machine translation system based on an encoder-decoder model is used as a refer

8、ence system, and part-of-speech information is introduced in the reference system. The probability of a certain part of speech is used as a feature to add a part of speech at the target end. Combine words and parts of speech for a joint comparison. Finally, the translation results of the improved sy

9、stem are compared with the translation results of the benchmark system, so as to verify the feasibility of the scheme.Key words: POS; Neural Machine Translation; RNN; fusion第1章 前 言机器翻译(又称自动翻译),是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程,主要研究方向有人工智能、自然语言处理等领域。使用计算机来实现自动转换不同的自然语言既作为机器翻译的主要目标之一,同时也作为信息传递所面临的

10、在不同国家和民族之间的“语言障碍”问题的突破口的关键技术。机器翻译在促进民族团结、加强文化交流和推动对外贸易等方面有着举足轻重的意义。20世纪40年代末,机器翻译的发展大约可以总结成两个大的阶段理性主义方法主导时期(1949-1992)和经验主义方法主导时期(1993-2016)。早期的机器翻译基本都采用的是理性主义方法,这种方法的原理是通过观察不同自然语言之间的转换规律,再以规则的形式来表示所翻译的知识(其中这部分是由人类专家所完成的)。理性主义方法在句法和语义等诸多深层次方面的实现较为精准,使得在自然语言的分析、转换和生成等方面具有较高质量的翻译结果。这种方法的弊端也很明显,即1. 翻译知

11、识获取难;2. 开发周期长;3. 人工成本高。这类困难已经成为了现在无法避免的主要问题,科学家们依然在探索合理的解决方案。近几年,随着互联网的兴起,尤其是大数据和云计算在近几年来发展迅速,机器翻译的主流在20世纪90年代以后渐渐地转变为经验主义方法。与理性主义方法不同,理性主义方法是以人为中心,而经验主义方法则是主张以数据为中心。目前,自然语言的转换过程都是依靠数学模型,来进行转换的。由于数学模型是在大规模多语言文本数据上进行自动训练,其训练集的覆盖面较为广泛,翻译结果质量可以有所保障。经验主义方法的代表则是统计机器翻译。统计机器翻译是通过隐结构(如词语对齐、短语切分、短语调序、同步文法等主要

12、方法)来实现的。而对于翻译过程的描述,主要是利用语句的特征来刻画翻译规律。在翻译的最后部分,则是采用动态规划算法在指数级的搜索空间中通过特征的局部,从而可以实现多项式时间复杂度的高效翻译。但是,统计机器翻译也有着种种弊端1. 翻译性能严重依赖于隐结构与特征设计;2. 局部特征很难捕获到全局的依赖关系;3. 对于数线性模型中难以处理的翻译过程中的线性不可分现象。以上种种现象现在依旧是统计机器翻译所面临的难题。科学家们依旧也在探索合理的解决方案。语言模型(Language Model)是一种用于描述语句结构的模型,其在自然语言处理领域有着重要的地位的。在2003年,Bengio尝试提出了一个新的概

13、念神经网络概率模型(NPLM)。神经网络概率模型结合了神经网络(Neural Network)和语言模型,在不少翻译中取得了不错的应用效果,其翻译结果的质量都很高。而如此光景也不是很长,几年后,大家便不再满足研究简单的神经网络。这种情况则是由又一出色表现由Mikolov提出的循环神经网络语言模型(RNNLM)和word2vec所影响的,自此开始,基于深度学习的神经网络开始兴起。基于深度学习的神经网络在许多领域得到了广泛的应用(例如图像识别领域、语音识别等等)。除此之外,在其它领域内依旧有着出色的建树。例如在自然语言处理任务(NLP)上如语言模型、推荐系统等领域,深度学习依旧有着出色的表现。至于

14、基于深度学习的神经网络具有如此强大能力的原因,则是因为通过训练数据得到数据的抽象表示是神经网络本身的优点。综上所述,归根到底总结起来,就是具有很强的泛化能力。从这以后,深度学习的研究热潮便保持不下。在这种热潮的影响下,很快便渗透到了各个自然语言处理的诸多领域。当然,其中也毫无例外地包括了机器翻译领域。借由深度学习的研究热潮,使得机器翻译自此得到了极大的改变从2014年以来,端到端神经机器翻译(end2end neural machine translation)获得了迅速发展。端到端神经机器翻译相比于统计机器翻译,其翻译质量上有着显著的提升。目前,Google、微软、百度、搜狗等商用在线机器翻

15、译系统的核心技术,已经由神经机器翻译所取代。统计机器翻译渐渐成为了历史。在近期,基于注意的编码器-解码器框架的神经机器翻译(NMT)已经在很多语言对的翻译质量方面取得了显著的改进。在传统的NMT模型中,编码器读取各种长度的源句子,并将它们转换为中间隐藏矢量表示的序列。在通过注意力操作加权后,解码器使用组合隐藏矢量来生成翻译。在大多数情况下,编码器和解码器都实现为递归神经网络(RNN)。目前,神经网络机器翻译模型的主流结构仍然是编码器-解码器框架。编码器负责把源端输入的句子编码成固定维度的实数向量,这个向量是对输入句子的抽象表示,也称作语义向量。解码器读取这个语义向量用以解码预测目标语言单词。基

16、于深度学习的机器翻译模型的关键过程在于把源语言压缩表示成一个中间语义向量,代表输入句子的信息。由此可以得出,编码器产生的语义向量能否有效的表示源端信息将直接关系到整个翻译模型的性能。但是多项实验结果表明,这种编码器-解码器框架会随着句子长度的增加,性能会变得越来越差。词性是指以词的特点作为划分词类的根据,例如,在现代汉语中词性有两类共14种。在这里延伸一下词类这个概念,词类是一个语言的学术语,具体意义可以引申为是一种语言中词的语法分类。划分的主要依据是以语法特征(其中包括句法功能和形态变化)、兼顾词汇意义。从另一个方面来说,一个词类是指:在一个语言中,有些词具有相同句法功能并且能在同样的组合位

17、置中出现,可以将这些词聚合在一起。聚合是词类是最普遍的语法。综上所述,词性信息有助于帮助词进行精确划分,对于神经机器翻译中的目标语言单词有着重要的影响,因为词性信息可以与词进行结合,从而可以得到更精确的翻译结果。所以根据神经网络机器翻译模型的编码器-解码器结构的潜在问题以及词性信息的特点,本文提出了在编码器-解码器框架中融合词性信息的思想,从而可以提升神经机器翻译的翻译结果质量。 第2章 神经机器翻译神经机器翻译不再需要词语对齐等预处理操作,也不需要人工的去设计特征,而是只设计一个神经网络结构,并且投入一定的训练语料就可以用这个网络直接将源语言的词序列映射成目标端的词序列(就是端到端的神经网络

18、机器翻译)。联合调整这个网络,从而使翻译性能得到极大限度的提高。循环神经网络(RNN,Recurrent Neural Networks)中的编码器-解码器(Encoder-Decoder)架构在机器翻译领域内取得了相当先进的成果。目前,这一架构已成为了工业级翻译服务的核心。尽管这种模型比较简单,但仍然还是需要用大量的数据来作为训练集。而且,调整模型中无数的设计决策(Design decisions)仅仅是为了获得最优性能,将会是所面临的最困难的情况。在编码器中,一般是将源端句子抽象成一个特定维度的向量,解码器则用这个向量解码获得目标语言的句子。HiddenEmbedding图-1 RNN结构

19、2.1 编码器编码器完成的工作是将源端句子经过神经网络编码成一个特定维度的不可解释的中间向量或者称为上下文向量,其中编码器的网络结构多是循环神经网络,长短期记忆网络等。编码阶段可以分为两步:1. 对源语言的输入句子X=(,.,)的每一个词都表示成一个特定维度大小的词向量,i=1,2,.,T(,实数)。其中V是源语言词表的大小,词向量的维度m是由用户自己指定的。在模型训练的时候,真实参与模型训练的输入是,这个词向量W最初是随机初始化的,在整个模型的训练过程中跟随模型的其他参数一起训练更新。2. 用RNN编码源语言输入句子。一般的RNN模型中,都是在源端从头至尾读取一个输入句子。但是在本次实验中,

20、为了不仅可以得出前面已经翻译过的句子的总结,而且还能处理后续的句子,故采用了双向RNN结构。一个双向RNN由前向和反向RNN组成。前向RNN读取正常的输入语句,计算正向隐藏层,反向RNN读取相反的输入语句,计算反向隐藏层。整个过程的公式为其中是字嵌入矩阵。,是权矩阵。m和n分别是单词的嵌入维数和隐藏单元的数量。()和往常一样是一个logistic sigmoid函数。编码时,正向神经网络按照词序列的顺序依次编码源语言词,并得到一系列隐藏层状态。同样,反向神经网络按照词序列的的顺序得到。最后,对于词x_i,通过把正向神经网络和反向神经网络的隐藏层拼接到一起,得到该词对应的隐藏层状态Encoder

21、图-2 基准系统的编码器结构2.2 解码器解码器完成的工作是将编码器产生的中间向量经过神经网络解码成目标语言句子,直到遇到句子结束标记结束。在本次实验中,需要定义一个新的条件概率其中是RNN在t时刻的隐藏层给定来自编码器的注释的解码器的隐藏状态由下式计算其中E是目标语言的词嵌入矩阵。,和是衡量标准。再次,m和n分别表示嵌入维数和隐藏单元数。初始隐藏层由下式计算:,其中。上下文向量取决于编码器对输入语句进行映射的注释序列。每个注释包括整个输入序列的信息,其中第i个字周围的部分与输入语句有着强关联。将上下文向量表示成注释的加权和,公式为其中,每个注释的权重由下式计算其中是一个对齐模型,它可以评估位

22、置j周围的输入和位置i的输出匹配程度。得分基于RNN的隐藏层和输入语句的第j个注释。请注意,与传统的机器翻译不同,对齐不被认为是潜在变量。相反,对齐模型直接计算软对齐,这可以使成本函数的梯度反向传播。该梯度可以用于联合训练对齐模型以及整个翻译模型。在这里可以理解成将所有注释的加权总和作为计算预期注释的方法,其中期望在可能的对齐模型上。令为目标单词与源词对齐或翻译的概率。然后,第i个上下文向量是所有具有概率的注释的期望注释。概率或其相关联的分值反映了注释相对于先前隐藏层在决定下一隐藏层和生成语句中的重要性。直观地说,这实现了解码器中的Attention机制。解码器决定部分源句子要注意。通过让解码

23、器具有Attention机制,我们可以免除编码器将源句子中的所有信息编码成固定长度矢量的负担。采用这种新方法,信息可以在整个注释序列中传播,这可以由解码器相应地选择性地取回。从整体的原理来看,目前基本实现了解码器中的Attention机制,解码器决定部分源语句的Attention。而通过解码器具备Attention机制,可以免除编码器将源语句中的所有信息编码成固定长度矢量的负担。采用这种新方法,信息可以在整个注释序列中传送,再由解码器相应地选择性取回。图-3 基准系统的结构2.3 Attention机制关于上述的Attention机制,将在这一节进行说明。其中,在传统编码器-解码器框架中,编码

24、和解码时均需要由内部一个固定长度向量来决定。而相对于Attention机制(也称作注意力机制,下文统称为注意力机制),则是一种放弃了机器翻译中常用的CNN和RNN框架的机制。同时,注意力机制采取BLEU值为评价基准。其基本思想大致可以描述为不受传统编码器-解码器框架的限制,可以在编码和解码时脱离固定长度向量的限制。“Attention is All You Need”,是Google发布的一篇基于注意力机制的机器翻译研究的报告。在这篇报告中,Google使用的机器翻译系统中包含了注意力机制,其3天半的训练过程在同类机器翻译系统中可以说是很短了。此外,其采用测试集的测试结果中,其BLEU值可以说

25、是空前为行业内的最高分。注意力机制的实现方法则是通过以下三点1. 将LSTM编码器的输入序列的中间输出进行保留;2. 将保留的部分进行训练,从而生成训练模型;3. 对这些输入语句进行选择性地学习并最终将输出语句与训练模型的输出语句进行关联。对于这种注意力机制的,其目的也很明确,对于以下问题其往往有着较好的解决方法1. 对于高维输入数据,往往计算负担很严重。而为了将降低数据的维度,这种机制则是使用输入子集的结构化选择来减少这种负担;2. 对于大量冗余数据,往往不能一次就找到有用的信息。而这种机制具有“伪保真”功能。这种功能可以使任务处理系统更加专注地搜寻有用信息,大大提高了搜索效率,从而提高输出

26、质量。对于多种内容模式,相互关系往往都很复杂,之间的联系过多使得理解很复杂,对于翻译结果有一定影响。综上所述,注意力机制的最终目标则是帮助像编码器和解码器之类的框架,用来更好地理解多种模式之间的相互关系。对于提高信息之间的表达力,这个机制则是可以克服无法解释的原因以及难以设计的缺陷。对于以上的注意力机制的描述,注意力机制可以适用的地方有很多。但是最适合的还是用于对各种不同模态并且占据容量很大的数据之间的映射关系的推断。对于这种不同模态并且占据容量很大的数据,往往需要监督信号来进行监督,这在机器翻译中是一种很棘手的问题。而这样也更能凸显注意力机制的优势之一,可以完全省略监督信号。由于本次实验中对

27、于先验数据的知晓少之又少。所以对于注意力机制来说是一个可以大显身手的地方。第3章 融入词性信息的神经机器翻译如前言中所述,与传统的统计机器翻译相比,基于编码器-解码器框架的神经机器翻译,一般具有两个优点可以直接从生数据汇中学习特征,也能够捕获长距离依赖。同样,一个潜在的问题也存在于这种基于编码器-解码器的神经机器翻译框架神经网络必须具备能将有效信息压缩成指定长度向量的能力。这对于处理长句子来说是一个挑战。现在已经有了多项研究结果,可以表明这种基本的编码器-解码器模型的性能会随着句子长度的增加而变得越来越差。为了探究出解决这个问题的办法,我们在这种基本的编码器-解码器的模型上做了延伸,就是让神经

28、网络在目标端中添加词性信息。在根据词表与矩阵相乘生成词向量后,生成正向与反向的隐藏层,与目标端的词和词性进行联合比对,计算出词和词性结合的BLEU值(一种机器翻译的评价准则)。选择分值最高的作为翻译结果。与基本编码器-解码器的最重要的区别是这种方法不仅仅是用词的BLEU值来进行评估,而是将词性信息融入进行联合评估,从而使得出的关系强度相比以往的翻译结果而有所提高。由此可以得出,这个模型能更加精确地得出翻译结果。在本文中,提出的在目标端中添加词性的翻译结果比基本编码器-解码器方法在性能上有显著的提高。3.1 融入词性信息的神经网络架构在本次实验提出的融合词性信息的神经机器翻译模型中,依旧采用与基

29、准系统相同的编码器来完成工作将源端句子经过神经网络编码成一个特定维度的不可解释的中间向量(或者称为上下文向量)。在一般的RNN中,读取一个输入序列,是从第一个到最后一个。然而,在基准系统中,注释不仅可以总结出前面已经翻译过的句子,并且还能处理接下来未翻译的句子。所以,在这次实验中依旧采用双向RNN结构。一个双向RNN由正向和反向RNN组成。正向RNN读取正常的输入序列,正向计算正向隐藏层,反向RNN读取相反的输入序列,反向计算反向隐藏层。通过连接正向隐藏层和后向一个,即。这样的化,注释包含前面的单词和后面的单词的摘要。由于RNN倾向于更好地代表最近的输入序列,所以注释将集中在周围的单词上。随后

30、,解码器和对准模型将使用该序列的注释来计算上下文向量。图-4 融入词性信息的神经网络架构编码器的具体实现请参考第2章的第2.1节,在这一节中则不再具体地描述其原理了。基准系统中,解码器的工作是将编码器产生的中间向量经过神经网络解码成目标语言句子,直到遇到句子结束标记结束。在这次试验中,解码器在基准系统的基础上作出了如下改进1. 构建两个隐藏层;2. 改进对齐模型的计算公式;3. 定义两个条件概率;4. 根据上下文向量的共享来体现两个条件概率的相关性。归结起来,解码器是在基准系统的隐藏层中添加了词性信息,并将此和词性信息视为一个组合,最终进行联合比对。3.2 词与词性的联合解码在这个模型中,需要

31、定义一个新的条件概率是一个组合 ,包含的是第i个目标词以及其词性,是在t时刻的隐藏层。是上下文向量。进一步说,这个新的条件概率是由以下两部分构成在上述公式中,是目标词,是目标词的词性,是词的隐藏层,是词性的隐藏层。而两个公式中的是为了体现相关性而共享的上下文向量。其中,词的隐藏层的计算公式为给定来自编码器的注释的解码器的词的隐藏层由下式计算其中E是目标语言的词嵌入矩阵。,和是衡量标准。再次,m和n分别表示嵌入维数和隐藏单元数。初始隐藏层由下式计算:,其中。词性的隐藏层的计算公式同上,在此不再重复描述。上下文向量取决于编码器对输入语句进行映射的注释序列。每个注释包括整个输入序列的信息,其中第i个

32、字周围的部分与输入语句有着强关联。将上下文向量表示成注释的加权和,公式为其中,词和词性的所用的上下文向量都是共享的,计算方法是相同的。此外,每个注释的权重由下式计算而评估标准由于添加了词性故计算方法改为下式可以评估位置j周围的输入和位置i的输出匹配程度。在改进公式中得分基于RNN的词的隐藏层、词性的隐藏层和输入语句的第j个注释,相比于基准系统计算方式则是较为复杂一些。请注意,与传统的机器翻译不同,对齐不被认为是潜在变量。相反,对齐模型直接计算软对齐,这可以使成本函数的梯度反向传播。该梯度可以用于联合词和词性来训练对齐模型以及整个改进的翻译模型。同基准系统一样,在这里可以理解成将所有注释的加权总

33、和作为计算预期注释的方法,其中期望在可能的对齐模型上。令为目标单词和目标单词的词性与源词对齐或翻译的概率。然后,第i个上下文向量是所有具有概率的注释的期望注释。改进系统的概率或其相关联的分值则是反映了注释相对于先前词的隐藏层以及词性的隐藏层在决定下一隐藏层和以及生成语句和中的重要性。最后,将得出的两个条件概率相加,从而实现词和词性的联合对比。计算方式如下图-5 改进系统的解码器结构第4章 实验分析本次实验采用定量分析,即在相同的语料集的情况下,使用这种基于编码器-解码器的神经机器翻译系统与同样的基于编码器-解码器的神经机器翻译系统但是也同时融入了词性信息的神经机器翻译系统进行翻译,最终将翻译结

34、果进行比对,分析,进而可以得出结论。4.1 实验配置4.1.1 实验环境本次实验采用的是DyNet2.0系统和相应的Lamtram源代码。DyNet(前称cnn)是由卡内基梅隆大学和其他公司共同开发的神经网络库。它是用C +编写的(在Python中有绑定),其设计目的是为在CPU或GPU上运行时提高效率,并且具有适合每个培训实例更改的动态结构的网络,这些类型的网络在自然语言处理任务中特别重要。DyNet是一款被用于构建句法分析、机器翻译、形态变形以及其它诸多应用领域的先进系统。Lamtram是一款基于DyNet的使用神经网络进行语言和翻译建模的工具包,具备与DyNet相适应的代码。4.1.2

35、数据集LDC(全名Linguistic Data Consortium)是主要负责保存与分发科研要用到的语言数据的机构。LDC成立于1992年,当时是为了给研究部门提供语料而创办的,运营则是由大学、图书馆、企业、政府、研究机构统一进行。而目前则主要由宾夕法尼亚大学负责运营。随着时间的积累,现在的LDC已经拥有非常多的语言数据资源了,同时也成为了主要的科研语言资源管理分发机构。其中每年大概新增3036个语料。这次实验的训练集采用了125万句的LDC中-英平行双语句对,测试集则采用了美国国家标准与技术研究院2002年的数据。除了提到的平行语料库,不再使用任何单语言数据集,直接连接美国国家标准与技术

36、研究院2002年的NIST02、NIST03、NIST04、NIST05、NIST06和NIST08数据集进行验证。其中不会对数据使用任何其他特殊的预处理,例如降低和干扰,从而保证实验结果的真实性。4.1.3 评价标准本次实验采用BLEU评测标准评价翻译质量。BLEU(Bilingual Evaluation Understudy)是一种为了评估已经从一种自然语言翻译到另一种自然语言的文本质量的算法。而翻译的质量则是由机器产出与人类产出之间的对应关系而判定的。BLEU值的核心思想为机器翻译结果越接近专业人工翻译的结果,则翻译质量越高。BLEU的开创具有划时代的意义,因为其是第一个标准要求与人工

37、翻译结果的质量的判断高度有关的相关度量。目前,在各种翻译系统中依旧充当着主要角色,依然是最流行的自动化和便宜的度量标准之一。BLEU的优点有方便、快速、结果有较高的参考价值。BLEU的输出始终是介于0和100之间的数字。此值表示候选文本与参考文本的相似程度,其值接近100表示更相似的文本。很少有人工翻译将获得100分,因为这表明候选人与参考翻译之一相同。出于这个原因,没有必要获得100分。因为有更多的机会匹配,添加额外的参考翻译将增加BLEU分数。4.2 模型在本次实验中,需要训练两种模型,一个是RNN编码器-解码器,另一个是新提出的融合词性信息的RNN编码器-解码器。在源端中,两种系统均是要

38、将输入的词根据词表乘矩阵后可以得到词向量后,根据词向量转换为句子级别的正向与反向的隐藏层。在目标端中两种系统则会有所不同。RNN编码器-解码器只是将源端生成的隐藏层与目标端的词进行比对,直接产生翻译结果。融合词性信息的RNN编码器-解码器则是将源端生成的隐藏层与目标端的词和词性进行联合比对,选择两者的BLEU值相加值最大的作为翻译结果,最终进行评估。4.3 训练程序4.3.1 参数初始化我们初始化了递归权矩阵,为随机矩阵或正交矩阵。对于和,我们通过对均值为0和方差为的高斯分布中的每个元素进行采样来初始化它们。和所有偏差矢量的所有元素都初始化为零。通过从均值0和方差的高斯分布采样来初始化任何其他

39、权重矩阵。 4.3.2 训练我们使用随机梯度下降(SGD)算法。Adadelta用于自动调整每个参数的学习率(和= 0.95)。当规范大于阈值时,我们明确规范了成本函数梯度的L2范数最多为预定义的阈值1。每个 SGD 更新方向用80个句子的小批计算。在每次更新时,我们的实施需要的时间与最长句子的长度成比例。因此,为了尽量减少计算浪费,在每20 次更新之前,我们检索 1600 个句子对,根据长度对它们进行排序并将它们分成 20 个小类。训练数据在训练前被洗牌一次,并按照这种方式顺序进行。4.4 定量结果在根据第二章所描述的基准系统的原理以及第三章所描述的改进系统的原理,通过最终计算出的概率和,最

40、后通过脚本运行出两个不同系统的相应的分值,评估得分方式如图-6,分值如下表-1。TranlationReferenceBLEU图-6 评分系统结构数据集NIST02NIST03NIST04NIST05NIST08AVGLamtram37.4235.4638.3235.7126.0334.59Lamtram_pos38.5435.7238.6735.9626.2034.82表-1 两种不同方法的实验结果数据在表-1中,列出了两种不同方法对于不同数据集的关系强度。从表格中的数据可以得出,相较原本的Lamtram系统,融入了词性信息的Lamtram_pos系统的关系强度已经有了显著的提升,二者之间的

41、平均关系强度相差了将近0.3。表-2 两种不同方法实验结果的比较从折线图中能更直观的看到不同的NIST语料下的系统翻译性能的走势。在不同的语料中,两种模型的翻译性能走势基本一致,其中融合词性信息的翻译系统的翻译结果要比基准翻译系统的翻译结果要好一些。但是目前总体的翻译性能还不是很强。不过在融合词性信息后有了些许提高,所以对于未来还是有发展空间的。第5章 结 论自神经网络机器翻译模型从诞生到现在,许多学者都在致力于模型改进或者是训练方法上的研究,为了提高翻译结果的质量,一直在融入其他信息以达到一个新的台阶。本文是在现有的神经网络翻译系统的基础上,提出了一种融入词性信息的神经机器翻译机制,借助于双

42、向RNN编码器-解码器架构,将词和词性信息进行联合比对,并从LDC获得的语料中进行实验验证该方法的有效性。由于现在实现神经网络机器翻译的平台比较多,无法以偏概全。为了保证实验结果的普适性,所以最终采用了目前在GitHub上用途较为广泛的DyNet2.0系统和相应的Lamtram开源代码。实验一开始先对原生的Lamtram系统进行训练,最后得出使用基准系统翻译结果的关系强度大约为34.59。得出实验结果后便将Lamtram源代码进行修改,在目标端中添加了词性信息,与词相融合,为后续实验做铺垫。在对同样的语料进行翻译后,新的翻译结果的关系强度大约为34.82,相比基准系统的结果提升了大约0.3。根

43、据对实验结果的分析和对神经机器翻译的工作机制的了解,得出进行融合词性信息的神经机器翻译可以提高翻译质量的必要性。本文所提出的方法在翻译质量上实现了与现有的基于短语的统计机器翻译相当的翻译性能。而神经机器翻译架构由于现世时间不长,可以说该方法有着很大的发展潜力,朝着高质量机器翻译迈出了坚实的一步。对于未知的或稀有的词汇,其词性信息并不是很明确的时候,这将会是未来面临的又一个挑战。但是这个挑战必须要被克服,因为这将是这款模型被更广泛地使用并适配于当前最先进的机器翻译系统在所有环境下进行高质量翻译的必要条件。 参考文献1Dzmitry Bahdanau, KyungHyun Cho, Yoshua

44、Bengio. NEURAL MACHINE TRANSLATION BY JOINTLY LEARNING TO ALIGN AND TRANSLATEC.ICLR,20152陈炜.基于神经网络的机器翻译技术研究D.北京:中国科学院大学,20163玉霞,王斯日古楞.蒙古文词性标注及融合词性因子的蒙汉统计机器翻译N.内蒙古师大学报(自然汉文版),2015(3):364-3674胡茹.融合多种词义消歧结果的汉英机器翻译N.电子技术与软件工程,2016 (5)5姚振宇.基于复述的机器翻译系统融合方法研究D.哈尔滨: 哈尔滨工业大学,20156陈宏申, 刘群.利用编码器解码器学习依存边翻译规则表示N

45、.中国科学:信息科学,2017(8)7龚慧敏,段湘煜,张民.自纠正词对齐J.计算机科学,2017(12)8马斌,蔡东风,季铎.基于动态词对齐的交互式机器翻译J.中文信息学报,2017(7)9刘洋.神经机器翻译前沿进展J.计算机研究与发展,2017(6)10郭子扬.神经机器翻译中的神经网络关算法改进J.电子世界,2018(1)11周海林,沈志贤.谷歌神经机器翻译质量现状分析J.科技资讯,2018(1)12刘笛.融合多语编码信息的神经机器翻译研究D. 哈尔滨: 哈尔滨工业大学,201713朱聪慧,曹海龙,赵铁军,刘笛,杨沐昀,郑德权,徐冰.融合多语编码信息的神经机器翻译方法P哈尔滨: 哈尔滨工业大

46、学,2017(7)14S Wu,D Zhang,N Yang,M Li,M Zhou. Sequence-to-Dependency Neural Machine TranslationC.Meeting of the Association for Computational,201715Mercedes Garcia-Martinez,Loc Barrault,Fethi Bougares. Neural Machine Translation by Generating Multiple Linguistic FactorsC.5th International Conference S

47、tatistical Language and Speech Processing SLSP,201716Su Jinsong,Zeng Jiali,Xiong Deyi,Liu Yang, Wang Mingxuan,Xie Jun. A Hierarchy-to-Sequence Attentional Neural Machine Translation ModelJ.IEEE-ACM TRANSACTIONS ON AUDIO SPEECH AND LANGUAGE PROCESSING,201817lvaro Peris,Miguel Domingo,Francisco Casacu

48、berta.Interactive neural machine translationJ.Computer Speech and Language,2017(45):201-22018Tan Zhixing,Su Jinsong,Wang Boli,Chen Yidong,Shi Xiaodong. Lattice-to-sequence attentional Neural Machine Translation modelsJ.NEUROCOMPUTING,2018(284):138-14719Lala Chiraag,Madhyastha Pranava,Wang Josiah,Spe

49、cia Lucia. Unraveling the Contribution of Image Captioning and Neural Machine Translation for Multimodal Machine TranslationJ.Prague Bulletin of Mathematical Linguistics,2017(108):197-20820Castilho Sheila,Moorkens Joss,Gaspari Federico,Calixto Iacer,Tinsley John,Way Andy. Is Neural Machine Translati

50、on the New State of the Art?J.Prague Bulletin of Mathematical Linguistics,2017(108):109-120致谢经过了两个多月的努力,我最终完成了论文的写作。从开始接到论文题目到系统的实现,再到论文文章的完成,每走一步对我来说都是新的尝试与挑战,这也是我在大学期间独立完成的最大的项目。在这段时间里,我学到了很多知识也有很多感受,从一无所知,到独立的学习和试验,再到查看相关的资料和书籍,这一步接一步都使自己头脑中模糊的概念逐渐清晰,使自己十分稚嫩作品一步步完善起来。每一次改善都是我学习的收获,每一次试验的成功都会让我兴奋好一段时间。我的论文很不成熟,有很多的不足之处。但是这次做论文的经历使我终身受益。我感受到做论文是要真真正正用心去做的一件事情,是真正的自己学习的过程和研究的过程,没有学习就不可能有研究的潜力,没有自己的研究,就不会有所

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论