(计算机软件与理论专业论文)基于双层模板结构的机器翻译方法研究.pdf_第1页
(计算机软件与理论专业论文)基于双层模板结构的机器翻译方法研究.pdf_第2页
(计算机软件与理论专业论文)基于双层模板结构的机器翻译方法研究.pdf_第3页
(计算机软件与理论专业论文)基于双层模板结构的机器翻译方法研究.pdf_第4页
(计算机软件与理论专业论文)基于双层模板结构的机器翻译方法研究.pdf_第5页
已阅读5页,还剩46页未读 继续免费阅读

(计算机软件与理论专业论文)基于双层模板结构的机器翻译方法研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 网络技术的发展和海量多语言文本的出现促进了机器翻译的发展,而现有的 机器翻译方法还远没有达到实用的程度,本文试图对基于实例方法( e b m d 做一 定的改进以提高它的性能,并希望能给以后的研究提供一个思路。 传统的基于实例的机器翻译方法对语料库规模要求极高,而在语料库规模不 够的情况下存在精确匹配率不高、模糊匹配译文质量差等缺点,而采用单层翻译 模板的方法对匹配到的短语翻译能力不够,对此,本文提出了基于双层翻译模板 的方法:提出了双层翻译模板的体系结构并给出了一系列模板的定义,给出了从 句子对齐的汉英双语语料库自动抽取双层翻译模板的算法,并设计了利用双层模 板库进行汉英翻译的高效率算法。最后,根据这些结构和算法,实现了一个机器 翻译原型系统。 具体的讲,本文的工作包含下面的内容: 1 提出了双层模板的体系结构,并给出了一系列模板的定义。 2 利用句子对齐的双语语料库分析树的对齐成分自动抽取汉语、英语句子 模板和子块模板,整个过程可以自动进行,也可以人工补充常用的短语 规则到子块模板库,以提高子块模板库的规模。 3 设计高效算法,将双层翻译模板库用于实际的翻译过程,实现机器翻译 原型系统。 关键字:机器翻译、双层翻译模板、自动抽取、原型系统 a b s t r a c t b i - l a y e rt e m p l a t e b a s e dm a c h i n et r a n s l a t i o n l ij i f e n g ( c o m p u t e rs o f t w a r ea n d i h r y ) d i r e c t e db yl i uq u n m a c h i n et r a n s l a t i o n ( m t 、i sg r o w i n gw i t ht h ed e v e l o p m e n to fn e t w o r ka n d t h ea p p e a r a n c eo fal a r g em o u n to fm u f t i - l a n g u a g et e x t s b u ti t i ss t i l la d e v e l o p i n gr e s e a r c h t h i st h e s i si n t e n d st oi m p r o v et h ep e r f o r m a n c eo fl h e e x a m p l eb a s e d m a c h i n e t r a n s l a t i o n ( e b m t ) a n dh o p e s t op r o v i d ean e w w a y f o rt h ef u t u r er e s e a r c h t r a d i t i o n a ie x a m p l e - b a s e dm a c h i n et r a n s l a t i o ni sb a s e do ni a r g e - s c a l e e x e m p l a r s a n di th a ss h o r t c o m i n g ss u c ha sl o wm a t c h i n gr a t ew h e n a c c u r a t e m a t c h i n gm e t h o di su s e da n dp o o rt r a n s l a t i o nq u a l i t yw h e nf u z z ym a t c h i n g m e t h o di su s e d a n dt h em e t h o dw i t hm o n o l a y e rt r a n s l a t i o nt e m p l a t e sj sw e a k i n p h r a s et r a n s l a t i n g t h e r e f o r e 。t h i s t h e s i s p r o p o s e s o n em e t h o dw h i c h a u t o m a t i c a l l y e x t r a c t s b i - l a y e r t r a n s l a t i o n t e m p l a t e sf r o ms e n t e n c e - a l i g n e d b i l i n g u a lc o r p u s t h o s ea c q u i r e d t r a n s l a t i o n t e m p l a t e s c a no b t a i n h i g h e r m a t c h i n gr a t e t h a nt r a d f f i o n a le b m t , w h i l e k e e p i n gg o o d t r a n s l a t i o nq u a l i t y i nd e t a i l t h ef o i l o w i n gt e n t a t i v ee f f o r t sa r ej n c l u d e di nt h i st h e s i s : 1 b r i n g f o n i i ,a r dt h eb i l a y e rt r a n s l a t i o nt e m p l a t ea r c h i t e c t u r e o n ei s s e n t e n c et e m p l a t el a y e r , t h eo t h e ri sc h u n k t e m p l a t ei a y e na n dg i v ea s e r i e so fs p e c i f i cd e f i n n i o n s 2 a u t o m a t i c a l l y e x t r a c tb i l a v e rt r a n s l a t i o n t e m p l a t e s f r o mt h e s e n t e n c e a l i g n e db i l i n g u a lc o r p u su s i n g t h e a l i g n e dp a r t s o fe a c h s e n t e n c ep a i r sp a r s et r e e t h ee x i s t i n gp h r a s er u l ec a nb ea d d e dt o t h ec h u n k t e m p l a t ei i b r a r ym a n u a l l y 3 d e v e l o p ap r o t o t y p eo fm a c h i n et r a n s l a t i o ns y s t e mu s i n gt h ee x t r a c t e d b i l a y e rt r a n s l a t i o nt e m p l a t el i b r a r y , k e y w o r d s :m a c h i n et r a n s l a t i o n ,b i l a y e r t r a n s l a t i o n t e m p l a t e s ,a u t o m a t i c e x t r a c t i o n 。p r o t o t y p eo fm a c h i n e t r a n s l a t i o ns y s t e m 声明 声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作 及取得的研究成果。就我所知,除了文中特别加以标注和致谢的地方 外,论文中不包含其他人已经发表或撰写过的研究成果。与我一同工 作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并 表示了谢意。 作者签名:考纪棒 日期:j z 稿j - 易 关于论文使用授权的说明 中国科学院计算技术研究所有权处理、保留送交论文的复印件, 允许论文被查阅和借阅;并可以公布论文的全部或部分内容,可以采 用影印、缩印或其它复制手段保存该论文。 作者硌他哗导师躲训膏冁椰i 哆 引言 自然语言处理与机器翻译 引言 自然语言处理( n a t u r a ll a n g u a g ep r o c e s s i n g ,n l p ) 是计算机科学、语言学、 心理学、认知科学和数学等多学科交叉而成长起来的一门边缘学科。它往往通过 建立形式化的模型来分析、理解和处理自然语言,所以也常常被称为计算语言学 ( c o m p u t a t i o n a ll i n g u i s t i c s ) 。 由于自然语言处理的研究和处理对象是人类自然形成的极其复杂的语言现 象,所以极具艰巨性,事实上,自4 0 年代产生以来,这门学科经历了十分曲折 的发展历程。不过,随着信息社会的到来,由于在机器翻译、信息检索、人机接 口等信息处理领域有着广泛的应用前景,自然语言处理又恢复了它应有的勃勃生 机。 机器翻译是自然语言处理的主要目标之一,是自然语言处理的一项重要应 用。机器翻译的发展同自然语言处理一样,也有过许多波折。当今社会,随着信 息化程度的急剧提高,信息高速公路深入人心。但是目前国际互联网使用的主要 语言是英语,有8 0 的站点位于说英语的国家,语言障碍已经成为限制信息化程 度提高的主要因素之一。在这种环境下,机器翻译研究成为众多学者的研究热点, 并由于巨大的市场潜力而受到越来越多的关注。 机器翻译技术 研究人员利用计算机进行机器翻译的研究以来,主要采用了这么几类方法 一基于规则的方法( r u l e - b a s e dm e t l l o m 一基于实例的方法( e x a m p l e - b a s e dm e t h o d l 统计机器翻译( s m f i s t i c a lm a c h i n et r a n s l a t i o n l 基于规则的方法是通过对语言现象的综合和认识,不断总结其规律,形成自 己的语法和语义规则体系。系统利用这些规则来分析输入的语言,形成一种内部 表示。然后,根据这种内部表示转换成相应的目标语言结构,并形成译文。 而基于实例的机器翻译和基于统计的机器翻译,都是利用语料库的信息来指 导机器翻译的过程。 近几年还有一些多种方法结合的系统,主要是利用各自的优点以求得到更好 基于双层模板结构的机器翻译方法研究 的翻译效果。 双语语料库 语料库在现代自然语言处理中有很重要的地位,尤其是双语语料库,由于包 含两种不同语言之间的互译对照信息,它能够为双语方面的自然语占研究提供直 接的强有力支持。 本世纪六、七十年代以来,许多国家都建立了或正在建立大规模的单语语料 库。单语语料库( 英语、汉语等) 的规模已经相当客观,但由于大规模双语语料库 的建设需要耗费更大的人力、物力,所以现在双语语料库( 比如汉英) 的规模还 不太令人满意。由于缺乏大规模汉外双语库的支持,目前国内基于汉外双语语料 库的研究大都停留在实验和摸索阶段,并且研究结果可比性也不强。因此,为了 加速我国汉外自然语言处理研究的进展,汉外双语语料库的建设势在必行。 尽管如此,国内的研究者还是根据自己的需要收集、整理了一定规模的汉英 双语语料库,已经有很多研究工作建立在双语语料库的基础之上,比如,从双语 语料库中学习翻译规则,自动获取双语电子词典,以及利用双语语料库进行词义 辨别和排歧等。上文提到的后两种机器翻译方法都需要强大的双语语料库支持, 本文的工作也是建立在句子对齐的双语语料库基础上。 本文的研究背景、思路 本文的研究基于以下背景: 1 :现有的双语语料库规模达不到传统e b m t 的要求,如何最大限度的利用 现有语料库成为一个重要的研究方向。 2 :已经有研究者提出了一些语料库的泛化方法,以便让现有的语料库发挥 更大的作用,如果能够找到一种更系统的学习方法,让计算机自动或半自动地获 得有关翻译的各种知识,并将这种获得的翻译知识加以高效的利用,则提高翻译 质量也就有了可靠而快捷的途径。 基于上述背景,本文的工作期望达到以下目的: l :找到一个可靠的学习方法,对双语库进行泛化,从汉英双语语料库中自 动获得翻译知识,具体的说是两层翻译模板一一句子模板和予块模板。这是对双 语语料库的一种扩充。 2 :以这些自动获得的模板为基础,设计高效的匹配算法,实现一个机器翻 译原型系统,以检验自动抽取的效果。 引言 3 :我们希望这个原型系统可以完全自动运行,以方便评价、改进;但对各 个环节提供人工修正的接口,以获得更好的效果。通过更换语料库就可以自动学 习一套模板以适应不同的领域,提高系统的适应能力。 为了达到上述目的,我们通过以下步骤开展工作: l :句子级对齐的双语语料库的收集、整理 2 :对双语库进行预处理:分词、标注、句法分析 3 :对双语句子对做词语对齐 4 :寻找双语句子对的对齐成分( 通过句子结构和词语对齐结果) 5 :根据对齐结果,自动抽取句子模板、子块模板 6 :对子块模板提供人工加工的接口 7 :利用抽取的句子模板库、子块模板库,设计高效算法,对输入句子做双 层模板匹配,实现机器翻译原型系统 8 :系统评价和反馈 其中,模板抽取时,我们把对齐的成分作为模板的槽,其他成分作为框架; 词语对齐的结果视出现的位置决定是句子模板的槽或者子块模板的槽:寻找对齐 成分时,利用了一个基本假设:两个句子的最大n p 应该是对齐的。 本文的正文部分将这么组织: 第一章,概述一下现有的机器翻译方法,并评价各种方法的特点,并且会 对本文思路相关的e b m t 进行重点介绍。 第二章,重点介绍基于实例的机器翻译和一些泛化方法。 第三章,给出本文双层模板结构的系列定义。 第四章,讨论双层模板自动抽取的相关内容。 第五章,描述我们双层模板自动匹配的算法,并介绍译文生成的一些细节。 第六章,给出我们机器翻译原型系统的体系结构并介绍实验相关的内容。 第七章,对所做工作进行总结并对将来的方向进行展望。 基于双层模板结构的机器翻译方法研究 第一章机器翻译方法概述 从第一个机器翻译系统诞生到目前为止,世界上的研究人员尝试了许多种方 法,这些方法都有其独特的优点和处理思路,当然也都存在一些限制和不足,总 结起来下面按照几个不同的分类体系予以介绍: 1 1 机器翻译的分类 从应用的角度 限定领域的机器翻译 通用领域( 非限定领域) 的机器翻译 歧义是影响机器翻译的译文质量的一个关键因素,而如何消解歧义是机器翻 译的一个关键环节。限制输入语言在一个足够窄的领域很可能就可以排除一部分 歧义。 在机器翻译的整体效果不尽人意的情况下,限定领域是最先有可能取得成 功,最有可能达到实用的程度的方法。 从人机关系的角度 全自动机器翻译 计算机辅助翻译系统 和上述的限定领域有异曲同工之处,计算机辅助翻译系统也是在全自动机器 翻译效果还不能满足实际应用的要求时,为了扩大机器翻译的应用领域,方便用 户使用而实现的一种软件系统。 从机器翻译系统的实现方法 v ,基于规则的机器翻译系统( r m e b a s e d ) 基于实例的机器翻译系统( e x a m p l e - b a s e d ) 基于统计的机器翻译系统( s t a t i s t i c a l m a c h i n et r a n s l a t i o n ) 这种分类主要依据的是使用的语言知识和采用的翻译方法的不同。 基于规则的机器翻译系统的技术已经比较成熟,它所使用的语言知识主要是 通过对语言现象的抽象、归纳和总结得到的一些语言表达规律,然后对这些规律 进行形式化的描述,建立相应的处理规则。语言规则的归纳通常是一个人工整理 4 第一章机器翻译方法概述 的过程,依靠的是语言学家的语言知识。所以比较适合处理有规律的语言现象, 而缺乏对一些特例的处理能力。 基于实例的机器翻译和基于统计的机器翻译,二者都是利用语料库的信息来 指导机器翻译的过程。相对于基于规则的系统,他们的翻译知识是从真实语言得 来,在处理语言现象的特例方面比基于规则的方法有一定优势。 1 2 基于规则的机器翻译 基于规则的机器翻译( r u l e b a s e dm a c h i n e t r a n s l a t i o n ) 技术是最成熟的,也 是到目前为止应用最广的,目前商用的机器翻译系统一般都是基于规则的。 基于规则的机器翻译系统主要是这样的过程: 通过对语言现象的综合和认识,不断总结其规律,形成自己的语法和 语义规则体系。包括单语的分析规则和双语转换规则。 系统利用这些规则来分析输入的语言,形成一种内部表示。 根据这种内部表示和相应的转换规则转换成相应的目标语言的内部表 示,并形成译文。 基于规则的机器翻译发展到今天,相对来说已比较成熟。经过长期努力,人 们己经创建了含有成千上万条规则的规则库,覆盖了相当大范围的语言现 象。 源语言语句 词法分析 源语言词串 句法分析 源语言结构转换 目标语言语句 词形生成 目标语言词串 结构生成 目标语言结构 圜1 1 基于规则的机器翻译系统结构 但是从理论上讲,这种过程是有限的。语言往往是一个民族几千年经验的积 累,通常是约定俗成而又动态发展的。随着社会的不断发展,新的词汇和语言现 象会不断的出现。现有的机器翻译系统的规则再多,都只是特定语言现象的总结 和概括。所以单纯采用基于规则的自然语言处理系统难以应付现实世界中复杂多 变的语言现象。并且由于专家描述的规则知识通常颗粒度较大,不利于处理大量 基于双层摸板结构的机器翻译方法研究 的细节,因而在处理大规模的开放语料时,往往会遇到难以克服的困难。 1 3 基于实例的机器翻译 基于实例的机器翻译( e x a m p l e b a s e dm a c h i n et r a n s l a t i o n ) 的基本思想是由 日本著名机器翻译专家长尾真提出的,他于1 9 8 4 年发表的论文“af r a m e w o r k o f am e c h a n i c a lt r a n s l a t i o nb e t w e e n j a p a n e s ea n de n g l i s hb ya n a l o g yp r i n c i p 如”可视 为这一研究领域的起点。 基本原理 系统的主要知识源是双语对照的翻译实例库,每当输入一个源语言句子s 时, 系统找出库中和s 最为相似的句子s ,并模拟s 韵译文丁构成s 的译文r 然后 输出。 这种方法实际上是模拟了人类翻译的过程:人类不通过做深层语言学分析翻 译句子;人类的翻译过程是首先正确分解输入句子,分解成短语碎片,接着,把 这些短语碎片译成其它语言短语,最后把这些短语合并成长旬。每个短语碎片采 用类比的原则进行翻译。 这种方法能吸引很多研究人员注意的优点有: 容易产生高质量的译文,一旦输入能和实例精确匹配,译文的质量是基于规 则的方法所不能比的。 可以避免一些传统的基于规则机器翻译必须进行的深层次语言学分析。 系统维护容易,系统中知识以翻译实例和语义词典等形式存在,可以很容易 的利用增加实例和词汇的方式扩充系统。 由于大规模获取语言知识的代价非常大,对于词法、语法和语义的规则的收 集概括难以全面,机器翻译系统的性能一直徘徊不前。利用已经存在的双语语料 库资源为新的翻译需求提供经验,是目前提高机器翻译系统译文质量的重要途径 之一。e b m t 对于相同或相似的文本的翻译有非常显著的效果,随着例旬库的规 模的增加,其作用也越来越显著。对于已经有的相同的篇章、段落和例旬可以直 接获得高质量的翻译结果。对于库中存在的十分相似的翻译实例,可以通过类比 推理,并对翻译结果进行少量的修改,构造近似的翻译结果。 当然,使用这种方法,达到一定的覆盖率需要一个很大的语料库作为支撑, 这需要投入巨大的人力和物力。如何解决这个问题是本文思路最初的由来。 6 第一章机器翻译方法概述 1 4 基于统计的机器翻译 随着计算机性能大幅度的提高,昔日大型计算机才能胜任的工作今日工作站 或个人计算机就能够完成,也有了大量的联机语料供统计使用,在自然语言处理 领域,统计方法又获得新生。 现在,统计方法已经成功地用来处理语音自动识别、词典编纂、词法分析等 问题。目前将统计方法用于机器翻译研究最为突出的是i b mw a t s o nr e s e a r c h c e n t e r 的b r o w n 等人的工作。统计机器翻译方法由于其数学推导严密、模型一 致性好、可以自动学习、鲁棒性强等优点,越来越受到人们的重视。 统计机器翻译大体上可以分为三类 刘群2 0 0 3 : 基于平行概率语法的统计机器翻译方法 用一个双语平行的概率语法模型,同时生成两种语言的句子,在对源语 言句子进行理解的同时,就可以得到对应的目标语言句子。这种方法的主要 代表有a l s h a w i 的h e a dt r a n s d u c e r 模型和吴德恺的i t g ( i n v e r s i o n t r a n s d u c t i o ng r a m m a r s ) 模型。 基于信源信道模型的统计机器翻译方法 目前最有影响的统计机器翻译方法,一般说的统计机器翻译方法都是指 的这一类方法。这种方法是由i b m 公司的p e t e rb r o w n 等人在1 9 9 0 年代初 提出的 b r o w n1 9 9 0 ,后来很多人都在这种方法的基础上做了很多改进工作。 基于最大熵的统计机器翻译方法 比信源信道模型更一般化的一种模型,是由德国o c h 等人最近提出的 o c h2 0 0 2 。 1 4 1 基于信源信道模型的统计机器翻译方法 最常见和最具代表性的统计机器翻译模型是信源信道模型,该模型认为翻译 问题也是一个噪音信道问题: 图1 2 噪音信道 可以认为,一种语言s 由于经过了一个噪音信道而发生了扭曲变形,从而在信道 的另一端呈现为另外一种语言t 。翻译问题实际上就是如何根据观察到的t ,恢 复最为可能的s 的问题。 基于双层模板结构的机器翻译方法研究 这种观点认为,一种语言中的任何一个句子都有可能是另外一种语言中某个 句子的译文,只不过可能性有大有小。用p ( s l t ) 表示s 译成t 的概率,那么翻 译问题就成为:在观察到t 的前提下,如何寻找一个s 使得p ( s i t ) 取最大值的 问题,即: s = a r g m a x p ( s 17 ) 5 利用贝叶斯公式,有: 。,、e ( s ) p ( t i s)p(sl r ) = 兰 p ( 7 ) 因p ( t ) 和s 无关,故有: s = a r g m a x p ( s ) p ( tls ) s 其中,p ( s ) 是源语言的文本s 出现的概率,称为语言模型。p ( t l s ) 是由源语言文 本s 翻译成目标语言文本t 的概率,称为翻译模型。 语言模型只与源语言相关,与目标语言无关,反映的是一个句子在源语言中出现 的可能性,实际上就是该句子在句法语义等方面的合理程度: 翻译模型与源语言和目标语言都有关,反映的是两个句子互为翻译的可能性。 使用翻译模型p ( s i t ) 来选择合适的翻译s ,语言模型p ( s ) 就可以保证得到的译 文尽可能的符合语法。因此,在基于统计的翻译系统中要解决三个问题: 如何计算语言模型p ( s ) ; 如何计算翻译模型p ( t i s ) ; 如何在所有可能的s 中有效地搜索使p ( s ) p ( s l t ) 最大的s 。 对于语言模型p ( s ) ,有n 元语法、链语法等模型: 由s = s i 乩勘,不失一般性,得到 p ( s l s 2 曲) = p ( s 1 ) p ( s 2 j 1 ) p ( 晶is i , t 2 s n i ) 在只考虑r 1 个历史的前提下简化得到的模型称为r l 元模型( n g r a mm o d e l ) ,一 般情况下取n :2 或n = 3 分别得到二元模型( b i g r a mm o d e l ) 和三元模型( t r i g r a m m o d e l ) 。尽管从语言学角度来讲,i i 元模型过于简单化了,但是从语音识别等领 域的使用情况来看,它还是十分有效的。 链语法模型比n 元语法模型的优点在于可以考虑长距离的依赖关系。 对于翻译模型,著名的如i b mm o d e l1 5 等。 统计机器翻译的缺点也是客观存在的: 和基于实例的方法类似。基于统计的方法也需要大规模双语语料 翻译模型、语言模型参数的准确性直接依赖于语料的多少 其翻译质量主要取决于概率模型的好坏和语料库的覆盖能力。 第一章机器翻译方法概述 翻译模型、语言模型在简化过程中也带来了一些缺陷,在简化和可行之间存 在一个权衡问题。 虽然基于统计的方法不依赖大量的人工整理的知识,直接靠统计结果进行歧 义消解和译文选择,避开了语言理解的诸多难题。但是统计需要大量的语料 而且最好是和实际问题相关的语料,语料处理的工程量很大。 因此当前通用领域的机器翻译系统很少以统计方法为主。比如著名的法英机 器翻译系统c a n d i d e ,它训练用的是加拿大议会语料库,同类文本的翻译效果令 人满意而对于其他类型的文本翻译效果并不好。 不过,随着统计方法在自然语言处理领域不断取得成功,越来越多的学者将 注意力集中到统计机器翻译上来,刘群 刘群,2 0 0 3 等在这方面的研究已经取得 很大进展,我们期待统计机器翻译的新发展。 1 5 机器辅助翻译系统 考虑到目前机器翻译技术的发展,要想让机器翻译系统达到和人翻译一样的 效果,还必须待以时日。目前的机器翻译对于大规模真实文本还不能实现高质量 的译文输出,而我们又需要达到出版质量的翻译结果,在这样一对矛盾之间,现 实的选择恐怕就是降低要求。不期望全自动翻译能够给出高质量的译文,而是通 过人机互助的翻译方式来完成特定的翻译任务,这应当是一种可行的方案。 计算机辅助翻译( c o m p u t e r - a i d e dt r a n s l a t i o n ) 就是通过研制计算机辅助 翻译软件,使人们能够更快速、准确的进行翻译。该软件一般利用其存储的例句 库,同时结合一些其他的翻译技术,通常具有很好的自学习功能,并有非常友好 的人机界面,是一种提高翻译效率的辅助工具,主要面向有较高英语水平的专业 翻译人员。目前机器辅助翻译系统已经比较成熟,例如欧洲的t r a d o s 等。 在现实条件下,要逐步发展机器翻译技术,切实发挥机器翻译作用,提高翻译效 率,大力发展辅助翻译是机器翻译未来的方向。辅助翻译技术和双语语料库的发 展是密不可分的。 1 6 受限领域的机器翻译 通用的机器翻译系统遇到的主要困难是歧义问题,包括结构和意义的歧义, 但如果能在作用范围上作一定的限制就可以达到排歧的目的。 受限领域的机器翻译系统将自己的研究对象严格限制在一个特殊领域内。由 基于双层摸板结构的机器翻译方法研究 于领域的狭窄以及词汇、语义及句法结构的限制,使得歧义大幅度减少,甚至根 本就没有歧义。这就为产生高质量译文提供了可能。 加拿大蒙特利尔大学开发的用于把气象预报信息自动由英文译成法文的系 统就是一个成功的受限领域机器翻译的实例。但该方法并不能在所有专业领域都 能获得成功,寻找一个像天气预报系统一样词汇、语义及句法结构都受到很强限 制的专业领域也是十分困难的。 1 7 机器翻译系统的评价 对研究工作进行准确、合理的评价不仅可以帮助研究人员有效地检验自己的 工作成果,还可以在和别人方法不断的比较中寻找到解决问题更有效的方法,为 将来的研究指明方向。所以评测体系在研究工作中起着非常重要的作用,在自然 语言处理中也不例外,机器翻译评测方法的研究,已经成为机器翻译研究中的一 个热点问题。在最近的m ts u m m i t 2 0 0 1 ,就有一个专门的w o r k s h o p 讨论机器翻 译的评测问题。 机器翻译的评测,主要有人工评测和自动评测两种方法。 人工评测 优点是准确率高。 缺点是人力成本和时间成本都太高。 自动评测 优点是成本低,速度快,可以反复使用。 缺点是准确率较低。 目前机器翻译评测研究的重点主要在于如何提高自动评测的准确率。 目前,有这么几种有代表性的自动评测方案 1 7 1 基于测试点的机器翻译自动评测 【俞士汶,1 9 9 l 】提出了一种基于测试点的机器翻译自动评测方法,采用一种类似 标准化考试的办法,对机器翻译的各个主要指标设计一定数量的试题进行测试, 以达到对机器翻译性能的总体评价。 这可能是世界上最早提出的自动评测方案,这种方法的主要缺点是试题的编写需 要非常专业的人员,成本较高,题库的扩充比较困难。 1 0 第一章机器翻译方法概述 1 7 2 i b m 的b l e u ( b i l i n g u a l e v a l u a t i o nu n d e r s t u d y ) 评价方法 i b m 公司在其一份技术报告 p a p i n c n i2 0 0 1 仲提出了一种基于n 元语法的机 器翻译自动评测方法,其基本思想是:将机器翻译产生的候选译文与人类翻译者 提供的多个参考译文相比较,越接近则候选译文的正确率越高。 所谓n 元语法的精确率,就是候选译文中n 词接续组在参考译文中出现的比 例。对于候选译文中某个n 词接续组出现的次数,如果比参考译文中出现的最大 次数还多,要把多出的次数“剪掉”( 不作为正确的匹配) 。 这种做法只考虑了“精确率”,而没有考虑到“召回率”。为了避免“召回率” 过低的问题,b l e u 的评价标准又对比参考译文更短的句子设计了“惩罚因子”。 在b l e u 中,n 的实际取值是1 一。总的评价指标是一元语法到四元语法的 几何平均。 另外,对于整个语料库而言,b l u e 的计算是基于词语进行的,而不是基于 句子的。对于长度不同的句子,要以句子的长度进行加权平均。 因此b l e u 的总体评价公式如下: ,芝、 b j 麒kb p e x p f :n l o g i 其中,p n 是出现在参考译文中的n 元词语接续组占候选译文中n 元词语接续组 总数的比例,w n = 1 n ,n 为最大的u 元语法阶数( 实际取4 ) 。b p 为长度过短 的惩罚因子,按以下方式计算: b p 一 扩1 ,c ) i i f f : 其中c 为候选译文中单词的个数,r 为参考译文中与c 最接近的译文单词个数。 根据i b m 的实验,b l e u 可以相当好地模拟人类专家对机器翻译的评测结果。 参考下图中的曲线。 基于双层模板结构的机器翻译方法研究 其中s 1 、s 2 、s 3 分别是三个不同的机器翻译系统提供的译文,h 1 和h 2 是两个 人类翻译者提供的译文。蓝线是b l e u 系统评测的结果,红线是只懂目标语言的 人类专家提供的评测结果,绿线是同时懂源语言和目标语言的人类专家提供的评 测结果。可以看到,这三条曲线拟合得相当不错。特别是与只懂目标语言的人类 专家相比,在翻译质量不是特别好的时候( 恰好现有机器翻译系统的质量都不是 太好) ,曲线的拟合程度更高。 1 7 2n i s t 的机器翻译自动评价 美国国防部历来非常重视对机器翻译的评测,长期以来一直在进行机器翻译 的评测。i b m 统计机器翻译给出的最有说服力的结果就是1 9 9 3 年在d a r p a 测 试中和著名商业机器翻译系统s y s 仃a n 的比较结果。 近年来,在美国d a r p a ( 国防部高级研究计划署) 资助的项目t i d e s ( t r a n s l i n g u a li n f o r m a t i o nd e t e c t i o n , e x t r a c t i o n a n ds u m m a r i z a t i o n ) 框架下,由美 国n i s t ( 国家标准与技术局) 出面组织,从2 0 0 1 年起( 计划安排到2 0 0 5 年) , 又开始进行每年一次的机器翻译评测。主要考虑的语言对是汉语到英语和阿拉伯 语到英语。2 0 0 1 年1 2 月进行了评测的试运行( d r yr u n ) ,2 0 0 2 年6 月进行了第 一次正式评测。 n i s t 评测采用自动评测和人工评测相结合的办法,自动评测采用e m a i l 方 式全自动进行。自动评测的程序采用的程序是在b l e u 的基础上改进得到的。训 练语料与评测系统( 包括源代码) 在评测前几个月就完全公开。测试语料在测试 的前几天通过电子邮件发到参评单位,参评单位必须在截止日期前通过电子邮件 提交测试结果,并可以在几分钟之内得到自动评测的成绩。在各单位提交测试结 果后不到两个月的时间内举行一次由所有参评单位参加的小型研讨会,评测组织 者宣布自动评测和人工评测的结果,由各单位介绍各自的机器翻译系统和参加评 测的体会,并对评测方法提出改进意见。评测的结果不对外公布,只在参评单位 的内部公开。 n i s t 已于2 0 0 2 年6 月份举行了第一次正式评测 n i s t2 0 0 2 】。 1 2 第二章基于实例的机器翻译及其演化 第二章基于实例的机器翻译及其演化 引言 基于实例的机器翻译( e x a m p l e - b a s e dm a c h i n et r a n s l a t i o n ,e b m t ) 基于这 么一种认识:以前的酗译结果总是可信的,面且总是有些信息和翻译知识可 以重复利用,对新的翻译有用。这种认识是从人类自身的翻译经验得来,所 以很有效果,特别是对同类文档或句子。 因为本文的思路可以说是基于实例思路的一种演化,所以本章将详细介 绍一下e b m t 的原理、优势、系统流程以及难点,另外还将介绍一些扩展的 e b m t 思路,主要是对实例库泛化的一些方法,这些方法是本文思路的来源。 2 1 传统的e b m t 系统 2 1 1e b m t 基本原理 基于实例的机器翻译在很大程度上借鉴了基于范例的推理( c a s e b a s e d r e a s o n i n g ,c b r ) 的方法。c b r 根据当前问题的特征获得记忆中的相似的例子, 并利用该例来指导当前问题的求解。c b r 中的知识表示以例子为基础,其获取比 规则容易。简化了知识获取的难度。另一方面,它对过去求解的复用减少了重复 推理的代价,提高了效率。过去的成功经验或失败教训都可以被当前问题求解借 鉴,可以改善求解的质量。 对于问题a ,c b r 首先从范例库中检索出同a 最相似的范例a ,然后得到a 和a 的类比特点,并根据这个类比关系和范铡 的解b 来构造范例a 的解b ( 图 2 1 ) 。 圈2l 范倒推理 一1 3 - 基于双层模板结构的机器翻译方法研究 同基于规则的推理相比,c b r 具有以下几个优势: 1 由于减少了规则运转的过程,c b r 提高了解决问题的效率 2 解决方案的质量有明显的提高 3 解决了基于规则的推理中知识获取的难题 基于范例的推理必须要解决好下面几个关键问题: 1 模式之间相似关系的确定 2 相似模式的检索 3 范例特征提取 4 相似度的定义和计算 5 范例库的组织 2 1 2e b m t 基本流程 一个简单的e b m t 流程图如下( 图2 2 ) : e b m t 的主要研究内容是利用以往的翻译知识和结果,并根据输入和例句的 图2 2 一个简单的e b i i t 系统流程 差异来有效改变译文。e b m t 必须解决好如下几个问题: 语句特征的提取 语句相似度如何计算 如何检索相似语句 如何确定类比关系 如何根据类比关系构造新的译文 新例句的存储利用 1 4 第二章基于实例的机器翻译及其演化 2 1 3e b m t 分析 2 1 3 1e b m t 优点 e b m t 之所以能够引起很多研究者的兴趣,因为以下的一些优点: 1 译文是由语料库中的原文变换而来,具有真实、可靠的特点。 2 翻译算法主要是通过类比、转化来构成,处理速度比较快:如果采用并 行的算法检索实例库,可以进一步提高系统的性能。 3 能够解决一些传统的基于规则的机器翻译系统处理不好的问题。比如说 特例问题。规则大多是由人为制定的能反映一般语言现象的规律,往往 对于特例的处理能力不够,而特例多恰恰是自然语言的一个特点,这对 e b b f t 不是个问题。另外,r b m t 中随着规则数目的增多,规则之间不可 避免的产生一些冲突;并且规则的调试也是一件非常耗费人力和物力的 工作。 2 1 3 2e b m t 难点 一个机器翻译系统肯定会有它应有的难度,e b m t 当然也不例外: 1 语料库对齐 e b m t 要达到较好的效果,必须建立在一个庞大的例句库的基础上。利用现 有的双语语料库,我们可以利用自动对齐技术进行语句一级的自动对齐工作,将 得到的语句对存入例句库。目前关于自动对齐的研究已经开展了很多,并且能达 到较好的准确率。但要进一步的提高精度需要人工干预。 2 实例的加工程度 可以采用多种表示方法,如:原始文本、分析树等。用原始文本表示工作量 小,比较合理,但是由于输入很难和语料库中的语句或短语完全匹配,重组问题 很难解决。如果采用树库则比较好解决译文重组问题,但是需要深层次的分析。 如果人工处理的话需要很大工作量,而自动处理则有悖于e b m t 的初衷,并且 很难保证分析结果的准确率。 3 相似度的定义 相似本来就是一个很模糊的概念,因此语句之间的相似度的描述也是相当不 精确、不完整和不确定的。每一种相似的定义都只能从某一个侧面来描述关系。 在e b m t 中,“相似”一般是指两个语句对于翻译过程来讲是相似的。通常存在 基于双层模板结构的机器翻译方法研究 两种相似度:基于字符特征的相似度和基于句法特征的相似度。 ( 1 ) 基于字符特征的相似度根据语句的字符特征来进行计算,不进行深层次的分 析,处理能力有限。但是对于语句之间相差不大,通过简单的词语替换可以 匹配的情况,具有简单高效的特点。 ( 2 ) 基于句法特征的相似度需要对语句进行句法分析,从理论上讲更能反映语句 之间的内在联系;但由于该方法严重依赖于句法分析器的分析质量,有悖于 e b m t 的初衷。 4 翻译对应关系的建立 翻译对应关系可以说是决定译文质量的一个关键问题。翻译关系同例句库的 对齐程度、匹配算法等都有密切的关系。如果例句库不光是在语句一级对齐,还 存储了一些短语对齐的信息甚至语法分析树,则翻译对应关系相对来讲比较容易 建立:反之,如果例旬库只是存储了语句对齐信息,则翻译对应关系较难建立, 可能要用到其他分析技术。 5 ,例句库的组织和管理 一个实用的e b m t 系统离不开一个高质量、大规模的例句库。库的规模以及 随之而来的大规模例旬库的组织和管理都是很重要而又很困难。对于e b m t 系 统来讲,例句库质量的好坏是决定其翻译质量的一个关键因素。 2 2 泛化的e b m t ( g e b m t - - g e n e r a l i z e de b m t ) 2 2 1 研究背景 通过上述分析,我们知道,e b m t 虽然有很多优点,但是同时也存在诸如匹配 率比较低,需要大规模的例旬库的支持等缺点。这使得传统的e b m t 系统不能 在自动、非限定领域的机器翻译中获得较好的评价。如何在保持翻译质量的前提 下提高其匹配率是众多研究人员关注的问题之一。 双语语料库作为人类翻译劳动的结晶,可以被机器看作是一个翻译专家的知 识库。如果能够找到一种合适的学习方法,让计算机自动或半自动地获得有关翻 译的各种知识,则提高翻译质量也就有了可靠而快捷的途径。 泛化的e 1 3 i , i t 的基本思想就是通过对自然语句中的词语或者片段进行抽象和 概括来降低输入维数,从而提高语句的匹配率。一方面,该方法提高了现有语料 的利用率从而减少了对语料库规模的依赖;另一方面,由于被抽象和概括的词语 或者是片段具有普遍性,一般该部分的变化不会影响翻译的结构和框架,这样可 以保证翻译译文的质量同泛化之前相当。 1 6 第二章基于实例的机器翻译及其演化 2 2 2 相关工作 2 2 2 1 k a j i 的模板抽取方法 日本日立公司的k a j i 等人提出了一种从平行语料库中获取翻译模板的方法。 1 ) 首先,对源语言和目标语言的句子用c k y 算法进行分析。 2 ) 然后,通过双语词典和词语共现概率进行语句中的词语对齐工作。 k a j i 判断对齐的标准是: 对于源语言中的每个短语x ,在目标语言中寻找短语y ,使得它包括x 中每个词的对应部分,并且不包括x 之外的词的对应部分,如果找到了这样 的y ,则认为x 和y 是互译的。 3 ) 经过上述过程可以获得互译的短语对,在短语对中用变量来替代其中的 一些对译的子短语便可以获得翻译模板。将源语言句子中被替代的子短 语的语法类型作为该替代变量中的一个约束条件。将这个替代过程应用 于每个重叠的短语对,就可以得到一系列的翻译模板。 该系统中的翻译模板可以对应句子的片段,片段的翻译模板通过嵌套在其他 翻译模板中可以获得整个句子的翻译。 2 2 2 2 c a r n e g i em e l l o nu n i v e r s i t y 的系统介绍 c m u 很早就开展了关于e b m t 的研究。他们认为一个e b m t 系统的最大的 问题在于它需要一个庞大的例旬库。为了能有效的利用已有的例句,他们提出了 对例句进行了泛化( g e n e r a l i z a t i o n ) 。 例如下面的语句对: j o h nw a si np h i l a d e l p h i ao n j u l y 铲 约翰六月四号在费城。 如果能知道“j o h n ”、“约翰”是一个人,“p h i l a d

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论