




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、机器翻译基本分类与基本工作原理编译:洪洁传神语联网网络科技股份有限公司多语工程中心 编译:洪雷中国科学院大学外语系 文章来源:多语工程技术研究中心云翻译技术第12期,转载请注明出处摘要本篇综述对机器翻译基本工作原理和基本分类进行了归纳总结,并且对机器翻译的未来 发展方向进行了初步探讨。关键词机器翻译工作原理分类机器翻译(Machine Translation, MT)是建立在多学科基础上的综合学科,现代理论语言学 的发展,计算机科学的进步,信息学和概率统计学的应用,对机器翻译的发展和演变产生了 重要影响。机器翻译的基本思想是利用计算机对自然语言进行翻译,而各种机器翻译系统采 用的技术和理念不尽
2、相同;面对各种各样的机器翻译系统,文献上有各种分类方式。本文根 据所应用的基本工作原理对机器翻译系统分类作一综述。1.基本类型的机器翻译系统:现有的机器翻译系统按照其基本工作原理,可以分为基于规则 的(Rule-Based)机器翻译,基于实例的(Example-Based)机器翻译和统计型的(Statistical) 机器翻译这三种基本类型。11.基于规则的机器翻译系统(Rule-Based Machine Translation, RBMT):其基本工作原理基 于一个假设,即语言无限的句子可以由有限的规则推导出来。基于这个假设的机器翻译方法 又可以分为三类:直接翻译法(Direct Tran
3、slation),中间语言法(Interlingual Approach),和 转换法(Transfer Approach)。它们都需要用到大规模的双语词典,需要用到源语言推导规则, 语言转换规则和目标语言生成规则;其不同点在于对语言进行的分析深度不同。如直译法几 乎不需要进行语言分析,中间语言法和转换法需要对源语言和目标语言进行某种程度的语言 分析。1.1.1直接翻译法(Direct Translation):这种翻译方法直接对源文字中的字词进行逐个翻译, 译后文字顺序按照原文顺序进行排列。这是基于规则的机器翻译的最早的工作方法。这种译 法简单、直观,其弊端也是明显的:由这种方法得到的翻译结
4、果质量很不令人满意。人们已 经逐渐不再使用这种直接翻译法。1.1.2中间语言法(Interlingual Approach):这种翻译方法对源语言文字进行透彻的语言分析, 将其转化为一种中间语言表达形式,进而由这种中间语言(Interlingua)进一步生成和输出 符合目标语言语法规则的文字。这种中间语言是一种非自然语言,即不是任何国家地区人们 使用的语言;而且它是一种没有歧义的表达方式。此外,中间语言不是唯一的,不同的系统 采用不同的中间语言。任意一种语言经由中间语言译为其它任意一种语言,理论上这种中间 语言法是最有效率的一种翻译方式。假定世界上总共有门种自然语言,使用中间语言法,只 需2n
5、个模块就可以解决所有自然语言之间的互译问题。不使用中间语言,这些语言间的互 译则需要n(n-1)个模块。当n大于3时,2n小于n(n-1)。我们知道,世界上的自然语言种类 远大于3,因此2n个模块的数量远小于n(n-1)个模块的数量。1.1.3转换法(Transfer Approach):这种翻译方法先对源语言文字进行一定程度的语言分析, 去除语法的因素,生成源语言的中间表达方式,然后经由转换,生成目标语言的中间表达方 式,再由目标语言的中间表达方式生成和输出符合目标语言语法规则的文字。目前来说,转 换法的语言分析和实现方法在三种方法中最为复杂,得到的翻译质量在三种方法中也是最好 的,是目前商
6、业上最常使用的翻译方法,在商业上最为成功。在许多基于规则的机器翻译系统中,由语言学家辅助编写一系列关于源语言和目标语言的语 法规则,以及将源语言数据转换为目标语言数据的转换规则。然而使用全人工来制作这些规 则非常昂贵、费时,而且易于出错。一个解决方法便是将以往的历史翻译结果作为资源库, 其中的源语言文字和它对应的目标语言译文作为例子,从中尝试提取出恰当的规则。方法之 一是对源文字和目标语言译文作人工标记以示关联。Sato和Nagao1研发出一个系统,用 “平面依赖关系树”来表示源语言文字和目标语言文字。这种关系树型数据结构是计算机高 效识别的一种形式。通常用两个层次代表源语言和目标语言之间的关
7、联:第一层次依赖于文 字的表面形式(如字、词顺序),用于源语言的分析和目标语言的生成;第二层次依赖于字 词间的语义关联,用于从源语言向目标语言的转换。这种机器翻译系统在基于规则的机器翻 译基础上,利用了实例库的优势。随着大量历史翻译结果的积累,出现了基于实例的机器翻译系统,人们将这些已经完成的翻 译结果作为资源库,利用到机器翻译中来。12.基于实例的机器翻译(Example-Based Machine Translation,EBMT):其基本工作原理是基于类比(Analogy)的原则,从实例库中匹配出与源文字片段最相似的文字片段,取出实 例文字片段对应的目标语言翻译结果,进行适当的改造,最终
8、得出完整的翻译结果。基于实 例的机器翻译其核心思想最早由Mako Nagao提出2,他提出:人们在翻译简单句子时并 不作深层语言分析,而是翻译。首先把源句子分解成若干片段,然后将这些片段译为目标语 言,每个片段的翻译都是通过与例句做匹配以类比的原则得到的,最后将这些译后句子组合 成一个长句子。实例库的构成:实例库也称为语料库(Corpus),由已经完成的翻译结果构成。这些现 成的翻译结果也称为语料,包括人工翻译的结果和经过人工编辑的机器翻译结果。语料库由 双语对构成,包括源语言文字片段和目标语言译文文字片段两部分。这些翻译结果要先经过 拆分和对齐处理,才可以成为语料库中的可用语料。因此语料库也
9、称为平行双语语料库(Parallel Corpus)。拆分和对齐目前有多种形式,如句子水平的对齐和短语水平的对齐。对 齐的文字片段大小的选择,会直接影响匹配的效率和翻译结果。语料拆分的碎片化问题:Nirenburg等(1993)指出,在基于实例的机器翻译系统(EBMT) 中,实例语料存在一个文字片段长度和相似度之间的一个矛盾。文字片段越长,越不易得到 一个相似度高的匹配;文字片段越短,越可能得到一个大致匹配,但是得到低质量翻译结果 的风险也越大。比如由段落划分边界产生的重叠问题以及不恰当的划分导致的翻译质量下降。 直观上似乎是选择以句子为单位划分得到的语料对比较好,有诸多优势如:句子的边界划分
10、 清楚,一些简单句子的结构清晰。然而在实际应用中,以句子为单位并不是最恰当的方式。 实践证明匹配和重组过程需要使用更加短小的片段3。(当然,这些研究结果是以欧美语系 语言之间的翻译研究结果为基础的。)实例库定制:实例语料的的范围和质量影响着基于实例的机器翻译系统(EBMT)的翻 译质量水平。在某特定领域获取高质量语料可以大大提高机器翻译在此领域的翻译质量,称 为语料(实例)库的定制。统计型机器翻译系统(Statistical MT): IBM公司的Brown在1990年首先将统计模型用于 法-英机器翻译。其基本思想是:把机器翻译问题看成是一个噪声信道问题,然后用信道模 型来进行解码。翻译过程被
11、看作是一个解码的过程,进而变成寻求最优翻译结果的过程。基 于这种思想的机器翻译重点是定义最合适的语言概率模型和翻译概率模型,然后对语言模型 和翻译模型的概率参数进行估计。语言模型的参数估计需要大量的单语语料,翻译模型的参 数估计需要大量平行双语语料。统计机器翻译的质量很大程度上取决于语言模型和翻译模型 的性能,此外,要找到最优的译文,还需要有好的搜索算法。简单说,统计机器翻译首先建 立统计模型,然后使用实例库中的实例对统计模型进行训练,得到需要的语言模型和翻译模 型用于翻译。统计型机器翻译,除了基于噪声信道理论的系统以外,还有基于最大熵方法的系统。博格 (A.L.Berger)在1996年提出
12、自然语言处理中“最大熵方法(Maximum Entropy Approach)o德国人奥赫(Franz Joseph Och)等发现,把IBM公司的统计机器翻译基本方程式中的翻译 模型转变为反向翻译模型,总体的翻译正确率并没有降低,由此,他们提出基于最大熵方法 的机器翻译模型。统计型机器翻译取得了一定的成绩,然而纯统计设计却不能解决所有困难。统计型的方法不 考虑语言的语义、语法因素,单纯用数学的方法来处理语言问题,有着巨大的局限性。于是 人们开始探索基于统计方法和其它翻译方法的联合应用。如统计的和基于实例的机器翻译系 统,统计的和基于规则的机器翻译系统,等等。2.综合类型的机器翻译系统:以上三
13、个基本机器翻译系统各有优势和长处,同时又不可避 免的具有某种缺陷和局限性。如基于规则的机器翻译系统(RBMT)可以准确的描述语言学 特征和规律,然而制定适用和完备的语言规则却不是一件容易的事;基于实例的机器翻译系 统(EBMT )可以充分利用已有的翻译结果,但是实例库的维护需要大量的人工和费用;统 计型的机器翻译(Statistical MT)可以缓解知识获取的瓶颈问题,但是纯数学的方法难于完 全解决语言中的复杂问题。为进一步提高机器翻译系统的翻译水平,人们综合以上几个基本 类型的优势,又发明了混合型机器翻译系统(Hybrid MT),多引擎机器翻译系统(Multi-Engine MT)和提出
14、了基于知识的机器翻译系统(Knowledge-Based MT)的理论。2.1混合型机器翻译系统(Hybrid MT):翻译过程使用两种或以上机器翻译原理。比如:基 于规则的机器翻译方法的核心是构造完备的、适应性较强的规则系统。如何得到完备和适应 性强的规则系统成为研究焦点。使用传统的方法,语法规则库的建立需要大量的人力、物力, 大量的语言语法规则之间往往存在着不可避免的冲突,规则的完备性和适应性不能得到保证。随着人们翻译工作的进行,生成大量已完成的翻译结果,形成大量语料。人们想到了使用统 计方法从现有语料中自动提取我们需要的语言语法信息。从实例中抽取语言转换规则,将基 于实例的机器翻译作为研
15、究技术来建立语言规则基础,而不是单纯用来进行类比翻译。通过 一个归纳的过程,从大量例句中提出抽象的规则45。这样传统的基于规则的机器翻译 方法发展成为以规则为基础,语料库为辅助的机器翻译方法。这种翻译模型可以称之为混合 型机器翻译系统(Hybrid MT)。2.2多引擎机器翻译系统(Multi-Engine MT):这种机器翻译系统的基本思想是几架机器翻译 引擎同时进行并行翻译,并行翻译的这几架翻译引擎分别基于不同的工作原理,给出多个翻 译结果,然后通过某种机制或算法筛选并生成最优翻译结果进行输出。多引擎机器翻译系统 的一种工作方式如:接收到源文字后,先将文字转化为若干文字片段,由多个机器翻译
16、引擎 进行并行翻译,各个文字片段均得到多个翻译结果,通过某种机制选择最优的翻译片段组成 最优组合,最后输出最优的翻译结果6。或者是接收到源文字后,由多个机器翻译引擎进 行并行翻译,得到多个翻译结果,然后对各个翻译结果进行字词的比较,通过某种假设检验 和算法,选择适当的字词翻译组成最优翻译结果输出7。2.3.基于知识的机器翻译系统(Knowledge-Based MT):在机器翻译研究中,人们越来越发 现在翻译过程中正确的理解、领会源语言的重要性。语言有着其复杂性。其中语言的模糊性 是各种机器翻译系统所面对的最顽固的难题。语言的模糊性指语言文字同一表层结构对应着 两种或两种以上的深层结构,简单说
17、就是一种形式对应着两种或两种以上的解释,必须通过 上下文内容的提示和综合知识背景、常识才可能做出正确的诠释。受人工智能,知识工程的 发展影响,人们开始强调对源语言更为彻底的理解,提出不仅需要进行深层语言分析,还需 要进行世界知识的积累和处理,建立知识库,以助于理解语言。通过对世界知识的了解,解 决机器翻译中遇到的语言模糊问题。为了从根本上彻底的解决机器翻译所面对的语言的模糊 性问题,人们提出了基于知识的机器翻译系统。2.3.1 基于语义网的机器翻译(Semantic Web based Machine Translation, SWMT):是基于知 识的机器翻译系统的一种实现方式。语义网(Se
18、mantic Web),指通过某种技术,将现有网 络上的知识内容转化为机器可以辨识的内容,成为机器翻译的“世界知识库”。这些理论基 于Tim Berners-Lee提出的观点“知识一旦经定义和形式化后,便可以通过任意方式访问”。 万维网最初的设计是希望它简单,去中心化并且尽可能的易于互动。网络的发展证明它是一 个巨大的成功。然而,网络上面的信息都是面向人类大脑的。为了让计算机也能够接受和利 用这些信息资源,在新的世纪一种扩展和补充性质的技术出现了,称为W3C,Semantic Web3(三维语义网)。三维语义网络的基础技术是数据格式的“资源描述构架”(ResourceDescription F
19、ramework,RDF),它定义了一种结构,用一种自然的方式来描述计算机处理 的巨大量的数据8。目前人们已经在尝试将现有的机器翻译系统整合入语义网,以充分利 用世界知识/专家知识,提高机器翻译质量9。3.语音翻译(Speech Translation):语音翻译是与文字翻译相对应的一种机器翻译分类,与 前面的分类有着不同。但是有着广泛的应用,如日常交谈、电话通话、会议讲话等对语音交 流内容的自动翻译,在实际应用中非常重要。语音翻译在翻译之前增加了一个语言识别(Speech Recognition)过程,形成正确的文字内容输入,并且在翻译过程完成后增加了一个 语音合成(Speech Synth
20、esis)过程,形成一个正确的语音内容输出。其中语音识别技术和语 音合成技术都有着专门研究,这里不再赘述。参考文献:ISato, S and Nagao,M. Towards memory-based translation. Coling, 1990, Vol.3, pp. 247-2522Nagao,M.A framework of a mechanical translation between Japanese and English by analogy principle. Artificial and Human Intelligence. Amsterdam, North-Holland.A.Elithorn and R.Banerji (eds), 1984,pp. 173-1803Nirenburg, S, C. Domashnev and D.J. Grannes. Two approaches to matching in Example -Based Machine Translation. TMI, 1993, pp.47-574Furuse, O and H.Iida. An example-based method for
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 雨伞加盟合同协议书范本
- 吊装设备合同协议书
- 广告投放采购合同协议书
- 家政服务合同协议书模板
- 合作检修项目协议书合同
- 经营协议书是合同吗
- 大葱种植合作合同协议书
- 房产买卖合同协议书宣传
- 怎样签订家具合同协议书
- 建筑公司工作合同协议书
- 《第8课 图表呈现》参考课件1
- 网上销售食品安全管理制度
- 2024年四川省成都市中考数学试题含答案
- DL∕T 612-2017 电力行业锅炉压力容器安全监督规程
- 自然资源价格评估通则 TD/T 1061-2021
- 贵州2024年贵州医科大学招聘专职辅导员笔试历年典型考题及考点附答案解析
- 2022版科学课程标准解读-面向核心素养的科学教育(课件)
- 驾驶员心理健康教育培训
- JT-T 1488-2024 网络平台道路货物运输服务规范
- 2024年四川二造《建设工程造价管理基础知识》考前强化练习题库300题(含解析)
- 《客舱安全与应急处置》-课件:颠簸处置程序
评论
0/150
提交评论