快速解码和最佳译码机器翻译_第1页
快速解码和最佳译码机器翻译_第2页
快速解码和最佳译码机器翻译_第3页
快速解码和最佳译码机器翻译_第4页
快速解码和最佳译码机器翻译_第5页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

快速解码和最佳译码机器翻译 乌尔里希 Germann 迈克尔 Jahr,凯文 Knight 信息科学学院计算机科学系 南加州大学斯坦福大学 4676 年海军,1001 套房斯坦福,CA 1001 玛丽安德尔湾 CA 90292 germann,骑士,marcu kyamada 文摘 良好的解码算法的成功是至关重要的任何统计机器翻译系统。译码器的工作是找到最有可 能的翻译根据组以前学参数相结合(公式) 。因为可能翻译的空间非常大 ,典型的解码算法只 能够检查的一部分,因此冒险错过良好的解决方案。在本文中, 我们比较传统的基于堆栈的 速度和输出质量与两个新的解码器解码算法:一种快速贪婪的解码器和缓慢但最佳译码器对 解码为一个整数规划优化问题 1 介绍 统计太系统,翻译法语句子成英语 (说),分为三个部分:(1)语言模型(LM)分配一个概率 P(e)任 何英语字符串,(2)翻译模型(TM) 分配一个概率 P(fe)任何一对英语和法语字符串 ,和(3)译码器。 解码器是一个前所未有的句子,并试图找到能最大化的 P(ef),或者说最大化 P(e)P(fe)。布朗 et al。(1993)介绍了一系列的 TMs 基于逐字替换和重新排序,但不包括解码算法。如果源语 言和目标语言局限于具有相同的词序(通过或通过选择合适的预处理),那么可以应用线性维 特比算法(Tillmann 。,1997)。如果重新排序是有限的二叉树中的节点周围旋转 ,那么可以由 最优译码 high-polynomial 算法(吴,1996)。对于任意 word-reordering,解码问题是 np 完全 (骑士,1999) 。 一个明智的策略(布朗 et al .,1995;王 Waibel,1997)是检查一个大的子集可能解码和选择。 当然,可以错过这样一个好翻译。如果译码器返回 ebut 存在一些 e P(ef)P(ef),这被称为一个 搜索错误。小王和 Waibel(1997)的话,很难知道一个搜索错误大白( 只显示解码是次优的方 法是实际生产 higherscoring。因此,虽然解码是一个明确的优化任务,每个问题实例有一个 正确的答案,很难迅速想出好的答案。本文报告的测量速度, 搜索错误,翻译质量的一个传统 的堆栈解码器(内克,1969;布朗 et al .,1995)和两个解码器。第一个是一个快速贪婪的解码 器,第二个是一个缓慢的最优译码器基于通用数学编程技术。 2 IBM 模型 4 在本文中,我们使用 IBM 模型 4,它围绕着一个词对齐的概念在一对句子(参见图 1)。一个字 对齐分配一个家(英语)字符串的位置, 每一个法语单词。如果两个法语单词排列相同的英语 单词,然后,英语单词是说两个肥力。同样地,如果一个英语单词仍然 unalignedto,那么生育零。 图 1 中的词对齐的简称是一个假设的随机过程的一个英语字符串被转换成法语字符串。有 几集的决策。首先,每个英语单词都分配一个生育。这些作业都是随机的 根据字符串表删除任何单词与生育能力为零,我们与生育两个重复的任何单词, 等等。如果 一个词有生育能力大于零,我们称之为肥沃。如果其生育率是大于一, 我们称之为非常肥沃。 新的字符串中的每个英语单词后,我们可能会增加生育一个看不见的英语 NULL 元素概率 p(通常约为 0.02)。NULL 元素最终会产生“捏造” 的法语单词。 接下来,我们执行一个逐字替换的英语单词 (包括零) 法语单词,根据表中 最后,我们交换法语单词。在交换模型 4 区分法语单词, 头( 最左边的法语单词产生特定的英 语单词),nonheads(non-leftmost, 生成只有非常肥沃的英语单词 ),和 NULL-generated。 头。被分配一个法国的一个英语单词字符串位置基于位置分配给前面的英语单词。如果一 个英语单词翻译成法语位置 j,然后法国头的话随机放置在法国 k 与失真 probabilitywhere“类”是指自动确定为法语和英语单词类词汇项。这相对偏移 k-j 鼓励相邻的 英语单词转化为相邻 法语单词。如果是不孕,那么来自 ,等。如果非常肥沃,j 的平均位置的法语翻译 Non-heads。如果英语单词的头 e j 放在法国地位, 然后第一个 non-head 被放在法国 k 位置 根据另一个表( j) 接下来 non-head 放置在位置问概率 NULL-generated。头和 non-heads 放置后,NULL-generated 的话有无数随机到剩下的空槽。 如果有 NULL-generated 单词, 然后用概率选择任何安置计划 这些随机决定,从 e,导致不同的选择 f 和 f 的对齐 e e。我们映射到一个特定的 对与概率: 符号表示生育因素,翻译,头排列,non-head 排列,null-fertility,和 null-translation probabilities.1 吗 3 定义的问题 如果我们观察一个新的句子 f,那么一个最优译码器将搜索一个最大化的 e P(e | f)P(e)P(f | e)。在这里,P(f | | e)是 P 的总和(a、f | e)在所有可能的排列。因为这涉及 大量计算,总和我们通常避免它 ,而不是寻找一个 maximizesWe 把语言模型 P(e) 是一个平滑的英语语法模型。 4 基于堆栈的解码 为每一个可能的下一个词,扩展 h 增加 w,推动产生的假说 压入堆栈。 回到第二步(流行)。 解码过程的一个关键区别语音识别(SR)和机器 翻译(MT)是演讲总是产生同样的订单作为其转录。因此 ,在 SR 解码之间总是有一个简单的 从左到右对应输入和输出序列。相比之下,在太留给 正确的关系很少持有甚至语言对法 语和英语一样相似。我们解决这个问题通过构建解决方案从左到右,但允许解码器使用其输 入任何命令。这种变化使得解码明显更复杂太;而不是提前知道输入的顺序, 我们必须考虑 所有 n !一个印度输入句子的排列。 SR 和解码之间的另一个重要区别是缺乏可靠的启发式方法 在太使用启发式 A *搜索估计的成本完成部分假设。 好的启发式可以准确地比较不同部分的价值的假设,从而集中搜索最有前途的方向。从左到 右限制在 SR 可以使用一个简单而可靠的启发式的估计成本基于类的数量输入解码。部分 原因是缺乏从左到右的信件,太启发式更难以开发(王 Waibel,1997)。没有启发式,一个典型 的堆栈解码器是无效的,因为短的假设将几乎总是比看起来更有吸引力, 因为我们将单词添 加到一个假设,我们最终找到的概率增加越来越多的条款。正因为如此, 再假设将被赶走的 堆栈的短的,即使它们在现实中更好的解码。幸运的是 ,通过使用多个栈 ,我们可以消除这种 影响。 multistack 解码器 ,我们使用不止一个堆栈迫使假设公平竞争。更具体地说 ,我们有一个堆栈 的每个子集输入单词。这样,假设只能如果有其他调整, 更好 ,假设表示相同的输入的一部分。 不止一个堆栈,然而,如何 multistack 译码器在每次迭代选择假说扩展?我们解决这个问题通 过采取从每个栈一个假设,但是一个更好的解决方案是比较假设从不同的堆栈和扩展只有最 好的。 我们描述的 multistack 解码器是密切的模型 3 解码器中描述专利(布朗 et al .,1995)。假设 我们构建解决方案逐步通过应用操作。有四个操作: 添加添加了一个新的英语单词,将一个法语单词。 AddZfert 添加了两个新的英语单词。第一个生育零,而第二个是对齐到一个法语单词。 将一个额外的法语单词扩展到最近的英语单词,增加其生育能力。 AddNull 对齐一个法语单词的英语 NULL 元素。 AddZfert 是迄今为止最昂贵的操作,我们必须考虑插入一个 zero-fertility 英语单词之前每个 每个对齐法语单词的翻译。英语词汇量大小为 40000,比 AddNull AddZfert 贵 400000 倍! 我们可以以两种方式降低 AddZfert 的成本。首先,我们可以只考虑某些英语 单词作为 zero-fertility 候选人, 即单词经常发生和 高频率分配的可能性为零。第二,我们只能插入一个 zero-fertility 词如果它将增加一个假设 的可能性。根据解码的定义问题,zero-fertility 英语单词只能做一个解码更有可能通过增加 P(e)超过它减少仅考虑 帮助 zero-fertility 插入,我们拯救自己 AddZfert 显著的开销 在许多情况下操作,消除所有的可能性和减少其成本比 AddNull。 5 贪婪的解码 在过去的十年里,许多情况下 NPcomplete 问题已经被证明可以在合理使用贪婪的方法/多项 式时间(塞尔曼 et al .,1992;Monasson et al .,1999)。而不是深入探测搜索空间,这些贪婪的 方法通常开始随机,近似解,然后逐步改善,直到达到一个令人满意的解决方案。在许多情况 下,贪婪的方法迅速产生令人惊讶的是良好的解决方案。 我们推测这种贪婪的方法可能是有用的在太解码的上下文中。贪婪的解码器,我们描述开始 翻译过程从一个英语光泽的法语句子作为输入。光泽是由调整每一个法语单词的最可能的 英文翻译为例,在句子翻译法国 “好说定,il parle de 美女 victoire。”,贪婪的译码器最初假设的 一个很好的翻译“听到,那说话的一个美丽的胜利”,因为最好的翻译“好” 是“好”,“最好的翻译说 定”是“听到”,等等。相应的对齐这翻译是显示在图 2 中 6 的整数规划解码 骑士(1999) 把太解码货郎担问题寻找最佳的旅行(Garey 和 Johnson,1979)选择好词序解码 器输出类似于选择一个好的 TSP 旅行。因为任何 TSP 问题可以转换为解码的问题实例 ,实 例模型 4 解码证明地长度的非完全多项式 f。有趣的是考虑相反的方向是可以改变一个解 码问题实例到 TSP 实例?如果是这样的话, 我们可以充分利用先前的研究有效的 TSP 算法。 我们也可以利用现有的软件包,获得复杂译码器几乎没有编程工作。 很难连续解码转化为 TSP,但广泛的组合优化问题(TSP)可以表达更多的线性整数规划的总 体框架。 7 实验和讨论 在我们的实验中,我们使用一个测试集合的 505 句英语, 均匀分布在整个 长度 6、8、10、15、20。我们评估所有解码器对 (1)速度, 搜索最优(2),(3) 翻译的准确性。 最后两个因素可能并不总是一致,模型 4 是一个不完美的翻译 process-i.e 模型。,没有保证 数值最优译码实际上是一个很好的翻译。 我们发现有几个非常有用的解码器。只有通过 IP 解码器输出 ,例如,我们可以知道堆栈解码 器是返回最佳解决方案很多句子(见表 1)。IP 和堆栈解码器使我们快速定位错误的贪婪的 解码器,并实现扩展基本贪婪的搜索 ,可以找到更好的解决方案。 (我们想出了第五节中讨论 的贪婪操作通过仔细分析错误日志的类型如表 1 所示) 。表 1 中的结果也使我们能够优先考 虑我们的研究议程上的项目。由于大多数的翻译错误可以归因于我们使用的语言和翻译模 型(见表 1 中列光磁电式 ),很明显, 显著改善翻译质量将来自更好的模型。 结果在表 2 中,用解码器,使用三元模型语言模型 ,表明我们的贪婪的解码算法是一个可行的 替代传统的堆栈解码算法。即使在贪婪的译码器使用一组 optimized-forspeed 的操作最多 的一个词是翻译,最多一次移动 ,或插入,3-word-long 段 swapped-which 标记“ 贪婪”的几个小 孩在表 2 翻译准确性的影响略。相比之下,翻译速度增加至少有一个秩序 级的。根据感兴趣的应用程序,可以选择使用一个缓慢的解码器 提供最优结果或一个快速、贪婪的译码器,它提供了好不,但是可以接受的结果。也可以运 行贪婪的译码器使用一个时间阈值,在算法的实例。当阈值设置为 1 秒/ 句子( 表 1)的标签, 只 是略有影响性能。 应答。这项工作是由 DARPA-ITO 格兰特 n66001 - 00 - 1 - 9814。 引用 p .布朗,s .德拉饰面的饰面的诉德拉,r默瑟。1993 。统计机器的数学 翻译:参数估计。计算语言学 ,19(2)。 p .布朗,j . Cocke 饰面的德拉,诉德拉饰面的, jf耶利内克赖,r 默瑟。1995。自然语言翻译的方法和系统。5477451 年美国专利。 m . Garey 和 d约翰逊。1979。电脑和棘手。NPCompleteness 理论指南。wh弗里曼和 有限公司,纽约。 f .内克。1969。快速使用栈序列解码算法。 IBM 研究杂志上的研究 和发展,13 岁。 1999 年英国骑士。解码的复杂性 wordreplacement 翻译模型。计算语言学,25(4)。 r . Monasso

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论