机器翻译评测的新进展.pdf_第1页
机器翻译评测的新进展.pdf_第2页
机器翻译评测的新进展.pdf_第3页
机器翻译评测的新进展.pdf_第4页
机器翻译评测的新进展.pdf_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中文信息学报 第 1 7卷 第 6 期 J O U R N A L O F C I t l N E I N F O R MA T I O N P R O C E S S I N G V o i 1 7 N o 6 文章缩号 1 0 0 3 0 0 7 7 2 0 0 3 0 6 0 0 0 1 0 8 机 器 翻 译评 测 的新 进展 张剑 吴际2 周 明0 1 北京 邮电大 学 信息 工程 系 北 京1 0 0 8 7 6 2 北京航空航天大学 计算机系 北京1 0 0 0 8 3 3 徼软亚洲研究院 北京m0 0 8 0 摘要 机器翻译评测对机器翻译的研究和开发具有至关重要的作用 对其的研究一直是 国内外机 器翻译 界 的重点课题 本文首先全面地介绍 了最近 出现的而且受到极大关注的机器翻译评测技术 即 I B M 公 司的 B L E U机 器翻译评测标准和 N I S T采用的机器翻译评测技术 实验表明 自动翻译评测技术 能够接近人工评 价 评测结果也是可接 受的 因此 采用 自动翻译评测技术能够给 自然语言处理的研究人 员和开发人 员带来 很 大的便 利性 本 文 还展 示 了一 个开放 式 的 可扩展 的 自动翻 译评 测 的平 台 完全 实现 了 B I I 和 NI S T评 测 标准 并做 出了一定的改进使得该 系统具有 良好的使用性和可扩展性 关键词 人工智能 机器翻译 自动评测 中圈分类号 1 P 3 9 1 2 文献标识码 A Th e I m pr o v e me nt of Aut o ma t i c M a c hi ne Tr a ns l a t i o n Ev a l u a t i on Z H A N GJ i a n wuj i 2 Z H O UMi I 1 g 3 1 ne p t o f I n f o n e e 血g i I l gUn i v e r w o f P o s t s a n dTd e e ma mu n i c a t io m B e i i h 1 0 0 8 7 6 C h i n a 2 De p t dQI I 叫 S d B 两 噶 U n iv e r s i t y dA A s t r o 8 e ij 噬 1 0 0 0 8 3 C l a ir e 3 M n R 目耐 I A B t 蛐 1 0 0 0 8 0 Q妇 Al mr a e t Ev alu a t i on p l a y s a c r i t i c a l r o l e i n t h e ma c h i n e t r a n s l a t i o n Th e r e s e a r c h o f a u t o ma t i c ma c h i n et r a n s l a ti on e v a l u a t i o n i s a n u r g e n t n e e d f o r t h e n a t al l a n gu a g e p r o c e s s i n g r e s e a r c h e r s a n d d e v e l o p e r s p a p e r b fidl y d e s c r i b e s t h e b a d md o f e v a l u a t i o n o f ma c h i n e t r a n s l a t i o n a n d t wo i mp o r t a n t t e c h n o l o g y o f a u t o ma t i c e v a l u a t i o n BI EI a n d NI S T me t r i c s Th e n we p r e s e n t s s o r i l ei mp r o v e me n t s f o rt h e s eme t r i c s byt h e i d e a sh吼t e x t r e t r i e v a l wh i c hi s c a l l e dTF I D F we i g h t e dme t r i c Th i s me t h o d a v o i d st h e s h o r t c o mi n go f B I EI me t r i c a n da c h i e v e s al 蜘 F r a ti o v a l u e As a r e s u l t i t c a I 1 g i v e a m n a r k a b l e e f f e c t o n t h e a u t o ma ti c e v a l u a ti o n o fma c h i n e mms l a t i o n W ea1 s 0d e s c rib ea nevalua t i on p l a t f o r m wh i c h c nt a k eI n o r e c o n v e n i e n c et ot h e r e s e a r c h e s a n d d d懒 r w d s a r t ific i a l i n t dl i g e n c e ma c h i n e t n ms l a ti on a u t o ma tic e v a l ua ti on 一 引言 近年来 在 自然语言研究 领域 中 评测 问题越来越受 到广泛的重视 可以说 评测是 整个 自 然语言领域最核心和关键的部分 国际上为了推动自然语言研究的评测 在过去的几年中 进 行了若干次有影响的评测活动 如 MU C评测专名识别问题 T R E C评测信息检索的发展 还 有许多机器 翻译 和语 音技术 的评测活动 所有这些评价活动都有力地促进 了相关 学科 的发展 收 稿 日期 2 0 0 3 0 5 2 8 作者简介 张剑 1 9 7 7 一 男 博士生 研究方 向为 自然语言处理 数据挖掘 本文是微软亚洲研究院机 器翻译课题 系作者在微软亚洲研究院访问期间完成 1 il1 f 维普资讯 髦 维普资讯 中 使得人们能够跨越语言的障碍 不论信息载体是语音还是文字 都可以快速地发现和解释 信息 这个项 目中有几个核心的技术 首先是信息侦测 就是要能够感知到信息的存在 其 次 是能够从特定的信息载体中 抽取出关键 的事实 实体和各类事件一实体之间的关系 然 后 通过摘要 把最重要的信息抽取出来 从而减少阅读的时间和代价 但不论是哪种技术 都 是在跨语言的环境中进行的 处理的对象都是多语言的形式 因此翻译是这个项 目的基础 T I D E S项目中机器翻译评测活动是 由美国国家标准和技术所 NI S r 负责协调管理工 作 评测活动从 2 0 0 2年开始 计划每年举行一次 目前评测的主要语言是中文和阿拉伯语 翻译 目标语言是英语 在以后 的评测中 会逐渐扩展翻译语言对象 把 日语 韩语和西班牙语 等语 言纳入评测 的范围 评 测过程 中 同时采用人 工 和 自动两种 方式 进行 评 测人 员从译 文 的忠实度 和流利度 两方面对系统打分 而 自动评测采用 的是 NI S T在 I B M 的 B L E U 标准上 的 改进方案 在 下面 的内容 中 我们会对这两种方 案进行 简要 介绍 NI S T规定 参加评测的机器翻译系统 可以利用三种数据对其进行训练 第一种是对所 有参评者都公开的各种资源 第二种是规模较大的语料 称为大语料 包括香港法律双语并行 文本库 香港新闻双语并行数据库 新华社双语并行新闻语料库等 词典是 NI S T提供 的一部 中 英翻译词典 第三种是小规模数据 它所能使用的中文资源只能是 U P e n n树库中的双语 并行数据和由 C MU提供的一部 1 万单词左右的词典 NI S T对训练数据的限制都是双语数 据 而对于任何单语的训练资源则没有任何限制 机器翻译评测 中使用 的评测数据主要来 自 一 于新华社 新闻早报和美国之音等各类型的新闻语料 参评单位只要通过电子信件或者电话 就可以注册参加活动 随后就可以收到 NI S T发布的评测原始数据 参评者执行翻译过程 并 提交系统翻译结果 N I S T进行评测之后 会把评测结果和评测数据的参考译文发送给各个 参评者 最后会召开一次评测会议 参评单位都可参加并进行相关的讨论和总结 h 三 基于 N G r a m 的机器翻译 自动评测技术 虽然对于机器翻译来说 人的评价和打分是考察一个翻译系统性能的可靠手段 但是要组 织一次人工评测通常耗时耗力 因此设计并实现一种可靠的 自动翻译评测的方法对于机器翻 译的研究人员来说是一种非常迫切的需要 使用 自动评测工具能够大太降低评测 的成本 更 可及时地分析系统性能 有针对性地改进系统 从而缩短产品的开发周期 目前 自动翻译评测技术主要有两种 一个是由 I B M 提出的B U U评测标准 另外一种是 NI S T在 BI 标 准基础上提 出的一个 改进 方案 称 为 NI S T评测标准 DA R P A在 T观S项 目中的机器翻译评测当中就使用了基于 NI S T评价标准实现的自动翻译评测工具 下面我们 就对这两种技术进行简要的介绍 3 1 B U 评测 方法 B L E U评测方法认为如果翻译系统的译文越接近人工翻译的结果 那么它的翻译质量就 越高 所以 评测关键就在于如何定义系统译文与参考译文之 间的相似度 B L E U采用的方 式是比较并统计共现的 N 元词的个数 即统计 同时出现在系统译文和参考译文中的 N 元词 的个数 最后把 匹配到的 N 元 词 的数 目除 以系统 译文 的单 词数 目 得到评 测结 果 B L E U 方 法简单易行 但是没有考虑到翻译的召回率 比如下面这个例子 原文 垫子上有只猫 l 参考译文 1 t h e c a t i s o nt h e ma t 译文 t h e t h e t h et h et h e t h e t h e l 2 t h e r eis a cat o nt h e ma t 如果仍然按照简单的统计共现频率的话 那么一元词的统计结果就是 7 7 显然这样统计 3 维普资讯 方法对 于这种异常情况 的结果 是不合 理 的 因此 B L E U 使 用 了修正 的 匹配统 计 首先 计算 出 一 个 N 元词在 一个 句子 中最 大可能的出现次数 C o u n t d i mi n C o u n t Ma x Re f C o u n t 其中 C o u n t 是某个 N元词在系统译文中的出现次数 而 M 一 C o u n t 是该 N 元词在 个参考译文中最大的出现次数 最终统计结果是两者中的较小值 然后在把这个匹配结果除 以系统译文 的 N 元词的个数 对于上面 的例子来说 修正后 的一元词统计结果就是 2 7 综上所述 各阶 N元词的精度都可以按照下面这个公式计算 P z C o u n t n g r a m 翻译篇章中往往含有多个句子 每个句子都可按照这一方法评测 把所有句子的评测结果 进行累计 就可以得到整个文本的翻译评测结果 B L E U这种基于 N 元语法共现的统计方法 中 一元词的共现代表 了翻译的忠实度 它表 征了原文里面有多少单词被翻译了过来 而二元以上的共现词汇代表了目标语言的流利程度 阶数高的 N 元词的匹配度越高 系统译文的可读性就越好 上面的例子 中 虽然一元词的精 度达到 了 2 7 但是二元 词级别 以上 的匹配度都是零 说 明这个译文非 常不通顺 可读性很 差 尽管 N 元语 法 的统计 方法 已经能够 很好地对 翻译结 果进行评估 但 是 N 元 词 的匹配 度 可能因为句子长度的短小而变高 所 以 如果一个系统为了追求准确度 只翻译最可靠的词 汇 它的得分 自然就会偏高 为了改变这种评分的偏向性 B L E U在最后的评分结果 中引入了 长度惩罚因子 B r e v it y P e n a l t y 当翻译句子长度大于参考译文的长度时 惩罚系数为 1 意味 着不惩罚 而 当句 子长度小 于参考译文 的长度 时 惩罚 系数是 BP e卜 其中 c 是系统翻译译文的长度 r 是参考译文的长度 如果参考译文有多个 那么选择一 个 长度最接近于 系统 翻译译 文的参考译文 的长度作为 r的值 由于各阶 N元词统计量的精度随着阶数的升高而呈指数形式递减 所以为了平衡各阶统计 量的作用 对其采用几何平均形式求平均值然后加权 再乘以长度惩罚因子 得到最后的评价公式 N S c a r e B P e x p lo g n l B L E U的原型系统为了简便 采用了均匀加权 即 N 的上限取值为 4 即最高只 统计 4元词的共现精度 对于机器翻译评测方法来说 首先应当是有效的 能区分出翻译质量的高低 而且这种区 分能力对于同一个任务的不同测试样本没有大的变化 其次应该是可靠的 它的判断结果应该 和人工的评判结论一致 把 B L E U方法评测结果分别与单语专家和双语专家的评测结果相 比较 结果显示 出这种方 法和人 工评测方法有很显著 的统计相关 度 评测结果也趋 于一致 3 2 NI S T评测方法 NI S T在 I B M 的 B L E U方案基础上 提出了另外一种基于 N 元语法共现的统计方案 它 认为如果一个 N元词在参考译文中出现的次数越少 表明它所包含的信息量就越大 那么对 于该 N 元词就赋予更高的权重 NI S T定义一个 N 元词的信息量为 I n f o w 等 4 维普资讯 分母是 N元词在参考译文中出现的次数 分子是对应的 N一1 元词在参考译文中的出现 次数 对于一元词汇 分子的取值就是整个参考译文的长度 计算信息量之后 就可以对每一个共现 N 元词乘以它的信息量权重 再进行加权求平均 得 出最后 的评分结果 N r r r r 1 1 corce I n f o w 1 W 1 e x l m in l s 1 l l a ll 1 1 L L L J J t h a t 一 o c c u r I n 5 o u t pu t NI S T采用的是算术平均方式 而它的长度惩罚因子也与 B L E U标准略有不 同 L 是系 统译文的长度 而 E r s 参考译文的平均长度 是一个经验 阈值 它使整个惩罚值在系统译 文的长度是参考译文长度的 2 3的时候为 0 5 NI S T通过 F r a t i o 指标来衡量评测方法的有效性 某一评测标准的 F r a t io值是不同 系统之间得分的偏差与一个系统在不同测试集合上得分的偏差之 比 因此这个 比值越大 相 应的评测方法越好 实验表明 NI S T方法的 F r a t io 值高于 B L E U标准 说明 NI S T方法的 性 能要略好一些 同样 的 NI S T方法 与人工评测 也有很好 的统计相关性 3 3两种 方法的 比较 B L E U和 NI S T标准都能够有效地对翻译系统进行评测 B L E U使用几何平均策略 因 此一旦有任何阶的 N 元词的统计量为零 整个句子的最终得分也就为零 也就是说 B L E U评 测标准更侧重于译文的流利度 与此相对 NI S T采用的是算术平均 由于一元词的匹配数更 高 它的信息量在最终得分中占有很高的比率 所以 N I S T的评测标注更侧重于翻译的忠实度 3 4 D A RP A机器翻译评测活动 2 0 0 2 年 6 月 NI S T举办了首次正式的机器翻译评测活动 包捂 I B M公司 C a r n e g i eMe l I o n 大学 南加州信 息科学研究所 US C I S I 德国亚琛 R wT H A a c h e n 大学 微 软研究院 R e d mo n d 和 中国科学 院计算 研究所在 内的 6家研究机构 的机器翻译 系统参加 了评测 同时 NI S T还评测了 S Y S T R A N公司的商用机器翻译系统作为一个横向比较 测试语言包括中英 翻译和阿拉伯语到英语 的翻译 除了 I B M C MU和 I S I 参加 了两种语言对的翻译测试外 其 他单位仅参加了中英翻译的测评 评测结果显示德 国亚琛大学 C MU大学和 I S I 的机器翻译系统性能优越 接近甚至超过 了 S Y S T R A N公司的商用翻译系统 亚琛大学采用的是统计机器翻译模型 将 传统的噪声信 道翻译模型改进为最大熵模型 并且把基于词的对齐模型增强为基于短语的对齐模型 大大改 善了翻译质量 评测结果也 表明该 系统在所有参评 系统 中性 能最 为优秀 C MU 大学 的 Me g a R A D D翻译系统通过翻译引擎把基于短语翻译的统计机器翻译系统和基于实例的翻译 系统集成为一体 通过比较和选择输 出最优的翻译结果 I S I 研究所开发的 R e t e翻译系 统采用 I B M一4 统计模型为原型 加入了语法分析模块和联合短语翻译模块 也有效地提升了 系统的翻译质量 评测结果也显示 无论是科研系统还是商用产品 机器翻译系统和人工翻译 还有很大的差距 这也说明对于机器翻译研究还有许多的问题需要解决 NI S T每年将举办一次机器翻译评测 评测的主要语言是 中文和阿拉伯语 翻译 目标语言 是英语 在今后的评测活动中 日语 韩语和西班牙语等语言也会逐步纳人评测的范围 同 时 自动机器翻译评测技术也会更广泛地应用在评测过程当中 为广大的机器翻译研究人员提 供高效和可靠的辅助功能 四 MS RA的工作平 台 我们在 B L E U和 NI S T评测标准的基础上设计并实现了一个 自动机器翻译评澳 I 平台 界 5 一 t j Iii iI l 1 l j f l 维普资讯 维普资讯 另外 B L E U在计算 N g r a m 的共现度的时候 只是按照其共现频率来统计 而忽略了实词和虚词之 间的不同意义 虚词的形式基本单一 所以匹配的频 图 5 词根分析功能进行 N g r a n相似度计算 图6 系统内嵌的基于 T F I D F权重的评测标准 率也要远远高于那些富有多种形式的名词和动词 这样在统计译测 中也会带来一定 的误差 例如 参考译 文 1 Th e Ye l l o w R i v e r G o l d e n T g l e h a s b e 原文 黄河 金三角 成为新的投资热点 c o t i l e n e w i n v e s t men t h o t s p o t 译文 t h e y e l l o wfi v e r b e c o n l e st h e n e wi n v e s t 2 Re f e r e n c e 3 Th e G o l d en Tr g l e o f t h e Ye l l o w Riv e r men t f o c u s b y g o l d t r i g o n o me t r y b e c o n l e s a n e w h o t s p o t f o r i n v e s t men t 本例中 P l t h e 和 P l b e c o me s 都是 1 1 4 没有能够体现出信息量不同的单词在翻译结果 中的不同重要性 在其它一些例子 中 甚至一些虚词的统计概率会远远高于一些核心词 为 了纠

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论