基于词语对齐融合提高统计机器翻译质量-PowerPoin.ppt_第1页
基于词语对齐融合提高统计机器翻译质量-PowerPoin.ppt_第2页
基于词语对齐融合提高统计机器翻译质量-PowerPoin.ppt_第3页
基于词语对齐融合提高统计机器翻译质量-PowerPoin.ppt_第4页
基于词语对齐融合提高统计机器翻译质量-PowerPoin.ppt_第5页
已阅读5页,还剩16页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、基于词语对齐融合提高统计机器翻译质量,提纲,研究动机 两种词对齐结果分析 词对齐结果融合策略 实验设置与结果分析 结论与未来工作,研究动机,词对齐是当前主流机器翻译技术的基础 目前广泛使用的是Giza+实现的IBM Model4 对齐模型 近年来,研究者也相继提出不少其他的词对齐方法 不同的词对齐工具并没有绝对意义上的优劣之分 目前学术界对词对齐质量和机器翻译性能之间的关系还没有一个明确的共识,本文切入点,给定两种差异较大的词对齐工具 ,在同一语料上进行词对齐获取 利用这两组不同词对齐的语料共同训练机器翻译模型,是否可以提高机器翻译性能?,提纲,研究动机 两种词对齐结果分析 词对齐结果融合策略

2、 实验设置与结果分析 结论与未来工作,两种词对齐工具,IBM词对齐模型 GIZA+ 两个方向 “grow-diag-final” 合并为 n-to-m对齐 HIT-MITLAB词对齐模型 统计和词典相结合 贪心算法实现,SSMT07语料上对齐结果差异度分析,Step1: 分别进行GIZA+词对齐(GIZA+双向一对多词对齐,然后采用“grow-diag-final”启发式策略获得双向词对齐,下文用 “G” 代称)和HIT-MITLAB词对齐(下文用 “H” 代称); Step2: 对两组词对齐结果计算其并集(HG)、交集(HG)、差集(H-G, G-H); Step3: 合并两组词对齐语料成为

3、合并语料; Step4: 基于合并语料获取词汇概率表(lex.f2n, lex.n2f) ; Step5: 根据词汇概率表lex.f2n,lex.n2f,计算各个集合的词对齐关系的平均翻译分值。 Step6: 统计各种数据,分析两种词对齐信息是否具有明显差异。,H、G词对齐集合统计,GIZA+获取了超过1千万的词对齐个数 而HIT-MITLAB只获得7百多万词对齐个数 H和G相同的词对齐数只占G本身的44.8%,占H本身67% 其他数据同样显示出,两者的差异非常明显,各个集合的词对齐翻译平均分数(1),假设S为一个词对齐集合,(f,e)为任意一个词对齐,Plex_f2n和Plex_n2f为词汇

4、翻译概率表,则有,各个集合的词对齐翻译平均分数(2),两个均分都满足: HG H G HG G-HH-G 融合两者有希望获得性能上的改善,H、G词对齐平均词翻译概率统计,提纲,研究动机 两种词对齐结果分析 词对齐结果融合策略 实验设置与结果分析 结论与未来工作,词对齐结果融合策略,IBM词对齐模型实验(G) HIT-MITLAB词对齐模型实验(H) 数据融合实验(HGdc) 训练语料: 将H与G两个训练语料直接合并 模型融合实验(HGmc) 将在H和G两组数据上分别训练得到的模型直接合并,提纲,研究动机 两种词对齐结果分析 词对齐结果融合策略 实验设置与结果分析 结论与未来工作,实验设置,实验平台 Moses 训练语料 SSMT07-811812句 开发集 SSMT07汉英开发集 测试集 SSMT07汉英测试集,对比实验结果,HGdc比G提高了近0.7个BLEU值 减少了未登录词(UNK)的数目,注:表中的PP代表后处理(Post Processing),包括去掉 UNK,以及一些标点的前向粘结,如 It s - its , end . - end.。,.H、G、HGdc、HGmc实验结果,不同源语言短语数统计,这个短语数和UNK的个数直接相关 HGdc比G多出2,240个 这些短语使得HGdc的UNK个数比G的下降了114个,各组实验

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论