ISCAS机器翻译和系统融合评测系统课件_第1页
ISCAS机器翻译和系统融合评测系统课件_第2页
ISCAS机器翻译和系统融合评测系统课件_第3页
ISCAS机器翻译和系统融合评测系统课件_第4页
ISCAS机器翻译和系统融合评测系统课件_第5页
已阅读5页,还剩10页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

ISCAS机器翻译和系统融合评测系统张大鲲孙乐中国科学院软件研究所dakun04@1大纲汉英新闻领域翻译评测概述系统流程预处理和后处理测试结果系统融合评测2概述训练语料受限的汉英机器翻译基于短语的统计机器翻译系统4元语言模型3元大小写敏感语言模型进行大小写还原利用规则对数字进行处理3系统流程全部小写化GIZA++双向词对齐短语抽取5个概率4元语言模型3元大小写敏感语言模型数词翻译替换翻译输出数词识别与替换Beam搜索解码预处理后处理训练平行语料4特征短语翻译概率词汇化概率反向短语翻译概率反向词汇化概率短语惩罚概率(2.718)词语惩罚(目标语言句子长度)目标语言模型,4元5预处理和后处理中文语料中的英文和英文语料全部小写中文全角字符转换为半角ABC123→ABC123StanfordChineseWordSegmenter分词数字单独处理6训练语料来源数据提供单位数据文件类型句对数目(约)厦门大学英汉电影字幕平行语料库厦门大学电影17万哈工大信息检索组英汉句子级对齐语料库哈工大检索综合10万ChineseLDC(资源编号:CLDC-LAC-2003-006)汉英/汉日双语语料库(汉英部分)北京大学综合20万哈工大机器翻译组英汉句子级对齐语料库哈工大机译综合5万ChineseLDC(资源编号:CLDC-LAC-2003-004)中英句子级对齐双语语料库计算所、自动化所综合30万合计82万短语数量:1600万7开发集调整参数参数WPPT-0.26590.04490.10090.03210.0433-0.2747参数DWLWMLLDMSTL0.09490P–词语惩罚PT–翻译模型概率(包括词汇化概率和短语惩罚)DW–调序的权重LW–语言模型权重ML–最大的短语长度LD–调序的限制范围MS–栈大小TL–允许的最多翻译候选项489句4个参考答案BLEU=0.10398测试结果IDBLEU4NIST5GTMmWERmPERICT受限语料ISCAS0.18386.81840.65960.78840.56760.2752最好结果0.22647.64260.71280.73070.51640.3352非受限语料最好结果0.28097.52350.72380.68240.50500.38059系统融合主要方法(Rostietal.2007)句子级融合重评分,输出最好的句子短语级融合构造新的短语表,计算概率,重新解码词级融合词对齐,形成词图,最优路径10系统融合11重评分统计在候选翻译中出现的所有n-gram个数计算每个句子中命中的个数n=7

权重,利用开发集训练12测试使用提供的10个单位提交的17个系统的翻译结果(没有使用系统U14的结果)IDBLEU4NIST5GTMmWERmPERICTISCAS0.25098.10130.71960.71540.50050.3336最好结果0.29447.75010.73190.67610.49720.392013总结汉英新闻领域翻译评测训练语料受限

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论