报告人李贤华_第1页
报告人李贤华_第2页
报告人李贤华_第3页
报告人李贤华_第4页
报告人李贤华_第5页
已阅读5页,还剩22页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

11,001

New

Features

forStatistical

Machine

TranslationDavid

Chiang,

Kevin

Knight,

Wei

Wang报告人:李贤华2009.11.12主要内容简介

MIRA训练特征选择实验结果分析讨论主要内容简介

MIRA训练特征选择实验结果分析讨论简介所用系统:Hiero,句法系统所用方法:添加大量特征,用MIRA训练

实验结果:汉英上BLEU分别提高1.5,1.1添加的特征多为句法系统才能使用的特征,突出句法系统的优势。相比MERT,MIRA对于多特征调参更佳。BaselineHiero:串到串翻译系统,12个特征,用MERT训练得到权重句法系统:串到树翻译系统,25个特征,用MERT训练得到权重主要内容简介

MIRA训练特征选择实验结果分析讨论MIRA训练将新特征加入线性模型,用MIRA训练。e:输出串 h(e):

e的特征向量w:特征权重循环如下:选择一组输入句子f1…fm,解码对于每个输入句子,选择其10-best对每个输入句子,选择一个oracle翻译,设对于每一个候选翻译,计算损失更新w至w’,w’最小化:对于每个句子,解码器给训练器一个森林,训练器将权重更新后传给解码器。主要内容简介

MIRA训练特征选择实验结果分析讨论特征选择Discount

feature有许多计数为1的规则被选中,说明其概率被高估了使用特征count来奖励或者惩罚规则,特征值和规则的计数有关目标端特征Rule

overlap

features规则之间有交点。有些非终结符作为交点时更加可靠。对于不同的非终结符做交点的规则,进行不同的奖罚。Bad

single-level

rewrite对于一些使用范围很小的有问题的规则进行惩罚,通过对开发集的观察,得到以下规则需要惩罚:PP->VBN

NP-CPP-BAR->NP-C

INVP->NP-C

PPCONJP->RB

INNode

count

features对于树中出现的非终结符计数,以免某非终结符出现过多或过少Insertion

features有些规则会在英文端插入一些单词。对于每一个最可能出现在插入规则中的单词一个特征。特征选择源端特征:Soft

syntactic

constraints软句法约束,在源句子上建立句法树,奖励那些源端与该句法树相符的规则,惩罚不符的规则Structural

distortion

features设S为非终结符覆盖的源语言单词个数,R为是否要调序,P(R|S)可以在抽取规则的时候计算得到,并可作为模型的一个新特征,由此影响调序。主要内容简介

MIRA训练特征选择实验结果分析讨论实验结果使用了260m词的汉英双语语料。对于句法系统,重现了Collins的parser,以对英语部分产生句法树句法规则的抽取是在65m的子训练集上完成的对于Hiero,两个非终结符的规则在38m子集上抽取,其余规则在训练集其余部分抽取训练了3个5元语言模型>在整个英文语料上训得,用于两个系统>用10亿词训得,用于句法系统>用20亿词训得,用于Hiero所有语言模型都用KN平滑算法开发集:2010个句子测试集:1994个句子从NIST2004,2005及GALEprogram抽取的新闻语料。Hiero用了源端特征,句法系统用了目标端特征,两个系统都用了折扣特征。主要内容简介

MIRA训练特征选择实验结果分析讨论分析Discountfeature:+表示惩罚,-表示奖励。Word

insertionfeature:Be动词,a+the,.,,-Rule-overlapfeatureWeights

forgeneratedEnglishnonterminals结论1.新特征即使在顶级翻译系统上也能有所作为MIRA优于MERT句法系统能利用在其他系统中无法使用的特征,句法系统和MIRA是一个强大的组合相关论文:Online

large-margin

training

ofsyntactic

and

struc

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论