版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
11,001
New
Features
forStatistical
Machine
TranslationDavid
Chiang,
Kevin
Knight,
Wei
Wang报告人:李贤华2009.11.12主要内容简介
MIRA训练特征选择实验结果分析讨论主要内容简介
MIRA训练特征选择实验结果分析讨论简介所用系统:Hiero,句法系统所用方法:添加大量特征,用MIRA训练
实验结果:汉英上BLEU分别提高1.5,1.1添加的特征多为句法系统才能使用的特征,突出句法系统的优势。相比MERT,MIRA对于多特征调参更佳。BaselineHiero:串到串翻译系统,12个特征,用MERT训练得到权重句法系统:串到树翻译系统,25个特征,用MERT训练得到权重主要内容简介
MIRA训练特征选择实验结果分析讨论MIRA训练将新特征加入线性模型,用MIRA训练。e:输出串 h(e):
e的特征向量w:特征权重循环如下:选择一组输入句子f1…fm,解码对于每个输入句子,选择其10-best对每个输入句子,选择一个oracle翻译,设对于每一个候选翻译,计算损失更新w至w’,w’最小化:对于每个句子,解码器给训练器一个森林,训练器将权重更新后传给解码器。主要内容简介
MIRA训练特征选择实验结果分析讨论特征选择Discount
feature有许多计数为1的规则被选中,说明其概率被高估了使用特征count来奖励或者惩罚规则,特征值和规则的计数有关目标端特征Rule
overlap
features规则之间有交点。有些非终结符作为交点时更加可靠。对于不同的非终结符做交点的规则,进行不同的奖罚。Bad
single-level
rewrite对于一些使用范围很小的有问题的规则进行惩罚,通过对开发集的观察,得到以下规则需要惩罚:PP->VBN
NP-CPP-BAR->NP-C
INVP->NP-C
PPCONJP->RB
INNode
count
features对于树中出现的非终结符计数,以免某非终结符出现过多或过少Insertion
features有些规则会在英文端插入一些单词。对于每一个最可能出现在插入规则中的单词一个特征。特征选择源端特征:Soft
syntactic
constraints软句法约束,在源句子上建立句法树,奖励那些源端与该句法树相符的规则,惩罚不符的规则Structural
distortion
features设S为非终结符覆盖的源语言单词个数,R为是否要调序,P(R|S)可以在抽取规则的时候计算得到,并可作为模型的一个新特征,由此影响调序。主要内容简介
MIRA训练特征选择实验结果分析讨论实验结果使用了260m词的汉英双语语料。对于句法系统,重现了Collins的parser,以对英语部分产生句法树句法规则的抽取是在65m的子训练集上完成的对于Hiero,两个非终结符的规则在38m子集上抽取,其余规则在训练集其余部分抽取训练了3个5元语言模型>在整个英文语料上训得,用于两个系统>用10亿词训得,用于句法系统>用20亿词训得,用于Hiero所有语言模型都用KN平滑算法开发集:2010个句子测试集:1994个句子从NIST2004,2005及GALEprogram抽取的新闻语料。Hiero用了源端特征,句法系统用了目标端特征,两个系统都用了折扣特征。主要内容简介
MIRA训练特征选择实验结果分析讨论分析Discountfeature:+表示惩罚,-表示奖励。Word
insertionfeature:Be动词,a+the,.,,-Rule-overlapfeatureWeights
forgeneratedEnglishnonterminals结论1.新特征即使在顶级翻译系统上也能有所作为MIRA优于MERT句法系统能利用在其他系统中无法使用的特征,句法系统和MIRA是一个强大的组合相关论文:Online
large-margin
training
ofsyntactic
and
struc
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年豆类项目规划申请报告模板
- 2024年线缆组件项目立项申请报告
- 2024年美容、护肤、护发产品项目申请报告模板
- 2024年糕点项目立项申请报告范样
- 2024年薄膜点滴填料混装的横流冷却塔项目提案报告范文
- 2024年节能、高效干燥设备项目提案报告范样
- 2024年石英玻璃光掩模基片项目规划申请报告
- 四年级语文教案《但愿人长久》
- 2024年表彰大会发言稿篇
- 2024年招商总结安义县招商办年工作总结
- 伺服驱动器测试报告
- 小学教育专业自我鉴定范文(精选5篇)
- 《2021国标结构专业图集资料》04G410-2 1.5mX6.0m预应力混凝土屋面板(钢筋混凝土部分)
- 一年级家委会工作总结(精选4篇)_年级家委会工作总结
- 跨文化交际案例分析
- 拆除混凝土路面协议书
- 小学数学三到六年级知识点汇总
- 低烟无卤阻燃电缆WDZ
- 带式运输机传动装置说明书 机械综合设计
- 入团仪式家长发言稿:坚定信念,努力奋斗
- 员工三级安全教育培训大纲.doc
评论
0/150
提交评论