基于SVM的无参考译文.ppt_第1页
基于SVM的无参考译文.ppt_第2页
基于SVM的无参考译文.ppt_第3页
基于SVM的无参考译文.ppt_第4页
基于SVM的无参考译文.ppt_第5页
已阅读5页,还剩19页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于SVM的无参考译文 的译文质量评测,宁 伟 季 铎 蔡东风 报告人:宁 伟 沈阳航空工业学院 知识工程中心,主要内容,问题的提出 本文的方法 实验及实验结果分析 结论,问题的提出,翻译的发展 评测的重要性 评测的定义 EAGLES(Expert Advisory Group on Language Engineering Standards) (O,U ) V O 是对象的集合 U 是用户的集合 V 是值的集合,评测的实现手段 人工评测 自动评测,人工评测指标 流畅度 忠实度 正确性 人工评测特点 准确可信 周期长、成本高、不可复用、主观性强,评测的目的和要求 精确评测打分,并指出错误点; 定性的评价译文好坏。 本文出发点 对译文进行定性的评测而非精确的质量评价; 对象机器辅助翻译的结果; 采用机器学习的方法。,SVM(Support Vector Machine),Vapnik 于 1995年提出的支持向量机以训练误差作为优化问题的约束条件,以置信范围值最小化作为优化目标,即SVM是一种基于结构风险最小化准则的学习方法。 目标:找到一个超平面,使得它能够尽可能多的将两类数据点正确的分开,同时使分开的两类数据点距离分类面最远。,SVM 是从线性可分情况下的最优分类面发展而来的, 基本思想可用下图的两维情况说明。,图中, 方形点和圆形点代表两类样本, H为分类线,H1,H2分别为过各类中离分类线最近的样本且平行于分类线的直线, 它们之间的距离叫做分类间隔(margin)。 所谓最优分类线就是要求分类线不但能将两类正确分开(训练错误率为0),而且使分类间隔最大。 推广到高维空间,最优分类线就变为最优分类面。,SVM特点,非线性映射是SVM方法的理论基础,SVM利用内积核函数代替向高维空间的非线性映射; 对特征空间划分的最优超平面是SVM的目标,最大化分类边界的思想是SVM方法的核心; 支持向量是SVM的训练结果,在SVM分类决策中起决定作用的是支持向量。,由于SVM 的求解最后转化成二次规划问题的求解,因此SVM 的解是全局唯一的最优解 SVM在解决小样本、非线性及高维模式识别问题中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中.,本文方法,借鉴人工打分的方法 对句子按照错误类型进行分类 不同的错误类型给定不同的扣分权重,实验,流程 语料处理-错误标记的处理 特征选择 训练SVM分类器 打分,训练语料 “The practical new-type invention discloses a kind of digital channel the device includes , and on both ends of the pulse generator, the power supply is linked, and the pulse signal that is produced by the 脉冲 generator is under the control of the controller, by the pulse transformer, it gets the faradic electricity pulse; after dressing by the wave, it is contributed to the pulse output electrode.”。,错误类型 多词错误 少词错误 非翻译规范错误 表达不够流畅 语法错误,特征选择,浅层词法特征 词、词性 N-Gram 句子perplexity 低概率及未出现Trigram 错误词性模板 从带错误标记的语料中抽取一个错误词性模板库 These carts run on the stair sections. DT NNS VB IN NN NNS. IN DT NN ADD,深层句法特征 浅层句子模板 句法树第一层 短语模板 NP VP PP 模板库 错误句法模板 错误标记所在的根节点的孩子节点,sections,stair,S,NP,VP,DT,NNS,VB,PP,these,carts,run,IN,NP,on,NP,NN,NNS,例如:,These carts run on the stair sections,sections,stair,S,NP,VP,DT,NNS,VB,PP,these,carts,run,IN,NP,on,NP,NN,NNS,浅层句子模板:S-NP+VP 短语模板模板:NP-DT+NNS PP-IN+NP 错误词性模板:IN DT NN ADD 错误句法模板:PP-IN+NN+NNS,实验语料,语料-专利摘要 训练语料 8,000篇质量好的译文 5,000篇质量较差的译文 测试语料 1000篇,实验结果,译文定性评测 语言模型 SVM,实验分析,从实验结果可以看出,本文的评测方法可以在一定程度上反映译文的质量,并且和人工评测结果有一定的相关性,但是其正确率还不是很理想,分析原因包括以下几点: 在特征选取时,本文仅根据频率对模板进行cutoff,可能会丢失一些重要特征; 译文中存在的错误对句法分析结果有一定的影响; 语料规模的限制,数据稀疏现象还比较严重; 训练语料是人工标注的,虽然本文在实验中已经对标记进行了预处理,但是仍然存在着一些不规范的标记。,结论与展望,译文质量自动评测需要从流畅度、正确性和忠实度三个方面综合考虑,涉及语法知识和语义知识,是一个很有研究意义但解决难度较大的研究课题。本文在无参考译文的情况下,采用机器学习的方法对译文质量进行评测,实验中采用翻译公司审校过的译文做训练和测试语料,并且错误是由专门的审校人员手工标注的,语料具有很高的可信性和说明性,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论