基于统计的机器翻译课件_第1页
基于统计的机器翻译课件_第2页
基于统计的机器翻译课件_第3页
基于统计的机器翻译课件_第4页
基于统计的机器翻译课件_第5页
已阅读5页,还剩6页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、2. Corpus-based system基于语料库的机器翻译系统概念:不同于基于规则的机译系统由词典和语法规则库构成翻译知识库,基于语料库的机译系统是以语料库(P121-P122)的应用为核心,由经过划分并具有标注的语料库构成知识库,以统计规律为主。分类: (1)基于统计(Statistics-based)的机器翻译 (2)基于实例(Example-based)的机器翻译发展时期: 20世纪80年代(计算机技术和互联网技术的迅猛发展)代表人物: 香农:香农模式,噪声信道模型 P122 机器翻译之父:1947年Weaver提出的“解码思想” P123(1)基于统计(Statistics-ba

2、sed)的机器翻译统计机器翻译的基本思想是通过对大量的平行语料进行统计分析,构建统计翻译模型,进而使用此模型进行翻译。 通俗地说,源语到目的语的翻译是一个概率统计问题,任何一个目的语句子都有可能是任何一个源语句的译文,只是概率不同,机器翻译的任务就是找到概率最大的句子。 具体方法是将翻译看做对原文通过模型转换为译文的解码过程。 1、模型问题:就是为机器翻译建立概率模型,也就是要定义源语到目的语的翻译概率的计算方法。 2、训练问题:利用语料库来得到这个模型的所有参数。 3、解码问题:在已知模型和参数的基础上,对于任何一个输入的源语言句子,去查找概率最大的译文。例句:We do chicken r

3、ight.1.我们做鸡是对的。 2.我们做鸡正点耶 。3.我们就是做鸡的,我们有做鸡的权利。 4.我们只做鸡的右半边。5.我们可以做鸡,对吧? 6.我们行使了鸡的权利。7.我们只做右边的鸡。 8.我们让鸡向右看齐。9.我们只做正版的鸡! 10.只有朝右才是好鸡。11.我们有鸡的权利! 12.只有我们可以做鸡!13.我们“正在”做鸡好不好? 14.向右看,有鸡。15.我们让鸡变右撇子。 16.我们一定要把鸡打成右派!17.我们做的是“右派”的鸡!(麦当劳做的是“左派”的鸡!) 18.我们只做右撇子鸡!19.我们干鸡的右边。 20.我们把鸡搞正!(原来是 歪的)21.我们“躲”在鸡的右怀里。 22

4、.我们做鸡,怎么啦 ?23.鸡的左边留给麦当劳干。 24.我们知道怎么做鸡。25.我们知道如何做“鸡”。 26.鸡做得对! 27.你知道我们正在做鸡。 28.我们只做正点的鸡! 29 我们烹鸡的方式最正确。/ 我们是烹鸡专家。应用:Google 的在线翻译已为人熟知,其背后的技术即为基于统计的机器翻译方法,基本运行原理是通过搜索大量的双语网页内容,将其作为语料库,然后由计算机自动选取最为常见的词与词的对应关系,最后给出翻译结果。 此外,常用的,基于统计法机器翻译的系统还包括Bing翻译 和百度翻译等。Bing翻译是Microsoft提供的一项文段和网页全文翻译功能网站,作为Bing服务品牌的一

5、部分。 优缺点:翻译质量的高低主要取决于概率模型的好坏和语料库的覆盖能力。基于统计的方法虽然不需要依赖大量知识,直接靠统计结果进行歧义消解处理和译文选择,避开了语言理解的诸多难题,但语料的选择和处理工程量巨大。(2)基于实例(Example-based)机器翻译提出:最早是由日本的机器翻译专家长尾真1981年提出的。基本思想:在已经收集的双语实例库中找出与待翻译部分最相似的翻译实例,再对实例的译文通过替换,删除或增加等一系列变形操作,实现翻译。基于实例的机器翻译系统主要由两个数据库(实例库和同义词库)以及两个模式(检索模式和调整模式)组成。 实例库(双语语料库) 同义词库(语义词库、词典词库)

6、 待翻译句子 相似实例检索 重组与调整 翻译结果待翻译句子:Father goes to bed at 11 in the evening.相似句子: Mother gets up at 6 in the morning. 母亲早上六点起床。重组调整:父亲晚上11点上床。我给玛丽一支笔I gave Mary a pen.我给汤姆一本书I gave Tom a book.缺点:由于该方法需要一个很大的语料库作为支撑,语言的实际需求量非常庞大。但受限于语料库规模,基于实例的机器翻译很难达到较高的匹配率,往往只有限定在比较窄的或者专业的领域时,翻译效果才能达到使用要求。因而到目前为止,还很少有机器翻译系统采用纯粹的基于实例的方法,一般都是把基于实例的机器翻译方法作为多翻译引擎中的一个,以提高翻译的正确率。翻译记忆TM(TranslationMemory) P125翻译记忆是实例翻译的特例;基本思想: 把已经翻译过的句子保存起来 翻译新句子时,直接到语料库中去查找 1)如果发现相同的句子,直接输出译文 2)否则它从实例库中找出相似的例子(常常是多个例子

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论