英语翻译之机器翻译_第1页
英语翻译之机器翻译_第2页
英语翻译之机器翻译_第3页
英语翻译之机器翻译_第4页
英语翻译之机器翻译_第5页
已阅读5页,还剩36页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、机器翻译内容 1 机器翻译的定义 ( 谈海燕) 2 基于规则的机器翻译系统中直接翻译系统(曾祥翠) 3 基于规则的机器翻译系统中的转换系统(王彩媛) 4 基于规则的机器翻译系统中基于中间语的机器翻译(李廷霞) 5基于语料库的机器翻译系统中基于统计的翻译(陈玉凤) 6基于语料库的机器翻译系统中基于实例的机器翻译(沈怡) 7 机器翻译的历史与展望(毛秋琦) 什么是机器翻译? 机器翻译(machine translation ),又称机译(MT),是利用计算机把一种自然语言转变成另一种自然语言的过程。用以完成这一过程的软件叫做机器翻译系统。机器翻译与人工翻译人工翻译 1 一般会先通读全文,译者会前后

2、照应。 2 翻译文章是要基于对文章的理解。 3 这是一个再创造的过程。机器翻译1. 一句一句处理,处理第一句时不知道第二句的 内容不能通读全文。2. 翻译时对源语言的分析只是求解句法,而不是意义上的理解。3. 翻译只是句法结构和词汇的对应。 机器翻译(machine translation)机器翻译原理本质:人类思维和语言活动的模拟。 机器翻译的翻译过程如图: (输入)原语 目的语(输出) 分析 转换 生成机器翻译主要有两套系统: 1.基于原则的 (rule-based system) 2.基于语料库的(corpus-based system)基于规则的翻译系统其规则主要包括: 1.词法 2.

3、句法 3.短语规则 4.转换生成语法大致可分为三个类型: 1.直接翻译 2.结构转换翻译 3.中间语翻译直接翻译系统机器翻译最初构想:是把原语中的单词或句子直接替换成相应的目 的语的单词和句子,必要时对词序进行适当的调整。一般在单词的层面上进行,即从目的语中寻找与原语词汇相对应的单词。 机器翻译发展后期:加入了一些简单的句法甚至语义规则,对替换后的词语进行重新排序,生成目的语文本。其翻译模式如图:SL输入 形态分析 汉语字典查询 词序调整 TL输出 由于原语与目的语在句子语法结构上千差万别,翻译出来的句子的可读性可想而知。但是它毕竟迈出了机器翻译的最实质性的一步,是机器翻译从梦想到显示的一次飞

4、跃。在孩子的教育问题上,家庭教育与学校教育同等重要。Family education plays an equally important role in childrens education as school education基于规则的机器翻译系统之 转换系统出现原因为了提高译文的可读性,人们更多地从句子的层面来分析处理原语与目的语的特征于是在直接翻译系统的基础上,出现了机器翻译的转换系统分类转换系统通常包括分析,转换,生成三个部分核心从原语向目的语的转换是该系统的核心三个阶段 (美国学者V.Yingve提出) (1)用代码化的结构标志来标注源于的句子结构分析阶段(2)把原语句子的结构

5、标志转换为目的语句子的结构标志转换阶段(3)由目的语句子结构标志生成目的语句子生成阶段三阶段的新诠释法国人B.Vouquois将三阶段诠释为六个步骤 分析 转换 生成原句词法 原句句法 双语词法 双语句法 目的语句法 目的语词法奈达对翻译过程的诠释奈达根据乔姆斯基的“转换生成语法”做的诠释 SL表层结构 TL表层结构 SL深层结构 转换 转换分析生成SL表层结构 SL深层分析TL深层结构TL表层结构我爱你分析转换生成机器翻译中,从原语(SL)句子的表层结构到其深层结构需要经过词法、句法、语义等分析。形成的深层结构是一种树(syntax tree)。它反映的事一个句子内部的语法结构,这种结构认为

6、是人类抽象思维的逻辑表达式。不同的语言具有相同或相似的深层结构。就像是一座桥梁,把人类不同的语言连接恰来,使彼此可以翻译交流。转换系统中,通过对原语和目的语的结构特征分析,人们制定出大量的句法结构的转换映射规则,机器可通过这些规则将直接翻译出的句子的词序进行重新排列组合,得出可读性更高的译文。 基于规则的机器翻译系统之 中间语的机器翻译自然语言大多一个单词有多种意思,比如,中文的“方便”二字就有很多不同的意思,容易产生歧义。在机器翻译中,为了简化纷繁复杂的表达结构,避免其含糊不清的语义现象,它独立于各种自然语言,同时又能清晰准确地表达各种自然语言的人造计算机语言英语而生。这种通用的人造计算机语

7、言就是中间语。基于中间语的机器翻译原理就是不同语言之间建立一个通用的语义-句法表达式,如图所示:SL词典词典TL词典和语法库词典和语法库分析合成 在翻译中,中间语起到了一个中介的作用,原语与目的语似乎并不直接接触,仿佛是进行了两次翻译。故而在设计时,机器翻译分成了两大模块,前一模块是原语分析模块,输入SL原文,输出为IL表达式;后一模式目的语合成模式,输入为IL表达式,输出为TL译文。翻译中,原语与目的语之间不需要另外设计转换规则,因为中间语表达式对原语和目的语是一样的。这就为多种语言翻译提供了一种非常经济有效的途径。因为在双语转换时,输入和输出是需要不同的转换机制。举例:英译汉不同于汉译英。

8、若有N种语言进行互译,就必须设计出N(N1)个双语转换机制。而采用中间语之后,每种语言都与中间语发生关系,转换模式就只需要2N个。假设欧共体15个成员国仅使用10种官方语言进行机器翻译,那么采用互译转换的方法就需要研制开发10(10-1)=90个机器翻译模块,而使用中间语的则只要210=20个,所节省的成本一目了然。延伸:*基于中间语的翻译是指对源语言进行分析,得到一个独立于源语言和目标语言的、基于概念的中间语言表示,然后从这个中间语言表示生成目标语言。*对于N种语言之间的翻译(多语翻译)转换翻译需要n(n-1)个模块中间语言翻译需要2n个模块语言语言1语言语言2中间语中间语语言语言3语言语言

9、2中间语言翻译转换翻译*货币的本质是一种等价物,那意味着所有的物品都可以用货币去衡量,就相当于一种中间语,货币比喻如图:*1000RMB=一头牛*100欧元=一个花瓶*1000RMB=100欧元=1货币*在这个比喻中,虽然不能把一头牛直接等价于一个花瓶,也不能直接把1000RMB直接等价于100欧元,但是他们都有相同的等价物1货币,这1货币就是他们之间的桥梁,他们可以互相交换。*这就和中间语的功能是相似的。寻找中间语的难度“如果设计出一种原语言(中间语言)用来翻译,那么它就必须包涵多种语言的所有特征。这种努力不仅毫无止境,而且很可能毫无止境。”法国人斯莱德基于语料库的机器翻译系统基于规则的机器

10、翻译益处:它通过上下文的搭配关系进行分析和生成。借助对语法的分析,将语法现象总结成规律,用于机器翻译。同时借助传统语法树和广义语法分析,让计算机根据这些规则举一反三进行翻译 基于规则的机器翻译弊处:由于有些语言相差悬殊,其结构更是大相径庭,所以给构造映射规则带来了巨大困难。且规则库再大也是有限的,无法涵盖复杂多变的自然语言现象,随着分析不断深入,需要的相关信息就越来越多,这样构造的规则就会越来越难,很容易出现死循环和前后矛盾等难题。年代:20世纪80年代语料库简介:语料库是一个由大量在真实环境中使用的语言信息所集成的专项研究使用的资料库。它是一个为专门目的,按明确标准收集整理起来的电子文本库。

11、语料库分类:原始语料库 ,附码语料库 ,平行语料库,学习者语料库,网格式语料库基于统计的机器翻译基本理论:语言B准确地或近似地再现语言A的信息 语言A (噪音信道) 语言B香农模式信息编码信息解码信宿噪音基于统计的机器翻译过程图解ST转换全局搜索,求P(T)X P(S/T)最大值转换P(S/T)词典模式P(s/T)对齐模式P(T)语言模式TL文本P(T)为某句在目的语(TL)中出现的概率,P(S/T)表示原语文本(ST)译成目的语(TL)文本的概率。 机器翻译原理二:基于语料库的机器翻译系统B:基于实例的机器翻译一、Whats corpus(语料库是什么)定义:一个由大量在真实环境中使用的语言

12、信息所集成的专供研究使用的资料库。由来:由于有些语言相差悬殊,其结构的大相径庭,给构造映射规则带来巨大困难,基于规则的机器翻译的规则库再大也是有限的,无法涵盖复杂多变的自然语言现象。于是随着分析的不断深入,20世纪80年代末人们开始转向大规模的语料库,通过建立海量的相互对应的双语语料库,甚至实例库,进行机器翻译中的分析、转换和生成。分类:原始语料库、附码语料库、平行语料库、学习者语料库、网格式语料库。建设的关键:对现有语料库进行深层次的开发和研究。 包括对原始材料进行词性、语法、句子结构、语音、语义、语篇乃至语用上附码标记,以及双语(由指按长度和译词数目进行句子层面上)的对齐。 标记准确,对齐

13、合理,有利于计算机自动高效地检索,从而得出理想的翻译。基于实例的机器翻译 定义:把全部或部分人们已经翻译过的句子实例对齐组成一个庞大的双语对齐语料库。由此通过精确的检索和对比,从而得到高质量的译文。 起源:最早由日本著名机器翻译专家长尾真提出。他在探讨了人类外语学习和翻译的过程后发现:人们在翻译理解新句子时,不是去仔细分析语法结构,而是参照曾经掌握的句子结构,通过类比进行翻译。 因此他设想:若让计算机预先存入标准的翻译实例,那么翻译时只要将输入的句子与实例中的句子相比较,找出与之最相似的那个实例,便可模仿其现成译文进行翻译了。以图表示如下:输入输入SL句子句子检索同义词库检索实例库检索到的实例

14、检索到的实例调整输出TL文本 海量的储存和高速的运算,建造超大型的双语对齐的翻译实例库,并通过高速匹配检索,发挥计算机的优势,又避开了翻译过程中语义语法等深层次问题的理解与分析。 它是一个全开放的系统,方便实例的增加或删减,系统也容易维护,并可充分利用互联网络,实行联机共建。*翻译记忆(Translation memory) 即让计算机记住所有已经翻译过的文本,构建一个翻译记忆库。这样翻译时,系统会不断自动检索记忆库中是否存有现成的翻译材料,提供已有译文参考。同时,翻译记忆系统也会在用户进行新的翻译过程中自动储存新的译文,不断完善翻译记忆库。 优点: 它摆脱了机器翻译极其复杂的分析、转化和生成

15、规则,充分利用计算机海量储存的能力,准确无误的再现已有的翻译材料,方便有效。举例:待翻译的句子:他买了一本计算机语言入门书。 假定计算机中已经储存了如下实例:A他买了-he boughtB一本计算机语言学入门书-a book on introduction to Computational Linguistics 重组产生:he bought a book on introduction to Computational Linguistics.历史与展望历史开创期 (1947-1964)1954 年,美国乔治敦大学(Georgetown University) 在 IBM 公司协同下, 用

16、IBM-701计算机首次完成了英俄机器翻译试验,向公众和科学界展示了机器翻译的可行性,从而拉开了机器翻译研究的序幕。受挫期 (1964-1975) 1964年,为了对机器翻译的研究进展作出评价,美国科学院成立了语言自动处理咨询委员会(Automatic Language Processing Advisory Committee,简称ALPAC委员会),开始了为期两年的综合调查分析和测试。恢复期 (1975-1989)进入 70 年代后,随着科学技术的发展和各国科技情报交流的日趋频繁,国与国之间的语言障碍显得更为严重,传统的人工作业方式已经远远不能满足需求,迫切地需要计算机来从事翻译工作。 同时,计算机科学、语言学研究的发展,特别是计算机硬件技术的大幅度提高以及人工智能在自然语言处理上的应用,从技术层面推动了机器翻译研究的复苏,机器翻译项目又开始发展起来,各种实用的以及实验的系统被先后推出,例如 Weinder 系统、EURPOTRA 多国语翻译系统、TAUM-METEO系统等。新时期 (1990至今)随着 Internet 的普遍应用,世界经济一体化进程的加速以及国际社会交流的日渐频繁,传统的人工作业的方式已经远远不能满足迅猛增长的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论