版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、.,1.2 机器翻译的历史,.,1.2.1 什么是机器翻译?,机器翻译(machine translation),又称机译(MT),是利用计算机把一种自然语言转变成另一种自然语言的过程。用以完成这一过程的软件叫做机器翻译系统。 文本机器翻译 语音机器翻译,.,1.2.1 什么是机器翻译?,机器辅助翻译(Machine Aided Translation或Computer Aided Translation,简称MAT或CAT) 翻译记忆体(Translation Memory,简称TM) 双语对照的文本编辑 .,.,1.2.2 现代语言学的崛起,语言是一个民族相互交际的最重要工具,进入20世纪
2、20年代以后,语言学成为一门新兴的学科。到了50年代,新的利用计算机研究语言的学科-计算语言学诞生了。 计算语言学的研究起始于机器翻译,机器翻译又称自动化翻译,是一种高级的人工智能技术,它是计算机科学、数学和语言学等多学科共同参与研制的结晶。机器翻译之所以成为可能,一是因为两种语言之间存在着可译性,二是因为人的翻译过程具有可模拟性。,.,(1)机器翻译的萌芽(1966年以前) 1947,Warren Weavers memo 1954,第一个公开展示的俄英MT原型系统 1966,美国科学院的ALPAC报告宣告机器翻译走入低谷 刚刚兴起的机器翻译研究很快就遇到了困难,翻译质量的低劣引起了人们无休
3、止的抱怨。其中,Bar Hillel作为当时最早参加研究的的专家,对机器翻译提出了批判,指出“自动翻译系统需要机器完全理解句子的意思后才能实现高质量的翻译,而机器不可能做到这些,因此不可能实现高质量的自动翻译系统”。,1.2.3 机器翻译的发展历史,.,(1)机器翻译的萌芽,受Bar Hillel的影响,美国国立科学院于1964年成立自动语言处理咨询委员会(Automatic Language Processing Advisory Committee,简称ALPAC),对这10年的研究成果进行评价。2年后,该委员会发表了一个否定机器翻译系统实用性的调查报告,即被后人称之为ALPAC报告,并中
4、止机器翻译项目的研究经费。从此机器翻译的研究跌入低谷。,.,ALPAC报告,ALPAC报告核心内容:经过调查,机器翻译速度慢,准确率很差,比人工翻译费用高得多,在近期或可以预见的未来,开发出实用的机器翻译系统的可能性不大。 这个报告后来虽曾受到许多严肃的批评,认为它是带有严重偏见的,但它对机器翻译研究造成了很大的损害。,.,(2)机器翻译的第二阶段,20世纪70年代中期,因ALPAC委员会发表的调查报告而跌入低谷的机器翻译研究开始在世界范围内复苏并日趋走向兴旺。这一阶段主要以欧洲为中心,确立了现代语言学理论在机器翻译中的地位。 标志之一 语言学家N.Chomsky于1957年提出的句法结构(S
5、yntatic structure)等形式语言理论被广泛地应用于自然语言的自动句法分析中,并成为计算语言学的基础理论之一。 标志之二 诞生了许多句法分析算法,如上下文无关文法解析流派中的CKY算法、Earley算法、Woods的ATN-Parser、LR-Parser、LINGOL等。在语义自动分析方面,有C.J.Fillmore提出的格文法理论、Schank的概念依存(Conceptual Dpendency)理论、Montague语法理论及Wilks的优选语义学(Preference Semantics)等。,.,(2)机器翻译的第二阶段(特征),这一代机器翻译技术主要采用句法结构变换和中
6、间语言方式,也称间接型机器翻译。具有实用价值的机器翻译系统取代了过去的实验系统,机器翻译由实验研究走向实用研究,并实现商品化,如加拿大蒙特利尔大学的气象预报机器翻译系统TAUM-METEO10(英法)、法国格勒诺布尔大学的ARIANE机器翻译系统等。这一时期机器翻译系统所采用的方法也被称为理性主义方法,.,(3)机器翻译第三阶段,20世纪年代,机器翻译由面向句法、基于规则的理性主义方法过渡到语义处理阶段,诞生了基于实例(Example-Based Machine Translation)和基于统计(Statistical Based Machine Translation)的机器翻译方法,被称
7、之为经验主义方法主导的机器翻译系统。 这一期间,日本掀起了机器翻译的热潮,以形态素解析技术为主的语言处理技术得到空前发展,构文解析技术及格文法解析技术也成为研究热点。实现了大规模的日英、英日机器翻译系统,并开始了亚洲各国语言间的机器翻译研究(ODA)。 以Chomsky早年提出的形式语言理论为基础,语言学家针对自然语言处理的特点,又提出了众多新的语言学理论,如广义短语结构语法(GPSG) 、词汇功能语法(LFG) 、合一语法(UG)、功能合一语法(FUG)、中心词驱动的短语结构语法(HPSG) 等,.,(4)机器翻译第四阶段,显著特点 语料库语言学成为语言研究的主流,为满足实际应用的需要,基于
8、大规模语料库的统计方法在自然语言处理领域中逐渐占据了主导地位19; 20世纪80年代提出的新的语言理论在实际系统中得到广泛应用,并与大规模语料库的统计方法结合,建立了具有实用性的新一代机器翻译系统;开始了新的机器翻译应用研究,如基于对话的机器翻译。 以统计方法为主的统计机器翻译横行霸道!,.,1.2.4 中国机器翻译的发展,机器翻译的研究开始于1956年,并从一开始就得到了国家的高度重视,机器翻译后来曾被列为“六五”、“七五”及“863”等重大科研项目。20世纪70年代中期,中国的机器翻译研究从停滞走向了复苏,80年代中期到90年代初期是我国机器翻译研究复苏以来比较活跃的时期。 研究开发出两个
9、在实用化系统:军事科学院的KY-1英汉机译系统(“译星”前身)及中科院计算所研制的863-IMT英汉机器翻译系统。在这一时期,中国还参加了由日本发起的亚洲五国机器翻译研发的合作项目(ODA),国内近10个科研院校参加了这一长达7年的国际项目。,.,1.2.4 中国机器翻译的发展,1990年代至今,中国的机器翻译进入了快速发展的时期,研制出了许多机器翻译系统。新一代机器翻译系统一般配有大规模的专业词典,并能在网上运行。此外,新的应用领域的机器翻译研究如对话翻译系统的研究也已开始。 在中日机器翻译方面,清华大学、南京大学、中软先后开展了实用机译系统的研究与开发,大连理工大学于1990年开始日中机器
10、翻译的研发,1994年开始中日机器翻译的研究,并先后开发出PC版的SWK日中机器翻译系统和SWK中日机器翻译系统。,.,1.2.5 机器翻译的现状,经过60年的发展,机器翻译对于许多人来说已经不是很陌生的了。今天我们可以在软件商店买到形形色色的PC机译软件,有各种语言间的机器翻译软件,如英文到中文的,中文到英文的,或者日文到中文的,甚至也有英文到日文的等等,还有家庭版的、专业版的,配带各种不同专业词典可供选择的等等。据估计,世界上目前市场上有1000多种不同的机器翻译软件在销售,我国具有一定规模的PC机器翻译软件也有近20种。在世界范围内PC机译软件的价格都不贵,而且价格还在不断地下降。现在可
11、以在网上免费享用翻译系统的服务。,.,1.2.5 机器翻译的现状,机器翻译现状可概括为: 发展很快,实用化翻译软件产品逐渐增多 译文质量普遍很低,可读性较差 理想与现实之间差距很大:用户期望值很大,而翻译软件能力很低,极度“弱智” 机器翻译的理论研究没有取得重大突破,但机器翻译的性能在逐渐提高。,.,1.2.6 机器翻译的未来,机器翻译的未来可以概括为: 前途光明,道路曲折 没有最好,只有更好 路漫漫兮,其修远兮,.,1.3 机器翻译路在何方?,危机 机器翻译比起10年前,可以说相当繁荣了。但是在这繁荣的后面,却存在着危机。前面说到的ALPAC报告曾给机器翻译带来的创伤如今似乎已被抚平了。但实
12、际上它的阴影始终会时不时地再出现在机译研究者的头上。如今随着有越来越多的机译系统走向市场,政府部门感到在这种情况下如果还要投资攻关似乎有点名不正言不顺了。而商家则只是想现在该是把现成的技术包装包装就可以赚钱的时候了。,.,1.3 机器翻译路在何方?,研究者的尴尬: “你估计开发出产品要多长时间?你的系统正确率如何?”. 如何回答?“正确率大约在百分之五十左右”?,.,1.3 机器翻译路在何方?,挑剔者的挖苦与讽刺: MT?不是machine translation,而是mad translation (疯子的翻译) 满篇英文难不住,满篇中文看不懂,.,1.3 机器翻译路在何方?-问题的症结,译
13、文质量至今并没有取得实质性的进展,很多50年前未解决的问题如今依然存在。 研究人员认识上的危机:“在现有的技术条件下,机译译文质量也只能这样了”。 这样一来,出现的情况将是投资者和研制者都在以较低水平的系统忙于行销赚钱,而不再有足够的经费和技术投入。机器翻译无论在理论上或是技术上都还未成熟。现在只是由于人们对于克服语言交流的障碍有着很强烈的需求,尤其是因特网的出现这种需求更显突出,机器翻译才获得了以较低的译文质量满足这种需求的机会,并利用这一机会来求得进一步的发展。,.,1.3.1 机器翻译与人工翻译的区别,机译过程: 一句一句处理,处理第一句时不知道第二句的内容是什么,处理第二句时,也不再去
14、参考第一句的内容了; 对源语言的分析只是求解句法关系,完全不是意义上的理解; 它的开发者要求它几乎是万能的,它似乎什么领域都能应付,从计算机到医学,从化工到法律,似乎只要换一部专业词典就可以了; 它的译文转换是基于源语言的句法结构的,受源语言的句法结构的束缚; 它的翻译只是句法结构的和词汇的机械对应。,.,人工翻译: 一般会先通读全文,他会前后照应; 对源语言求得意义上的理解; 只有专业翻译人员,没有一个是可以包打天下的万能翻译人员; 他的译文是基于他对源语言的理解,不受源语言的句法结构的束缚; 他的翻译是一个再创造的过程。,1.3.1 机器翻译与人工翻译的区别,.,1.3.2 机器翻译的取舍
15、,误区 很多人对机器翻译有误解,他们认为机器翻译偏差大,不能帮人们任何解决问题。事实上,机器翻译出现误差在所难免。原因在于,机器翻译运用语言学原理,机器自动识别语法,调用存储的词库,自动进行对应翻译,但是因语法、词法、句法发生变化或者不规则,出现错误是难免的。,.,比如大话西游中“给我一个杀你的理由,先”之类状语后置的句子。另外,机器翻译不适宜翻译带有复杂感情的文字。如果你拿着诗经中“所谓伊人,在水一方所谓伊人,在水之湄”等去翻译,其结果一定好不了。机器毕竟是机器,没有人对语言的特殊感情。毕竟汉语因其词法、语法、句法的变化及其语境的更换,其意思大相径庭,就连很多国人都是丈二和尚摸不着头脑,就别
16、说机器了。,1.3.2 机器翻译的取舍,.,机器翻译的作用 在为机器翻译不精准开脱的同时,我们仍然不认为着机器翻译无用武之地,相反针对机器翻译可以大批量的做资料翻译的特点,可被用作日常事务、日常信息、日常交流往来等方面的翻译手段。随着经济发展,贸易、交流等各种事务跨越国界,信息交流量也在加快、加大,尤其是在网络不断普及的时候,人们需要迅速获取资讯,却苦于没有充足的多专业人员去翻译。今天,人们的阅读不再像古人那样字句点逗都要清清楚楚。现代人需要的是在爆炸式增长的信息中迅速获取自己所需的信息。,1.3.2 机器翻译的取舍,.,现实问题 以华盛顿邮报为例,如果一百多版的华盛顿邮报需要细读的话,那每天
17、看报的时间都不够。所以,在实际生活中,绝大部分人阅读的第一步只是了解大概,因此,在这样的要求下,采用机器翻译可以做到了“多、快、好、省”,而“信”、“达”、“雅”却费用高昂的人工翻译并非人人都需要。,1.3.2 机器翻译的取舍,.,1.3.3 在线翻译:机器翻译重头戏,鉴于机器翻译仍具相当市场,国内涉足这一领域的厂商也不一而足。目前,国内市场上的翻译软件产品可以划分为四大类: 全文翻译(专业翻译) 在线翻译 汉化软件 电子词典,.,外因:Internet网络的发展,“网民”数量高速增长;语言信息的交流更加频繁。 内因:基于服务器词库托管的翻译产品,服务器端的词库由厂商实时更新,词汇更加丰富,其
18、中包括各类专业的词汇;在基于服务器词库翻译基础之上提供人工翻译服务,经过机器翻译后采取人工校对、润色,从而达到了“信”、“达”、“雅”的翻译标准。,1.3.3 在线翻译:机器翻译重头戏,.,1.4 机器翻译的发展趋势,从单句处理走向句群处理 Sorry I cant go with you, I am going to the bank(银行,岸等). Ill get a money order for the Immigration Office. 新的知识系统 一是语言知识,二是常识和专业知识 领域的专业化 现有的大型机译系统一般都包含多部专业技术词典,虽然其它部分都是共有的,却号称可以翻译多种专业领域的文本,只是不同的领域采用不同的专业词典而已。是不得已而为之的产物,绝非人们理想的产品。未来这种系统将会让位给真正的专业化系统,例如汽车专业机译系统,航空专业机译系统,(医学)外科专业机译系统等等。专业化系统不仅包含专业词典,而且它会有相应的本专业的其它知识库,其形式可能是规则库,也可能是强大的双语语料库,或两者兼有之。,.,应用的多样化 信息社会的到来 使克服语言障碍的需求变得更加迫切。不断推出了各种具有翻译功能的浏览器和
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 预防触电大班安全教育
- 快速做课件教学课件
- 起重机械操作培训
- 颈椎病的运动处方
- 3.3.2盐类水解平衡常数与影响盐类水解的因素 课件高二上学期化学人教版(2019)选择性必修1
- 防意外安全演练
- 细菌性肝脓肿个案护理
- 湿疹性皮炎的护理查房
- 保育老师真辛苦教案反思
- 化简比说课稿
- 心理健康专题课件25心理健康
- 【课件】跨学科实践:制作隔音房间模型人教版物理八年级上册
- 2024-2025学年高二英语选择性必修第二册(译林版)UNIT 4 Grammar and usage教学课件
- 二十届三中全会精神学习试题及答案(100题)
- 《网络存储技术及应用(第2版)》高职全套教学课件
- 义务教育语文课程标准(2022年版)考试题库及答案1
- 2024Growatt 2500-6000MTL-S古瑞瓦特光伏逆变器用户手册
- 2024-2030年中国四足机器人行业市场发展趋势与前景展望战略分析报告
- 消化系统常见疾病课件(完美版)
- 成人重症患者人工气道湿化护理专家共识 解读
- 关于进一步加强路基路面施工质量的通知
评论
0/150
提交评论