中软译星翻译质量改进策略_第1页
中软译星翻译质量改进策略_第2页
中软译星翻译质量改进策略_第3页
中软译星翻译质量改进策略_第4页
中软译星翻译质量改进策略_第5页
已阅读5页,还剩7页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、中软译星翻译质量改进策略任燕 洪忻中国软件与技术服务股份有限公司 北京 100081 HYPERLINK mailto:renyaan reenyaan HYPERLINK mailto:hoongxxinn hoongxxinn 摘要: 本本文总结结了译星星翻译系系统所采采用的技技术方法法,以及及译星系系统针对对一般篇篇章翻译译所采取取的一些些策略。在在技术方方法中,介介绍了译译星系统统的语言言模型、结结构设计计、源文文分析与与译文生生成思想想。对于于翻译策策略,提提出了基基于词组组的语言言单元分分析方法法,以及及语义结结构优先先语法结结构的处处理原则则,从而而加强了了词组和和语义在在机器翻

2、翻译中的的地位与与作用。同同时还介介绍了如如何加强强语义分分析的具具体实施施方法。以以这些翻翻译策略略为改进进原则,译译星翻译译系统的的翻译质质量得到到了提高高。其中中,译星星汉英系系统的篇篇章翻译译忠实度度达到了了54%,译星星英汉系系统篇章章翻译达达到了551%。关键词:词词组、语语义结构构Transstarr Appprooachhes forr Trransslattionn ImmproovemmenttYan RRen XXin HonngChinaa Naatioonall Sooftwwaree & Serrvicce CCo.,Ltdd No. 555 XXueyyuann

3、Naanluu, HHaiddiann, BBeijjingg 10000881, ChiinaAbstrractt: TThiss paaperr suummaarizzes thee teechnnicaal mmodeel iin TTrannstaar ssysttem. Itt allso inttrodducees ssomee immproovinng aapprroacchess off Trransstarr inn itts ggeneerall-arrticcle traansllatiion. Inn teermss off teechnnicaal mmodeel,

4、it inttrodducees TTrannstaar llingguissticc moodell, sstruuctuurall deesiggn, bassic ideea oon ssourrce anaalyssis andd taargeet ggeneerattionn. IIn ttermms oof ttrannslaatioon aapprroacch, it putts fforwwardd thhe iideaa off Phhrasse aas SSenttencce UUnitt annd SSemaantiic FFuncctioon aas AAnallysi

5、is PPreffereencee. TTherrefoore, itt puuts morre sstreessees oon pphraase andd seemannticcs dduriing macchinne ttrannslaatioon. It alsso ggivees aa brrieff inntrooducctioon oon hhow to connducct ssemaantiic ffuncctioon aanallysiis. Witth tthesse nnew appproaachees, Traansttar hass immproovedd itts t

6、trannslaatioon pperfformmancce. Traansttar Chiinesse-EEngllishh trransslattionn acccurracyy reeachhes 54%. AAnd Traansttar Engglissh-CChinnesee trransslattionn reeachhes 51%.Key wwordds:PPhraase, Seemannticc Fuuncttionn我国的机器器翻译产产品是于于上个世世纪八十十年代正正式投入入市场的的。当时时推出机机器翻译译产品的的目的和服务务方向主主要是为为了满足足科技类类外文资资料的大大规

7、模翻翻译的需需求,而而且当时时直至以以后相当当长的阶阶段,机机器翻译译的目标标都是以以简单句句为主,对对于真正正意义的的“自然语语言”,并没没有做广广泛而深深入的研研究与处处理。其其语言规规则和分分析算法法的形成成是根据据一些简简单的例例句。这这种作法法使得一一些商品品化机译译系统远远远落后后于用户户的需要要。实际际上,用用户对机机译系统统的需要要包括了了人类生生活的各各个方面面的活动动,如社社会、政政治、经经济、科科技、商商务等等等。这些些方面的的语言现现象都是是极其复复杂的,经经常出现现好几十十字甚至至上百字字的长句句,用户户希望机机器翻译译系统能能正确地地处理这这样的长长句,因因此,我我

8、们认为为,机器器翻译系系统的开开发者首首先要把把自己摆摆在用户户的位置置上,力力争对实实际应用用中所碰碰到的各各种复杂杂长句都都能给出出高质量量的翻译译。以面向用户户的实际际需要,努努力提高高翻译质质量作为为基本的的出发点点,这几几年我们们在系统统开发时时从报章章、杂志志及书籍籍中搜集集了各个个方面的的资料,建建立了有有关政治治、经济济、科技技和商务务各个方方面的开开发语料料库。在在分析这这些语料料库的基基础上,形形成了我我们的语语法、语语义、规规则框架架,在这这一过程程中,我我们尤其其注意了了框架的的易调试试性和可可扩充性性,这使使得我们们在开发发过程中中能通过过大量调调试不断断地修正正、完

9、善善和扩充充我们的的规则系系统。具体来讲,译译星系统统的翻译译目标,从从过去的的为科技技类翻译译服务,转转向一般般篇章翻翻译服务务,从只只处理简简单句,向向处理复复杂句过过渡。为为此,译译星系统统在语言言翻译质质量的改改进上,主主要做了了以下工工作:由于一般篇篇章涉猎猎范围几几乎无所所不包,译译星系统统大大扩扩充了其其词汇量量,新添添词汇110余万万条,词词汇范围围涉及科科技、政政治、历历史、军军事、文文化等等等,从而而使得译译星系统统对不同同内容的的篇章信信息的翻翻译能力力得到加加强。由于一般篇篇章是纯纯粹的“自然语语言”,而不不是人为为编写的的简单句句,因而而必须使使得译星星系统对对于真正

10、正意义的的自然语语言的处处理能力力得到加加强。为为此,译译星系统统对以往往的规则则体系做做了相应应的调整整,使得得译星的的规则体体系可以以尽可能能支持翻翻译自然然语言。译星系统的的技术方方法 中软软译星机机器翻译译系统所所采用的的语言模模型是转转换模型型,翻译译目前采采用基于于规则的的“转换法法”,即从从源语言言的语法法形式翻翻译成为为目标语语的语法法形式。这这种分析析方法的的分析重重点是语语言的语语法结构构和语义义功能结结构。“转换法法”实际上上是在源源语言和和目标语语言之间间做结构构的转换换。同时时,由于于人脑翻翻译更侧侧重于对对语言意意义(语语义)的的理解,为为了提高高译星机机器翻译译的

11、人工工智能程程度,译译星机器器翻译技技术又加加强了对对语言的的语义分分析,吸吸取了逻逻辑语义义学(LLogiicall Seemannticcs)思思想。这这种技术术就是在在语法分分析的基基础上,融融入大量量的语义义分析,即即对源语语言进行行语法分分析的同同时,结结合尽可可能多的的语义信信息,从从语言的的意义上上对语言言做更深深层次的的分析,因因而更接接近人对对语言的的分析和和理解过过程,具具有更高高的人工工智能程程度。译星系统采采用模块块化的结结构设计计,系统统由各自自独立的的模块组组合而成成。根据据用户的的不同使使用领域域、运行行环境以以及软硬硬设备的的配置,可可以组装装成灵活活多变的的系

12、统。由由于这种种设计特特点,译译星系统统可以翻翻译不同同领域、不不同专业业的文章章。译星星系统的的知识库库是由词词典数据据库和规规则数据据库两部部分组成成的。知知识库完完全独立立于系统统程序。词词典数据据库针对对不同应应用领域域包含基基础词典典、专业业词典和和用户定定义的专专用词典典。在源文分析析方面,译译星系统统的基本本思想是是:利用用词典的的丰富语语法和语语义功能能信息以以及规则则库中的的语法逻逻辑规则则及语义义功能结结构分析析规则,可可以分析析出句子子中的各各个逻辑辑语段(名名词语段段,动词词语段等等),得得出各个个语段之之间的逻逻辑关系系,以及及各个语语段的功功能描述述。在译文生成成方

13、面,其其实质是是按目标标语言的的特点把把源语言言的语句句还原回回规范的的目标语语言语句句,据此此有序地地输出各各个语段段,同时时处理好好多义词词的义项项选择,选选用恰当当的对译译词,给给出正确确的翻译译结果。这这就是目目标语生生成的基基本思想想。译星系统关关键技术术的改进进语法规则体体系(由由语法逻逻辑规则则及语义义功能结结构分析析规则构构成)和和词典知知识库是是机器翻翻译的核核心。机机器翻译译从源语语言的分分析到目目标语言言的生成成,其整整个过程程是靠语语法规则则体系完完成的,可可以说,机机器翻译译的整个个过程都都是依靠靠语法规规则体系系的支持持与控制制,而机机器翻译译的质量量高低也也决定于

14、于语法规规则体系系的完善善程度。在调试过程程中,我我们感到到要提高高复杂句句的翻译译质量,其其关键还还是要使使简单句句的翻译译能够过过关,只只有在简简单句的的翻译质质量有了了保证后后,才谈谈得上翻翻译复杂杂的句子子,因为为所有复复杂的句句子都是是由简单单的句子子扩展、延延伸出来来的,只只要简单单句的语语法关系系处理好好了,对对复杂句句的语法法关系的的处理就就有了基基础。具体来讲,机机器翻译译的关键键点在于于对源语语言的分分析,一一般说只只要对源源语言的的分析成成功了,那那么生成成的目标标语在语语法上也也会是正正确的,尽尽管可能能不符合合目标语语言的表表达习惯惯。而要要保证对对源语言言的分析析正

15、确,有有两个要要点要把把握好,即即语言单单位的正正确合成成及语言言单位之之间关系系的正确确分析,因因为任何何一句话话,都是是由其语语言单位位及这些些单位之之间的关关系构成成的,因因而只要要把源语语言的语语言单位位正确地地找出来来,并正正确分析析出这些些单位之之间的关关系,就就可以正正确分析析出源语语言的语语法结构构。译星星系统在在改进翻翻译质量量的过程程中,抓抓住的就就是这两两个要点点。以下下我们详详细分析析我们是是如何解解决这两两个要点点的。语言单位的的分析: 语言单位通通常分为为词素、词词、词组组和句子子四级单单位。在在译星翻翻译系统统中,我我们把语语言单位的分析主主要放在在了提高高词组即

16、即语段的的合成能能力,为为此我们们提出了了以词组组为基本本单位的的分析原原则,即即不同于于把“词”作为语语言分析析的基本本单位,我我们认为为词组应应该被当当作语言言分析的的基本单单位。词组是介于于词与句句子中间间的一级级语言单单位,如如果没有有把词组组作为一一个整体体、一个个单位来来处理,在在机器翻翻译的结结果中,源源文一个个词组内内的几个个词就可可能分散散在译文文各处,从从而使得得译文语语序混乱乱。因此此,我们们认为,词词组在语语言分析析中应该该作为一一个整体体、一个个基本单单位,即即词并不不直接组组成句子子,而是是先组成成词组,然然后再由由词组直直接组成成句子。在在机器翻翻译中应应该尽可可

17、能加强强词组合合成能力力。而一一旦句子子内的词词组被正正确分析析出来,就就可以大大大减少少计算机机分析句句子的难难度,因因为,一一个句子子可能有有不少词词,但是是一旦词词被合成成为词组组后,词词组的数数量就大大大少于于词的数数量,这这样由许许多词组组成的句句子就被被简化为为由少数数词组组组成的句句子,因因而为计计算机的的分析减减少了难难度。以上是从简简化、明明晰句子子结构的的角度考考虑的,即即认为词词组是句句子的基基本“语法单单位”。其实实,词组组不仅是是基本的的语法单单位,一一个完整整的词组组还表达达了一个个完整的的语义概概念,如如果词组组在机器器翻译中中被打乱乱或拆散散,那么么它所表表达的

18、语语义概念念就被破破坏了,因因此从语语义角度度讲,也也应该把把词组作作为分析析句子的的基本组组成单位位。另外,以词词组为基基本句子子单位对对于解决决词的多多义性问问题也是是最佳的的解决方方法,因因为一个个词在没没有进入入词组之之前,其其语法属属性和语语义属性性都是不不确定的的,而一一旦进入入词组之之后,由由于词组组内上下下文的语语义和语语法信息息的制约约,其语语法和语语义的歧歧义是可可以排除除的,因因而其语语法和语语义属性性就可以以确定下下来。语言单位之之间关系系的分析析:如何正确处处理语言言单位之之间的关关系,我我们认为为对于语语言单位位的关系系,即不不能处理理少了,也也不能处处理多了了,因

19、为为一句话话内部语语言单位位的关系系是客观观存在的的,而不不是人为为构想的的,如果果该有的的关系机机器没有有找出来来,那么么翻译出出来的句句子就会会语法松松散,如如果没有有的关系系机器给给添加了了,那么么翻译出出来的句句子在语语法上会会冗余冲冲突,因因而能够够不多不不少的分分析出语语言单位位的关系系,翻译译出来的的目标语语就会清清晰明朗朗。为了尽可能能将语言言单位之之间的关关系正确确分析出出来,译译星系统统提出了了语义功功能结构构优先语语法结构构的分析析策略。这这是由于于从实质质上讲,所所谓“翻译”,包括括机器翻翻译,其其目的不不是简单单的进行行语言形形式的转转换,而而是在“意义等等价”的前提

20、提下,进进行从源源语言到到目标语语言的转转换。因因而正确确的传达达“语义”才是翻翻译的真真正目的的,也是是检验翻翻译质量量的最终终标准。对对于机器器翻译,在在从源语语言的语语法形式式转换到到目标语语言的语语法形式式的过程程中,“语义”应该是是处于中中心地位位。语法功能分分析只是是给出了了语句中中各个短短语之间间的语法法联系,并并没有给给出他们们之间的的语义关关系,我我们通过过功能结结构的分分析,可可以分析析出短语语之间的的内涵,从从而能确确定出比比较准确确的分析析结果。在机器翻译译中,对对于“语义功功能结构构优先语语法结构构”的具体体实施,我我们认为为可以从从以下几几个方面面入手。1). 加加

21、强机器器翻译系系统中的的词的语语义分类类,尤其其是动词词与名词词,因为为在任何何语言中中,动词词和名词词都是最最主要的的词,在在机器翻翻译系统统中,动动词和名名词语义义分类的的详细程程度及合合理程度度直接影影响机器器翻译的的质量。2). 在在英语分分析中,运运用语义义信息加加强动词词与介词词、名词词与介词词的关系系研究。英英文的最最大特点点之一,就就是其介介词的运运用极其其重要和和广泛。事事实上,介介词是英英语语法法结构的的支柱,正正确分析析出英语语介词的的语法功功能是提提高机器器翻译的的一大关关键。而而英语介介词的语语法功能能则主要要体现在在它与动动词和名名词的关关系,而而要正确确分析出出这

22、种关关系则主主要靠动动词和名名词的语语义信息息。 在汉汉语分析析中,汉汉语与英英语不同同,它的的介词虽虽然也有有,但运运用的程程度远不不及英语语。对于于汉语,其其分析难难点之一一在于词词性歧义义的排除除上,因因为如果果不能正正确分析析出词的的词性,句句子结构构就难以以分析正正确,翻翻译结果果也往往往是错误误的。为为此,我我们首先先建立针针对汉语语的词的的语义分分类系统统,然后后把这些些语义信信息运用用到句子子的分析析中。使使用“语义功功能结构构优先”策略,来来排除歧歧义,而而解决句句子结构构的分析析难点。汉语分析的的另一个个难点是是语句结结构的歧歧义,而而语句结结构的歧歧义往往往可以通通过语义

23、义功能的的区分来来排除。下下面通过过两个实实例进行行具体的的说明,在在这两个个例子里里,语句句中词的的词性、语语序完全全一样,但但它们却却有截然然不同的的语法结结构关系系和语义义功能结结构关系系:例1.工程师,老老师更了了解。利用词典提提供的语语义功能能信息和和规则库库中的语语法逻辑辑规则和和语义功功能结构构分析规规则系统统可得结结论:名词“工程程师”,“老师”通过逗逗号可以以构成一一个并列列式名词词语段;此名词语段段具有施施事性,因因此可以以作为动动词语段段“更了解解”的主语语;所以对此系系统给出出了一个个主谓结结构。例2.这种原因因,老师师更了解解。“原因”,“老师”不能通通过逗号号构成一

24、一个名词词语段,它它们在句句子中是是两个名名词语段段,各自自有不同同的功能能;名词“原因因”不具备备施事性性,不能能作为动动词“了解”的施事事者,只只能作为为它的受受事者;“老师”具具有施事事性,可可以作为为“了解”的主语语;所以系统的的分析结结论是这这个句子子是一种种主谓结结构,通通过目标标语生成成模块,可可以将译译文还原原为规范范的主谓谓宾结构构“老师更了了解这种种原因。”三、译星系系统20005年年8633评测结结果 汉英系统表1. 系系统在测测试集上上的评测测结果测试内容NISTBLEUGTMmWERmPERAdeqFleu对话翻译6.209970.174470.667770.6711

25、70.5355157.42252.499篇章翻译6.212200.136610.645520.756600.5722753.97747.288英汉系统 表2. 系系统在测测试集上上的评测测结果测试内容NISTBLEUGTMmWERmPERAdeqFleu对话翻译6.638850.265570.691170.612290.4644470.41164.477篇章翻译8.260000.324460.762290.651190.4199151.22242.477汉日系统表2. 系系统在测测试集上上的评测测结果测试内容NISTBLEUGTMmWERmPERAdeqFleu对话翻译6.987790.306690.76337

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论