专利文献日-英机器翻译的质量改进措施_第1页
专利文献日-英机器翻译的质量改进措施_第2页
专利文献日-英机器翻译的质量改进措施_第3页
专利文献日-英机器翻译的质量改进措施_第4页
专利文献日-英机器翻译的质量改进措施_第5页
已阅读5页,还剩9页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、专利文献日-英机器翻译的质量改进措施 Tsuyoshi Kakita日本特许情报机构t_kakitajapio.or.jp前言(JapanPatent Information Organization,日本特许许情报机机构)致力于各各种专利利文献翻翻译任务务(日-英,英-日)。虽然翻译译仍需由由人工完完成,但但机器翻翻译的采采用正成成为提高高翻译效效率不可可或缺的的手段。有效提高高专利文文献机器器翻译质质量措施施的研究究Japio的质量改改进措施施Japio并不开发发机器翻翻译引擎擎。Japio在不改动动机器翻翻译引擎擎的情况况下采用用下面两种措施施提高机器器翻译的的质量:1.专利文献献翻译的

2、的技术术术语库2.专利源文文档的预预编辑处处理专利技术术术语库库为了描述述新的发发明,新新的技术术术语不不断被引引入到专专利文献献中。商业的机机器翻译译词典基基本上是是静态的的。Japio基于真实实的专利利文献创创建并更更新技术术语语库Japio 技术术语库技术术语语库的创创建/更更新日语英语句对齐的的专利文献献平行语料库技术术语语列列表技术术语语抽取程序plasmid配列method of removing車輪組立体seed planter press抗体phage antibody積載装置bale loader: _ 人工评价/修正Japio技术术语语库800,000条记录,每年增加加10

3、0,000条源于技术术术语库库的机器器翻译词词典Japio 技术术语库Japio基于技术术术语库库编辑机机器翻译译词典,服务于于专利文文献翻译译Japio 机器翻译词典商业机器翻译引擎与词典+在重叠词词条中选选词是技技术术语语词典的的关键因因素Japio机器翻译译词典:选词方法法Japio采取两种种对策解解决选词词问题#1:收录复合合词-优点:翻译变化化较少(=准确度高高)-缺点:出现频率率较低(=性价比低低)#2:基于在真真实专利利中的出出现频率率赋予优优先权-优点:简单、自自动(=性价比高高)-缺点:不够精确确(=准确度低低)Japio机器翻译译词典的的效能评评价通过将Japio机器翻译译

4、词典加加入商业业机器翻翻译引擎擎改进100个专利文文献语句句中的技技术术语语翻译JapaneseEnglish感光体Photosensitivenessphotoreceptor予備収束reserve focus preliminary focus冗長行tedious line redundant line最外層external layer outmost layer:不多,但基本的的术语得得以改进进。源文档的的预编辑辑处理专利文献献语句的的特性与与当前的的机器翻翻译技术术不相适适应-非常长而而且很复复杂-特殊的行行文方式式-缺少主语语/宾语有效措施施:源文档的的预编辑辑处理建立技术日语语-技

5、术文献献(包括专利利)基本行文文规则以更适应应于机器器翻译技术日语语基本规规则超过50%的根据技术日语语(原型)改写的的语句显显示机器器翻译准准确性得得到了提提高。Example 1:消除歧义义図示例、二単語show、枠示言語mise翻訳。In the example shown in Fig.2, what is shown with frame 36 among two source words “show” is translated into the target word “mise.”図示例、二単語show、枠示単語言語mise翻訳。In the example shown in

6、Fig.2, the word shown with frame 36 among two source words “show” is translated into the target word “mise.”原句技术日语语技术日语语基本规规则Example 2:语句的缩缩短/拆分好、機械翻訳装置、予準備、第言語第言語対訳出現対、各対対訳中出現頻度検出、当該対、当該対頻度重対記憶手段記憶手段含。好、機械翻訳装置、以下処理行手段備。 ()予準備、第言語第言語対訳出現 対、各対対訳出現頻度検出 ()当該対、当該対頻度重対記憶手段記憶原句技术日语语技术日语语基本规规则Example 2:语句的

7、缩缩短/拆分 A chunk pair which appears in a bilingual corpus of the 1st language and the 2nd language with which a machine translation device was prepared beforehand preferably, Frequency of appearance in inside of a bilingual corpus of each chunk pair is detected, and a means for making a chunk versus a

8、 memory measure memorize the chunk pair concerned and dignity which consists of frequency of the chunk pair concerned is included further.Preferably, a machine translation device is further provided with a means to perform the following processings.(1) Detecting a chunk pair which appears in a bilin

9、gual corpus of the 1st language and the 2nd language which were prepared beforehand, and frequency of appearance in a bilingual corpus of each chunk pair.(2) Memorizing the chunk pair concerned and weight which consists of frequency of the chunk pair concerned by a chunk pair memory measure.原句的机机器翻译译输出技术日语语的机器器翻译输输出技术日语语引入翻翻译过程程Japio将在翻译译过程中中引入源源文档的的技术日语

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论