机器翻译原理_第1页
机器翻译原理_第2页
机器翻译原理_第3页
机器翻译原理_第4页
机器翻译原理_第5页
已阅读5页,还剩59页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

机器翻译原理第1页,共64页,2023年,2月20日,星期五主要内容概述为什么要自动地获取知识(Why?)获取什么知识(What?)如何获取知识(How?)

双语语料库对齐加工句子对齐词汇对齐结构对齐翻译知识的获取直接利用双语语料库获取翻译知识的研究间接利用双语语料库获取翻译知识的研究第2页,共64页,2023年,2月20日,星期五为什么要自动获取知识(Why?)

机器翻译的发展现状

Internet的发展进一步促进了对机器翻译技术的需求现有的机器翻译系统不能令人满意“满篇英文难不住,满篇中文看不懂”“MT,不是machinetranslation,而是madtranslation”

存在的主要问题

传统的机器翻译:手工编写规则知识获取瓶颈

解决的途径从语料库中自动获取机器翻译所需要的各种知识

第3页,共64页,2023年,2月20日,星期五什么是知识?

Bacon:“知识就是力量”

Feigenbaum:“知识与信息不一样.知识是信息经过加工整理、解释、挑选和改造而形成的”董振冬:知识是一个系统,是一个包含着各种概念与概念之间的关系,以及概念的属性与属性之间的关系的系统。第4页,共64页,2023年,2月20日,星期五获取什么知识(What?)

单语

词汇:分词、词性标注

语法(结构):词性标注、句法分析

语义:词义排歧、聚类分析双语

翻译知识

词典知识

结构转换知识

译文选择知识

……第5页,共64页,2023年,2月20日,星期五如何获取知识(How?)

知识获取的主要方法

手工获取知识

智能人机交互

统计方法(HMM,PCFG……)

机器学习方法决策树归纳学习基于转换的错误驱动的学习方法(EricBrill)

基于实例的方法

……第6页,共64页,2023年,2月20日,星期五翻译知识获取

知识获取过程:

数据预处理知识挖掘知识评价双语语料库对齐加工

翻译知识自动获取

第7页,共64页,2023年,2月20日,星期五双语语料库及其对齐技术(1)

语料库

语料库(Corpora)是按照一定的原则组织在一起的真实的自

然语言数据(包括书面语和口语)的集合,主要用于研究自

然语言的规律,特别是统计语言学模型的训练以及相关系

统的评价和评测

语料库语言学

语料库语言学是以语料库为基本知识源来研究自然语言规

律的学科,主要研究内容包括语料库加工的理论、方法和

工具以及基于语料库的知识获取。

单语语料库(MonolingualCorpus)和多语语料库(MultilingualCorpora)

第8页,共64页,2023年,2月20日,星期五双语语料库及其对齐技术(2)

双语语料库的建设

双语语料库(BilingualCorpora,ParallelCorpora)

国外:

加拿大的议会会议录(CanadianHansards),(英法)英国Brighton大学语言中心双语语料库INTERSECT,(英法书面语)

英国Birmingham大学的LINGUA多语语料库项目,英、法、希腊语加拿大的BCD(BilingualCanadianDictionary)词典编纂项目瑞典Uppsala大学语言学系建立的Scania多语语料库

……

国内:

建立了一些单语语料,尚无大规模汉外双语库的报道目前国内基于汉外双语语料库的研究大都处于实验和摸索阶段香港科技大学的英汉双语语料库HKUST

哈工大-微软联合实验室:6万句对

第9页,共64页,2023年,2月20日,星期五双语语料库及其对齐技术(3)

双语语料库的对齐技术对齐:从互译的不同语言文本中找出互译片断的过程语料库的加工深度决定语料库所能提供的知识的粒度双语语料库对齐可分为段落、句子、短语、单词不同级别句子对齐词对齐短语(结构)对齐

第10页,共64页,2023年,2月20日,星期五双语语料库对齐技术:句子对齐(1)基于长度的句子对齐方法源语言文本的长度与译文长度有很强的相关性基于词数长度的对齐(Brown)基于字符数的长度对齐方法(GaleChurch)这些算法都把句子对齐看作是句子长的函数;不需要额外的词典信息;但是容易造成错误的蔓延。基于词汇的句子对齐方法Simard等人提出了在长度标准上加上同源概念(Cognate)来提高算法的性能Kay和Roscheisen提出了另一种基于语汇的对齐算法,在该算法中选择句子对齐的标准是其中词汇对齐的数量。第11页,共64页,2023年,2月20日,星期五双语语料库对齐技术:句子对齐(2)Debili和Sammouda实现了Simard的思想,并采用双语典为指导,以缩小搜索空间Church利用双语文本中字母的对应信息,在1993年设计了一种字符对齐算法长度方法与词汇方法相结合(Wu、Utsuro)不少学者认为句子对齐已经达到可以实用(~98%)第12页,共64页,2023年,2月20日,星期五双语语料库对齐技术:词汇对齐(1)词汇对齐是指在源文和对应的译文中找到词汇级的对译关系大家都叫他毛伯伯。

EverybodycallshimUncleMao.由于词汇对齐比句子对齐提供了更细粒度的对译信息,因此可以为自然语言处理提供更大程度的支持第13页,共64页,2023年,2月20日,星期五双语语料库对齐技术:词汇对齐(2)词汇对齐的困难

词汇对齐不满足次序性假设词汇对齐的模式十分复杂(1:1,1:m,m:1,m:m)

她改变角度去写他的报告以迁就她的听众.Sheanglesherreportstosuitthepeoplesheisspeakingto.词汇对齐匹配关系难以断定(词典,长度)

采用这种新装置…

Theadoptionofthisnewdevice…..汉语的特点及英语和汉语间的固有差异汉语分词问题;惯用搭配、成语、谚语第14页,共64页,2023年,2月20日,星期五双语语料库的对齐技术:词汇对齐(3)基于统计的词汇对齐方法主要思想:对大规模双语语料库进行统计,获得对译词的翻译概率

Brown(1,778,620),Gale(897,077),Dagan…

基于统计机器翻译模型的词汇对齐(Brown)

其中的翻译模型通过词汇对齐模型来实现;通过EM算法迭代训练词汇翻译概率;问题:参数空间巨大;局部最优基于同现的词汇对应抽取(Gale&Church)

同现测度函数:联列表,互信息,Dice系数,对数似然比第15页,共64页,2023年,2月20日,星期五双语语料库的对齐技术:词汇对齐(4)基于词典的词汇对齐方法词典包含双语的对译信息,因此是进行词对齐的重要资源日本学者TakehitoUtsuro应用基于双语词典的改进算法对日英双语文本(439句日语423句英文)进行了试验:将词典中已经给出的词对共现删除,而后对剩下的词计算共现信息。采用含有50,000个词条的日英词典,试验表明提高了日英术语词典的抽取效果Ker,Wang等引入语义词典提高了对齐的召回率其他基于语言学比较(Huang),利用Chunk分析(Sun)第16页,共64页,2023年,2月20日,星期五英汉双语语料库词对齐实验

现有方法存在的问题统计方法:语料库规模小,统计数据不足词典方法:词典译文覆盖率较低,对齐的召回率低改进统计方法:在小规模语料库提高统计学习质量词典方法:引入基于词典的模糊匹配

使用语义词典,引入基于语义类的对齐统计、词典和语言学知识相结合

第17页,共64页,2023年,2月20日,星期五基于词典的词对齐(1)完全基于词典的词对齐实验(DA)

正确率:96.16%召回率:55.37%

第18页,共64页,2023年,2月20日,星期五基于词典的词对齐(2)词典模糊匹配

Heabandonedhimselftogrief.

他不胜悲伤。(悲痛,伤心事,忧伤)

汉语词c1和c2的模糊匹配相似度:英语词e和汉语词c的模糊匹配相似度:

基于模糊匹配的词对齐(DSimA)

h1>0.5正确率:94.47%召回率:68.49%h1>0.7正确率:96.13%召回率:58.92%

第19页,共64页,2023年,2月20日,星期五基于词典的词对齐(3)语义相似度(CSimA)

同义词词林定义语义相似度:

基于语义相似度的词对齐(CSimA):h0.5正确率:61.25%召回率:36.94%h1正确率:83.55%召回率:38.86%

DA+DSimA+CSimA

正确率:91.16%召回率:72.92%第20页,共64页,2023年,2月20日,星期五基于统计的翻译词表自动获取(1)生成N-gram候选翻译单元多词对应问题:harddisk/硬盘;profile/配置文件…..汉语分词问题:驱动器:驱动-器;单击:单-击N-gram的抽取:停用词将句子分段

Theprojectmanagermayusethee-mailsystemtoviewandreplytomessagefromworkgroupmember.生成的N-gram候选:projectproject-managerusee-maile-mail-systemviewreplymessageworkgroupworkgroup-member第21页,共64页,2023年,2月20日,星期五基于统计的翻译词表自动获取(2)翻译概率的计算模型对于任意一对源语词Ws和目标语词Wt,设:a=freq(Ws,Wt)b=freq(Ws)-freq(Ws,Wt)c=freq(Wt)-freq(Ws,Wt)d=N–a–b-c

联列表法:

hg(Ws,Wt)=(ad-bc)2/(a+b)(a+c)(b+d)(b+c)

Dice系数(DiceCoefficient):Dice(Ws,Wt)=2freq(Ws,Wt)/[freq(Ws)+freq(Wt)]第22页,共64页,2023年,2月20日,星期五基于统计的翻译词表自动获取(3)翻译概率的计算模型互信息方法(MutualInformation):

MI(Ws,Wt)=log2(freq(Ws,Wt)/freq(Ws)*freq(Wt))

对数似然比(LogLikelihoodRatio,LLR):LLR(Ws,Wt)=2[logL(p1,a,a+b)+logL(p2,c,c+d)-logL(p,a,a+b)-logL(p,c,c+d))其中,logL(p,k,n)=klog(p)+(n-k)log(1-p),p1=a/(a+b),p2=c/(c+d),p=(a+c)/(a+b+c+d)

词典加权同现测度:

Wscore

(Ws,Wt)=log2(2+DSim(Ws,Wt))*Score(Ws,Wt)第23页,共64页,2023年,2月20日,星期五基于统计的翻译词表自动获取(4)基于迭代的翻译词表自动抽取算法

间接相关问题:

贪心假设迭代的抽取算法第24页,共64页,2023年,2月20日,星期五基于统计的翻译词表自动获取(5)实验及结论

N-gram模型有利于提取多词单元对应,并且能够有效地发现新词、术语及翻译;

Click—单击;e-mail—电子邮件;

networkdiagram—网络图;eventviewer—事件查看器……

迭代算法大大提高了统计的正确率;

词典加权同现测度能够提高统计质量在小规模训练语料条件下,LogLikelihoodRatio的统计特性较好第25页,共64页,2023年,2月20日,星期五基于混合策略的词对齐(1)对齐评价函数:

EF(e,c)=T(e,c)*D(e,c)

其中:T(e,c)为翻译概率,

D(e,c)为位置形变概率,通过计算位置相对形变距离得到。位置相对形变距离是指一个可能的对齐相对于最近的确定对齐的距离。用贪心算法实现对齐过程和对齐歧义消除过程第26页,共64页,2023年,2月20日,星期五基于混合策略的词对齐(2)利用语言学知识改善词汇对齐结果利用词性对译关系实现词汇对齐后处理短语扩展利用词形变化特点,增加词汇对齐匹配规则如:n/v+”者”/”家”

translationof(n/v)+“-er”/“-or”/“-ist”/“-ian”;

可以得到诸如“赛跑+者runner”、“征服+者

conqueror”等多词单元对应。

数词的对齐专有名词的对齐第27页,共64页,2023年,2月20日,星期五实验结果及分析(1)实验用语料库:语料库1:通用语料库(60,000句对)语料库2:计算机语料库(14,390句对)第28页,共64页,2023年,2月20日,星期五实验结果及分析(2)第29页,共64页,2023年,2月20日,星期五实验结果及分析(3)错误分析:资源不足,短语匹配,语言表达差异第30页,共64页,2023年,2月20日,星期五双语语料库对齐技术:结构对齐(1)结构对齐:短语结构,依存结构,组块结构结构对齐的主要方法

Parse-Parse-Match方法单语分析+词汇对齐+启发式算法kaji,RalphGrishman,Yuji,AdamMeyer、Hideo…双语同步分析WuDekai,WangWei结构对齐的难点难以获得合适的、可靠的单语分析结果:如汉语不同语言的语法分析结果可能不匹配

双语的结构匹配的状态空间搜索问题第31页,共64页,2023年,2月20日,星期五双语语料库对齐技术:结构对齐(2)双语分析模型(WuDekai):反向转换文法(inversiontransductionGrammars,ITG)

产生式有两个方向

是一个双语体系用词翻译概率连接双语用概率选择双语分析结果

),,,,(21SRWWNITG=第32页,共64页,2023年,2月20日,星期五双语语料库对齐技术:结构对齐(3)[[[Thegame]BNP[[willstart]BVP[onWednesday]PP]VP]S.]S[[比赛[星期三开始]]。][[[The/egame/比赛]BNP<[will/estart/开始]VBP[on/eWednesday/星期三]PP>VP]S./。]SSBNPSVPPP./。The/egame/比赛will/estart/开始on/eWednesday/星期三BVP第33页,共64页,2023年,2月20日,星期五难以确定合适的双语语法一个实用的双语模型是反向划界语法问题:双语语料库对齐技术:结构对齐(4)第34页,共64页,2023年,2月20日,星期五引入英语的句法分析得到的双语分析第35页,共64页,2023年,2月20日,星期五单语句法分析指导的双语结构对齐(1)

“parsing-parsing-match”方法的缺点

难以获得合适的、可靠的单语分析结果,如汉语不同语言的语法分析结果可能不匹配

改进方法只使用英语的分析结果与双语语言模型相结合第36页,共64页,2023年,2月20日,星期五单语句法分析指导的双语结构对齐(2)

定义代价函数Fe(s,t)三种匹配情况She/1[is/2[a/3lovely/4girl/5]]./6]

越界分析:(1,2),(1,3),(2,3),(2,5)…

定界分析:(1,6),(2,5),(3,5)

界内分析:(3,4),(4,5)修正后的局部最优函数用动态规划算法(DP)求解最优双语分析树第37页,共64页,2023年,2月20日,星期五单语句法分析指导的双语结构对齐(3)

实验:1000句对评价:语法准则

Thestudentwillgetapen.

这学生将得到一支钢笔。

合语法:“Thestudent<-->这学生”,“willget<-->将得到”,“apen<-->一支钢笔”不合语法:“studentwill<-->学生将”,“geta<-->得到一支”共有3889个标准对齐Experiment

noP

EPEP+CBEP+CP正确率(%)

68.82

85.50

90.56

88.87

第38页,共64页,2023年,2月20日,星期五单语句法分析指导的双语结构对齐(4)

1.[<Mr./先生Chen/陈>BNP[is/是<[the/erepresentative/代表]BNP<of/的[our/我们company/公司]BNP>PP>NP]VP./。]S2.[Spring/春天[is/是<[the/efirst/第一e/个season/季节]BNP<in/里[a/一year/年]BNP>PP>X]VP./。]S3.[[The/ewindow/窗子]BNP[is/e<[e/更narrower/狭窄][than/比[the/edoor/门]BNP]PP>ADJP]VP./。]S4.[<[The/epoliceman/警察]BNP[who/e[reported/报告[the/这e/一accident/事故]BNP]VPe/的]SBAR>NP[thinks/认为[it/那[was/是[Tom/汤姆's/的fault/错]BNP]VP]S]VP./。]S5.[[The/eBeijing/北京zoo/动物园]BNP[is/是<[the/elargest/最大e/的zoo/动物园]BNP[I/我[e/所have/eever/evisited/参观e/过e/的]VBP]S>NP]VP./。]S第39页,共64页,2023年,2月20日,星期五翻译知识获取

双语语料库及其对齐技术

直接利用双语语料库进行机器翻译的研究间接利用双语语料库获取翻译知识的研究

第40页,共64页,2023年,2月20日,星期五直接利用双语语料库进行机器翻译的研究(1)

基于统计的机器翻译(Statistics-basedMT,SBMT) e’=argmaxP(e|c)=argmaxP(e)P(c|e)/P(c)=argmaxP(e)P(c|e)P(e):语言模型P(c|e):翻译模型IBM的Brown等人实现了完全基于统计方法的机器翻译系统

以大规模双语语料库为基础(3百万句对)

建立统计的翻译模型

概率统计是分析和生成过程中的唯一方法没有正确和不正确的翻译这样的概念,只有可能性大小的译文

不涉及任何语言学内容

48%的正确率

第41页,共64页,2023年,2月20日,星期五直接利用双语语料库进行机器翻译的研究(2)

基于统计的机器翻译:Brown的5各翻译模型模型1:对齐概率仅依赖于其中每个双语词对的概率;模型2:对齐概率不仅依赖于每个双语词对的概率,还依赖于每个词对出现位置之间的概率;模型3:计算了和每个源语词相关的单词数量;模型4和模型5:同时计算了这些词的数量和这些词本身。这些模型在训练中都使用了统计逼近的方法。第42页,共64页,2023年,2月20日,星期五直接利用双语语料库进行机器翻译的研究(3)

基于统计的机器翻译:尽管IBM的工作是一种新的方法,可是一些学者也对这种“纯粹的”统计方法提出了异议。他们认为必须引入高层语言模型;并且认为这种方法不一定能很好地作用于另一对语言(IBM工作的对象是英语和法语),也不能产生高质量的MT,除非所有基于知识的MT观点全错。实际上IBM的研究者也承认这种方法不能解决语言中的远程依赖问题CMUWangYeYi基于结构对齐的统计机器翻译增加语言知识的统计机器翻译第43页,共64页,2023年,2月20日,星期五直接利用双语语料库进行机器翻译的研究(4)

基于实例的机器翻译(Example-based,EBMT)日本京都大学的长尾真(Nagao)教授在1984年提出

原理:将源语言使用类比的方法与翻译实例相比较,而采取相近的实例片段,重新生成译文。根本观点:认为翻译过程通常是查找和复现相似的例子,发现和记起特定的源语言表达或其相似的表达在以前是如何翻译的。把翻译实例作为它的主要翻译知识源,而把句子片断的适当划分和从词汇到句子各级相似度的计算作为翻译中的主要问题。PanglossEBMT(CMU)第44页,共64页,2023年,2月20日,星期五直接利用双语语料库进行机器翻译的研究(5)

基于实例的机器翻译(Example-based,EBMT)第45页,共64页,2023年,2月20日,星期五直接利用双语语料库进行机器翻译的研究(6)

基于统计的机器翻译解决了知识获取的难题,但是由于完全排除了语言学知识,翻译结果并不理想。

基于实例的方法确实为机器翻译研究提供了一个崭新的思路。但是如果直接在大规模的实例库中进行各级的相似度计算和查找,处理的时间和空间复杂度都很高,并且可能会引起组合爆炸问题间接的基于实例的方法

首先从双语语料库中获得各级翻译知识

然后再利用这些获得的知识进行翻译第46页,共64页,2023年,2月20日,星期五双语知识获取

双语语料库及其对齐技术

直接利用双语语料库进行机器翻译的研究间接利用双语语料库获取翻译知识的研究

第47页,共64页,2023年,2月20日,星期五间接利用双语语料库获取翻译知识的研究(1)

双语语料库学习翻译知识源语言目标语言翻译间接基于实例的机器翻译第48页,共64页,2023年,2月20日,星期五间接利用双语语料库获取翻译知识的研究(2)

自动获取的翻译知识可以分为两个层次

词串级翻译:即获得词汇或短语的直接译文

翻译模板:知识表达式中可以含有变量,一般为短语级翻译模板,也可以是句子级的翻译模板,

利用双语语料库词对齐或短语对齐的结果可以直接获得词串级的译文(词典编撰)

从双语语料库中自动获取翻译模板

通过类比学习获得翻译模板

通过双语结构匹配获得翻译模板

第49页,共64页,2023年,2月20日,星期五间接利用双语语料库获取翻译知识的研究(3)

通过类比学习获得翻译模板思想:比较语料库中两个翻译实例的相同和不同部分,把其中的某部分加以概括,用变量置换即得到一个翻译模板

Iliketodrinkcoffee我喜欢喝咖啡

Iliketodrinkmilk我喜欢喝牛奶

模板:

IliketodrinkX1我喜欢喝X2

ifX1X2coffee咖啡milk牛奶

优点:不需要语法知识,甚至可以不使用词典,仅仅通过两个翻译句对的类比来获得翻译模板。缺点:模板的概括性和对结构的把握程度很差,如果没有非常大规模而且存在大量相似句子的双语语料库很难有一个理想的结果。

第50页,共64页,2023年,2月20日,星期五间接利用双语语料库获取翻译知识的研究(4)

通过双语结构匹配获得翻译模板优点:可以获得各个层次的翻译模板,即模板中的变量可以是某种短语类型,获得的模板具有较强的概括性和灵活性。

缺点:

难以获得合适的、可靠的单语分析结果:如汉语

不同语言的语法分析结果可能不匹配

双语的结构匹配本身也是一个复杂的问题。其他方法

IBM东京研究实验室机器翻译系统SimTran通过翻译中出现的错误来改善已有的转换规则

TonyVeale等使用了基于标记的句子分割法把句子分割成片断,然后再以片断为单位进行双语匹配和翻译模板的获取第51页,共64页,2023年,2月20日,星期五翻译模板的获取及翻译实验(1)

工作总体流程:第52页,共64页,2023年,2月20日,星期五翻译模板的获取及翻译实验(2)

获取了两种类型翻译模板

结构转换模板:非叶结点

译文选择模板:叶子结点短语,名词,动词,代词,形容词,副词作为变量

S[He/他/PRPVP<VP[play/拉/VBPaccordion/手风琴/NN]PP[in/在/INBNP[the/e/ARTafternoon/下午/NN]]>./。]

结构转换模板:

#S:1:C=PRP:+2:VP+3:W=.->T(1)+T(2)+。

#VP:1:VP+2:PP->T(2)+T(1);#VP:1:C=VBP+2:C=NN->T(1)+T(2);#PP:1:W=in+2:BNP->在+T(2)#PP:1:W=the+2:C=NN->T(2)

译文选择模板:

#play:-1:C=PRP+0:C=VBP+1:W=accordion->拉第53页,共64页,2023年,2月20日,星期五第54页,共64页,2023年,2月20日,星期五共获得2889个模板,包括1806个结构转换模板和1083个译文选择模板翻译过程是一个递归的模板匹配过程通过评价翻译结果来评价获得的模板两种评价方法

自动评价

手工评价

翻译模板的获取及翻译实验(3)第55页,共64页,2023年,2月20日,星期五翻译模板的获取及翻译实验(4)自动评价[Adam98]:

翻译结果与语料中的译文相近程度

“ABCDE”和源译文“ABCFE”相比评价值为2/10

得到评价值0.09.好于Adam的结果0.29

局限性:“他们居住在非洲。”与“他们生活在非洲。”相比得分0.25,

“空气这里很好”与“这里空气很好”得分为0手工评价[97年“863”机器翻译评价标准]

ABCDEAveragescoreLTBS64%23%8%3%2%88.8KBS46%42%11%1%086.6第56页,共64页,2023年,2月20日,星期五翻译实例及评价结果Iwillnotbeabletogotothemoviestomorrow.我明天不能去看电影。

AThesingerwasaccompaniedatthepianobyherpupil.演唱者由她的学生用钢琴伴奏。

AHeishavinghisbreakfast.他正在吃他的早饭.BTheairhereisverygood这里空气是很好

BTheystartedatnight.在晚上他们开始.CThestudenthasapen.这学生长一支钢笔。

DYoudon'tlikehim,andIdon'teither.你做也喜欢他,我做不也不喜欢

E第57页,共64页,2023年,2月20日,星期五翻译模板的获取及翻译实验(5)与统计的机器翻译方法相比,模板比统计概率更易于理解与纯基于实例的方法相比,模板比短语、句子实例具有更强的概括能力所有模板都是自动提取的,大大节省了人力可移植性好获得的模板可以集成到已有的规则系统的规则库中第58页,共64页,2023年,2月20日,星期五存在的问题和今后工作存在的问题词对齐和结构对齐错误累积,精度不高模板的表示和组织模板歧义消解对获取知识的评价今后工作扩大训练语料的规模,对实验结果进行进一步分析和讨论综合运用统计方法和机器学习方法,对翻译模板获取方法进行改进和完善;在模板中引入语义特征来提高模板的概括能力。通过语料库的统计为获得的模板添加自信概率,使用统计和语言学知识相结合的方法解决模板冲突问题

第59页,共64页,2023年,2月20日,星期五利用双语语料库获取翻译知识的研究

利用双语语料库获取翻译知识的研究得到普遍重视美国,英国,加拿大,日本,韩国…

现有的方法上存在许多不尽人意的地方

国内:

近年来开始重视双语语料库对机器翻译的价值

在双语对齐方面做了一些工作

清华大学,中科院计算所、自动化所,哈工大

在利用双语语料库获取翻译知识方面还缺乏系统的研究

任重道远…第60页,共64页,2023年,2月20日,星期五主要参考文献(1)[1]P.F.Brown,J.C.Lai.etc.“AligningSentencesinParallelCorpora.”ACL-1991:169-176[2]P.F.Brown.ect.“TheMathematicsofStatisticalMachineTranslation:ParameterEstimation”ComputationalLinguistics,Vol.19,No.2,1993[3]K.W.Church.“Char-align:aProgramforAligningParallelTextsattheCharacterLevel.”ACL-1993:1-8[4]SueJ.KerandJasonS.Chang.“AClass-basedApproachtoWordAlignment.”ComputationalLinguistics23(2):313-343,1997[5]Jin-XiaHuang,Key-SunChoi“Chinese-KoreanWordAlignmentBasedonLinguisticComparison”.ACL-2000[6]RalfD.Brown"AutomatedDictionaryExtractionfor``Knowledge-Free''Example-BasedTranslation".TMI-1997:111-118[7]HideoWatanabe,SadaoKurohashi,andEijiAramaki.“FindingStructuralCorrespondencesfromBilingualParsedCorpusforCorpus-basedTranslaton”.COLING-2000.[8]IlyasCicekliandHalilAltayGuvenir.“LearningTranslationTemplatesformBilingualTranslationExamples”.AppliedIntelligence,Vol.15,No.1,2001,P57-76.[9]HusseinAlmuallim,YasuhitoAkiba,TakefumiYamazaki.“AToolfortheAcquisitionofJapanese-EnglishMachineTranslationRulesUsingInductiveLearningTechniques.”Proc.oftheConferenceonArtificialIntelligenceforApplications1994.第61页,共64页,2023年,2月20日,星期五[10]RalphGrishman,andJohnSterling.“GeneralizingAutomaticallyGeneratedSelectionalPatterns”.COLING-1994.[11]HalilAltayGuvenirandIlyasCilekli“LearningTranslationTemplatesfromExamples”.InformationSystemsVol.23,No.6,P353-363,1998.[12]HiroyuliKaji,YuukoKida,andYasutsuguMorimoto.“LearningTranslationTemplatesfromBilingualTexts.”COLING-1992:672-678[13]K.

LariandS.

J.Young.“Theestimationofstochasticcontext-freegrammarsusingtheInside-Outsidealgorithm.”ComputerSpeechandLanguage,4:35-56,1990.[14]ChristosMalavazos,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论