版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
跨语言信息检索背景供求矛盾供不应求怎么办?供不应求减少需求增加供应跨语言信息检索跨语言信息检索为了消除网络资源利用中的语言障碍,跨语言信息检索技术成为当前信息检索领域中重要的研究课题。跨语言信息检索Cross-LanguageInformationRetrieval(CLIR)是指用户以一种语言提问检出另一种语言或多种语言描述的相关信息的方法跨语言检索=传统检索+机器翻译网页互联网匹配检索结果用户需求网页采集分析处理机器翻译建立索引索引库机器翻译机器翻译机器翻译利用计算机将一种语言翻译成另一种语言文本翻译语音翻译语音识别--->文本翻译--->语音合成机器翻译的发展历程19401950196019701980199020002010第一次高潮第二次高潮第三次高潮机器翻译的起源有计算机那天就有机器翻译的研究。1946年,世界上第一台计算机问世。同一年,英国的A.Donald.Booth(布斯)和美国的W.Weaver(韦弗)就开始了机器翻译的研究。19401950196019701980199020002010起源第一次高潮动力计算机的诞生冷战开始主要方法基于规则的方法衰退原因计算机处理能力弱对自然语言的认识水平低19401950196019701980199020002010第一次高潮第二次高潮动力计算机处理能力的飞速发展主要方法基于语料库的方法衰退原因技术上矫枉过正目标定位存在问题19401950196019701980199020002010第二次高潮第三次高潮(现在)动力需求的迅速膨胀计算语言学的发展目标定位的多样化主要方法多种方法相结合19401950196019701980199020002010第三次高潮主要的机器翻译方法基于规则的方法基于实例的方法基于统计的方法基于规则的方法(RBMT)分析根据源语言分析规则,分析原文结构。转换根据转换规则,将原文结构转换成译文结构生成根据目标语言生成规则,利用译文结构生成译文。分析源语言结构翻译:“她把一束花放在桌上。”转换成目标语言结构结构调整生成译文RBMT的优缺点优点直观,能够直接表达语言学家的知识系统适应性强,不依赖于具体的训练语料缺点规则主观因素重,有时与客观事实有一定差距规则的覆盖性差,特别是细颗粒度的规则很难总结得比较全面规则之间的冲突没有好的解决办法(翘翘板现象)规则一般只局限于某一个具体的系统,规则库开发成本太高规则库的调试极其枯燥乏味规则,唉……词法分析规则、句法分析规则结构转换规则、词语转换规则结构生成规则、词语生成规则……规则又多又烦,不用行不行?主要的机器翻译方法基于规则的方法基于实例的方法基于统计的方法基于实例的方法(EBMT)照猫画虎RBMT:分析转换生成EBMT:匹配对齐重组基于实例的翻译举例吴先生是老师aisWuMr.teacher李先生是老师aisLiMr.teacher待翻译句子实例翻译结果基于实例的翻译举例吴先生是老师李先生是老师待翻译句子实例翻译结果先生はさん呉です先生はさん李です基于实例的翻译举例吴先生是老师吴小姐是老师待翻译句子实例翻译结果先生はさん呉です先生はさん呉です小姐?基于实例的翻译举例吴先生是老师吴小姐是老师待翻译句子实例翻译结果先生はさん呉です先生はさん呉です基于实例的翻译举例吴先生是老师吴先生是宇航员待翻译句子实例翻译结果先生はさん呉です宇宙飛行士はさん呉です匹配对齐重组EBMT的核心问题:词对齐词对齐aisWuMr.吴先生是老师WordAlignmentteacherEBMT的核心问题:词对齐词对齐WordAlignmentType1-1m-n1-nullprogrammeraisHe他是程序设计师WordAlignment词对齐主要方法LinguisticalApproachesMorphology-BasedDictionary-BasedThesaurus-BasedStatisticalApproachesMorphology-BasedApproachesCognatesisaeffectivelinguisticknowledgeinwordaligning.Thetermcognatedenotes:wordsindifferentlanguagesthataresimilarintheirorthographicorphoneticformandarepossibletranslationsofeachother.Morphology-BasedApproachesThesimilarityisusuallyduetoeitherageneticrelationshipe.g.EnglishnightandGermannachtorborrowingfromonelanguagetoanothere.g.EnglishsprintandJapaneseスプリントInabroadsense,cognatesincludenotonlygeneticallyrelatedwordsandborrowingsbutalsonames,numbers,andpunctuation.Practically,allparallelcorporacontainsomekindofcognates.IdentifyCognatesTherearethreewordsimilaritymeasures:Simard’sconditionDice’scoefficientLongestCommonSubsequenceRatioSimard’sConditionSimardetal.(1992)proposedasimpleconditionfordetectingprobablecognatesinFrench–Englishbitexts:twowordsareconsideredcognatesiftheyareatleastfourcharacterslongandtheirfirstfourcharactersareidentical.Dice’sCoefficientHereDice’scoefficientisdefinedastheratioofthenumberofsharedcharacterbi-gramstothetotalnumberofbi-gramsinbothwords.Forexamplecolourandcouleursharethreebi-gramsco,ou,andursotheirDice’scoefficientis6/11.LCSRTheLongestCommonSubsequenceRatiooftwowordsiscomputedbydividingthelengthoftheirlongestcommonsubsequencebythelengthofthelongerword.Forexample,LCSR(colour,couleur)=5/7astheirlongestcommonsubsequenceis“c-o-l-u-r”.词对齐主要方法LinguisticalApproachesMorphology-BasedDictionary-BasedThesaurus-BasedStatisticalApproachesDictionary-BasedApproachesEveniftwolanguagesdonotbelongtothesamelanguagefamily,theirlexiconhassemanticsimilarityBecausetheobjectstheywanttodescribearethesameworld.Oneofthebestexamplesaboutsemanticsimilaritybetweentwolanguagesisbilingualdictionary.ExactlyMatchSearchthesourcewordefrombilingualdictionary.PutthetranslationofeinasetnamedDTe.ForeachwordcintargetsentenceIfc∈DTethenaligneandc.ExampleofExactlyMatchIlovemotherland<->我/爱/祖国/1.Searchtranslationsoflovefrombilingualdictionary.DTe 爱情、恋爱、爱、恋念2.Because“爱”inChinesesentence∈DTe3.
love<->爱
alignedExactlyMatchisnotEnoughConflictThelimitationofdictionaryTheflexibilityoftranslationPrecisionishigh,butrecallislowItishelplesstounknownwordSimilarlyMatchSearchthesourcewordefrombilingualdictionary.PutthetranslationofeinasetnamedDTe.ForeachwordcintargetsentenceCalculatesimilarityofeandcasfollow:IfDTSim(e,c)isbigerthanathreshold,thenaligneandc.ExampleofSimilarlyMatchIlovemotherland<->我/热爱/祖国/1.Searchtranslationsoflovefrombilingualdictionary.DTe 爱情、恋爱、爱、恋念2.ForeachwordcinChinesesentence,calculatesimilarityofloveandcCommentsonDictionary-basedApproachesMeritHighprecisionTheycancontaintheinformationaboutwordsthatappearonlyonceinthecorpus.DemeritLowrecallTheycannotcapturecontext-dependentkeywordsinthecorpus.Theyareweakagainstunknownword(newwordsandincorrectwordsegmentation).词对齐主要方法LinguisticalApproachesMorphology-BasedDictionary-BasedThesaurus-BasedStatisticalApproachesThesaurus-BasedApproachesSearchthesourcewordefrombilingualdictionary.PutthetranslationofeintoasetnamedDTe.ForeachelementDTegetallthewordsinsameclassfromthesaurus.putthemintoasetnamedDTeClass.ForeachwordcintargetsentenceIfc∈DTeClass,thenaligneandc.ElseifDTSim(e,c)isbigerthanathreshold,thenaligneandc.ExampleofThesaurus-BasedApproachesIlovemotherland<->我/热爱/祖国/1.Searchtranslationsoflovefrombilingualdictionary.DTe 爱情、恋爱、爱、恋念2.ForeachelementDTegetallthewordsinsameclassfromthesaurus.Class“爱”:喜爱、怜爱、钟爱、热爱、爱慕……Class“爱情”:情爱、情意………putthemintoasetnamedDTeClass.3.ForeachwordcinChinesesentence,matchinDTeClass4.Because“热爱”inChinesesentence∈DTeClass,
love<->热爱
aligned词对齐主要方法LinguisticalApproachesStatisticalApproachesHeuristicApproachesRefinedStatisticalApproachesHeuristicApproachesIlovemotherland我0.880.440.22爱0.050.900.56祖国0.120.240.36Co-occurrenceMatrixMeasuretheAssociationThecoreofco-occurrence-basedapproachesisthemethodtomeasuretheassociationbetweensourcewordandtargetword.DiceCoefficientMutualInformationX2……ParametersWillBeUsedN:totalsentencepairsnumberofthecorpusa=freq(s,t)b=freq(s)-freq(s,t)c=freq(t)-freq(s,t)d=N-a-b-ct┐tsab┐scdDiceCoefficientIntargetsentence,choosetwiththelargestDICEscoreasthealignmentofsDICEscorecanbecalculatedfollow:MutualInformationIntargetsentence,choosetwiththelargestMIscoreasthealignmentofsMIscorecanbecalculatedasfollow:X2Intargetsentence,choosetwiththelargestX2scoreasthealignmentofsX2scorecanbecalculatedasfollow:总体结构预处理翻译记忆层局部模板层全局模板层后处理语言学资源语料库资源句子模板绝对匹配名词分析模板相似匹配谓词驱动全局模板模板相似匹配短语规则库短语库待译句子翻译
流程
简介自动分词自动短语分析相似计算模板匹配单词直译这是小香蕉这/是/小/香蕉/那(这)是苹果(小香蕉)that(this)isanapple(smallbanana)NP(this)isNP(ansmallbanana)thisis(small/little)
bananathisisasmallbanana自动词性标注这/r是/v小/a香蕉/n这是[小/香蕉]翻译记忆翻译结果词性标注语料句对库词对齐库语言模型模板库分词语料翻译失败基于实例的方法(EBMT)EBMT抛弃了规则字典+词对齐的实例库不用字典行不行?实例库不用词对齐行不行?主要的机器翻译方法基于规则的方法基于实例的方法基于统计的方法基于统计的方法(SMT)噪音信道模型Mary到底说了什么?Brown猜的过程就是翻译的过程。将法语”Jet’aime.”翻译成英语基于统计的方法(SMT)怎么猜?一开始,肯定猜不出来。说多了,可能就能猜出来了。Brown的方法基于统计的方法(SMT)Brown,1990AStatisticalApproachtoMachineTranslationBrown,1993Themathematicsofstatisticalmachinetranslation-Parameterestimation基于统计的方法Brown认为,法语f:”Jet’aime.”可能翻译成任何一句英语e1:Howareyou?e2:Iloveyou.e3:Thenoisychannelworkslikethis.……翻译成这些英文句子的概率是不同的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 二零二四年度打灰工班组承包合同范本
- 二零二四年度光伏发电项目合作合同标的为光伏电站建设3篇
- 建筑材料的合同范本3篇
- 罐车出租合同范本
- 美容院店铺装修设计合同(2024版)
- 2024版工程分包合同详细描述
- 二零二四年度购销合同协议书范本
- 2024年度二手家具买卖合同协议范本
- 微信小程序设计服务合同
- 二零二四年知识产权保护与维权协议
- 2024至2030年中国股指期货行业市场全景评估及发展战略规划报告
- 第18课《我的白鸽》课件 2024-2025学年统编版语文七年级上册
- 工程施工人员安全教育培训【共55张课件】
- 2024-2030年中国母乳低聚糖(HMO)行业发展形势与未来前景展望报告
- 《江城子-密州出猎》1省名师课赛课获奖课件市赛课一等奖课件
- 人员、设备、资金等方面具有相应的履约能力的承诺书
- 因式分解(提取公因式法)练习200题及答案
- 科研可行性报告格式及范文
- 研究生(博士)中期考核
- 2024年四川绵阳市游仙发展控股集团有限责任公司招聘笔试冲刺题(带答案解析)
- YYT 0916.1-2014 医用液体和气体用小孔径连接件 第1部分:要求
评论
0/150
提交评论