统计机器翻译研究进展_第1页
统计机器翻译研究进展_第2页
统计机器翻译研究进展_第3页
统计机器翻译研究进展_第4页
统计机器翻译研究进展_第5页
已阅读5页,还剩20页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

统计机器翻译研究进展杜金华统计机器翻译研究进展OutlineOverview:SMTatCASIABaselineSystemRecentImprovements目前研究方向Parsing/Syntax-basedSMT长句分析/骨干关联分析中文BaseNP的研究中文命名实体总结与致谢统计机器翻译研究进展BaselineSystem–ForNISTMT-06EvaluationPhrase-basedTranslationwithVariableTemplateSubstitutionwordaligncorpus,usingGIZA++andOch’srefinedmethodcollectphrasepairsconsistentwithwordalignmentSRILMlanguagemodellog-linearmodeltocombinemodelcomponentsbeamsearchdecoder统计机器翻译研究进展SystemComponentsreorderingmodellanguagemodeltrigramLMtrainedusingSRILMtoolkitphrasetranslationmodelf->ephrasetranslationmodele->fwordtranslationmodelf->ewordtranslationmodele->f统计机器翻译研究进展ExamplesVariableTemplateSubstitution对数字,时间,人名,地名进行双语替换如:

我的房间号是301。----我的房间号是_digit。

Myroomnumberis301.--Myroomnumberis_DIGIT.短语模板(抽取短语长度<=7)

从_location到_location=>from_LOCATIONto_LOCATION1.47961e-002

您将在_timep离开_location|||you'llleave_LOCATIONat_TIMEP3.30669e-002统计机器翻译研究进展RecentImprovements更新了汉语分词与命名实体识别模块,降低了因此而引入的噪音改进了短语抽取与概率计算模块4-Gramlanguagemodel最小错误率参数训练根据AshishVenugopal的matlab版本改写后处理模块近期计划针对NISTMT-06任务使用改进的系统进行一次评测试验统计机器翻译研究进展目前研究方向Parsing/Syntax-basedSMT长句分析/骨干关联分析中文BaseNP的研究中文命名实体统计机器翻译研究进展Parsing/Syntax-basedSMT基于中文句法分析器的研究实现了基于头驱动的句法分析器基于骨架依存概念的翻译基于英文句法分析器的研究利用英文Parser构造syntax-basedSMT系统基于句法分析的SMTTree-to-StringString-to-Tree统计机器翻译研究进展基于骨架依存概念的翻译骨架依存概念刻画了树上各个结点之间的关系:一般主要是中心词与它相邻结点的支配与被支配关系。基于依存树的句法分析能为机器翻译提供有用的结构信息统计机器翻译研究进展骨架依存树:目标是:仅分析出句子的整体句法结构。整体句法结构用该句的中心词及其直接支配成分来表示。骨架依存树考虑语句的整体结构信息和词汇语义信息的同时,避免对语句进行复杂的分析统计机器翻译研究进展基于骨架依存树的翻译我们的设想基本思想是一种分层次的翻译模型,由骨架映射->短语翻译->词翻译的逐层细化的过程。我们已经能够进行短语及词一级的翻译,现在问题的关键是如何找到子句的骨架,并利用骨架变换来描述两种语言的结构变换。将骨架变换形式化为转换规则(lexicalandnon-lexical),并统一到概率的框架下。统计机器翻译研究进展长句分析/骨干(Skeleton)关联分析长句分析目前仍无有效的方法对长句进行Parsing或者翻译目前对长句的处理只是研究如何将其切分NIST语料中FBIS中的长句特点并列成分多修饰语过多语言结构层次多插入语统计机器翻译研究进展Examples我们坚信,有马列主义、毛泽东思想和邓小平理论的指引,有以江泽民同志为核心的党中央的正确领导,有全军官兵的团结奋斗,有全国各族人民的大力支持,我们的目标一定能够达到。大亚湾核电站总经理刘锡才说,这是高起点起步的结果,是中央英明决策,决定全面引进先进而成熟的百万千瓦级大型商业核电技术和设备,并按国际标准建造和管理的结果,是公司员工坚持创新、追求卓越、赶超世界先进水平长期努力的结果。美国新闻署的一份材料承认:“美国在其大部分历史上未能确保许多公民———尤其是非洲裔美国人、土著美国人和所有妇女———的基本人权。”统计机器翻译研究进展骨干关联分析骨干关联分析研究目标:以长句分析为切入点,对句子骨干关联结构进行分析,以服务于统计机器翻译研究任务:句子骨干识别及之间结构关联分析双语骨干映射关系基于骨干分析的翻译统计机器翻译研究进展骨干关联分析骨干(Skeleton)的定义句子骨干在句法结构上首先是一个句子成分,可以是并列关系、从属关系或者其他属性描述关系,其在意义表示上具有相对独立性,骨干内部具有相对完整的句法结构(隐式或显式)其次,句子的不同骨干是由不同的特征集合进行区分,特征的选择能够识别骨干的边界双语骨干关联结构映射建立双语骨干对应关系,为翻译过程中目标语言重排序服务统计机器翻译研究进展基于骨干关联分析的翻译统计机器翻译研究进展中文BaseNPBaseNP识别的作用自然语言处理的基本任务之一

BaseNP比单个词语含有更丰富的语言信息,歧义少;与整句parsing相比较,工作量小,更具实际应用价值。其他自然语言研究的基础例:信息检索系统,机器翻译,其他短语识别,基于文本的生物信息获取(biology),等等。统计机器翻译研究进展什么是BaseNP?基本名词短语(basenounphrase,baseNP),简单的,非嵌套的名词短语,不含有其他的子项短语。[ZhaoJun,HuangChangning,1998]给出了BaseNP的严格形式化定义

BaseNP的严格形式化定义

BaseNP::=BaseNP+BaseNPBaseNP::=BaseNP+名词|名动词

BaseNP::=限定性定词+BaseNP|名词限定性定词::=形容词|区别词|动词|名词|处所词|数量词|外文字串[ZhaoTiejunetal,2001]进一步对汉语基本短语进行了研究,提出了7种形式的汉语基本短语统计机器翻译研究进展中文baseNP训练测试集的建立在PennChineseTreebank5.0和英文baseNP语料库建立方法基础上,加入了针对中文的词性和句法特征,建立较为完善的大规模baseNP训练测试语料,约50万中文词。统计机器翻译研究进展中文BaseNP中文BaseNP识别的的算法采用两级分类器第一级:采用TBL和CRF两个分类器第二级:采用SVM分类器算法流程统计机器翻译研究进展试验结果TBLCRFError-drivenSVMP(%)R(%)FP(%)R(%)FP(%)R(%)FDataset187.1088.1187.6189.4387.8688.6490.2988.8889.58Dataset287.4788.5387.9990.0188.1089.0490.4988.7689.62Dataset386.3087.3586.8289.1288.1088.6190.1789.2489.75Dataset487.7187.2987.5087.8787.3787.6288.4388.2188.32Dataset586.7787.8187.2988.9488.2188.5791.2390.9191.07Dataset686.4487.5887.0089.5988.3588.9690.5589.3789.96average86.9787.7887.3789.1688.0088.5790.1989.2389.72统计机器翻译研究进展中文命名实体基于WFST(WeightedFiniteStateTransducer)框架的命名实体识别与翻译

Finite-Statemodels(FSM)and,inparticular,WFSThaveprovenquitesuccessfulinmanyfieldsofwrittenandspokenlanguageprocessing.Thisincludesinparticularmachinetranslation,largevocabularycontinuousspeechrecognitionandspeechsynthesis. AninterestingfeatureofFSMsisthattheycanbeautomaticallybuiltor"learned"fromtrainingdatausingcorpus­basedtechniques.Comparedtomoretraditionalknowledge­basedapproaches,thesetechniquesareattractivefortheirpotentialofmuchlowerdevelopmentcosts. AnotherinterestingpropertyofFSMsistheirfeasibilityforimplementingorapproximatingknowledge-basedtechniques.DifferentknowledgesourcescanhenceberepresentedviaFSMs,thusallowingtheintegrationofaprioriknowledgewithinductivetechniquesinanaturalandformallyelegantway.ThismakestheFSMframeworkanadequateoneforlanguagepr

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论