1006大设计翻译版面向科技文献与新闻领域_第1页
1006大设计翻译版面向科技文献与新闻领域_第2页
1006大设计翻译版面向科技文献与新闻领域_第3页
1006大设计翻译版面向科技文献与新闻领域_第4页
1006大设计翻译版面向科技文献与新闻领域_第5页
已阅读5页,还剩43页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2、训练翻译模型:使用GIZA+等词对齐工具,对处理后的平行语料进行对齐。再使用启发式的gro-dia-fin-and算法获取双向的对齐结果。根据所选择的短语模型和层次短语模型,分别从对齐结果中抽取可用的规则Ⅳ、主要参考宗成庆 统计自然语言处理 清华大学出版社,Kevin AStatisticalMTTutorial JHU,KoehnPhilipp. StatisticalMachineTranslation. CambridgeUniversityPress,2010.刘群 计算语言学讲义 KoehnPhilipp,etal. Moses:Opensourcetoolkitforstatisticalmachine ACLVol.45.No.2,2007.DavidChiang. Ahierarchicalphrase-basedmodelforstatisticalmachine ACL,pages263-270,2005.ResearchandImplementationofJapanese-ChineseStatisticalMachineTranslationSystemInTheFieldofScientificLiteratureandAuthor:XiaoxiangWuTutor:WenhanMachineTranslationistousethecomputertotranslateonekindofnaturallanguage(SourceLanguage)intoanothernaturallanguage(TargetLanguage).StatisticalMachineTranslationisonekindofmachinetranslation,whosefundamentalideaistoestablishastatisticaltranslationmodelbyanalyzinglargeamountofparallelcorpus,andthenusethismodeltotranslate.WithevercloserexchangesandcooperationbetweenChinaandJapan,ChinesepeoplearenowmoreintouchwithJapaneseproducts,andtextmaterial.However,mostChinesepeoplehavedifficultyreadingJapanese.So,thisgraduateprojectaimstobuildastatisticalmachinetranslationsystemfromJapanesetoChineseinscientificthesisandnewsarea,aimingatassistingpeople'scomprehensionofJapanese.Thissystemisbasedontheopen-sourceprojectMoses,andintegrateswordsegmentation,wordalignment,languagemodeltoolstobuildthefullsystem.Andthentryingdifferentmethodstoimprovetranslationqualityofthesystem.MainworkofthesystemisasBuildingJapanese-Chineseparallelcorpus:crawlingcorpusfromtheInternet,doingsentencealignmenttomakethecorpusmoresuitablefortrainingthesystem.Pre-tacklingcorpus:Improvingqualityofcorpusbyfilteringgibberish,convertingfull-widthsymbolstohalf-widthsymbols,segmentingwordsanddependencyanalysis.IntegratingthestatisticalmachinetranslationframeworkMoseswithwordalignment,wordsegmentationandlanguagemodeltools.Improvingtranslationqualitybypre-tacklingandpost-tacklingsuchaspre-orderingofsourcelanguage,mergingdifferentwordalignmentresults.StudyingrelationsbetweencorpussizeandtranslationqualityusingacertainComparingdifferenceoftranslationqualityusingdifferenttranslation:StatisticalMachineTranslation,Phrase-basedtranslationmodel,Hierarchicalphrase-basedtranslationmodel 绪 研究背 机器翻译技术综 基于规则的机器翻译系 基于统计的机器翻译系 基于实例的机器翻译系 国内外研究现 研究目标与研究内 日汉平行语料收集与构 数据预处 词对 模型训 解码 完整系统的搭 论文的组织结 相关技术现 语言模 翻译模 数学模 短语翻译模 层次短语翻译模 本章小 面向科技文献与新闻领域的日-汉统计机器翻译系统设 系统功能需 设计原 系统架构设 构建语料库流程设 翻译模型训练流 语言模型训练流 参数调 完整系统流 系统功能模块详细设 翻译模型数据结 规则表预剪 解码器存储结 本章小 面向科技文献与新闻领域的日-汉统计机器翻译系统实 系统开发环 系统实现概 语料处理模块实 将语料转换为Unix格 全半角转 替换特殊字 中文分 日文分 源语言预调 系统模块实 词对 词对齐融 规则抽 本章小 系统实 实验环 实验目 实验过程与分 语料规模与BLEU值的关 短语模型与层次短语模型的比 前处理后处理对翻译质量的影 本章小 总结与展 工作总 工作展 致 参考文 评的单位几乎都是采用统计的方式来构建机器翻译系统,只有一两家参评单位如南京大学采用了规则的机器翻译系统。从最近的CWMT2011得出,参加中日机器翻译任务的单位数量并不多,仅包括哈尔滨工业大学、东北大学、中科院自动化所、中科院计算除了极个别单位如东北大学采用了自己开发的Niutrans系统[3],其他研究单位都题展开研究。日方在过去5年间投入9亿多日元开发的有关中文的句法分析方法、各种在这两个baseline系统的基础上再进行一些优化后的对比实验,来得到某些处理对于系CRF的一个日文分词系统。用户可以通过配置文件定制CRF训练中需要使用的特征模板。IBM模型[7]的,在本次毕业设计过程中,将研究对齐后处理的算法,然后利用SRILM[9]3-gram,4-gram,5-gram的语言模PC无法胜任这语言模型的根本挑战是处理数据的稀疏问题,因此采用不同的平滑技术也会对n-gram语言模型产生影响。MERT(MinimumErrorRateTraining)[10]的方法,即最小kbest翻译结果。这部分涉及到搜索和剪枝的算法,在本次毕业设计中,会尝试不kbest的翻译结果进行重排序,也是改进系统性能的可mosesmecab、Stanfordwordsegmenter、Giza++、本次毕业设计旨在构建一套完整的面向科技文献与新闻领域的日-汉统计机器翻译语言模型(LanguageModel)是任何统计机器翻译系统都不可获取的基本模块,它N元语言模型运用马尔科夫假设把句子的概率分解成给定的有限上下文条件下单假设给定如下句子,thehouseissmallsmalltheishouse,那么根据语言模型,我们能计算出:Plm(thehouseissmall)Plm(smalltheishouse),正是由于语言模型的这eeˆPr(e|f)2.1根据贝叶斯公式,Brown模型,Pr(f|e)是翻译模型。其中是特征函数,是特征函数的权重2.2X→<手机,cellX→<上个世纪 thelast基于短语的翻译模型要求短语是连续的词序列,而层次短语(HierarchicalPhraseBased)[14]X,使得规则有了更好的泛化能力,放脑 和 , andX1>→<X1的发明, inventionsfX1>1 是X2, X1areX2>可以看出,除了传统的短语模型中能够获取“经济发展→economicdevelopment”则外,还能获取“X1的X2→theX2ofX1”这样具有更高泛化能力的规则。0-2个变量的组合规则。-汉统计机器翻译系统有了很大的难度。3.1语料库构建2、统一将文本的编码转化为UTF-8格式,并将乱码的句子过滤掉3.23.3训练语言模型3、根据N-gram文法使用最大似然估计计算某个上下文区间出现的概率3.41、首先从训练语料中选取一定数量语料作为开发集(数量不需要很多,500-2000句左右即可然后按照3.3.1小节所阐述的处理训练语料的方法对这部分语料进行处理。4、如果系统此时已经收敛,那么当前的参数即为最终解码器的配置参数,可生成最终3.5完整系统流程图用一个hash表来存储其对应的目标端短语在有序的短语表中的位置。Rule<手机,<手机,cell<手机mobile<手机,3.6Rule<和and<和<和X2computers are<X1的发明 inventionsof 是 X1are3.7在短语表中的位置信息,child_index记录其孩子节点的索引信息。那么当我们想向其中插入如下短语“电 andX1>”以及电 0泛化规则的剪枝方法和基础规则的剪枝方法实际上是相同的,直接通过修改Trie3.113.12span区间如下:[i,j]=∪𝑖=<𝑘<𝑗([𝑖𝑘][𝑘+例如 ={(1,1)U(2,4),(1,2)U(3,4),3.1Cube则,最终就能生成整句句子的span区间[0,6]的候选译文。3.2Cube假设待翻译的句子是:“Sent:012345发明6”,则对于一个具体的短语“[0,4]<X1[2,4],computersandX1>”,具体的候选3.3值指 “电脑和computersand0-trans_rule指向某条翻译规则,children_cube_spancubespan志是否启用了胶水规则,children_cube_rank是子Span中对应的规则的下标。本章着重介绍了面向科技文献与新闻领域的日汉机器翻译系统的几大主要模块的择合适的数据存储结构至关重要。位数:64位内核版本:3.8.0-28-CPU:Intel(R)Core(TM)2 @脚本语言:perl、python、bash$dos2unix0xFF5E0x7E1228(300032(0x20除空格外,全角/半角按unicode编码排序在顺序上是对应的(半角=全角其实质是用特征值来进行BMES的分类问题一个字,M表示中间的字,E表示末尾的字BE BM,,1:CnT0(n21,0,1,特征 两字 (n=-2,-1,0, 13个特征值(152有4个我们都给定了一个确定的ag(B,M,E,S。maxent工具包,该工具包中默认使用的是L-BFGS的方法进行调参,最后得到一个最大熵的模型,在我们的实验中即为model_msr。ouput_msr中的每一行对应到测试数据中每一个字分类到BMES四种情况的概率,每一个字的标签,我们根据这个标签便可获得最终的分词结果。发生的情况,于是我们将这些非法边去掉,将大大地减少搜索空间。使用viterbi

.球之首,按吨位计占世界总数的17%.======TOTAL ===TOTAL ===TOTAL ===TOTAL ===TOTALTRUEWORD ===TOTALTESTWORD ===TOTALTRUEWORDS ===TOTALTESTWORDS ===F ===OOV ===OOVRecall ===IVRecall mecab-python-tar-zxfvmecab-cdmecab-makesudomakemecab-ipadic-2.7.0-tar-zxvfmecab-ipadic-2.7.0-cdmecab-ipadic-2.7.0-errorwhileloadingsharedlibraries:libmecab.so.1:cannotopensharederrorwhileloadingsharedlibraries:libmecab.so.2:cannotopensharedobjectfileobjectfile:Nosuchfileordirectory但是到/usr/local/lib中却发现并没有缺失这些文件sudoldconfigp|grep/usr/local/liblibmecab.so.1,libmecab.so如果还没有解决,则只需要把/usr/local/lib内写入 即的程序,在Mecab分词结果上再做一遍处理,才能得到正确的分词结果。的短语,以免其被调序打乱词序,通过这样的处理,可以预期,Lader能够取得比简单GIZA++=>=>原语的对齐过程是彼此独立的过程,因此会产生两个对齐文件,词对齐称化的任务就是通过一定的算法合并这grow-diag-final-and的启发式算法来获取最终的双向对齐是最终的双向对齐,虚线表示的方框为只有一个方向的对齐信息。grow-diag-final-and算法的伪代码如下:首先,找到对齐的词语对,将所有双向对齐加入Alignment。如图(矩阵中实心方格表示双向对齐,虚线空心方格表示单向对齐:遍历Alignment,对其邻居进行检测,如果邻居中存在单向对齐的点,并且该点“weather-天气”时,发现该点左边存在单向对齐点“the-天气”,且“the”尚未与任何词双向对齐,则将该点加入Alignment。发现该点是一个单向对齐点,并且“today”尚未与任何词双向对齐,则将该点加入0-51-01-12-33-44-5)<head 我妈妈很少画油画.</<tgtword>Mymotherseldomworkedoncanvass<alignment>0-01-12-23-24-55-45-56-6<head 她的室内壁画更著名 <tgtword>Shewasmoreknownforheronsitemurals.<alignment>0-02-14-75-65-76-8#coding:utf-8#Author:Xiaoxiang#Filename:makefastaligncorpus.py#Description:将语料处理为fastalign工具所需的输入样式importsys =="main":iflen(sys.argv)!=print"runsrctgtresult"srcfile=open(sys.argv[1])tgt_file=outfile=open(sys.argv[3],src_lines=src_file.readlines()tgtlines=tgtfile.readlines()linenum=len(srclines)ifline_num!=print"unequallinenumbers!"foriinoutfile.write(srclines[i].strip()+"|||"+tgtlines[i].strip()+"\n")srcfile.close()tgtfile.close()#coding:utf-8#Author:Xiaoxiang#Filename:mergealign#Input:src:源语言语料,tgt:目标语言语料,alignxx份对齐结果#Outputresultsrc处理后源语言语料,resulttgt处理后目标语言语料,resultalign:合并后对齐结果importsys =="mainiflen(sys.argv8:#print"runsrctgtalign_1align_2result_srcresult_tgtresultalign"src_file=open(sys.argv[1])tgtfile=open(sys.argv[2])align1file=open(sys.argv[3])align2_file=open(sys.argv[4])outsrc=open(sys.argv[5],"w")outtgt=open(sys.argv[6],out_alignopen(sys.argv[7]"w")srclines=srcfile.readlines()tgtlines=tgtalign1_linesalign1_file.readlines()align2linesalign2file.readlines()linenum=len(srcifline_num!=len(tgt_lines)orlen(tgt_lines)!=len(align1_lines)orlen(align1lines)!=len(align2lines):print"unequallines!"foriinxrange(linenum):outsrc.write(srclines[i])outtgt.write(tgtlines[i])outalign.write(align1lines[i])outalign.write(align24.8本章详细介绍了面向科技文献与新闻领域的日-汉机器翻译系统的各模块的实现过足系统训练的需求,之后又详细介绍了系统训练过程中几个模块的具体实现。至此,完整的系统实验环境就搭建完成了,在下一章,将利用这套系统进行不同的实验。CPU:Intel(R)Core(TM)2 @操作系统:LinuxDeepin64内核版本:3.8.0-28-GCC版本:gcc-BoostMecab版本:mecab-GIZA++版本:giza-pp-Moses版本:Release2.1.1(4March660,000句对的日-2,000#MERToptimized#decoder#BLEU0.260495ondev#Wewerebeforerunningiterationfinished2014052022:56:26CST###MOSESCONFIGFILE####inputfactors#mappingsteps0T#featurefunctions table.gzinput-factor=0output-factor=0LexicalReorderingname=LexicalReordering0num-features=6type=wbe-msd-bidirectional- path=/home/nlp1004/workspace/corpus/news20140227.blmorder=3#denseweightsforfeaturefunctionsLexicalReordering0=0.1114540.0007467660.1616770.0906690.00596497LM0=-3.95934e-05PhrasePenalty0=-20205005.1语料规模-BLEU从上图中可以发现,随着语料规模的增加,BLEU值[18]增幅越来越小,说明当语#inputfactors#mappingstepsTT[cube-pruning-pop-#featurefunctions table.gzinput-factor=0output-factor=0 grammarinput-factor=0output-factor=0 path=/home/nlp1004/workspace/corpus/news20140227.blmorder=3#denseweightsforfeaturefunctionsPhrasePenalty0=PhrasePenalty0=TranslationModel0=LM0=5.2首先,尝试了通过词对齐结果直接对源语言句子进行预调序处理],结果显示,BLEU0.36LaderEU0.71Ladr1U值也导致了BLEU值提高了0.14个百分点。BaselineBLEU将语料中的数词泛化为了特殊标记$num,BLEU下表列出了所有对比系统的BLEU值:5.1BLEU系统系统系统系统系统系统间进行开发与维护。因此,本系统仅仅是基于Moses这个优秀的统计机器翻译开源框架使用Moses本次毕业设计实现了一套完整的面向科技文献与新闻领域的统计日-汉机器翻译系冯志伟.澄清对机器翻译的一些误解[J].现代语文(理论研究YajuanLu,etal.CWMT2011MachineTranslationEvaluationOverview[J].中文信息学报,2012,26(1):22-30.TongXiao,JingboZhu,HaoZhangandQiangLi.TheNiuTransMachineTranslationSystemforCWMT2011[C].InProc.ofACL,demonstrationsession.2012.Koehn,Philipp,etal.Moses:Opensourcetoolkitforstatisticalmachinetranslation[C].ACLVol.45.No.2.2007.工藤拓Mecab.CRF的日文分词工具[P].日本电信电话株式会社コミュニケーション科学基础研究所.2009.FranzJosefOch,HermannNey.ASystematicComparisonofVariousStatisticalAlignmentModels[A],ComputationalLinguistics,volume29,number1,pp.19-51March2003.P.Brownetal.Themathematicsofstatisticalmachinetranslation:parameterestimation[A].ComputationalLinguistics,19(2),263-311.1993.RaduSoricut,KevinKnight,DanielMarcu.Usingalargemonolingualcorpustoimprovetranslationaccuracy[A]ACLVol.32.No.1.2002.ChrisManning,HinrichSchütze.FoundationsofStatisticalNaturalLanguageProcessing[A].SIGMODRecord,Volume31Issue3.2010.FJOch.MinimumErrorRateTraininginStatisticalMachineTranslation[A].ACL'03:Proceedingsofthe41stAnnualMeetingonAssociationforComputationalLinguistics-Volume1,Volume1.2003.FJOch.TheAlignmentTemplateApproachtoStatisticalMachineComputationalLinguistics,Volume30Issue4.KevinKnight.AStatisticalMTTutorialWorkbook[M].JohnHopkinsUniversity.FJOch.Phrase-basedstatisticalmachinet

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论