



下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、基于匹配模板的术语自动翻译方法,网络安全技术与应用,网络安全技术与应用:姜东洋【摘要】本文针对于专利术语的特点,建立了一个基于属于模 板的术语自动翻译系统。系统中结合了翻译模型和相似度打分机 制,实验结果表明该方法能够解决术语翻译中的固定术语翻译问 题和基于中心词序调整问题, 提高了统计机器防疫的质量。 同时 术语模板中引用了单一的统计翻译中增加了语言学知识,为翻译提供了一个有效手段。【关键字】机器翻译术语模板匹配【基金项目】 辽宁机电职业技术学院院级科研 -基于统计的专 利术语的自动翻译技术研究项目”1 .前言近年,随着科技技术的加速发展,人们越来越关注大量专利文 献的翻译中,如何将人们从这
2、些烦琐的翻译任务中解脱出来?统 计机器翻译技术的迅速发展为人类的辅助翻译提供了强有力的 手段。而专利文献的翻译任务中主要以大量的专利术语为主,平衡基于实例与基于统计的翻译的优缺点,本文结合两者之间的优点,提出一种基于匹配模板的术语翻译方法,面向结构单一的专利术语2 .专利术语术语是指 学业领域中一般概念的文字指称” 1中国大百科全书中指出,术语是各门学科中的专门用语,术语可以是词, 也可以是词组,用来正确标记生产技术、科学艺术、社会生活等 各个专门领域中的事务、现象、特性、关系和过程。术语是科学 研究的成果是人类进步历程中知识语言的结晶专利术语主要以名词短语形式存在。因为的翻译是英汉的专利 术
3、语翻译。源语言是英文的名词短语,该短语主要由修饰语和中心词构成。修饰语可以是名词、形容词、分词及其短语、介词等 的组合。英文专利术语在进行翻译时要注意一些问题:(1)修饰语与中心词的位置关系也就是我们讲的调序问题, 这里我们归纳一部分的具有调序功能的模板,例如专利源语言术语:Ahealthmedicineforprotectingliver."A#1for#2调序后变为“#2#1这里的"#1和”#汾另1J指 英文名词短语也可以是单纯的名词。(2)另一类是不用调序的固定翻译结构的模板,可以用来翻 译具有多种修饰语的专利术语。例如:Adrasticallyreducedbudg
4、et.翻译后的模板转换为" #1#2#3该类术语是无须调整语序,直接 按顺序翻译。3 .术语模板的匹配算法我们建立了一定规模的模板库后,设计术语模板的匹配算法成为核心。我们开发了基于中心短语的迭代匹配算法,其匹配过程如下图所示:图1术语匹配算法流程图下面详细讲解该算法的设计,首先对输入的源语言术语进行匹 配,匹配时如果有多个模板适用于输入的术语,我们就会选择匹配度最高的模板进行匹配。 该匹配度的选择我们通过一个打分机 制来选择,对于输入的源术语对比模板库里的术语之间的相似度 来获得终结果。当然,在这其中我们也融合了语言模型和翻译模 型。3.1 打分机制通过模板的相似度计算来选择最佳的
5、匹配模板。模板库的建立 是利用GiZA+词对齐工具训练语料进行词对齐训练,得到双语 对齐术语对。从中可以看出其中的对应关系,Giza+训练的时候采用英汉和汉英两个方向训练。通过基于中心词的依存来改善词对齐的关系;英文部分通过parser进行句法分析,最终建立一个 53907个模板。大小为5.12Mb.模板的格式如下:模板翻译模板概率(TOP(NP(NP(NNPreparation)(PP(INof)(NP(NNkoujiesu)123 5690.491(TOP(NP(CD12)(NNDirection)(JJsignal)(NNinput)(NNdevice)1 345770.333(TOP(
6、NP(NP(NNCutter)(PP(INof)(NP(NNsteel)(NNwire)(NNcur tain)(NNcloth)(PP(INat)(NP(NP(NNrange)(PP(INof)(NP(CD15-7 0)(NNSdegrees)1865550.3333.2 语言模型及翻译模型本文采用SRILM对10万平行的术语语料训练翻译模型和三元 的语言模型。4 .实验及分析本文所采用的实验语料是面向专利领域的英文术语语料库,语言模型和翻译模型是通过平行的术语语料库,规模为10万句双语术语对。该语料库涵盖了医药、器械、食品及生活等多个领域。 为了弥补个别领域的训练语料的不足,我们也加入一些
7、专业的辞典到语料库,训练语料库抽取350句作为开发集,抽取200句作 为测试集,开发集,测试集的参考译文都会有两个人工参考译文, 下面是实验设计:实验一:不使用模板,利用开发集进行训练弁以此作为baselineo实验二:使用模板库,实验结果用国际机器测评常用的BLEU方法。BaselineTemplate_MatchedIncrease开发集 32.15%34.56%2.41%测试集 29.12%31.23%2.11%4.1BLEU评价方法BLEU评测方法是2001年美国旧M公司的研究人员提出来的, 利用BLEU方法评估机器翻译质量的关键就是如何定量计算机 器译文与一个或多个人工翻译参考答案之
8、间的接近程度。该接近程度采用句子精确度的计算方法,也就是比较系统译文的n元语 法与参考译文的n元语法相匹配的个数,这种匹配与位置无关系统译文与人工参考译文相匹配的n元语法的个数越多,BLEU得分越高。另外考虑到句子的长度对 BLEU评分也有一定的影响,BLEU 的评价标准又对比参考译文更短的句子引入了长度惩罚因子。在BLEU评测方法中,n的实际取值是14。总的评价指标是 一元语法到四元语法的几何平均。另外,对于整个语料库而言, BLUE的计算一般是基于词语进行的,而不是基于句子的。也就 是说,对于长度不同的句子,要以句子的长度进行加权平均。BLEU的总体评价公式如下:其中,是出现在参考译文中的n元词组占候选译文中n元词组总数的比例。5 .总结本文实现了面向专利领域的英汉翻译系统,通过手工归纳一些 模板库来进行翻译当中的模板匹配。因为专利术语本
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年中国气动钉枪行业投资研究分析及发展前景预测报告
- 2025年中国调料行业发展潜力预测及投资战略研究报告
- 电器可行性报告范文
- 2025年中国智能控制器行业发展趋势及投资前景预测报告
- 2025-2030年中国建材预制构件项目投资可行性研究分析报告
- 名表培训课件
- 建筑工程施工合同
- 中国音乐播放器行业发展监测及市场发展潜力预测报告
- 轮纹特胶悬剂行业深度研究分析报告(2024-2030版)
- 中国汽车防锈市场竞争格局及投资战略规划报告
- Andhadhun Theme 02 《调音师》钢琴谱钢琴简谱 数字谱 钢琴双手简谱
- 一级圆柱齿轮减速器的设计计算22001文档
- 第19章一次函数-一次函数专题数形结合一一次函数与45°角模型讲义人教版数学八年级下册
- 2023年四川省宜宾市叙州区数学六年级第二学期期末考试模拟试题含解析
- 幼儿园警察职业介绍课件
- 灭火器维修与报废规程
- 皮肤病的临床取材及送检指南-修订版
- 机型理论-4c172实用类重量平衡
- 管道工厂化预制推广应用课件
- 海水的淡化精品课件
- 项目工程移交生产验收报告
评论
0/150
提交评论