机器翻译测试大纲-自然语言处理_第1页
机器翻译测试大纲-自然语言处理_第2页
机器翻译测试大纲-自然语言处理_第3页
机器翻译测试大纲-自然语言处理_第4页
机器翻译测试大纲-自然语言处理_第5页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、2004 年度机器翻译评测大纲一、评测对象本次评测的对象包括:汉英、英汉、汉日、日汉、汉法、法汉机器翻译系统中的核心技术。二、评测内容本次评测组织两种语料的评测,一种是篇章语料,一种是对话语料。领域是通用领域和奥运的相关领域,包括体育赛事、天气预报、交通住宿、旅游餐饮等。本次评测的评测指标包括译文质量和翻译速度。三、评测方法1. 评测方式本次评测为现场评测。结果评估采用的是以人工评估为主、自动评估为辅方式。人工评估采用可理解率指标。评估方式是:由评测组织单位将提交的评测结果汇总在一起,然后用计算机随机打乱译文句子的排列顺序。再将所有译文句子提交给多位专家进行可理解率的人工评估。将专家评测的结果

2、汇总,用计算机还原成原来的排列顺序,计算出总的可理解率。自动评测采用基于 n 元语法的 BLEU 和 NIST 方法。2. 评测步骤(1) 在评测单位统一提供的评测环境上安装被测系统。 系统应安装在指定 的目录中。(2) 评测单位给出评测数据。评测数据存放在指定目录中。给出评测数据以后被测单位不得再更改系统参数。(3) 被测单位运行系统,提交评测结果。被测单位应指导评测人员学会操作方法,所有操作由评测人员进行,系统运行时各单位人员应离场。系统的运行应该是批处理方式的,系统读入一个脚本文件(格式后面说明),脚本中存放输入文件名和对应的输出文件名。(4)评测单位事后进行人工评估。(5)公布评测结果

3、。(4) 测标准(1)人工评测标准本次评测按0.0 -5.0分打分,可含一位小数,最后采用百分制换算评测结果等级分得分标准译文可理解率0完全没有译出来。0%1看了译文不知所云或者意思完全不对。不过有小部分词 语是译对了的。20%2译文有一部分符合原文的一部分意思,或者全句没有译 对,但是关键的词都孤立地译出来了,对人工编辑有点 用处。40%3译文大致表达了原文的意思,局部与原文有出入,一般 情况下需要参照原文才能改正。有些情况即使无需参照 原文也能猜到原文的意思,但译文的不妥明显是由于翻 译程序的缺陷造成的。60%4译文传达了原文的信息。不用参照原文,就能明白译文 的意思,但是部分译文在词形变

4、化,词序,译词选择, 地道性等方面多少有些问题,需要修改。不过这种修改 无需参照原义也能用把握地进行,且修改也较容易。80%5译文准确流畅地传达了原文的信息,语法结构正确,除个别错别字、小品词、单复数、地道性等小问题外, 只需小修改,或者完全无需修改。100%总的可理解率 =所有句子彳4分之和/总句数/5M00%(2)翻译速度评测标准由主持评测的工作人员现场记录翻译时间,各系统自动显示从第一个句 子翻译开始到所有句子翻译完毕所用的时间(不计系统初始化所用时间,只 记开始翻译到所有句子翻译完毕所用时间)。4. 输入输出文件格式系统首先接受一个脚本文件作为输入,脚本文件中给出了一系列机器翻译源语言

5、和目标语言文件的文件路径。系统的源语言文件为一个扩展名为 .xml 的文本文件,英文、中文、日文的编码为 Unicode 。目标语言文件的格式要求和源语言文件相同。下面以汉英机器翻译为例,说明脚本文件、源语言文件和目标语言文件 格式。( 1)脚本文件格式:脚本文件是文本文件,由若干行组成。每行代表一个待翻译的源语言文件。每行分为 3 个部分,各个部分以空格分开,第一部分为序号,第二部分为源语言文件名,第三部分为目标语言文件名。系统的翻译应按顺序进行,不得更改输出文件名。给出的文件名都是相对于脚本文件所在目录的。1 sourcesrc1xml resultdst1.xml2 sourcesrc2

6、.xml resultdst2.xml3( 2)源语言文件格式:源文件采用xml格式。每个源语言文件包含一个 doc元素(由doc 和用。8括起来的部分),其中 doc元素的属性说明文档相关信息。docid给出文档名称, lang 给出文档的源语言,属性值用双引号引起。语言代码中,英语用bn”表示,汉语用Z'h”表示,日语用ja”表示,法语用“fr”表示。每个doc元素由若干个p元素(由p和/p括起来的部分)组成。每 个p元素由若干个s元素(由s和/$括起来的部分)组成,其中 s 元素的属性id的值是正整数。每个s元素的id各不相同,但不一定是连续 的数值。每个s元素可能包含一个或多个

7、句子。?xml version="1.0" encoding="Unicode"?doc docid=" 文档名称 " lang= ” zh ” ps id= ” 1 ” 玻利维亚举行总统与国会选举/s/pps id= ” 2 ” 法新社玻利维亚拉巴斯电()玻利维亚今天举行总统与国会选举,投票率比预期更高, 选民希望选出的新领导阶层能够振兴经济, 改善人民的生活水准,抑制这个南美洲最贫穷国家的劳工骚动。 </s></p><p><s id= ” 3” 投票所于下午四时>( 台北时间七月一日

8、清晨四时)关闭,选务人员说,选举结果将于两小时之后开始发布。 </s></p><p><s id= ” 4 ” >稍早,玻利维亚总统与参与选举的候选人援引巴西赢得世足赛冠军为例,鼓励民众踊跃投票,虽然联邦法律规定,凡达投票年龄的玻利维亚人都必须投票。 </s></p></doc>( 3)目标语言文件格式:目标语言也采用 xml 格式。目标语言文件的格式与源语言文件相同,其中doc中要增加一个site属性,给出参评单位名称。目标语言文件中,<doc>元素、<p>元素、<s>元素及

9、其组成关系应与源语 言文件对应。对应的 <doc>元素的docid属性和<s>元素的id属性应与源语言文件相同。<?xml version="1.0" encoding="Unicode"?><doc docid="文档名称"lang= " en" sit弹位名称"<p>< s id=1> Bolivia Holds Presidential and Parliament Elections </s></p><

10、p>< s id=2> (AFP, La Paz, Bolivia) Bolivia held its presidential and parliament elections today. With a higher than expected turn-out rate, voters hope the newly elected leadership can revitalize the economy, improve the people's living standards and control the labor unrest in this poo

11、rest country in South America. </s></p> <p>< s id=3> The polling stations closed at 4 p.m. (4 a.m. on July 1, Taipei time).Thepolling staff said that the results of the elections will be released within two hours. </s></p><p>< s id=4> Earlier, the Bolivian president and candidates in the elections, citing Brazil's championship at the World Cup soccer tournament, encouraged the public to actively participate in the elections even though every Bolivian who has reached the voting age is required by the federal law

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论