




下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、译语料库建设中一些问题的软件处理法The core of Computer Aided Translation - theaccumulation of translation memory makes the corpus. The size of corpus determines the efficiency of computer aided translation software. Therefore , the construction of the corpus is a subject that CAT users must do. In the construction o
2、f corpus , sentence segmentation , will encounter problems such as repetition , impurity. The most efficient way to deal with this large scale is software.A software processing method is proposed in this paper,which can solve and deal with the problems encountered in the construction of the corpus.0
3、引言“累积大量的英汉双语语料并建立语料库,对于计算机辅助 译的帮助日益扩大.而“语料库,尤其是双语平行语料库, 在译实践方面的应用潜力也十分巨大.为此,文章旨在研究主要用于计算机辅助译CAT的语料库建设中遇到的一些 问题的解决方法.在CAT行业,一般把这种译语料库即译 记忆库简称为“句库.所以本文下面也简称为“句库.为建设大型句库,需通过各种途径,采用各种方法收集或制 作句库.但是,“经过语料采集程序所收集的各类语料、尤其是通过网络下载、扫描识别等方法获得的文本大多会存在各种不合 标准的符号或格式,这些不标准的符号格式会导致语料标注错 误,为了防止这一问题,在做好原始文件备份工作后,就需要对
4、语料进行清洁整理.更麻烦的是,即使是质量好的句库,也 可能会与自己已有的句库重复. 对于上万句对的句库来说, 要处 理这些问题靠手工操作是很难完成的,更不用说几十万甚至上百万句对的语料库了.这就要求我们对句库的质量缺陷和重复问题 进行研究,并针对这些问题提出简便易行的解决方法.1语料库建设中存在的问题1.1 重复问题对于搜集来的句库,首要问题是重复.也就是说,新来的句 库与自己已有的句库可能有重复. 如果一个CAT用户只有几百万 句对以下的句库时,句库的重复与否是无关紧要的,由于电脑的运行速度不会受这点重复句库多占电脑内存的影响.但是当句库拥有量超过几千万句对时,电脑的内存就会变得极其珍贵,电
5、脑的运行速度将会受到极大的影响, 甚至造成电脑或CATa件不能 运行.这就要求对自己的每个句库都检测并删除重复的句对,以最大限度地利用电脑内存空间并提升CAT的运行速度.如果句库拥有量在几十万句对以下,这个问题是不难解决 的.如现在有些CAT有去重功能.我们只要把自己原有的句库导 入CAT再把新来的句库导入,两者合并起来后,CA侬件就能自动把重复的句对删除. 但是当句库太大时,就超过了 CATa件 的容量,其重复问题就无法处理了. 而且现在一般的CAT件只 能合并不能拆分还会导致这样一种结果一一不同专业的句库合 并后原来句库的专业分类状态会被破坏.上述问题对我们提出了一个要求一一需要有一种“去
6、重手段,这种手段既能快速大批量地删除重复的句对, 又能保持新 句库的原有专业分类状态. 对于这样的要求,目前一般的CATt 件仍无法做到.1.2 切分问题句库的切分也称拆分.目前一般的 CA锹件只有合并功能,没有切分功能.拿Trados来说,它的单个句库容量比一般的 CAT 要大.但它导入句库合并后却不能切分,这对于需要按专业分类 的句库来说就不能满足需要了. 而且单个句库太大时会影响电脑 的运行速度,也就影响了译速度.更令人头痛的是,有些来自 Trados的单个句库可能多达几百万句对,而一般的CA侬件没有这么大的容量.如雪人软件单个句库的容量只有一百几十万句 对,大于这个容量就无法导入,因而
7、就无法把来自Trados的TMX 格式的句库导入并转换成雪人的 STM格式,这样雪人就无法使用 这个句库.这就要求有种方法来按需求切分句库,特别是切分大 型句库.对此,目前一般的 CATa件也做不到.1.3 杂质问题为了加快句库的制作速度,大型句库往往是借助软件自动生成的.但是“某些软件不能识别其他编码格式的文本,对一些特殊格式标识符号在读取中会出现乱码.此外,“制作双语对应语料库,较为高效的方式是利用 Trados的WinAlign工具自动 对齐句对,其优点是速度快,准确率较高,优于双语语料库检索 软件ParaConc内置的句对工具;具缺点是对中文的支持不够完 美,有时会出现乱码.而且,在句
8、库制作、文件转换及不同 CA傲件之间的交换过程中,由于格式不同及其他种种原因,句 库中也会产生各种各样的乱码和其他非词语性的东西,甚至还会产生原文或译文空白的句对.对于这些乱码、非词语性的东西及 原文或译文空白的句对,本文下面统称为杂质.这些杂质的存在 影响了句库的质量,并且会影响译时语料查找速度和精确度, 因此需要删除.这种删除功能现在一般的CATa件是没有的.2语料库建设中问题的解决方法综上所述,在句库建设中我们会面临三大问题一一重复、切分、杂质.而杂质又可归纳并分类为:1有原文无译文;2 有译文无原文;3译文错误;4译文与原文错乱,即对齐 错误;5其他各类杂质.上述这些问题,对于一个只有
9、几百或者几千句对以下的小型 句库来说,是可以人工修正的. 但是对于几万或几十万句对以上 的句库来说,人工修整需要花费极大的人力和极长的时间,所以实际上是不可行的.为此,需要专门研究出一个简便易行的方法 来解决这些问题.由于目前的人工智能水平还无法判断译文的错误或者译文 的好坏,所以对于第三大问题中的译文错误和对齐错误, 软件是 很难解决的;而译文对齐错误就性质上来说与译文错误是一样的,因此软件也无法识别.所以这两个问题目前需要人工检查处 理.但是,“建设语料库是一件比拟繁琐的事情,光靠人力是不 能满足需求的,随着现代科技的快速开展,强大的软件支持将为 我国语料的建设提供极大的便利.笔者经过长期
10、的实践和研究发现,上述三大问题中的前面二大问题及第三大问题中除了译 文错误和对齐错误外,其他问题根本都可以用软件解决.为此, 笔者与软件设计人员合作, 设计开发出了 一个句库处理软件,其性能简介如下:2.1 软件分类由于是与软件设计人员合作,具将软件分试用版和正式版二 种.试用版的功能有较多限制; 且试用期过后软件会自动禁止使 用.正式版各项功能齐全,处理速度比试用版要快得多.由于目前几乎所有的 CATt件都备有TMX#式,且“ TMX翻 译记忆交换标准,Translation Memory Exchange 是一种不依 赖任何软件厂商的公开的译记忆数据库格式标准创立TMX标准,目的是为了让译
11、者可以更容易地在不同的工具之间交换数 据,因此,本软件选择 TMXM式作为本软件的运行格式.对 于其它格式的句库,可以用CATa件转换成TM潞式后再导入本 软件运行.2.2 软件容量由于软件的工作效果极度依赖内存,因此,软件使用当时电脑的剩余内存决定了当时可以处理的最大句库尺寸.据测试,对于试用版,电脑剩余内存3.6GB时,软件可处理的文件大小上限 约为600MEB对于正式版,只要电脑放得下,软件的容量无限.2.3 软件适用的语种此软件可适用于中英、中西、中俄、中日、中法、中德、英 俄、西日等各种语言.以中英为例,该软件能够处理英译中或者 中译英的句库.但因目前市场上流行的绝大多数句库均为中英
12、, 且都采用英译中模式互相交换, 所以英译中模式为该软件的最常 用句库处理模式.2.4 软件运行速度软件切分和删除杂质时的运行速度很快,根本上以秒计,能够满足快速操作的要求. 对于检测和删除重复,试用版的运行速 度比拟缓慢,且受句库大小的影响较大; 而正式版的速度受句库 容量大小的影响很小,无论是小型还是大型句库,都能高速运行; 可见正式版的功能远比试用版强大.3结论句库经过以上“拆分、“去重和“删除杂质三大方法 处理后,质量可以得到较大的提升.止匕外,软件还有将句库中的 汉字繁体转换成简体及Excel格式转换等处理功能,可以满足多 用途的需要.但是另一方面,限于目前的人工智能水平,句库中 的错译、对齐错乱、译文不完整等缺陷问题,尚未解决,需要作进一步的研究和探索.注释 张倩.计算机辅助译的应用J.鸡西大学学报,2021 (6) : 74. 李毅鹏.从双语平行语料库到译记忆库J.鸡西大学 学报,2021 (12) : 63.董爱华.专门用途语料库的建设、应用、问题与开展趋势 J.北京印刷
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 健身俱乐部入股协议书
- 食堂费用补贴协议书
- 高压配电施工协议书
- 集体资金使用协议书
- 长春专利保护协议书
- 面试审查就业协议书
- 资金拨付告知协议书
- 集中斗殴和解协议书
- 跟兄弟分钱写协议书
- 餐厅消防责任协议书
- 2025年消防知识考试题库:火灾预防与逃生逃生技巧实战演练题
- 高速公路占道施工应急安全措施
- 6.3种群基因组成的变化与物种的形成课件-2高一下学期生物人教版必修2
- 成人创伤性颅脑损伤院前与急诊诊治中国专家共识2025解读
- 北京开放大学2025年《企业统计》形考作业4答案
- 广东2025年中考模拟数学试卷试题及答案详解
- GB/Z 27001-2025合格评定通用要素原则与要求
- 中国蚕丝绸文化智慧树知到期末考试答案章节答案2024年浙江大学
- MOOC 学术英语写作-东南大学 中国大学慕课答案
- 市政道路中线测量内容及计算方法
- 南瓜种植PPT演示课件(PPT 46页)
评论
0/150
提交评论