




已阅读5页,还剩67页未读, 继续免费阅读
(计算机应用技术专业论文)计算机辅助翻译平台的关键技术研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 ! ! ! ! | ,i i 一i i i i 1 1 _ i i i i e e i ! 摘要 随着计算机技术和通信技术的迅猛发展,人与人之间的时空距离骤然缩短, 尤其是我国加入世界贸易组织( w o r l dt r a d eo r g a n i z a t i o n ,w t o ) 以来,中国人 民与世界人民的距离进一步拉近,全球化进程已使整个世界紧缩为一个“地球村 。 在这个“村落 里,各国人民交流日益频繁,这无疑给翻译领域带来了巨大的商 机。例如,当跨国公司在全球市场上出售其产品时,往往需要将整套的用户手册 翻译成多国语言,以方便各国用户阅读和使用。这些翻译内容往往任务庞大,而 传统的人工翻译手段往往速度非常慢,且容易导致同一个技术术语在不同场合中 有不同的翻译结果,翻译质量很难保证。为了改变传统翻译行业的生产方式,提 高译员的翻译效率和翻译质量,翻译行业进行了大量的信息化建设,其中最引人 注目的是计算机辅助翻译技术( c o m p u t e r - a i d e dt r a n s l a t i o n ,c a t ) 得到了广泛 使用。通过大量实践证明,计算机辅助翻译技术的使用能够大大提高译员的劳动 效率。 目前市场上已经存在的辅助翻译软件,比如t r a d o s 、d 6 j hv ux 等,它们虽 然较好地实现了辅助翻译的理念,但依然存在两个方面的不足:一方面是对中文 支持比较差,不方便中国翻译工作者的使用;另一方面是辅助翻译过程中的每一 步都需要人工的干预,这使得这些软件在降低翻译工作者劳动量、提高翻译质量 等方面的作用时还不能满足广大翻译工作者的需求。 一个成熟的c a t 系统应该有效解决如下三个核心问题: 一致性问题:必须确保同一个专有术语在同一个翻译任务的不同语用环 境有一致的翻译。例如,专有名词“天安门 不能一会翻译为“t i a n a n - m e ng a t e w a y ”,一会又翻译为“g a t eo f h e a v e n l yp e a c e ; 语料匹配问题:对于待翻译的句子或短语,如果在以前的翻译任务中已 经人工给出翻译,或者在背景语料库中已经存在相应的翻译,系统应该 快速给出相应的翻译结果,如果背景语料库不存在完全一致的翻译项, 则应该从背景语料库中找出最相似的翻译项; 任务划分问题:规模较大的翻译任务一般必须由若干翻译工作者协同完 成,因此系统必须按照一定的策略将翻译任务划分为若干互相独立的子 任务,分配给相应翻译工作者。 论文对服务于辅助翻译平台的上述三个关键技术问题进行研究,设计并实现 了一个完整的辅助翻译平台。 其中基于词效应的术语提取算法用于抽取翻译任务中多次出现的有意义的 术语,针对每一个特定的术语给出统一的翻译结果,从而解决翻译一致性问题。 i 北京t 业大学t 学硕十学位论文 实验结果表明:该算法比单纯的基于互信息、t 测试度、接续指数等统计方法在 准确率和召回率上都有较好的表现。 大规模语料匹配算法用于自动从背景语料库中检索出与当前待翻译句子或 短语最相似的翻译项,协助用户翻译。该算法先对背景语料库进行粗匹配,从大 规模的背景语料库中选择一个规模相对很小的候选集合,对候选集合的每一个结 果进行细匹配。粗匹配的速度与语料规模无关,从而大大提高了匹配速度,也保 证了准确率和召回率。 基于任务均衡的翻译任务划分算法用于将待翻译任务划分为若干难度大致 相当的子任务,同时保持子任务的语义完整性,实现翻译团队的协同工作。 关键字辅助翻译平台;术语提取;语料库匹配;难度评估;任务划分 a b s t r a c t a b s t r a c t w i t ht h e d e v e l o p m e n t o f c o m p u t e rt e c h n o l o g y a n dt e l e c o m m u n i c a t i o n t e c h n o l o g y , t h et e m p o r a la n ds p a t i a ld i s t a n c eb e t w e e np e o p l ea r eb e i n gd r a s t i c a l l y s h o r t e n e d m o s to fa l l ,e v e rs i n c ec h i n a se n t r a n c ei n t ot h ew o r l dt r a d eo r g a n i z a t i o n , c h i n e s ep e o p l eh a v en e v e rb e e ns oc l o s e rt oo t h e rp e o p l ea l lo v e rt h ew o r l db e f o r e t h eg l o b a l i z a t i o np r o c e s sh a sc o m p r e s s e dt h ew h o l ew o r l di n t oas m a l l “g l o b a l v i l l a g e ”i nt h i sv i l l a g e ,p e o p l ea l lo v e rt h ew o r l dc o m m u n i c a t ew i t he a c ho t h e rw i t h e v e r - i n c r e a s i n gf r e q u e n c y , w h i c hb r i n g sh u g eb u s i n e s so p p o r t u n i t i e st o t r a n s l a t i o n m a r k e t f o re x a m p l e ,w h e nam u l t i n a t i o n a lc o r p o r a t i o ns e l l si t sp r o d u c t si ns l o b a l m a r k e t ,i tw i l lb en e c e s s a r yt ot r a n s l a t et h em a n u a l si n t os e v e r a ll a n g u a g e s t h i s t a s k i su s u a l l ya r d u o u s ,m a n u a lt r a n s l a t i o nt e n d st ob ei n c o n c e i v a b l e i no r d e rt oi m p r o v e t h et r a n s l a t i o ne f f i c i e n c ya n dq u a l i t y , c o m p u t e r - a i d e dt r a n s l a t i o n ( c a t ) t e c h n o l o g y a r ee x t e n s i v e l ya p p l i e d t h e r ea r eq u i t ef e ws u c c e s s f u lc a ts y s t e m s ,s u c ha st r a d o s ,d 6 j tv ux t w o f l a w sa l ec o m m o ni nt h e s es y s t e m s o no n eh a n d ,t h e ys u p p o r tc h i n e s eb a d l y , w h i c h m a k et h e mq u i t ed i f f i c u l tt ob s ef o rc h i n e s et r a n s l a t o r s o nt h eo t h e rh a n d , m u c h m a n u a li n t e r v e n t i o ni si n e v i t a b l e , w h i c hm a k e st h e m e a t e rl i t t l ef o rt r a n s l a t o r s e x p e c t a t i o n a ne f f e c t i v ec a ts y s t e mm u s ts o l v et h r e ec o r ep r o b l e m s : t r a n s l a t i o n c o n s i s t e n c yp r o b l e m :t h es y s t e mm u s te n s u r et h a tas a m e p r o p e rn a m em u s tb et r a n s l a t e di n t ot h es a m ed e s t i n a t i o nl a n g u a g e f o r e x a m p l e i ti si m p r o p e rt ot r a n s l a t ep r o p e rn a m e “天安门”i n t o t i a n a n m e ng a t e w a y i ns o m ep o s i t i o n s ,a n di n t o “g a t eo fh e a v e n l yp e a c e i n o t h e rp o s i t i o n s c o r p u s m a t c h i n gp r o b l e m :a sf o ras e n t e n c eo rp h r a s et ob et r a n s l a t e d ,i f i th a sb e e nt r a n s l a t e db e f o r e ,o ri ti sc o n t a i n e di nt h eb a c k g r o u n dc o r p u s , c a ts y s t e mm u s tp r e s e n tt h ec o r r e s p o n d i n gr e s u l ta ss o o na sp o s s i b l e i fn o e x a c tm a t c he x i s t s ,t h em o s ts i m i l a ri t e m sm u s tb eg i v e n t a s k - d i v i d i n g p r o b l e m :al a r g et r a n s l a t i o nt a s km u s tb ea c c o m p l i s h e db ya g r o u po fh a r m o n i o u st r a n s l a t o r s ,s oac a ts y s t e mm u s td i v i d et h et a s ki n t o s e v e r a ls u b t a s k sa c c o r d i n gt h es i z eo ft h et e a m t h et h e s i sf o c u s e so nt h e s et h r e ec o r ep r o b l e m s ,ac o m p l e t ec a tp l a t f o r mi s d e s i g n e da n di m p l e m e n t e d ,w h e r e : 1 1 i 北京r 业大学t 学硕十学位论文 ! i_i i i 曼曼量曼曼曼皇曼舅舅曼曼量璺曼量皇皇曼 at e r me x t r a c t i o n a l g o r i t h mb a s e do nt e r me f f e c ti sp r e s e n t e di ns e c t i o n2 t h o s ef r e q u e n tm e a n i n g f u ls t r i n g sa ree x t r a c t e d ,a n das a m et r a n s l a t i o na n s w e ri s g i v e n e x p e r i m e n t ss h o wt h a tt h ea l g o r i t h mo u t p e r f o r m se x i s t i n ga l g o r i t h m ss u c h 弱 m u t u a l - i n f o r m a t i o n - b a s e d ,t - t e s t b a s e d ,c o n c a t e n a t i o n - i n d e x - b a s e da l g o r i t h m s a l a r g e - s c a l ec o r p u sm a t c h i n ga l g o r i t h mr e t r i e v a l sam o s ts i m i l a r 仃a n s l a t i o n w i t ht h eg i v e ns e n t e n c ef r o mt h eb a c k g r o u n dc o r p u s ,w h i c hu s et oa s s i s tu s e r si n t r a n s l a t i o n t h ea l g o r i t h mm a yb ed i v i d e di n t ot w o s t e p s ,ac o a r s em a t c h i n gs t e pa n da f i n em a t c h i n gs t e p o n l yas m a l ls e to fc a n d i d a t em a t c h e sa r es e l e c t e di nt h ec o 锄s e m a t c h i n gs t e p ,w h i c hm a k e st h ef i n em a t c h i n gs t e pa c c e p t a b l e t h ec o a r s em a t c h i n g a c c e l e r a t e st h ea l g o r i t h md r a s t i c a l l y , w h i l ef i n em a t c h i n ge n s u r e st h ep r e c i s i o na n d r e c a l l t h ed i f f i c u l t yo fat r a n s l a t i o nt a s ki sf o r m a l l yd e f i n e d ,a n da l la l g o r i t h m i sw e l l d e s c r i b e d at a s kd i v i d i n ga l g o r i t h mi sp r e s e n t e dt os e p a r a t et h eo r i g i n a lt r a n s l a t i o n t a s ki n t os e v e r a ls u b - t a s k s ,a n de a c hs u b t a s ki so fa l m o s tt h es a l l l e d i f f i c u l t y t h e a l g o r i t h me n s u r e st h es e m a n t e m ei n t e g r i t y , s ot h a tt r a n s l a t i o nt e a mm a yc o o p e r a t e w i t he a c ho t h e rb e t t e r k e y w o r d sc o m p u t e ra s s i s tt r a n s l a t i o np l a t f o r m ;t e r me x t r a c t i o n ;c o r p u sm a t c h i n g ; d i f f i c u l t ya s s e s s m e n t ;t a s kd i v i d i n g i v 独创性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研 究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他 人已经发表或撰写过的研究成果,也不包含为获得北京工业大学或其它教育机构 的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均 已在论文中作了明确的说明并表示了谢意。 虢耻吼掣 关于论文使用授权的说明 本人完全了解北京工业大学有关保留、使用学位论文的规定,即:学校有权 保留送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部或部 分内容,可以采用影印、缩印或其他复制手段保存论文。 ( 保密的论文在解密后应遵守此规定) 签名:导师签名:日期: 第l 章绪论 1 1 课题背景 第1 章绪论 随着计算机技术和通信技术的迅猛发展,人与人之间的时空距离骤然缩短, 尤其是我国加入世界贸易组织( w o r l dt r a d eo r g a n i z a t i o n ,w t o ) 来,中国人民与 世界人民的距离进一步拉近,全球化进程已使整个世界紧缩为一个“地球村,【1 1 。 在这个“村落 里,各国人民交流日益频繁,这无疑给翻译领域带来了巨大的商 机。例如,当跨国公司在全球市场上出售其产品时,往往就需要将整套的用户手 册翻译成多国语言,以方便各国用户阅读和使用。2 0 0 8 年北京奥运会的成功举 办,使得北京成为举世瞩目的国际大都市,越来越多的国际友人希望通过各种渠 道了解中国,感受中国灿烂的文化、深厚的历史底蕴、淳朴的民风民俗【2 】。为扩 大中国的世界影响,我国各级政府和部门也都希望让更多的人了解中国。为减少 语言障碍,大量的包含中国文化、中国历史、中国风土人情的信息比如旅游景点、 名胜古迹都需要翻译成各国文字,这些翻译内容往往任务庞大,而传统的人工翻 译手段往往速度非常慢,且容易导致同一个技术术语在不同场合中有不同的翻译 结果,使得翻译质量很难得到保证。 国际权威机构针对世界翻译市场的调查显示,翻译市场的规模在2 0 0 0 年已 经上升到1 3 0 亿美元,2 0 0 5 年将达到2 2 7 亿美元,其中中国的翻译市场将达到 2 0 0 亿人民币。随着互联网应用范围的扩大和国际电子商务市场的日渐成熟,到 2 0 0 7 年,网页的翻译业务将达到1 7 亿美元的规模p j 。 目前,我国翻译能力严重不足,翻译市场的规模虽然已超过1 0 0 亿人民币, 但是国内现有的翻译公司只能消化1 0 左右。传统的翻译工作模式已经难以满足 日益高涨的翻译需求,由于无法消化大量国际上的信息流,我们有可能在国际竞 争中失去大量的商业机会。为了提高翻译工作者的劳动效率,改变翻译行业的传 统生产模式,需要对翻译行业进行全面的信息化建设,多语言机器翻译技术将可 能改变我国这种翻译能力严重不足的局面。 目前翻译信息化技术已经从各个方面深入到我国的翻译企业中,从翻译过程 中使用的文字处理技术、语音输入技术、各类电子辞典、术语库和语料库、计算 机辅助翻译工具和全文检索工具,到整个翻译企业范围的远程翻译、术语和语料 数据的维护和管理、项目数据记录和管理、远程项目管理、在线翻译和客户在线 进度查询等,都以前所未有的广度和深度提高了翻译的劳动效率,改善了翻译成 品的质量和翻译项目的管理水平,实现了翻译劳动生产方式的巨大转变。 在所有的翻译信息技术中,表现尤为突出的是计算机辅助翻译技术( c o m p 北京t q p 大学t 学硕十学位论文 u t e r - a i d e d t r a n s l a t i o n ,c a t ) 。c a t 是机器帮助人来完成翻译的过程【引。c a t 与机器翻译( m a c h i n et r a n s l a t i o n ,m t ) 有着本质的区别。计算机辅助翻译能够 帮助译者在翻译积累的语料库的基础上优质、高效、轻松地完成翻译工作,它必 须在人的参与下完成整个翻译过程;m t 是依靠计算机庞大的存储能力和高效的 计算能力,用计算机实现一种自然语言到另一种自然语言的转换,转换过程中不 需要人的参与【5 】。虽然m t 技术在减少翻译工作者劳动强度方面比c a t 有很大 的优势,但是由于人类自然语言的灵活性和多样性,加上语言歧义和各国文化背 景的差异,导致目前m t 的实用性差强人意。m t 的翻译结果往往令人啼笑皆非 6 1 。例如,有系统把英语句子“t i m ef l i e sl i k ea l la r r o w ( 光阴似箭) 翻译成日语, 然后再译回英语,竟然成为“苍蝇喜欢箭 ;当把英语“t h es p i r i ti sw i l l i n gb u t t h e f l e s hi sw e a k ( 心有余而力不足) 译成俄语后,再译回来竞变成“t h ew i n ei sg o o d b u tt h em e a ti ss p o i l e d ( 酒是好的但肉已变质) 。在目前m t 的翻译结果远远不能 达到人们的翻译要求时,人们更倾向于采用计算机与人交互工作,共同完成翻译 任务,这就是c a t 技术。 c a t 技术的核心是翻译记忆技术 r l ,在翻译人员进行翻译的同时,c a t 则在 后台忙于语料库的更新及检索。这就是所谓的翻译记忆。每当相同或相近的短语 出现时,系统会自动提示用户使用记忆库中最接近的译法。用户可以根据自己的 需要采用、舍弃或编辑重复出现的文本。 c a t 使得繁重的手工翻译流程自动化,并大幅度提高了翻译效率和翻译质 量。在常规的翻译过程中,存在着大量重复或相似的句子和片段。采用人工笔译 哪怕是最简单的句子,也需要再书写一遍。c a t 技术具有自动记忆和搜索机制, 但需要一个大的语料库支持。当用户翻译某个句子时,系统自动搜索语料库,如 果在语料库中有已经翻译过的句子,会自动给出以前的翻译结果;同时,会根据 匹配度,对于相似的句子,也会给出翻译参考和建议。c a t 使用的语料库是精 心挑选出来的,是许多优秀译员工作的历史积累,因此与纯人工翻译相比,质量 相同或更好,而且翻译的效率也可大大提耐引。 虽然目前市场上已经存在一些能够在一定程度上辅助翻译工作者完成翻译 任务的辅助翻译软件,比如t r a d o s 、d 6 j hv ux ,它们非常不错的实现了辅助翻 译技术的理念,在一定程度上得到了市场的认可,但是这些软件却普遍存在两个 方面的不足。 1 ) 这些软件并不是专门针对中国用户开发,对中文支持比较差,比如翻译项 目的术语提取,t r a d o s 、d 白av ux 完全不能用来提取中文术语,甚至连 中文标点符号都不能识别,导致中国用户在使用这些软件时非常不方便; 2 ) 软件的工作流程复杂,使用非常麻烦,必须对译员进行专业化的软件培训 后方可熟练使用这些软件辅助翻译。因为使用这些软件进行辅助翻译时, 第l 章绪论 皇鼍曼皇曼曼曼曼曼曼曼曼曼曼曼曼曼曼曼曼量曼曼曼曼曼曼蔓! 曼曼鼍量曼皇曼曼曼曼皇曼曼曼! 舅! 皇量曼量曼皇曼皇_i 查ii 薯 许多步骤比如术语提取、任务划分、语料库匹配都需要译员亲自动手操作, 加重了译员的工作负担。 1 2 课题来源 2 0 0 7 年4 月,首都信息发展股份有限公司( 以下简称首信公司) 正式签约成为 北京奥运会多语言服务供应商,担任了建设北京2 0 0 8 年奥运会多语言综合信息 服务项目奥运综合信息服务系统r o n e a s e 。该项目为北京奥运会观众、注 册人员和赛时来京的国内外旅游者提供多语言的奥运和城市方面的综合信息,方 便人们观看奥运会比赛、了解北京奥运会,以实现“2 0 0 8 年基本实现任何人在任 何时间、任何场所都能够安全、方便、快捷、高效地获取可支付得起的、丰富的、 无语言障碍的、个性化的信息服务”的申奥承诺,保证北京奥运会的出色承办, 向世界充分展示中国的信息化水平和成就,提升北京奥运会的形象和国际评价。 r o n e a s e 多语言综合信息服务平台是为满足奥运会的需求而搭建起来的, 同时该项目得到国家8 6 3 计划“嵌入式分布式语音技术在城市综合信息服务中的 典型应用”的资助。在r o n e a s e 多语言服务平台中,存在大量翻译任务,时间 紧迫,翻译量大、涉及面广,这些给项目带来了极大的挑战。本课题所实现的计 算机辅助翻译平台在r o n e a s e 多语言综合信息服务平台承担了非常重要的角 色,它协助翻译人员快速、高效、准确的完成奥运会中的各种翻译任务。 1 3 研究意义 计算机辅助翻译平台通过计算机的高速计算能力,发现翻译任务中多次出现 的术语和其它专业词汇,并给出统一的翻译结果,能够有效解决传统团队翻译过 程中容易出现的不一致问题,使翻译结果更流畅,可阅读性更好。 计算机辅助翻译平台利用计算机系统庞大的存储能力,能够记忆大量的翻译 结果。当待翻译项在背景语料库中已经存在,或待翻译项在背景语料库存在相似 结果时,可以为翻译工作者提示背景语料库中已有的翻译结果或相似的翻译结果, 从而减少翻译工作者的劳动量,提高翻译的质量。 计算机辅助翻译平台与翻译企业的人力资源相结合,直接服务于翻译项目的 各个方面。对于翻译企业来说,计算机辅助翻译平台不仅仅是一个计算机辅助翻 译软件,更重要的是它能把翻译项目和企业的人力资源进行结合,进行翻译项目 的自动分配,从而十分轻便的实现多译员的协同翻译,节省翻译项目管理成本。 对于译员来说,由于辅助翻译平台中辅助翻译的大部分功能都是以流程化的形式 自动完成,所以对译员来说是透明的,译员只用关注自己的翻译工作,无需学习 北京t 业大学t 学硕十学何论文 复杂的软件操作技术,减轻了译员的负担。而且译员的工作也是辅助翻译平台自 动分配的,所以减少了译员之间为协同翻译而沟通的代价。对于翻译项目来说, 辅助翻译平台以任务均衡为基础对翻译项目进行划分,较之于目前流行的划分方 法( 例如基于字数和基于文件的方法) 更加科学,尽可能减少了因任务划分造成 的译员理解困难。 1 5 研究内容和目标 计算机辅助翻译平台因能更好的协助翻译人员快速、高效、准确地完成各种 翻译任务,能大大提高翻译工作者的劳动效率和翻译质量,具有极高的学术价值 和商业价值,因此吸引了学术晁和产业界的大量关注【9 】。下面给出辅助翻译平台 的定义。 定义1 1 ( 计算机辅助翻译平台) :对于一个待翻译项目p ,借助于辅助翻译技 术和译员信息,利用相关翻译的背景语料库c ,协助译员完成项目p 的翻译,并 保证翻译的一致性。 计算机辅助翻译的研究方兴未艾,本文对计算机辅助翻译的三个核心问题进行了 研究,它们分别是翻译一致性问题、语料匹配问题和任务划分问题。为解决翻译 一致性问题,本文提出了一种基于词效应的术语抽取算法;为解决语料匹配问题, 本文提出了一种大规模语料的匹配算法;为解决任务划分问题,本文提出了一种 基于难度的任务划分算法。本文的主要研究内容和创新点如下。 ( 1 ) 术语提取算法 在同一个翻译任务中,必须确保同一个专有名词或术语在不同的语用环境有 _ 致的翻译。例如,专有名词“天安门 如果在有的时候翻译为“t i a n a n m e t l g a t e w a y ,在另一些环境下又翻译为“g a t eo f h e a v e n l yp e a c e ”,则会让读者 误认为是两个不同的门,从而造成歧义或误解。 这个问题被称为翻译一致性问题,一致性问题是翻译工作中最普遍存在的问 题。为了提高翻译质量,减少专有术语翻译的随意性,需要计算机辅助翻译平台 在对待翻译项目进行翻译前,统一抽取翻译任务中的专有术语,并对这些专有术 语给出统一的翻译结果。 本文提出了基于词效应的术语提取算法,该方法用于抽取翻译任务中多次出 现的有意义的术语,针对每一个特定的术语给出统一的翻译结果,从而解决翻译 一致性问题。实验结果表明:该算法比单纯的基于互信息【1 0 1 、t 测试度【1 1 】、接续 指数【1 2 】等的方法在准确率和召回率上都有较好的表现。 ( 2 ) 大规模语料库匹配算法 由于翻译团队工作的积累,将逐步形成大量专有术语、短语、句子或篇章的 第l 零绪论 大家公认的最佳或较佳的翻译结果。这些翻译的积累是翻译团队的财富,但是庞 大的翻译结果也给翻译结果的二次使用带来了挑战。首先,翻译结果数量异常庞 大。往往在千万级甚至上亿的规模时,人工检索几乎不现到1 3 】;其次,从规模 庞大的翻译结果中挑选与当前待翻译项最相似的翻译项更是难上加难,人们难以 做到“眼观八路”,必须借助计算机技术辅助完成这些功能。 对于待翻译的句子或短语,如果在以前的翻译任务中已经人工给出翻译,或 者在背景语料库中已经存在相应的翻译,计算机辅助翻译系统可以快速给出相应 的翻译结果;如果背景语料库不存在完全一致的翻译项,计算机辅助翻译系统也 可以从背景语料库中找出最相似的翻译项,保证翻译任务快速、准确完成【1 4 以6 1 。 本文提出了一种大规模语料的匹配算法,用于从背景语料库中检索与当前待 翻译句子或短语最相似的翻译项,协助译员进行翻译。该算法先对背景语料库进 行粗匹配,从大规模的背景语料库中选择一个规模相对很小的候选集合,对候选 集合的每一个结果进行细匹配。粗匹配的速度与语料规模基本无关,从而大大提 高了匹配速度,也保证了准确率和召回率。 ( 3 ) 任务划分算法 大部分翻译任务,时间要求都非常紧迫,而且内容量大。规模较大的翻译任 务一般必须由若干翻译工作者协同完成,因此系统必须按照一定的策略将翻译任 务划分为若干互相独立的子任务,分配给相应翻译工作者。计算机辅助翻译平台 能够节省译员协同翻译的交流成本,进一步提高翻译速度和翻译质量。 本文提出的基于任务均衡的翻译任务划分算法用于将待翻译任务划分为若 干难度大致相当的子任务,同时保持子任务的语义完整性,实现翻译团队的协同 工作。 1 6 论文的组织 本文对计算机辅助翻译平台的术语抽取、语料匹配、任务划分等关键技术进 行研究,设计并实现了一个完整的辅助翻译平台,本文各章的组织如下。 第一章:介绍课题的背景和来源,分析了课题的研究意义、内容和目标。并 对辅助翻译平台中涉及的关键技术:术语提取、语料库匹配、任务划分进行了简 要介绍。 第二章:介绍了辅助翻译平台中术语提取的背景、术语的相关知识和国内外 术语提取的研究现状。结合辅助翻译平台的需求,论文采用了基于词效应的术语 提取算法,并通过详细的实验验证算法的有效性。 第三章:论述了辅助翻译平台中大规模语料库匹配算法。本章首先讨论了大 规模语料库匹配的研究意义,并对其中的问题进行了详细的分析。然后提出了基 北京t 业大学t 学帧十学何论文 于双步骤筛选语料的大规模语料库匹配算法,最后对算法进行了实验评估。证明 了算法具有较高的时间效率和准确率。 第四章:论述了辅助翻译平台中任务划分和难度评估算法。论文首先讨论了 任务划分的意义和需求,设计了基于任务均衡模型的划分算法。并对算法进行了 试验评估。 第五章:详细介绍了辅助翻译平台原型系统设计与实现,并对其中各个子系 统功能和流程进行了介绍。 6 - 第2 章幕于词效麻的术语提取 第2 章基于词效应的术语提取 在同一个翻译任务中,必须确保同一个专有名词或术语在不同的语用环境 下有一致的翻译,避免翻译歧义或误解的产生。为解决翻译一致性问题,计算 机辅助翻译平台在对翻译项目进行翻译前,需要对翻译任务中多次出现的专有 术语进行抽取,以给出统一的翻译。 本章在简要对互信息、t 测试度、接续指数进行分析后,提出了词效应的 概念,给出了其计算方法,并以词效应为基础,提出了一种基于词效应的术语 提取方法,大量的实验结果表明了该方法的有效性。 2 1 术语提取分析 许多翻译项目不是单个人能够胜任的。比如,在北京奥运会期间,为了让 各个国家的游客能够更好的了解北京,需要翻译北京的各种文化信息,这些翻 译项目翻译量都特别大,往往都在数十万字以上,而且时间要求非常紧迫。为 了完成翻译需求,就需要一个甚至若干个翻译团队协作完成。 在同一个翻译任务中,必须确保同一个专有名词或术语在不同的语用环境 下有一致的翻译。例如,专有名词“天安门 ,如果在有的时候翻译为“t i a n a i l m e ng a t e w a y ,在另一些环境下又翻译为“g a t eo f h e a v e n l yp e a c e ,则会让 读者误认为是两个不同的门,从而造成歧义或误解。若干翻译工作者协作完成 某一个翻译任务时,很容易产生翻译不一致的问题,翻译任务越大,翻译团队 人员越多,翻译不一致的问题就可能越突出。 在同一个翻译项目中对同一术语给出不同的翻译结果,称为翻译不一致。 翻译不一致的形式化描述如定义2 1 : 定义2 1 ( 翻译不一致) :对于翻译项目p ,如果存在术语t ,在p 中的两个位置 i j ( i j ) ,其相应的翻译结果为,v :j ,若v i v j ,则称翻译项目p 存在翻译不一 致。 为了避免翻译不一致所导致的理解障碍,很多大型翻译项目在翻译完成后 都需要花费大量人力和物力进行一致性检查。如果能够对翻译项目中的所有专 有术语进行统一提取,然后给出统一的翻译结果,则可以在译员翻译之前就解 决翻译一致性问题,从而节省翻译资源,提高翻译效率。 北京t 业大学t 学硕十学位论文 术语提取( t e r me x t r a c t i o n ) 是目前国内外的研究热点,主要应用于本体构建、 自动摘要、语言模型和文本分类等领域。在辅助翻译平台中,术语提取不仅仅 用于解决翻译一致性问题,还为翻译项目的自动分类提供了基础。作为中文信 息处理的基础技术,术语提取能够直接应用到信息检索、舆情分析、语料库建 设、词典编纂等领域,其主要应用包括: ( 1 ) 索引词优化 在中文检索系统中,索引词可以是字、词和n g r a m 。以不同的单元做为索 引词,检索效果的差别也较大。从用户输入的检索词来看,某个字很少被检索, 而查询词通常是有确定的具体的语义的词或短语。例如,“计算技术研究所 是 一个完整的查询词,而“计算”或者“技术几乎不会有人去查询。当用户想 搜索大众汽车时输入“大众”得到的搜索结果可能不太准确,包含很多类似“人 民大众、“劳苦大众 这样非大众汽车的信息,而作为术语的“上海大众 具 有语义完整性,能够排除歧义,更准确的描述用户的需求。所以,术语能够应 用到信息检索的查询词修正以及相关搜索分析。【f a g a n1 9 8 7 】 h u l le ta 1 9 7 中表 明,将有意义的短语和词组做为检索索引词,将显著提高检索性甜1 7 , 1 8 】。在e j i a n z h a n g2 0 0 0 将复合词应用到s m a r t 检索系统中,检索结果准确率提高了1 2 【1 9 1 。 ( 2 ) 社会热点挖掘与跟踪 伴随着信息时代的到来,我国的互联网事业发生了翻天覆地的变化,网站 数量、网民数量、网络信息容量等都呈现爆炸性增长。网络热点已经成为社会 政治、经济、文化动态的晴雨表,通过因特网传播的信息包含了网民对当前社 会各种现象的立场和观点,话题涉及政治、经济、军事、娱乐、体育、卫生、 科技、个人生活等各个领域,网络热点最直接、最快速地反映了社会的热点事 件和发展态势。一个术语就是一个线索,就是一个很有价值的社会现象。如“非 典 、“禽流感 、“超女”这些串反映了当时社会上广泛关注的热点事件。所以 挖掘术语可以帮助人们更快更及时地掌握互联网的最新变化,能够与时俱进发 现社会变化趋势,对于国家具有重要的战略意义。 ( 3 ) 信息分析特征提取 向量空间模型中一般采用b o w ( b a go f w o r d s ) 方式表示文档,即以词作为文 本特征,将一篇文档仅仅视为一组词的集合。这种文本表示方式在理论上基于 这样两个关键假设:( 1 ) 文本的特征与特征之间是相互独立的。( 2 ) 文本之间的语 义计算不考虑特征之间的先后次序。该模型认为文档中词条出现的顺序是无关 紧要的,它们对于文本内容的表述所起的作用是相互独立的。但实际语言中词 与词之间不是独立的,而是在语义上往往存在着多义、近义及反义等相关性; 同样的词条的集合,组合顺序不同,其表述的含义也不同。所以很多学者就提 第2 章基于词效麻的术语提取 出了用各种不同粒度的、语义更丰富的、形式更复杂的语言特征来表示文本。 除字和词外,常用的文本特征项主要有短语和语义概念。一些研究用比词粒度 更大的的语言单位做为分类和聚类特征,文本分类【2 0 2 1 1 及文本聚类【捌等多个方 面都被证明能有效提高分类或聚类的性能。所以,本课题的研究对于改善文本 分类和聚类性能具有重要意义。 ( 4 ) 语料库建设 词法切分是中文信息处理的第一步,但中文分词的绝大多数错误是由于对 未登录词的识别错误造成的。本课题术语的提取结果中包含大量的人名、地名、 机构名等命名实体,而这些词在分词过程中做为未登录词经常切分错误。将高 频未登录词添加到分词核心词典,使其实时更新和扩充,能够提高中文分词的 准确率,从而提高中文信息处理的效率。 随着时代的进步和经济的发展,在人们生活的方方面面都不断涌现出大量 的新词。由于新词出现的速度不断加快,新词出现的领域不断增多,使用传统 的人工方法搜集新词语,既耗时又耗力,而且时效性差。如果利用电脑的计算 能力和自动检测方法,可以快速的输出新词候选供人工进行筛选,这大大减轻 了人的负担。在本课题的研究中,新词属于术语的一部分被自动提取出来,从 而促进语料库的自动化建设。 ( 5 ) 专业术语提取和领域词典编撰 每个学科领域都有描述本领域特征的专业术语,在本领域的学术研究和交 流学习中发挥着重要作用。但是这些术语往往跟通用词的含义差别较大,具有 领域相关性,所以很多学科领域都有自己的专业术语词典,如医学用语词典, 计算机术语词典等等。本课题的研究方法直接应用于专业语料,能够产生大量 的该领域关键词,为领域词典编撰提供方便。 2 2 术语的相关知识 一个领域的术语集中体现和负载了该领域的核心知识,每个领域都有其特 有的术语集合和术语体系【2 3 】。如环境保护工作、生态建设、环境质量、保护 工作、严重破坏、构建和谐、建立和完善、扶持政策、环保工作、高污染、 处理设施、环保产业、排放总量、大气污染、化学需氧量、国家环保模范城 市、环境综合整治和环境基础设施建设等都是环境保护领域特有的词汇;c p u 、 存储器、显示器、优盘、笔记本、硬盘、南北桥、动态规划、等都是计算机领 域特有的词汇。术语的抽取将极大方便领域词典的机器编撰,并为实现文本的 机器分类提供依据。 9 北京t 业大学t 学硕十学位论文 术语的变化在一定程度上也反映了社会的发展和变化。自古以来,汉语词 汇就带有特定时代的烙印,必然会从一个侧面反映出社会政治、经济、文化以 及人们价值观念、生活方式的变迁等。比如2 0 世纪五十年代后期到七十年代末, “大跃进”、“大鸣 、“大放 、“大字报 等成为当时人们常挂在嘴边的话语, 反映了当时时代的潮流。“工分”、“粮票 、“布票 等这些词在过去不久的八十 年代,依然是人们耳熟能详的名词,反映了当时物质匮乏等状态。随着改革开 放的深入,新的词语如雨后春笋般涌现在我们的生活之中,比如“政务公开 、 “价格听证会 、“可持续发展”、“数码相机 等,真实地反映了我们社会和经 济的飞速发展以及对外交流的同渐频繁。据统计,2 0 多年来,在我们的社会生 活中,平均每年要产生8 0 0 多个新词语【2 4 】。近年来随着互联网的普遍使用和蓬 勃发展,大量的新词和网络用语更是层出不穷。术语抽取可以帮助人们更快更 及时地掌握社会的最新变化,能够与时俱进发现社会热点变化趋势,对于国家 也具有重要的战略意义。 虽然“术语”的定义在很多文献中都存在,但却一直没有形成统一的定义。 本文采用比较通用的术语工作词汇第1 部分:理论与应用中给出的一系列 定义: 专业领域( s u b j e c tf i e l d ) :专业知识领域。注:专业领域范围的界定同 特定目的有关。 特征( c h a r a c t e r i s t i c ) :一个客体或一组客体特征的抽象结果。注:特 征是用来描述概念的。 概念( c o n c e p t ) :通过对特征的独特组合而形成的知识单元。注:概念 不受语种限制,但受社会或文化北京的影响。 客体( o b j e c t ) :可感知或可想象到的任何事物。注:客体既包括客观 存在并可观察到的事物( 具体的如树木、房屋,抽象的如物价、自由) , 也包括想象的事物。 一般概念( g e n e r a lc o n c e p t ) :对应于具有共性的多个客体的概念。示 例:“行星”。 术语( t e r m ) :在专业领域中一般概念的词语指称。 术语的基本特征包含专业性、科学性、单一性和系统性。冯志伟( 1 9 9 7 ) 指出术语还具有八个特点:准确性、单义性、系统性、语言的正确性、简明性、 理据性、稳定性、能产性【2 5 1 。不同的应用关注术语的不同的方面,考虑到术语 在辅助翻译方面的应用,本文主要讨论术语如下四个方面的特征2 3 1 。 1 ) 术语是领域相关的,即术语一般只在一个或几个特定的领域流通,只 有特定领域的人使用,这与一般
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 卷帘门维修合同协议书
- 中通快递解除合同协议书
- 高新区合同转让协议模板
- 供暖没有协议合同
- 开发合同暂停协议
- 摊位买卖协议合同
- 亚湾游艇租赁协议合同
- 防水涂料代加工协议合同
- 政府培训协议合同怎么写
- 合作股权协议合同
- 农产品食品检验员理论知识竞赛题库
- 山东中医药大学中医学(专升本)学士学位考试复习题
- 精神障碍检查与诊断试题
- 《功能材料概论》期末考试试卷及参考答案,2018年12月
- 【原创】《“备-教-学-评”目标一致性的实施策略》讲座PPT
- 【北师大版】六年级下册数学教学设计-总复习《数的认识》(1)
- 行政事业单位财务管理制度范文
- 中医护理原则和方法
- 机房专用精密空调巡检维护
- 换流站控制保护软件Accel简介
- 动、静平衡原理及平衡方法
评论
0/150
提交评论