下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
语块理论视角下英汉商务信访平行语料库的构建
由于国内外的大多数商业交流都是以电子邮件的形式进行的,因此商业电子邮件的翻译已成为一种越来越普遍的翻译形式。面对海量的商务信函文件,依靠传统的人工翻译已不能满足时代需要。机器翻译作为突破语言障碍的重要技术手段,对加速和扩展世界范围内的信息传播具有深远意义,在经济发展和社会生活中日趋重要,成为当前研究的热点之一。1平行语料库的构建商务信函是一种比较正式的公务文书,其一般目的是建立和保持良好的商务关系、获得或发布商务信息、达成合作和交易等。(张新红,李明,2003)我们构建的商务信函平行语料库的语料收集范围为商务业务信函,分为建立业务关系函、产品推销函、资信查询函、询盘函、发盘还盘函、订购函、装运通知函、支付结算函、索赔函、保险函等,这些信函涉及商务活动的全过程。在语料库语言学理论的指导下,我们通过初步建立一个100万词次的英汉双语商务信函平行语料库(包括两个子库:英汉商务信函平行语料库,汉英商务信函平行语料库)。该库为动态的、开放的,可以自动获取服务于机器翻译的知识资源。2语块的提取法语块提取是近年来语料库语言学和机器翻译研究领域的重点课题。濮建忠教授(2003)把语块(chunks)定义为:“语块(词块)是以词形或词为基本单位,由连续或非连续的两个或多个词形或词组合而成的,允许抽象度高于词的单位出现的,有一定使用频率、结构相对完整、能表达一定意义的,有心理现实性的语言形式,以整体形式储存在大脑中,并可作为预制组块供人们提取使用的多词单位。”商务信函中的语言大多是具有一定的言语程式或行话,如:Enclosedpleasefind…(随函附寄……,请查收),cashondelivery(货到付款),等。Sinclair(1991)认为:那些出现频率高的词汇串成了英语中基本的语言单位,大约70%的英语语言由存储于人体大脑的语言板块构成。确定一个多词单位是否为语块,可以从语块的三个重要特征加以界定和区分,即语块共现的频率性、语块储存和提取的整体性、语块可记忆的韵律性。我们在语块理论的指导下,从结构和功能上明确英汉商务信函中的语块特征,从而确定提取的具体对象。商务信函语块可分为4种情况:(1)多词词汇,如:buycheapandselldear,firmoffer,等。(2)习惯搭配,如:…foryourreference,anoffersubjectto…,等。(3)惯用表达式,如:Asrequested,…,Enclosedpleasefind…,等。(4)句型框架,如:Welookforwardtohearingfromyou…,等。为了进行商务信函平行语料库中的语块提取,我们提出了一套特有的提取方法——商务信函语块提取法(如图1所示)。商务信函平行语料库中的语块提取是基于实例的商务信函机器翻译的重要方法,为进一步对大规模各种专业的双语语料利用计算机自动提取语块提出思路和设想。3结构的不含区域分布的对比,引起语义不知所云。产生一个重要的单在商务信函机器翻译研究的探索实践中,我们逐渐认识到,单纯使用一种方法难以处理自然语言中各种复杂现象。所以,我们提出了在统计机器翻译基础上引入特定语法结构的一种方法——并列结构的英汉翻译转换方法。基于商务信函平行语料库,通过句法分析研究并列结构的形式化构成,连接词(若含)的前后管辖范围,内部嵌套情况以及并列结构前后临界搭配的情况,并制定可行句法转换规则。并列结构是最普遍的一种复杂结构,它推动了句子复杂化和简单化的双向活动,但目前的算法对并列结构的处理错误比较严重。英语有许多复杂的句子,它们往往有许多嵌套或者不嵌套的并列结构,翻译系统如果将并列的辖域和层次关系以及前后界限分析错误,就会严重影响翻译的结果。例如,带有连接词“and”的并列结构通,过Google翻译系统的测试,得到如下译文:译文:大家都明白,中国拖鞋在您的市场很受欢迎的高品质及他们的产品和服务竞争力的价格。分析:该译句第一个and的后半部分辖域判断过长,造成错误。可以看出统计机器翻译对并列结构等复杂结构的处理并不理想。即便是在局部翻译处理正确的情况下,结构翻译错误往往会造成整体译文不知所云。我们的研究方法:(1)参照北大双语语料库加工标注规范,利用双语对齐软件以及人工校正达到商务信函平行语料库的句子级对齐。(2)通过基于统计学手段寻找测试语料中的并列结构,确定相当数目的测试集,并按照当代语言学理论以及形式化理论对其分类。(3)将各类测试集送入Google统计翻译系统进行翻译,得出译文,分析错误原因,进行错误归类。(4)将各类测试集送入基于统计的句法分析系统,分析结果,制定规则。经过StandardParser(经典统计句法分析器)的分析,例句的分析结果如下:通过基于统计的句法分析器进行分析,例句中的并列结构分析完全正确。4构建商务信访平行语料库综上所述,平行语料库在商务信函机器翻译中的应用研究具有多方面的意义。(1)它是国家科技支撑子课题—HNC机器翻译引擎转换处理研究的组成部分,为研制HNC经贸机器翻译系统创造必需的条件。(2)它构建的商务信函平行语料库为英汉双语商务信函学习者、翻译学习者及工作者的研究与学习起到辅助作用。(3)它构建的商务信函平行语料库中的语块提取方法,为进一步对大规模各种专业的双语语料利用计算机自动提取语块提出思路和设想。(4)语块提取与并列结构处理为英汉统计机器翻译和机器辅助翻译的译准率提高起到重要作用。原文:Weallunderstandtha
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 华师大版初中科学1.1机械运动(第2课时)
- 算法设计与分析 课件 5.4.2-动态规划-0-1背包问题-动态规划求解
- 2024年江西客运资格证种类
- 2024年客运从业资格证什么样子
- 2024年客运司机从业资格证
- 2024年长沙客运实操考试
- 吉首大学《教师礼仪与修养》2021-2022学年第一学期期末试卷
- 吉首大学《场景速写》2021-2022学年第一学期期末试卷
- 《机床夹具设计》试卷18
- 吉林艺术学院《全媒体新闻写作》2021-2022学年第一学期期末试卷
- 模具设计评审表(开发前)
- 市政工程变更流程资料表格附件
- 与建设单位的协调配合及互相保护措施
- 课程设计——夹套反应釜
- 调节池施工方案范文
- 正比例函数的图象与性质说课稿
- Excel支票打印模板2021
- 自-铣削用量进给量进给速度(精编版)
- 浅谈化工行业建筑施工质量管理
- 技术标书综合说明
- 中国行政区划空白图
评论
0/150
提交评论