两语平行语料库的研究现状与发展趋势_第1页
两语平行语料库的研究现状与发展趋势_第2页
两语平行语料库的研究现状与发展趋势_第3页
两语平行语料库的研究现状与发展趋势_第4页
两语平行语料库的研究现状与发展趋势_第5页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

两语平行语料库的研究现状与发展趋势

双语库比单语库好。双语语料库主要有平行语料库(parallelcorpus)和对比语料库(comparablecorpus)两种形式。平行语料库能同时提取原文和目的语对应译文;对比语料库则包含两个语域或者话题类似的双语语料,即具有可对比性的双语语料。这两种语料库涉及两种语言,因而被广泛应用于双语对比研究、翻译研究与翻译教学等相关领域。平行语料库由于其独特的优势受到国内外研究者的高度关注,从上个世纪90年代开始,国内外的一些机构和研究者开始建设多种类型的平行语料库并进行应用研究。不过,目前国内高校和研究机构建设的平行语料库主要是通用型的平行语料库或文学翻译语料库,以应用文为主体的平行语料库只有某些分支的语料库,如法律平行语料库、旅游平行语料库、商务语料库等。另外,此类研究大多着眼于个别的语言现象或翻译现象。笔者拟构建国内首个具有较大规模的综合性应用文汉英双语平行语料库,并以此为基础,进行更为广泛而系统的应用文文体特征、翻译特征及翻译教学研究。同时,本语料库的建设,对于翻译实务,如机器辅助翻译也具有十分积极的作用。总之,随着国家政治、经济、文化等各项事业的飞速发展以及对外交流活动的日益频繁,对应用文文本的翻译需求也与日俱增,本语料库的建成将能够满足这种需求。这对于国民经济的发展和中外经济、文化的交流将具有积极的推动作用。一、双语平行语料库双语语料库的构建始于上世纪90年代中后期。目前已有若干所大学、研究机构或研究者建立了多种类型的双语平行语料库。在国外,英国曼彻斯特大学科技学院(UMIST)翻译研究中心1995年创建了世界上第一个翻译语料库(TranslationalEnglishCorpus)。该语料库主要收集从各国语言翻译成英语的文本,目前已有上千万词的语料。不过,它并不要求必须双语对齐,因此并不是双语平行语料库,而是对比语料库。在国内,最早建立起较大规模双语平行语料库的是北京外国语大学中国外语教育研究中心,该中心2004年初步建成了“新型双语对应语料库”(含汉英、汉日两个双语平行语料库),规模为3000万词次。在其中的汉英双语平行语料库中,语料文本类型主要有文学类、人文类、社科类和科技类。受国家社科基金重大规划课题资助,该语料库目前正在进行扩展,目标为1亿词次的超大规模综合性通用英汉/汉英平行语料库。另外,一些学者也建设了具有一定规模的综合性通用英汉/汉英平行语料库,如李德俊,主持建设,以汉英词典研编为主要目的,规模为2000万词次的英汉平行语料库;卫乃兴主持建设,以研究探讨英汉对等表达为目的的规模约900万词次的英汉平行语料库。一些机构,如哈尔滨工业大学(英汉双语语料库,40万对)、中科院软件所(英汉双语语料库,15万对)等,也建设了规模不等的英汉/汉英综合性平行语料库。除了综合性通用英汉/汉英平行语料库外,国内学者还构建了一些针对某一特定文本的英汉/汉英平行语料库,如针对特定文学作品的翻译平行语料库,有《红楼梦》汉英平行语料库、莎士比亚戏剧英汉平行语料库、绍兴文理学院的中国古典文学英译双语平行语料库等。专门用途英汉双语平行语料库也是双语平行语料库的重要类型,典型的有商务英汉双语平行语料库、双语旅游语料库、中国法律法规汉英平行语料库等。这些专门用途英汉平行语料库主要为单一用途的语料库,或规模有限,或并未公开、无法获取,因此,有必要建设更为全面、规模更大的开放型应用文平行语料库。双语平行语料库的相关研究可大致分为两大类别:一是探讨如何科学规划、高效构建各种类型的英汉/汉英平行语料库,,,如设计理论、操作程序,包括文本的转换、语料的标注、语料的对齐等。二是双语平行语料库的相关应用研究,主要包括以下几个方面:利用双语语料库进行翻译研究。目前利用双语语料库进行翻译研究已得到广泛重视。双语语料库翻译研究在研究方法上以语言学和翻译理论为指导,以概率和统计为手段,以双语真实语料为对象,对翻译进行历时或共时的研究,因此语料库方法与GideonToury所提出的描写翻译研究有很多交合点。可以说,基于语料库的翻译研究为认识、研究翻译现象提供了新的思路和方法,,因而被广泛应用于翻译研究,尤其是翻译特征研究及对翻译共性的研究,如利用对比语料库探讨翻译汉语的词汇特征、文学翻译中人称代词的显化和变异,以及利用汉英双语平行语料库分析英译汉文本的词类分布、词汇组合等方面的语言特征等。也有考察特定作品翻译特征的研究,如基于《红楼梦》语料库的汉英习语及其翻译研究等。目前基于双语语料库的翻译研究主要是针对文学翻译,不过对非文学翻译的研究也正日益受到关注,如利用双语旅游语料库对旅游宣传文本的翻译研究。在对翻译特征的研究方法方面,除了充分利用语料库技术手段外,也有研究者利用人工分析标注的方法,对文本翻译进行语篇、功能等层次的深入研究。如利用Werlich(P150)提出的平行文本比较模式对文本内部构成规则(internalcompositionrules,即文本构成的基本因素及其组合规则,如开头、顺序形式、文本结构、文本单位和结尾等)进行分析和归纳,挖掘中英文酒店文宣在文本惯例上呈现出的不同特点。另外,也有研究基于双语语料库并结合体裁分析考察专门用途英语翻译。这些研究表明,语料库检索手段与人工标注相结合能更全面、更深入地探讨文本的翻译特征。双语平行语料库也被用于汉英对比研究。这些研究大多利用双语平行语料库进行英汉对比个案研究,如“so…that”的汉语对应结构研究、“把”字句研究、“一……就”的英译对比研究等。基于平行语料库的英汉对比研究有助于深入了解英汉双语转换规律,不仅适用于一些特定的疑难表达,也可用于大规模的双语对等表达提取,尤其是应用文翻译中的术语提取。实际上,基于平行语料库的对等词提取研究目前已成为平行语料库研究的一个热点(如卫乃兴,李文中),这类研究不仅有助于翻译实践,也有助于各种词典的编纂。国内一些机构和研究者还研制了相应的对应表达提取工具和词典编纂辅助工具。这些研究有助于双语语料库资源的有效获取与运用。双语平行语料库在翻译培训、语言及翻译教学,、机器辅助翻译教学等方面也受到了广泛关注。比如通过自建或在线语料库,教师精心设计学习点或学生自主探究学习,通过检索软件在语料库中提取并呈现相关索引,供学生练习和讨论,教师随后作总结,有助于翻译教学。二、语料库的建设语料库构建中最重要的因素是语料的代表性,语料的代表性与语料库的设计目的密切相关。笔者拟构建具有较大规模的应用文汉英双语平行语料库(属于专门用途全文语料库),目前规模约200万字/词(为统计方便,中文部分按字数计算,英文部分按词数计算),中远期规模为600万字/词。本语料库的设计目的主要是进行与应用文相关的双语对比研究、翻译研究及翻译教学与翻译实务研究。下面从语料的构成、选取与录入、整理、对齐、标注等方面分别进行介绍。语料的构成。本研究将应用文定义为“人们在工作、生活、学习中为处理实际事务而写作,有着实用性特点,并形成惯用格式的文本”。具体类别包括新闻文本、广告文本、旅游宣传文本、合同协议、演说词、公文信函、说明书、求职信、公示语、菜谱,等等。与此相应,整个语料库包括7个子库:新闻文本子库、广告文本子库、旅游宣传文本子库、合同协议文本子库、演说词文本子库、公文信函文本子库、其他类型文本子库(包括说明书、求职信、公示语、菜谱等)。本语料库文本类别包括汉语原创文本、对应英语译本、英语原创文本、对应汉语译本4种。根据以上语域类别分层抽样、均衡抽样,使入库语料具有较好的代表性。收录比例注意协调、均衡,英译汉稍多于汉译英。语料的选取与录入。语料的选择决定着语料库的典型性、代表性,因此语料的选择与监控也是语料库建设的关键。语料库所收录的文本绝大部分来源于以下途径:网上的电子文本或CD-ROM光盘,网上数字图书馆,以纸质形式呈现的印刷品、书籍或宣传页等。这些材料都通过互联网下载、格式转换、文本电子扫描、人工录入等各种方式转为TXT文档。由于语言材料数量多,质量难免良莠不齐,这就凸显了语料选取的原则——必须挑选语言质量高的文本。文本若含有明显的语法、用词或印刷上的错误,均不收录;语料选取时应注意译本的质量,力避太过贴近原文句法结构以致僵硬的译文和太过自由的意译,因为本语料库除了用于语言研究外,还会用于教学,严谨选材显得尤为重要。为确保收集的文本质量与内容符合标准,本语料库在建设中实行多层把关制,以甄别、核实文本的代表性。语料的整理。选取好的语料之后,还需对其进行加工处理。对所有的语料都要进行降噪处理,清除杂质、冗余符号等无关信息。有些文本带有插图、照片、标志、字体等非言语因素,是应用文文本中不可缺少的一部分,但在转换成电子文本语料后,这些非言语因素都必须去除,以方便标注和日后检索。作为补偿,将对具有这些特征的文本在其电子文本的篇头和文中进行标注,方便研究者和学习者查找相应的原始文档。语料的篇头标注也是语料整理的重要环节,详细的篇头标注能为所收录语料提供必要的信息,如文本类型、百科分类、篇名、作者名、作者背景、译者名、译者背景、年代、出版信息或其他来源、文本字数、有无非言语因素等。语料的对齐。平行语料库建设过程中很重要的一环是语料的对齐。整理后的中英文语料首先借助Winalign工具,实现以句为单位的粗略对齐,然后人工检查,以方便Paraconc检索。语料的标注。整理对齐后的语料还需进一步做机器自动标注。中文语料用中科院计算技术研究所开发的“汉语词汇分析系统”(ICTCLAS)进行分词处理,以方便进一步检索和研究。为了更深入、更广泛地探索应用文的语篇结构,还对不同类型的文本分别选取少量典型的样本,根据体裁分析方法,基于功能进行语步(move)的人工标注。这种标注有助于揭示应用文文本的语篇构成特色。语料整理对齐并标注后,统一将文本转换成XML格式,方便传播和检索。三、应用汉语支持汉语平行语料库的应用本语料库建成后,将主要用于4个方面的研究。对具体应用类型的对比研究利用本平行语料库,开展基于应用文语料的语言与语言对比研究。既有将应用文作为整体与通用语言的对比研究,也有针对具体应用文类型的分类研究,还可以结合译文,开展英汉双语对比研究,重点考察英汉应用文在词汇、句法、语篇和文体上的共性和差异,以此揭示该文本类型中特有的语言现象和规律。这种基于大量语料的实证研究,相比传统的经验式或感悟式个案研究,具有更高的可信度。应用语言风格表征的策略主要包括微观和宏观两个方面。微观方面,研究翻译转换规律,主要集中于应用文文本翻译过程中词法和句法层面的转换机制,前者如词类转换情况,后者如各种句式的转换情况,特别是应用文英汉互译中汉语某些特有的句式(如无主句、“把”字句、意念被动句等)的转换机制。宏观方面,以实证和量化的方式对应用文翻译的文体、风格、翻译共性等进行研究,根据大量语料对译者个人偏爱的语言表达形式(如词类/标记比率、句子长度、词频、句型、搭配方式、叙事结构等)加以分析,从中发现更有说服力的翻译文体/风格表征及其表现手段。另外,还可对以下问题进行研究:应用文翻译与普通翻译在语言特点上是否存在共性?是否具有另外的特点?这些特点与特定文本类型或特定时期的翻译规范是否有关?定性/定量分析应用文翻译教学及其研究是目前翻译教学中的一个重要环节。本语料库的构建解决了大量应用文语料的存储及其定性/定量分析的问题。基于多维度的研究发现以及较大规模的双语语料库平台,教师可精心设计数据驱动教学(data-drivenlearning),如利用语料库检索软件生成的索引帮助学习者发掘双语转换的规律,从中揣摩职业译员所用的翻译策略,学习他们常用的方法与技巧

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论