语料库的创建与应用_第1页
语料库的创建与应用_第2页
语料库的创建与应用_第3页
语料库的创建与应用_第4页
语料库的创建与应用_第5页
已阅读5页,还剩37页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、语料库的创建与应用管新潮管新潮上海交通大学外国语学院上海交通大学外国语学院2016-11-231)语料库类型)语料库类型2)语料选取原则与操作标准)语料选取原则与操作标准3)语料库规模)语料库规模4)语料句对齐标准)语料句对齐标准5)语料库的制作)语料库的制作6)数据挖掘)数据挖掘7)翻译教学)翻译教学8)翻译研究)翻译研究9)语料的版权)语料的版权10)语料的质量)语料的质量11)语料库与翻译创造力)语料库与翻译创造力12)语料库的应用)语料库的应用1)语料库类型平行语料库:源语文本平行语料库:源语文本+目的语文本目的语文本双语平行语料库:英语双语平行语料库:英语+汉语或德语汉语或德语+汉语

2、汉语多语平行语料库:两种以上语言多语平行语料库:两种以上语言双向平行语料库:英汉双向平行语料库:英汉+汉英汉英单向平行语料库:英汉或汉英单向平行语料库:英汉或汉英1)语料库类型可比语料库:语料具有可比性可比语料库:语料具有可比性单语可比语料库:单语可比语料库:翻译文本翻译文本+原创文本原创文本(政府工作报告英文版(政府工作报告英文版+美美国国情咨文)国国情咨文)双语可比语料库:双语可比语料库:无翻译关系的双语文本无翻译关系的双语文本(德国有限责任公司法和(德国有限责任公司法和中华人民共和国公司法中华人民共和国公司法术语)术语)语料可比性语料可比性1)语料库类型翻译语料库:翻译文本翻译语料库:翻

3、译文本口语语料库口语语料库:标注?(蒙特雷):标注?(蒙特雷)2)语料选取原则与操作标准代表性或影响力原则代表性或影响力原则可及性原则可及性原则时间原则(胡开宝,时间原则(胡开宝,2011:45-46)质量原则质量原则专业分类原则专业分类原则2)语料选取原则与操作标准原文与译文呈一一对应关系;原文与译文呈一一对应关系;原文应具备一定的文笔表现力;原文应具备一定的文笔表现力;译文应符合所在国的阅读习惯和表述要求,译文应符合所在国的阅读习惯和表述要求,同样具备一定的文笔表现力,而且该译文是经同样具备一定的文笔表现力,而且该译文是经过认可的;过认可的;按专题模块汇集语料,使语料文本具有同质按专题模块

4、汇集语料,使语料文本具有同质性;性;选用具有代表性的语料文本;选用具有代表性的语料文本;所选用的每一篇语料文本都是一个完整的单所选用的每一篇语料文本都是一个完整的单元。元。2)语料选取原则与操作标准例如:英汉医学平行语料库例如:英汉医学平行语料库以图书、论文、报告为主,以图书、论文、报告为主,专业方向涉及微生物学、生物化学、解剖学、病理学、药理学、临专业方向涉及微生物学、生物化学、解剖学、病理学、药理学、临床诊断学、内科学、外科学、妇产科学、儿科学、眼科学、耳鼻咽床诊断学、内科学、外科学、妇产科学、儿科学、眼科学、耳鼻咽喉科学、口腔医学、皮肤病学、神经病学、精神病学、感染病学等。喉科学、口腔医

5、学、皮肤病学、神经病学、精神病学、感染病学等。3)语料库规模BNC(Britisch National Corpus):超):超1亿词亿词COCA(Corpus of Contemporary American English):):4.5亿亿词词DWDS( Das Digitale Wrterbuch der deutschen Sprache ):):25亿词亿词3)语料库规模北外汉英对应语料库:北外汉英对应语料库:3000万字词万字词中国法律法规汉英平行语料库:中国法律法规汉英平行语料库:2200万字词万字词莎士比亚戏剧英汉平行语料库:莎士比亚戏剧英汉平行语料库:600万字词万字词英汉医

6、学平行语料库:英汉医学平行语料库:1000万字词万字词英汉科普平行语料库(郭鸿杰):英汉科普平行语料库(郭鸿杰):1000万字词万字词中国英汉平行语料库(王克非):中国英汉平行语料库(王克非):1亿字词亿字词3)语料库规模应用于翻译实践的语料库规模究竟要多大?应用于翻译实践的语料库规模究竟要多大?4)语料句对齐标准学术研究学术研究翻译实践翻译实践句子单位句子单位4)语料句对齐标准英文原文与中文译文的句子对齐以一一对应为主,但也允许语句一英文原文与中文译文的句子对齐以一一对应为主,但也允许语句一对多或多对一等情况的存在。对多或多对一等情况的存在。一般以句号、分号、问号等为分句标记,但总有例外情形

7、存在。这一般以句号、分号、问号等为分句标记,但总有例外情形存在。这里最为重要的是,里最为重要的是,必须考虑到英文在句法逻辑上是一个完整的单元,必须考虑到英文在句法逻辑上是一个完整的单元,中文语句与之相应匹配中文语句与之相应匹配。5)语料库的制作WORDPDF纸质版纸质版其他格式其他格式5)语料库的制作语料的降噪处理:语料的降噪处理:公式、表格、图片公式、表格、图片“纯纯”文本文本5)语料库的制作对齐工具:对齐工具:WinAlignParaConcAbbyy Aligner等等等等自行开发自行开发TMX-ParaConV5)语料库的制作保存格式:保存格式:例如例如TMX,TXT目的在于多用途目的

8、在于多用途5)语料库的制作TM库的制作:库的制作:1)Word格式(格式(WinAlign,Abbyy Aligner)2)Xliff格式(新建记忆库、更新记忆库等)格式(新建记忆库、更新记忆库等)3)Excel格式(格式(2007版或之前版本,版或之前版本,2009版或之后版本)版或之后版本)TMX Editor5)语料库的制作5)语料库的制作制作语料库的有效方式:制作语料库的有效方式:ABBYY Aligner + 自编软件自编软件 + ParaConc等等6)数据挖掘使用英文或汉语(须经切分)单语导入使用英文或汉语(须经切分)单语导入WordSmith或或AntConc进进行词频排序行词

9、频排序进入双语界面进行检索查询:进入双语界面进行检索查询:ParaConc或或Trados记忆库界面记忆库界面6)数据挖掘6)数据挖掘专业通用词(专业通用词(General Words for Specific Purposes)法律(法律(action, award, damage)医学(医学(normal , management)海洋工程(海洋工程(high, sea)6)数据挖掘Article 14 Anti-Dumping Action on Behalf of a Third Country第第14条条 代表第三国的反倾销代表第三国的反倾销诉讼诉讼( action=law suit

10、)He was awarded $500 damages for injury he suffered in the accident.(award非非“奖励奖励”,是,是“法定裁定法定裁定”)()(damage非非“损坏损坏”,是,是“赔偿金赔偿金”)6)数据挖掘Liver function tests gave normal results.肝功能检验均肝功能检验均无异常无异常发发现。现。normal saline生理盐水生理盐水6)数据挖掘Disease management is an approach to coordinate resources across the health

11、 care.疾病管理疾病管理是一种协调医疗卫生系统资源的是一种协调医疗卫生系统资源的手段。手段。The mortality rate of patients with no change in their antibiotic management抗生素抗生素治疗治疗未改变的患者死亡率未改变的患者死亡率6)数据挖掘The legal status of the waters beyond the territorial seas of States bordering straits as exclusive economic zones or high seas海峡沿岸国领海以外的水域作为专

12、属经济区或海峡沿岸国领海以外的水域作为专属经济区或公海公海的法律地位的法律地位in high sea states can lead to low-cycle fatigue in the pipe在在狂浪海况狂浪海况下可导致管道产生低周期的疲劳应力下可导致管道产生低周期的疲劳应力7)翻译教学一、自主学习:一、自主学习:工具:工具:WordSmith,ParaConc,Trados记忆库记忆库语料库:英汉双向法律平行语料库语料库:英汉双向法律平行语料库7)翻译教学二、翻译质量控制二、翻译质量控制1.72术语确认和检索术语确认和检索搭配检索搭配检索7)翻译教学三、译文文笔三、译文文笔翻译能力翻译

13、能力法律法律 = 医学医学 = 海洋工程海洋工程适应面适应面语料库库容语料库库容8)翻译研究语料库翻译学定义(胡开宝,语料库翻译学定义(胡开宝,2011):):以语料库为基础,以语料库为基础,以真实的双语语料和翻译语料为研究对象,以真实的双语语料和翻译语料为研究对象,以数据统计和理论分析为研究方法,以数据统计和理论分析为研究方法,依据语言学、文学和文化理论及翻译学理论,依据语言学、文学和文化理论及翻译学理论,系统分析翻译本质、翻译过程和翻译现象等内系统分析翻译本质、翻译过程和翻译现象等内容的研究容的研究8)翻译研究翻译共性:普遍性特征翻译共性:普遍性特征译者风格:译者在语言应用上所表现出的特体

14、特征译者风格:译者在语言应用上所表现出的特体特征翻译规范:译者在选择翻译策略时应遵循的规范翻译规范:译者在选择翻译策略时应遵循的规范8)翻译研究例如,显化与隐化例如,显化与隐化显化是翻译文本将源。语文本中隐含的信息或表述不清晰的信息以显化是翻译文本将源。语文本中隐含的信息或表述不清晰的信息以明确的表述表达出来,以方便读者理解。明确的表述表达出来,以方便读者理解。隐化是指源语文本中以词汇手段明示的意义或信息在目的语文本中隐化是指源语文本中以词汇手段明示的意义或信息在目的语文本中隐含于具体语境中。隐含于具体语境中。形式化程度高的语言翻译成形式化程度较低的语言时,隐化趋势递形式化程度高的语言翻译成形

15、式化程度较低的语言时,隐化趋势递增增。8)翻译研究翻译实践研究翻译实践研究9)语料的版权用于研究的语料用于研究的语料例如,香港城市大学例如,香港城市大学用于公开发布的语料用于公开发布的语料公司语料公司语料10)语料的质量出版级别语料出版级别语料机器翻译语料机器翻译语料网络爬虫语料网络爬虫语料10)语料的质量好翻译的定义:好翻译的定义:译文完全转化了原文的含义、表述简洁、易于理解,译文完全转化了原文的含义、表述简洁、易于理解,符合译文所属特定领域的要求以及语言文化方面的习惯表述要求,符合译文所属特定领域的要求以及语言文化方面的习惯表述要求,同时资深译员在译文校订以及专业审读在译文审读时都认为译文已同时资深译员在译文校订以及专业审读在译文审读时都认为译文已无需任何修改。无需任何修改。11)语料库与翻译创造力Kirsten Malmkjr 语料库与译者培养语料库与译者培养外研社外研社200711)语料库与翻译创造力

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论