古今汉语平行语料库的语料构建-2019年精选文档_第1页
古今汉语平行语料库的语料构建-2019年精选文档_第2页
古今汉语平行语料库的语料构建-2019年精选文档_第3页
古今汉语平行语料库的语料构建-2019年精选文档_第4页
古今汉语平行语料库的语料构建-2019年精选文档_第5页
已阅读5页,还剩19页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、古今汉语平行语料库的语料构建一缘起“汉语是世界上正在使用的语言中最古老的语种之一。汉语古籍无论是数量还是涉及的范围及其历史跨度,在世界上都是无与伦比的。”灿烂悠久的中国思想文化,通过这些典籍得以保 存、传承,在历经千载的延续过程中,又得后人的认识和研究,融入新的内涵,由此构筑了中国的古代文明。今天,这些承载着中华民族灿烂文明的典籍仍在被广泛地使用着,尤其在人文学科领域的应用价值更是显而易见。同时,随着大众文化水平的提高、经济的发展与对外往来的增加,越来越多的非专业人士希望深入 了解中国传 统的思想文化,但古代汉语与现代汉语之间存在着的明显差异使得很多现代人难以理解以古汉语为载体的传统典籍。有鉴

2、于此,我们提出要建设一个大型、开放的古今汉语平行语料库及其应用平台,为古籍整理和翻译 (含机器翻译或机器辅助翻 译)、古代汉语教学与研究以及辞书编纂提供 基础资源,为需要了解中国传统思想文化的普通读者及相关学科的专家提 供阅读、翻译、检索、统计服务,并为与现有的汉英双语语料库的对接奠 定基础,从而为实现古汉语和英语的翻译(含机器翻译或机器辅助翻译)创造条件。平行语料原指使用不同语言撰写、相互间具有“翻译关系”的文本,本文将其延展为基于同一语言且不同历史时期兼具有“翻译关系”的文本,就汉语而言,即指“古今汉语”。平行语 料库已被 系统地应用到自然语言处理中,包括建立翻译记忆、编纂词典和双语术语表

3、、跨语言信息检索、计算机辅助教学、语言 对比研究等。国外涉及汉 语的平行语料库中影响较大的是与Freiburg-LOB Corpus of BritishEnglish(即FLOB平行对应的汉语语料库 LCM (The Lan caster Corpus of Ma ndarin Chinese )。国内的主要研究有北京大学计算语言学研究所的汉英双语语料库以及北京外国语大学拥有的目前国内最大的双语平行语料库(含汉英和汉日两个库)等1。就目前来看,国内 外涉及汉语的平行语料库基本 上都是现代汉语与外语的平行语料库,鲜见有影响的、大规模的古今汉语平行语料库。就应用层面而言,古今汉语平行语料库的价值

4、主要体现在: 为古今汉语的机器翻译或机器辅助翻译提供基础资源。古今汉语平行语料库中对齐的语料或作为翻译资源使用,或用作翻译统计建模的训练资源。为古汉语教学与古今汉语对比研究提供基础资源。普通用户通过该平台的阅读、翻译、查询功能,既 可以随时获取他们需要的有关古代典籍和文化 的信息,也可以接受系统的古代汉语专业训练。研究人员则可以通过检 索统计在语境中把握特定词或结构的语义和句法特征,观察古今汉语之间的传承关系,归纳古今汉语的发展规律。提高古今汉语辞书的编纂质量和效率。到目前为止,还没有基于大型语料库的古代汉语和现 代汉语辞书问世。该语料库及应用平台的构建将为辞书编纂中经常遇到的字频和词频的统计

5、、字头和词目的确立、书证和 用例的选择、 字义和词义的表述等技术操作提供客观依据,从而 为这类辞书的问世创造条件。与现有的一些语料库相比,古今汉语平行语料库的特点是:两种语料的平行对应性(古代汉语与现代汉语);象的广泛服务对性(普通人群与专业研究人员);实用性!白胸部H直兼顾);通用性(采JXML标注体系);放,窿(可以随时增加语料)。它的建设主要包括语料的构建、组 织与应用平台的开发三个方面语料的构建筹建语料库之初, 首先应考虑的是语料库的建设目标,这样才能决定选择语料的范围、 分布、规模,建立可查询的分类体系,进而采集实际的文本2。这里需要明确的是,我们所说的古汉 语是指文言,即以先秦口语

6、为基础而形成的上古汉语书面语,如诗、书、礼、春秋、老子、 论语、 荀子等所使用的;以及后来历代作者仿古作品中所使用的语言,如两汉诗文歌赋、唐宋散文等。1语料的选择选择语料时要注意语料的代表性和质量。我国历史悠久,文化遗产丰富,用文言记录的典章、制度、史料以及撰写的文学作品多到不可计数。由于时间跨度大(上下三千多年),不同时代、不同体裁的文言作 品,其语言特点有很大差异。最能反映文言原 貌的,莫过于先秦两汉的作品,其次是唐宋以后的仿古文言文。所以,古代汉语的研究对象,应以先秦两汉作品为主,兼及唐宋 以后的仿古文言文。 清朝康熙年间吴楚 材、吴调侯叔侄编选评注 的古文观止,上起东周,下至明末,选古

7、代散文二百二十二 篇;其中,先秦入选七十二篇,唐代入选四十三篇,宋代入选五 十一篇,共占选文的百分之七十以上;先秦散文作为中国古代散文的源头,左传、国语、战国策各有独特的成就,对后世有着深远的影响;古文观止中左传有三十四篇、国语十四篇、战国策十一篇,共占先秦部分的百分之九十五以上。有鉴于此,我们采用了先秦的三部史书左传、国语、战国策的原文(计五十万字)与现代译文(计七 十万字)共约一百二十万字作为古今汉 语平行语料库的首批语料 录入。由于我们建设的是古今汉语平行语料库,因此需要同时考虑 古文原文与今文译文的质量。 古文原文的质量主要由选取的版本 所决定。为 此,我们选择了上海古籍出版社 198

8、3年版黄侃手 批白文十三经中的 左传、1998年版的国语(以四 部备要排印清代士礼居翻 刻明道本为底本, 参校了四部丛刊 影印明代翻刻公序本)与1985年 版战国策(以姚本为底 本,汇集鲍、吴诸人的注文以及清黄丕烈的 战国策札记)作 为古文原文的依据。 今文译文的质量比较难以把 握,也是古今汉 语平行语料库建设的难点。 考虑到语料库的应用目标, 统一采用 直译方式,注重词汇和语法结构的对应,由北京师范大学汉语言文字学专业的研究生负责对已有的译文进行复查和加工。2语料的采集语料的采集有两种方法, 一是通过光电扫描或键盘输入制作 电子文 本,一是利用网络上已有的电子文本,并将其转化为所需 的格式2

9、。我们是在保证质量的前提下采用后一种方式,这样不仅避免简单的重复劳动,又可以降低语料库的建设成本,提高效率。目前网络上已有很多左传、国语和战国策的 免费共享资源,虽然所依据的版本不一、内容不尽相同、格式也 多种多样,但经过处理加工后,可以满足课题 的要求。因此,经 过大量搜集、整理、比较之后,最终择定了三种不同的 电子版来 源,互为补充。需要强调的是,这些电子版均是以前述确定的印 刷本底本作为制作依据的。3语料的格式化除了语料质量, 还应保持语料库中语料存储的规范性。从网上采集的原始语料需加工为统一的格式后才能进入到语料库中。由表1可看出,网上语料的类型多种多样,常见的有HTML、PDF、Wo

10、rd等。这些文档类型的缺点是除了内容以外,还包含了许多页面显示的格式标记。 为了保持语料的纯洁性, 我们将各种语料 统一转化为纯文本(TEXT格式,即 以.txt文件的形式存储, 以借助TEXT文档中不含任何页面显示标记的特 点避免“脏字符”对语料内容的干扰。同时,鉴于这些原始语料所使用的字符集、字体、标点符号以及排版格式也各不相同,需用进行规范化处理,因此我们规定: 语料中的古文原文与注释采用繁体字,译文采用简体字; 使用“宋体方正超大”字符集; 采用现代中文标点符号。(用“代替,用代替线用堀#61531;替,下划波浪线用代替);有文本T律横排版;TEXT文本设置为“不自动换行”;所有行一律

11、左对齐,起始处没有空格;首段是题目,段与段之间空一行;古文原文与今文译文是一句一行(以冒号、句号、感叹号、问号为结束标志);每条注释单独一行,注释号为“ 1,2,”,注释号与注释之间不空格;Q0)摩獭细g注处标明注释号, 注释号同样为“ 1,2,” ;(ii)古文每段段末有段的起 始页码,用中文括号括起,单独占一行。对 于同一语料的两个不同电子来源, 我们采用了Beyond Compare软件自动比对两者的差异,过滤了大部分的错误,再以其中错 误较少的来 源作为底本,进行人工校对,从而大大提高了工作效 率和语料质量。网上下载的原始语料均是以“书”的形式存储的,粒度太大,不易于语料库的灵活应用,

12、需要对语料进行分割与命名。左传是编年体史书,以春秋一万六千余字为经、为纲,而自己为 传、为目,补叙其历史原委的著作;国语是国别体 史书,全书二十一卷,记录了周、鲁、齐、晋、关B、楚、吴、越 八国的史事;战国策也是国 别体史书,分33卷,按东周、西周、秦、齐、楚、赵、魏、韩、燕、宋、 卫、中山的次序,辑 录与十二国有关的史事 497条。为了保持语料分割后 的完整性和相对独立性,我们将语料按篇章级单位存储。国语、战 国策均以史事为篇章级别单位,左传则以君王纪年为篇章级 别单位。每一篇章,又分为古文原文、今文译文与注释三个文件分别存储,篇章级间的对齐关系由相同的文件号实现。同一篇文章的古文原文文件名

13、为Gxxyyzz ,今文译文文件名为 Jxxyyzz ,注释文件名为 Zxxyyzzz。xx 为书号(其中“ 01”表示国语,“02”表示战国策,“03”表示 左传);yy为卷号(左传卷号与卷名按君王谥号,如“ 01表示“卷一隐公”);zz为卷内篇号(左传的篇号即年号,如“ 01”表示“某公 元年”,“00”表 示“前传”,只在“卷一隐公”中有; 国语与战国策的篇号篇 名参考上海古籍出版社 1998年国语与1985年战国策的目 录)。4语料的对齐对于平行语料库而言, 首先要对语料进行各级对齐工作,所谓对齐也就是原文与译文之间互为翻译关系的篇章、段落、句对以致短语、词汇的确定。其中最为重要的是句

14、子一级的对齐,这也是各种应用对平行语料库的一个最基本的需求。更深一层的加 工包括:短语一级与词汇一级的对齐、句法标注、短语标注、分 词、词性标注、注音等3。?句子的对齐要求如上文所述,我们语料库中 TEXT类型的古文原文与今文译 文之间的 篇章级对齐是由相同的文件号来实现的。段落之间的对 齐则是由相同的段落号来实现的。不同于以上两个级别的对齐,句子之间的翻译关系除了基本的“ 1: 1”模式外,还存在“ 1: n”、“ n: 1”与“m n”模 式。为此,我们把互为翻译关系的 原文或译文中的一个或多个句子称为一 个句子对齐单位, 简称句 对。TEXT文档中句子对齐单位之间的翻译关系 是由相同的行

15、号实现的,即文档中独立的一行(注意我们在语料格式化 时是不允 许TEXT文档自动换行的)就是一个句子对齐单位,它可能包含 一个或多个句子。上文提到,在语料的格式化处理中,原译文中的句子都是一句一行,因此现在需要人工进行句子一级的对齐。应该注意的是,文中的标点符号如感叹号、问号、引号、句号、分号等往往会反映原译文之间的翻译关系,需要对齐。止匕外,由于文言文喜用倒装的关系, 翻译时会出现句序问题。 如国语卷六 第一篇中“桓公使T?,如? U叔之言。” 应翻译为“于是照鲍叔 说的那样,桓公派人向鲁国提出要求。 ”也就是 说原文对齐单位中有两个句子a、b,译文对齐单位中也有两个句子 c、 d,且c与b

16、, d与a构成实际的翻译关系;此时,需要人工在译文对齐 单位末尾标上“ ba”,以表明单个句子间的对应关系。如果涉及三个句子间的句序关系,则用“ a”、 b”、“ c”标记,以此类推。?辅助句子对齐工具译文的质量,一定程度上,可以从句子一级的对齐工作得以 体现。 为了保持句子级对齐时的规范性与统一性进而使问题简单化,应尽量使原文的句子对齐单位只包含一个古文句子。但鉴于在句子对齐时经常遇到的以下三种情况: 一句原文对应多句 译文,此时需要将译文的多行合 并;多句原文对应一句译文,此时可能需要将译文的一行分割成多 行;多句原文对应多句译文。因此需要特殊处理。5语料的XML标注作为一种基础资源,语料

17、库应以一种与平台无关的形式存在并支持相对广泛的应用, 从而便于统一管理以及语料的共享与交换4。而纯文本类型的语料由于缺少其内容结构与含义之间联系的标记,难于理解与应用。为了发挥语料库的作用,需要对其进行标注。XML作为一种元标记语言,允许用户定义特定领域的标记来描述文档内容的结构和含义,因此又可以看作一套定义语 义标记的规则。作为基于 W3C定制的开放标准,XML能支持广泛 的应用,从而成为源文档与交换数据的理想格式。同时由于知晓 文档内容的结构与含义(根据 XML的语法规则),所以很容易在XML文档中进行与上下文有关的搜索,提高查全率与查准率。因 此,我们决定采用XMLL乍为古今汉语平行语料

18、库的标注语言。而语料库标注的内容与语料加工的深度及应用的目标有关。表2是我们制定的句子一级对齐的古今汉语平行语料库XML标注规范。由于我们在语料的格式化和句子对齐过程中已经做好了语料的结构化,因此古今汉语平行语料库的XML文档可由对齐后的纯文本格式语料自动生成。鉴于 XML文档的结构和内容是由其语 法定义的,因此XML支持对文档内容的验证。运用 XML模式(XML Schema可以方便地验证文档的有效性。表3是针对表2制定的古今汉语平行语料库的 XML Schema。表3古今汉语平行语料库 XML SchemaV ?xml versio n=1.0 en codi ng=GB2312”?V S

19、chema name=古今汉语平行语料库标注规范”xmlns=urn:schemas-microsoft-com:xml-dataxmlns:dt=urn:schemas-microsoft-com:datatypesV !-属性说明-V AttributeType name=ID出:type=idV !-ID-V /AttributeType V AttributeType name=SN dt:type=ui1v !-序号- V /AttributeType V AttributeType name=PN出:type=ui2/V AttributeType name=SENUM dt:ty

20、pe=ui1default=1/ V AttributeType name=ALC出:type=intdefault=1/ V AttributeType name=COC dt:type=enumerationdt:values= 人名地名待填default= 待填/ V AttributeType name=COA dt:type=stri ng/V!-顶层标签说明-V ElementType name=TEXT content=eltOnly order=seqV attribute type=ID required=yes V !-文本号 V /attribute V element

21、type=TH minOccurs=1 maxOccurs=1/V element type=TB minOccurs=1 maxOccurs=1/ V /ElementType V !-二级标签说明-V ElementType name=TH content=eltOnly order=seqV element type=TYPE minOccurs=1 maxOccurs=1/ V element type=BOOK minOccurs=1 maxOccurs=1/ V element type=VOL minOccurs=1 maxOccurs=1/ V element type=TIT

22、LE minOccurs=1 maxOccurs=1/V element type=PAGE minOccurs=1 maxOccurs=1/V /ElementType V ElementType name=TB content=mixed order=many V element type=PH minOccurs=1 maxOccurs=*/V /ElementType V !-TEXTHEAD 三级标签说明-V ElementType name=TYPE content=textOnly dt:type=enumeration dt:values=原文译文注释/ V ElementTy

23、pe name=BOOK content=textOnly dt:type=enumeration dt:values=国语战国策左传/ V ElementType name=VOL content=textOnly dt:type=string V attribute type=SN required=yesV !-卷号-V /attribute V !-卷名-V /ElementType V ElementType name=TITLE content=textOnly dt:type=string V !-卷内篇号-VV attribute type=SN required=yes/at

24、tributeV /ElementType V !-篇名-V /ElementType V ElementType name=PAGE content=textOnlydt:type=ui2 v !-起始页码-V /ElementType V !-TEXTBODY 三级以下标签说明-V ElementType name=PH content=mixedorder=many V attribute type=SN required=yes v !-文内段落 号-v /attribute V attribute type=PN required=yes V !-段起始页 码-v /attribut

25、e V element type=AL minOccurs=1 maxOccurs=*/V element type=CO minOccurs=0 maxOccurs=*/V /ElementType V ElementType name=AL content=mixed order=many V attribute type=SN required=yes V !-文内句子 对齐单 位号-v /attribute V attribute type=SENUM required=yes V !-对齐 单位内 句子数-v /attribute V attribute type=ALC requi

26、red=yesV !-对齐单V /ElementType 位内句序-V /attribute V element type=SE minOccurs=1 maxOccurs=*/V /ElementType V ElementType name=SE content=mixed order=manyV attribute type=SN required=yes V !-段内句子号-V /attribute V !-句子-V /ElementType V ElementType name=CO content=textOnlydt:type=string V attributetype=SN

27、required=yesV !-段内注释V !-注释类V !-注者-号-v /attribute V attribute type=COC required=yes型-v /attribute V attribute type=COA required=noV /attribute V !-原文中的注释项或注释中对应的注释内容-V /ElementType V /Schema 三语料的组织与应用 大量经过XML标注的语料要如何有效地存储和查询是能否V /ElementType 充分发挥语料作用的关键。 常用方法之一是在成熟的关系数据库系统基础上扩充相应功能, 使其能够胜任XML数据的处理,又称

28、为XML使能数据库5。微软开发的SQLServer 2000和SQL XMLWeb Release提供了强大的XML数据管理功能,这些功能致力 于关系数 据和XML数据之间的映射。可以使用带有批注的 XSD (AXSD)来定义 关系数据的XML视图,以便提供以XML为中心 的方法,从而支持XML 数据的批量数据加载、查询和更新功能。Transact-SQL扩展则提供了以 SQL为中心的方法,以便将关系查询结果映射到XML (使用FOR XML ,以及从XML生成关系视图(使用Ope n XML )。而MS Microsoft SQL Server 2005 除了提供以上的支持,还新增了原生 XML支 持:XML值可以自然 地存储在XML数据类型列中, 而后者可以根据 XML架构集合进行类型化,或者保持非类型化;可将 XML列编入索引; 使用XQuery和XML DML可以支持细粒度的数据操作。从而提供了一种强大的平台,以便针对半结构化和非结构化的数据管理开发功能丰富的应用程序6。鉴于古今汉语平行语料库的用户有普通人员和专业研究人员之分,而不同方向的研究者由于对象与方法的不同,对应用的 需求亦存在差异,综合各类需求并参照国内外有关平行语料库的平台系统,古今汉语平行语料库的平台除了应满足简单便捷、易学易

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论