语料库中语料的标注_第1页
语料库中语料的标注_第2页
语料库中语料的标注_第3页
语料库中语料的标注_第4页
语料库中语料的标注_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、清华大学学报 (哲学社会科学版)N o .1 20002000 年第 1 期JOU RNA L O F T SING HUA UN IV ERSIT Y第 15 卷(Philosophy and Social Sciences)Vol.15语料库中语料的标注崔 刚 , 盛永梅(清华大学 外语系, 北京 100084)摘 要:语料标注是实现原始语料机读化的关键环节, 也是语料库语言学领域的一个重要研究课题。 本文结合国内外的有关研究成果以及国外的部分大型英语语料库的标注实践, 介绍与讨论了语料标注的原则、 模式以及类型, 以供国内在建设英语语料库的过程中借鉴。关键词:语料库;语料;标注中图分类号

2、:H087文献标识码:B文章编号:1000-0062 (2000)01 -0089 -06一、 引 言语料库从本义来讲可以指任意数量的语篇的集合 , 但是在当代语料库语言学中, 语料库并非语篇的简单堆砌, 它应该具备三个基本的要求(McEnery &Wilson , 1996), 即样本的代表性、 规模的有限性和机读形式化。随着计算机技术的普及与发展 , 机器可读已经成为当今语料库最基本的要求。要实现语料的机读化, 提高语料的利用价值,关键在于语料的标注 。所谓标注, 就是对语料库中的原始语料进行加工 , 把各种表示语言特征的附码标注在相应的语言成分上, 以便于计算机的识读。本文拟结合国内外的

3、有关研究成果 , 就语料库中语料标注的原则、 模式、 类型等问题进行介绍与论述。二、语料标注的原则英国著名语言学家 Leech 是当今语料库语言学的代表人物之一 , 他认为 (1993)语料的标注应该遵循以下七个基本原则:1 .标注附码可以删除 , 可以恢复到原始语料。语料的搜集是一项费时耗力的工作 , 一旦原始语料搜集完成, 应该得到充分的利用。而语料的标注总是带有一定的目的性 , 语料库用于不同的目的, 可能就需要采取不同的标注方法。如果标注附码可以删除, 在想把语料用于其他用途时 , 可以重新进行标注。2 .所作的标注可以单独抽出 , 另外储存 。这一原则实际上与第一条原则基本一致, 从

4、这两个原则来看 , 语料库中语料的标注应该最大限度地增加语料使用的灵活性。上述两个原则要求标注所使用的附码应该具有与语料本身明显不同的特征, 使用者能够很容易地把它们区分开来。3 .语料的最终使用者应该清楚标注的原则和附码的意义 。由于标注过程都是利用附码进行的,而现在还没有一种标准统一的标注附码系统 , 因此 , 目前大多数语料库都配有详细介绍标注原则和附码意义的手册 , 供使用者参考。4 .在语料的使用和说明文件中 , 应该说明标注者以及标注所使用的方法。内容包括语料是采用人工的方式还是计算机自动标注的方式 , 是一个人收稿日期:1999-9 -5作者简介:崔 刚 (1966- ), 男,

5、 清华大学外语系副教授, 博士;盛永梅 (1976 - ), 女, 清华大学外语系研究生.90清华大学学报 (哲学社会科学版)完成还是由多人共同完成 。例如, 有些语料是由计算机自动标注的 , 而计算机对于语言特征的识别能力有限, 有些标注就不尽准确 , 尽管有时经过人工的加工, 也不能完全地消除所有的标注错误 , 使用者了解这一点对于标注附码的理解是非常有用的。5 .应向用户表明, 语料的标注并非完美无缺 , 它只是一种可能有用的工具。不论是人工标注, 还是计算机自动标注, 还是两者的结合, 都有可能产生标注的分歧, 因为标注的过程实际上是对语料中语言单位的特征进行解释的过程, 不同的人可能

6、会有不同的解释结果。6 .标注应该尽量采用被人们普遍接受的中立的模式 。在标注的过程中, 为了方便语料库的使用 , 标注应该采用综合的使用范围广泛的语法理论, 而不是按照使用范围狭窄的某一特定的语法理论。这当然是针对一般的语料库而言, 如果语料被用来验证某一特定的语法理论 , 那就另当别论了 。7 .任何标注模式都不能作为第一标准 。即使有, 也只能通过大量的实践和比较才能得到 。目前, 世界上还没有一种被普遍接受的标注模式。笔者认为, 在标注模式的确定过程中 , 目前比较理想的做法是 , 综合考察已有的各种标注模式, 分析各种模式的长处与短处 , 结合自己语料库的实际应用 , 建立一种折中的

7、标注模式 。上述七个原则, 概括起来只有一点 , 即最大可能的方便标注者和使用者 。实际上 , 语料的标注和使用始终是一对矛盾 。正如丁善信所说 :“从用户的角度, 语料标注得越详尽越好, 而标注者则还需考虑标注的可行性。因此 , 任何标注模式都是二者之间求得的一种妥协的产物。”三、 语料标注的模式从语料库语言学诞生以来 , 人们采用了各种各样的标注模式 , 有些模式正在被越来越多的人接受 , 而其他的一些模式则逐渐被淘汰。目前 , 语料库语言学领域内的许多研究者正在致力于建立一种国际统一的标准标注模式。COCOA 参考系统是一种很早出现的用于从机读语篇中提取词汇索引的计算机系统, 它的一些标

8、注的格式已经被 OCP (Oxford Concordance Pro-gram)所采用 , 而且也被 “朗文 -兰卡斯特语料库” (Long man -Lancaster corpus)、 “赫尔辛基语料库” 等应用于语料的标注之中 。COCOA 系统由两个部分组成 :第一部分是代表语言特征名称的附码 , 例如 , 附码A 代表 “ 作者”, 第二部分是具有该特征的语言单位, 例如 , SHAKESPEAR , 两个部分放置在中括号内。那么 , 一个语篇的作者可以标注为。但是 , COCOA 只能用来标注有限的语篇信息, 例如作者 、 日期、 题目等等 , 并不代表当今语料标注模式的主流。

9、TEI (Text Encoding Initia-tive)被认为 (M cEnery &Wilson , 1996)最能反映当前语料库语言学家致力于建立更具形式化的机读语篇信息编码国际标准的动向 。 “英国国家语料库” (The British National Corpus)等许多大型语料库都采用了 TEI 的标注模式 。TEI 标注模式是由计算语言学学会 (ACL , Association for Computa-tional Linguistics)、 文学与语言学计算协会 (ALLC , Association for Literary and Linguistic Comput

10、ing)和计算机与人文科学学会 (ACH , As-sociation for Com puters and Humanities)等三家学术团体共同参与制订的。TEI 采用 SGM L (Stan-dard Generalized Markup Language)词性标记附码,在此基础上, 又制订了一套详细的规则。根据 TEI 标注模式, 一个语篇包括篇头(header)和篇体两部分。篇头指与语篇有关的背景信息, 包括作者 、 标题、 日期 、 语篇来源、 标注方式等信息, 而篇体是指语篇本身。TEI 标注模式包括附码标记 (tags)和实体参考 (entity refer-ences)两种

11、基本标注方法。一个语篇由许多语言单位构成 , 这些语言单位可以是词 、 句子 、 段落,也可以是一个章节 , 甚至是整个的一部书 。附码标记用中括号标出, 一个语言单位的开始用起始标记 (start tag)中括号标注为 , 中括号内为标注附码, 语言单位的结束用结束标记 (end tag)标注, 结束标记是在中括号内的标注附码的前面加一个斜线, 为 。例如, 一个段落的开始可以标注为 , 而一个段落的结束则可以标注为 。实体参考是一套采用缩略附码对语篇内语言单位的语言特征进行详细标注的方法, 这些缩略附码被称为特征标注系统 (FSD , feature system declaration)

12、, 用 &、;或者 三个附码标出 。例如, 一个常用来标注词性的附码为 vvd , 其中第一 v 表示该语言单位是一个动词, 第二个 v 表示它是一个词汇动词 (lexicalverb), 而不是动词短语, d语料库中语料的标注91表示动词的过去时, 这样 , contained 一词就可以标注为 contained &vvd 、 contained_vvd 或者 contained ; vvd 。一个语篇的总体情况可以用文件类型描述(DTD , document type description)标出。DTD 提供关于语篇所包含的语言单位、 语言单位的组合形式 , 以及标注附码的含义等信息。

13、TEI 标注模式已经为诗歌、 书信、 戏剧等基本文体制订了一套标注的标准 。例如, 对于戏剧来说 , DTD 包含了对剧本中舞台指导、 演员表等语言单位的各种标注附码。而且 DTD 可以直接用于 SGM L 分析系统 , 以便于识别该文件是否可以采用 TEI 模式进行标注 。四 、语料标注的类型语料标注的类型主要包括语篇背景信息、 词性、 词形、 句法分析、 语义、 语篇结构等。1 .语篇背景信息语篇背景信息可以部分地通过文件名反映出来 , 例如 qcea .tag 可以用来表示该文件是 QCE 语料库中经过标注 (tag)的 A 部分 。当然 , 文件名只能反映极少量的语篇背景信息。语篇背景

14、包括标题、 作者 (包括年龄、 性别、 国籍等)、 语篇的写作时间 、 书面语还是口语、 何种变体的语言 (例如 , 是美国英语还是英国英语)、 内容类别 (例如 , 科技 、 宗教、 时事等)、 语料来源 (如出版社的出版物 、 报纸等)等各种信息。这些信息就是指上文所述 TEI 标注模式的篇头, 对于语料的分类与索引是非常重要的 。例如, 如果我们只是对男性作者在80 年代所写的宗教类语篇感兴趣, 我们可以很快地通过对这些信息的标注把相关的语篇检索出来。在篇头的标注中 , 有些语料库采用 COCOA 模式, 有些则采用 TEI 模式。下面是一个采用 TEI模式标注的实例 (M cEnery

15、 &Wilson , 1996 :32):例 1 . Lives of the Saints from the Book of Lismore :an electronic edition Anonymous complied by Elva Johnston First Draft , Revised and corrected.1993 -04 -30 Proof correction by Dr Nicole M eller 上面引用的只是篇头标注的一部分。根据标注的内容, 可以看出, 本部分标注是按照 TEI 标注模式进行的 , 语篇的题目为 Lives of the Saints f

16、rom the Book of Lismore :an electronic edition , 文章的作者不详, 由 Elva Johnston 编辑的第一版 。语篇的标注是在 1993 年 4 月 30 号进行的 , 由 Nicole Meller 博士校对 。2 .词性词性标注有时也被称为语法标注。词性标注的目的是标明语料中各个单词的词性, 例如 , 单数普通名词, 形容词的比较级, 过去分词等。词性标注是整个标注过程的最基础阶段, 标注的结果为进一步的句法分析和语义标注奠定了基础。目前世界上的大型语料库都采用了各自的词性标注附码系统,但是这些系统都有许多共同点。下面是 COBUILD

17、语料所采用的一些主要词性标注附码 :BEBe 的原形BEDBe 的 w ere 形式BEDZBe 的 was 形式BEGBe 的 ING 形式BEMBe 的 am 形式BENBe 的 been 形式BERBe 的 are 形式CC 并列连词CD数词CS 从属连词 DEM 指示代词DODo 的原形DODDo 的过去时DOZDo 的第三人称单数形式DT限定词DTG限定代词DTP形容词性的物主代词EXThereHVHave 的原形HVD Have 的过去式与过去分词 HVG Have 的 ING 形式HVNHave 的过去分词形式92清华大学学报 (哲学社会科学版)HVZHave 的第三人称单数形式

18、IN介词JJ 形容词M D情态动词N EG否定词 notNN 普通单数名词 NNS 普通复数名词 NP 专有名词PN 一般单数人称代词 PPL 反身代词单数形式 PPLS 反身代词复数形式 PPO 人称代词宾格 PPP 名词性的物主代词 PPS 人称代词主格RB副词TO不定式附码UH语气助词 (yes , ugh , um)VB 动词原形 VBD 动词过去式VBG动词的 ING 形式VBN动词过去分词VBZ动词第三人称单数形式WH以 WH 开始的词3 .词形词形标注是指把单词的原形标注出来 , 例如 ,had , has , having 的原形是 have 。词形标注是整个标注过程的重要步骤

19、 , 因为这些信息对于词汇研究和词典编篡尤为重要 。通过词形标注, 我们可以非常方便地统计词汇的使用频率 , 提取单词的各种变化形式以及统计它们的分布情况。现在有一些软件可以自动进行词形标注工作 (Beale , 1987), 下面是一个取自于由 Geoffrey Sampson 等人建立的 SU-SANNE 语料库中进行词形标注的实例, 其中第一栏的附码代表文本, 第二栏表示词性:例 2 .N12:0510g_PPHSlmHeheN12:0510h_VVDvstudiedstudyN12:0510I_ATthetheN12:0510j_NN1cproblemproblemN12:0510k_

20、IFforforN12:0510m_DD22laaN12:0510n_DD222fewfewN12:0510p_NNT 2secondssecondN12:0520a_CCandandN12:0520b_VVDvthought thinkN12:0520c_IOofofN12:0520d_AT1aaN12:0520e_NNcmeansmeansN12:0520f_IIbbybyN12:0520g_DDQrwhichwhichN12:0520h_PPH1ititN12:0520i_VM dmightmayN12:0520j_VB0bebeN12:0520k_VVNtsolvedsolveN12:

21、0520m _+._.4 .句法分析在进行词性与词形标注之后 , 一般都要进行句法分析, 把各种句子的组成成分用各种表示句法特征的附码标注出来。句法分析在目前一般根据语料库的目的等因素而采用不同的语法理论。有些语料库 , 如英国国家语料库 (BNC)、 兰卡斯特 -利兹(Lancaster -Leeds)语料库和英语口语语料库 (Spoken English Corpus)采用成分分析的方法 , 而其它一些语料库则采用功能语法或其它语法流派的理论 。例如 , Claudia sat on a stool .的句子结构可以用树形图表示为 (S =句子 , NP =名词短语, VP =动词短语 ,

22、 PP =介词短语 , N =名词, V = 动词 , P =介词, AT =冠词):例 3 .该句子的结构也可以用一横排的格式来表示,例如 , 英国国家语料库 (BNC)把上述句子标注为(其中包含词性标注):例 4 . S NP ClaudiaNP1 NP VP satVVD PP onII NP aAT1 stoolNN1 NPPPVP S语料库中语料的标注93目前 , 不同的语料库 , 往往采用不同句法结构标注方法。句法分析可以大致分为完全分析 (fullparsing)和骨干分析 (skeleton parsing)两种类型。完全分析的目的在于尽可能详细地提供各种句子结构信息, 而骨干

23、分析则只是提供关于句子的主体结构的信息。下面是两个完全分析和骨干分析的实例 , 其中例 5 取自于兰卡斯特 -利兹 (Lancaster - Leeds) 语料库 , 例 6 取自于英语口语语料库(Spoken English Corpus):例 5 . S Ncs anotherDT newJJ styleNN fea-tureNN Ncs Vzb is BEZ Vzb Ns theATI NN/JJ &w ine -glassNN JJ+orCC flaredJJ JJ +NN/JJ &heelNN Fr Nqw hichWDTNq Vzp w asBEDZ shown VBN Vzp T

24、n Vn teamedVBN Vn R upRP R P w ithINW NP JJ/JJ/NN & pointedJJ JJsquaredJJ JJ NN + andCC chiselNN NN +JJ/JJ/NN & toesNNS NpPTn FrNs S例 6 . S & P ForIF Nthe ATmemebersNN2 P ofIO N thisDD1universityNN L1 NPN P N thisDD1 charterNN1 N V enshrinesVVZ aAT1 victoriousJJ principle NN1 NVS &; ;andCC S + N the

25、ATfruitsNN2 P ofIO N thatDD1 victoryNN1 N PN V canVMimmediatelyRR beVB0 seenVVN P inII N theAT international JJcommunityNNJ P ofIO N scholarsNN2N P Fr thatCST V has VHZRT VFrgraduatedVVN hereRL todayNPVS + 通过比较例 5 和例 6 可以看出 , 例 5 属于完全标注 , 而例 6 属于骨干标注,因为后者中的标注要比前者简单得多 。例如,在例 6 中所有的名词短语均被标注为 N , 而在例 5

26、 的标注中则根据名词短语的类别进行了详细的分类标注。5 .语义语义标注主要包括语言单位的语义特征以及语言单位之间的语义关系。由于语义标注的历史不长 , 人们目前对于标注的内容还没有一致的看法。现在一些语料库研究者正在致力于设计一些语义分析系统, 以便于进行语义标注。在阿姆斯特丹大学, 一些研究者试图利用机读 Longman Dictionary of Contemporary English (Janssen , 1990)中的 “语义场代码” (field code)进行语篇歧义词的区分和单词语义场的确定。Klaus Schmidt 正在带领一个研究小组进行德国中世纪史诗语料的语义分析。Wi

27、lson (McEnery &Wilson , 1996)也在进行类似的语义分析工作 , 下面是取自于 Wilson 研究成果的一则语义分析实例 (00000000 -虚词;13010000-一般植物;21030000 -身体与身体部位;21072000 -施加于物体的具体动作;21110321 -人的服装;21110400 -头饰;23241000 -一般的战争与冲突;312411000 -颜色):例 7 .And00000000the00000000soldiers23241000platted21072000a 00000000crow n21110400of00000000thorns

28、13010000and00000000put21072000it00000000on00000000his00000000head21030000and00000000they00000000put21072000on00000000him00000000a 00000000purple31241100robe21110321在例 7 中 , Wilson 采用了 Schmidt (1993)的语义等级结构 , 在最高的等级中 , 所有的词义被分94清华大学学报 (哲学社会科学版)为三个类别, 分别用数字 1 、 2 、 3 表示 , 1 指代分别进行了介绍,除此之外 , 计算机自动标注也是“

29、世界” , 2 指代 “ 人类” , 3 指代 “人类与世界” ,一个重要的问题,由于陈建生 (1998)曾撰文专门然后 , 各个类别再依次向下一个等级划分, 我们以就此进行了论述,限于篇幅 , 在此我们不再做专门crow n 一词为例来说明这一点, 该词后的语义标注介绍 。语料标注是语料库建设的一个关键性环节,为211104 , 起始数字 2 表示该词的语义属于 “人同时也是语料库语言学的重要研究课题,国外的研类”的范畴, 紧随其后的数字 1 表示第二等级的类究在这一领域已经取得了很大的进展。目前国内的别,属于第一类 “人的物质世界” 的范畴, 后面的许多单位也正在着手或者已经开始建立英语语

30、料二个 1 表示第三等级的类别, 属于第十一类 “一般库, 希望我国的研究者能够在国外研究的基础上,人类需求” 的范畴, 最后的 4 表示第四等级的类根据我国英语教学与研究的实际需要 ,建立一套适别,属于第四类 “头饰” 的范畴。合中国国情的语料标注系统。6 .语篇结构从目前各种语料库的实际情况来看 , 进行语篇参考文献 :结构标注的还不太普遍 。Stenstrom (1984)采用 1Beale , A .T owards a distributional lexicon ,in Garside ,语篇附码对 “伦敦-隆德英语口语语料库” (Lon-R., Leech , G .& Sampson (eds) The Computationaldon -Lund Corpus of Spoken English)进行语篇标Analysis of English:A Corpus Based Approach .Long-注。根据语言单位的语篇功能 , 这些附码被分为man.1987. 2Halliday , M .& Hasan , R .Cohesion in English, Long-16 个类别, 例如 , 道歉 (sorry , excuse me 等)、 留有余地 (kind of , sort of 等)、 问候 (hello , goodman.

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论