关于英语语篇结构标注研究综述_第1页
关于英语语篇结构标注研究综述_第2页
关于英语语篇结构标注研究综述_第3页
关于英语语篇结构标注研究综述_第4页
关于英语语篇结构标注研究综述_第5页
已阅读5页,还剩1页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、关于英语语篇构造标注研究综述论文关键词:修辞构造理论篇章构造标注论文摘要:语篇构造标注起步较晚,但以修辞构造理论rst为指导的篇章修辞构造标注最近获得了令人瞩目的成绩。目前,已经建成并公布的篇章构造标注语料库是由美国南加州大学信息科学学院的一个课题小组完成的,由385篇文章组成,是一个大规模、高质量、高一致性的带多层语言学标注信息的参照篇章语料库。语料库建立的主要成就为:确立了如何将语篇切分为根本语篇单位的理论,扩展了修辞关系集,为rst理论的运用提供了广阔的前景。本文综述该语料库建立的研究成果。0.概述随着计算机技术的普及和开展,语料为机器可读成为语料库建立的最根本的要求之一。要到达语料机读

2、化这一目的,关键在于语料的标注。所谓标注,就是对语料库中的原始语料进展加工,把各种表示语言特征的附码标注在相应的语言成分上,以便计算机的识读。语料标注的类型主要包括语篇背景信息、词性、词形、句法分析、语义、语篇构造等。从当前的研究现状来看,虽然语篇构造标注起步较晚,但以修辞构造理论rst为指导的篇章修辞构造标注最近获得了令人瞩目的成绩。目前,已经建成并已公布的篇章构造标注语料库是由美国南加州大学信息科学学院的一个课题小组完成的,由385篇文章组成,是一个大规模、高质量、高一致性的带多层语言学标注信息的参照篇章语料库。在这根底上研究小组还进展了自动篇章标注算法、自动文摘、机器翻译等详细应用工程方

3、面的研究。该参照篇章语料库的建成不但为篇章构造标注建立了理论体系,而且为语篇构造的应用研究开拓了新的领域。本文将综述该参照篇章语料库建立的研究成果。1.理论支撑的建立根据arlsn2001的介绍,用于话语分析的理论有很多,如grz和sidner(1986)ann和thpsn(1987)等都提出了自己的篇章分析理论,但这些理论主要用于单个的文本分析,往往着眼于语篇的某一个方面,如指代关系、语篇的风格、语篇的多维性以及某一理论在语篇中的表达等,很少被用于大规模的语料分析或语料标注。在建立参照语料库时,arlsn2001等研究者将ann和thpsn(1987)提出的修辞构造理论rst用于大批量的语篇

4、标注和语篇分析。他们认为用修辞构造理论rst对语篇进展标注有三点优势:可以同时捕捉到特定文本的交际意图、语义信息和文本本身的特征;先前的研究说明该理论可以使不同的标注者在标注不同的文本时到达一定的统一;用该理论标注的语篇树形图对构建自然语篇生成系统、自动文摘系统、文本测评系统起着关键的作用,也可以用来增强机器翻译的自然性。参照篇章语料库的建成确立了篇章构造标注的理论基矗2.根本语篇单位确实定语篇构造标注的另一成就是确定了英语根本语篇单位。在确定根本语篇单位时,不同的研究者往往运用不同的理论。givn1983认为从句应该成为语篇的根本单位,saks1974认为谈话的话轮应该成为语篇的根本单位,p

5、lanyi1988坚持语篇应该以自然句为切分单位,grsz和sindner1986认为语篇的根本单位应该从语篇的上下文中获取,它是由一定的符号所反映的信息载体,能反映事物的单个状态或部分状态,最有影响的修辞构造理论认为从句应该是语篇的根本单位,不管从句有没有语法标记或词汇标记。然而,在详细标注时,aru等研究者对根本语篇单位有了新的规定:所有有词汇或句法标记的起状语作用的从句都属于根本语篇单位,包括起状语作用的非谓语动词词组;充当主语、宾语、补语的从句不属于根本语篇单位;定语从句、后置的名词修饰短语或将其他根本语篇单位割裂开的从句或非谓语动词短语为内置语篇单位;除此而外,还有一定数量的有明显语

6、篇标记的短语作为根本语篇单位,如由inspitef尽管,ardingt根据等引导的短语。aru的切分方法综合了grsz和sindner1986和ann(1987)和thpsn1987的理论,在确定根本语篇单位时考虑到词汇、句法、语义和在句中的位置等因素。3.修辞关系的扩展当初,ann和thpsn1987提出修辞构造理论时只给出20多种修辞关系,但他们明确指出这是一个开放关系集,既然是开放性的,就意味着读者在给定话语的内部可以定义出其他的关系类型。aru2000根据标注的语料库总结出53种单层核心关系和25种多层核心关系,78种定义关系又分成16个组别,每组都具有一样的修辞功能。就如同当初的定义

7、关系集一样,这些关系覆盖了根本语篇单位、语段乃至整个语篇。通过这些关系,不同层级的语言片段被连接起来,构成一定的抽象形式。4.标注标准和方法的制定为了建立高质量的前后一致的标注标准和方法,arlsn2001等研究者采用人工标注的方法。他们所选用的标注者都是有过标注经历的、从事语篇分析和新闻报道的专业人员。在正式标注之前,他们都承受专门的语篇构造标注培训,培训包括3个阶段。在第一阶段,向标注者介绍修辞构造理论和语篇分析工具。在培训的第二阶段,标注者开场探究语篇构造的特征。在培训的最后一个阶段,标注小组谋求在构建语篇总构造图时保持一致,尽量减少分歧。最终,标注小组研制出两个根本策略用于文献分析并建

8、立相关的语篇构造图。策略之一是对文本的直接分析,可以在页边空白处标出记号,也可以将文献切分成一定的语段并标出记号,根据这些标注建立语篇构造图。以这种方式建立树型构造图,标注者必须预测到随后的语篇构造。然而,其后语段的修辞关系,尤其是较大的语段,可能不是太明显,这就是为什么这一标注策略更适用于短篇文献的标注。另一策略是将文本分析与建立语篇构造两项任务同时进展,很可能是成块地标注而不是循序渐进地一步一步地增加。以这种策略进展标注,标注者一次可以切分很多语篇单位,并为每个自然句建立构造图,然后将相邻的自然句连接起来,构成较大的语段构造树。最终的语篇构造树是通过连接语篇构造中主要语块而建成的。5.标注

9、质量的检验标注质量的控制是通过标注者对标注结果的反复修改和部分随机的自动穿插核实来实现的。为了确保标注语料库的质量,研究小组采取了很多措施,这些措施主要涉及到两个方面,即检验语篇构造树的效度和保持标注者内部的一致性。5.1效度检验效度检验从两个方面进展,即句法和语义。句法检验确保每棵树只有一个根结,并将树与文献进展比照以防句子或语段被遗漏。语义检验主要是关系到核心语段的指派、修辞关系的选择以及语篇构造树的层次。为了保证检验质量,研究小组研制出语篇分析器以及图形扫描仪。所谓图形扫描仪,就是指,在图形环境下,自左而右渐进地为各个篇章单元给出一种最有可能的修辞关系和篇章构造地位。分析器和图形扫描仪经

10、常可以确认出人工检验无法觉察的错误,都可以成功地作用于所有语篇构造树。5.2标注一致性在整个语料库的建立过程中,研究者一直设法保证标注者之间内部的一致性。首先,他们研制出一种算法,该算法可以计算出语篇层级构造的kappa数据。kappa算法曾被广泛地运用于语篇实证研究中,该算法可以测算出研究者在作出分类决策、预测可能性方面的一致性。6.标注语料库的挖掘借助于以rst理论为支撑的语篇标注语料库,研究者可以对语篇进展三个层次的分析,即语篇标记词功能的分析、不同类型的语篇构造图的描绘和比拟、语篇中从句间修辞关系的描绘和比拟。6.1篇章连词的研究篇章连词功能研究一直是理论语言学和计算机语言学研究的主题

11、,而且网络语料库方便了研究者对关联词语的研究,但利用丰富的标注语料库资源进展分析的研究不多。语篇构造标注语料库可以使研究者在多种语境中对关联词进展元语言分析,使人们能理解到它们在语篇中出现的频数、在句中的位置、所发挥的篇章修辞作用、核心性、辅助性等方面信息。例如,研究小组总结了sine和as在语篇中的功能。经研究发现,就这两个词在语篇中出现的频率而言,在语篇中起连接两个根本语篇单位修辞作用的情况只有1/3,因为它们往往在命题层面上发挥作用而不是在语篇层面上。就它们在语篇中发挥的修辞作用而言,as涉及到的关系类型远远地多于sine,但两者所引导的语篇单位往往都处于辅助位置而非核心位置。6.2语篇

12、构造图的描绘和比拟除了lanaster大学的b语料库garside等,1987;biber等,1998,转自arlsn,2001提供的语体或语域研究,以及tdt语料库ayne,2000,转自arlsn,2001提供的话题确认研究之外,能帮助研究者对语篇进展全面分析的语言资源不多。然而,以rst理论为支撑的语篇构造标注语料库,勾画出每一份文献的多层次的语篇修辞构造图,据此可以对构造树的各个层次进展分析。例如,构造树的抽象层面,对修辞关系和文献的内容进展非词汇化的概括,为研究交际意图带来很多方便。又如,语篇研究结果说明在文本的总体框架上新闻类语篇不同于故事类,因为新闻类语篇的构造多呈倒三角形,但这

13、些研究很难解释产生差异的根本性原因。语篇构造树可以弥补这一缺陷,这些树使研究者清楚地看到在实现作者的交际意图时、在表达篇章的互文性时,同样的句式在不同的文本中发挥的作用是不同的,在有的文献中起核心作用,而在有的文献中起辅助作用。事实上,这些构造树很清楚地反映出,即使是同一类型的语篇,随着语境的改变、主题的变化,文本的构造也会发生相应的变化。6.3语篇内修辞关系的研究通过对标注语料库的分析和挖掘,研究者发现从句间的修辞关系在文本中发挥作用的频率是很不一样的。例如,研究者发现“详述-补充修辞关系使用的频率最高,因为作者在表达过程中往往要借助于前面的背景,通过对前面的背景补充说明来阐发新的观点。与此

14、类似的还有列举关系和解析关系。修辞关系的元语言分析使人们能理解到它们在语篇中出现的频数、在句中的位置、核心性、辅助性等方面信息。除此之外,语篇构造树还勾画了修辞关系如何发挥语篇衔接与连接的功能。例如,研究者通过对篇章标注语料库的分析发现,“列举关系不但起到举例的作用,而且在连接平行语篇单位、平行语段和平行语篇时发挥宏大的作用。事实上,这一研究结果验证了halliday和hasan1976的观点,即平行构造是一种语篇衔接手段。6.4应用性研究语篇构造标注语料库为文献检索、自动剖析、自动文摘、自动翻译等提供相关数据,例如,研究小组所设计的在线文件剪接系统。借助于篇章构造标注语料库,研究者发现并非所有的句子都是根本语篇单位,也不是所有的语篇单位都具有一样的作用,有的属于核心的,有的属于辅助的,有的在实现作者的交际意图时、在表达篇章的互文性时发挥关键作用,有的并没有。以此类推,篇章中的词汇、短语也有核心与辅助之别。篇章构造标注语料库可以帮助创立一个以篇章构造为指导、以词汇短语有界和无界合并为手段的文件剪接系统。同时,篇章构造标注语料库帮助创立了一个以篇章构造为指导、以机械文摘为根本手段、再配合消除冗余、可读性加工的综合

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论