语言资源管理 语义标注框架 第6部分:语义标注原则_第1页
语言资源管理 语义标注框架 第6部分:语义标注原则_第2页
语言资源管理 语义标注框架 第6部分:语义标注原则_第3页
语言资源管理 语义标注框架 第6部分:语义标注原则_第4页
语言资源管理 语义标注框架 第6部分:语义标注原则_第5页
已阅读5页,还剩33页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

ICS35.020;01.140.20

CCSA14;L72

中华人民共和国国家标准

GB/TXXXXX—XXXX

`

语言资源管理语义标注框架第6部分:语义

标注原则(SemAFPrinciples)

Languageresourcemanagement—Semanticannotationframework—Part6:Principles

ofsemanticannotation(SemAFPrinciples)

(ISO24617-6:2016,MOD)

(征求意见稿)

在提交反馈意见时,请将您知道的相关专利连同支持性文件一并附上。

XXXX-XX-XX发布XXXX-XX-XX实施

GB/TXXXXX—XXXX

前言

本文件按照GB/T1.1—2020《标准化工作导则第1部分:标准化文件的结构和起草规则》的规定

起草。

本文件修改采用ISO24617-6:2016《语言资源管理—语义标注框架—第6部分:语义标注原则(SemAF

Principles)》。

本文件增加了“规范性引用”一章。

本文件与ISO24617-6:2016的技术差异及原因如下:

——更改了关于数值和量的标注方式(见9.3),由于技术发展,对于数值和量的标注方式采用

ISO24617-11标准中对数值和量的标注方式。

请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。

本文件由全国语言与术语标准化技术委员会(SAC/TC62)提出并归口。

本文件起草单位:

本文件主要起草人:

II

GB/TXXXXX—XXXX

语言资源管理语义标注框架第6部分:语义标注原则(SemAF

Principles)

1范围

本文件规定了以ISO语义标注框架(SemAF)为特征的语义标注方法。本文件简要叙述了为特定的语

义现象类别开发独立标注方案的SemAF策略,目标是在远期合成一个单一、连贯且覆盖面广的语义标注

方案。本文件还特别给出了用于语义标注的抽象句法概念与具体句法概念,对应着ISO语言标注框架中

对标注与表示的区分。本文件描述了上述概念在元模型规范和标注语义解释方面的作用,以便定义一个

有理据的标注方案。

本文件还针对在SemAF各部分定义的标注方案提供了指南,用于处理与之相关的两个问题:a)因标

注方案之间的重叠而可能引起的概念与术语上的不一致,以及b)涉及多个SemAF部分的语义现象(如

否定,情态和计量)的处理方式。本文对以上两个问题均给出了确切实例,并在某些情况下为问题的解

决提供了指导。

2规范性引用文件

下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,

仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本

文件。

本文件没有规范性引用文件。

3术语和定义

下列术语和定义适用于本文件。

3.1

原始数据primarydata

文本或交流行为的电子表示。

示例:文本的数字表示、语音转录、手势或多模式对话。

注:ISO24612将原始数据定义为“语言数据的电子表示”。对于本文件,这个定义并不太合适,因为语义标注

也可以与非语言或多模态数据有关,例如带有伴随手势和面部表情的口语对话,甚至是没有任何伴随语言的手

势和/或面部表情。

3.2

标注annotation

添加到原始数据(3.1)的语言信息,与其表示无关。

[来源:ISO24612:2012,2.3]

3.3

语义标注semanticannotation

包含有关原始数据(3.1)的片段或区域含义的信息的标注(3.2)。

3.4

元模型metamodel

1

GB/TXXXXX—XXXX

用于分析和描述标注(3.2)所涵盖现象的概念及其间关系的示意图。

4目的和动机

4.1目的

本文件的目的,是支持在语义标注框架(SemAF)内建立一套一致且连贯的语义标注国际标准。这一

目的拟通过以下三种方式实现:

首先,明确SemAF各部分国际标准所遵循的研发路径的底层基本原则,这些标准包括当前已发布的

(ISO24617-1和ISO24617-2、ISO24617-4和ISO24617-7),以及即将发布(ISO24617-6)或准

备制定的(ISO24617-8)。该研发路径为语义标注框架提供了方法上的一致性,并有助于确保现有的、

研制中的和未来的SemAF各部分标准之间的相互一致性。

第二,确认SemAF各部分标准间的重叠部分并指出其处理方式。例如语义角色之间发生的时空关系

和对话行为之间发生的话语关系。

第三,确认SemAF多个部分中出现的共性问题(即使涵盖这些问题也只是涵盖了一部分),并在可

能的情况下,就如何解决这些问题提供指导。此类问题举例如下:极性、模态、量化、测量、限定、真

实性、属性和非文字语言的使用。

4.2动机

语义标注利用原始数据的含义信息来提高数据本身的质量。在当前计算语义技术的发展条件下,研

究人员和开发人员往往不太可能支持单独某种现有的语义信息标注形式。此外,语义标注任务的目标往

往不是原始数据的全部含义,而是仅限于某些特定语义现象,如语义角色、话语关系或共指关系。因此,

ISO/TC37/SC4采用了一种策略,在不同的部分分别设计了SemAF标准,为那些当前技术水平能够支持

建立单独标注标准的语义现象类型提供单独的标注方案。这些方案可以随时间进行扩展和组合,发展成

覆盖广泛的语义标注框架。

对于支持可互操作资源开发的标准化标注概念与方案,这种“晶体生长”策略大大推动了其建立进

程,但也由此招致了一定风险:

a)不同SemAF部分定义的标注方案不一定相互一致,尤其是在范围重叠的情况下;

b)如果不同部分中的方案包含不同的观点或采用不同的方法,则可能无法将它们合并成一个覆

盖范围更广的连贯单一方案;

c)有些语义现象不属于任何SemAF部分的范畴,但在某些部分里却不能完全无视,这或将导致

对上述现象的处理不尽如人意。

ISO24617这部分提供的方法论原则和指南,旨在最大限度地降低这些风险。

关于SemAF各部分之间的相互一致性问题,有一点或许值得注意:用于标注时间和事件的ISO

24617-1和用于标注对话行为的ISO24617-2所关注的语义信息种类存在明显差异,这些差异足以容许它

们独立建立起一套定义。对于其他的SemAF部分,例如与语义角色、话语关系和空间信息相关的部分,

它们旨在捕获的信息表现出一定量的重叠,由此产生一个问题:我们能否确保在这些部分中定义的标注

方案相互一致?

SemAF各部分的相互一致性,与不同部分的标注方案之间可能进行的整合有关。例如,使用ISO

24617-1方案(“ISO-TimeML”)标注时间和事件,并结合ISO24617-4方案来标注语义角色,从而连贯一

致地标注出数据中带有时间属性的事件,乃至事件参与者参与事件的方式,这种做法就很可取。考虑到

时间和空间与运动和速度的相关概念相互交织,因此使用ISO24617-7方案对这些空间信息进行标注,

并将它们与前述标注合并,也是一种合理与可取的步骤。更为普遍的是,SemAF各部分的集成将大幅增

2

GB/TXXXXX—XXXX

强个体部分的重要性;最终,只有当各部分定义的标注方案能发展为一个广泛覆盖语义现象的单一方案

时,SemAF的SemAF“晶体生长”策略才真正有用。只有到那时,它才能有效地支持诸如基于文本的问答

或文本语义信息提取等类型的应用,并成为利用机器学习技术自动识别语义现象的基础。显然,这只有

在标注方案相互一致(例如,它们使用相同的事件类型分类)并且在任何情况下(例如,无论时间和空

间对象是被视为事件参与者本身,还是一个事件的外部环境)都保持连贯统一时才有可能。

在对有些不属于(当前)SemAF部分核心问题的现象进行处理时,会出现一些让人无法满意的处理

不完全的情况,对于这一风险,应注意其中的一些现象跨越了多个部分,且对于语义驱动的应用程序甚

为重要。用否定(或者用更普遍的说法:负极)和量化这两个例子就很能说明问题。以ISO-TimeML为例,

设定其目标是支持对事件本身、事件与时间的关系以及时间对象之间的时间关系进行标注,则理想情况

是能处理诸如此类的语句:

(1)约翰每周一都教课。

(2)玛丽今天早上来过两次电话。

(3)约翰每天给家里打两次电话。

句子(1)关涉到一个“教课”事件的集合,每个事件都分别关联着时间对象集合“星期一”中的一

个元素,所以这是一个涉及两个集合的量化案例,一个是事件,一个是时日。同样,句子(2)关涉到一

个包含两次“来电”事件的集合,每次都关联着同一个时间段。句子(3)关涉到一个事件及其发生频率

的集合。

为了处理这种现象,ISO-TimeML对量化的标注作了某些规定,但这些规定并不十分充分[13],也

不能推广到不涉及事件的量化情况。

5简述

ISO在开发语义标注标准方面的一些尝试,是基于若干基本原则进行的,其中一些原则已在参考文

献[14]中作为语义标注的要求进行了阐述,并在参考文献[5]中进一步扩展;其他的则被制定为语言标

注的一般原则,并成为ISO语言标注框架(LAF;参见参考文献[18]和ISO24623-1)的一部分。第6

章便对这两组原则和要求进行了考量。

在设计SemAF框架下语义标注方案时出现了以下几个有关一致性和完整性问题,对应着前文所指

三种有关SemAF“晶体生长”策略的风险:

标注方案之间的一致性:

——方法一致性:在抽象句法和具体句法的区分及其相互关系方面,以及其语义方面,均遵循相

同的基本方法;

——概念一致性:不同的方案均基于兼容的底层观点和有关其基本概念的本体假设,如元模型中

所反映的那样(例如,动词被视为对状态或事件的表示,而非关系);

——术语一致性:出现在不同标注方案中的术语在每个方案中具有相同的含义,且同一术语可跨

方案表示相同的概念。

标注方案集合的完整性:通过多种标注方案的组合引导出一个包含如下特点方案:

——能广泛涵盖各种语义现象,

——在涵盖目标语义现象时没有显著差距,并且

——对于横跨多种组合方案,却不属于方案拟涵盖的核心现象的那些语义现象,能给予妥善处理。

第6章描述了在SemAF部分中定义标注方案的方法框架,以确保方法的一致性。第7章讨论了由于

SemAF多个部分之间的重叠而出现的概念和术语一致性问题,而第8章确定了与跨越现有SemAF部分的

语义现象的标注有关的完整性问题。

3

GB/TXXXXX—XXXX

6标注原则和要求

6.1继承自语言标注框架的原则

使用SemAF时的语义信息标注沿用LAF中形成的语言标注原则。这些原则通常是普适性的,包括:

以统一和符合TEI的方式引用原始数据相关片段,以及原始数据的不同标注层可以通过在层与层之间使

用对峙标注和统一交叉引用而共存。

后一个原则涉及由对峙表示格式来实现的标注层的区分,与SemAF尤为相关,因为它允许将不同

的标注层用于不同类型的语义信息。例如,可以用一层来标注事件、时间和空间,另一层标注语义角色。

原则上,这不仅允许使用相互不一致的层,还允许使用对相同现象采用不同标注方案的替代标注。然而,

SemAF“晶体生长”策略旨在确保各种语义信息的标注方案可以发展为广泛的语义现象的连贯标注方案,

因此,应极力避免在涉及不同SemAF部分的多个标注层级之间出现不一致的情况。

同样与SemAF特别相关的是“标注”和“表示”之间的区别。[18]标注是指添加到原始数据中的

有别于任意特定表示格式的任意语言信息项。表示则是将标注转换后呈现的格式,例如XML表达式。

一般认为,ISO标准定义的是标注层级而不是表示层级。标注和表示的这一基本区别,从方法论的角度

推动了某种语义标注方案的研发,该方案在标注时将标注的“抽象语法”和表示的“具体语法”二者区

分开来。本标准第6条将对这一方法论进行描述。

6.2其他一般标注原则

除了SemAF沿用自LAF的原则之外,其他设计标注方案(特别是作为ISO标准组成部分的那些)

的一般原则也值得一提;其中大部分出现在ISO24617-2对话行为标注标准的开发过程中。

a)理论有效性:标注标准应巩固现有知识,并且相应地,应牢牢植根于标注现象的理论研究。

因此根据这一标准,任何可能在标注中出现的概念都应在科学文献中被确立。

b)经验有效性:标注标准被设计用于标注有记录的经验数据语料库;因此,在一项标准中定义

的标注方案不应包含此类语料库中未发现的理论结构,而应仅包含与经验数据中观察到的现

象相对应的概念。

c)可学习性:要使标注方案在标注语言资源的构建中起到作用,则无论人工标注者还是自动标

注系统都应具备以下可能性:高效地学习如何在可接受的精度应用该方案。

d)通用性:ISO标准的适用范围不可局限于特定的语言、主题领域或应用程序。

e)可扩展性:虽然ISO标准标注方案被设计为独立于语言、独立于域以及独立于应用程序,但

某些应用程序和某些语言可能需要与其他应用程序或语言不相关的特定概念。因此,标注方

案应该是开放的,也就是说,它们应允许对特定语言、特定领域和特定应用程序的概念进行

扩展。

f)完整性:标注标准的设计是为了良好覆盖那些有意启用标注的现象;从这个意义上说,标注

标准中定义的一组概念应该是完整的。

g)可变粒度:实现良好覆盖的方法之一,是纳入具备高度通用性的标注概念以及那些涵盖众多特

定实例的标注概念。因为仅使用一般概念的标注方案不会是最优可用方案,由此引出如下原

则:标注方案应包括具有不同粒度级别的概念。这也有利于其互操作性,因为它为现有标注

方案和标准方案之间的转换提供了更多可能性。

h)兼容性:为了实现替代标注方案之间的映射,从而有助于标注资源的互操作性,在一项标注

标准中宜包含现有标注方案中常见的概念。

6.3语义标注的特定原则

4

GB/TXXXXX—XXXX

文本标注背后的构想,是在原始文本中添加信息以支持对它的理解,这一构想在数字时代之前的很

久以前就已存在。数字资源文本的语义标注也有着类似的目的,即同时支持对人类文本与机器文本的理

解。

因此,不添加任何信息的标注似乎没有什么意义,但下面这个示例使用TimeML对时间表达式进行

标注,似乎就是这样做的[39]

注1:为简单起见,前一句中提到的事件的标注在此被隐藏。

(4)

<timeml>

TheCEOannouncedthathewouldresignasof

<TIMEX3tid=”t1”type=”date”value=”2008-12-01”/>

thefirstofDecember2008

</TIMEX3>

</timeml>

在这个标注中,子表达式<TIMEX3tid=”t1”type=”date”value=”2008-12-01”/>给名词

短语“thefirstofDecember2008”添加了描述这个信息的短语:日期2008-12-01。它未添加任何信

息,而是解释了TimeML中的名词短语。如果标注语言中的表达式具有明确指定的语义,可以由计算机程

序直接用于信息提取和问答等应用程序,或许还有用。遗憾的是,TimeML没有语义。

注2:为此处显示的XML片段提供语义非常简单,但要为整个TimeML提供则非常困难。另见8.3。

前文这种日期标注,有时候确实能添加某些内容,如(5)。从“MrBrewstercalledastaffmeeting

today”这句话中无法获知被提及的事件发生日期;这种情况下,即使是与(4)完全一致的标注,也能提供

有效信息了。

注3:请注意,此处显示的TimeML标注示例是“老式”的,因为TIMEX3元素包裹在带标注的字符串周围。现代

标注方法(例如在ISO-TimeML中)使用对峙表示。

(5)MrBrewstercalledastaffmeetingtoday

<timeml>

MrBrewstercalledastaffmeetingtoday

<TIMEX3tid=t1type=“date”value=“2008-12-01”/>

today

</TIMEX3>

</timeml>

(4)和(5)中的示例说明了语义标注可能具有的两个不同功能:将自然语言表达式重新编码为具

有明确语义的正式标注语言,从而对其进行解释;以及添加上下文信息,从而允许对上下文相关的表达式

进行解释。

语义标注可能具有的第三个功能,是明确言语表达的某些部分在语义上是如何相关的;例如,这一

功能可以给语义角色添加标签,以及指示话语中句子之间未提及的语义关系。请注意,第一个功能预先

假定标注具有明确定义的语义;其他两个功能并不以此为前提,但由于数字语料库中的语义标注在设计

上通常支持解释和推理,因此语义标注可能具有的所有功能都有一个必要条件:它具有明确定义的语义。

与其他语言标注一样,语义标注也可以用于支持语言研究,例如识别句子和文本中的句法和语义模式。

这些考虑引出了语义标注的以下两个原则:

——语义可加性:语义标注将语义信息添加到源数据中,或以形式表示重新表达某些源数据。

——语义充分性:语义标注应具有明确定义的语义,使标注机器可解释。

7SemAF的方法论基础

5

GB/TXXXXX—XXXX

7.1标注方案设计的步骤

标注方案确定哪些信息可以添加到原始数据以及如何表达该信息。从头开始设计标注方案应从对标

注应捕获的信息进行概念分析开始。该分析确定了形成标注构建块的概念,并指定了如何使用这些块来

构建标注结构。这可以分为两个步骤,第一个步骤是建立要标注的现象的概念视图,第二个步骤是通过

以下形式来表达该视图:实体和关系类别的形式规约,以及由这些类别中的元素如何组成标注结构。这

些步骤中的第一步对应于ISO项目中所谓的“元模型”的建立,也就是说,以(UML)图的形式表达要

标注的现象的概念视图。第二步产生的形式规约构成了标注语言的抽象语法。

虽然这两个步骤明确了在标注中能捕获哪些信息,但它们不涉及表示格式的使用,例如XML字符

串、逻辑公式、图形或特征结构;抽象语法从集合论结构(被称作标注结构)角度定义信息规范。标注

结构是两种结构的集合,实体结构和链接结构。实体结构包含一段有关原始数据的语义信息,形式为一

对<m,s>,由一个可标记项(指一段原始数据)和某些语义信息组成。链接结构包含有关两个主要数据

段语义相关方式的信息;例如,在语义角色标注中,链接结构是三元组<e1,e2,Ri>,其中e1是包

含有关事件信息的实体结构,e2是包含有关事件参与者信息的实体结构,而Ri是表示语义角色的关系。

定义标注方案的第三步是对抽象语法所定义的结构进行含义上的规范,即标注结构的语义规范。

第四步,也是最后一步,是定义表示标注结构的格式,例如XML中的序列化。这种格式的表达式的语

义是它所代表的标注结构的语义。总而言之,这种设计标注方案的方法包括四个步骤,和数量充足的反

馈循环。

由这四个步骤组成的方法称为“级联(CASCADES)”:概念分析、抽象语法、语义和用于标注语言

DESign的具体语法。图1是CASCADES方法的可视化,其中的中心概念,即标注的抽象语法与标注结构

的语义规范(而不是它们以特定格式的表示)在参考文献[5]中进行了介绍。

CASCADES方法对于启用系统设计过程很有用,该过程充分关注概念和语义选择,更表层的决策(例

如特定XML属性和值的选择)便是以这些选择为基础。除了支持从头开始设计标注方案外,该方法还

支持改进现有的标注方案。这种支持不仅包括对四个定义明确的设计步骤的区分,还包括采取这些步骤

的程序和指南。这些程序在7.3中进行了概述。但在此之前,先在7.2讨论了如何使用标注方案设计的概

念分析阶段产生的元模型。

概念分析

6

1

抽象语法

说明

25

4

语义

3

定义

具体语法

说明

图1CASCDES方法中的步骤和反馈循环

6

GB/TXXXXX—XXXX

7.2元模型

标注标准的元模型是概念之间关系的示意图,这些概念在分析和描述标注所涵盖的现象时很重要。

多年来,ISO项目中一直在使用两种略有不同的元模型概念,即:

——A:在标准定义文件中提到的最重要概念之间关系的呈现;

——B:被标准化标注中出现的术语所表示的概念之间关系的呈现。

Type-A元模型可以帮助非技术读者更好地理解标注方案;B类是根据方案对标注抽象语法的可视

化表示,可以帮助读者一目了然地看到标注可能包含的信息。(请注意,B类元模型可能是A类元模

型的固有部分。)例如,图2显示了用于语义角色标签的ISO24617-4元模型。这个元模型反映了语

义角色是事态及其参与者之间的关系这一观点;不同的角色对应于参与者参与事态的不同方式。例如,

在“克里斯写了一首诗”中,“一首诗”以结果角色参与了一个事件(即由该事件创建);在“克里斯

改了这首诗”中,“这首诗”涉及受事角色(即受事件影响);而在“克里斯读一首诗”中,“一首诗”

参与了主题角色(即不受事件影响)。因此,语义角色的标注即涉及事态也涉及参与者,事态往往对应

于动词,而参与者通常由名词短语表示。元模型将事态和参与者与源自原始数据文本段的可标记项相关

联。事件的参与者通常是个人,但也可能是属性、数字、数量、命题、个人集合或嵌入的事态,如(6)

中的示例所示。

(6)a.他把他的房子刷成蓝色。

b.双胞胎的出生使孩子数量增加到四个。

c.这个手提箱的重量超过20公斤。

d.约翰相信他能把钱凑齐。

e.玛丽、吉尔和克里斯聚在一起。

f.埃里克和妮可去音乐会了。

主数据有资源可标注

认识参与者

认识可能性

可能性功能作为

参与者参与者

有可能性类型

实体功能作为

eventualityTypeInstantiation

实体语义角色可能性框架

有实体类型

图2语义角色标注的元模型(ISO24617-4)

7

GB/TXXXXX—XXXX

ISO24617-4中,术语“实体”可用来表示事态之外的任何事物;事态中的参与者可以是任何类型

的“实体”,也可以是如(6f)所示的(嵌入)事态。这一事实在元模型中表现为实体和参与者之间的

“entityFunctionsAs”关系以及事态与参与者之间的“eventualityMayFunctionAs”关系。许多语义

角色标记方法(例如PropBank、FrameNet和VerbNet)都使用“事态框架”来指定某一类事态中预期

的语义角色集,并在确定个体语义角色的选择时将事态框架作为一个整体考虑。出于这个原因,元模型

中也包含了事态框架。

这是A型元模型还是B型元模型?以下是根据ISO24617-4给出的一个的标注表示示例(其中

m1是与“女高音”有关的可标记项;m2是与“唱”有关的可标记项,m3是与“一首咏叹调”有关的

可标记项”):

(7)a.女高音唱了一首咏叹调.

b.

<eventxml:id=”e1”target=”#m2”eventFrame=”唱”/>

<entityxml:id=”x1”target=”#m1”/>

<srLinkevent=”#e1”participant=”#x1”semRole=”agent”/>

<entityxml:id=”x2”target=”#m3”/>

<srLinkevent=”#e1”participant=”#x1”semRole=”theme”/>

在这个标注中,事态通过<srLinkevent=”#e1”participant=”#x1”semRole=”agent”/>这样的元素直

接与实体相关联。此处没有一个像元模型那样通过“entityFunctionsAs关系”与实体关联的“participant”

对象。由此可见,这个元模型不仅仅是标注结构的(抽象)语法的可视化表示,更是一个A型模型,

因为它具有标注中未出现的元素。而“事态框架没有像这样出现在标注中”这一事实确证了上述观点;

事态框架可用于语义角色标记过程,但不是作为结果的标注的一部分。

7.3抽象句法、具体句法和语义

如上所述,标注方案的抽象语法根据集合论结构(例如二元组和三元组)指定标注中的信息,例如

三元组<e1,e2,Ri>通过关系Ri将两个参数e1和e2关联起来。更一般地说,这些结构是元素的n元组,这些元

素要么是从一个被称为抽象语法规范“概念清单”的基本概念中提取的基本概念,要么是此类结构的n元

组。

具体的语法规定了标注结构的表示格式,如(7)所示的XML格式,其中像<e1,e2,Ri>这样的三元组由

三个XML元素的序列表示,其中元素<srLinkevent=”#e1”participant=”#x1”semRole=”agent”/>代表

关系,另外两个元素代表两个实体结构。

理想情况下,标注结构的表示格式应该准确表达标注结构中包含的信息。为某个给定的抽象语法定

义表示格式的具体语法如果具有以下属性,则称为理想语法:

——完整性:抽象语法定义的每一个注解结构都可以用具体语法定义的表达式来表示;

——明确性:具体语法定义的每个表示都正好是抽象语法定义的一个注解结构的呈现。

由理想的具体语法定义的表示格式称为理想表示格式。出于完整性考虑,理想的具体语法CSi定义

了一个从标注结构到CSi-表示的函数Fi,出于“明确性”的考虑,还存在一个从CSi表示到标注结构的

-1-1

反函数Fi。如果Ia是定义抽象句法语义的解释函数,则理想格式CSk中表示r的含义由Ia(Fk(r))定义。

由此可见,对于任何两种理想的表示格式CSi和CSj,都有一个保义转换Cij定义为:

-1

(8)Cij(r)=Fj[Fi(r)]

由于表示的含义是它编码的标注结构的含义,因此这种映射是保留含义的。这一点适用于任何理想

的具体语法,因此任何两种理想的表示格式在语义上都是等价的。

8

GB/TXXXXX—XXXX

图3可视化了抽象语法、语义和可替换的理想具体语法规范之间的关系。很明显,由具体语法CSi

-1

定义的给定表示r可以通过以下步骤转换为一个语义等同的表示r’:首先应用函数Fi以确定它编码的标

注结构,并将函数Fj应用到该标注结构,该函数将其编码为格式CSj。

注1:定义理想具体语法的条件要求每个标注结构至少有一个表示(但它们不排除一个标注结构具有多个表示的可

能性;编码函数,如Fj,可为一个给定标注结构分配多个CSi-表示)。如果满足这些条件,则类似于(8)中定

义的转换函数将为一个给定的CSi表示分配一组CSi等效项。

理想的具体句法可以系统地从抽象句法中推导出来,其过程由其针对的具体表示类型决定。例如,

可以使用以下过程构建定义XML表示的具体语法:

注2:为便于说明问题,此处给出的描述有所简化。有关详细信息,请参阅参考文献[7]。

a)为概念清单的每个元素指定一个XML名称;

b)对于每种类型的实体结构<m,s>,定义一个具有以下属性和值的XML元素:

——特殊属性‘xml:id’,其值为元素的标识符;

——特殊属性‘target’,其值代表可标记,m;

——其值表示s的组件的属性。

c)为每种类型的链接结构定义一个具有三个属性的XML元素,其中两个属性的值表示所链接的

实体结构的表示,第三个的值表示它们之间的关系。

F1

理想的具体语法1

-1

F1

-1

FiFi

抽象语法理想的具体语法i

-1

Fj

CijCji

Fj

理想的具体语法j

-1

Fn

Fn

理想的具体语法n

语义

图3标注的抽象语法、语义和具体语法之间的关系

语义标注语义的建议包括TimeML的区间时间逻辑语义[35]、TimeML的基于事件的语义[10]、以及其他

形式化解释时间标注的尝试[27][29]。参考文献[4]和参考文献[11]中提出了一种带有形式语义的语义标注

语言,该形式语义集成了时间信息、语义角色和共指关系。这些提议都涉及一个从标注表示到一阶逻辑

的转换过程,并显示出这种语义很难以一种令人满意的组合方式去定义(这种方式要求表示的转换由该

表示各个部件的转换系统组合而成)(参见参考文献[29])。参考文献[6]中提出的另一种方法将语义

基于话语表示理论(DRT)[24]。与使用一阶逻辑相比,使用形式上与之等效的话语表示结构(DRS)更

具优势,因为这些结构旨在促进其增量构造。这一特性可在标注表示组件系统构建DRS时发挥作用。

这些提议都利用了将XML表示转换为解释逻辑形式的方法。相比之下,CASCDES方法定义的是抽

象标注结构的语义,而不是XML表示。这种语义在参考文献[9]中进行了概述,并利用标注结构由实体

结构和链接结构组成的事实,定义为语义概念的n元组,n元组中元素的重要性由其编码位置(而不

9

GB/TXXXXX—XXXX

是由XML属性命名);此外,通过组合组件实体结构和链接结构的转化,将标注结构以组合方式翻译成

DRS。另见附录A,该方法适用于量化标注。

7.4设计过程中的步骤和反馈

虽然制作CASCADE步骤的过程有助于对那些基础坚实标注方案进行定义,但如果认为可以简单地

通过从概念分析到表示格式规范的线性步骤序列来设计标注方案,却是不现实的。现实的设计过程需要

反馈循环。参考文献[37]介绍了用于开发标注方案的“MATTER”循环,它区分了六个步骤(参见图4)。

在步骤(1)种对标注方案进行初始设计后,即在步骤(2)中对一定数量的原始数据进行标注。生成的

语料库用于应用机器学习并在步骤(3)中训练标注程序。在步骤(4)中,该程序在未标注的语料库上

运行和测试。结果在步骤(5)中被评估,并用于在步骤(6)中决定标注方案中的修订。然后可以为修

改后的方案重复整个循环。

MATTER循环假设标注方案的测试和评估是在机器学习标注程序的帮助下进行的。参考文献[38]中

提出的更通用的设计周期称为“MAMA”周期,它没有做出这种假设,并且仅区分四个步骤:(1)模型,

(2)标注,(3)评估和(4))修订。

在CASCDES方法中,四个设计阶段中的每一个阶段都可能发生反馈循环,如图1所示。首先,抽

象语法的规定是对该流程第一阶段概念分析的形式化,这种形式化可以很好地澄清或改变初步分析的某

些方面。步骤6将形式化的结果反馈到概念分析中。其次,定义了特定的表示格式的具体语法规范,

可能会激发底层抽象语法的调整;步骤4代表过程中的这种反馈。第三,由于抽象语法的语义定义是

检测后者不足之处的好方法,这可以在步骤5中反馈到抽象语法规范中。最后,后两个反馈循环可以

很好地结合起来;如果步骤4中的反馈导致了抽象语法定义的修订,则这将需要修订语义(步骤2),

这可能又会再次反馈到抽象语法规范中(步骤5)。这个循环<2;5>可以重复,直到抽象语法及其语义

达到一个令人满意和稳定的状态,至此方可认为标注满足了语义充分性的要求。此时具体语法应适应这

个抽象语法(步骤3)。

(2)标注(3)训练

(1)模型(4)测试

(6)修订(5)评价

图4标注方案开发的MATTER循环

实际上,如果不与“内部循环”<2;5>结合在一起,进行“外部循环”<4;3>就没有太多意义,因为

它们一起构成了迭代反馈循环<4;<2;5>*;3>。这种反馈循环在应用CASCADES方法改进现有表示格式、检

测和解决语义缺陷以及将现有格式转换为满足ISO语言标注框架和语义充分性要求的标注方案时尤为重

要。在实践中,语义标注的设计通常从现有的表示格式或标注实践开始。在开发ISO标准时,应构建一

10

GB/TXXXXX—XXXX

个符合这些表示格式的抽象语法(具有语义)。从现有实践出发,可以通过遵循迭代反馈循环<4;<2;5>*;3>

步骤使用CASCADES方法,并以抽象语法的重构作为开端。

从TimeML开始,CASCADES方法便以“逆向工程”模式被用于ISO-TimeML的开发过程中。Ide等人(2011)

通过“逆向工程”方法为PennDiscourseTreebank(PDTB)的表示格式设计了一个抽象语法,目的是

为了设计这些标注的GrAF表示形式(Ide和Suderman,2001),并且证明了,即使没有为这个抽象语法

指定语义,也仍能改进PDTB的标注。他们指出,“为PDTB方案创建并以图形形式呈现抽象语法的练习,

能够更清晰地显示出标注的结构。具体语法比原始格式更可读,因此错误和不一致性可以更容易地被识

别出来。”同样,在为PropBank的语义角色标注设计基于GrAF的表示形式时(Palmer等人,2005),他

们注意到现有标注方案在标注各部分之间的关系上存在歧义。在将抽象语法和GrAF的组合思想应用到各

种现有的标注方案中时,Ide和Bunt(2010)评论道,“原始的PropBank编码接近理想的具体语法,因为

它可以从抽象语法生成。然而,回到抽象语法是不可能的,因为需要对标注的各部分之间的关联进行一

些解释才能构建。”

如果把CASCADES的步骤视为MATTER和MAMA循环的模型阶段的实施,把反馈循环视为“修订”阶段的

实施,则CASCADES设计步骤和反馈循环与MATTER和MAMA的开发周期实现了完美融合。对此,MAMA循环增

加了“标注”和“评估”阶段,而MATTER循环在机器学习标注中增加了“训练”和“测试”的额外阶段。

这种集成的一个优点在于澄清了MATTER和MAMA循环中的模型和修订阶段之间的关系。直观地讲,修订现

有的标注方案应涉及与模型阶段的部分相同的活动;CASCADES的各步骤明确说明了这一点,因为修订标

注方案的反馈循环也是建模阶段的一部分。图5显示了MAMA和CASCADES循环的集成。MATTER循环的附加

步骤(训练和测试)可以明显地添加在标注和评估步骤之间。

9

概念分析评价

6

1

抽象语法

说明

25

48

语义

3

定义

具体语法

说明

7

标记

图4MAMA和CASCADE循环的集成

7.5标注方案中的可选元素

11

GB/TXXXXX—XXXX

标注的抽象语法和具体语法之间的区别,使得可选元素能以各种引人注意的方式出现在标注及其表

示中。

在给定的标注任务中,将不构成标注方案焦点但对执行任务可能有用的信息纳入考量,可能很有参

考意义。将句法信息添加到语义标注就是一个例子。在共指标注中,为了识别共指表达链,一种有用的

做法是根据其语法数(单数或复数)和语法性别(或自然性别,取决于其中哪些与所考虑语言中的代词

参考相关)。因此,标注名词短语和代词的语法数量和性别很有用。这现在可以由一种标注方案来支持,

该方案在具体句法中包括性别和数字的表示,但在抽象句法中不包括数字和性别信息,因此不对性别标

注数量的语义进行处理。

另一种形式的可选性是具体语法定义某些属性的默认值。例如,属性“polarity”,可能值为

“positive”和“negative”,可以假定默认值为“positive”。与以前的可选形式不同,这种可选元

素对应于抽象语法中的元素,并且确实具有语义解释。

当语义信息可能采取或多或少复杂的形式时,就会出现第三种可选性。这方面的两个例子是:a)

在对话行为标注中出现“限定词”,以指示与交流功能相关的确定性、条件或情感;b)话语关系的归

因和论点类型的标注。这里简要考虑后一个例子;关于交流功能的鉴定,见9.5.2。

为话语关系标注开发ISO标准的初步研究将CASCDES方法用于重新设计PDTB的标注方案(参见

参考文献[12]),在该研究中,标注话语关系参数的实体结构在抽象语法中定义如下:“论元实体结构,

对应于话语关系的论元,是由可标记的m和语义信息s组成的对<m,s>,它或为空(即实体结构仅标

识与话语关系的参数相对应的标记),或包含有关参数的属性(atr)和/或s指定参数的类型(aot)

的信息。形式上,s是以下结构之一:s=<>;s=<atr>;s=<aot>;或s=<atr,aot>”。该规范表明

了语义信息可能但不必须包括某些组件。因此,属性和参数类型的可选性通过允许带有和不带有这些元

素的标注结构来形式化。在处理那些并不总是适用或在某些情况下不相关的信息组件时,这种形式的可

选性可能很有用。

因此,可以在标注表示中区分三种类型的可选元素:

a)那些在语义上无关紧要,可以自由地包含或不包含在表示中的元素;

b)那些在表示中没有包含却具有默认解释的元素;

c)那些包含在表示中能增加其信息量的元素。

不属于这三种类型之一的元素在表示中不能被省略,否则会使其不完整或“未指定”,这对于注释

任务来说是可以接受的,因为标注者并不总是有足够信息来进行完整标注。对于类型(2)和(3)的可

选元素,这可能导致模棱两可的情况;对于此类元素,强烈建议使用“未指定”值,以便能区分标注者

无法分配值的情况与标注者打算分配默认值的情况[类型(2)案例],或该要素被认为不适用或不相关[类

型(3)案例]。

8标注方案之间的重叠

8.1语义和术语一致性

如果两个标注方案涉及相同或非常相关的概念,则两个方案的相互一致性将受到威胁。考虑到两种

方案的语义对同一概念的处理方式不同,这可能导致语义上的不一致。如果两种方案对同一概念使用不

同的术语,则会出现术语不一致。如果在两个方案使用相同的术语但具有不同含义,则既存在语义上的

不一致,也存在术语上的不一致。本条款确定了SemAF的不同部分引入重叠标注方案的若干情况,主

要是为了提供有关相互一致性问题的议程,这些问题需要在未来的SemAF部分或现有部分的未来版本

中解决。

8.2空间和时间关系作为语义角色

12

GB/TXXXXX—XXXX

SemAF的几个部分之间的重叠之一是对空间和时间关系的标注。ISO-TimeML和ISOspace的标注方

案包括对事件之间关系及其发生地点和时间的标注,以及时间实体之间的时间关系和空间实体之间的空

间关系。ISO24617-4('SemAF-SR')的标注方案用于标注事件及其参与者之间被视为关系的语义角色,

包括空间和时间参与者。在emAF-SR中定义的用于标注与时间和地点有关的语义角色的关系也出现在

ISOspace和ISO-TimeML中。

SemAF-SR定义了空间或时间字符的以下八种语义角色:

a)位置;

b)初始位置;

c)最终位置;

d)路径;

e)距离;

f)持续时间;

g)初始时间;

h)结束时间。

这些概念也出现在ISOspace和ISO-TimeML中,有时使用相同的术语,这会导致语义和术语不一

致。例如,ISOspace将如下所示的“路径”概念(引自ISO24617-7:2014,第3条)定义为像道路

或河流这样的空间实体,可用于从一个位置到达另一个位置。

3.13

路径

一系列位置(3.7)

注1:空间对象路径(3.13)是一个重点放在遍历潜力上的位置,或者作为边界起作用的位置。这包括像

“道路”,“海岸线”和“河流”这样的普通名词,以及像“66号公路”和“康加曼古斯高速公路”这样的专有名词。

一些名词例如谷地(valley)可能会产生歧义:在“我们沿着山谷走”中可以理解为一个路径(3.13),而

在“我们住在山谷里”中可以理解为一个地方(3.14)。

在这一点上,ISOspace在语义上与SemAF-SR不一致,后者将术语“路径”定义为依赖于事件的

发生,如下所示:

/path/

DefinitionIntermediatelocationortrajectorybetweentwolocations,orinadesignatedspace,wherean

eventoccurs.

–SourceAdaptedfromSowa[2000]

Example‘(Thebaby[agente1])crawlede1(acrossthefloor[pathe1])’

此数据类别中的例句将标注如下(在ISO24617-4:2014附件C中使用的XML表示中;markable

m1指的是“Thebaby”;m2指的是“crawled”,m3指的是“crossthe地面”):

(9)婴儿爬过地板。

<eventxml:id=”e1”target=”#m2”eventFrame=”crawl.01”/>

<entityxml:id=”x1”target=”#m1”/>

<srLinkevent=”#e1”participant=”#x1”semRole=”agent”/>

<entityxml:id=”x2”target=”#m3”/>

<srLinkevent=”#e1”participant=”#x2”semRole=”path”/>

13

GB/TXXXXX—XXXX

因此,虽然“路径”是ISOspace中的空间对象,但它是SemAF-SR中的关系概念。

ISOspace还定义了相关的概念“事件路径”,“它是运动中遵循的轨迹的动态概念,就像飞盘在

被抛出时在空中所遵循的轨迹一样。这个概念在ISO24617-7:2014中定义如下。

3.3

event-path

pathortrajectoryfollowedbyaspatialobjectcoincidentwithamotion-event(3.9)

这个概念本质上与SemAF-SR中的语义角色“路径”相同;这可以看作是术语不一致的情况,不

同的术语用于同一概念。另一方面,ISOspace看待事件路径的方式和SemAF-SR看待路径角色的方式

之间存在差异,因为后者是关系,而ISOspace概念是对象;这是通过将标注表示(9)与ISOspace示

例(10)进行比较得出的,该示例取自ISO24617-7(其中可标记的m1是指“Wecamped”,m2是指

“threemiles”,m3是指“theriver”):

(10)Wecamped[threemilesme2]fromthe[riverp1][⌀pl2]

<pathxml:id=”p1”markable=”#m3”/>

<placexml:id=”pl2”markable=”⌀”/>

<measurexml:id=”me2”markable=”#m2”value=”3”unit=”miles”/>

<mlinkxml:id=”ml1”figure=”#pl2”ground=”#p1”trigger=”#me2”relType=”distance”

val=”#me2”/>

在(10)中,“path”作为对象出现,而在(9)中,它作为关系出现。

关于“distance”的概念也可以找到类似的差异,在ISOspace中,它是(a)两个空间实体和(b)

空间范围之间的关系[见(10)],而SemAF-SR使用距离来表示语义角色,如(11)所示:

(11)missiles[pivots1](capables1)of(travelinge1)(morethan300km[distancee1])

另一种情况,将在9.2中讨论,是SemAF-SR中的语义角色Amount与ISOspace中定义的“度

量”概念相比。

关于ISOspace、ISO-TimeML和SemAF-SR中定义的重叠概念集出现的一个普遍问题是,ISOspace

和ISO-TimeML中的空间和时间关系之间的所有区别是否应该反映在语义角色之间的区别中?

SemAF-SR。例如,ISOspace使用属性“goalReached”,可能值为“true”、“false”和“uncertain”,

以便区分“John到达波士顿”(John到达目的地)和“Johnleftfor波士顿”,我们不知道他是否

这样做。SemAF-SR没有做出这种区分的规定。

8.3事件

在ISO-TimeML中,包括事件类型学(广义上,包括状态和过程),事件占据中心位置。事件在

ISOspace中同样重要,它从ISO-TimeML继承了事件的概念以及ISO-TimeML标注中关于事件的所有

内容。事件在SemAF-SR中也至关重要,其中语义角色被视为事件与其参与者之间的关系,但SemAF-SR

不假设任何特定的事件类型。ISOspace在明确继承ISO-TimeML的事件概念的同时,对运动事件和非

运动事件进行了基本区分,这贯穿了ISO-TimeML类型。这是否会导致一致性问题尚不清楚。

运动事件和非运动事件之间的区别似乎与语义角色分配有关,因为只有运动动词在“初始位置”、

“路径”和“最终位置”等角色中具有空间实体。诸如“约翰没有离开家”之类的否定句中使用的运动

动词似乎需要不同的空间角色(“位置”?)来表征“离开”和“家”之间的关系;它在SemAF-SR中

不可用。“约翰呆在家里”也是如此。

8.4对话中的话语关系

14

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论