术语工作 计算机应用 术语信息置标框架_第1页
术语工作 计算机应用 术语信息置标框架_第2页
术语工作 计算机应用 术语信息置标框架_第3页
术语工作 计算机应用 术语信息置标框架_第4页
术语工作 计算机应用 术语信息置标框架_第5页
已阅读5页,还剩24页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

ICS01.020

CCSA22

中华人民共和国国家标准

GB/T29181—2023

代替GB/T29181-2012

`

术语工作计算机应用术语信息置标框架

Computerapplicationsinterminology—Terminologicalmarkupframework

(ISO16642:2017,IDT)

(征求意见稿)

在提交反馈意见时,请将您知道的相关专利连同支持性文件一并附上。

XXXX-XX-XX发布XXXX-XX-XX实施

GB/T29181—2023

前言

本文件按照GB/T1.1—2020《标准化工作导则第1部分:标准化文件的结构和起草规则》的规定

起草。

本文件代替GB/T29181-2012《术语工作计算机应用术语信息置标框架》,与GB/T29181-2012

相比,主要技术变化如下:

a)删除了附录A、附录B和附录C相关内容,不再主动使用以下格式:

1)带专门限定标记的机器可读术语交换格式(MSC);

2)Geneter;

3)数据类目交换格式(DCIF);

4)通用映射工具(GMT)。

b)删除了附录B和附录C,不再包含任何TML的所有代码示例。TML代码示例现在可以由ISO

30042TermBaseeXchange(TBX)标准中,以及下述网址处获得:。

c)前ISO/TC37数据类目注册库或ISOcat从规范性参考文件改为资料性参考文件。此外,名称

已改为DatCatInfo,作为数据类目注册库的一个示例。

d)删除对ISO12620:1999及ISO12620:2009的引用。这些标准已被废止。

e)增加了类型值元素样式。

f)更改了示例以反映ISO30042:2008(TBX)。TBX-Basic称为TML。

g)更改一些示例和表格,将其并入相应章节。

h)删除了一些历史信息、教导性信息或重复信息。

本文件由全国语言与术语标准化技术委员会(SAC/TC62)提出。

本文件由全国语言与术语标准化技术委员会(SAC/TC62)归口。

本文件起草单位:中国中医科学院中医药数据中心、中国标准化研究院、全国科学技术名词审定委

员会、华南师范大学、上海对外经贸大学、华北电力大学。

本文件主要起草人:

II

GB/T29181—2023

引言

术语数据由各种系统收集、管理和存储,通常是各种数据库管理系统,从个人用户的个人计算机应

用程序到大型公司和政府机构运营的大型术语数据库系统。术语数据库包含各类信息(称为数据类目),

可以采用不同的结构模型。术语数据经常需要在多个应用程序中共享和重复使用,通用模型有利于数据

共享。为了开展合作并防止重复工作,需要形成系列术语数据集合创建和使用、数据共享和交换的标准

和准则。

本文件引用了一个可用数据类目注册库示例DatCatInfo。DatCatInfo是一个在线数据库,包含术语

数据集合和其他语言资源中的数据类型的相关信息。DatCatInfo可在以下网址中获得:

III

GB/T29181—2023

术语工作计算机应用术语信息置标框架

1范围

本文件规定了表示术语数据集中所记录数据的框架,该框架包括了元模型及用XML表示的描述特定

术语标记语言的方法。定义了TML中约束(而不是某个TML的特定的约束)的实现机制。

本文件适用于支持术语数据计算机应用的开发和使用,以及不同应用间的数据交换。本文件还定义

了允许将一种TML表示的数据映射到其他TML上的条件。

2规范性引用文件

下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,

仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本

文件。

GB/T10112术语工作原则和方法(GB/T10112—2019,ISO704:2009,IDT)

GB/T15237.1术语工作词汇:第1部分:理论与应用(GB/T15237.1—2000,ISO1087-1:2000,

IDT)

GB/T2659世界各国和地区名称代码(GB/T2659—2000,ISO3166-1:1997,IDT)

ISO26162术语、知识和内容管理系统术语管理系统的设计、实现和维护

ISO30042:2008术语、知识和内容管理系统——TermBaseeXchange(TBX)

3术语和定义

GB/T15237.1—2000界定的术语和定义适用于本文件。

基本信息单元basicinformationunit

元模型的一个组件(3.3)上附加的信息单元(3.12),可以用单个数据类目(3.6)来表示。

补充信息complementaryinformation

Cl

对术语条目(3.22)中所描述的内容予以补充,并在术语数据集合(3.21)中共享的信息。

注:领域层级关系,机构描述、参考文献信息和语料信息都是补充信息的典型例子。

3.3

组件component

元模型的基本描述单元,可以与数据类目(3.6)相关联以形成数据模型。

3.4

复合信息单元compoundinformationunit

元模型组件(3.3)上附加的信息单元(3.12),通过几个分组数据类目(3.6)表示,这些数据类

目组合在一起表示一个完整连贯的信息单元。

3.5

1

GB/T29181—2023

概念域conceptualdomain

与数据类目(3.6)相关联的有效值含义的集合。

注:例如,数据类目/词性/可以具有以下概念域:/名词/、/动词/、/形容词/、/副词/等。

3.6

数据类目datacategory

语言描述或标注方案中使用的基本描述符。

注:在本文件中,数据类目放在两个斜杠(/)之间,例如/definition/。

3.7

数据类目注册库datacategoryrepository

DCR

被用作语言标注方案定义或语言资源其他表示模型参考的数据类目声明(3.9)的电子注册库。

注:关于语言资源的DCR可在网站中获得:。

3.8

数据类目选集datacategoryselection

DCS

从DCR(3.7)中选择的一些数据类目构成的集合(3.6)。

3.9

数据类目声明datacategoryspecification

用于充分描述给定数据类目的属性集(3.6)。

注:缩写“DCS”用于表示数据类目选集,不用于表示数据类目声明。

3.10

扩展树expansiontree

在某给定TML(3.23)中,实现某一个层的元模型的一组结构化的XML元素。

3.11

全局信息globalinformation

GI

应用于整个术语数据集合(3.21)的技术性和管理性的信息。

注:实例,术语数据集合的标题、历史修订记录、所有者或版权信息。

3.12

信息单元informationunit

IU

附于元模型某结构层的某项不可拆分的基本信息。

3.13

语言段languagesection

LS

术语条目(3.22)上的片段,包含与某一种语言相关的信息。

注:一个术语条目可能包含一种或多种语言的信息。

3.14

目标语言objectlanguage

被描述的语言。

3.15

永久标识符persistentidentifier

PID

2

GB/T29181—2023

唯一的统一资源标识符(URI),确保对数字目标进行永久访问,而不受其物理位置或当前所有权

的影响。

3.16

结构节点structuralnode

术语数据集合(3.21)表示中的组件(3.3)的实例。

3.17

结构骨架structuralskeleton

按元模型的要求而对术语数据集合(3.21)实例所作的抽象描述。

3.18

样式style

用XML语言对数据类目(3.6)实现的方式。

3.19

术语组件段termcomponentsection

TCS

术语段(3.20)中的片段,用以给出术语各组成成分的语言学信息。

3.20

术语段termsection

TS

语言段(3.13)中给出术语信息的片段。

3.21

术语数据集合terminologicaldatacollection

TDC

由术语条目(3.22)及其相关的元数据和文档信息组成的资源。

3.22

术语条目terminologicalentry

TE

术语数据集合(3.21)的一部分,包含与某一概念相关的术语数据。

注:术语条目中的每个元素都可以与补充信息、其他术语条目以及同一术语条目中的其他元素链接。

3.23

术语标记语言terminologicalmarkuplanguage

TML

用于对术语数据集合(3.21)进行描述、且遵循本文件阐述的约束条件的XML格式。

3.24

统一建模语言UnifiedModelingLanguage

UML

用于对软件系统的各种特征进行描述、可视化、构建和文档化的语言。

3.25

词汇表vocabulary

<数据建模>用于根据样式(3.18)实现数据类目(3.6)的字符串集合。

3.26

工作语言workinglanguage

用于描述对象的语言。

3.27

3

GB/T29181—2023

XML大纲XMLoutline

一个术语数据集合(3.21)的组成成分,对应于元模型的XML实现方案。

4模块化方法

术语信息置标框架(TMF)由两个抽象层级组成。第一个层级是元模型层级,这也是最抽象的层级。

元模型层级支持在一个非常通用的层级上进行的分析、设计和交换,即独立于任何特定的实现或软件。

元模型应由所有符合TMF的TDC共享。第二个层级是数据模型层级,添加了表示特定TDC所需的数据类目。

用XML语言实现数据模型被称为术语标记语言(TML)。TML可以根据有限的几个特征来描述:

——TML如何表达元模型的结构组织(即TML的扩展树);

——TML所使用的特定数据类目及其与元模型的关系;

——这些数据类目如何以XML表示并锚定在TML的扩展树上,即任何给定数据类目的XML样式;

——TML使用的词汇表,用于根据相应的XML样式将各种信息对象表示为XML元素和属性。

图1表示了完整声明一个TML所需的信息,包括:

——元模型描述了所有TML都应遵循的组件的基本层级体系;

——数据类目注册库中的一组数据类目声明构成的集合,能够为TML定义数据类目选集(DCS)

形成基础;

——专用语的声明(专用语)包括以XML格式表示给定TML所需要的各种元素。这些元素包括扩

展树和数据类目实例化样式,以及相应的词汇表。

元模型数据类目注册库

数据类目选集:专用语:

——数据类目注册子集——扩展树

——由应用决定的DCR——数据类目样式+词汇表

互操作性条件

术语标记语言(TML)

图1描述TML所涉及的各种知识源

提供语言资源数据类目声明样例的DCR,可在网站中获得:www.。如果可能,此DCR

中记录的数据类目应当用于TML。如果该DCR中没有合适的数据类目,TML的实现者宜建议在此DCR中创建

所需的数据类目声明。

5术语数据描述的一般模型

4

GB/T29181—2023

原则

本章描述了一类XML文件结构,可用来覆盖很大范围的术语数据格式,并且提供了一种可以通过使

用XML语言来表示这些文件的框架。

每种文件结构类型都是通过三层信息结构模式来描述:

——元模型,由具有层级体系的组件所组成;

——信息单元,能够与元模型中任一组件相关联;

——标注,能够用来限定给定信息单元的属性。

信息单元能够是基本的或复合的。基本信息单元囊括的信息能够用单个数据类目直接表达。复合信

息单元囊括的信息通过多个组合在一起的数据类目表达,这些数据类目组合在一起表示一个完整连贯

的信息单元。例如,一个复合信息单元能够用来表示“某项事务应属于某个事务类型(如修改)、执行

人员,以及执行日期”这样的事实。

基本信息单元,无论是直接附于一个组件,还是附属在复合信息单元之内,能够具有两种非互斥类

型的值:

——原子值(atomicvalue),或者对应于某个XML方案(XMLschema)中的简单类型(simple

type),例如数、字符串、选择列表的元素等,或者对应于注释文本下的混合内容类型

(mixedcontenttype);

——组件的引用值,用于表达该组件与当前组件之间的关系。

——信息单元能够抽象地表示为特征-值结构(feature-valuestructure)。如,以下标记示例

能够以下列特征-值结构形式建模为基本信息单元:

类似地,以下TBX标记示例

能够以如图2所示的特性值结构形式建模。

图2特征-值结构

语义信息还需要通过标注与数据类目内容相关联。人们对术语定义中种属信息和/或差异信息进行

明确标识是一种典型实例,如下列对“铅笔(leadpencil)”的定义:

5

GB/T29181—2023

该信息无法表示为特征-值结构。

组件和信息单元的一般表示

术语数据能够用通用的架构来表示。该架构是一个由众多基本结构节点所形成的体系构成的。其

中各结构节点上附着有一个或多个信息单元。该架构的UML图形表示见图3。

内容包含

结构节点

关联

信息单元

细化信息单元被细化的信息单元

细化过程

图3结构节点和信息单元的UML图

图3表达了以下所定义的类之间的关系:

——结构节点:包含有一个属性(LevelName)的类,用来在给定语言资源的上下文当中标识该

类型的对象。如,术语条目(TE)表示术语数据。

——信息单元:包含以下3个属性的类:

•标识与给定数据类目相关的该类型的对象(IUName,如/definition/、/partOfSpeech/

等);

•描述其内容的类型(C_type);

•提供实际内容的值(C_value)。

C_type的值允许是属于XML方案第2部分数据类型中所定义的简单类型(simpletype)集合,

或为混合型(MIXED)。

这两个类的对象能够通过以下方式相联:

——关联:表示一个结构节点通过层级链接与另一个结构节点相联系。对链接的数量或由这些链

接创立的网络结构(如树图、有向无环图等)没有限制(0..*)。

——内容包含:将一个结构节点和信息单元联系起来(如,“定义”联接到TE节点)。一个信

息单元的实例联接到一个且唯一一个结构节点(1..1)。

——细化:将提供附加信息的信息单元与另一个信息单元联系起来(如,信息单元“注释”用来

细化“定义”)。一个细化信息单元联接到一个且唯一的一个被细化的信息单元(1..1)。

一些TML允许比其他TML有更多的细化层级,这影响了互操作性程度。

6

GB/T29181—2023

混合类型是文本内容(字符串)和信息单元的有序组合,对应于各种标注的内容,能够在UML中

通过使用聚合操作符来表示,如图4所示。

混合型

信息单元

字符串型

图4混合型对象类

遵照该定义,允许使用其他信息单元细化标注(如,标明何时由谁做的标注)。

元模型

术语元模型是以GB/T10112—2019标准中所描述的术语管理原则与方法纲要为基础的。与词典编

撰的条目相比,术语条目最重要的特点是面向概念。一个术语条目涉及给定语言中的一个概念。在多

语言的情况下,一个术语条目涉及一个或多个概念,其在不同语言中完全或部分等价。而词典编撰的

条目只包含一个词目(词汇单位的基本形式),以及一个或多个由一种或更多语言表示的定义(表示

不同的释义)。

注意,有些概念不是通用的,在不同的语言或文化中略有差异。有的差异可能很显著,以致于构

成了不同的概念。根据概念差异和相似的程度,可选定以同一条目或不同条目描述这些概念。

一个术语数据集合包括了关于该集合的全局信息和一些术语条目。每个术语条目有三个功能:

——描述一个概念;

——确认指称概念的术语;

——描述术语本身。

每个术语条目有多个语言段,而且每个语言段有多个术语段(术语及其附带信息)。条目中的每

个数据元素能够与各种描述性、管理性信息相联系。此外,还会有其他一些资源能被多个条目引用。

这些共享资源包括参考书目、知识本体描述,以及诸如用于解释说明概念的图像等二进制数据。

应遵守GB/T10112—2019、ISO26162和ISO30042:2008中描述的术语管理原则,具体包括:

——术语独立;

——面向概念;

——数据元素;

——数据粒度。

术语元模型通过结构节点类的7个实例进行描述,如图5所示。

7

GB/T29181—2023

结构节点

关联

TE-层级LS-层级TS-层级TCS-层级

关联关联关联

TDC-层级GI-层级CI-层级

关联

关联

图5术语元模型——UML图表

结构节点类的这7个实例是:

——TDC(术语数据集合):包含在术语数据集合中的所有信息的顶级容器;

——GI(全局信息):关于TDC的整体信息。例如,全局信息通常包括TDC的标题、文件的建立

单位或个人、地址信息、版权信息、更新信息等;

——TE(术语条目):与单一概念或两个或两个以上几乎等同的概念有关的信息。术语条目包含

关于概念的描述性信息,如定义和学科领域,以及关于条目的管理性信息;

——LS(语言段):语言段是一个容器,包含给定语言的术语条目的所有术语段,以及与该语言

的概念有关的信息。例如,包括给定语言的定义,或关于该语言概念的特定特征或对象的特

定属性的注释;

——TS(术语段):术语段只包含一个术语以及该术语的相关信息,如词性、术语类型和上下

文;

8

GB/T29181—2023

——TCS(术语组件段):关于术语片段的信息,如词素、音素、音节或多词术语中的单个单

词。在一些语言(如法语或西班牙语)中,有时需要将性别等信息与多词术语中使用的单个

单词联系起来;

——CI(补充信息):补充信息通常包含,例如参考书目信息或管理性信息、图形图像、视频、

音频或任何其他类型的二进制数据。还能包括对其他术语数据集合的引用或对相关语料信

息、知识本体结构或外部URI的链接。这些内容因其能够被任何术语条目所引用,故通常被

指定为共享资源。

这些组件实例实现了具有关联基数限制的“关联”关系,系统化表示为图6。

TDC(术语数据集合)

GI(全局信息)CI(补充信息)

TE(术语条目)

LS(语言段)

TS(术语段)

TCS(术语组件段)

图6术语元模型系统化示图

关联基数:

——一个TDC应包含正好一个GI(1..1),至多一个CI(0..1)和任意数量的TE(0..*);

——一个TE能包含任意数量的LS(0..*);

——一个LS能包含任意数量的TS(0..*);

——一个TS能包含任意数量的TCS(0..*)。

图5中元模型节点之间表示的1..1限制条件保证了层级组织结构。例如,术语段(TS)是语言段(LS)

的子段。

范例

以一个简单的、符合TBX规范的XML文档表示的术语条目为例,说明TDC能够作为抽象结构进行分析。

为了说明如何将某个TDC作为一个抽象结构进行分析,下面将以一个简单的、使用符合TBX规范的

XML文档来表达的术语条目为例:

9

GB/T29181—2023

通过确定与元模型相对应的结构骨架,以及将所对应的信息单元与该结构骨架中的各组件相关联,

能够创建该术语条目的抽象模型,如图7所示。

条目标识符=“ID67”

学科领域=“manufacturing”

定义=“Avalue...”

语言标识符=“en”语言标识符=“hu”

术语=“alphasmoothingfactor”术语=“Alfa...”

词性=“noun”

词性=“noun”

图7将XML文档映射成为抽象模型

为了描述该TML的DCS,数据类目可以映射到DatCatInfo中指定的相应数据类目。

标识符PID

entryIdentifier/rest/dc/206

subjectField/rest/dc/489

definition/rest/dc/168

languageIdentifier/rest/dc/279

term/rest/dc/508

partOfSpeech/rest/dc/396

noun/rest/dc/1333

6符合TMF的要求

所有TML计算机格式应基于:

——元模型;

——可从DCR中获得的DCS,如DatCatInfo。

TML采用的每个DCS,应由来自DCR(如DatCatInfo)的一系列数据类目及每种数据类目所附加的约

束条件(可选)构成。限定条件包括对数据类目允许值的约束,如/上下文/的允许值为“标记文本”或

/语法分类/的允许值为“选择列表”以及数字或日期等特定的XML数据类型。约束条件还包括对特殊数

据类目在元模型的不同层级(组件)出现位置的限制。例如,/词性/可以被限制在仅出现于TS层级。

任何符合TMF的TDC都应该对工作语言和目标语言予以明确区分。这两种类型的语言信息可关联于

该集合的任何层级上(见第8章)。

10

GB/T29181—2023

附录A提供了术语数据满足TMF的示例场景。

7交换和互操作性

交换涉及的是两种计算机系统之间的信息传递,这种信息传递通常是双向的。交换可使用中间格式。

两个TML之间的互操作性程度能够通过比较它们的声明(元模型及其DCS的组合)来确定。遵照本文

件中元模型构建并使用相同DCS的TML是可以互操作的,即将数据从一种TML转换到另一种TML并且转换

回来,将不会丢失信息。如果一个TML的DCS是另一个TML的DCS的子集,将数据从前者转换到后者是可行

的,但反之不成立。

图8TMF改善TML间互操作性

8表示语言

工作语言是用于描述TDC中的任何给定文本内容的语言,如一个定义或一项注释。工作语言的范围

是以声明该信息的元素为起始的整个子文件,除非该声明被其他工作语言声明所取代。

目标语言是语言段中被描述的语言。

目标语言和工作语言都应该使用W3C推荐的扩展标记语言(XML)定义的xml:lang属性表示。该属性

用于语言段层级时,表示目标语言和工作语言。

xml:lang属性的允许值见IETFRFC5646或其后续版本,如IETFBCP47中所标识的。

以下例子表示了两种语言类型声明在TBX中LS内的使用方法:

9定义TML

步骤

定义TML需要以下步骤:

a)从DCR中选择数据类目,如DatCatInfo;

b)创建与术语元模型中的结构节点相关联的扩展树;

11

GB/T29181—2023

c)确定表达分配给扩展树中节点的数据类目所需的XML样式和词汇表;

d)为充分说明对有效的TML实例起着控制作用的XML方案提供必要信息;

e)为将TML实例转换为另一个TML实例提供所需的互操作性条件。

定义互操作性条件

互操作性条件应基于对特定TML有效的DCS的声明。DCS包括表示每个数据类目性质的数据类目声明,

其属性包括:

——唯一的数据类目名称;

——数据类目声明的永久标识符(PID);

——数据类目可能出现的结构节点(元模型层级);

——与数据类目关联的概念域。

10实现TML

概要

为创造互操作性条件,应规定实现TML的XML数据结构。应采用下列方式形成XML大纲:

——基于一组适当的XML元素,将TML实例的结构框架映射到元模型;

——为DCS中各种数据类目提供锚定机制。

元模型的实现

定义TML结构部分,应把XML扩展树与元模型的每个结构节点相关联。对于元模型中存在父节点的每

个结构节点(即元模型里有更高层级的节点),应为其定义一个锚点。该锚点包括了其父节点扩展树上

的一个节点,并且能够连接到该节点自己的扩展树。

TML某个实例的XML大纲包括了与其结构框架相关联的所有的扩展树。

XML大纲中数据类目的锚定

10.3.1概要

与结构节点相关联的扩展树应由一组XML元素节点构成。每个XML元素节点都应是与该节点相关联

的任意数据类目的潜在锚点。根据以下信息,每个数据类目均应表达为其锚点的子结构:

——锚定样式;

——实际TML中使用的词汇表。

对于TML,完整DCS中的每个数据类目,应声明锚点、样式和词汇表等属性。

10.3.2样式和词汇表

附于TML结构框架上的数据类目应采用XML特征-值对,并使用以下五种样式中的一种实现:

——属性;

——元素;

——类型元素;

——值元素;

——类型值元素。

属性样式应将数据类目作为其锚点的属性来实现。数据类目的值作为该属性的内容。示例:

12

GB/T29181—2023

元素样式应将数据类目作为XML元素予以实现,该元素是其所关联锚点的子元素。数据类目的值作

为该元素的内容。示例:

类型元素样式应将数据类目作为XML元素予以实现,该元素是其所关联锚点的子元素,并指定为

“类型(type)”属性的值。词汇表由该元素的名称和“类型(type)”属性的值组成。数据类

目的值作为该元素的内容。示例:

值元素样式应将数据类目作为XML元素予以实现,该元素是给定锚点的子元素。元素由“值(value)”

属性进一步说明,该元素可以说明另一个数据类目。词汇表由该元素的名称和“值(value)”属性

的值组成。示例:

类型值元素样式将数据类目作为XML元素予以实现,该元素是给定锚点的子元素,并且由属性“类

型(type)”和“值(value)”进一步说明。词汇表由该元素的名称以及该属性的名称组成。与数

据类目相关联的数值作为“类型(type〉”属性的内容来实现。示例:

数据类型的约束

使用元素或类型元素样式实现的数据类目能够具有包含附加标记的值(尤其是因标注而产生的标

记)。反之,使用属性、值元素或类型值元素样式实现的数据类目不应包含任何此类附加标记。

标注的实现

与附于给定TML结构骨架的数据类目一样,标注应用同样方式实现(采用XML样式和词汇表)。只有

元素样式和类型元素样式支持标注。

尖括号的实现

被括起来的数据类目应通过以下元素实现:提供该组主要数据类目名称的元素,以及其他提供更多

相关数据类目的元素(如管理信息)。示例:

13

GB/T29181—2023

14

GB/T29181—2023

A

A

附录A

(资料性)

术语数据与TMF的一致性:示例场景

A.1概述

本附录通过分析数据的结构和内容并对这些数据进行一定的转换,讨论基于XML的术语数据是如何

实现与TMF的兼容。通过数据分析和转换,TML可以被清晰的声明,不仅可以无信息损失地表达术语数据,

而且改善了其与其他TML间的互操作性。

A.2示例

下面的例子来自汽车发动机TDC的术语条目。这个例子不完全符合TMF,但经过一些修改,可以映射

到TMF。

表A.1描述了本示例所包含的信息。

表A.1元素内容描述

XML元素描述内容描述

<tbid>TDC的唯一标识符字母数字编码

<tbDescription>描述TDC的文本文本

<domainOfConcept>本概念条目的学科领域选定的与概念有关的值

与本概念有关的信息数据的最后修改日

<conceptLastModified>日期

<languageCode>术语使用的语言ISO639-1中的值

<termDefinition>术语定义文本

<termString>术语本身文本

15

GB/T29181—2023

XML元素描述内容描述

<usedIn>使用该语言术语的国家ISO3166-1中的值

<wordClass>术语的语法分类例如,n代表名词

<wordGender>术语的语法词的性m代表阳性,f代表阴性,或n代表中性

与本术语有关的信息数据的最后修改日

<termLastModified>日期

其他XML元素表示此信息的容器。

在表1中,对于与<termString>和<termDefinition>的文本内容一同使用的<languageCode>的描

述,宜在标记中引入XML属性“xml:lang”来体现,例如:“语言码以及表示该代码的语言是德语”。

在需要覆盖该结构中已有的从高层元素传下来的xml:lang的值的时候,应在XML文档中引入该属性。

A.3一致性的确定

A.3.1元模型声明

通过与元模型的结构节点相比较,可以评估本例的XML大纲与元模型的一致程度。该比较如表A.2

所示。

表A.2XML大纲与元模型的结构节点比较

元模型组件词汇表

TDC<termBank>

GI

TE<conceptEntry>

LS<termGroup>

TS

CI

上例没有TS的等同物。尽管如此,TS能在无信息损失的情况下引入。上例中不包含CI,而GI可从

<tbid>和<tbDescription>元素中创建。以下元素表示结构节点:

——<termBank>

——<conceptEntry>

——<termGroup>

以下元素表示新引入的部分:

——<globalInformation>

——<termSection>

此外,还为德语<termGroup>部分添加了语言代码。英语部分不需要语言代码,因为其已从

<termBank>元素继承。这种交替结果如下所示:

16

GB/T29181—2023

A.3.2数据类目选集

根据以上给出的对元素内容的描述,可以将TML数据类目映射到DatCatInfo中相应内容。

表A.3数据类目与DatCatInfo的映射关系

XML元素DC名称DatCatInfo中条目

<tbid>文件标识符/datcat/DC-230

<tbDescription>描述/datcat/DC-2520

<domainOfConcept>学科领域/datcat/DC-489

<conceptLastModified>

<languageCode>语言标识符/datcat/DC-279

<termDefinition>定义/datcat/DC-168

<termString>术语/datcat/DC-508

<usedIn>使用地域/datcat/DC-243

<wordClass>词性/datcat/DC-396

<wordGender>语法的性/datcat/DC-245

<termLastModified>

元素<usageDescriptors>本身不含内容。对于TML,该嵌套元素不是必需的,因此能够删除。元素

<conceptLastModified>和<termLastModified>在DatCatInfo中没有对应内容。这些元素结合了三个信

息单元:日期、行为(修改,相对于创建等其他动作)和修改内容(概念或术语)。为完成此映射,需

要进行适当的编码将这三个信息单元谨慎结合在一起。

下文的通用嵌套机制提供了将三个信息单元中的两个结合在一起的方法。

17

GB/T29181—2023

TBX使用以下标记:

对术语或概念的修改,可通过这些元素锚定的元模型中的结构节点(即TE或TS)表明。

A.3.3通用的XML表示

下文给出了A.3.1中所示条目的一种可行的通用表示。

这种表示能够自动转换(例如,使用XSLT)为TML(如TBX)并转换回来,且无信息损失。

下例中,来自DatCatInfo的数据类目具体表示为<feat>元素的@type属性值。类型的值为

“languageIdentifier”和“geographicalUsage”的元素的内容,分别来自ISO639-1和ISO3166-1。

18

GB/T29181—2023

参考文献

[1]ISO639-1,Codesfortherepresentationofnamesoflanguages—Part1:Alpha-2

code

[2]ISO639-2,Codesfortherepresentationofnamesoflanguages—Part2:Alpha-3

code

[3]IS024610-1,Languageresourcemanagement—Featurestructures—Part1:Feature

structurerepresentation

[4]DatCatlnfo—Adatacategoryrepository,

[5]IntroductiontoTermBaseeXchange,

[6]/TR/xmlschema-2/

19

GB/T29181—2023

目次

前言............................................................................II

引言...........................................................................III

1范围................................................................................1

2规范性引用文件......................................................................1

3术语和定义..........................................................................1

4模块化方法...........................................................................4

5术语数据描述的一般模型...............................................................4

原则.............................................................................5

组件和信息单元的一般表示...........................

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论