术语资源管理 术语数据库交换(TBX)_第1页
术语资源管理 术语数据库交换(TBX)_第2页
术语资源管理 术语数据库交换(TBX)_第3页
术语资源管理 术语数据库交换(TBX)_第4页
术语资源管理 术语数据库交换(TBX)_第5页
已阅读5页,还剩51页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

ICS01.020

CCS点击此处添加CCS号

中华人民共和国国家标准

GB/TXXXXX—XXXX

`

术语资源管理-—术语数据库交换(TBX)

Managementofterminologyresources—TermBaseeXchange(TBX)

((ISO30042:2019,MOD)

(征求意见稿)

在提交反馈意见时,请将您知道的相关专利连同支持性文件一并附上。

-XX-XX发布XXXX-XX-XX实施

GB/TXXXXX—XXXX

前言

本文件按照GB/T1.1—2020《标准化工作导则第1部分:标准化文件的结构和起草规则》的规定

起草。

本文件修改采用ISO30042:2019《术语资源管理-—术语数据库交换(TBX)》。

本文件与ISO30042:2019的技术差异及原因如下:

——增加了关于术语对应词的数据类目和对应的TBX专用语。

本文件由全国语言与术语标准化技术委员会(SAC/TC62)提出并归口。

本文件起草单位:中国标准化研究院、华南师范大学、北京信息科技大学等。

本文件主要起草人:

III

GB/TXXXXX—XXXX

术语资源管理--术语数据库交换(TBX)

1范围

本文件规定了描述了元模型、数据类目、XML样式:DCA(作为属性的数据类目)和DCT(作为标

签的数据类目)和定义TBX专用语的方法。

本文件适用于分析和理解术语数据集合或设计符合国际标准和最佳实践的新术语数据库。典型用

户是程序员、软件开发人员、术语专家、分析师和其他语言专业人士,应用领域包括翻译和创作。

2规范性引用文件

下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,

仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本

文件。

GB13000信息技术通用多八位编码字符集(UCS)第一部分:体系结构与基本多文种平面(GB13000:

2010,ISO/IEC10646:2003,IDT)

GB/T16786术语工作计算机应用数据类目(GB/T16786-2007,ISO12620:1999,NEQ)

GB/T16786术语工作计算机应用术语信息置标框架(GB/T29181-2012,ISO16642:2003,IDT)

ISO8601-1日期和时间信息交换表示方法第1部分:基本规则(Dateandtime-Representations

forinformationinterchange—Part1:Basicrules)

ISO8601-2日期和时间信息交换表示方法第2部分:扩展规则(Dateandtime-

Representationsforinformationinterchange—Part2:Extensions)

ISO21720:2017XLIFF(XML本地化交换文件格式)(XLIFF(XMLLocalisationinterchange

fileformat))

3术语和定义

下列术语和定义适用于本文件。

ISO和IEC负责维护术语数据库在标准中的使用,术语数据库通过以下地址进行访问:

——ISO在线浏览平台:/obp

——IEC术语数据库:Electropedia:

属性类attributeclass

一组或多个相关属性。

子元素childelement

从属于另一个元素的元素。

分类元素classificationelement

用于根据概念条目中的功能对数据类目进行分组的元素。

1

GB/TXXXXX—XXXX

补充信息complementaryinformation

CI

对术语条目(3.5)中所描述的内容予以补充,并在术语数据集合(3.29)中共享的信息。

概念条目conceptentry

术语条目

条目

术语数据集合(3.21)的一部分,包含与某一概念相关的术语数据。

术语数据集合中所包含的与一个概念相关的术语数据。

核心结构corestructure

在所有TBX专用语(3.12)中使用的通用结构和数据类目(3.8)

注1:核心结构符合ISO16642(TMF)。

核心结构模块corestructuremodule

核心模块

TBX-核心模块

数据类目模块(3.9),仅包含作为核心结构(3.6)一部分的数据类目(3.8)

数据类目datacategory

从形式或语义的角度来看密切相关的数据项类别

注:数据类目可以看作是数据库中字段概念的概括。

例:/partofspeech/,/subjectfield/,/definition/.

条目注释2:在运行文本中,例如在本文档中,数据类目名称用正斜杠括起来(例如/partofspeech/)。

数据分类模块datacategorymodule

模块

允许的数据类目列表(3.8)以及在设计符合TBX的术语数据集合(3.29)中使用的限制

示例TBX-Core模块,包括所有TBX专用语共有的数据类目和结构,TBX-Min模块,它添加了简

单词汇表所需的最少数据类目,以及TBX-Basic模块,它提供了一个更丰富的数据类目。

DCA

数据类目作为属性datacategoryasattribute

表示TBX数据的样式,其中大多数数据类目(3.8)表示为相应模式中声明的XML元素上的类型

属性的值

示例<termNotetype="partOfSpeech">形容词</termNote>。

DCT

数据类目作为标签datacategoryastag

表示TBX数据的样式,其中大多数数据类目(3.8)表示为XML通用标识符

专用语dialect

2

GB/TXXXXX—XXXX

XML标记语言,根据TBX的核心结构(3.6)进行验证,并在特定数据类目模块(3.9)或数据类

目模块集指定的那些级别上准确允许那些数据类目(3.8)并遵守所有其他相关约束

注:“所有其他相关约束”是指所讨论的专用语所必需但不能在核心结构或数据类目模块中表达的约束,例如日期

格式或条件约束。这方面的一个例子出现在专用语TBX-Basic中,它需要/definition/或/语境/。

显示名称displayname

出现在软件用户界面或其他介质上的数据类目(3.8)的名称。

文档实例documentinstance

包含以TBX专用语(3.12)表示的概念条目(3.5)的文件

交换exchange

涉及从一个术语库(3.28)导出数据并将其导入另一个术语库的事务

全局信息globalinformation

GI

应用于整个术语数据集合(3.29)的技术性和管理性的信息。

分组元素groupingelement

XML元素,其目的是将一组子元素组合在一起(3.2)

目标语言objectlanguage

被描述的语言

PID

持久标识符persistentidentifier

唯一标识符(URI),确保对数字目标进行永久访问,而不受其物理位置或当前所有权的影响。

[来源:ISO24619:2011,3.2.4,修改——“持久标识符”成为第二个首选术语,条目注释1已

删除。]

私人专用语privatedialect

未在可公开访问的网站上描述的用于私人用途的专用语(3.12)

公共专用语publicdialect

在可公开访问的网站上描述的专用语(3.12)

注:可公开访问的网站的一个示例是TBXInfo[15]。

根元素rootelement

TBX文档实例中的第一个元素(3.14)

注:根元素是<tbx>。

TBX代理TBXagent

3

GB/TXXXXX—XXXX

生成、读取、编辑、写入、处理、存储、呈现或以其他方式操作TBX兼容文档实例的程序或实用

程序(3.14)

TBX出口TBXexport

从术语库(3.28)或其子集创建TBX专用语(3.12)文档实例(3.14)的过程

TBX进口TBXimport

将术语数据从一个TBX文档实例(3.14)插入现有术语库(3.29)的过程

条目注释1:现有术语库可以是空的,也可以已经包含术语条目。

TBX模块说明TBXModuleDescription

TBXMD

用于识别一组数据类目(3.8)及其对特定数据类目模块(3.9)的约束的形式主义

术语成分termcomponent

多词词条的词之一,或单词词条的组成部分之一(例如语素)

术语库termbase

术语数据库

包含术语数据集合的数据库(3.29)。

术语数据集合terminologicaldatacollection

TDC

由术语条目(3.5)及其相关的元数据和文档信息组成的资源。

示例TBX文档实例,ISO1087。

[来源:ISO16642:2017,3.21,已修改——在定义中,使用“概念条目”而不是“术语条目”,

添加示例。]

工作语言workinglanguage

概念条目(3.5)中用于描述目标语言(3.18)内容的元语言。

4基本原理和概念

TBX是指由两个交互组件组成的框架:一个核心结构和一个用于定义数据分类模块的形式体系。核

心结构用诸如RelaxNG(RNG)之类的模式定义语言来表示。(核心也由它自己的数据分类模块来表示。)

这种基于组件的方法支持包含在不同术语数据集合中的不同类型的术语数据或数据类目。该方法反映

了术语标记框架(TMF),因为核心结构会反映符合ISO16642的TMF抽象数据模型。此外,它有助于明

确描述TBX框架内任何两种专用语的共同点(核心结构)以及它们之间的差异(在各自的数据分类模

块中表示)。这两个组件的组合定义了一种特定的专用语。没有专用语指示符的“TBX”不是一种文件

格式,它不是一种术语标记语言,它本身也不是一种专用语。

由于术语数据集合差异很大,所以TBX框架假定没有任何一种专用语可以满足所有用户需求。TBX

框架内的所有专用语都遵循第8章中描述的核心结构。核心结构的RelaxNG模式在附录C中引用,元素

和属性在附录A中描述。附录C中引用了核心结构的RelaxNG模式,附录A中描述了元素和属性。

4

GB/TXXXXX—XXXX

专用语在允许哪些数据类目,以及这些数据类目可能出现在概念条目的什么级别方面可能有所不

同。这些对核心结构的约束在一个或多个数据分类模块中得以正式表示。

数据分类模块,或简称为模块,是一个设计符合TBX的专用语时使用的可允许的数据类目及其约

束的列表。约束是数据类目的允许内容(包括标准选项列表值域的子集)和可能出现数据类目的概念条

目的级别(参见第8章)。

注:TBX信息网站[15]上提供了示例数据分类模块。

建议TBX的制订者遵守ISO标准和行业准则,这些准则规范了术语管理的原则和方法以及术语

数据集合的内容和质量,例如第2章和参考文献中所描述的。

TBX文档实例中展现的信息应该是面向概念的。除非另有说明,否则假定单个条目中的术语是同义

词。

此外,如果有两个系统都完全支持某个给定的TBX专用语,那么当术语数据从一个系统导出并导

入另一个系统时,该专用语中的信息可以被保留。在TBX的上下文中,互操作性就意味着这种数据留

存。当两个系统使用不同的TBX专用语时,互操作性会降低,并且可能会丢失数据类目及其内容。因

此,在不指明专用语的情况下声称符合TBX,并不能保证任何程度的互操作性。

5数据类目

概述

数据类目代表了术语和概念的有关信息,例如/partofspeech/和/definition/。附录B中提

供了术语库中常用的数据类目列表,这些和其他数据类目的描述可在数据类目存储库DatCatInfo[10]

中找到。如果使用另一个数据类目存储库来描述数据类目,它也应符合ISO12620。

在运行文本中,例如在本文档中,数据类目名称用正斜杠括起来(例如/partofspeech/)。在

TBX文档实例中,以及在声明了TBX专用语的数据类目的数据分类模块中,应使用驼峰式大小写(例

如partOfSpeech)。DatCatInfo中提供了行业公认的驼峰式数据类目名称。如果附录B中的数据类目

用于TBX文档实例,则应使用附录B中的名称。

核心结构模块中指定的数据类目

在TBX中,以下数据类目在TBX-Core结构中声明,因此可用于所有TBX专用语,并且在所有样式中

以相同的方式表示(参见第6章):

-/date/

-/term/

-/note/

数据分类模块中指定的数据类目

某一特定TBX专用语所需的所有未包含在TBX-Core中的数据类目都记录在该专用语的数据分类

模块中(参见第9章)。这样的附加数据类目可以包括/definition/、/partofspeech/、/context/、

/termtype/等等。一个简单的数据分类模块,例如Min模块,引入了/definition/,但紧接着,一

个例如Basic之类的附加模块通过添加/context/和其他数据类目进一步扩展了模型。因此,TBX-Basic

专用语由TBX-Core、TBX-Min和TBX-Basic模块组成。

6DCA和DCT样式

5

GB/TXXXXX—XXXX

有两种XML样式可用于表示术语数据:DCA(作为属性的数据类目)和DCT(作为标签的数据类目)。

DCA是本文档中示例所使用的样式。

—DCA:<termNotetype="partOfSpeech">adjective</termNote>

—DCT:<partOfSpeech>adjective</partOfSpeech>

在DCA样式中,大多数数据类目都表示为核心结构中声明的元素之一(在这种情况下,<termNote>)

的type属性的值(在上述情况中:/partofspeech/)。

在DCT样式中,大多数数据类目都反映在元素通用标识符名称中。与此数据类目相关联的相应核

心结构元素可选择性地表示为metaType属性的值。。例如:

<partOfSpeechmetaType="termNote">形容词</partOfSpeech>

在这两种情况下,数据类目的值都是XML元素的内容。这两种样式是同构的。也就是说,它们可

以通过算法来回转换而不损失信息。即使省略了metaType属性(例如<partOfSpeech>形容词

</partOfSpeech>),如果算法可以访问一个展现了了每个数据类目相关的核心结构元素的表格,则这两

种表示方法仍然可以从一种转换为另一种。

DCA样式强调TBX专用语之间的相似性。DCA还允许使用通用XML解析器在第一级针对相同的

模式(核心结构)验证所有TBX专用语。

对于习惯使用不同元素名称而不是通过属性值细化元素的XML用户来说,DCT样式看起来更熟悉。

注:有关DCT样式的更多信息可在TBX信息网站[15]上找到。

7专用语

概述

很少有术语集合或应用程序使用完全相同的数据类目集。TBX是一个灵活的框架,因为它允许用户

群选择他们自己的数据类目。如此一来,他们可以创建适合自身需求的自己的专用语。一种TBX专用

语遵循核心结构并实现一个或多个定义的数据分类模块。

专用语命名

专用语名称应以“TBX-”前缀开头,以专用语指示符结尾,例如“Basic”,即TBX-Basic。尽管专

用语没有标准化,但行业团体和公司在过去已经宣布了他们自己的数据模型,以便在公共环境中共享。

公共专用语名称可以发布,从而可供协作使用,例如在TBX信息网站上。

所有TBX专用语都建立在TBX-Core模块之上,该模块包含第8节中描述的基本数据类目。TBX

专用语通过添加一组数据分类模块来扩展核心。例如,一种常见的行业专用语TBX-Basic由三个模块

组成:TBX-Core、TBX-Min和TBX-Basic(见9.6)。

如果通过添加一个或多个数据分类模块扩展了某个专用语,则应在该专用语名称中添加一个有意

义的名称限定符,并用句点“.”分隔开。

示例TBX-Basic.Seo,其中Seo是一个模块的名称,该模块向TBX-Basic专用语中添加一个或

多个数据类目,在这种情况下,包括用于搜索引擎优化(SEO)的数据类目。

注1:TBX信息网站[15]上提供了公共TBX专用语或其专用扩展之间的建议子集关系。

注2:模块和专用语都以“TBX-”前缀开头,并通过描述符“模块”或“专用语”结合它们的名称来加以区分。

专用语示例

本小节描述了一种虚构的TBX专用语,称为TBX-Sample专用语。出于说明目的,这种专用语允

许使用最少的术语信息。

TBX-Sample专用语定义为TBX-Core模块与TBX-Fiction模块的组合:

6

GB/TXXXXX—XXXX

TBX-Sampledialect=TBX-Core模块+TBX-Fiction模块

注:此示例演示了模块名称和专用语名称的不同。

TBX-Fiction模块中包含的数据类目(及其附带的约束)如表1所示:

表1TBX-Fiction模块的模块定义

姓名PID分类值级别

定义/datcat/DC-168<descrip>注释文本概念入口,langSec

学科领域/datcat/DC-489<descrip>金融、制造概念入口

术语类型/datcat/DC-2677<termNote>缩写形式,完整形式

请注意,任何具有<termNote>核心结构(分类)元素的数据类目都被核心结构限制在termSec级

别。因此,/termtype/的级别不需要指明。

TBX-Fiction模块的TBX模块说明(TBXMD)见附录C。

可选模块属性将数据类目标识为属于TBX-Fiction模块。

ExampleTBX-Sampledialect文档实例:

<?xmlversion="1.0"encoding="UTF-8"?>

<tbxxmlns:tbx3="urn:iso:std:iso:30042:ed-2"type="TBX-Sample"style="dca"

xml:lang="en">

<tbxHeader>

<fileDesc>

<sourceDesc>

<p>Asampletermbaseconsistingofoneconceptentry</p>

</sourceDesc>

</fileDesc>

</tbxHeader>

<text>

<body>

<conceptEntryid="c1">

<descriptype="definition"module="Fiction">asumofmoneythat

isexpectedtobepaidbackwithinterest</descrip>

<descriptype="subjectField"module="Fiction">finance</descrip>

<langSecxml:lang="en">

<termSec>

<term>loan</term>

<termNotetype="termType"module="Fiction">

fullForm</termNote>

</termSec>

</langSec>

<langSecxml:lang="fr">

<termSec>

<term>pret</term>

<termNotetype="termType"module="Fiction">

7

GB/TXXXXX—XXXX

fullForm</termNote>

</termSec>

</langSec>

</conceptEntry>

</body>

</text>

</tbx>

专用语符合TBX的要求

TBX文档实例中遵循相同专用语的数据是可互换的。通过定义行业认可的专用语并将其提供给公

众使用,可预计到世界范围内的术语数据集合将有更强的互操作性。

要使一种专用语符合TBX,它应:

a)是一种XML标记语言;

b)有一个符合要求的专用语名称(见7.2);

c)由核心结构模块加上零个或多个附加兼容模块组成;

d)由不重叠的模块组成(见第9章)(如有多个模块);

e)遵循核心模块及其包含的任何其他模块的所有约束。

注:不重叠意味着相同的数据类目不会出现在同一专用语的两个模块中。如果数据类目有相同的PID(持久标识符),

则认为它们是相同的。

一种符合TBX规范的新专用语的规范约束如下:

a)新的专用语应基于TBX-Core模块(见第8章);

注:如果希望与已发布的行业专用语兼容,则可以从该专用语的已发布信息中选择一个或多个数据分类模块,例如

TBX信息网站[15]。

b)如果任何现有模块中都不包含所需的数据类目,则应按照第9章中的准则创建一个新模块;

c)专用语应按照7.2中的命名规则命名。

TBX专用语既可以是公共专用语,也可以是私人专用语。公共专用语响应了可识别的实践社区的需

求,并由全面的专用语描述进行记录。

注:希望分享专用语的用户可以将他们的信息发布在可公开访问的网站上(无需登录),例如TBX信息网站[15]。

验证TBX文档实例

TBX文档实例的扩展名为.tbx。

TBX是一个定义专用语的框架,因此不需要使用任何特定的验证方法或模式定义语言。制订者可以

使用多种方法来验证TBX文档实例。

为符合TBX的要求,一个TBX文档实例应满足以下标准:

a)它应该是格式良好的XML;

b)应符合第8章和附录A中阐述的TBX核心结构;

c)它应指定兼容专用语的名称作为<tbx>根元素的type属性的值;

注:没有在根元素上声明专用语名称的TBX文档实例不符合该文档。它的内容是不可预测的,因此不可互操作。

d)它应根据包含指定专用语约束的集成模式(或等效模式)进行验证。如果验证XML文档实例

时,模式表示之间存在差异,则应满足本文档的要求;

注:如果<tbx>根元素的type属性值是TBX-Core,则TBX文档实例不包含不在核心中的数据类目。

尽管个别专用语本身并没有标准化,但任何声称符合该标准的专用语都可以作为公共或私人专用

语发布在TBXInfo[15]之类的易于访问的网站上。

8

GB/TXXXXX—XXXX

用于验证的模式应使用符合ISO/IEC19757-2和ISO/IEC19757-3的既定的模式定义语言,例如RNG

和Schematron。TBX-Core的RNG模式示例可在TBX信息网站[15]上找到。它可以扩展为包括数

据分类模块的约束,从而生成一个集成模式,该模式可用于验证给定专用语的TBX文档实例。

合规TBX的要求

常见的TBX代理包括导入、导出、修改和补充。修饰符不会更改TBX文档实例的专用语,而丰富

器会使用来自一个或多个附加模块的数据来扩展TBX专用语文档实例,所以生成的TBX专用语文档

实例符合超集专用语定义。

TBX代理的导出、导入、修改或补充TBX兼容数据,应满足以下要求:

导出:

——应生成符合7.5的TBX文档实例;

——应导出声明专用语的所有模块中所需的所有数据类目;

——对于附录B中的数据类目,应使用附录B中所示的数据类目名称;

示例:在TBX中,数据类目/context/是包含该术语的一段文本。如果特定术语库为此目标使用/example/,则

导出器会将/example/的所有实例转换为/context/。

——应导出符合行业惯例的TBX数据类目定义的数据类目(见第5章);

——可以导出可用术语数据的子集。

注:只要子集符合所声明的专用语名称,术语库的子集(一定数量的条目)和条目本身的子集(数据类目的特定选

择)就符合条件。

导入:

——应根据目标术语库定义导入所有数据类目(如果在导入的TBX专用语文档实例中可用);

——如果导入符不支持导入的文档实例中声明的TBX专用语,则可以导入对应于子集专用语的

数据类目的子集;

——可以通过特殊转换器将目标术语库定义中缺少的数据类目转换为/note/;

——如果导入的TBX文档实例不符合其<tbx>根元素上指定的专用语名称,则应拒绝它。

修饰符:

——不应影响对<tbx>根元素上声明的专用语的遵守;

——不应更改指定为<tbx>根元素上的type属性值的专用语名称;

——可以添加目标术语库定义允许的任何数据类目,同时遵守其约束;

——可以添加和删除条目。添加的条目应包含为目标术语库定义的所有强制性数据类目的数据。

补充:

——应按照专用语命名要求(见7.2)修改指定为<tbx>根元素上的type属性值的专用语名称符

合。

示例:<tbxxmlns="urn:iso:std:iso:30042:ed-2"type="TBX-Basic.Seo"style="dca"xml:lang="en">

所有进程都应创建相关的日志文件,以捕捉任何信息损失或冲突。

8核心结构

概述

核心结构定义了所有TBX专用语中使用的通用结构和数据类目。

如果对核心结构的某些技术方面有冲突或争议,本节中的描述优先于所有模式表示(RNG、DTD、XCS

等)。

注3:TBXInfo网站[15]提供了一个符合本条款的RNG模式,必要时可以作为其他模式的模型。

9

GB/TXXXXX—XXXX

注4:本节中描述的核心结构使用DCA风格。

TBX-Core命名空间是:uzn:iso:std:iso:30042:ed-2

上述命名空间应用作所有专用语的TBX文档实例的默认命名空间。

元模型

核心结构反映了TMF(ISO16642)元模型,如图1所示。术语数据集合(TDC)与TBX文档实例相对应。

图1TBX元模型

基数:

—TDC应包含恰好一个GI(1..1)、最多一个CI(0..1)和任意数量的CE(0..*)。

—一个CE可以包含任意数量的LS(0..*)。

—一个LS可以包含任意数量的TS(0..*)。

一个TBX文档实例中最高级别的XML元素是<tbx>元素(指定了属性中的样式和专用语),它由一

个<tbxHeader>元素和一个<text>元素组成(见图2)。

图2中的<text>元素由<body>元素中的概念条目和<back>元素中的可选的补充信息组成。

<tbxHeader>元素对应于TMF元模型中的全局信息,包含对整个术语数据集合的描述(在<fileDesc>

元素中)和该集合的主要修订历史(在<revisionDesc>元素中)。<tbxHeader>的结构和内容相关要求

见附录A。

<body>元素中的每个概念条目都记录了有关一个单一概念的所有术语和相关信息。因此,概念条目

包含在核心结构元素<conceptEntry>中。

10

GB/TXXXXX—XXXX

?=可选,但只允许一个

+=至少需要一项

Nosign=应只出现一次

图2TBX结构

概念条目中元素的位置

8.3.1可能出现在多个级别的元素

表2中描述的核心结构元素(在图3中由auxInfo表示并在图4中详细说明)可能出现在条目的三个

级别中的任何一个:概念级别(<conceptEntry>),语言级别(<langSec>),术语级别(<termSec>)。

表2可能出现在多个级别的元素

一个符合ISO8601-1和ISO8601-2格式的日期。允许的日期值应符合ISO8601-1和ISO8601-2并使用

<date>

yyyy-mm-dd格式。日期元素用于<transacGrp>元素。

提供有关所讨论节点的描述性信息。描述信息的类型由数据类目表示,它被实例化为type属性的值。如数

<descrip>据分类模块中所示,数据类目可能被限制在条目的某些级别上。它可能单独出现,也可能嵌套在一个

<descripGrp>元素中(如果需要将附加信息与描述相关联起来,例如管理信息)。

包含一个<descrip>元素,后面有零个或多个

<descripGrp>

<descripNote>,<admin>,<adminGrp>,<transacGrp>,<note>,<ref>,和<xref>元素。

包含有关节点的管理性质的信息,例如信息的来源,或者它适用的项目或客户。管理信息的类型由数据类

<admin>目表示,它被实例化为type属性的值。它可以单独出现,也可以嵌套在一个<adminGrp>元素中(如果需要

提供额外的信息,例如注释或参考)。

<adminGrp>包含一个<admin>元素,后面有零个或多个<adminNote>,<note>,<ref>,和<xref>元素。

<adminNote>包含一些管理信息,例如注释或其他文本的来源。

11

GB/TXXXXX—XXXX

包含一个<transac>元素,后面有零个或多个<transacNote>,<date>,<note>,<ref>,和<xref>元素。它包

<transacGrp>含有关交易的信息,例如执行日期或执行人。日期由<date>元素指定,负责交易的个人或实体的名称由

<transacNote>元素指定。

<note>包含任何类型的注释。

<ref>指向<tbx>元素另一个元素的交叉引用。

<xref>使用URI(URL或其他Web地址)指向外部对象的交叉引用。

+=至少需要一项

*=可选,允许一个或多个

Nosign=应只出现一次

图3概念条目

12

GB/TXXXXX—XXXX

*=可选,允许一个或多个

Nosign=应只出现一次

图4辅助信息

8.3.2仅在术语级别出现的元素

条目层次中的术语级别与图3中的<termSec>相对应。它包含一个<term>元素,后面有零个或多个

<termNote>和/或<termNoteGrp>元素,在后面是8.3.1中描述的、并由auxInfo实体引用的任何元素。

表3中是仅在术语级别出现的元素。

表3仅出现在术语级别的元素

<term>包含一个术语。

<termNoteGrp>一个嵌套元素,允许一个<termNote>,后面是额外的管理或交易信息,<note>,或者<xref>元素。

根据type属性的值,提供有关一个术语的不同类型的信息。例如,它可能包含性别或词性之类的语法

<termNote>

信息,对其他相关术语的引用,还有术语的来源或用于什么项目之类的管理信息等。

核心结构的三个层次出现在几乎所有的术语数据集合中。术语组件的附加级别仅用于描述术语部

分属性的术语数据集合,例如多单词术语中的单个单词或构成单个单词术语的词素。这个被封装在

<termCompSec>中的术语组件级别通过一个专用模块实现。

注:参见附录C和TBX信息网站[15]以获得关于术语组件模块的支持信息。

元素类型

8.4.1起到分类或分组作用的元素

几个关键的核心结构元素起分类作用,将具有相似目的的数据类目分组,后者被实例化为核心结构

元素上的type属性的值。例如,<descrip>元素主要包含对一个概念的描述(例如它的主题字段),

<termNote>元素描述了术语的属性(例如它的词性或它出现的上下文),<admin>元素包含各种管理信

息(例如来源和用户名)。在数据分类模块中声明被允许作为这些元素的类型值的数据类目。例如,元

素<descriptype="definition">对应于/definition/数据类目,并且,事实上数据分类模块中声明

了在核心结构中声明的<descrip>元素允许/definition/作为其类型属性的值。

这些TBX分类要素包括以下内容:

—<admin>

—<adminNote>

—<descrip>

—<descripNote>

—<termNote>

—<transac>

—<transacNote>

—<ref>

—<xref>

有一些起分组作用的嵌套元素,它们还与核心结构元素上type属性的两种特殊用途有关。第一种情

况涉及元素<refObjectSec>,它是一个嵌套元素,包含一组项目(被引用对象)。它的type属性表征了

13

GB/TXXXXX—XXXX

子元素,即被引用的对象(参见10.2、10.3和10.6中的示例)。例如,type属性值“bibl”表示引用

的对象是书目。这是继承原则的一个例子,其中子元素继承其父元素的type属性。

第二种情况涉及<termNoteGrp>,<transacGrp>和<descripGrp>,它们也是嵌套元素。这些元素不应

具有type属性。在这些情况下,类型属性应在主要子元素上显示。参见10.7中<transacGrp>的例子。这

个例子表明,<transacGrp>描述的交易的类型被表示为子元素<transac>的内容。这是反向继承原理的

一个例子。

8.4.2表示数据类目的元素

核心结构中直接代表数据类目的元素列表,请参见第5章。

8.4.3内联标记元素

内联标记元素用于指定文本字符串的语言或功能,或用于使TBX文档实例各种其他标记(例如HTML

或文本处理标记)。包含需要保留但不需要处理的各种其他标记在术语管理功能期间。这些标记需要保

留,但在术语管理功能中不需要处理。内联标记元素是核心的一部分。TBX支持以下元素:

—<foreign>

—<hi>

—<sc>

—<ec>

—<ph>

<sc>,<ec>和<ph>的内容模型采用了ISO21720(XLIFF2.0版)。其他元素是TBX特有的。

元素<sc>,<ec>和<ph>旨在与ISO21720中的相应元素进行映射。TBX代理应遵守ISO21720中规定

的对相应元素及其属性的所有相关约束和处理要求。

ISO21720中,属性id和startRef的数据类型是xsd:NMTOKEN,并且根据具有XLIFF特定唯一性

要求的XLIFF特定片段识别机制起作用。它们在TBX中对应的属性的数据类型分别为xsd:ID和

xsd:IDREF,并遵循标准的XML片段标识机制。在TBX中,数据类型为xsd:NMTOKEN的XLIFF属

性dataRef被替换为数据类型为xsd:IDREF的属性target。属性disp、equiv、isolated、subType

和type的行为应与XLIFF中的完全相同,以便于映射。

<foreign>元素用于标记与周围文本语言不同的文本段。可选的xml:lang属性可用于标识此元素中

包含的文本的语言,如下例所示。

示例1:<note>泡菜是一种韩国菜,由腌制、发酵的蔬菜组成。这个词来源于<foreignxml:lang="ko-

KR">김치</foreign>用韩语。</note>。

<hi>元素为各种处理目的划定了一段文本,例如标记数学表达式,或标记一个定义或其他文本字段

中的隐含术语。在<term>元素中也允许使用<hi>元素来标记术语的一部分,例如下标或上标中的字符,

或术语中的斜体及其他需要不同格式的组件。以下示例显示了术语“canopy”定义中的一个隐含术语。

示例2:<descriptype="definition">a的扩展的、伞状的部分<hitype="entailedTerm"target="CID1234">降

落伞</hi></descrip>.

<sc>元素用于表示成对的原始代码序列中的第一个(例如,HTML<strong>标记的开始部分)。在同

一个封闭的<descrip>元素中,每个<sc>之后应该有一个相应的<ec>元素,除非它被标记为孤立代码。

<ec>元素用于表示成对的原始代码序列中的最后一个(例如,结尾的</strong>标记)。在同一个

封闭的<descrip>元素中,每个<ec>之前应该有一个相应的<sc>元素,除非它被标记为孤立代码。

下面的示例显示了HTML中的一些文本,后面是其作为/context/的TBX表示。

示例3:<p>板球是一种用球棒和球在被称为<i>地面</i>的大场地上进行的运动。</p>.

14

GB/TXXXXX—XXXX

<descriptype="context">板球是一种用球棒和球在广阔的场地上进行的运动,被称为<scid="i1"type="fmt"

subtype="xlf:i"/>地面<ecstartRef="i1"type="fmt"subtype="xlf:i"/>.</descrip>

原始数据不得与线性内联内容混合。如果需要保留原始数据以供以后处理或重用,则应使用一个

target属性来引用包含在TBX附录中的原始数据。数据模型和使用说明见10.8。

下面是一个需要包含或映射在附录中的原始数据结构的示例(使用内联标记中的一个target属性)。

示例4:<originalData>

<dataid="d1"><i></data>

数据id="d2"></i></data>

</originalData>

除非属性-值对isolated="yes"用于标记孤立代码,否则在<sc>中需要使用id属性,并且在<ec>中

需要使用startRef属性,这样,每个末端代码就能明确地链接到它的起始代码,反之亦然。

startRef和isolated="yes"机制为TBX提供了支持,以标记重叠或其他格式不正确的代码范围,

如以下不正确但可能的HTML构造:

示例5:这是<i>一些嵌套不当的<b>示例HTML</b></i>标记。

上面的标记将用<sc>和<ec>表示如下:

示例6:这是<scid="1"type="fmt"subtype="xlf:i"/>一些<scid="2"type="fmt"subtype="xlf:b"/>示例

HTML<ecstartRef="1"type="fmt"subtype="xlf:i"/>标记<ecstartRef="2"type="fmt"subtype="xlf:b"/>嵌套不

当。

下面是一个需要包含或映射在附录中的原始数据结构的例子:

示例7:<originalData>

<dataid="d1"><i></data>

<dataid="d2"><b></data>

<dataid="d3"></i></data>

<dataid="d4"></b></data>

</originalData>

id属性的值在其共同封装的<descrip>元素中应该是唯一的。

最后,<ph>元素用于表示原生独立代码或此类代码的序列(例如HTML<br>标签)。它不应用于表

示出现在逻辑对中的代码或配对代码的孤立部分:

示例8:<descriptype="context">板球是一种在被称为场地的大场地上用球棒和球进行的运动。<phid=”d1"

type="fmt"subtype="xlf:lb"/>每个阶段的比赛称为一局,在此期间,一支球队击球,试图得分尽可能多的得分。

</descrip>.

下面是一个需要包含或映射在附录中的原始数据结构的例子:

示例9:<originalData>

<dataid="d1"><br/></data>

</originalData>

属性

8.5.1类型

在DCA样式中,核心结构元素上的type属性指定了一个数据类目。例如,<descrip

type="definition">表示/definition/数据类目。

8.5.2xml:lang

15

GB/TXXXXX—XXXX

<tbx>根元素应具有xml:lang属性。xml:lang属性的值通过TBX文档实例向下继承,直到被另一个

xml:lang属性覆盖。因此,<tbx>元素中指定的语言就是整个TBX文档实例的工作语言。每个<langSec>

元素也应有一个xml:lang属性来表示此语言部分描述的语言。这是语言部分的目标语言。除非被子元素

上的另一个xml:lang属性覆盖,否则一个语言部分中所有元素的内容都被假定为采用了<langSec>元素

的xml:lang属性所指定的语言。这不适用于作为选项列表值的元素的内容。因此,除非另有说明,否则

概念入口级别的<descriptype="definition">元素的内容应采用TBX文档实例的工作语言,并且语

言部分中的注释应使用与该语言部分相同的语言,除非另有明确的xml:lang属性指定。

IETFBCP47[13]中确定了TBX中的xml:lang属性的允许值。

8.5.3id和目标

id和target属性共同作用,以在同一TBX文档实例中的元素之间明确指向。例如,一个条目:

<conceptEntryid="database-5574">

...(“猎犬”条目)

</conceptEntry>

可以被另一个条目所指向:

<conceptEntryid="database-5523">

<descriptype="superordinateConceptGeneric"target="database-5574">打猎

狗</descrip>

...(“猎犬”[一种猎犬]的条目)

</conceptEntry>

第二个条目中的内容“猎犬”是为了显示目的。它为指向目标条目的链接提供了一个可见的标签。

target属性应指向<xref>的一个外部对象。的target属性的值应是一个使用HTTP或HTTPS协议

的绝对外部URL。

8.5.4模块

可选模块属性可用于DCA样式标记,以指示从中选择数据类目的模块。此属性有助于与DCT样

式标记的并行性,后者具有命名空间机制来指示数据类目的模块。Module/模块属性的值是所述模块的

规定名称。

文本类型

TBX中元素和属性的默认文本类型是符合XSD:string的无限制的字符串(纯文本)。

为TBX元素声明了两个额外的混合数据实体:

基本文本:除了纯文本,基本文本可能包含一个或多个<hi>元素来表示一些高度受限的内联标记样

式。基本文本主要用于<term>。但是,它也用于表达如<descriptype="shortFormFor">之类的术语的

数据类目的内容,这种限制在数据分类模块中被声明为一种约束。

注释文本:除了基本文本中允许的<hi>之外,注释文本还允许<foreign>,<sc/>,<ec/>,和<ph/>。

注释文本由核心结构元素使用,这些元素表示具有潜在内联标记要求的数据类目,例如/definition/

或/usagenote/。在DCA样式中,这些数据类目用<descrip>或者<termNote>元素来表示,因此这两个

元素默认允许注释文本,但这可能在数据分类模块中被进一步约束。

字符集和编码

TBX文档实例应采用Unicode,符合ISO/IEC10646、UTF-8或UTF-16或UTF-32。

16

GB/TXXXXX—XXXX

9定义数据分类模块

概述

本节详细说明了现有模块不适合创建特定专用语的情况下,定义一个新数据分类模块的过程,描述

了旨在用于公共专用语的数据分类模块的要求。对于供私人使用的模块,本节的内容只是建议。

模块的规范定义应以散文形式编写(7.3中提供了一个模块定义的例子)。此外,TBX模块描述

(TBXMD)形式可用于编写一个模块的机器可处理描述(参见附录C)。

定义一个模块有四个步骤:

1)命名该模块;

2)选择一个或多个数据类目;

3)定义数据类目属性;

4)定义数据类目约束。

命名模块

模块名称应为NMTOKEN。模块名称在公共模块中是应唯一的。如果模块是专门为某个专用语创建

的,该模块不必与专用语同名。

模块名称不得包含“.”字符,因为该字符要用于已扩展的专用语名称。

“核心”是为本文档中定义的核心结构保留的名称,不得用于命名任何其他模块。

选择数据类目

DatCatInfo[10]中提供了行业认可的数据类目。如果附录B或DatCatInfo中不存在所需的数据

类目,则可以为该模块定义一个新类别。

符合TBX的模块不应引入与TBX核心结构中声明的数据类目的语义意图重复或重叠的新数据类

目(参见第5条)。如果多个符合TBX的模块被用于单个专用语中,则它们不应有任何共同的数据类

目,因为在TBX专用语的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论