(高清版)GBT 20092.1-2022 中文新闻信息内容 第1部分:概念模型_第1页
(高清版)GBT 20092.1-2022 中文新闻信息内容 第1部分:概念模型_第2页
(高清版)GBT 20092.1-2022 中文新闻信息内容 第1部分:概念模型_第3页
(高清版)GBT 20092.1-2022 中文新闻信息内容 第1部分:概念模型_第4页
(高清版)GBT 20092.1-2022 中文新闻信息内容 第1部分:概念模型_第5页
已阅读5页,还剩8页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

部分代替GB/T20092—2013中文新闻信息内容第1部分:概念模型2022-10-12发布2022-10-12实施IGB/T20092.1—2022前言 12规范性引用文件 13术语和定义 14概念模型 24.1总体结构 24.2文档层模型 44.3稿件层模型 44.4内容项层模型 64.5元数据组描述机制 74.6关系机制 74.7受控词表机制 8Ⅲ本文件按照GB/T1.1—2020《标准化工作导则第1部分:标准化文件的结构和起草规则》的规定起草。本文件是GB/T20092《中文新闻信息内容》的第1部分。GB/T20092已经发布了以下部分:——第1部分:概念模型;——第2部分:新闻元数据;——第3部分:数据交换的XML格式。本文件代替GB/T20092—2013《中文新闻信息置标语言》中的第6章“CNML体系结构”,与GB/T20092—2013相比,除结构调整和编辑性改动外,主要技术变化如下:——删除了原则(见2013年版的6.1);——将“CNML体系结构”更改为“概念模型”,并将2013年版的有关内容更改后纳入(见第4章,2013年版的8.1和9.1)。请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。本文件由全国中文新闻信息标准化技术委员会(SAC/TC352)提出并归口。本文件起草单位:新华通讯社、清华大学、国家应用软件产品质量检验检测中心、北京中联合超高清协同技术中心有限公司、北京北大方正电子有限公司、中国科学院计算机网络信息中心、北京智途云天科技有限公司、视觉(中国)文化发展股份有限公司、北京北科光大信息技术股份有限公司、中国人民大学、中国传媒大学、中国大百科全书出版社有限公司、杭州前方信息技术有限公司、东南大学、新华网股份有限公司、中国互联网新闻中心、南方报业传媒集团、重庆日报报业集团、青苹果数据中心有限公司、北京中科大洋科技发展股份有限公司。本文件主要起草人:武国卫、黄菁、张鹏、王威、王付生、朱建波、朱艳华、丁峰、王骏清、王堃越、本文件所代替文件的历次版本发布情况为:——2006年首次发布为GB/T20092—2006,2013年第一次修订;——本次为第二次修订。GB/T20092—2013自发布实施以来,已在很多新闻媒体单位的应用系统中使用。近年来,在标准实施过程中不断涌现一些新的应用场景,产生一些新的应用需求。新闻媒体的部分应用系统也逐渐不再使用XML格式,使用JSON格式传输稿件的应用越来越多。因为GB/T20092—2013定义的技术内容主要是基于XML格式定义的,已经逐渐不适应新闻媒体的应用需求,所以本次修订的主要目的是避免将标准的内容局限于某一种技术,把中文新闻信息内容的概念模式和新闻元数据独立出来,并将新闻信息内容的XML格式和JSON格式单独进行规范和定义,从而使标准的范围更加明确,定义更加清晰。GB/T20092旨在定义普遍适用于中文新闻信息内容采集、编辑、生成、发布、交换、存储、检索、评估反馈等新闻信息生命周期的各个环节的描述规范,为适应最新技术在新闻媒体中的实际需要,使标准更具有可用性,将标准名称改为《中文新闻信息内容》,拟由四个部分构成。——第1部分:概念模型。目的在于建立新闻行业中文新闻信息的抽象概念模型,规范中文新闻信息文档的总体结构和描述方式,为新闻内容使用者提供指导。——第2部分:新闻元数据。目的在于规范描述中文新闻信息内容的各类元数据,便于在新闻媒体行业信息系统中实现信息内容的统一表达,一致描述。——第3部分:数据交换的XML格式。目的在于规定基于XML的中文新闻信息数据交换格式,为新闻媒体信息系统的建设提供技术支持。——第4部分:数据交换的JSON格式。目的在于规定基于JSON的中文新闻信息数据交换格式,为新闻媒体信息系统的建设提供技术支持。1中文新闻信息内容第1部分:概念模型本文件规定了新闻行业中文新闻信息的抽象概念模型,包括文档层模型、稿件层模型和内容项层模型,以及元数据组描述机制、关系机制和受控词表机制。周期的各个环节。也适用于报刊、广播、电视、通讯社、新闻网站、社交媒体等新闻内容提供商及媒体应用与研究机构。2规范性引用文件本文件没有规范性引用文件。3术语和定义下列术语和定义适用于本文件。定义和描述元数据的数据。受控词表controlledvocabulary从专业的角度将同一范畴的主题进行归类后形成的词表,并允许以受控的方式进行词条修改和扩展。符合本概念模型的一篇或者若干篇新闻信息内容数据的集合。文档中包含的可管理业务对象,一般有完整的元数据和内容,表示一个完整的新闻信息或其他定义信息。档等不同类型的数据内容及其元数据。信封envelop完成新闻信息交换功能的组件结构。2的一组特定的新闻用户对应。对产品内容的一种细分方式。注:栏目可以是稿件的一种内容属性,也可以是展示属性。4概念模型概念模型总体架构如图1所示。3词表编目信封稿件稿件元数据数据内容内容项关系(*)内容项稿件关系集合稿件关系(*)稿件关系(*)稿件稿件稿件稿件权利型元数据组管理型元数据组权利型元数据组描述型元数据组描述型元数据组内容项关系(*)物理元数据组内容项内容项内容项图1概念模型总体架构本文件规定了对新闻信息文档的描述方式,一个新闻信息文档包含了文档层、稿件层和内容项层的三层结构。一个新闻信息文档可以包含一个或多个稿件,一个稿件可以由一个或多个内容项组成。属于同一文档的不同稿件组成一个稿件序列,稿件之间的关系描述与稿件的内容描述分离。属于同一内容项层的内容组成一个序列,内容项之间的关系描述与内容项的描述分离。在文档层中定义了用于文档通讯控制过程中的信息即信封结构。在稿件层和内容项层的描述中,定义了稿件层和内容项层的元数据组。同时,稿件还定义了关系描述、受控词表的定义和引用机制。4文档层模型由四部分组成,即词表编目、信封、稿件集合和稿件关系集合,如图2所示。具体定义如下。a)词表编目:用简化的别名描述文档中使用的受控词表。b)信封:新闻信息交换功能的组件结构,描述了如下信息:1)传输标识:文档传输的标识符;2)系统标识:生成发布文档的系统名称;3)发送时间:稿件的实际发送时间;4)定时发布时间:稿件的计划发送时间;5)发送方:发送稿件的人或机构;7)发稿优先级:稿件的优先级;8)服务信息:新闻单位提供的新闻服务;9)产品信息:从新闻内容的角度出发,按照特定的分类方法具备相同内容特征的新闻数据。c)稿件集合:包含一个或多个稿件的内容集合。d)稿件关系集合:包含对各个稿件之间关系的描述集合。文档词表编目新闻稿件(稿件实例3)新闻稿件新闻稿件(稿件实例3)新闻稿件(稿件实例1)(稿件实例2)稿件关系集合派生关系(稿件关系实例1)派生关系(稿件关系实例1)(稿件关系实例2)稿件引用稿件引用稿件引用稿件引用图2文档层模型示意图词表编目结构提供了简化受控词表使用的可选机制。在文档开始位置通过词表编目提供了对使用的受控词表进行简短的别名定义和外部引用的机制。4.3稿件层模型稿件层模型由三部分组成,即稿件元数据集合、稿件内容集合、稿件内容项关系集合。如图3所示。5具体定义如下:a)稿件元数据集合:包含一个稿件管理型元数据组,一个可选的描述型元数据组、一个可选的权利型元数据组;还可以包含多个可扩展的其他元数据组实例;b)稿件内容集合:包含一个或多个具体内容项,不同类型的稿件拥有不同类型的内容;c)稿件内容项关系集合:包含一到多个组成稿件的多个内容项之间的关系。稿件元数据权利型元数据组管理型元数据组描述型元数据组权利型元数据组管理型元数据组可扩展元数据纽(*)内容集合内容项内容项内容项内容项内容项内容项关系集合内容项关系纽关系关系关系关系关系图3稿件层模型示意图稿件是文档中包含的可管理业务对象。本文件将稿件定义为描述型稿件和管理型稿件,描述型稿件指具有实际内容项的稿件,管理型稿件用于描述对应稿件的管理信息。描述型稿件分为实体类型稿件和抽象类型稿件。实体类型稿件可以是新闻稿件、广告稿件等,每个实体类型稿件中含有一个或多个具体的物理内容项。抽象类型稿件可以是引用稿件,引用稿件中内容项只定义对内容项的引用的序列。管理型稿件可以是数字签名类型稿件、统计类型稿件、受控词表类型稿件等。为了方便对各类型稿件的管理和描述,本文件定义了如图4所示的多层次的稿件分类。6稿件稿件实体类型稿件抽象类型稿件数字签名型稿件统计型稿件受控词表型稿件广告稿件图4稿件分类图4.4内容项层模型内容项是实体类型稿件包含的具体内容,内容项层模型包括两部分组成,即内容项元数据集合和数据内容,如图5所示。具体定义如下。a)内容项元数据集合包含一个可选的物理元数据组、一个可选的描述型元数据组、一个可选的权利型元数据组,还可以包含多个其他类型的内容项元数据组;内容项层描述型元数据组和权利型元数据组定义复用稿件层的描述型元数据组和权利型元数据组的定义,即包含的元数据项定义统一。内容项物理元数据组根据稿件内容的不同媒体类型分别定义。b)数据内容是内容项包含的数据,可以以外部引用的方式存在,也可以嵌入到文档中,如果内容项数据是二进制数据,则嵌入时需要进行编码。内容项权利型元数据组描述型元数据组权利型元数据组可扩展型元数据纽(*)数据内容图5内容项模型示意图一个实体类型稿件既可以由多种不同类型的内容项组成,也可以包含同一类型的不同内容项。根据稿件内容的不同媒体类型,本文件定义了以下类型的内容项:7a)文本类型内容项:包含的数据内容是文字类型的数据;b)图片类型内容项:包含的数据内容是图片类型的数据,图片类型数据包括由输入设备捕捉的实际场景画面或以数字化形式存储的任意画面,存储格式有BMP、JPG、GIF等;c)图形类型内容项:包含的数据内容是图形类型的数据,图形类型数据包括用计算机绘制的画d)音频类型内容项:包含的数据内容是音频数据;e)视音频类型内容项:包含的数据内容包含音频和视频数据;f)关键帧内容项元数据组:包含的数据内容是视音频数据的关键帧数据;g)多媒体类型内容项:包含的数据内容是多媒体类型的数据,多媒体类型的数据包括网页类型的内容数据,即丰富文本数据或网页数据,描述方式多采用HTML或XHTML格式;h)应用文档类型内容项:包含的数据内容是嵌入的一个应用文档。4.5元数据组描述机制本文件对一个信息实体的元数据描述分为若干个元数据组,每个元数据组内包含一个到多个元数据项,每个元数据项是对信息实体的一个属性的描述。本文件定义了四类新闻信息元数据,每一类定义为一个元数据组,用户也可以基于标准中元数据组基础结构引入新的元数据组。四类新闻信息元数据描述如下:a)新闻信息描述类元数据(即描述型元数据组):从信息共享和数据交互的需要出发,元数据最基本的功能是用于对信息资源的内容、属性进行详细、全面的描述,以完整反映信息资源对象的全貌,帮助用户了解数据;该类元数据可出现在稿件层和内容项层;b)新闻信息管理类元数据(即管理型元数据组):提供新闻信息资源的存储、使用、管理、传输等方面的信息;该类元数据仅在稿件层出现;c)新闻信息权利类元数据(即权利型元数据组):提供新闻信息其拥有者、版权等信息内容;可出现在稿件层和内容项层;d)新闻信息物理属性类元数据(即物理元数据组):对新闻信息物理属性、实体文件信息进行全面详细地描述;该类元数据仅在内容项层出现。本文件支持对元数据的元数据信息(即元元数据)的描述;除上述四类元数据外,用户可以对标准元数据组进行扩展。本文件根据元数据项取值特性,将其分成以下类型:——简单元数据项:该类元数据项的取值可以通过字符串进行表示;——基本元数据项:该类元数据项的取值可以通过字符串进行表示;——自定义取值类型的简单元数据项:该类元数据项的取值为简单数据类型,取值最终可以表示为一个字符串;——通过受控词表限定其取值的元数据项:该类元数据项的取值通过字符串进行表示,但是字符串的取值应为受控词表中定义的一个词表项;——复杂元数据项:该类元数据项的取值相对复杂,无法通过一个简单的字符串进行描述,而应通过具备一定结构的数据模型进行描述。本文件定义了用于描述同一类型信息实体之间的相互作用的关系结构,如图6所示。本文件以关系组作为关系描述的载体。关系组用于对同层次上,具有同种类型的实体之间的关系进行描述。本文件定义了包括稿件层稿件之间的关系、内容项层内容之间的关系等在内的各种类型的关系。8关系集合关系组关系关系名元素引用元素引用元素引用元素引用集元素引用元素引用元素引用集元素引用元素引用关系关系关系关系图6关系结构示意图本文件规定:a)同一类型实体间的关系用关系组描述;b)每个关系组中可以包含一到多个关系;c)每个关系描述具有同一种关系名称的关系源和目标源的集合;d)每个关系中具有一个或多个关系源和关系目标组成的对;e)关系描述中具有一到多个关系元数据的描述。本文件将关系定义为下面四部分内容:——关系名称:关系的语义概念;——关系源:关系的发源体;——关系目标:关系的接受体;——关系的元数据:描述关系的元数据,每一项元数据都为简单元数据项类型。本文件定义的实体关系包括稿件之间、内容项之间的关系。4.7受控词表机制受控

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论