• 现行
  • 正在执行有效
  • 2017-07-12 颁布
  • 2018-02-01 实施
©正版授权
GB/T 33994-2017信息和文献WARC文件格式_第1页
GB/T 33994-2017信息和文献WARC文件格式_第2页
GB/T 33994-2017信息和文献WARC文件格式_第3页
GB/T 33994-2017信息和文献WARC文件格式_第4页
免费预览已结束,剩余28页可下载查看

下载本文档

文档简介

ICS3524030

A14..

中华人民共和国国家标准

GB/T33994—2017/ISO285002009

:

信息和文献WARC文件格式

Informationanddocumentation—WARCfileformat

(ISO28500:2009,IDT)

2017-07-12发布2018-02-01实施

中华人民共和国国家质量监督检验检疫总局发布

中国国家标准化管理委员会

GB/T33994—2017/ISO285002009

:

前言

本标准按照给出的规则起草

GB/T1.1—2009。

本标准使用翻译法等同采用信息和文献文件格式

ISO28500:2009《WARC》。

与本标准中规范性引用的国际文件有一致性对应关系的我国文件如下

:

数据元和交换格式信息交换日期和时间表示法

———GB/T7408—2005(ISO8601:2000,

IDT)。

本标准做了下列编辑性修改

:

增加了缩略语见

———:LWS、MIME、US-ASCII(3.2);

为了增强易读性在保留国际标准中示例的基础上将部分示例替换为国内示例见附录

———,,(B)。

本标准由全国信息与文献标准化技术委员会提出并归口

(SAC/TC4)。

本标准起草单位国家图书馆中国科学院文献情报中心中国国防科技信息中心中国科技信息研

:、、、

究所北京万方数据股份有限公司

、。

本标准主要起草人毛雅君李春明吴振新真溱曲云鹏张晓丹张兰杨贺敦文杰张彪

:、、、、、、、、、。

GB/T33994—2017/ISO285002009

:

引言

每天网站和网页从互联网上产生或消失十多年来记忆存储组织尝试用网络规模工具如网络

,。,(

爬虫寻找最适宜采集并跟踪记录海量的重要信息的方法与此同时记忆存储组织对保存非网络抓取

)。,

的数字化资源的需求也与日俱增如整套电子期刊或环境感应设备生成的数据出现了一种需求即

(,)。,

希望能有一种文件格式通过一个文件简单并安全地承载大量组成文件的数据对象以便进行存储管

,,、

理和交换

网络存档文件格式提供了一个由多个资源记录数据对象连接成一个长

WARC(WebARChive,)()

文件的协议其中每个资源记录由一组简单文本标头和任意数据内容块构成格式是文

,。WARCARC

件格式的扩展格式将作为组织管理和储存采集来自网络和其他数以亿计的数字资源的一种

。WARC、

标准可用于构建收割如网络爬虫一种开源软件管理访问和交换内容等各种应用

,(Heritrix,)、、。

除了用记录的原始内容外扩展的格式还容纳相关的二次级内容如分配的元数据

ARC,WARC,、

缩减的重复检测活动后期转换及大型资源的切分等

、。

GB/T33994—2017/ISO285002009

:

信息和文献WARC文件格式

1范围

本标准规定了文件格式

WARC:

存储来自于主流互联网应用层协议如和的有效载荷内容和控制信息

———(HTTP、DNSFTP);

存储与其他已存储数据如主题分类语言编码相关的任意元数据

———(、、);

支持数据压缩且保证数据记录的完整性

———,;

存储来自收割协议的全部控制信息如请求标头信息而不仅仅是响应信息

———(),;

存储与其他已存储数据相关的数据转换结果

———;

存储与其他已存储数据相关的重复监测活动当相同或者大体相似的资源出现时可以减少存

———(,

储消耗

);

在不中断当前功能的情况下进行扩展

———;

支持对超长记录在所需处进行截断或分段操作

———。

2规范性引用文件

下列文件对于本文件的应用是必不可少的凡是注日期的引用文件仅注日期的版本适用于本文

。,

件凡是不注日期的引用文件其最新版本包括所有的修改单适用于本文件

。,()。

数据元和交换格式信息交换日期和时间表示法

ISO8601(Dataelementsandinterchange

formats—Informationinterchange—Representationofdatesandtimes)

域名实现及标准

RFC1035(Domainnames—Implementationandspecification)

地址架构

RFC1884IPV6(IPVersion6AddressingArchitecture)

多用途互联网邮件扩展第部分互联网消息正文的格式

RFC2045(MIME)1:[Multipurpose

InternetMailExtensions(MIME)PartOne:FormatofInternetMessageBodies]

分离域名解析系统信息

RFC2540(DNS)[DetachedDomainNameSystem(DNS)Information]

超文本传输协议

RFC2616—HTTP/1.1(HypertextTransferProtocol—HTTP/1.1)

互联网消息格式

RFC2822(InternetMessageFormat)

的一种转换格式

RFC3629UTF-8———ISO10646(UTF-8,atransformationformatofISO10646)

温馨提示

  • 1. 本站所提供的标准文本仅供个人学习、研究之用,未经授权,严禁复制、发行、汇编、翻译或网络传播等,侵权必究。
  • 2. 本站所提供的标准均为PDF格式电子版文本(可阅读打印),因数字商品的特殊性,一经售出,不提供退换货服务。
  • 3. 标准文档要求电子版与印刷版保持一致,所以下载的文档中可能包含空白页,非文档质量问题。

评论

0/150

提交评论