标准解读
《GB/T 33994-2017 信息和文献 WARC文件格式》是中国国家标准之一,它规定了用于长期保存网页和其他数字资源的WARC(Web ARChive)文件格式。该标准主要参考国际互联网档案馆提出的相关规范,并结合国内实际情况进行了适应性调整,旨在为我国的信息资源长期保存提供技术支持。
WARC文件格式是一种用于存储网络爬虫抓取结果或其他类型数字内容的数据封装格式。与早期使用的ARC文件格式相比,WARC增加了更多元化的记录类型支持以及更丰富的元数据描述能力,能够更好地满足不同应用场景下对数字资源归档的需求。
根据该标准定义,一个完整的WARC文件由一系列连续排列的WARC记录组成,每个WARC记录又包含了若干个部分:版本号、记录头、可选的内容块等。其中,记录头使用键值对形式来表示关于该条记录的各种属性信息;而内容块则用来存放实际捕获到的数据内容。此外,还允许在记录之间插入填充字节以确保特定位置上的边界对齐要求得到满足。
对于每种类型的WARC记录(如“响应”、“请求”、“重定向”等),标准都给出了详细的结构说明及示例,以便于开发者理解和实现相应的读写功能。同时,为了保证WARC文件能够在不同系统间进行互操作,《GB/T 33994-2017》也明确了编码规则、压缩算法选择等方面的指导原则。
如需获取更多详尽信息,请直接参考下方经官方授权发布的权威标准文档。
....
查看全部
- 现行
- 正在执行有效
- 2017-07-12 颁布
- 2018-02-01 实施




文档简介
ICS3524030
A14..
中华人民共和国国家标准
GB/T33994—2017/ISO285002009
:
信息和文献WARC文件格式
Informationanddocumentation—WARCfileformat
(ISO28500:2009,IDT)
2017-07-12发布2018-02-01实施
中华人民共和国国家质量监督检验检疫总局发布
中国国家标准化管理委员会
GB/T33994—2017/ISO285002009
:
前言
本标准按照给出的规则起草
GB/T1.1—2009。
本标准使用翻译法等同采用信息和文献文件格式
ISO28500:2009《WARC》。
与本标准中规范性引用的国际文件有一致性对应关系的我国文件如下
:
数据元和交换格式信息交换日期和时间表示法
———GB/T7408—2005(ISO8601:2000,
IDT)。
本标准做了下列编辑性修改
:
增加了缩略语见
———:LWS、MIME、US-ASCII(3.2);
为了增强易读性在保留国际标准中示例的基础上将部分示例替换为国内示例见附录
———,,(B)。
本标准由全国信息与文献标准化技术委员会提出并归口
(SAC/TC4)。
本标准起草单位国家图书馆中国科学院文献情报中心中国国防科技信息中心中国科技信息研
:、、、
究所北京万方数据股份有限公司
、。
本标准主要起草人毛雅君李春明吴振新真溱曲云鹏张晓丹张兰杨贺敦文杰张彪
:、、、、、、、、、。
Ⅰ
GB/T33994—2017/ISO285002009
:
引言
每天网站和网页从互联网上产生或消失十多年来记忆存储组织尝试用网络规模工具如网络
,。,(
爬虫寻找最适宜采集并跟踪记录海量的重要信息的方法与此同时记忆存储组织对保存非网络抓取
)。,
的数字化资源的需求也与日俱增如整套电子期刊或环境感应设备生成的数据出现了一种需求即
(,)。,
希望能有一种文件格式通过一个文件简单并安全地承载大量组成文件的数据对象以便进行存储管
,,、
理和交换
。
网络存档文件格式提供了一个由多个资源记录数据对象连接成一个长
WARC(WebARChive,)()
文件的协议其中每个资源记录由一组简单文本标头和任意数据内容块构成格式是文
,。WARCARC
件格式的扩展格式将作为组织管理和储存采集来自网络和其他数以亿计的数字资源的一种
。WARC、
标准可用于构建收割如网络爬虫一种开源软件管理访问和交换内容等各种应用
,(Heritrix,)、、。
除了用记录的原始内容外扩展的格式还容纳相关的二次级内容如分配的元数据
ARC,WARC,、
缩减的重复检测活动后期转换及大型资源的切分等
、。
Ⅱ
GB/T33994—2017/ISO285002009
:
信息和文献WARC文件格式
1范围
本标准规定了文件格式
WARC:
存储来自于主流互联网应用层协议如和的有效载荷内容和控制信息
———(HTTP、DNSFTP);
存储与其他已存储数据如主题分类语言编码相关的任意元数据
———(、、);
支持数据压缩且保证数据记录的完整性
———,;
存储来自收割协议的全部控制信息如请求标头信息而不仅仅是响应信息
———(),;
存储与其他已存储数据相关的数据转换结果
———;
存储与其他已存储数据相关的重复监测活动当相同或者大体相似的资源出现时可以减少存
———(,
储消耗
);
在不中断当前功能的情况下进行扩展
———;
支持对超长记录在所需处进行截断或分段操作
———。
2规范性引用文件
下列文件对于本文件的应用是必不可少的凡是注日期的引用文件仅注日期的版本适用于本文
。,
件凡是不注日期的引用文件其最新版本包括所有的修改单适用于本文件
。,()。
数据元和交换格式信息交换日期和时间表示法
ISO8601(Dataelementsandinterchange
formats—Informationinterchange—Representationofdatesandtimes)
域名实现及标准
RFC1035(Domainnames—Implementationandspecification)
地址架构
RFC1884IPV6(IPVersion6AddressingArchitecture)
多用途互联网邮件扩展第部分互联网消息正文的格式
RFC2045(MIME)1:[Multipurpose
InternetMailExtensions(MIME)PartOne:FormatofInternetMessageBodies]
分离域名解析系统信息
RFC2540(DNS)[DetachedDomainNameSystem(DNS)Information]
超文本传输协议
RFC2616—HTTP/1.1(HypertextTransferProtocol—HTTP/1.1)
互联网消息格式
RFC2822(InternetMessageFormat)
的一种转换格式
RFC3629UTF-8———ISO10646(UTF-8,atransformationformatofISO10646)
温馨提示
- 1. 本站所提供的标准文本仅供个人学习、研究之用,未经授权,严禁复制、发行、汇编、翻译或网络传播等,侵权必究。
- 2. 本站所提供的标准均为PDF格式电子版文本(可阅读打印),因数字商品的特殊性,一经售出,不提供退换货服务。
- 3. 标准文档要求电子版与印刷版保持一致,所以下载的文档中可能包含空白页,非文档质量问题。
最新文档
- 非生物因素对生态系统的影响试题及答案
- 2024年CPMM学习方式试题及答案
- 食品安全突发事件应急处置培训课件
- 各国物流政策比较及试题及答案
- 植入式心脏起搏器行业跨境出海战略研究报告
- 2025年度门店营业员聘用合同(含环保理念推广)
- 工厂安全职责
- 2025年中国便携式三参数胎儿监护仪市场调查研究报告
- 2025年中国伺服液位计数据监测报告
- 六年级数学上册教案-5.2统计图的选择-北师大版
- 钢芯铝绞线长度与重量
- clsim100-32药敏试验标准2023中文版
- (正式版)HGT 22820-2024 化工安全仪表系统工程设计规范
- 教科版(2017)科学五年下册《地球-宇宙的奇迹》说课(附反思、板书)课件
- 智慧电力云平台IT架构设计方案
- (高清版)TDT 1058-2020 第三次全国国土调查县级数据库建设技术规范
- (高清版)TDT 1075-2023 光伏发电站工程项目用地控制指标
- 人教版二下劳动学泡香茶迎客人
- 浙江特殊教育职业学院单招《语文》考试参考题库(含答案)
- 2022年山东省淄博市中考生物试卷(附答案详解)
- 运动损伤处理中的药物使用指导
评论
0/150
提交评论