标准解读
《GB/T 33994-2017 信息和文献 WARC文件格式》是中国国家标准之一,它规定了用于长期保存网页和其他数字资源的WARC(Web ARChive)文件格式。该标准主要参考国际互联网档案馆提出的相关规范,并结合国内实际情况进行了适应性调整,旨在为我国的信息资源长期保存提供技术支持。
WARC文件格式是一种用于存储网络爬虫抓取结果或其他类型数字内容的数据封装格式。与早期使用的ARC文件格式相比,WARC增加了更多元化的记录类型支持以及更丰富的元数据描述能力,能够更好地满足不同应用场景下对数字资源归档的需求。
根据该标准定义,一个完整的WARC文件由一系列连续排列的WARC记录组成,每个WARC记录又包含了若干个部分:版本号、记录头、可选的内容块等。其中,记录头使用键值对形式来表示关于该条记录的各种属性信息;而内容块则用来存放实际捕获到的数据内容。此外,还允许在记录之间插入填充字节以确保特定位置上的边界对齐要求得到满足。
对于每种类型的WARC记录(如“响应”、“请求”、“重定向”等),标准都给出了详细的结构说明及示例,以便于开发者理解和实现相应的读写功能。同时,为了保证WARC文件能够在不同系统间进行互操作,《GB/T 33994-2017》也明确了编码规则、压缩算法选择等方面的指导原则。
如需获取更多详尽信息,请直接参考下方经官方授权发布的权威标准文档。
....
查看全部
- 现行
- 正在执行有效
- 2017-07-12 颁布
- 2018-02-01 实施
文档简介
ICS3524030
A14..
中华人民共和国国家标准
GB/T33994—2017/ISO285002009
:
信息和文献WARC文件格式
Informationanddocumentation—WARCfileformat
(ISO28500:2009,IDT)
2017-07-12发布2018-02-01实施
中华人民共和国国家质量监督检验检疫总局发布
中国国家标准化管理委员会
GB/T33994—2017/ISO285002009
:
前言
本标准按照给出的规则起草
GB/T1.1—2009。
本标准使用翻译法等同采用信息和文献文件格式
ISO28500:2009《WARC》。
与本标准中规范性引用的国际文件有一致性对应关系的我国文件如下
:
数据元和交换格式信息交换日期和时间表示法
———GB/T7408—2005(ISO8601:2000,
IDT)。
本标准做了下列编辑性修改
:
增加了缩略语见
———:LWS、MIME、US-ASCII(3.2);
为了增强易读性在保留国际标准中示例的基础上将部分示例替换为国内示例见附录
———,,(B)。
本标准由全国信息与文献标准化技术委员会提出并归口
(SAC/TC4)。
本标准起草单位国家图书馆中国科学院文献情报中心中国国防科技信息中心中国科技信息研
:、、、
究所北京万方数据股份有限公司
、。
本标准主要起草人毛雅君李春明吴振新真溱曲云鹏张晓丹张兰杨贺敦文杰张彪
:、、、、、、、、、。
Ⅰ
GB/T33994—2017/ISO285002009
:
引言
每天网站和网页从互联网上产生或消失十多年来记忆存储组织尝试用网络规模工具如网络
,。,(
爬虫寻找最适宜采集并跟踪记录海量的重要信息的方法与此同时记忆存储组织对保存非网络抓取
)。,
的数字化资源的需求也与日俱增如整套电子期刊或环境感应设备生成的数据出现了一种需求即
(,)。,
希望能有一种文件格式通过一个文件简单并安全地承载大量组成文件的数据对象以便进行存储管
,,、
理和交换
。
网络存档文件格式提供了一个由多个资源记录数据对象连接成一个长
WARC(WebARChive,)()
文件的协议其中每个资源记录由一组简单文本标头和任意数据内容块构成格式是文
,。WARCARC
件格式的扩展格式将作为组织管理和储存采集来自网络和其他数以亿计的数字资源的一种
。WARC、
标准可用于构建收割如网络爬虫一种开源软件管理访问和交换内容等各种应用
,(Heritrix,)、、。
除了用记录的原始内容外扩展的格式还容纳相关的二次级内容如分配的元数据
ARC,WARC,、
缩减的重复检测活动后期转换及大型资源的切分等
、。
Ⅱ
GB/T33994—2017/ISO285002009
:
信息和文献WARC文件格式
1范围
本标准规定了文件格式
WARC:
存储来自于主流互联网应用层协议如和的有效载荷内容和控制信息
———(HTTP、DNSFTP);
存储与其他已存储数据如主题分类语言编码相关的任意元数据
———(、、);
支持数据压缩且保证数据记录的完整性
———,;
存储来自收割协议的全部控制信息如请求标头信息而不仅仅是响应信息
———(),;
存储与其他已存储数据相关的数据转换结果
———;
存储与其他已存储数据相关的重复监测活动当相同或者大体相似的资源出现时可以减少存
———(,
储消耗
);
在不中断当前功能的情况下进行扩展
———;
支持对超长记录在所需处进行截断或分段操作
———。
2规范性引用文件
下列文件对于本文件的应用是必不可少的凡是注日期的引用文件仅注日期的版本适用于本文
。,
件凡是不注日期的引用文件其最新版本包括所有的修改单适用于本文件
。,()。
数据元和交换格式信息交换日期和时间表示法
ISO8601(Dataelementsandinterchange
formats—Informationinterchange—Representationofdatesandtimes)
域名实现及标准
RFC1035(Domainnames—Implementationandspecification)
地址架构
RFC1884IPV6(IPVersion6AddressingArchitecture)
多用途互联网邮件扩展第部分互联网消息正文的格式
RFC2045(MIME)1:[Multipurpose
InternetMailExtensions(MIME)PartOne:FormatofInternetMessageBodies]
分离域名解析系统信息
RFC2540(DNS)[DetachedDomainNameSystem(DNS)Information]
超文本传输协议
RFC2616—HTTP/1.1(HypertextTransferProtocol—HTTP/1.1)
互联网消息格式
RFC2822(InternetMessageFormat)
的一种转换格式
RFC3629UTF-8———ISO10646(UTF-8,atransformationformatofISO10646)
温馨提示
- 1. 本站所提供的标准文本仅供个人学习、研究之用,未经授权,严禁复制、发行、汇编、翻译或网络传播等,侵权必究。
- 2. 本站所提供的标准均为PDF格式电子版文本(可阅读打印),因数字商品的特殊性,一经售出,不提供退换货服务。
- 3. 标准文档要求电子版与印刷版保持一致,所以下载的文档中可能包含空白页,非文档质量问题。
最新文档
- 受资助学生典型事迹材料范文(14篇)
- 《天体物理学时间》课件
- 文物数字化与5G技术应用-洞察分析
- 微笑线与年龄相关性-洞察分析
- 栓子催化技术进展-洞察分析
- 勤俭节约先进事迹材料(范文8篇)
- 网络拓扑演化分析-洞察分析
- 消费者价值共创研究-洞察分析
- 营销组合策略在批发零售中的应用-洞察分析
- 医疗保险个人工作总结(5篇)
- 2023年江苏无锡市届普通高中学业水平测试模拟考试地理试卷及答案
- 会计人员年终个人工作总结(4篇)
- 2023版思想道德与法治专题4 继承优良传统 弘扬中国精神 第2讲 做新时代的忠诚爱国者
- 大连理工2023物理化学期末(下) A
- 南方黑芝麻集团有限责任公司swot分析
- 知识产权法(重庆工商大学)智慧树知到答案章节测试2023年
- 对外汉语初中级HSK4级语言点
- AutoCAD计算机绘图全套教程
- 活动会议就餐签到表
- 设备类供应商评估表
- 四柱型液压机的液压系统设计毕业论文
评论
0/150
提交评论