信息与文献 网络存档的统计和质量问题_第1页
信息与文献 网络存档的统计和质量问题_第2页
信息与文献 网络存档的统计和质量问题_第3页
信息与文献 网络存档的统计和质量问题_第4页
信息与文献 网络存档的统计和质量问题_第5页
已阅读5页,还剩52页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

ICS01.140.20

CCSA14

GB/Z××××—××××/ISO/TR14873:2013(E)

信息与文献网络存档的统计和质量问题

Informationanddocumentation—Statisticsandqualityissues

forwebarchiving

(ISO/TR14873:2013(E),IDT)

(征求意见稿)

(本稿完成日期:2023年7月11日)

××××-××-××发布

××××-××-××实施

GB/Z××××—××××/ISO/TR14873:2013(E)

前言

本文件按照GB/T1.1—2020《标准化工作导则第1部分:标准化文件的结构和起草规则》的规定

起草。

本文件使用翻译法等同采用ISO14873:2013(E)《信息与文献——网络存档的统计和质量问题》。

本文件由全国信息与文献标准化技术委员会(SAC/TC4)提出并归口。

本文件起草单位:中国科学院文献情报中心、国家图书馆、中国科学院档案馆、北京大学图书馆。

本文件主要起草人:吴振新、张冬荣、潘亚男、敦文杰、朱佳丽、曲云鹏、孙超、谢靖、付鸿鹄、

单嵩岩、薛杰、吴欣雨、孔贝贝、胡吉颖、陈子俊。

III

GB/Z××××—××××/ISO/TR14873:2013(E)

引言

本文件是为了指导我国Web存档活动与产品的管理和评估而制定。

Web存档指随着时间推移,对互联网资源的快照进行选择、抓取、存储、保存和访问管理的活动。

20世纪90年代末,人们预见到互联网资源存档将成为未来研究、商业和政府的重要记录,开始实施

Web存档活动。互联网资源被视为文化遗产的一部分,应该像印本那样得到保存。许多参与Web存档

的机构将此视为保护国家文化遗产这一长期使命的延伸,且受到许多国家立法框架如法定呈缴制度的认

可和支持。

互联网上提供多种类型的资源,包括文本、图片、电影、音频及其他多媒体格式的资源。除了相互

链接的Web页面外,还有通过使用各种传输与通信协议提供的新闻组、时事通讯、博客和交互式服务

(如游戏)。Web存档通过采集软件对互联网资源副本进行自动采集(通常是定期执行)。Web存档的

目标是实现资源的回放,包括内在关联,例如通过超文本链接,尽可能呈现出与原始环境中一样的效果。

Web存档的主要目标是尽可能地按原始状态永久保存Web记录,以满足各种学术、专业和私人用途。

Web存档是一项新兴但不断扩展的活动,需要持续引入新方法和工具以与快速发展的Web技术保持

同步。由于存档机构对战略重要性的认识、可采用方式以及法律要求的不同,导致出现了多种互联网资

源的存档方法,存档范围涉及单个Web页面抓取到全部顶级域抓取。不同组织的Web存档成熟度等级

也不同,对于某些组织来说,Web存档已成为其常规业务活动,而有些组织则针对这项挑战刚刚启动

试验计划。

根据采集的规模和目的,Web存档策略可以分为两大类:批量采集和选择性采集。大规模的批量采

集,如国家域采集,旨在抓取整个域(或其子集)的快照。选择性采集的规模则小得多,采集更集中且

更频繁,经常是依据某项规则执行,例如,主题、事件、格式(如音频或视频文件)或与内容所有者之

间的协议。这两种策略的关键区别在于质量控制程度,即对所采集网站进行评估以确定是否达到预定义

的质量标准。域采集的规模(如此之大)使得无法通过人工对所采集的资源和该资源的实时版本进行任

何人工比对,而该方式在选择性采集中则是一种常用的质量保证方法。

本文件旨在证明Web存档作为广义文化遗产资源集合的一部分,可以基于传统的图书馆工作流,用

类似的和兼容的方式进行评估和管理。本文件阐述了资源集合建设、表征、描述、保存、使用和组织结

构,同时表明,尽管在实践中需要做出调整,但传统资源集合管理工作流的大多数方面原则上仍然适用

于Web存档。

本文件概述了Web存档的现状,重点给出了Web存档统计数据和质量指标的定义和使用。一些统

计数据的产生依赖于所使用的采集、索引或浏览软件,选择不同的软件可能会导致结果的差异。但是本

文件并没有给定特别认可或推荐的软件,而是提供一组指标来帮助评估Web存档的总体性能和质量。

IVGB/Z××××—××××/ISO/TR14873:2013(E)

信息与文献网络存档的统计和质量问题

1范围

本文件为Web存档定义了统计数据、术语和质量标准。本文件考虑了图书馆、档案馆、博物馆、

研究中心和文化遗产基金会等众多机构组织的需求和实践。所提及的事例来自于图书馆行业,因为在法

定呈缴的情况下图书馆(尤其是国家图书馆)承担了Web存档的任务。但这不能消除非图书馆机构的重

要贡献,也不会降低本文件对文化遗产保存机构和存档专业人员的主要适用性。

本文件面向直接参与Web存档的专家,通常是由图书馆和档案馆的馆长、工程师和管理人员组成

的团队。对Web存档机构的资助机构和利益相关方也同样有用。本文件使用的专业术语试图能够表达

受众所拥有的广泛兴趣和专业知识,并在计算机科学、管理和图书馆学之间达到平衡。

本文件不考虑学术和商业电子资源的管理,如电子期刊、电子报纸或电子书,这些资源通常使用不

同的管理系统单独存储和处理。它们虽然被视为互联网资源,但在本文件中不作为Web存档的特定内

容流进行阐述。一些组织还采集通过Web分发的电子文档,即通过出版商的电子存储库和仓储系统,这

些内容也不在本文件的阐述范围。这类采集使用的原理和技术与Web存档有很大不同;适用于前者的

统计数据和质量指标不一定适用于后者。

最后,本文件专注于Web存档的原理和方法,不包括其他采集互联网资源的方式。事实上,一些

互联网资源,尤其是那些不在Web上传播的资源(如以电子邮件形式传播的通讯),不是通过Web存

档技术采集的,而是通过本文件未描述或分析的其他方式采集的。

2术语和定义

以下术语与定义适用于本文件。

2.1

访问access

图书馆提供的在线服务的成功请求。

注1:一次访问是用户活动的一个周期,通常从用户连接到图书馆提供的在线服务时开始,并以显式(通过注销或

退出离开数据库)或隐式(由于用户不活动而导致超时)的终止活动结束。

注2:对图书馆网站的访问被视为虚拟访问。

注3:不包括通用入口或网关页面的请求。

注4:尽可能地不包括搜索引擎发起的请求。

[来源:ISO2789:2013,2.2.1]

2.2

访问工具accesstool

用于查找、检索和回放存档互联网资源的专业软件。

注1:该工具可通过组合运行多个独立软件包实现。

2.3

管理元数据administrativemetadata

1

GB/Z××××—××××/ISO/TR14873:2013(E)

妥善管理存储库中数字对象所必需的信息。

注1:管理元数据可分为以下几类:

——上下文或溯源元数据:描述资源截止到某一时间点的生命周期,包括相关的实体和过程,如配置和日志文件;

——技术元数据:描述数字对象的技术特征,例如其格式;

——权限元数据:定义对象的所有权和合法使用权限。

2.4

存档archive

Web存档。

随着时间的推移,从Web上抓取到的全部资源,包括一个或多个集合。

2.5

比特流bitstream

构成数字文件的由0和1组成的序列。

2.6

预设(抓取)budget(crawl)

与一次抓取或单个种子相关的限制,能用如文件数量、数据体量或爬虫设置中定义的每次抓取所花

费的时间来表示。

2.7

批量抓取bulkcrawl

批量采集。

旨在采集单个或多个顶级域或子集的全部内容的抓取行为。

注1:与选择性抓取相比,批量抓取的范围更广,通常执行的频率更低。

注2:批量抓取通常会产生大规模的Web存档,导致无法进行细致的质量检验,通常通过抽样的方式进行质量检验。

2.8

抓取实例capture

实例。

在某个时间点抓取的资源的副本。

注1:如果同一资源在不同日期被抓取了三次,就会有三个抓取实例。

2.9

资源集合collection

Web存档资源集合。

一组紧密关联的资源。

注1:一个资源集合可以在采集前专门选定(例如按照事件或主题),也可以从存档的可用资源中回溯汇集。

注2:Web存档可由一个或多个资源集合组成。

2.10

抓取crawl

采集。

使用爬虫浏览和复制资源的过程。

注1:抓取可分为批量抓取或选择性抓取。

2.11

抓取设置crawlsettings

抓取参数。

界定应采集哪些资源以及每组种子所需的频率和深度。

注1:抓取设置还包括爬虫礼仪(每秒或每分钟发送到资源所在主机服务器的请求数)、遵守robots.txt及用于

排除爬虫陷阱的过滤器。

2GB/Z××××—××××/ISO/TR14873:2013(E)

2.12

爬虫crawler

采集器。

存档爬虫。

已弃用:蜘蛛程序。

一种可以连续请求URL并解析结果资源以获取更多URL的软件。

注1:资源的存储和URI的丢弃都需要遵循一套预定义的规则[参见抓取设置(2.11)和范围(抓取)(2.40)]。

2.13

爬虫陷阱crawlertrap

可导致爬虫崩溃或无休止跟踪指向其他低价值或无价值资源的Web页面(或其系列)。

注1:爬虫陷阱可能是为了防止爬虫采集资源故意设置的。爬虫陷阱也可能在不经意间发生,例如,当爬虫无休止

跟踪日历的日期时。

2.14

保存管理工具curatortool

运行在Web爬虫上并支持采集过程的应用程序。

注1:核心功能是管理目标对象以及相关的描述性元数据和管理元数据,还可包括用于调度和质量控制的组件。

2.15

数据挖掘datamining

通过从不同的角度和维度分析定量数据、对其进行分类以及总结潜在关系和影响来提取模式的计算

过程。

[来源:ISO16439:—,3.13]

2.16

深度万维网deepWeb

已弃用:隐蔽网。

已弃用:不可见网。

不能被搜索引擎抓取和索引的部分Web,特指由动态生成的资源或受密码保护的资源组成的Web。

2.17

描述性元数据descriptivemetadata

描述数字对象知识性内容的信息。

2.18

域名domainname

由域名系统(DNS)的规则和程序定义的标识字符串,该标识字符串规定了在互联网上的管理自治、

授权或控制领域。

2.19

域名系统domainnamesystem,DNS

用于标识连接到互联网的实体的分层分布式全局命名系统。

注1:顶级域(TLD)是层次结构中最高的。

2.20

仿真emulation

利用当前计算机系统上的软件(称为仿真器)再现过时系统的功能和行为。

注1:仿真是一种主要的数字保存策略。

2.21

主机host

3

GB/Z××××—××××/ISO/TR14873:2013(E)

URI中用来命名内容的网络来源部分。

注1:主机通常是如的域名,或如的子域。

2.22

超文本标记语言HypertextMarkupLanguage,HTML

Web页面的主要标记语言,由用于向原始文本添加结构和语义信息的元素组成。

2.23

超文本传输协议HypertextTransferProtocol,HTTP

用于在Web上传输信息的客户端/服务端通信协议。

2.24

超链接hyperlink

链接。

用于在互联网上链接信息的关系结构。

2.25

垃圾信息junk

被视为无关的或无长期价值的未被要求保存的内容。

注1:有意的垃圾信息通常用于操纵搜索引擎索引。当爬虫掉入爬虫陷阱时,也会无意地生成垃圾信息。

注2:一般来说,采集机构会尽量避免采集垃圾信息,以便资源能用于采集“好”资源。然而,有些机构会保留一小部

分样本作为Web记录的一部分。

2.26

链接挖掘linkmining

侧重于从超链接中提取模式和启发式方法的处理和分析,如绘制网络图。

2.27

实时Web泄漏liveWebleakage

呈现存档资源时的常见问题,当存档资源中的链接解析为实时站点上的当前资源而不是Web存档

中的存档版本时,会出现此问题。

注1:当存档Web页面上的脚本继续引用并成功请求存档呈现中的实时Web资源时,也会发生实时Web泄漏。例

如,这可能会导致实时Web社交媒体源或视频流显示在存档的Web页面中。

2.28

日志文件logfile

由维护其活动记录的服务器自动创建的文件。

2.29

元数据metadata

描述数字对象的上下文、内容和结构及其随时间推移的管理信息的数据。

注1:元数据可以分为描述性元数据、结构性元数据和管理元数据。

[来源:ISO15489-1:2001,2.12]

2.30

迁移migration

为了保持数字对象的可访问性,将旧的或过时的文件格式转换为较新的或当前的文件格式。

注1:迁移是一种主要的保存策略。

[来源:ISO15489-1:2001,3.13]

2.31

MIME类型MIMEtype

互联网媒体类型。

内容类型。

4GB/Z××××—××××/ISO/TR14873:2013(E)

互联网文件格式的两部分标识符。

注1:MIME(MultipurposeInternetMailExtensions,多用途互联网邮件扩展)使用由类型和子类型组成的内容

类型头来指示资源的格式,如image/jpeg。

2.32

备选资源nomination

被考虑包含在Web存档中的候选资源。

2.33

页面page

Web页面。

结构化资源,除人类可读的内容之外,还包含与其他资源的零个或多个关系,通过URL来标识。

2.34

许可permission

授权抓取实时网站和/或在Web存档上公开显示其内容。

注1:许可可以通过权利持有者的正式许可证来表示,也可以通过法定呈缴制度获得豁免。

2.35

注册用户registereduser

为在图书馆内或图书馆外使用其资源集合和/或服务而在图书馆注册的个人或组织。

注1:用户注册可基于用户请求,或用户在该机构注册时即自动注册。

注2:定期监控注册情况,至少每三年一次,以便将非活跃用户从注册中删除。

[来源:ISO2789:2013,2.2.28]

2.36

请求request

由请求系统(如浏览器或爬虫)发送到远程服务器的HTTP格式消息,以获取由URL标识的特定

资源。

2.37

响应response

远程服务器对资源的HTTP请求的应答,包含请求的资源、到另一个URL的重定向,或指示无法

返回请求资源原因的拒绝(错误)响应。

2.38

响应码responsecode

状态码。

向请求服务器说明请求资源状态的三位数字。

注1:例如,以4(4xx)开头的代码表示请求的资源不可用。

2.39

robots.txt

机器人排除标准。

用于防止Web爬虫访问全部或部分网站的协议。

注1:robots.txt不具有法律约束力。

注2:它还可用于要求连续请求之间的最小延迟,甚至提供指向站点地图的链接,以便更好地抓取站点。

2.40

范围(抓取)scope(crawl)

定义抓取范围的参数集,如爬虫应遵循的最大跃点数或最大路径深度。

注1:抓取的范围可以大到整个顶级域(如.cn),也可以小到单个文件。

5

GB/Z××××—××××/ISO/TR14873:2013(E)

2.41

范围(Web存档)scope(Webarchive)

Web存档或资源集合的范围,由机构法律授权或资源集合政策决定。

2.42

二级域secondleveldomain

特定类别的组织或感兴趣领域的顶级域内的细分(如政府网站、科研机构网站)。

2.43

种子seed

目标URL。

与要抓取的特定资源的位置对应的URL,Web爬虫将其作为(采集)起点。

2.44

遴选selection

制定保存管理决策的过程,根据资源集合建设政策判断一组有意义的资源是否在Web存档的范围

内。

2.45

选择性抓取selectivecrawl

选择性采集。

根据特定遴选标准采集并抓取资源。

注1:与批量抓取相比,选择性抓取的范围更窄,通常执行的频率更高。

注2:选择性连续抓取是根据特定遴选标准(如学术重要性、主题相关性或资源更新频率)采集并抓取资源。

注3:选择性事件抓取是有时间限制的抓取,在特定日期结束,旨在采集与特定事件相关的资源,如选举、体育赛

事和灾难。

2.46

结构性元数据structuralmetadata

描述如何将复合对象组建在一起形成逻辑单元的信息。

2.47

目标target

要采集的有意义的资源集,由一个或多个种子以及相关的抓取设置所定义。

2.48

顶级域topleveldomain,TLD

域名系统(DNS)中的最高级别的域,包括国家/地区代码顶级域(如.cn、.de),它基于ISO3166

国家/地区缩写的双字符区域代码,以及通用顶级域(如.com、.net、.org、.paris)。

注1:除非特别说明,本术语在本文件中用于表示国家/地区代码顶级域。

2.49

统一资源标识符UniformResourceIdentifier,URI

用于标识或命名互联网资源的可扩展字符串。

2.50

统一资源定位符UniformResourceLocator,URL

统一资源标识符(URI)的子集,用于指定资源的位置和检索资源的协议。

2.51

WARC格式WARCformat

该文件格式定义了一种将多个数字资源及相关信息整合到一个集合性存档文件的方法。

注1:WARC(WebARChive)格式自2009年成为ISO标准(ISO28500:2009)。

2.52

6GB/Z××××—××××/ISO/TR14873:2013(E)

网站website

一组合法和/或编辑上相互关联的Web页面。

注1:网站通常代表官方机构、组织、私人公司和私人主页。

2.53

Web

互联网的主要发布应用程序,由三个重要标准支持:URI、HTTP和HTML。

3Web存档的方法和目的

Web存档的形式和内容由机构政策及技术可能性决定。高层政策主要通过国家立法来制定,机构则

根据各自的业务目标和遴选标准设定一系列的采集策略。然而,由于技术方面的限制,有时候某些范围

内的资源无法归入到Web存档内。例如,抓取和回放多媒体资源和交互式资源给Web存档社区带来了巨大

挑战,通常需要昂贵的定制化解决方案。

3.1采集方法

3.1.1技术基准

复制或采集是收集在线资源的主要方法。采集需要使用机器人,机器人会依次请求URL、复制并存

储资源,然后解析所得到的资源以获得深层URL。爬虫通常以网站的主页(即种子)作为起点开始采集

工作。爬虫的行为类似于一个自动的Web用户,除非通过抓取参数或设置限制它的抓取范围,否则它会

沿着相互链接的互联网资源进行无穷无尽的抓取。在采集过程中遇到阻碍也会导致爬虫意外停止。

Web存档资源集合的覆盖范围、深度和整体质量由一套被称为“采集规则”的技术设置决定。被采集

的资源通过它们的位置(URL,即种子列表)和采集范围来描述。采集范围主要由采集的频次和深度决

定,这些设置会影响Web存档的全面性。

3.1.2局限性

大量的信息以惊人的速度发布到Web上。机构通常会根据资源所需的人力、计算能力及存储能力来

决定Web存档的范围。此外,在资源遴选和采集阶段所作的选择使机构能够专注于采集有价值的“好”资

源,而不是自动生成的无价值内容,如垃圾信息。Web存档需要规避大量的噪音资源,这就需要对抓取

过程进行积极有效的管理和优化。

由于存在许多限制,使得全面采集互联网资源面临挑战。有些限制与技术相关,有些限制与互联网

的规模和性质有关,也有些限制与立法有关。

a)当前Web架构和抓取技术导致的问题

存档爬虫能够通过请求URL来抓取足够的静态内容。当URL不是明确地在HTML中引用而是嵌入其中,

如JavaScript、Flash或通过与用户交互自动产生时,存档爬虫常常会无法抓取相关的内容。提取和解

析URL不是一项简单的任务,因为URL的语法能容纳几乎所有类型的网络资源,并且可以动态生成。复杂

的URL结构包括多个变量,这些变量可以通过“&”符号、等号、会话或用户ID以及推荐码进行标识。在某

些情况下,多媒体文件由嵌入式Web应用程序提供或启动,这些应用程序从后台服务器检索数据,但在

HTML中并没有明确定位这些文件。

当前的采集技术还不足以应对全部的Web资源,无法采集到某些特定的Web内容类型。当前基于URL

的递归抓取方法无法采集某些不断扩大的Web资源,包括隐藏在Web表单和查询接口之后的资源,常见的

有“深度万维网或隐蔽网”、流媒体、通过非HTTP协议传输的内容和社交媒体资源。

然而,Web存档社区面临的最根本的挑战是Web在新格式、协议和平台方面的快速变化,存档组织需

7

GB/Z××××—××××/ISO/TR14873:2013(E)

要对Web的持续发展作出响应,并提高对新出现的内容类型的存档能力。

b)Web资源的频繁更新导致的问题

另一个与抓取相关的常见技术问题是时间的不连贯性。如果一个网站在被抓取期间进行了更新,就

会导致产生失真的快照,即有不同时期的Web页面共同存在于快照中。

立法可能会对目前实施的Web存档方式增加更多地限制。受立法影响的一个关键决策是是否尊重还

是忽略robots.txt排除标准,它对于是否抓取或放弃某些内容会产生重大的影响。

上述的局限性为使用可比较的方法来评估Web存档活动带来许多挑战。本文件采用的通用方法是承

认局限性并关注已知和可比较的内容。

3.1.3采集策略

采集策略分为两大类,它们涉及的自动化水平及所生成的Web存档的范围和规模各不相同。

——批量采集,如国家域采集,指在一个给定的时间点抓取整个域(或子域,如国家域)的快照,

这会产生大规模的Web存档资源集合。最知名的批量存档是InternetArchive的Wayback

Machine,其目标是保存全球Web。批量采集是个高度自动化的过程,但也会受到执行规模的

限制。批量采集不会很频繁,通常是每年执行一到两次。其质量保证方法通常为通过检查HTTP

的状态码来自动核查丢失的内容。

——选择性存档,以较小规模、有重点地开展,执行也更为频繁。会根据主题、事件、格式(如

音频或视频文件)或与内容所有者的协议等标准,遴选和识别相关网站。质量保证是选择性

存档的常规元素,目前主要依赖于视觉比较、审查以前采集的内容及抓取日志。选择性Web存

档往往具有更多的描述性元数据,通常由保存管理员在遴选阶段或在采集后添加,可用于在

Web存档的用户界面中构建更丰富的搜索和浏览功能。

——许多机构会将上述两种策略混合使用。有些网站更新频繁,仅依赖不频繁的批量或域采集方

式无法抓取网站的变化内容。单一存档组织制定混合策略的情况并不少见,即频繁抓取高优

先级网站,而仅使用批量或域采集的方式抓取低优先级网站。

3.1.4遴选标准

遴选标准通常依据立法以及机构的资源集合建设政策制定,且应符合采集机构的核心使命。人力、

资源和专业知识等运营考虑或限制通常会影响策略的实施。遴选标准定义了Web存档的范围,并可以用

多种方式表示:

——根据用于托管资源的域名,例如,国家域或顶级域(如.cn或.de),保留给某些出版商的二

级域(如用于政府出版物的.gov)。然而,域名无法严格地确定或定义国家内容,因为互联

网是个全球系统,资源是跨物理或地理边界分布的。

——根据资源的特征,例如,通过网站内容的主题、标题,通过受用户欢迎程度或使用的语言,

通过用于传输资源的通讯协议(如HTTP)或格式(如文本或视频)。

——根据资源的访问条件或版权状态,例如,资源是免费提供,还是需要购买或订阅。

——根据组织能够负担的存档能力。组织财政可能只能支持有限采集频率或负担一个高选择性的

采样方法。

——根据与内容相关的明确限制或例外规则,例如,遴选标准可以是排除含有个人、敏感数据或

非法内容的资源。

是否包含或排除某些特定类型的资源并不总是很明确。当一个组织决定存档社交网络、博客和相似

的互动平台时,其他组织可能会认为这些内容已经超出了他们的采集范围。这实质上就是一项政策决定,

同样适用于在线广告、色情文字和含有或受计算机病毒影响的资源。抽样是存档这些资源时所使用到的

常用方法,这可能对某些研究人员有价值,但当前难以预见其未来的价值。

8GB/Z××××—××××/ISO/TR14873:2013(E)

3.2访问和描述的方法

3.2.1技术基准:描述方法

概述

一种常见的做法是汇集存档资源,并提供独立的Web存档访问,就像实时Web一样提供专门的用户界

面,允许用户在存档资源范围内检索并浏览资源。在设计用户界面时,需要特别注意的是考虑时间维度,

允许用户能够找到在不同时间节点抓取的同一资源的不同版本,并能很容易地在这些资源之间进行切换

以查看资源随着时间的演变情况。最常用的浏览Web存档的方法是通过URL来查看,这可以与抓取时间结

合使用。

按URL进行索引(强制)

索引提供了Web存档的入口,加快了搜索和排序的操作,并能够提供更好的用户体验。最基本的索

引是URL或对原始URL的修改变体,以指向托管存档的Web服务器。抓取资源时的日期可以并入URL中,以

区分同一资源的不同版本。另一个可替代的方法是对每个资源都采用一个永久标识符,可以使用URL的

形式,但是关键在于资源采集机构需要保证该标识符能无限期地提供对资源的引用和访问方法。

其他种类的索引(可选)

全文搜索是Web存档越来越多采用的一种访问方法,该方法需要全文索引和搜索引擎,虽然全文搜

索是一种更具扩展性的访问解决方案,但其实施充满着技术挑战。关键词和元数据能从存档资源中自动

抽取,并能用于提供访问。研究社区对于Web存档数据及链接挖掘的需求不断增加。新的发展趋势表明

了Web存档中关注点的转变,即从单个资源或网站层面转移到整个Web存档。通过采用可视化和数据分析

技术,使得从不同视角来访问同一Web存档,揭示潜在的模式与趋势、关系和上下文信息成为可能。在

上述提及的发展趋势广泛应用于实践之前,对单个互联网资源提供访问依然是现阶段Web存档的主要访

问机制,这也是本文件的重点。

编目(可选)

传统的书目管理方法可以用于Web存档,如同处理印本书籍和期刊文章那样对网络资源进行编目。

这可以把Web存档和现有的图书馆资源集合整合在一起,以便这些网络资源能够通过目录检索被发现。

然而,这种方法是资源密集型的,难以扩展应用到Web存档中,因为Web存档包含大量的对象,且定义要

编目的资源对象也存在挑战。编目可用于更高层次粒度的资源,例如,用于特殊资源集合的层次而不是

单个网站的层次。

使用元数据的资源发现工具(可选)

可以通过添加与资源有关的元数据来提供对资源的访问。网站可以由保存管理员或通过自动化方法

划分成主题层次结构,或者分类为围绕事件或基于主题的资源集合。保存管理员或公众所添加的标签(关

键词)也可以整合到用户界面中。

3.2.2技术基准:访问方法

概述

可以通过使用专门的软件来对存档的Web资源进行查找、检索和回放。可以同时使用多个软件包协

同工作来实现这个过程。整个软件系统通常称为访问工具。

不论访问工具如何设计和实施,它都有一组共同的属性。这些属性有些是强制性的,有些是可选的。

9

GB/Z××××—××××/ISO/TR14873:2013(E)

呈现(强制)

访问工具软件应能够唯一标识资源(即使同一资源已被多次采集),并能从存档仓储中检索对象。

URL重写(强制)

通过访问软件获得的HTML页面应对其原始显示进行修改。嵌入的链接(绝对或相对)应该指向数字

存档中的资源位置,而不是原始资源的位置,可以通过多种方式实现:

——在采集时进行重写(可以采取保存管理决策来立即重写内容中的URL,并将修改后的内容摄入

到存档仓储中);

——可以在后期对存档资源采取能达到上述相同目标的保存活动。因此,资源应该隐含地指向它

们新位置的链接;

——对URL进行实时重写可以基于资源请求通过在服务器上执行代码来实现,也可以通过向客户端

提供一个原始资源的副本以及在客户端上执行的代码来动态地重写URL。

3.2.3局限性

存档互联网资源的采集和处理过程涉及转换,因此在访问过程被回放时,可能会影响原始资源的呈

现、行为和用户体验。这时候,存档资源的副本应该被视为某个时间点的静态快照,不具备实时版本的

互动性。相关例子包括留言板、论坛、Web表单和搜索。也有可能资源采集是正确的,但是受限于呈现

软件的能力,而无法为终端用户提供访问。

在回放存档资源时,一个普遍的问题是所谓的“实时Web泄露”,指存档资源中的链接能指向实时站

点的资源版本,而不是指向Web存档中的资源版本。这个问题通常是由于错误的URL重写造成,常常是访

问工具检测不到嵌入在JavaScript中链接的结果。

3.2.4访问策略

尽管许多互联网资源能够免费获取,但是通常会受到版权保护。基于相关立法(详见4.4)以及法

律允许采集的内容,采集机构会使用一系列的访问策略:

——暗存档:任何人都无法访问资源集合(除了工作人员偶尔出于保存管理的目的进行访问);

——灰色存档:只有得到许可的终端用户(如研究人员)能查看资源集合,并且/或仅限于现场查

阅(如图书馆阅览室);

——在线存档:所有用户都能访问,通常通过采集机构的网站访问。

或者,存档也可以采用一种混合模式,即存档资源的不同部分分别采用上述某种策略。同样值得注

意的是,对于采集资源的访问是建立在“主动选择退出”基础上的,这种情况下许可是假定的或隐含的,

并没有明确给出,当权利持有者提出请求时,资源访问权限可以被取消。

3.3保存方法

3.3.1技术基准

对书籍或记录等模拟材料的保存专注于保存原始条目,而数字保存则处理非常不同的问题。原始的

数字资源由一系列的“1”和“0”(比特流)组成,不依赖于存储它们的数据载体或媒体。可以在不丢失任

何信息的情况下把这些比特复制到其他的载体上,创建与源或原件相同的副本。由于数据载体的损坏和

过时,有必要把比特迁移到新载体上以保证它们的安全。如果定期进行复制,就可以合理的假定比特流

能得到永久地保存而不会出现丢失的情况。

除了确保比特的安全,数字保存的实质性挑战还存在于保持比特的可用性。如果没有原始呈现软件

和硬件环境,比特流就无法被人类理解。随着技术的快速发展,新系统常常无法和老系统兼容,新的呈

现软件可能无法显示老的文件格式。尽管有可能在当前的系统中呈现旧软件,当前用户可能仍然无法使

10GB/Z××××—××××/ISO/TR14873:2013(E)

用它,因为用户可能会以完全不同的方式与它进行交互。

在Web存档工作流的各个阶段都应该考虑数字保存。与其他的数字资源相比,保存Web存档的特殊挑

战在于数据的庞大规模以及文件格式和媒体类型的多样性。Web页面可能包含图片、视频、音乐、游戏、

数据库和多种应用。Web的一个关键特征是Web页面之间的链接,由于链接引起的依赖性为数字保存带

来了挑战。

3.3.2局限性

Web存档中包含的仍然是近期的资源,而且缺乏令人信服的结果或有信心的行之有效的策略以证明

社区对存档互联网资源的长期保存能力。本文件不会提供实践解决方案,但是会重点说明当前的实践、

标准和问题。

3.3.3保存策略

最低水平的数字保存目标是通过维护原始比特流的完整性来防止数据丢失。比特流保存或物理保存

的主要策略是复制和备份,包括在不同物理位置的并行数据存储、定期备份及读取错误检查等操作。也

需要保持数据的安全以避免未授权的访问。比特流保存是所有数字资源保存的最低要求。然而,实施比

特流保存时需要考虑Web存档的规模。

迁移和仿真是更复杂的保存策略,旨在保留资源的功能、行为和用户体验。它们相当于“逻辑保存”,

需要实施定期的数据、格式和风险分析。由于Web存档规模庞大且文件格式多样,逻辑保存极具挑战性。

a)迁移。文件格式迁移指的是把文件在当前技术环境中无法使用之前转换为新格式。每次转换为

新文件格式都会更改内容并可能造成损坏。因此,需要提前进行风险分析以评估信息丢失的可

能性和影响。迁移可以在文件格式存在过时的风险时执行,也可以在访问时执行(动态迁移)。

迁移的成本与迁移的文件数量直接相关。对于大规模的Web存档来说,迁移的费用非常昂贵。

资源间的复杂性和依赖性同样增加了挑战性,并难以对迁移结果进行验证。

b)仿真。仿真是指使用仿真器这样的专业软件在当前的系统中重现过时系统环境的功能和行为。

仿真器能模拟过时的系统,并有可能在不改变资源的情况下访问过时的资源。然而,仿真无法

达到完美的程度而只能达到一个近似的程度。仿真器自身也依赖于某种系统环境,且存在保存

风险。开发仿真器成本昂贵,但是无需单独处理组件资源。在Web存档中,仿真器需要重现Web

页面被采集时的通用浏览器和媒体播放器的功能。

迁移和仿真应被视为数字存档系统保存规划的一部分。

3.3.4保存元数据

长期保存也包括保存与Web存档资源相关的元数据的安全,这些元数据对于支持资源集合管理、访

问和保存活动至关重要。有许多不同类型的元数据,这些元数据有些是嵌在资源中,有些在存档过程中

自动生成,有些则是通过保存管理员手动添加。元数据编码和传输标准(METS)定义了适用于Web存档

的五种不同类型的元数据,如下所示:

a)描述性元数据。对Web存档编目或手动添加元数据的机构一般拥有更多的描述性元数据。那些

执行大规模(自动)Web存档的机构只能依赖抽取嵌在资源中的元数据,或使用自动聚类或分

类来获取此类元数据。

b)结构性元数据。互联网资源常常是复合型的数字对象,这些数字对象由结构化的、相互链接的

元素组成。可以通过元数据方案,如METS,来清晰地表达和记录这种结构关系。此类元数据在

文件迁移的情况下非常有用,其中超链接也需要相应地迁移以保持存档资源导航的有效性。有

些机构决定不再额外或明确记录这些关系,是因为这些关系实质上已经存在于资源内部。

c)溯源元数据。溯源元数据描述了资源产生的原因和方式以及在其生命周期内发生的一系列事件。

11

GB/Z××××—××××/ISO/TR14873:2013(E)

一些描述性元数据如记录Web存档中一个特殊资源集合的基本原理,也可以视为溯源元数据。

在较低层面上,也能发现溯源元数据,包括一个存档爬虫的文件记录活动,如配置文件、抓取

报告和日志文件,以及描述Web服务器和爬虫之间交互的信息,包括URL、抓取日期、服务器的

IP地址。

d)技术元数据。技术元数据描述了数字对象的技术特征,特别是数字对象如何被访问、修改或保

存。这相当于开放存档信息系统参考模型中的呈现信息。由MIME类型指定的文件格式是与Web

存档相关的技术元数据的例子,也是资源集合表征的核心统计数据之一(详见)。

e)权限元数据。权限元数据定义了资源的所有权和合法使用权限。条件可能适用到未来的某个时

间。此种信息需要与资源一起保存,以防止未授权的访问行为。

溯源元数据、技术元数据和权限元数据统称为管理性数据。

3.4Web存档的法律基础

3.4.1概述

Web存档活动面临着许多法律风险,那些重要的风险都与知识产权相关,特别是著作权、隐私及个

人数据保护。采集机构还要对传播诽谤言论以及持有和散布非法内容承担责任。国家立法通过为采集机

构提供一定的法律保护来有效应对这些风险。

国家立法是实现和支持大规模Web存档最有效的架构。Web存档可以引入有关版权和/或法定呈缴的

立法、或任何明确规定采集机构的使命和地位的法案。这些立法与公共组织密切相关,这些公共组织的

地位和行为通常由法律确定,如国家图书馆、国家档案馆、专门的法定呈缴机构(如那些致力于广播或

电影保存的机构)、公共档案馆或博物馆。没有法定权力的机构也能进行Web存档,它们要么与权力持

有者谈判协商特定协议,要么通过限制访问存档资源来规避法律风险。一些机构愿意承担基于隐含的许

可抓取互联网资源并提供访问带来的某些风险。

有些国家还没有明确的Web存档法律基础,有些国家只有一个总体框架,需要二级立法来解释和规

范其实施。有些国家的采集机构在出版商自愿缴存的基础上制定了Web存档计划。即使在已有国家立法

的国家,常见的做法是立法往往是开放的,有解释的余地。采集机构需要明确自己的方法,包括风险评

估和实施层面的试验。

3.4.2采集范围和方法

Web存档的立法会明确地包括或排除一些特定的内容,它们定义了国家域的采集边界或范围,也会

指定允许采集的频率和深度。

立法的一个关键要素是是否应在资源采集前从权利持有者那里获得许可。这对于机构的采集策略会

有重大影响。批量采集只有在不需要许可的情况下才是可行的,否则选择性采集将是更合适的模式。许

可管理的替代方法包括所谓的“主动选择退出”或“通知并撤销”的模式。在这种模式下,资源的采集和获

取基于假定的或隐含的许可,只有当权利持有者发出请求时,才会停止采集或提供访问。来自单个出版

商、覆盖多种资源的“一揽子许可”是另一种降低管理多个出版商协议成本的方法。

立法可以授权采集机构获得受保护的信息以帮助改善采集的质量和完整性,有关事例包括国家域名

或识别码清单以及定价出版物的数字许可管理信息。立法可以明确要求出版商提供信息并对违规行为进

行处罚。

立法可以推荐或指定一种特定的采集技术,例如,一些法规明确允许或鼓励在机构和出版商之间达

成采集协议之前“自动”采集互联网资源。

立法可能会对未来的Web存档采取进一步的限制。受到立法影响的一个关键决定是应该遵守还是忽

略robots.txt排除标准,它对于是否抓取或放弃某些内容产生重大影响。

在那些已有立法授权国家互联网资源采集的国家,该工作通常由某一个机构负责,也可以是多个组

织之间的共同责任,例如:

12GB/Z××××—××××/ISO/TR14873:2013(E)

——国家或联邦机构与地方或地区机构之间;

——国家图书馆与国家档案馆之间;

——专门机构网络或联盟内部。

3.4.3Web存档的访问

可访问性定义了可以使用Web存档的条件,这是立法的一个重要方面。访问条件通常与采集规则保

持一致:如果获得了权利持有者的许可,相应地就可以允许在线访问;如果在没有许可的情况下进行批

量采集,那么访问就有可能受到限制。

版权限制,如打印、抽取、数字拷贝或下载,可适用于Web存档。

在Web存档作为法定呈缴形式实施的情况下,立法可能会要求发布Web存档的国家书目,事实证明这

对于大规模的资源集合来说是一个极大的挑战。Web存档通常为终端用户提供搜索界面,而不是发布描

述性元数据。

3.4.4Web存档的保存

长期保存是采集文化遗产资料的重要理由和要求,因此,立法可能会包括确保Web存档寿命的指示

或义务。它可能会特别指定是否允许删除资源或是应该永久保存这些资源。大多数国家图书馆以法定呈

缴方式采集互联网资源,它们被要求为后代保存这些资源。而对于研究型图书馆或其他机构,如果采集

目标是为短期或中期研究提供数据集,则不会要求它们无限期地保存这些资源。

3.5Web存档的其他原因

3.5.1概述

存档Web资源的其他动机通常是由政策驱动的。它们体现了一个机构的战略愿景以及对于技术和文

化创新的传统和态度。

Web承载了各种各样的原生数字资源和数字化资源。后者在数字化之前是印本资源(书籍、期刊、

政府出版物等)或是以其他物理介质(电影、音乐和游戏光盘或磁带)传播的出版物,其中许多已经进

行了各种格式迁移。Web发展速度快且寿命短暂,有价值的资源经常会消失。对于致力于保存文化遗产

资源的机构来说,保存Web资源是其自然且重要的职责。

Web存档保证了数字资源的延续性,是避免国家知识和记忆出现数字黑洞的必要措施,它还有助于

保持对被引用资源的访问。这种动机对于国家图书馆和档案馆尤为强烈。

3.5.2促进学术研究

互联网是一个高度参与和创新的空间,人们在这里交流和合作。可以说,Web创造了与国家文化遗

产相关的新的社会知识和新的具有研究价值的文化资源。人们已经观察到出现了新的研究实践和社区,

这些新的研究实践和社区致力于研究实时Web及其可能的存档。

对于互联网研究人员和科学家,Web存档提供了独特的研究可能性,他们不仅能够参阅单个网站的

历史版本,还能够进行大规模数据或链接挖掘以帮助抽取模式和趋势并提炼出嵌入的知识。尽管数据挖

掘或分析尚处于起步阶段并且绝大部分工作由社会科学家进行,但是却能扩展到其他的学术领域,而且

在许多学科中都非常有用。

在机构层面,Web存档可以成为推广或突出特定数字资源的方法,这种方法尤其适用于大学等机构,

它们会存档自己学者和学生制作的出版物。Web存档是一项有价值的采集在线资源的工作,这些资源包

含且具有研究价值,这是吸引许多Web存档机构的原因。

3.5.3支持公众的多种使用方式

13

GB/Z××××—××××/ISO/TR14873:2013(E)

互联网承载了来自各行各业的资源。与印本媒体不同,任何人都能在Web上发布信息。尽管每个个

人贡献的价值可能会有所不同,但是这种聚合形成了一组独特的资源集合,它反映了个人以及社区的记

忆和交互。

可以在Web存档上构建各种专业或个性服务,Web存档能够作为版权纠纷时的证据或用于个人或家族

研究以及数字家谱。允许免费、长期访问互联网资源,特别是对内容创造者在现在及其后代在将来的访

问,是将Web存档作为公共服务提供的有力论据。

4统计数据

4.1概述

统计数据是客观的数据,它是未来分析和解读的基础。质量指标表示价值判断的程度,即不符合标

准是表示负面评价。在本文件中,统计数据以绝对数量评估,质量指标以相对数量和百分比评估。

统计数据和质量指标应可靠、信息丰富且具有可比性,获得这些数值和指标的方法应实用、灵活。

Web存档的当前技术水平意味着某些统计数据的生成必须依赖于所使用的采集、索引或浏览软件,并且

选择不同的软件可能会导致结果的不同。因此,若以基准测试为评估目的,建议使用相同的软件来生成

统计数据。大规模的Web存档一般还要求以实用且具有成本效益的方法来获得统计数据和评估质量。本

文给出的质量指标和统计数据基于Web存档的常见活动,随着时间的推移,它们仍可提供对Web存档的可

靠描述,并允许对它们进行比较。

本文件提出了通用的统计数据和质量指标,并非所有的指标和数据都适用于不同类型的Web存档。

此外,随着技术的进步和Web存档实践的发展,有些数据和指标需要进行更新。

本章在每节都提出并描述了若干相关的统计数据。然而,只有少量的核心统计数据被认为是必备数

据。这些统计数据会在每节的末尾列出并附有示例。

4.2资源集合建设的统计数据

4.2.1概述

下列统计数据通过追踪Web存档的定量输出来评估它的增长状况。这些数据有助于规划和监测资源

集合建设并进行详细的成本分析。

与模拟文档不同,Web存档包括了非线性、相互链接的资源,有些资源可以为用户回放,另外一些

资源是不可分割的文件和元数据,它们是资源的一部分,但对用户不可见。因此,评估Web存档体量的

统计数据不能和用于物理资源的统计数据进行比较。

这些统计数据中的绝大多数仅适用于存档的Web资源,而不适用于实时Web内容。

4.2.2评估采集目标:统计目标和抓取实例的数量

目的

采集机构应该能够根据自身政策来表达和评估Web存档的目标,以便对照目标来评估由此产生的Web

存档资源集合,展示采集过程的效率和取得的效果。

没有直接或统一的方法来表示资源采集的目标,这需要由不同的机构在实际中根据机构政策和目标

来定义。建议采用一个通用的框架,统一使用“目标”和“目标抓取实例”的概念,这样有助于评估参与选

择和管理“目标”的工作人员的行为。这是一个关于遴选工作的指标,即确定Web存档中应包含哪些网站

所花费的时间。

方法

每个目标包含一个或多个种子,且每个种子都有一系列的抓取设置来定义抓取的范围。这是关于被

14GB/Z××××—××××/ISO/TR14873:2013(E)

采集资源的一组重要设置,其范围可以从托管在同一域中(表示为一个网站)相互链接的资源到由URL

标识的单个资源(如一个PDF、一个视频)或者整个顶级域。一个目标可以被多次抓取,每次抓取都形

成一个抓取实例。

以对《纽约时报》网站主页的每日抓取为例:

——种子是/和/;

——范围是抓取主页以及所有通过主页进行一次点击的资源;

——频率是每天;

——目标是以上所有;

——被抓取和存档的资源的独立集合作为一个抓取实例。

这种通用方法允许机构设置运营目标并评估结果。在上述示例中,目标可以是每年采集365个抓取

实例。然后,机构可以按年度比较实际的目标抓取实例数量,以评估目标是否已经实现。

局限性

只有在机构都采用相同的遴选政策和实践时,比较机构间的目标数量和目标抓取实例数量才有意义。

4.2.3评估Web存档规模:统计URL的数量

目的

统计URL的数量是评估Web存档规模的一种方法。URL对应于要抓取资源的位置,并被存档爬虫用于

识别和请求Web服务器上的资源。Web服务器会返回一系列由状态码标识的标准响应,以此来指示所请求

资源的状态,可能是确认请求的资源已成功交付的响应,或是指示请求的资源已转移(重定向)到其他

位置的响应;还可能是带着错误信息的响应,指示无法返回请求的资源。有些响应会提供元数据和内容,

有些只提供元数据,有些响应仅仅提供一个错误代码。

需要特别注意的是,不是所有的URL都能对应到有意义的、人类可读的资源,相当于图书馆传统印

本资源集合中的物理“文档”和“条目”。即使在Web服务器无法满足请求时,它依然会发送响应,指示该

请求的发送状态,如重定向和错误。这些信息提供了采集流程的审计跟踪和Web存档资源集合的溯源信

息,并对访问或保存目的非常有用。因此,本文件建议所有的响应应视为Web存档的一部分均要进行保

留。

在Web和HTTP消息系统中,URL被作为资源的标识符。URL还代表Web存档中自包含内容的最小单位,

通常用于web资源的存储和访问系统中。因此,我们建议将URL用于标识资源以及Web服务器返回的相应

响应,然后使用不同类型的状态码对Web存档资源进行排序或分组。

方法

表1包含了各种状态码,每个状态码由三位数字组成,第一位数字定义了响应的类别。每个状态码

有一个原因短语,供人类用户使用,并给出了状态码的简短文字描述。有关状态码的更多详细信息参见

RFC2616(参见“参考文献”)。

15

GB/Z××××—××××/ISO/TR14873:2013(E)

表1Http状态码列表

状态码原因短语

1xxInformational(通知的)

100Coninue(继续)

101SwitchingProtocols(切换协议)

2xxSuccessful(成功)

200OK(OK)

201Contentwascreated(已创建)

202Acceptedbutnotacteduponnow(已接受但尚未响应)

203Non-authoritativeinformation(非授权信息)

204Nocontent(无内容)

205Resetcontentalreadysent(重置已发送内容)

206Partialcontent(部分内容)

3xxRedirection(重定向)

300MultipleChoices(多种选择)

301MovedPermanently(永久移除)

302Found(发现)

303Seeother(见其他)

304Notmodified(没有改变)

305Useproxy(使用代理)

307TemporaryRedirect(临时重定向)

4xxClienterror(客户端错误)

400BadRequest(坏请求)

401Unauthorized(未授权的)

402PaymentRequired(要求支付)

403Forbidden(禁用)

404NotFound(没有找到)

405MethodNotAllowed(方法不被允许)

406NotAcceptable(不可接受的)

407ProxyAuthenticationRequired(需要代理验证)

408RequestTime-out(请求超时)

409Conflict(冲突)

410Gone(不存在)

411LengthRequired(长度要求)

412PreconditionFailed(先决条件失败)

413RequestEntityTooLarge(请求实体太大)

414Request-URITooLarge(请求URI太长)

415UnsupportedMediaType(不被支持的媒体类型)

416Requestedrangenotsatisfiable(请求范围不满足)

417ExpectationFailed(期望失败)

5xxServererror(服务器错误)

500InternalServerError(服务器内部错误)

501NotImplemented(不能实现)

502BadGateway(坏网关)

503ServiceUnavailable(服务不能提供)

504GatewayTime-out(网关超时)

505HTTPVersionnotsupported(HTTP版本不支持)

16GB/Z××××—××××/ISO/TR14873:2013(E)

本文件建议:在计算Web存档中采集资源的总数时应包括所有的URL,不考虑响应状态码。

然而,理解状态码的性质和含义很重要,在分析Web存档的特殊片段时可以使用这些状态码来对资

源进行分组和过滤。例如,2XX系列状态码表示请求的资源成功传输,3XX系列的响应通常只返回元数据

而没有请求的资源,5XX系列用于技术用途。如果机构希望保持其物理资源集合和Web存档的相似性,2XX

系列则特别有助于此,建议专门统计状态码为200、201、203、205的URL。

如果有去重的过程,URL数量可以在去重前和去重后分别计算。在抓取过程中,当机器人识别出将

要抓取的URL已经被采集并在存档中可用时,就会进行去重,所以机器人不会再次抓取该资源。机器人

会生成信息来标识这次去重处理,这在WARC中称为“重访”记录。下面的两个数字很有用:

——去重后的URL数量代表了存档资源的总量,它是用于存储以及长期保存的参考数量。

——去重前的URL数量适用于人类用户,从知识或内容的角度来看非常重要。仅当去重后的信息仍

然可用时才有意义(如WARC文件中的“重访”记录),即使机器人实际上没有对其进行抓取,

但是这些信息确实表明去重后的URL在某个日期仍然在线。

应始终标明计算的方法(即去重前或去重后),特别是存档资源间进行比较时。

局限性

早期的Web主要由具有明确引用资源的静态HTML页面组成。然而,Web的迅速发展使得Web上交互式

和动态生成的内容越来越多,这要求我们超越传统的Web模型,将其视为一个自包含HTML“文档”或“出版

物”的资源集合。Web存档中URL的数量不等同于图书馆环境下传统的“文档”和“出版物”的数量。在计算

Web存档的统计数据时,重要的是要考虑Web的性质,并将其作为网络化和相互链接的在线资源。统计数

据不仅应包括为人类用户使用的资源,还应包括作为Web存档组成部分的相关元数据和程序。

同样需要注意的是,并非所有Web服务器返回的状态码都是可靠或可信的,示例如下:

a)404缺失

许多Web服务器在请求的资源无法访问时不会返回正确的404状态码,而是发送一个“200OK”的响应,

其中包含一个内容块,说明所请求资源不存在,存档爬虫无法将这种情况作为“404没发现”,因此该响

应会被视为“良好”或成功响应。

b)具有不同会话ID的副本

许多Web服务器会自动产生URL,从而导致Web存档中资源重复。当向用户代理返回资源时,Web服务

器有时会给每个URL附加一个唯一标识符以追踪会话,例如:

用户代理1得到了一个URL:/id=12345/picture.jpg;

用户代理2得到了一个含有不同ID的URL:/id=67890/picture.jpg。

这两个URL提供相同的资源,在本例中为jpeg图像,但是使用了不同的ID来识别用户。存档爬虫

可能会多次采集URL不同但内容相同的资源,这些副本会被当作唯一的资源。

c)状态码缺失

在Web的早期,服务器通常只返回请求资源而不返回任何状态码和元数据,有时候称之为HTTP0.9。

有些服务器可能依旧使用过时的协议。缺少状态码和元数据,对于那些持有长期Web历史性资源集合的

机构尤其是个问题。

4.2.4评估Web存档规模:统计域或主机的数量

目的

统计域或主机的数量是另外一个评估Web存档规模的指示性方法。在实践中这种方法常被采集机构

17

GB/Z××××—××××/ISO/TR14873:2013(E)

用作表示网站数量的替代品。相反,网站是一个概念性知识单元,由一组代表个人、社区、组织的相互

关联的Web页面组成。然而,它不是可以从技术上定义的东西,也无法进行实际或系统性的评估。

域和主机可以进行系统性评估,但是不能等同于网站本身,因为它们只是用于对网站进行命名和定

位。这些统计数据可能有助于详细的资源集合表征或技术分析,以确定Web存档中资源类型(如.com

或.org)或爬虫是否已经采集到目标内容范围。

方法

域或主机的数量能通过抓取报告自动计算出来,或者通过其他分析存储文件的自动化方法来计算。

局限性

统计域或主机的数量存在局限性。与统计URL的数量一样,在Web存档中统计域或主机的数量会比实

际可见及人类可读的资源的数量更多。不是所有域都是活跃的或是有意义的资源,同样存在别名或副本。

a)未使用域

域名被购买但处于未使用状态,不能解析到任何资源。还有一种停靠域,可以解析到资源,但是通

常只有单个Web页面提供域名出售信息。前者通过状态码204标识;后者严格来说不是未使用的,在统

计域数量时应包含在内。然而,从保存管理的角度看,这些资源被认为是不具有任何重要价值的资源。

在选择性采集的情况下,它们在遴选阶段就会被主动剔除,也不会进行采集。然而,在批量采集中,除

非对很小规模的资源进行手工检查,否则没有简单的方法能够自动识别并过滤掉它们。

在可能的情况下,建议通过抽样跟踪Web存档中的未使用域,来帮助表征资源集合并评估质量保证

的有效性。

b)别名

别名是一种替代性域名。域别名允许使用者将多个域名指向同一网站。互联网上有很多别名,可能

是因为域所有者希望使用多个域名来增加用户可见度。别名主要是通过重定向实现的。

在存档爬虫生成的报告中,尽管指向同一资源,别名依然被作为唯一的域。检测别名需要对来自同

一服务器的页面进行视觉比较或校验和比较。别名在选择性存档中更容易检测或相关性较低,更有可能

包含在批量采集中,并且会导致Web存档中的资源重复。

在可能的情况下,建议跟踪Web存档中检测到的别名,以帮助表征资源集合和资源去重。

4.2.5评估Web存档规模:统计字节数

目的

Web存档规模也可以以字节为单位来评估。字节数是一个有用的统计数据,能够帮助制定存储及其

他资源的规划。它相当于图书馆书架管理使用的延米或里。

方法

以字节为单位的存档规模可以通过将抓取报告中被抓取资源的规模相加或通过检查存档的磁盘占

用情况等其他自动化方法自动生成。

Web存档的规模一般都很大,规模范围从几百Gb的小型资源集合到几百Tb的国家资源集合。对于那

些采集全球Web资源并进行长期保存的机构,存档规模甚至达到了Pb级。存储Web存档的通用方法是进行

数据压缩。例如,ISO28500WARC文件格式规范的附录D(Web存档的标准存档格式)解释了如何使用GZIP

压缩WARC文档。

Web存档规模可以通过测量未压缩和压缩后两种方式来评估。但是在对存档进行基准测评时,使用

同样的标准很重要,即不能将压缩后的Web存档规模与未经压缩的Web存档规模进行比较。

18GB/Z××××—××××/ISO/TR14873:2013(E)

——压缩后的规模代表着资源的磁盘占有情况,它是用于提供存储及长期保存的参考规模。

——未压缩的规模代表在实时Web上的资源体量,它的目标是人类用户,从知识或内容角度来看这

很重要。

Web存档规模还可以在去重前、后进行评估,原因在中已列举。应再次明确表示计算方法。

使用容器文件来存储文件也是一种常用的方法,如ARC或WARC文件。容器化方法把文件集成起来,

使得存储和处理几个较大的文件比存储和处理大量小文件更容易。容器文件通常允许元数据与采集的资

源一起存储。容器文件的数量对于Web存档也是一个有用的统计数据,因为它们通常用作存储、数据交

换的基本管理单元,有时还用于长期保存的目的。

4.2.6资源集合建设的核心统计数据

表2资源集合建设的核心统计数据

统计数据目的例子

目标数采集目标/量化产出8000个目标

目标抓取实例数采集目标/量化产出14000个目标抓取实例

URL数(去重前后)量化产出采集了140亿个URL,去重后为100亿

按状态码分布的URL数各类型资源数量成功抓取200万个资源(状态码“200”)

域或主机数量化产出300万个域名

按字节计算的规模(未压缩及压缩后,去重之前有200TB未压缩资源,去重之后有

量化产出

去重前后)160TB压缩资源

WARC或任何其他容器文件数量化产出18000个WARC文件

4.3资源集合表征

4.3.1概述

本节中提出的统计数据描述了Web存档的特征,有助于确定Web存档的范围和做出明智的保存管

理决策。虽然有些统计数据只适用于选择性采集或批量采集,但其他统计数据是通用的,适用于使用这

两种策略建立的Web存档。

Web存档的规模通常避免由人工进行统计。有些统计数据只能通过抽样采集,特别是那些与批量采

集有关的数据。选择性采集可以通过人工采集统计数据,但只应在无需耗费不必要资源的情况下进行。

4.3.2通用统计数据

按顶级域和二级域分布

.1目的

顶级域(TLDs)标示Web存档中资源的地理分布。国家图书馆和档案馆有权保存国家的全部知识

产出,他们对这一统计数据特别感兴趣。用于特定领域、特定类别的机构的二级域也很有用,它揭示了

存档资源的广泛性质。例如,域名下的资源由中国政府机构发布。

.2方法

顶级域和二级域的分布可以从存档爬虫或其他分析域的自动化方法生成的报告中自动计算出来。域

的分布情况可以用绝对数量或者百分比来评估。列出Web存档中出现频率最高的前5个或前10个顶级

域也很有用。

——采集的国家顶级域的数量或百分比:法国国家图书馆最近抓取的域中,70%的URL为.fr域

19

GB/Z××××—××××/ISO/TR14873:2013(E)

名,3%的URL为.de域名。

——采集的二级域的数量或百分比:法国国家图书馆最近抓取的域中,1.5%的URL为.gouv.fr域

名,这些域名是由法国政府机构发布的。

如果一个Web存档中国家顶级域的比例大于其他域,则可视其为国家范围存档。

.3局限性

有些机构会将托管在它们国家顶级域之外的资源纳入考虑范围。例如,(丹麦公司)

虽然使用非.dk域名,但被视为丹麦网站。这表明国家顶级域并不总是足以界定国家域的范围或边界。

按每个域(和/或主机)的资源体量分布

.1目的

分析和报告每个域和/或主机下托管的资源规模以及这些资源在Web存档中的分布情况,不仅可以深

入了解资源集合的特征,还有助于管理抓取进程。

按Web存档中域和/或主机的规模分布可以揭示托管在某些特定类型域中的资源特征。同时也是存档

采集各种规模资源的能力标志,尤其是那些技术上难以抓取的大型网站。

对不同规模的资源按照域和/或主机进行分组也有助于配置和组织抓取进程。常见的做法是将相似

规模的域分组并作为独立的进程或“作业”进行抓取,因为它们需要相似的设置以及相似的时间来完成。

这种做法可以充分利用机器资源并简化监控和管理的任务。

.2方法

每个域和/或主机的资源体量可以用MB/GB/TB来评估:

·<10MB;

·<100MB;

·101-999MB;

·1GB;

·>1GB。

或者,也可以计算每个域中URL的数量:

·<10000URL;

·50000-100000URL;

·>100000URL。

确定实时Web上每个域的资源体量的唯一方法是使用搜索引擎提供的数据。对于Web存档,上述

统计数据可以从抓取报告中自动计算出来,或者通过其他分析存储文件的自动化方法来获得。

.3局限性

与前面章节中提出的一些其他统计数据一样,该统计数据在某种程度上是近似值。这些数据可以做

比较,在进行长期评估时会更有用。

按格式类型分布

.1目的

分析和报告Web存档中文件格式的分布是一项关键的数字保存活动,也是存档表征的一个元素。

为了管控与格式过时有关的保存风险,了解存档中存在的文件类型是非常必要的。

格式信息相当于图书馆传统上用于出版物目录的高级分类,如图片、电影和录音。长期采集这些信

息还可以揭示技术趋势,帮助我们了解Web的演变。

20GB/Z××××—××××/ISO/TR14873:2013(E)

.2方法

格式统计数据可以从抓取报告中自动计算出来,或者通过其他分析存储文件的自动化方法来获得。

格式类型的分布可以用不同的方式来计算和组织,例如:

——按资源类型:70%的文件是文本(如html),15%是图片(如jpeg和gif),3%是音频(如

mpeg);

——按最常见的文件格式(前50或前100):例如,html是最常见的文件格式;

——通过跟踪某些特定格式,从该格式在存档中首次出现开始,跟踪其随时间推移增加或减少的

情况;

——按最少使用的格式类型:例如,如果给定Web存档中的视频格式没有实时Web上的重要,这

表明它们可能不是存档中的典型格式。

.3局限性

分析Web存档

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论