DB32T3484-2018地方志数字化处理规范_第1页
DB32T3484-2018地方志数字化处理规范_第2页
DB32T3484-2018地方志数字化处理规范_第3页
DB32T3484-2018地方志数字化处理规范_第4页
DB32T3484-2018地方志数字化处理规范_第5页
已阅读5页,还剩8页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

ICS10.140.20

A14

备案号:60521-2018DB32

江苏省地方标准

DB32/T3484—2018

地方志数字化处理规范

Specificationfordigitizationofthelocalchronicles

2018-11-09发布2018-11-30实施

江苏省质量技术监督局发布

DB32/T3484—2018

地方志数字化处理规范

1范围

本标准规定了地方志数字化处理的术语和定义、基本流程及要求、原始文献资源管理、纸质文件扫

描、扫描文件文本化、内容数据制作与挂接、数据管理与保存。

本标准适用于对地方志纸质文献的数字化加工处理。

2规范性引用文件

下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件,仅注日期的版本适用于本文件。

凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。

GB/T2260中华人民共和国行政区划代码

GB/T5271.23-2000信息技术词汇第23部分:文本处理

GB/T13000信息技术.通用多八位编码字符集(UCS)

GB/T13923基础地理信息要素分类与代码

GB/T18521地名分类与类别代码编制规则

DA/T31-2017纸质档案数字化规范

3术语和定义

GB/T5271.23-2000界定的以及下列术语和定义适用于本文件。

3.1

地方志localchronicles

记载一定地区(或行政区划)自然和社会各方面历史和现状的综合性著述和资料性文献,主要包括

地方志书和地方年鉴。

注1:地方志书包括综合志书、专门志书。地方综合志书是全面系统地记述某一地域自然、政治、经济、文化、社

会和生态建设的历史与现状的资料性文献;地方专门志书是全面系统地记述某一专门领域历史与现状的资料

性文献。

注2:地方年鉴包括综合年鉴、专门年鉴。地方综合年鉴是全面系统地记述某一地域自然、政治、经济、文化、社

会和生态建设年度现状的资料性文献;地方专门年鉴是全面系统地记述某一专门领域年度现状的资料性文献。

3.2

数字化digitization

用计算机技术将模拟信号转换为数字信号的处理过程。

[DA/T31-2017,定义3.1]

3.3

1

DB32/T3484—2018

数字图片digitalimage

表示实物图像的整数阵列。一个二维或更高维的采样并量化的函数,由相同维数的连续图像产生。

在矩阵(或其他)网络上采样——连续函数,并在采样点上将值最小化后的阵列。

[DA/T31-2017,定义3.2]

3.4

地方志数字化digitizationofpaper-basedlocalchronicles

采用扫描仪等设备对地方志纸质文献进行数字化加工,使其转化为存储在磁带、磁盘、光盘等载

体上的数字图像、文本数据、图片数据、表格数据,并按照在纸质文献的内在联系,建立起目录数据、

内容数据、数字图像间的相互关联关系的处理过程。

3.5

准确率precision

文本文件中正确识别的字符数与总字符数之比。

3.6

光学字符识别opticalcharacterrecognition(OCR)

电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,

用字符识别方法将形状翻译成计算机文字的过程。

3.7

文本结构化textstructured

对文本内容进行分级分层标记,形成与地方志书目对应的结构化文本数据的过程。

4基本流程及要求

4.1基本流程

地方志数字化基本流程见图1,包括但不限于:

a)原始文献资源管理;

b)纸质文献图像化;

c)图像文件文本化;

d)结构化数据制作与挂接;

e)数据质量管理与保存。

2

DB32/T3484—2018

原始文献资源管理

a)目录数据

b)纸质文献扫描

扫描文件

结构数据

地方志纸质书籍

c)扫描文件文本化

d)结构化数据

制作与挂接文本数据

内容数据

图片数据

表格数据

图1地方志数字化流程图

4.2文本数据格式选择

应符合GB/T13000的要求,对于纯西文字符采用ASCII码。

4.3图片数据格式选择

4.3.1长期保存的文件

编码格式选用TXT、XML、PDF、DOCX(DOC)格式中的一种,其中XML文件符合标准的XML语言规范,

并遵守对应的Schema。

4.3.2复制加工级的文件

编码格式选用RTF、DOCX(DOC)格式中一种。

4.3.3发布服务级的文件

编码格式选用格式HTML、PDF、DOCX(DOC)、TXT格式中一种。

4.4数据编码要求

地方志书目及内容编码见第10部分编码方法

5原始文献资源管理

5.1扫描前处理

扫描前处理应按照DA/T31-2017中第7部分的要求。

5.2建立目录数据库

5.2.1目录数据库数据规则的制定应符合《地方志著录元数据规范》的要求,地方志书目编码应符合

本标准10.2的要求。应按照项目需求制定目录数据库数据规则,包括数据字段长度、字段类型、字段

内容要求等。

5.2.2数据库选择应考虑可转换为通用数据格式。

5.2.3数据库结构的设计应保持文件的内在联系,有利于纸质文献数字化成果的管理和利用。

3

DB32/T3484—2018

5.2.4将扫描前处理工作中对地方志目录进行修改、补充的结果录入数据库,形成准确、完整的目录

数据。

5.2.5可采用计算机自动校对与人工校对相结合的方式,对目录数据的质量进行检查,包括著录项目

的完整性、著录内容的规范性和准确性等。发现不合格的数据应及时进行修改。

6纸质文献扫描

6.1纸质文献扫描

纸质地方志文件扫描工作应按照DA/T31-2017中第9部分的要求。

6.2扫描文件处理

地方志图像文件处理工作应按照DA/T31-2017中第10部分的要求。

6.3扫描文件管理

地方志图像文件管理工作应按照DA/T31-2017中第11部分的要求。

6.4扫描工作验收

地方志扫描工作验收标准应按照DA/T31-2017中第12部分的要求。

7扫描文件文本化

7.1基本方法

使用OCR相关软件对地方志文献进行文字识别。

7.2操作要求

7.2.1OCR文字识别质量与地方志文献扫描质量、文献材质等有关,识别完成后应进行文字校对,确

保准确率在99%以上。

7.2.2图片识别过程中出现图片重叠时,应对每张图片进行完成截取,以最小外包矩形进行截图,必

要时截取框内可包含其他内容。

7.3质量控制

应以交叉检查或专人检查等方式对识别结果进行质量控制,确保完整、准确地提取到地方志所有文

本内容。

8内容数据制作与挂接

8.1内容数据

地方志内容数据包括结构数据、文本数据、图片数据和表格数据,其中结构数据为地方志内容中封

面、附图、目录、编撰机构等板块;文本数据包括地方志正文与附加内容中的文本数据,文本数据包括

篇(卷、编)、章、节、目(段、单元)4个级别,其中目(段、单元)级别为最小结构单元;图片、

表格数据包括地方志中所有的图片与表格。

4

DB32/T3484—2018

8.1.1结构数据制作

对地方志结构数据进行存储,存储书目主体结构内容,包括序、目录、正文、附录等地方志文献主

体结构内容,通过页码范围与地方志图像文件相关联。

8.1.2正文文本数据制作

对地方志正文中的篇、章、节、目数据进行存储,以文本形式以及半结构化的XML等形式相结合的

方式进行存储。

8.1.3附加文本数据制作

附加文本主要包括地方志书目的序、编辑出版情况、附录等书目主体内容之外的信息,以文本形式

以及半结构化的XML等形式相结合的方式进行存储。

8.2图片数据制作

8.2.1基本方法

图片数据制作包括图名、图片、备注及其他相关信息的提取,并建立单独文件夹进行存储。图名按

文字识别方法进行提取,图片在图像识别过程中单独提取,并与图名相对应。备注及其他相关信息按项

目需求酌情提取。

8.2.2操作要求

图片提取应注意图名与图片等信息输出顺序,确保数据存储时图名与图片数据相对应。

8.3表格数据制作

8.3.1基本方法

8.3.1.1表格数据制作包括表名、表格、备注及其他相关信息的提取,并建立单独文件夹进行存储。

表名按文字识别方法进行提取,表格在图像识别过程中单独提取,并与表名相对应。备注及其他相关信

息按项目需求酌情提取。

8.3.1.2根据实际应用选择表格存储形式。可直接以图片形式存储,或将表格内容单独识别,以CSV

等格式进行存储。

8.3.2操作要求

表格提取应注意表名与表格等信息输出顺序,确保数据存储时表名与表格数据相对应。

8.3.3文本数据存储

内容分为:

a)正文内容:以段落的形式存储为文本文件;

b)关联信息:存储该段的前后关联、所属章节、相关图表等关联内容,以半结构化的XML内容进

行存储。

8.3.4图片存储

内容分为:

a)图片:存储为各种图片格式;

5

DB32/T3484—2018

b)关联信息:存储该图片的前后关联、所属章节、相关文本等关联内容,以半结构化的XML内容

进行存储。

8.3.5表格存储

内容分为:

a)表格:存储为EXCEL等图表格式;

b)关联信息:存储该表格的前后关联、所属章节、相关文本等关联内容,以半结构化的XML内容

进行存储。

8.4数据挂接

数据挂接要求包括但不限于:

a)结合相关软件及人工操作对数据库中的目录数据、扫描文件、结构数据、文本数据、图片数据、

表格数据进行挂接,以实现数据间的相互关联,数据约束关联见图2;

b)逐条对挂接结果进行检查,包括挂接内容的准确性、一致性。

文本数据

目录数据1:1结构数据1:N

1:N

1:11N图片数据

扫描文件封面版权页

......表格数据

图2地方志数据约束关联图

8.5质量控制

数据质量控制包括但不限于以下内容:

a)采用计算机自动检验的方式对文本数据进行100%检验,检验合格率应为99.95%;

b)采用抽检的方式对目录数据、扫描文件、图片数据、表格数据进行检验,各类数据抽检比例不

低于20%,确保碎片化数据质量并建立记录;

c)采用抽检的方式对数据挂接进行检验,各类挂接抽检比例不低于20%,确保数据挂接质量并建

立记录。

9数据管理与保存

9.1保存方式

9.1.1宜选择多样化的存储设备存放数据,不宜以文件静态存储的模式。应以专业数据库为有限数据

存储模式,采用安全可控或专业类数据库,并同步使用数据库配套管理软件对数据的存储、分类、状态

进行管理。

9.1.2根据实际情况,制定数字资源保存策略,可采用在线、离线相结合的方式进行数据的多套备份,

并注意异地保存。

6

DB32/T3484—2018

9.1.3存储设备的保存环境必须严格按照存储介质自身性能的要求,在温度、湿度、避光、防磁场等

方面达到规定指标,应配置专门的存放设备空间。

9.2数据检查

定期检查保存在存储介质的数据,对不能识读的数据进行登记,及时进行恢复和副本复制。

9.3数据维护

9.3.1数据维护应使用信息化管理手段进行,宜以配套数据管理软件作为主要维护工具,可对数据的

版本进行管理。

9.3.2在没有配套管理软件的情况下,根据数字资源存取的要求、存储介质的变化情况,定期检查数

据。对不能识读的数据,应进行数据更新与迁移。

9.3.3数据维护首先采取更新的办法,找到备份的数字资源,按原样复制。根据数字资源被识别、检

索和使用的环境,分别采取硬件迁移、软件迁移、格式迁移的备份方法。

10编码方法

10.1编码原则

10.1.1科学性

以适合现代计算机和数据库技术应用和管理为目标,选择地方志资源的要素特征或属性进行科学分

类,形成系统的分类及编码体系。

10.1.2稳定性

选择各要素最稳定的特征和属性作为分类依据,保证在较长时间里不发生重大变更。顶层的分类和

代码结构在长时间内具有稳定性和确定性,底层的分类和要素可根据不同领域的具体情况及要求进行扩

充。

10.1.3完整性

尽可能覆盖所有的地方志要素类型,反映要素的类型特征和相互关系,具有较好的完整性。

10.1.4可扩展性

应留有适当的扩充余地,在增加新的信息时不破坏原有的分类及编码体系结构。

10.1.5兼容性

以图书馆、地名学的学科分类为基础,保持与GB/T13923、GB/T18521良好的兼容性。

10.1.6适用性

充分考虑与国内外标准的衔接,要素名称尽量沿用习惯名称,使类目涵义尽可能专指,针对不同类

别地方志的数量和使用频率,确定各个类别的分类及编码层次。

10.2编码规则

10.2.1书目编码规则

7

DB32/T3484—2018

地方志编码由15位组成:前2位代表地方志类型,其中“NJ”代表年鉴,“ZS”代表志书;第3位代

表地方志内容所属图书类别,编码规则应符合附录A,其中A~X为专门型地方志(包括专门年鉴和专门

志书)的图书类别编码,Z为综合型地方志(包括综合年鉴和综合志书)的图书类别编码;第4~9位共6

位为年鉴所属地行政区划代码,应符合GB/T2260的要求;第10~13位共4位为地方志记事下限的年份;

第14~15位为卷次编号,代表地方志在该年份该区划的卷次,00代表只有唯一一卷,若有多卷,则01

代表第一卷、02代表第二卷,依次类推,示意图见图3。

XXXXXXXXXXXXXXX

地方志类型行政区划卷次编号

图书类别记事下限

图3地方志书目编码规则示意图

书目编码示例:

《南通市志(1983~2005)》属于综合志书,其书目编码位ZSZ320600200500,示例见图4。

ZSZ320600200500

志书南通市唯一卷

综合类2005年

图4志书编码示例图

《江苏卫生年鉴(2014卷)》属于医药、卫生类型的专门年鉴,其书目编码为NJR320000201400,

示例见图5。

NJR320000201400

年鉴江苏省唯一卷

医药、卫生类2014年

图5年鉴编码示例图

10.2.2书目结构单元编码规则

地方志书目结构单元包括封面、附图等,具体书目结构类型及代码见表1。地方志书目结构编码由

由19位组成:前15位为所属地方志书目编码;第16~17位为书目结构顺序码,第18~19位为书目结构类

型代码,示意图见图6。

8

DB32/T3484—2018

XXXXXXXXXXXXXXXXXXX

书目编码书目结构

顺序码

书目结构

类型代码

图6地方志书目结构单元编码示意图

表1书目结构代码表

结构内容结构代码

封面FM

版权页BQ

扉页FY

图录(彩图页)TL

政区图ZT

其他地图QT

序XX

附文FW

编纂机构和审编人员BS

编辑说明BJ

总目ZM

目录ML

正文ZW

封底FD

其他ZZ

10.2.3正文结构单元编码规则

10.2.3.1地方志正文结构单元分为篇(卷、编)、章、节、目(段、单元)4个级别,其中目(段、

单元)级别为最小结构单元。

10.2.3.2地方志正文结构中最小结构单元编码由28位组成:前15位为所属地方志书目编码;第16

位为字母P,第17~18位为篇编号;第19位为字母Z,第20~21位为章编号;第22位为字母J,第

23~24位为节编号;第25位为字母M,第26~28位为目编号。其中前18位为篇编码,前21位为章编

码,前24位为节编码,全部29位为目编码,示意图见图7。

XXXXXXXXXXXXXXXPXXZXXJXXMXXX

书目编码篇编号章编号节编号目编号

图7正文结构单元编码规则示意图

10.2.4表格编码规则

表格编码由28位组成:前24为表格所属节编码;第25位为字母B,26~28位为3位表格顺序码,即从

001开始依次按顺序给本节内的所有表格进行编码,示意图见图8。

9

DB32/T3484—2018

XXXXXXXXXXXXXXXPXXZXXJXXBXXX

书目编码篇编号章编号节编号图顺序号

图8表格编码规则示意图

10.2.5图片编码规则

图片编码由28位组成:前24为图片所属节编码;第25位为字母T,26~28位为3位图片顺序码,即从

001开始依次按顺序给本节内的所有图片进行编码,示意图见图9。

XXXXXXXXXXXXXXXPXXZXXJXXTXXX

书目编码篇编号章编号节编号图顺序号

图9图片编码规则示意图

10

DB32/T3484—2018

附录A

(规范性附录)

中国图书馆图书分类及大类号

表A.1中国图书馆图书分类及大类号

分类号图书分类

A马克思主义、列宁主义、毛泽东思想

B哲学

C社会科学总论

D政治、法律

E军事

F经济

G文化、科学、教育、体育

H语言、文字

I文学

J艺术

K历史、地理

N自然科学总论

O数理科学和化学

P天文学、地球科学

Q生物科学

R医药、卫生

S农业科学

T工业技术

U交通运输

V航空、航天

X环境科学

Z综合性图书

11

DB32/T3484—2018

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论